química computacional 1ª parte: quimio-informática...

Post on 02-Dec-2018

218 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1© João Aires de Sousa

Química Computacional

1ª Parte: Quimio-informática

Moodle:http://moodle.fct.unl.pt/course/view.php?id=2753

João Aires de SousaEmail: jas@fct.unl.pt

Gabinete 332

2© João Aires de Sousa

Objectivos

• Conhecimentos sobre métodos computacionais para arquivar e processar informação química.

• Conhecimentos teóricos e práticos sobre métodos computacionais para o estabelecimento de relações entre estrutura e propriedades.

3© João Aires de Sousa

Exemplos de problemas

• Faça download do ficheiro 2.2.smi. Trata-se dum ficheiro com 1500 estruturas diferentes em formato SMILES. Proponha uma estratégia, e execute-a, para encontrar no ficheiro a estrutura mais parecida com o alcaloide estilopina. (Encontre na www, via Google, a estrutura de 'stylopine').

• Faça download dos ficheiros 2.6A.sdf e 2.6B.smi. O primeiro é um ficheiro com 300 estruturas em formato sdf, o segundo tem 248 estruturas moleculares em formato SMILES. Quantas moléculas (e quais) do primeiro ficheiro existem também no segundo?

• Construa uma árvore de decisão que preveja a propriedade biológica X a partir dos descritores calculados para o conjunto de treino. Obtenha previsões para o conjunto de teste.

4© João Aires de Sousa

Programa

Representação da estrutura molecular e reacções. Necessidade e estratégias para a representação de compostos químicos. A notação linear SMILES. Os formatos MDL Molfile e Sdfile. Software para a interconversão de ficheiros e para a estandardização de estruturas. Hashed fingerprints e hash codes. Definições de similaridade entre moléculas. Representação de estruturas 3D. Representação de reacções nos formatos SMILES e MDL Rdfile.

Descritores moleculares. Descritores constitucionais. Descritores de fragmentos. Descritores topológicos. O índice de Wiener. Vectores de autocorrelação 2D. Descritores 3D. Funções de distribuição radial. Software para o cálculo de descritores moleculares.

Introdução às relações quantitativas estrutura-propriedade (QSPR) e estrutura-actividade (QSAR). Selecção de conjuntos de treino, validação e previsão. Selecção de descritores. Treino e avaliação de modelos.

Métodos para análise de dados. Regressões multilineares. Árvores de decisão. Redes neuronais de back-propagation. Redes neuronais de Kohonen. Redes neuronais de counterpropagation.

5© João Aires de Sousa

Bibliografia

Chemoinformatics - a Textbook, Gasteiger, J. Engel, T., Eds.; Wiley-VCH: Weinheim, 2003.

Leach, A. R.; Gillet, V. J. An Introduction to Chemoinformatics, 2ª ed.; Springer: Dordrecht, 2007.

Handbook of Chemoinformatics, Johann Gasteiger, Wiley-VCH, 2003.

Moodle: http://moodle.fct.unl.pt/course/view.php?id=2753

6© João Aires de Sousa

QUIMIO-INFORMÁTICA

7© João Aires de Sousa

Cheminformatics (also known as chemoinformatics and chemical informatics) is the use of computer and informational techniques, applied to a range of problems in the field of chemistry.

These in silico techniques are used in pharmaceutical companies in the process of drug discovery.

In the U.S., recent NIH emphasis has been placed on developing public domain Cheminformatics research by creating six Exploratory Centers for Cheminformatics Research (ECCRs) as part of the NIH Molecular Libraries Initiative.

Definição (wikipedia)

QUIMIO-INFORMÁTICA

8© João Aires de Sousa

Dimensão do domínio

9© João Aires de Sousa

Tipo de informação

• Estruturas moleculares (compostos)

• Propriedades (físicas, químicas, biológicas)

• p.f.,, viscosidade, solubilidade, espectros,…

• electrofilicidade, estabilidade, …

• toxicidades, actividades farmacológicas, …

• Reacções

10© João Aires de Sousa

Tipos de aprendizagem

• Aprendizagem dedutiva (métodos quânticos,

mecânica molecular)

• Aprendizagem indutiva (“aprender como os

químicos orgânicos têm aprendido”): métodos de

inteligência artificial, aprendizagem automática,

métodos estatísticos, relações estrutura/propriedade

11© João Aires de Sousa

Hierarquia de representação de estruturas

Nome (S)-Triptofano

Estrutura 2D

Estrutura 3D

Superfície molecular

12© João Aires de Sousa

Arquivo de estruturas no computador

13© João Aires de Sousa

Arquivo de estruturas no computador

• Para transferir informação é necessário codificá-la em formatos

interconvertíveis, que possam ser lidos por aplicações.

• Aplicações: visualização, gestão/pesquisa em bases de dados,

identificação de relações estatísticas entre estrutura e propriedades,

cálculo de propriedades, …

14© João Aires de Sousa

Codificação de estruturas

• Uma representação não ambígua identifica uma só estrutura possível

(ex: o nome ‘tolueno’).

• Uma representação é única se uma dada estrutura só puder ser

representada de uma forma (alguma nomenclatura não é, ex: 1,2-

dimetilbenzeno e o-xileno representam a mesma estrutura).

15© João Aires de Sousa

Nomenclatura IUPAC

Nome IUPAC: N-[(2R,4R,5S)-5-[[(2S,4R,5S)-3-acetamido-5-[[(2S,4S,5S)-3-acetamido-4,5-dihydroxy-6-(hydroxymethyl)oxan-2-yl]methoxymethyl]-4-hydroxy-6-(hydroxymethyl)oxan-2-yl]methoxymethyl]-2,4-dihydroxy-6-(hydroxymethyl)oxan-3-yl]acetamide

16© João Aires de Sousa

Nomenclatura IUPAC

• Vantagens:

• classificação sistemática estandardizada

• inclui estereoquímica

• bem difundida

• não ambígua

• permite reconstrução

• Desvantagens:

• regras complicadas

• nomes alternativos possíveis (não única)

• nomes complicados

Nome IUPAC: N-[(2R,4R,5S)-5-[[(2S,4R,5S)-3-acetamido-5-[[(2S,4S,5S)-3-acetamido-4,5-dihydroxy-6-(hydroxymethyl)oxan-2-yl]methoxymethyl]-4-hydroxy-6-(hydroxymethyl)oxan-2-yl]methoxymethyl]-2,4-dihydroxy-6-(hydroxymethyl)oxan-3-yl]acetamide

17© João Aires de Sousa

Notações lineares

Representam estruturas por sequências lineares de letras e números

(ex: nomenclatura IUPAC).

Notações lineares podem ser extremamente compactas, o que pode

ser uma vantagem para armazenar estruturas num computador

(sobretudo quando o espaço em disco era precioso…).

Permitem transmitir estruturas facilmente (por ex. uma pesquisa tipo

Google, ou uma estrutura no meio duma mensagem de email).

18© João Aires de Sousa

Notação SMILES

1. Átomos são representados pelos seus símbolos atómicos.

2. Átomos de H são omitidos (ficam implícitos).

3. Átomos vizinhos ficam um a seguir ao outro.

4. Ligações duplas representam-se por ‘=‘, triplas por ‘#’.

5. Ramificações representam-se por parênteses.

6. Anéis são representados atribuindo dígitos ao dois átomos que

fecham o anel.

Exemplo: Representação SMILES: CCCO

Exemplo: SMILES: CCC(Cl)C=C

19© João Aires de Sousa

Notação SMILES

1. Átomos são representados pelos seus símbolos atómicos.

2. Átomos de H são omitidos (ficam implícitos).

3. Átomos vizinhos ficam um a seguir ao outro.

4. Ligações duplas representam-se por ‘=‘, triplas por ‘#’.

5. Ramificações representam-se por parênteses.

6. Anéis são representados atribuindo dígitos ao dois átomos que

fecham o anel.

SMILES: CCC(Cl)C=C

a

b

c

d

e

f

a b c d e f

20© João Aires de Sousa

Notação SMILES

1. Átomos são representados pelos seus símbolos atómicos.

2. Átomos de H são omitidos (ficam implícitos).

3. Átomos vizinhos ficam um a seguir ao outro.

4. Ligações duplas representam-se por ‘=‘, triplas por ‘#’.

5. Ramificações representam-se por parênteses.

6. Anéis são representados atribuindo dígitos ao dois átomos que

fecham o anel.

SMILES: C1CCCCC1

1

21© João Aires de Sousa

Notação SMILES

1. Átomos são representados pelos seus símbolos atómicos.

2. Átomos de H são omitidos (ficam implícitos).

3. Átomos vizinhos ficam um a seguir ao outro.

4. Ligações duplas representam-se por ‘=‘, triplas por ‘#’.

5. Ramificações representam-se por parênteses.

6. Anéis são representados atribuindo dígitos ao dois átomos que

fecham o anel.

7. Anéis aromáticos representam-se com os átomos em minúsculas.

SMILES: Nc1ccccc1

22© João Aires de Sousa

Notação SMILES

• Não é ambígua (um SMILES representa inequivocamente uma só

estrutura).

• É única ??

• Solução: algoritmo que garante sempre a mesma representação

(canónica) para cada composto.

• Mais em: http://www.daylight.com/dayhtml_tutorials/index.html

SMILES: Nc1ccccc1

mas também c1ccccc1N

ou c1cc(N)ccc1

23© João Aires de Sousa

Notação SMILES no MarvinSketch

Paste

24© João Aires de Sousa

Notação SMILES no MarvinSketch

25© João Aires de Sousa

Notação InChI(IUPAC International Chemical Identifier)

Exemplo:

Equivalente digital ao nome IUPAC para um composto.

Cinco camadas de informação: de conectividade, tautomérica, isotópica, estereoquímica e electrónica.

Algoritmo que gera uma notação não ambígua e única.

Web site oficial: http://www.iupac.org/inchi/

26© João Aires de Sousa

Teoria de grafos

Uma estrutura molecular pode ser interpretada como um grafo matemático em que cada átomo é um vértice e cada ligação é uma aresta.

Permite processar estruturas moleculares matematicamente usando teoria de grafos.

H3C CH3

H3C

27© João Aires de Sousa

Representação por matrizes

Uma estrutura molecular com n átomos pode ser representada por uma matriz de tamanho n × n (por vezes os átomos de H podem ser omitidos).

Matriz de adjacência: indica que átomos estão ligados.

1

2

3

4

5

6

1 2 3 4 5 6

1 0 1 0 0 0 0

2 1 0 1 0 0 0

3 0 1 0 1 1 0

4 0 0 1 0 0 0

5 0 0 1 0 0 1

6 0 0 0 0 1 0

28© João Aires de Sousa

Representação por matrizes

Uma estrutura molecular com n átomos pode ser representada por uma matriz de tamanho n × n (por vezes os átomos de H podem ser omitidos).

Matriz de adjacência: indica que átomos estão ligados.

1

2

3

4

5

6

1 2 3 4 5 6

1 1

2 1 1

3 1 1 1

4 1

5 1 1

6 1

29© João Aires de Sousa

Representação por matrizes

Uma estrutura molecular com n átomos pode ser representada por uma matriz de tamanho n × n (por vezes os átomos de H podem ser omitidos).

Matriz de adjacência: indica que átomos estão ligados.

1

2

3

4

5

6

1 2 3 4 5 6

1 1

2 1

3 1 1

4

5 1

6

30© João Aires de Sousa

Representação por matrizes

Matriz de distâncias: indica as distâncias entre átomos.

Distância definida como número de ligações entre os dois átomosao longo do caminho mais curto.

1

2

3

4

5

6

1 2 3 4 5 6

1 0 1 2 3 3 4

2 1 0 1 2 2 3

3 2 1 0 1 1 2

4 3 2 1 0 2 3

5 3 2 1 2 0 1

6 4 3 2 3 1 0

Distância também pode ser definida como distância 3D entre os dois átomos.

31© João Aires de Sousa

Representação por matrizes

Matriz de ligações: indica que átomos estão ligados e as ordens das ligações.

1

2

3

4

5

6

1 2 3 4 5 6

1 0 1 0 0 0 0

2 1 0 1 0 0 0

3 0 1 0 1 1 0

4 0 0 1 0 0 0

5 0 0 1 0 0 2

6 0 0 0 0 2 0

32© João Aires de Sousa

Tabela de conectividade

A representação por matrizes tem a desvantagem de o tamanho aumentar com o quadrado do número de átomos.

Uma tabela de conectividade lista os átomos existentes na molécula e lista as ligações entre eles (pode incluir átomos de H ou não).

1

2

3

4

5

6

Lista de átomos1 C2 C3 C4 Cl5 C6 C

Lista de ligações 1º 2º ordem 1 2 1 2 3 1 3 4 1 3 5 1 5 6 2

33© João Aires de Sousa

O formato MDL Molfile( http://www.mdli.com/downloads/public/ctfile/ctfile.jsp )

1

2

3

4

5

6

Nº de átomos

Nº de ligações Descrição de um átomo

Descrição de uma ligação

34© João Aires de Sousa

O formato MDL Molfile

35© João Aires de Sousa

O bloco dos átomos

36© João Aires de Sousa

O bloco dos átomos

37© João Aires de Sousa

O bloco dos átomos

38© João Aires de Sousa

O bloco dos átomos

39© João Aires de Sousa

O bloco dos átomos

40© João Aires de Sousa

O formato MDL Molfile

41© João Aires de Sousa

O bloco das ligações

42© João Aires de Sousa

O bloco das ligações

43© João Aires de Sousa

O bloco das ligações

44© João Aires de Sousa

O bloco das ligações

45© João Aires de Sousa

O formato MDL Molfile

46© João Aires de Sousa

O bloco das propriedades

2 átomos com carga

47© João Aires de Sousa

O bloco das propriedades

2 átomos com carga

átomo 4: carga +1átomo 6: carga -1

48© João Aires de Sousa

O bloco das propriedades

1 entrada para um isótopo

49© João Aires de Sousa

O bloco das propriedades

1 entrada para um isótopo

átomo 3: massa=13

50© João Aires de Sousa

O formato SDFile (.SDF)

Inclui informação estrutural em formato Molfilee dados associados para um ou mais compostos.

Molfile1Dados associados$$$$Molfile2Dados associados$$$$…

51© João Aires de Sousa

O formato SDFile (.SDF)

Molfile1Dados associados$$$$Molfile2Dados associados$$$$…

Exemplo

Dados associados (molecular)

52© João Aires de Sousa

O formato SDFile (.SDF)

Molfile1Dados associados$$$$Molfile2Dados associados$$$$…

Exemplo

Dados associados (atómicos)

53© João Aires de Sousa

O formato SDFile (.SDF)

Molfile1Dados associados$$$$Molfile2Dados associados$$$$…

Exemplo

Dados associados (molecular)

54© João Aires de Sousa

O formato SDFile (.SDF)

Molfile1Dados associados$$$$Molfile2Dados associados$$$$…

Exemplo

Início do Molfile2

Separador

55© João Aires de Sousa

O formato SDFile (.SDF)

Molfile1Dados associados$$$$Molfile2Dados associados$$$$…

Exemplo

56© João Aires de Sousa

O programa Standardize (JChem)

• Interconversão de formatos

• Geração de SMILES únicos

• Estandardização de estruturas

• Adicionar Hs, retirar Hs, identificar sistemas aromáticos, limpar estereoquímica, …

• Geração de estruturas 3D

57© João Aires de Sousa

O programa Standardize

58© João Aires de Sousa

Estruturas de Markush

Um diagrama de estruturas de Markush é um tipo de representação específica de uma SÉRIE de compostos químicos.

O diagrama não descreve apenas uma estrutura, mas várias famílias de compostos.

Tem um esqueleto base e substituintes que são listados como texto, separadamente do diagrama.

R1= H, halogénio, OH, COOHR2= H, CH3

X= Cl, Br, CH3

Usadas especialmente em bases de dados de patentes.

59© João Aires de Sousa

Representação de fragmentos moleculares

Tal como um documento de texto pode ser indexado usando palavras ou expressões nele contidas, uma estrutura química pode ser indexada usando fragmentos.

Podem ser por exemplo pequenos grupos de átomos, grupos funcionais, ou anéis, que são previamente definidos.

É uma representação ambígua: estrutura diferentes podem ter fragmentos comuns.

Fragmentos:• -OH• -COOH• >C=O• -NH2• -3-indole

60© João Aires de Sousa

Fingerprints

Codificam a presença num composto de determinadas características, por exemplo fragmentos.

0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0

Se forem definidos 20 fragmentos, o fingerprint tem um comprimento de 20.

Representação ambígua. Permite pesquisas de semelhanças.

61© João Aires de Sousa

‘Hashed Fingerprints’

Codificam a presença de sub-estruturas. Estas não estão previamente definidas.

São listados todos os padrões de• 1 átomo• 2 átomos ligados e a sua ligação• Sequências de 3 átomos e as suas ligações• Sequências de 4 átomos e as suas ligações• …

Padrões até 3 átomos • C, N, O• C-C, C-N, C=O, C-O• C-C-C, C-C-N, C-C=O, C-C-O, O=C-O

62© João Aires de Sousa

‘Hashed Fingerprints’

Cada padrão activa um determinado nº de posições do fingerprint (bits), por exemplo duas:

C-N C-C-C C-C=O

0 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0

Os bits que são activados por um dado padrão são determinados por um algoritmo. O mesmo padrão activa sempre os mesmos bits. O algoritmo é capaz de atribuir bits a qualquer padrão que apareça.

Pode haver colisões. Não é preciso pré-definir fragmentos. Mas também não é possível interpretar os fingerprints.

63© João Aires de Sousa

‘Hashed Fingerprints’

C-N C-C-C C-C=O

0 0 1 0 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0

Átomos de H omitidos. Estereoquímica não considerada.

Variáveis a definir: comprimento do fingerprint, tamanho dos padrões e nº de bits activados por cada padrão.

Principal aplicação: pesquisa de semelhanças em grandes bases de dados.

64© João Aires de Sousa

‘Hashed Fingerprints’Influência das variáveis

Comprimento do fingerprint:• muito pequeno ⇒ quase todos os bits=1, não distingue moléculas.• muito grande ⇒ muitos bits=0, desperdiça espaço.

Tamanho máximo dos padrões:• muito pequenos ⇒ pouca capacidade para distinguir moléculas.• muito grandes ⇒ capacidade para distinguir moléculas, mas muitos

bits=1.

Nº de bits activados por cada padrão:• poucos ⇒ pouca capacidade para distinguir padrões.• muitos ⇒ capacidade para distinguir padrões, mas muitos bits=1.

Mais em: http://www.daylight.com/dayhtml/doc/theory/theory.finger.html

65© João Aires de Sousa

‘Hashed Fingerprints’ou Daylight fingerprints

Podem ser calculados com o comando generfp do programa JCHEM (Chemaxon).

Comprimento (em bytes)

Tamanho máximo dos padrões

Nº de bits activados por padrão

Ficheiro de input

Ficheiro de output

66© João Aires de Sousa

‘Hashed Fingerprints’ou Daylight fingerprints

Podem ser calculados com o comando generfp do programa JCHEM (Chemaxon).

67© João Aires de Sousa

Cálculo de semelhanças com fingerprints

A semelhança entre dois compostos X e Y pode ser calculada com base na semelhança entre os seus fingerprints.

a = nº de bits ‘on’ no composto X mas não no Y.b = nº de bits ‘on’ no composto Y mas não no X.c = nº de bits ‘on’ tanto no composto X como no Y.d = nº de bits ‘off’ tanto no composto X como no Y.

n = ( a + b + c + d ) é o total de bits

Coeficiente Euclideano:( c + d ) / n (quantos bits são iguais em X e Y)

Coeficiente de Tanimoto:c / (a + b + c)

68© João Aires de Sousa

‘Hash codes’

São transformações da estrutura molecular numa sequência de letras e/ou números. Codificam fragmentos existentes na molécula.

Têm comprimento variável, dependente do composto.

Não são interpretáveis. São usados como identificadores únicos de estruturas, por exemplo para pesquisar rapidamente numa grande base de dados se existe um determinado composto.

Também podem ser definidos para átomos ou ligações.

69© João Aires de Sousa

Representação da estereoquímica

Regras Cahn-Ingold-Prelog (CIP)

Úteis para nomenclatura mas difíceis de implementar: determinação das prioridades.

Mas num ficheiro Molfile? Os átomos estão ordenados…Podemos atribuir prioridades consoante a numeração no ficheiro.

1

2

3

1

2

3

Prioridades CIP: OH > CO2H > CH3 > H

70© João Aires de Sousa

Representação da estereoquímica

Paridade nos ficheiros Molfile

1. Numerar os 4 átomos ligados a um centro quiral de 1 a 4 de acordo com a numeração no bloco dos átomos (se um for H atribui-se o número 4).

2. Olhar para o centro quiral de modo que a ligação ao átomo 4 fica

para trás do plano definido pelos átomos 1, 2 e 3.

3. Se a ordem ascendente (1,2,3) está no sentido dos ponteiros do relógio, a paridade é ‘1’. No caso contrário é ‘2’.

71© João Aires de Sousa

Representação da estereoquímica

Ficheiro Molfile

Centro quiral: átomo 1. Ligandos: átomos 2, 3, 4 e H. Considera-se H o último. Visualiza-se o centro quiral com o último para trás (é como está na Figura). A ordem ascendente é no sentido contrário ao relógio.

Logo paridade = 2.

72© João Aires de Sousa

Representação da estereoquímicaficheiro Molfile

Centro quiral: átomo 4. Ligandos: átomos 1, 3, 5 e H. Considera-se H o último. Visualiza-se o centro quiral com o último para trás (é como está na Figura). A ordem ascendente é no sentido do relógio.

Logo paridade = 1.

1. Numerar os 4 átomos ligados a um centro quiral de 1 a 4 de acordo com a numeração no bloco dos átomos.

2. Olhar para o centro quiral de modo que a ligação ao átomo 4 fica para trás do plano definido pelos átomos 1, 2 e 3.

3. Se a ordem ascendente (1,2,3) está no sentido dos ponteiros do relógio, a paridade é ‘1’. No caso contrário é ‘2’.

73© João Aires de Sousa

Representação da estereoquímicaficheiro Molfile - bloco das ligações

74© João Aires de Sousa

Representação da estereoquímicano formato SMILES

A quiralidade num centro tetraédrico é especificada com os caracteres @ (sentido oposto ao do relógio) ou dois @ (sentido do relógio). Olhando a partir do 1º ligando que aparece no SMILES, os outros três aparecem no sentido do relógio ou oposto a este na ordem listada.

C[C@H](N)C(O)=O

O

NH2

H3C

OH

Centro quiral

2º 3º 4º

4º>(

@

75© João Aires de Sousa

Representação da estereoquímicacis-trans de ligações duplas

A estereoquímica em redor duma ligação dupla (estereoquímica cis/trans) é especificada com os caracteres ‘\’ e ‘/’.

Cl

ClPor exemplo trans-1,2-dicloroeteno é Cl/C=C/Cl (a partir do 1º cloro a ligação vai para cima para C=C e desta vai para cima para o 2º cloro).

Cl Cl

cis-1,2-dicloroeteno é Cl/C=C\Cl (a partir do 1º cloro a ligação vai para cima para C=C e desta vai para baixo para o 2º cloro).

76© João Aires de Sousa

Representação da estereoquímicacis-trans de ligações duplas

A estereoquímica em redor duma ligação dupla (estereoquímica cis/trans) é especificada com os caracteres ‘\’ e ‘/’.

C\C(F)=C(/C)Cl

Dois substituintes cis

F Cl

H3C CH3

Ligação para baixoLigação para cima

77© João Aires de Sousa

Representação da estrutura 3D

A estrutura tridimensional determina muitas propriedades das moléculas (por exemplo muitas propriedades biológicas).

Isomeria conformacional – rotação em torno de ligações rotáveis.

Diferentes confórmeros têm diferentes energias. Interconvertem-se mais ou menos rapidamente uns nos outros.

78© João Aires de Sousa

Representação da estrutura 3D

Representação mais habitual consiste num sistema de coordenadas Cartesianas, ou seja, nas coordenadas x, y e z de cada átomo.

Para uma mesma conformação existem infinitas coordenadas possíveis, dependendo da orientação da estrutura relativamente aos eixos de referência.

No formato Molfile podem listar-se as coordenadas 3D.

79© João Aires de Sousa

Representação da estrutura 3D no formato Molfile

80© João Aires de Sousa

Representação da estrutura 3D

Também é possível representar apenas as coordenadas Cartesianas, sem especificação das ligações. Estas podem inferir-se com razoável segurança a partir das distâncias 3D entre os átomos. Mas exige pós-processamento por algum software.

81© João Aires de Sousa

Representação da estrutura 3D

Outra representação da estrutura 3D é a matriz Z, em que se especificam coordenadas internas (comprimentos de ligação, ângulos de ligação e ângulos diedros). Usada em input de cálculos de mecânica quântica. Ex. para ciclopropano:

C 0.00 0.00 0.00 0 0 0C 1.35 0.00 0.00 1 0 0C 1.35 60.00 0.00 2 1 0H 1.10 110.00 120.00 3 2 1H 1.10 110.00 240.00 3 2 1H 1.10 110.00 120.00 2 1 3H 1.10 110.00 240.00 2 1 3H 1.10 110.00 120.00 1 2 3H 1.10 110.00 240.00 1 2 3

dist. ao át. 1dist. ao át. 2

âng 1-2-3

âng 9-1-2-3

82© João Aires de Sousa

Geração da estrutura 3D

Métodos teóricos:

ab initio (ex. Gaussian)

semi-empíricos (ex. Mopac)

mecânica molecular (ex. Mopac, Chem3D)

Métodos empíricos (ex. CONCORD, CORINA)

usam fragmentos com geometrias previamente definidas

usam regras

usam bases de dados de geometrias

usam optimizações simples

83© João Aires de Sousa

Geração da estrutura 3D

Chemaxon’s Marvin

84© João Aires de Sousa

Geração da estrutura 3D

Chemaxon’s Standardizer

85© João Aires de Sousa

Geração da estrutura 3D - CORINA

http://www.mol-net.com/online_demos/corina_demo.html

86© João Aires de Sousa

Representação de superfícies moleculares

A estrutura 3D apresentada até aqui é o ‘esqueleto’ da molécula, mas a molécula tem ‘pele’… a superfície molecular.

A superfície molecular divide o espaço 3D num volume interno e num volume externo. Isto é apenas uma analogia com objectos macroscópicos porque as moléculas não podem ser tratadas simplesmente pelas leis da mecânica clássica. A densidade electrónica é contínua e existe uma probabilidade de encontrar um electrão em qualquer ponto do espaço (tende para zero a distâncias infinitas dos núcleos).

A distribuição electrónica “à superfície” é determinante das interacções que uma molécula pode estabelecer com outras (ex. docking com proteína).

87© João Aires de Sousa

Representação de superfícies moleculares

A superfície molecular pode exprimir diferentes propriedades, como a carga, o potencial electrostático, ou a hidrofobicidade, usando cores.

Estas propriedades podem ser determinadas experimentalmente (RMN 2D, cristalografia de raios-X e criomicroscopia electrónica dão indicações sobre as características 3D das moléculas), ou calculados teoricamente.

Há diversos modos de definir a superfície. Superfícies mais usadas: superfície de van der Waals, superfície acessível a um solvente e superfície de Connolly.

88© João Aires de Sousa

Superfícies de van der Waals

É a superfície molecular mais simples. Pode ser determinada a partir dos raios de van der Waals de todos os átomos. Cada átomo é representado por uma esfera. As esferas de todos os átomos são fundidas – o volume total é o volume de van der Waals e o envelope define a superfície de van der Waals. É rápida de calcular.

89© João Aires de Sousa

Superfícies de Connolly

É gerada simulando uma esfera a rolar sobre a superfície de van der Waals. A esfera representa o solvente. O raio da esfera pode ser escolhido (normalmente 1.4 Å, raio efectivo da água). A superfície de Connolly tem duas regiões: superfície de contacto convexa (segmento da superfície de van der Waals) e superfície côncava (onde a esfera tem contacto com dois ou mais átomos).

90© João Aires de Sousa

Superfície acessível ao solvente

É a superfície definida pela trajectória do centro da esfera que gera a superfície de Connolly.

91© João Aires de Sousa

Superfícies moleculares com o MarvinSpace

92© João Aires de Sousa

Superfícies moleculares com o MarvinSpace

93© João Aires de Sousa

Superfícies moleculares com o MarvinSpace

94© João Aires de Sousa

Superfícies moleculares com o MarvinSpace

95© João Aires de Sousa

Representação de reacções

96© João Aires de Sousa

Reacções em Quimio-informática

• Arquivo de informação sobre reacções em bases de dados.

• Pesquisa de informação sobre reacções em bases de dados.

• Comparação e análise de conjuntos de reacções.

• Definir a generalidade/limitações dum tipo de reacção.

• Desenvolver modelos de reactividade.

• Prever o resultado de reacções.

• Analisar redes de reacções (ex. sínteses orgânicas, vias metabólicas, vias de degradação de compostos na atmosfera).

• Desenvolver métodos para o design de sínteses.

Tipos de problemas:

97© João Aires de Sousa

Representação de reacções

• Reacções no formato SMILES

• Reacções no formato RDF (derivado de Molfile)

• Especificação dos centros da reacção

98© João Aires de Sousa

Representação de reacções em SMILES

SMILES_1.SMILES_2 >> SMILES_3.SMILES_4

Reagente 1

Reagente 2

Produto 1

Produto 2

Representa a seta

Representa o ‘+’

Exemplo: CC=O.CCCN>>CCC\N=C\C.O

99© João Aires de Sousa

Representação de reacções em SMILES

Exemplo: CC=O.CCCN>>CCC\N=C\C.O

100© João Aires de Sousa

Representação de reacções em SMILES

Compostos que não intervêm na reacção(ex. solventes ou catalisadores)

CCC(=O)O.OCC>[H+].[Cl-].OCC>CCC(=O)OCC.O

101© João Aires de Sousa

Representação de reacções em formato RXN

nº de reagentes

nº de produtos

Molfile do 1º reagente

Molfile do 2º reagente

102© João Aires de Sousa

Representação de reacções em formato RXN

Molfile do 1º produto

Molfile do 2º produto

103© João Aires de Sousa

Representação de reacções em formato RDF

Várias reacções em formato RXN no mesmo ficheiro

104© João Aires de Sousa

Especificação do centro da reacção

Ligações que se quebram

Ligações que se formam

Se estas ligações estiverem identificadas, é mais fácil, por exemplo, encontrar numa base de dados reacções iguais mas com reagentes diferentes.

105© João Aires de Sousa

Especificação do centro da reacção no formato RDF

106© João Aires de Sousa

Especificação do centro da reacção no formato RDF

( http://www.mdli.com/downloads/public/ctfile/ctfile.jsp )

107© João Aires de Sousa

Mapeamento átomo-a-átomo

Que átomos dos reagentes correspondem a que átomos dos produtos.

108© João Aires de Sousa

Mapeamento átomo-a-átomo no formato

RDF

109© João Aires de Sousa

Especificação do centro da reacção com o MarvinSketch

Clicar com o botão direito do rato sobre uma ligação

110© João Aires de Sousa

Mapeamento átomo-a-átomocom o MarvinSketch

top related