descritores moleculares para aprendizagem automática...

25
1 © João Aires de Sousa Descritores moleculares para aprendizagem automática (“Machine learning”)

Upload: doantu

Post on 02-Dec-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

1© João Aires de Sousa

Descritores moleculares

para aprendizagem automática

(“Machine learning”)

Page 2: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

2© João Aires de Sousa

Pode um computador aprender Química?

Page 3: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

3© João Aires de Sousa

Por ex., aprender a prever propriedades a partirda estrutura molecular

Aprender o quê ?

É tóxico ?É tóxico ?

Como reage na presença de uma base ?

Como reage na presença de uma base ?

Como são os seus espectros (IV, RMN,...) ?

Como são os seus espectros (IV, RMN,...) ?

CH3

CH3

O

O

Tem propriedades medicinais ?

Tem propriedades medicinais ?

Page 4: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

4© João Aires de Sousa

Com a experiência !

Um computador pode aprender,como os químicos orgânicos aprendem...

Quer dizer: a partir de um conjunto de dados experimentais com estruturas moleculares e as propriedades respectivas.

Encontra relações entre a estrutura e as propriedades.

Aprende! E pode aplicar o conhecimento a situações novas.

Page 5: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

5© João Aires de Sousa

Relações estrutura – propriedades

Computadores trabalham com números...

Estrutura

molecular

Estrutura

molecularPropriedadesPropriedadesRepresentaçãoRepresentação

Aprendizagem

automática

Aprendizagem

automática

CH3

CH3

O

NH Descritoresmoleculares

(números!)

• Redes neuronais• Árvores de decisão• Regressões• ...

FísicasQuímicasBiológicas

Page 6: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

6© João Aires de Sousa

Relações estrutura - propriedades

Em Química, por exemplo na investigação ou na indústria farmacêutica, produzem-se grandes quantidades de dados. Por exemplo, determinam-se experimentalmente propriedades para grandes conjuntos de compostos.

Importa gerar conhecimento a partir desses dados, por exemplo, derivando modelos que possam fazer previsões de propriedades para compostos novos.

Utilizam-se técnicas de aprendizagem automática (“machine learning”) para produzir relações quantitativas entre estrutura e propriedades.

QSPR – Quantitative Structure-Property RelationshipsQSAR – Quantitative Structure-Activity Relationships

Page 7: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

7© João Aires de Sousa

Regressões lineares

Variável x Variável y

Encontrar a equação que exprime a relação linear entre x e y.

y = a · x + b

y = 0.2636x + 1.371

R2 = 0.9093

0

1

2

3

4

5

6

7

8

0 5 10 15 20 25

Encontrar os melhores a e b de modo que a equação dê a melhor previsão possível de y a partir de x.

Isto é feito minimizando a soma dos quadrados das distâncias dos pontos à linha.

Page 8: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

8© João Aires de Sousa

8.00

9.00

10.00

11.00

12.00

13.00

14.00

15.00

16.00

8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00

Regressões multilineares

Variáveis x1, x2, x3, x4, … xn Variável y

Encontrar a equação que exprime a relação linear entre x1,… xn e y.

y = a1 x1 + a2 x2 + a3 x3 + a4 x4 + … + an xn + b

Encontrar os melhores a1 … an e b de modo que a equação dê a melhor previsão possível de y a partir de x.

Isto é feito minimizando a soma dos quadrados das distâncias dos pontos à recta num espaço com n dimensões.

experimental

pre

vis

to

Page 9: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

9© João Aires de Sousa

Regressões multilinearesAplicação a QSPR

Descritores x1, x2, x3, x4, … xn Propriedade y

Encontrar a equação que prevê a propriedade y a partir dos descritores x1,… xn.

Procurar à partida descritores que estejam relacionados com a propriedade a prever, com base em conhecimentos sobre o problema.

Por exemplo o ponto de fusão está relacionado com o tamanho e com a polaridade dos compostos, se queremos modelar o ponto de fusão devemos calcular descritores que codifiquem o tamanho e a polaridade.

Page 10: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

10© João Aires de Sousa

8.00

9.00

10.00

11.00

12.00

13.00

14.00

15.00

16.00

8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00

Regressões multilinearesExemplo: previsão da constante de velocidade da reacção

de um composto com o radical OH na atmosfera

-logk(OH) = 5.00 – 0.68 HOMO + 0.35 nX –

– 0.39 CIC0 + 0.13 nCaH

Conjunto de treino

234 objectos (compostos)

HOMO – energia da orbital molecular ocupada de mais alta energia

nX – nº de átomos halogénio

CIC0 – índice complementar de conteúdo de informação

nCaH – nº de átomos de carbono aromáticos não substituídos

P.Gramatica, P. Pilutti, E. Papa,J. Chem. Inf. Comput. Sci. 2004, 44, 1794-1802 experimental

pre

vis

to

Page 11: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

11© João Aires de Sousa

8.00

9.00

10.00

11.00

12.00

13.00

14.00

15.00

16.00

8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00

Regressões multilinearesExemplo: previsão da constante de velocidade da reacção

de um composto com o radical OH na atmosfera

-logk(OH) = 5.00 – 0.68 HOMO + 0.35 nX –

– 0.39 CIC0 + 0.13 nCaH

Conjunto de teste

226 compostos

HOMO – energia da orbital molecular ocupada de mais alta energia

nX – nº de átomos halogénio

CIC0 – índice complementar de conteúdo de informação

nCaH – nº de átomos de carbono aromáticos não substituídos

experimental

pre

vis

to

Page 12: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

12© João Aires de Sousa

Descritores moleculares

codificam características da estrutura

Page 13: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

13© João Aires de Sousa

Descritores constitucionais,propriedades moleculares

• Massa molecular• Nº de átomos, nº de átomos de carbono, …• Nº de ligações, nº de ligações duplas, nº de ligações aromáticas,…• Nº de ligações rotáveis

• Soma de volumes de van der Waals• Carga atómica máxima, ou mínima• Carga atómica máxima num átomo de H• Energia da HOMO, LUMO

• Coeficientes de partição• Índice de insaturação• Factor de hidrofilicidade• Refractividade molar• Contribuição de fragmentos para a área polar da superfície

Page 14: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

14© João Aires de Sousa

Descritores de fragmentos

• Nº de C sp3, …• Nº de isocianatos• Nº de amidas aromáticas, Nº de amidas alifáticas• Nº de grupos nitro• Nº de ésteres• Nº de doadores em ligações de H• …

Page 15: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

15© João Aires de Sousa

Descritores topológicos

• Índice de Zagreb• Índice de Wiener• Índices de conectividade chi• “Molecular walk counts”• Descritores BCUT• Vectores de autocorrelação 2D• …

Page 16: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

16© João Aires de Sousa

Índice de Wiener

É a soma de todas as distâncias entre quaisquer dois átomos de carbono na molécula (distâncias em termos de ligações carbono-carbono).

N – nº de átomos na moléculadi,j – distância entre os átomos i e j

∑∑=

≠=

=N

i

N

ijj

jidGW1 1

,2

1)(

(dá indicação sobre ramificação, é uma aproximação muito simplificada à superfície de van der Waals)

Page 17: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

17© João Aires de Sousa

Índice de Wiener

É a soma de todos os números na matriz de distâncias, dividida por 2.

∑∑=

≠=

=N

i

N

ijj

jidGW1 1

,2

1)(

1

2

3

4

5

6

1 2 3 4 5 6

1 0 1 2 3 3 4

2 1 0 1 2 2 3

3 2 1 0 1 1 2

4 3 2 1 0 2 3

5 3 2 1 2 0 1

6 4 3 2 3 1 0

13971191362

W(G) = 31

Page 18: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

18© João Aires de Sousa

Vectores de autocorrelação 2D

Para um dado valor de d, o resultado é a soma de tantas parcelas quantos os pares de átomos à distância d entre si. Cada parcela é o produto da propriedade p para os dois átomos.

ij

N

i

N

jji ppddda )()(

1 1, −= ∑∑

= =

δ

≠∀

=∀=

dd

dd

ji

ji

,

,

0

1

2

3

4

5

6

Considerando p=1:

a(3) = 4

(há 4 pares de átomos com distância 3)

1 2 3 4 5 6

1 0 1 2 3 3 4

2 1 0 1 2 2 3

3 2 1 0 1 1 2

4 3 2 1 0 2 3

5 3 2 1 2 0 1

6 4 3 2 3 1 0

Page 19: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

19© João Aires de Sousa

Vectores de autocorrelação 2D

Se calcularmos a(d) para valores de d entre 1 e 5, obtemos 5 descritores.

ij

N

i

N

jji ppddda )()(

1 1, −= ∑∑

= =

δ

≠∀

=∀=

dd

dd

ji

ji

,

,

0

1

2

3

4

5

6

1 2 3 4 5 6

1 0 1 2 3 3 4

2 1 0 1 2 2 3

3 2 1 0 1 1 2

4 3 2 1 0 2 3

5 3 2 1 2 0 1

6 4 3 2 3 1 0

Page 20: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

20© João Aires de Sousa

Descritores geométricos

(exigem coordenadas 3D)

• Índice de Wiener 3D

• Descritores WHIM

• Descritores GETAWAY

• Vectores de autocorrelação 3D

• Descritores 3D-MORSE

• Funções de distribuição radial (RDF)

• Códigos de quiralidade

• …

Page 21: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

21© João Aires de Sousa

Funções de distribuição radial (RDF code)

N – nº de átomos na moléculapi – propriedade atómica para o átomo i (ex. carga)rij – distância 3D entre os átomos i e jB – parâmetro ajustável

2)(1

1 1

)( ijrrBN

i

N

ijji epprg −−

= +=∑ ∑=

Codifica a estrutura molecular incluindo características atómicas e geométricas 3D.

Page 22: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

22© João Aires de Sousa

O

acetofenona

0.7

-0.9

-0.7

-0.5

-0.3

-0.1

0.1

0.3

0.5

0 1 2 3 4 5 6r [Å]

g(r) Carga atómica

δ+

δ–

rij - distância interatómica

O

CB - parâmetro

Ai.Aj – propriedades atómicas

∑ ∑−

>

−−⋅=1

)( 2

)(N

i

N

ij

rrBji

ijeppfrg

Funções de distribuição radial (RDF code)

Page 23: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

23© João Aires de Sousa

Programa simples para cálculo dedescritores moleculares –

CDKDescUI

Download a partir dehttp://www.rguha.net/code/java/cdkdesc.html

Page 24: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

24© João Aires de Sousa

Web service para cálculo dedescritores moleculares – VCCLAB.ORG

Page 25: Descritores moleculares para aprendizagem automática ...joao.airesdesousa.com/agregacao/slides_2013/descritores_QSPR... · • Nº de átomos, nº de átomos de carbono, ... •

25© João Aires de Sousa

Lista de descritores moleculareshttp://www.disat.unimib.it/chm/Help/edragon/index.html