alinhamento de sequências

26
Alinhamento de sequências Almir R. Pepato

Upload: keegan

Post on 23-Feb-2016

68 views

Category:

Documents


0 download

DESCRIPTION

Alinhamento de sequências. Almir R. Pepato. Homologia primária e secundária. 1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes – codificação dos caracteres e seus estados- homologia primária sensu Pinna , 19910) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Alinhamento de sequências

Alinhamento de sequências

Almir R. Pepato

Page 2: Alinhamento de sequências

Homologia primária e secundária

1- Estabelecimento da matriz de caracteres (observações a respeito dos semaforontes – codificação dos caracteres e seus estados- homologia primária sensu Pinna, 19910)

2- Busca do esquema de relações filogenéticas ótima segundo algum critério, levando a proposição de hipóteses filogenéticas. De acordo com a topologia obtida caracteres codificados sob o mesmo estado podem se revelar verdadeiras sinapomorfias ou homoplasias (homologia secundária sensu Pinna, 1990).

Page 3: Alinhamento de sequências

O problema da homologia no que se refere às sequências de nucleotídeos

A rose is a rose is a rose is a rose is a rose

Gertrude Stein

A cytosine is a cytosine, is a cytosine, is a cytosine...

Page 4: Alinhamento de sequências

O problema da homologia: alinhamento

Page 5: Alinhamento de sequências

Alinhamento como problema informacional

1. Custos altos para substituições :

TCAG-ACG-ATTG| | | | | | |TC-GGA- GC-T- G0 mis 7 mat 6 gaps

2. Custos altospara as inserções/deleções :

TCAGACGATTG| | | |TCGGAGCTG–-5 mis 4 mat 2 gaps

A maior parte dos programas usa um sistema de custos para substituições, introdução de inserções/deleções e outros eventos.

Como a enumeração/avaliação de todas as possibilidades seria muito custosa, os programas usam o recurso da programação dinâmica como com o algoritmo de Needleman & Wunch.

Page 6: Alinhamento de sequências

Alinhamento como problema informacional

Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970)

i,j * A A T G C

* 0 -1 -2 -3 -4 -5

A -1 X

G -2

G -3

C -4

Preenchendo a matriz:Substituição= -1gap= -1

Regra:Fij = max(Fi − 1,j − 1 + Sij, Fi,j − 1 + gap, Fi − 1,j + gap)

Para preencher a casa, X=Fij = max(0 + 0, -1-1, -1-1) = 0

Page 7: Alinhamento de sequências

Alinhamento como problema informacional

Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970)

I,j * A A T G C

* 0 -1 -2 -3 -4 -5

A -1 0 -1 -2 -3 -4

G -2 -1 -1 -2 -2 -3

G -3 -2 -2 -2 -2 -3

C -4 -3 -3 -3 -3 X

Preenchendo a matriz:Substituição= -1gap= -1

Regra:Fij = max(Fi − 1,j − 1 + Si,j), Fi,j − 1 + gap, Fi − 1,j + gap)

Para preencher a casa, X=Fij = max(-2 + 0, -3-1, -3-1) = -2

Page 8: Alinhamento de sequências

Alinhamento como problema informacional

Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970)

Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento

I,j * A A T G C

* 0 -1 -2 -3 -4 -5

A -1 0 -1 -2 -3 -4

G -2 -1 -1 -2 -2 -3

G -3 -2 -2 -2 -2 -3

C -4 -3 -3 -3 -3 -2

Page 9: Alinhamento de sequências

Alinhamento como problema informacional

Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970)

Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento

I,j * A A T G C

* 0 -1 -2 -3 -4 -5

A -1 0 -1 -2 -3 -4

G -2 -1 -1 -2 -2 -3

G -3 -2 -2 -2 -2 -3

C -4 -3 -3 -3 -3 -2

Caminho 1 (1 sub, 1 gap):AA T G C| | | |A G- G C

Page 10: Alinhamento de sequências

Alinhamento como problema informacional

Algoritmo empregando programação dinâmica (Needleman & Wunch, 1970)

Faz-se agora o caminho de volta. Há vários que levam a um valor total de -2 para o alinhamento

I,j * A A T G C

* 0 -1 -2 -3 -4 -5

A -1 0 -1 -2 -3 -4

G -2 -1 -1 -2 -2 -3

G -3 -2 -2 -2 -2 -3

C -4 -3 -3 -3 -3 -2

Caminho 1 (1 sub, 1 gap):AA T G C| | | |A- G G C

Caminho 2 (1 sub., 1 gap):AA T G C| | | |AG G-- C

Page 11: Alinhamento de sequências

Alinhamentos de múltiplas sequências

Soma com pesagem de Pares WSP (Weighted Sum of Pairs):

WSP= ∑ ∑ Wij Dij

Complexidade informacional:

O (NM): Proporcional ao comprimento da sequência elevado ao número de sequências

Poucos programas implementam (BaliBase, FastMSA), pois pode ser usado para poucas sequências!

i j

Page 12: Alinhamento de sequências

ClustalMétodo Heurístico: Não garante que todo o espaço de respostas ao problema será examinado. Passos:

1- Faz um alinhamento empregando uma função de custos para todos os possíveis pares de sequências.

2- A partir daí monta uma matriz de distâncias para todas as sequências

Page 13: Alinhamento de sequências

Clustal

3-Daí deriva-se uma árvore de similaridade. Para cada nó da árvore é produzido um alinhamento aos pares, que produz uma sequência de consenso para o próximo alinhamento.

Note que os gaps introduzidos nas sequências que são alinhadas nas primeiras etapas não podem ser modificados!

Page 14: Alinhamento de sequências

T-Coffe

Page 15: Alinhamento de sequências

T-Coffe

Page 16: Alinhamento de sequências

Mafft e Muscle

Page 17: Alinhamento de sequências

Muscle

Page 18: Alinhamento de sequências

Malign, POY e Otimização Direta

O POY é um programa que implementa uma série de algoritmos para inferência filogenética, a maior parte dos quais baseado na parcimônia como critério de otimização.

A Otimização Direta consiste na otimização dos caracteres das sequências diretamente, sem o passo preliminar de inferência das homologias primárias

Page 19: Alinhamento de sequências

Malign, POY e Otimização Direta

Uma análise empregando a otimização direta geralmente inclui:

1- O teste do maior número possível de combinações de valores de custo, já que como qualquer outro método automático, o resultado é dependente dele.

2- A presença/ausência de clados nos diversos valores de custo é compilada. A assim chamada análise de sensibilidade é vista como uma medida da estabilidade dos clados.

3- Um regime de custos ótimo é escolhido de forma a minimizar a incongruência entre as partições de dados. A incongruência é medida através de índices como ILD, RILD, TILD etc...

Page 20: Alinhamento de sequências

Malign, POY e Otimização Direta

Custos ILD

1:1:1 0.0286

1:2:1 0.0372

1:4:1 0.0354

1:8:1 0.0307

2:1:1 0.0424

2:2:1 0.0335

2:4:1 0.0352

2:8:1 0.0326

4:1:1 0.0463

4:2:1 0.0493

4:4:1 0.0444

4:8:1 0.0366

ILD= (.Comp.comb -ΣComp. ind.)/ Comp.comb

Page 21: Alinhamento de sequências

Malign, POY e Otimização Direta

Page 22: Alinhamento de sequências

32.048.020.038.014.019.005.033.006.022.005.029.012.007.010.0

3

2

1

321

Probabilidades conjuntas

Probabilidades marginais

árvores

Com

prim

ento

s dos

ram

osBAli-Phy é um programa que estima árvores filogenéticas a partir de dados não alinhados quando o alinhamento é incerto. Ao invés de condicionar a inferência a um único alinhamento, ele dá conta da incerteza relacionada integrando sobre todos os alinhamentos possíveis .

Page 23: Alinhamento de sequências

BAli-Phy é um programa que estima árvores filogenéticas a partir de dados não alinhados quando o alinhamento é incerto. Ao invés de condicionar a inferência a um único alinhamento, ele dá conta da incerteza relacionada integrando sobre todos os alinhamentos possíveis .

Page 24: Alinhamento de sequências

Alinhamento como problema biológico

Mas será mesmo o alinhamento um problema informacional?

Não pode ser tratado como um problema biológico onde a homologia é inferida levando em conta informações relacionadas a processos biológicos?

Page 25: Alinhamento de sequências

Alinhamento como problema biológico

Page 26: Alinhamento de sequências

Homologia molecular: sumário•As inserções/deleções são inferências feitas durante o estabelecimento de relações de homologia. Tem dois impactos sobre a inferência filogenética: levam a introdução de uma certa margem de erro, intrínseca a qualquer inferência por um lado, e informação filogenética adicional por outro.

•Como nas análises morfológicas, o estabelecimento das homologias primárias e a construção da matriz é o alicerce sobre o qual a inferência é assentado. Pouca atenção tem sido dada a esse aspecto, no entanto.

•Há debate na literatura sobre cada um dos métodos descritos nessa aula. Algo mandatário, no entanto, é que as hipóteses de homologia fiquem tão explicita ao leitor de um artigo de sistemática molecular quanto o que ficaria a um que use caracteres morfológicos.