análise computacional de seqüências nucleotídicas e protéicas alinhamentos múltiplos antonio...

37
Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Upload: internet

Post on 22-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Análise Computacional de Seqüências Nucleotídicas e Protéicas

Alinhamentos múltiplosAntonio Basílio de Miranda

25/11/2004

Page 2: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Um exemplo de um alinhamento múltiplo

Page 3: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Porque precisamos de alinhamentos múltiplos? Um alinhamento múltiplo, seja de

sequências de DNA ou de proteína, pode fornecer muito mais informação do que uma única sequência.

Quando lidando com uma nova proteína, de função desconhecida, a presença de domínios similares a outros em proteínas conhecidas pode implicar em função ou estrutura semelhante.

Page 4: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Porque precisamos de alinhamentos múltiplos? É sabido que a pressão seletiva resulta

da necessidade de se conservar uma função.

Em proteínas, a manutenção da função requer uma estrutura 3D específica. Portanto, alinhamentos múltiplos de proteínas podem fornecer alguma informação sobre a estrutura 3D das mesmas.

Page 5: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Alinhamento par-a-par

Busca nos bancos de dados

Alinhamento múltiplo

Estratégia

Page 6: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Alinhamento múltiplo

Modelagem por homologiaAnálise filogenética

Buscas avançadas em bancos de dados: padrões, motivos, promotores

Estratégia

Page 7: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Porque precisamos de alinhamentos múltiplos? Para revelar os relacionamentos

entre um grupo de sequências (homologia).

Para caracterizar famílias protéicas – identificar regiões conservadas e determinar as regiões variáveis.

Regiões similares podem indicar funções similares (por exemplo, promotores no DNA).

Page 8: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Porque precisamos de alinhamentos múltiplos?

Planejar mutações pontuais, desenhar primers e/ou sondas especiais.

Construir um perfil da família, o que possibilitará buscas mais avançadas, capazes de localizar membros mais distantes da mesma família.

Page 9: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Porque precisamos de alinhamentos múltiplos? Alinhamentos múltiplos são

utilizados por programas de modelagem protéica.

Podem ajudar na predição das estruturas secundária e terciária de novas sequências.

Alinhamentos múltiplos servem de input para a construção de árvores filogenéticas.

Page 10: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

O desafio computacional dos alinhamentos múltiplos

Encontrar o alinhamento ótimo de um grupo de sequências incluindo matches, mismatches e gaps é muito difícil.

Para alinhamentos par-a-par, métodos de programação dinâmica são utilizados, mas não são práticos para alinhamentos múltiplos (muitos cálculos, muito tempo de CPU).

Page 11: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

O desafio computacional dos alinhamentos múltiplos

As dificuldades de se alinhar um grupo de sequências variam conforme o grau de similaridade entre as sequências.

Um alto grau de variação entre as sequências implica em um grande número de alinhamentos possíveis, o que torna muito difícil encontrar o alinhamento “ótimo”.

Page 12: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

O desafio computacional dos alinhamentos múltiplos

Métodos aproximados são utilizados ao invés de métodos de programação dinâmica.

Outro desafio computacional é a inserção e pontuação de gaps nas sequências alinhadas.

Page 13: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Métodos aproximados Alinhamento global progressivo de todas

as sequências. Começa com as sequências mais similares, construindo o alinhamento pela adição do resto das sequências.

Métodos iterativos: começa pela construção de um alinhamento múltiplo de um pequeno grupo de sequências, e depois revisa o alinhamento para a obtenção de melhores resultados.

Page 14: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Métodos aproximados

Alinhamentos baseados em pequenos domínios (ou padrões) conservados, encontrados na mesma ordem nas sequências alinhadas.

Alinhamentos baseados em modelos probabilísticos ou estatísticos das sequências.

Page 15: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Alinhamento múltiplo

O método mais prático e utilizado para a construção de alinhamentos múltiplos é o alinhamento global progressivo.

Como funciona?

Page 16: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Passos para a construção de um alinhamento múltiplo Comparações par-a-par de todas

as sequências. Começa com o par mais relacionado

(similar), depois o par seguinte, e assim por diante.

Realizar análise de “clusterização” para a obtenção de uma hierarquia para o alinhamento, que pode ser na forma de uma árvore binária.

Page 17: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Dicas na escolha de suas sequências Sequências retiradas diretamente dos

bancos de dados podem conter dados irrelevantes (vários genes, fragmentos de diferentes tamanhos). Cheque suas sequências e use somente a parte relevante para o alinhamento. Edite e remova as outras partes antes do alinhamento.

Tente usar sequências com aproximadamente o mesmo tamanho para o alinhamento.

Page 18: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Dicas na escolha de suas sequências

De forma geral: Quanto mais sequências, melhor. Não inclua sequências muito similares

(>80%). Os sub-grupos devem ser alinhados

separadamente, e somente um membro de cada sub-grupo deve ser incluído no alinhamento múltiplo final.

Page 19: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

O que você necessita saber sobre os programas para a construção de alinhamentos múltiplos

Quase todos os programas irão alinhar quaisquer sequências que o usuário fornecer como input.

Sempre retornarão um alinhamento, mesmo que as sequências não sejam relacionadas entre si.

A maioria dos programas irá inserir gaps. Entretanto, uma vez inseridos, eles estão lá para ficar.

Você deve checar como o programa trata com a inclusão de gaps nos finais das sequências.

Page 20: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Métodos de alinhamento múltiplo global Clustalw

http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_clustalw.html

MSA http://www.ibc.wustl.edu/ibc/msa.html

PRALIGN http://mathbio.nimr.mrc.ac.uk/~jhering/

pralign

Page 21: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Métodos iterativos de alinhamento múltiplo

DIALIGN http://www.gsf.de/biodv/dialign.html

MultAlign http://protein.toulouse.inra.fr/

multalign.html

Page 22: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Métodos de alinhamento múltiplo local

BLOCKS http://blocks.fhcrc.org/blocks/

HMMER http://hmmer.wustl.edu

MEME http://meme.sdsc.edu/meme/website

SAM http://www.cse.ucsc.edu/research/compbio/

sam.html

Page 23: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

ClustalW

O ClustalW pode criar alinhamentos múltiplos, editar alinhamentos existentes e criar árvores filogenéticas.

O alinhamento pode ser feito por dois métodos: Lento e preciso Rápido e aproximado

Page 24: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

ClustalW O seu algoritmo consiste em três

etapas: 1. Alinhamentos par-a-par são feitos

entre todas as sequências no grupo em estudo. Pontuações são utilizadas para se construir uma matriz de distâncias. Ao calcular essa matriz, o programa leva em consideração a divergência entre as sequências.

Page 25: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

ClustalW

2. Uma árvore “guia” (filogenética) é construída a partir da matriz de distâncias utilizando o método de neighbour-joining. Essa árvore-guia tem ramos de diferentes tamanhos. Seu tamanho é proporcional ao tempo de divergência estimado ao longo de cada ramo.

Page 26: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

ClustalW

3. O alinhamento progressivo das sequências é feito, seguindo a ordem dos ramos na árvore-guia. As sequências são alinhadas das extremidades até a raiz. Este alinhamento é feito de acordo com as relações filogenéticas encontradas na árvore-guia.

Page 27: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

ClustalW

Page 28: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

ClustalW

Page 29: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

ClustalX – uma interface Windows para o ClustalW

Page 30: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

Outras opções

T-Coffee http://igs-server.cnrs-mrs.fr/Tcoffee/

PileUp (GCG) http://www.accelrys.com/products/

gcg_wisconsin_package/

Page 31: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

T-Coffee Gera dois conjuntos de alinhamentos,

um global (ClustalW) e outro local (lalign).

Pesa, compara e combina. Faz pontuação posição-específica. Alinhamento progressivo (as

penalidades para os gaps não são necessárias devido a estratégia de ponderação)

Page 32: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

T-Coffee

Page 33: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

PileUp (GCG)

O PileUp cria um alinhamento múltiplo de sequências a partir de um grupo de sequências relacionadas usando alinhamentos par-a-par de forma progressiva. Também pode “plotar” uma árvore mostrando os agrupamentos usados na construção do alinhamento.

Page 34: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

PileUp (GCG)

Page 35: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

PileUp (GCG)

Page 36: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

PileUp (GCG) O PileUp faz alinhamento par-a-par de

todas as sequências utilizando o método de Needleman & Wunsch.

As pontuações dos alinhamentos são utilizadas para produzir uma árvore pelo método UPGMA (Unweighted Pair-Group Method with Arithmetic mean) de Sneath & Sokal.

Esta árvore é usada para guiar o alinhamento de um grupo de sequências relacionadas.

Page 37: Análise Computacional de Seqüências Nucleotídicas e Protéicas Alinhamentos múltiplos Antonio Basílio de Miranda 25/11/2004

PileUp (GCG) O PileUp faz um alinhamento múltiplo global, e

portanto é bom para um grupo de sequências similares.

Irá falhar na determinação da região de maior similaridade (como por exemplo um motivo compartilhado) entre sequências relacionadas mas distantes.

Sempre alinha todas as sequências que você especificar, mesmo que não sejam relacionadas. O alinhamento pode perder em qualidade caso algumas das sequências sejam relacionadas mas bastante divergentes.