métodos de alinhamento de sequências biológicas

46
Métodos de alinhamento de sequências biológicas Marcelo Falsarella Carazzolle

Upload: vuonganh

Post on 05-Jan-2017

237 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Métodos de alinhamento de sequências biológicas

Métodos de alinhamento de sequências biológicas

Marcelo Falsarella Carazzolle

Page 2: Métodos de alinhamento de sequências biológicas

Resumo

- Introdução

- Alinhamentos ótimos

- Global

- Local (Smith-Waterman)

- Semi global- Semi global

- Matrizes de alinhamento (BLOSUM)

- Alinhamentos heurísticos

- BLAST

-PHI-BLAST, PSI-BLAST, MEGABLAST e BLAST2SEQS

Page 3: Métodos de alinhamento de sequências biológicas

Introdução

- Uma forma rápida de agregar alguma informação sobre uma

?

sequência desconhecida é compará-la com um banco de dados desequências com funções conhecidas

- Esta comparação é feita através de alinhamentos par a par entreas sequências. Isto é, se o banco de dados possuir 1000 sequênciasconhecidas serão realizados 1000 alinhamentos

Page 4: Métodos de alinhamento de sequências biológicas

- Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL)

Fonte: http://www3.ebi.ac.uk/Services/DBStats/

- Atualmente uma busca nesses bancos faz 100,000,000 dealinhamentos

Page 5: Métodos de alinhamento de sequências biológicas

- Existem vários programas de alinhamentos com diferentes metodologias, sendo que o mais utilizado é o BLAST

Page 6: Métodos de alinhamento de sequências biológicas

Relevância biológica

- Essencialmente esses alinhamentos devem tentar indicar umahomologia entre as sequências (ou pelos menos terem umasimilaridadeestatisticamente significante)

- Similaridade x Homologia

- identidade = número que indica a quantidade de nucleotídeos alinhadosalinhados

- similaridade = é uma medida que considera a probabilidade do alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis alinhamentos

- homologia = similaridade entre sequências que dividem a mesma ancestralidade. Possui um significado evolutivo

Page 7: Métodos de alinhamento de sequências biológicas
Page 8: Métodos de alinhamento de sequências biológicas

10

1

0.1

0.01

0.001

0.0001

0.00001 = 1 x 10-5 = 1e-5

E-value x probabilidade

valu

e

Pro

babi

lidad

e do

alin

ham

ento

oco

rrer

por

aca

so

0.00001 = 1 x 10-5 = 1e-5

1e-10

1e-50

1e-100

1e-180

0

E-v

alue

Pro

babi

lidad

e do

alin

ham

ento

oco

rrer

por

aca

soQuanto maior o banco de dados, maior o e-value

Page 9: Métodos de alinhamento de sequências biológicas

Outras aplicações de alinhamentos

- Reconstrução da sequência consensu a partir de sobreposiçõesde fragmentos de sequências (montagens de sequências deDNA)

- Alinhamento entre sequências de ESTs e DNA genômico

- ComparaçãoentreproteínaseDNA- ComparaçãoentreproteínaseDNA

- Construção de mapas físicos

- Comparação entre genomas

- ...

Page 10: Métodos de alinhamento de sequências biológicas

Alinhamentos

- A comparação entre sequências de DNA de organismosdiferentes é baseada no conceito de que estes organismosoriginaram-se de um ancestral comum.

- No contexto de evolução as sequências de DNA sofremmutações. Estas modificações locais entre os nucleotídeos podemser :

- Inserções : inserção de uma base ou várias bases nasequência

- Deleções : deleção de uma base ou mais bases na sequência

- Substituições : substituição de uma base por outra

- Portanto um programa de alinhamento de sequências biológicastem que considerar essas mutações

Page 11: Métodos de alinhamento de sequências biológicas

Exemplo :

Match = 1 Mismatch = -1

Gap = -2

- Gaps representam as inserções e deleções entre as sequências

- O melhor alinhamento entre duas sequências é aquele que maximiza o score :

- Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)

= 24 – 4 – 10 = 10

Page 12: Métodos de alinhamento de sequências biológicas

Modelos para alinhamentos

- Alinhamento global

- útil quando as duas sequências tem tamanhos próximos

- Exemplo de programa : CLUSTAL

- Alinhamento local

- útil para alinhamento entre sequências de tamanhos diferentes e também para sequências com apenas alguns trechos e também para sequências com apenas alguns trechos conservados

- Exemplo de programa : BLAST E FASTA

- Alinhamento semi-global (ou pontas livres)

- útil para encontrar sobreposições de fragmentos de sequenciamento

- Exemplo de programa : PHRAP E CAP3

Page 13: Métodos de alinhamento de sequências biológicas

Programação dinâmica- Motivação : gerar e testar oscore de todos os possíveis alinhamentosé exponencial no tamanho das seqüências (nn ), onde n é o tamanhodas sequências :

- Se o alinhamento de 2 sequências de 100 pb leva 1 segundo,o alinhamento de duas sequências de 1000 bp levaria trilhões de anos.

- Abordagemalternativa: programaçãodinâmica. Com programação- Abordagemalternativa: programaçãodinâmica. Com programaçãodinâmica o tempo de processamento e memória ficam quadráticos(n2):

- Se o alinhamento de 2 sequências de 100 pb leva 1 segundo, oalinhamento de 2 sequências de 1000 pb leva 100 segundos- Mas ainda não está bom, pois alinhamento de sequências de 10Mpb (genoma de Saccharomyces) levaria 377 anos

Page 14: Métodos de alinhamento de sequências biológicas

Alinhamento global

- Alinhamento de GACATTG com GATCAATG

1a linha e 1a coluna da matriz são fáceis de computar:- G A C A T T G

- 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4 G GAA -4T -6C -8A -10A -12T -14G -16

G-

GA- -

Lembre-se, penalidade de 1 gap = -2 e de dois gaps = -4

http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html

Page 15: Métodos de alinhamento de sequências biológicas

- G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4T -6C -8A -10A -10A -12T -14G -16

[i,j]=p(i,j)

- Para um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for um match e p(i,j) = -1 se for um mismatch.

Page 16: Métodos de alinhamento de sequências biológicas

- G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2A -4T -6C -8A [i -1,j-1]C A -10A -12T -14G -16

[i,j][i-1,j]

[i,j-1][i -1,j-1]

= max([i-1,j] - 2,[i-1,j-1] + p(i,j),[i,j-1] - 2)

- O valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1] (diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).

Page 17: Métodos de alinhamento de sequências biológicas

0

-2

-4

1

-1

-1

0

-4 -6

-3

-2

A

A

A

CG

-2

- Construindo o alinhamento

-4

-6 -3

-8

-1

-2

0

-4

-2

-1

-1

A

A

C -5

No alinhamento global o alinhamento deve ser construído a partir do extremo da matriz

Page 18: Métodos de alinhamento de sequências biológicas

- G A C A T T G - 0 0 0 0 0 0 0 0 G 0A 0T 0C 0

Alinhamento local (Smith-Waterman)http://bioweb.pasteur.fr/seqanal/interfaces/water.html

C 0A 0 A 0T 0G 0

[i,j][i-1,j]

[i,j-1][i-1,j-1]

= max([i-1,j] - 2,[i-1,j-1] + p(i,j),[i,j-1] – 2,0 zero)

- No alinhamento local a primeira linha e coluna são inicializadas com zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero

Page 19: Métodos de alinhamento de sequências biológicas

No alinhamento local o alinhamento deve ser construído partir do maior score da matriz e para quando encontrar um score=0

Page 20: Métodos de alinhamento de sequências biológicas

Alinhamento semi-global

- Não penaliza espaços nas extremidades do alinhamento.

- Exemplo CAGCA –CTTGGATTCTCGC| | | | | |

- - - CAGCGTGG - - - - - - - -- No global teríamos,- No global teríamos,

CAGCA – CTTGGATTCTCGCCAGC - - - - - - G- T - - - - - -

- Qual dos dois alinhamentos é mais interessante ?

Page 21: Métodos de alinhamento de sequências biológicas

- No alinhamento semi-global a primeira linha e coluna são inicializadas com zeros. O resto é igual ao alinhamento global

Page 22: Métodos de alinhamento de sequências biológicas

- A abordagem de programação dinâmica é importante pois garante o melhoralinhamento entre duas seguências, mas ainda temos um problema :

- Lembram-se disso : se o alinhamento de 2 sequências de 100 pbleva 1segundo, o alinhamento de sequências de 10 Mpb (genoma deSaccharomyces) leva 377 anos

- A abordagem alternativa é conhecida como o método de k-tuplas, no qualnão é garantido encontrar o alinhamento ótimo (heurística)mas ésignificantementemaisrápido. Comessemétodoosconceitosdealinhamentosignificantementemaisrápido. Comessemétodoosconceitosdealinhamentodiscutidos acima foram modificados dando origem aos programas dealinhamento local :

- BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25(1990), 3389

- FASTA : PNAS 85 (1988), 2444-2448

- Basicamente este método identifica uma série de palavras curtas em uma dassequências (word size) e depois realiza uma busca exata por essas palavras nassequências a serem comparadas, filtrando assim os possíveis candidatos.

Page 23: Métodos de alinhamento de sequências biológicas

Alinhando proteínas

- Alinhamento proteína-proteína

- Alinhamento nucleotídeo-proteína

- Alinhamento proteína-nucleotídeo

- Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)

Page 24: Métodos de alinhamento de sequências biológicas

Matrizes de substituição- BLOSUM (BLOcks of amino acid SUbstitution Matrix )

- I e V => Hidrofóbicos

- D e W => D (carga negativa) e W (aromático)

- C => pontes de sulfeto (estrutural)

Page 25: Métodos de alinhamento de sequências biológicas

- A matriz foi construída a partir de alinhamentosmúltiplos globais de 504 grupos de proteínas

- BLOSUM 62 : grupos com similaridade >62%

- BLOSUM 80 : grupos com similaridade >80%

- BLOSUM 45 : grupos com similaridade >45%

Query Length Substitution Matrix

<35 PAM-30

35-50 PAM-70

50-85 BLOSUM-80

>85 BLOSUM-62 PNAS 89 (1992), 10915-19919

Page 26: Métodos de alinhamento de sequências biológicas

BLAST

• Basic Local Alignment Search Tool• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215, 403-

410)• Implementações: NCBI BLAST e WU-BLAST• Acesso via web / local (linux)• Consulta de seqüências em BDs biológicos (nt ou proteínas)• Consulta de seqüências em BDs biológicos (nt ou proteínas)• Alinhamento – sobreposição de trechos semelhante de duas

seqüências (seqs). BLAST traz pontuação e mostra alinhamentos.

• Similaridade – grau de semelhança de seqs num alinhamento. • Homologia – genes com ancestral comum

Page 27: Métodos de alinhamento de sequências biológicas

• BDs – nucleotídeos, proteínas, domínios, genomas específicos, dados particulares

• Blastp – prot / prot (distantes)

• Blastn – nt / nt (próximos)

• Blastx – nt trad / prot (novas seqs)• Blastx – nt trad / prot (novas seqs)

• Tblastn – prot / nt trad (regiões não anotadas)

• Tblastx – nt trad / nt trad

Page 28: Métodos de alinhamento de sequências biológicas

Query BD Compara Programant nt nt blastn

nt (trad) aa aa blastxaa aa aa blastpaa nt (trad) aa tblastnaa nt (trad) aa tblastn

nt (trad) nt (trad) aa tblastx

Query = formato da seq de entrada.BD = formato das seqs do BD.nt (trad) = seq em nt traduzida pelo programa.Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).Programa = um dos cinco principais tipos de blast.

Page 29: Métodos de alinhamento de sequências biológicas

BLAST interface

Page 30: Métodos de alinhamento de sequências biológicas

BLASTp

http://www.ncbi.nlm.nih.gov/blast/

Page 31: Métodos de alinhamento de sequências biológicas

Limita a região da sequência que será usada na consulta

Pode ser usado um arquivo com várias sequências gravadas no formato fasta

Pode ser colocado várias sequências ao mesmo tempo ou vários GI’s (genbank identifier)

Page 32: Métodos de alinhamento de sequências biológicas

Banco de dados de proteínas do NCBI

Filtro por organismo, use o banco detaxonomia do NCBI para ver a formacorreta de escrever o organismo

Filtros mais elaborados usando as opçõesavançadas de busca do NCBI :

protease NOT hiv1[organism]=> retornaráapenas resultados com proteases que não sejamdo organismo HIV 1

Banco de dados de proteínas curadas pelo EBI

Banco de dados de proteínas com aestrutura tridimensional conhecida

Page 33: Métodos de alinhamento de sequências biológicas

Número máximo de sequências alinhadas

E-value de corteNúmero de bases que serão utilizados para formar as k-tuplas

Altera as penalidades de criação e extensão de gaps no alinhamento

Mascara regiões de repetição

Page 34: Métodos de alinhamento de sequências biológicas
Page 35: Métodos de alinhamento de sequências biológicas
Page 36: Métodos de alinhamento de sequências biológicas

Link

Corte 1e-5

Page 37: Métodos de alinhamento de sequências biológicas

1

subject

query

71

1 64

134

Page 38: Métodos de alinhamento de sequências biológicas

BLASTx – diferenças importantes

Diferentes códigos genéticos para diferentes organismos

Page 39: Métodos de alinhamento de sequências biológicas

A mudança noframe de leituragera a quebra doalinhamentoformando doisHSP´s (highscoring pair)

1

subject

query

10

91

243

6011

95

1

631

Page 40: Métodos de alinhamento de sequências biológicas

• Pode ser instalado localmente

• Bancos de dados próprios e atualizações

• Facilidades– Velocidade de buscas

– Maleabilidade

BLAST local

– Maleabilidade

– Automatização

– Dados locais

– Independe de internet

Page 41: Métodos de alinhamento de sequências biológicas

PHI-BLAST- É um blastp com a opção de passar uma outra sequência curta ou um padrão servindo como um vínculo para a consulta

Ex :

[CG](5)TG{A}N(1,5)C

N - Qualquer nucleotídeo

N(3) - Uma sequência de três nucleotídeos

N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos

[AC] - pode ser um A ou um C

{AG} - não pode ser nem A e nem G

Page 42: Métodos de alinhamento de sequências biológicas

PSI-BLAST- É um blastp interativo no qual a matriz (BLOSUM), após a primeira interação, é refeita com base nos alinhamentos entre as proteínas resultantes da consulta :

- uma posicão conservada no alinhamento recebe um score alto e uma posição não conservada um score baixo

- É útil para encontrar membros distantes de famílias de proteínas

Page 43: Métodos de alinhamento de sequências biológicas

BL2SEQS- Faz um alinhamento de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn)

- http://www.ncbi.nlm.nih.gov/BLAST/bl2seq/wblast2.cgi

Page 44: Métodos de alinhamento de sequências biológicas

Spliced alignments

http://mobyle.pasteur.fr/cgi-bin/MobylePortal/portal.py?form=est2genome

Page 45: Métodos de alinhamento de sequências biológicas

Alinhamento de genomas

http://asap.ahabs.wisc.edu/mauve/

Page 46: Métodos de alinhamento de sequências biológicas

FIMFIM