alinhamentos e busca de similaridade · e busca de similaridade ariane machado lima...

114
Alinhamentos de sequências e Busca de Similaridade Ariane Machado Lima [email protected] Escola de Artes, Ciências e Humanidades - USP

Upload: trinhminh

Post on 17-Nov-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamentos de sequências e

Busca de Similaridade

Ariane Machado [email protected]

Escola de Artes, Ciências e Humanidades - USP

Page 2: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Contexto

http://www.ekac.org/gene.html

http://www.fuzzco.com/news/wp-content/uploads/2007/11/genome.jpg

Page 3: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Contexto

Page 4: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Buscas por sequências (o sentido biológico)

• Busca de identidade:– SABER o que é, onde está, etc.

• Busca de similaridade:– INFERIR o que é

Page 5: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Busca de identidade

• Comparar 2 sequências para saber se:– são iguais– possuem uma subsequência em comum

Page 6: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exemplo 1

Localização de subsequência

sequência

genoma

Page 7: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exemplo 1

Localização de subsequência

sequência

genoma

Page 8: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exemplo 1

Localização de subsequência

sequência

genoma

BUSCA POR IDENTIDADE

Page 9: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exemplo 2 • Como faço para saber que proteína é essa?

MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Page 10: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exemplo 2 • Como faço para saber que proteína é essa?

MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Posso procurá-la em bancos de proteínas anotadas(procuro por ela, ou seja, por uma sequência idêntica)

Page 11: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exemplo 2 • Como faço para saber que proteína é essa?

MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Posso procurá-la em bancos de proteínas anotadas(procuro por ela, ou seja, por uma sequência idêntica)

BUSCA POR IDENTIDADE

Page 12: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exemplo 3 • Como faço para saber que proteína é essa?

MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Posso procurá-la em bancos de proteínas anotadas(procuro por ela, ou seja, por uma sequência idêntica)

E SE EU NÃO ENCONTRASSE UMA IDÊNTICA, MAS UMA SIMILAR?

Page 13: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Inferência de função a partir de similaridade

Page 14: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Inferência de função a partir de similaridade

Page 15: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Inferência de função a partir de similaridade

Page 16: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Nem sempre funciona...

Page 17: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

2 sequências

cacttttaactctctttccaaagtccttttcatctttccttcacagtacttgttcactat cacttttaactctctttccaaagaacttttcatctttccctcacggtacttgtttgctat

Page 18: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:
Page 19: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Processo evolutivo

Page 20: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Homologia, paralogia e ortologia

• Homologia: 2 sequências são homólogas se elas possuem uma sequência ancestral comum

• Ortologia

• Paralogia

Page 21: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Ortologia: homologia por especiação

Page 22: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Paralogia: homologia por duplicação

Page 23: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Homologia, paralogia e ortologia

Paralogia

Ortologia

Page 24: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Aplicações de busca de similaridade

• Predição de genes

• Predição de estrutura– de proteínas

– de RNA/DNA

• Inferência de árvores filogenéticas

• Busca de polimorfismos / marcadores

Page 25: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

• CUIDADO: Se duas (ou mais) sequências são parecidas:– elas podem ser homólogas– elas podem ter funções similares– elas podem ter a mesma estrutura

Identidade, similaridade e homologia

Page 26: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Como encontrar identidade e similaridade?

Page 27: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

ALINHAMENTOS!

Como encontrar identidade e similaridade?

Page 28: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamentos de 2 sequências

• “Deixar 2 sequências o mais parecidas possível”

ROSAVERMELHAAMOROSOVERME

• Ajustando as posições de suas letras, se necessário usando espaços:

Page 29: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamentos de 2 sequências

• “Deixar 2 sequências o mais parecidas possível”

ROSAVERMELHAAMOROSOVERME

---ROSAVERMELHAAMOROSOVERME---

• Ajustando as posições de suas letras, se necessário usando espaços:

Page 30: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

• Alinhamentos permitem comparações entre as sequências– Identidade– Similaridade

ROSAVERMELHAAMOROSOVERME

---ROSAVERMELHAAMOROSOVERME---

Page 31: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

ROSAVERMELHA | AMOROSOVERME

Identidade: 8% (1/12)

---ROSAVERMELHA ||| ||||| AMOROSOVERME---

Identidade: 53% (8/15)

Page 32: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Sistema de scores

• Pontos para match (ex: +2)

• Penalidades para mismatch (ex: -1)

• Penalidades para gap– abertura (ex: -3)– extensão (ex: -1)

Page 33: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

ROSAVERMELHA | AMOROSOVERME

Identidade: 8% (1/12)

SCORE: ???

---ROSAVERMELHA ||| ||||| AMOROSOVERME---

Identidade: 53% (8/15)

SCORE: ???

Page 34: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

ROSAVERMELHA | AMOROSOVERME

Identidade: 8% (1/12)

SCORE: -9

---ROSAVERMELHA ||| ||||| AMOROSOVERME---

Identidade: 53% (8/15)

SCORE: ???

Page 35: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

ROSAVERMELHA | AMOROSOVERME

Identidade: 8% (1/12)

SCORE: -9

---ROSAVERMELHA ||| ||||| AMOROSOVERME---

Identidade: 53% (8/15)

SCORE: +3

Page 36: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

ROSAVERMELHA | AMOROSOVERME

Identidade: 8% (1/12)

SCORE: -9

---ROSAVERMELHA ||| ||||| AMOROSOVERME---

Identidade: 53% (8/15)

SCORE: +3

Para um dado sistema de score, calculo o alinhamento de maior score(alinhamento ótimo)

PROBLEMA DE OTIMIZAÇÃO

Page 37: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Similaridade entre os aminoácidos

Page 38: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

• Matrizes 20x20

• Algumas matrizes:

– PAMs

– BLOSUMs

Matrizes de score(matrizes de substituição de aa)

Page 39: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919.

A R N D C Q E G H I L K M F P S T W Y V B Z X *A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

Page 40: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

• Matrizes 20x20

• Algumas matrizes:

– PAMs

– BLOSUMs

Matrizes de score(matrizes de substitição de aa)

Também pode usar matrizes de nucleotídeos....

Page 41: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

• Matrizes 20x20

• Algumas matrizes:

– PAMs

– BLOSUMs

Matrizes de score(matrizes de substitição de aa)

Também pode usar matrizes de nucleotídeos....

Veremos sobre essas matrizes mais adiante....

Page 42: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Identidade, similaridade e homologia

Identidade

Similaridade

Homologia

Tipo de Medida

Quantitativa

Quantitativa

QUALITATIVA

Sentido

quantos idênticos

quantos parecidos

TEM ou NÃO TEM

um ancestral comum

Page 43: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamentos

• Pairwise: 2 sequências

• Múltiplo: mais de 2 sequências

Page 44: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Tipos de alinhamentos

• Global

• Semi-global

• Local

Page 45: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento global

QUERIDA---ROSAVERMELHA|||| ||| ||||| QUEROUMAMOROSOVERME---

Page 46: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento global

• Aplicação:– comparar 2 proteínas (ex. para inferir

estrutura secundária)

Page 47: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Estrutura 3D de proteínas

Page 48: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento global

• Aplicação:– comparar 2 proteínas (ex. para inferir

estrutura secundária)

Page 49: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento múltiplo

Page 50: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento pairwise global

• Algoritmo Exato: Needleman-Wunsch (pairwise)

• Programas:– needle (EMBOSS)– stretcher (EMBOSS) (demora mais, mas economiza

memória)

– FASTA– Outros de alinhamento múltiplo

Page 51: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento múltiplo (global)

• Ferramentas normalmente usadas NÃO SÃO EXATAS!

• Necessita alguma edição manual

• Parece não haver um consistentemente melhor que todos

Page 52: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento múltiplo (global)

• Algumas ferramentas:– ClustalW / ClustalX– T-Coffee– Muscle

Page 53: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:
Page 54: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

ClustalX

• Alinhar helicases_humanas.fasta

• Alinhar dicers.fasta

Page 55: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento global

• Outras aplicações

– Identificação de SNPs (single nucleotide polimorphism) e outros polimorfismos

– Identificação de domínios proteicos mais conservados

– Identificação de isoformas

– Construção de árvores filogenéticas

Page 56: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Helicases humanas (SNPs)

Page 57: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Várias helicases (domínios)

Page 58: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Várias helicases (domínios)

Page 59: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Identificação de isoformas

Page 60: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Identificação de isoformas

Page 61: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Outra aplicação

• Criação de modelos e identificação de RNAs não codificantes (ou outros elementos) com estrutura secundária

• Ex: microRNAs

Page 62: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento estrutural

Page 63: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento semi-global

---ROSAVERMELHA ||| ||||| AMOROSOVERME---

Page 64: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento semi-global

• Aplicação: montagem de genomas!

Page 65: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Sequenciamento shot-gun

Page 66: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento semi-global

• Aplicação: montagem de genomas!

Page 67: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento local

QUERIDA---ROSAVERMELHA|||| ||| ||||| QUEROUMAMOROSOVERME---

QUER|||| QUER

ROSAVERME||| ||||| ROSOVERME

Page 68: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento local

• Aplicações:

– Encontrar um gene em um genoma

sequência

genoma

Page 69: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento local

• Aplicações:

– Identificar possíveis homólogos em um banco de dados

MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKWQRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Page 70: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Alinhamento Local

• Algoritmo Smith-Waterman (exato)

• Programas– BLAST (NCBI / WU)– BLAT (mais preciso – bom para localização)– water (EMBOSS - exato)– matcher (demora mais, mas economiza memória -

exato)– cross_match (swat) – bom para mascaramento– FASTA

Page 71: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

BLAST

Basic Local Alignment Search Tool

• NCBI BLAST ou WU-BLAST

• Heurísticas

Page 72: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

“Palavras” do BLAST (W)

MLILII

MLIIKRDELVISWASHERE sequência query

IIKIKRKRDRDEDELELVLVIVISISWSWAWASASHSHEHERERE

todas as palavras de tamanho 3 com sobreposição

Page 73: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

“Palavras” do BLAST (W)

• Valores default para aminoácidos e para nucleotídeos

• CUIDADO!!!!! Veja se isso não é muito para o seu caso!

Page 74: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exercício

• Primeiro usar ClustalX (alinhamento global) para alinhar mouse_hemoglobinas.fasta (uma sequência genômica e um transcrito)

• Depois usar bl2seq (Blast) para alinhar as mesmas sequências

• Qual a diferença?

Page 75: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exercício

• Localizar onde está (no genoma do camundongo) o gene da hemoglobina– Qual programa blast usar?– Qual sequência usar? (gene todo ou

transcrito?)

Page 76: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exercício

• Encontrar hemoglobinas parecidas– Quais programas blast usar?– Qual sequência usar? (gene todo ou

transcrito?)

Page 77: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:
Page 78: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:
Page 79: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Formato FASTA

>Identificador da sequência

GCCCCCGGCCCCGCCCCGGCCCCGCCCCCGGCCCCGCCCCGCAAGGGTC

ACAGGTCACGGGGCGGGGCCGAGGCGGAAGCGCCCGCAGCCCGGTACCG

GCTCCTCCTGGGCTCCCTCTAGCGCCTTCCCCCCGGCCCGACTCCGCTG

GTCAGCGCCAAGTGACTTACGCCCCCGACCTCTGAGCCCGGACCGCTAG

Page 80: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:
Page 81: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:
Page 82: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Significância de scores

• E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

• Quanto menor...

Page 83: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Significância de scores

• E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

• Quanto menor... ... melhor!!!!

Page 84: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Significância de scores

• P-value (s): probabilidade de obter um score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

• E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

Page 85: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Significância de scores

• E-value é um número real não negativo

• Quanto menor... ... melhor!!!!

• E-value depende de...

E(S) = Kmne-λS

... por isso não existe número mágico

Page 86: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:
Page 87: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Programas standalone• Programas como Blast, BLAT e muuuuitos

outros:– via web server– standalone (linha de comando) – Perl

scripts!!!!

• NCBI x WU BLAST

• netblast: linha de comando, mas executa remotamente

Page 88: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

BLAT – Blast Like Alignment Tool

• Mais rápido e mais preciso (para sequências altamente similares)

• Aplicação: mapeamento de sequências (ex: transcritos)

• Mantém um índice de todo o banco em memória (non-overlapping k-mers)

Page 89: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

SIM4 e outros

• Para alinhar regiões sequências em

nucleotídeos de regiões codificantes

(alinhamento de códons)

Page 90: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Cuidado com anotações erradas!!!

• Cuidado com bancos não “curados”

Page 91: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Voltando ao sistema de score...

• Match/mismatch pode ser substituído por

– uma matriz 4x4 (nucleotídeos)

– uma matriz 20x20 (aminoácidos)

Page 92: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Similaridade entre os aminoácidos

Page 93: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Matrizes de score(matrizes de substituição)

Page 94: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919.

A R N D C Q E G H I L K M F P S T W Y V B Z X *A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

Page 95: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Matrizes de score(matrizes de substituição)

• qij: probabilidade do aminoácido i ser

substituído pelo aminoácido j• pi: probabilidade do aminoácido i

mij = log (qij / pi pj) = mij

Page 96: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Matrizes de score(matrizes de substituição)

• qij: probabilidade do aminoácido i ser

substituído pelo aminoácido j• pi: probabilidade do aminoácido i

mij = log (qij / pi pj) = mij

Page 97: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Matrizes de score(matrizes de substituição)

• qij: probabilidade do aminoácido i ser

substituído pelo aminoácido j• pi: probabilidade do aminoácido i

mij = 1/λ log (qij / pi pj) = mij

Page 98: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

• Como achar qij, pi e pj?

• Algumas matrizes:

– PAMs

– BLOSUMs

Matrizes de score(matrizes de substitição)

Page 99: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Matrizes PAM de aminoácidos – Point Accepted Mutation

• Dayhoff, 1978• Processo:

– Alinhamento de conjuntos de sequências relacionadas (85% id)

– Construção de árvores filogenéticas

– Cálculo da frequência de substituição de cada par de aminoácido

– Normalização das frequências: 1% de mudança ~ 50 milhões de anos (PAM1)

Page 100: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Matrizes PAM de aminoácidos – Point Accepted Mutation

• Em um período de 2 PAMs, pode ter havido A → ?, e então ? → D

• Extrapolação: PAM2 = PAM1 x PAM1

PAMy = PAM1 x PAM1 x .... x PAM1

• PAM120: 40% de identidade

• PAM250: 20% de identidade

Page 101: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

PAM250Diagonal Hidrofóbicos

Hidrofílicos

Page 102: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Problemas das PAMs

• Inferida por um conjunto restrito de proteínas

• Extrapolação

• Muitas novas proteínas foram sequenciadas desde 78...

Page 103: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Matrizes BLOSUM de aminoácidos

• Henikoff & Henikoff, 1992

• Alinhamentos de blocos de vários grupos de proteínas relacionadas (banco de dados BLOCKS)

• Cálculo de frequência de substituição de cada par de aminoácido

• BLOSUMx: blocos de sequências com no máximo x% de identidade

• Ex: BLOSUM62 e BLOSUM85

Page 104: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

BLOSUM62Reference: Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 10915-10919.

A R N D C Q E G H I L K M F P S T W Y V B Z X *A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4 R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4 N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4 D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4 C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4 E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4 H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4 K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4 M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4 B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4 Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4 X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4 * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

Page 105: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

PAMs e BLOSUMs

• Para encontrar alinhamentos mais curtos e com maior similaridade:

– PAMs

– BLOSUMs

• Para encontrar alinhamentos mais longos e com menor similaridade:

– PAMs

– BLOSUMs

Page 106: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

PAMs e BLOSUMs

• Para encontrar alinhamentos mais curtos e com maior similaridade:

– PAMs

– BLOSUMs

• Para encontrar alinhamentos mais longos e com menor similaridade:

– PAMs

– BLOSUMs

mais baixas

mais altas

Page 107: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

PAMs e BLOSUMs

• Para encontrar alinhamentos mais curtos e com maior similaridade:

– PAMs

– BLOSUMs

• Para encontrar alinhamentos mais longos e com menor similaridade:

– PAMs

– BLOSUMs

mais baixas

mais baixas

mais altas

mais altas

Page 108: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Papel dos gaps

• Inserções / deleções

GLOBAL LOCALMUITO ALTAS

Inibir trechos de gap → alinhamentos ruins (muitos mismatches)

Inibir trechos de gap → maior número de blocos

MUITO BAIXAS

Muitos gaps espalhados pelo alinhamento (alinhamento ruim)

Muitos gaps espalhados pelo alinhamento (alinhamento ruim e possivelmente maior do que deveria)

Page 109: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Exercícios

Page 110: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:
Page 111: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Ex: Identidade e similaridade

• Qual é o melhor alinhamento?

a) 100% (10/10)b) 91% (95/104)c) 74% (80/108)d) 53% (59/111)

Page 112: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Ex - Matrizes BLOSUM

• Usando a matriz de escore default BLOSUM62, você encontrou duas proteínas que divergiram bem recentemente.

Se você quiser refinar seu alinhamento, que matriz você deveria usar (com número mais alto ou mais baixo)?

Page 113: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Ex - Sequências de proteína x DNA

• Sequências de DNA são menos conservadas que sequências de aminoácidos, que por sua vez são menos conservadas que a estrutura de uma proteína

• Se você quer inferir função, qual das duas usar?

• Se você quer detalhes mais finos (ex: distância evolutiva), qual usar?

Page 114: Alinhamentos e Busca de Similaridade · e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e ... •Matrizes 20x20 • Algumas matrizes:

Referências

Caprichado (geral):Mount - http://www.bioinformaticsonline.org/

Básico:O'Reilly - http://www.oreilly.com/catalog/bioskills/

BLAST:http://www.oreilly.com/catalog/blast/

Durbin R, Eddy S, Krogh A, Mitchison G. (1998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 1998.