busca de motivos em sequências - iq usp · nome da proteína. beta-galactosidase: nome do gene....
TRANSCRIPT
![Page 1: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/1.jpg)
Anotação de genomas
João C. Setubal2018
![Page 2: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/2.jpg)
Sumário
• Dado um genoma completo, sem buracos ou erros• Achar os genes codificadores de proteína
– Sequência codificadora (CDS) (às vezes aparece ORF)– promotores
• Achar genes de RNA– RNA ribossomal– tRNA– Outros RNAs
• Atribuir função aos genes codificadores de proteína• Esta aula: genomas de procariotos
![Page 3: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/3.jpg)
Achar genes codificadores de proteína
• Gene finding
![Page 4: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/4.jpg)
Genes
![Page 5: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/5.jpg)
EEB 600A Lecture 24nitro.biosci.arizona.edu
Estrutura de um gene de procarioto
ORF
![Page 6: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/6.jpg)
8/1/2018 J. C. Setubal 6
DNA tem quadros de leitura
+1: GTGGTGGCCTTCGAAGGGT+2: TGGTGGCCTTCGAAGGGT+3: GGTGGCCTTCGAAGGGT
![Page 7: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/7.jpg)
8/1/2018 J. C. Setubal 7
DNA tem duas fitas (+ e –)
GTGGTGGCCTTCGAAGGGT
CACCACCGGAAGCTTCCCA+
–
5′ 3′
3′ 5′
![Page 8: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/8.jpg)
8/1/2018 J. C. Setubal 8
6 quadros no total
GTGGTGGCCTTCGAAGGGTTGGTGGCCTTCGAAGGGTGGTGGCCTTCGAAGGGT
CACCACCGGAAGCTTCCCA
CACCACCGGAAGCTTCCC
CACCACCGGAAGCTTCC
![Page 9: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/9.jpg)
8/1/2018 J. C. Setubal 9
...AGCTCGCGCTCCGCATCCATCCAGTAGGGTTCGGTGTCGACGAGCGTGCCGTCCATATCCCAGAAGACGGCGGCCGGCATCGCGTGCGGAGTCAGTTCGGTCACGGCTGACAAGTCTATCCCGGCGGCCCCGGGCCTATTCTTGAGGGACGGCGTCCTGACCGGTCGCCGGATGAAAGGACCAGAACGCCCCGTGACTGACGCGAACAGCATCCTCGGAGGGCGCATCCTCGTGGTGGCCTTCGAAGGGTGGAACGACGCTGGCGAGGCCGCCAGCGGGGCCGTCAAGACGCTCAAGGACCAGCTGGATGTCGTCCCGGTCGCCGAGGTCGATCCCGAGCTGTACTTCGACTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCCTCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACCGGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCTTCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGATCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGTGCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTCGAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGTACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGACGTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCACAATGCGCCCAGCCCGAAGGCGGTGCTCGCACTGATCGACAAGCTCGAAGAGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACGGCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGCTACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTGAGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGCCGCGACGGCCGCGCCGGCGATGACCCCCGCCGTGGCTGACGTCACCCCCTCTCTGCGTCCGCCGTCCTCTGTTCCCCCCGCTCGGCCTCCCCTGAGGCCG
AGGAGTCGCGCCCACATGCCGGAAACTCCTCCTTTCCTGACTTTCTGGAG ...
DNA de bactéria
![Page 10: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/10.jpg)
8/1/2018 J. C. Setubal 10
...AGCTCGCGCTCCGCATCCATCCAGTAGGGTTCGGTGTCGACGAGCGTGCCGTCCATATCCCAGAAGACGGCGGCCGGCATCGCGTGCGGAGTCAGTTCGGTCACGGCTGACAAGTCTATCCCGGCGGCCCCGGGCCTATTCTTGAGGGACGGCGTCCTGACCGGTCGCCGGATGAAAGGACCAGAACGCCCCGTGACTGACGCGAACAGCATCCTCGGAGGGCGCATCCTCGTGGTGGCCTTCGAAGGGTGGAACGACGCTGGCGAGGCCGCCAGCGGGGCCGTCAAGACGCTCAAGGACCAGCTGGATGTCGTCCCGGTCGCCGAGGTCGATCCCGAGCTGTACTTCGACTTCCAGTTCAACCGGCCGGTCGTCGCGGACGACGACGGCCGCCGGCGCCTCATCTGGCCGTCCGCGGAGATCCTGGGCCCAGCTCGCCCCGGCGACACCGGCGATGCGCGCCTGGACGCCACCGGCGCCAACGCGGGCAATATCTTCCTTCTCCTCGGCACCGAGCCGTCGCGCAGCTGGCGCAGCTTCACCGCGGAGATCATGGATGCGGCCCTGGCCTCCGACATCGGCGCCATCGTCTTCCTCGGTGCGATGCTGGCGGACGTACCGCACACCCGCCCCATCTCCATCTTCGCTTCGAGCGAGAACGCGGCCGTCCGTGCGGAGCTCGGCATCGAACGCTCTTCGTACGAGGGGCCGGTCGGTATCCTGAGCGCGCTCGCCGAAGGGGCGGAGGACGTGGGCATTCCGACCATCTCCATCTGGGCGTCGGTTCCGCACTATGTCCACAATGCGCCCAGCCCGAAGGCGGTGCTCGCACTGATCGACAAGCTCGAAGAGCTGGTGAATGTCACCATCCCGCGTGGCTCGCTGGTGGAGGAGGCCACGGCCTGGGAAGCCGGGATCGACGCGCTGGCTCTGGACGACGACGAGATGGCTACGTACATCCAGCAGCTGGAGCAGGCACGCGACACCGTGGACTCCCCTGAGGCCAGCGGCGAGGCGATCGCCCAGGAGTTCGAGCGCTACCTCCGCCGCCGCGACGGCCGCGCCGGCGATGACCCCCGCCGTGGCTGACGTCACCCCCTCTCTGCGTCCGCCGTCCTCTGTTCCCCCCGCTCGGCCTCCCCTGAGGCCG
AGGAGTCGCGCCCACATGCCGGAAACTCCTCCTTTCCTGACTTTCTGGAG ...
Um gene (CDS)
![Page 11: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/11.jpg)
8/1/2018 J. C. Setubal 11
Quadro aberto de leitura (ORF)
• Um trecho do genoma em que– O número de nucleotídeos é múltiplo de 3– O último codon é de parada– O primeiro codon é de início de tradução (ATG)– Não existe nenhum outro codon de parada
presente
![Page 12: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/12.jpg)
8/1/2018 J. C. Setubal 12
Método (rudimentar) para achar genes em procariotos
Ache todas as ORFs com pelo menos 900 bp
![Page 13: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/13.jpg)
![Page 14: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/14.jpg)
8/1/2018 J. C. Setubal 14
Método (um pouco melhor) para achar genes em procariotos
1. Ache todas ORFs2. Traduza cada uma usando o código genético3. Compare cada uma com seqüências de
genes conhecidos– Se achar algum hit estatisticamente significativo,
guarde; senão jogue fora
4. Resolva sobreposições
![Page 15: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/15.jpg)
Na prática
• Métodos que usam técnicas bem maissofisticadas
• Buscam padrões estatisticamentesignificativos no DNA
• Teoria: a composição em nucleotídeos das CDSs dos genes codificadores de proteínasegue um padrão, que é diferente das demaisregiões
• Técnica: modelos de markov de maior ordem
![Page 16: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/16.jpg)
Programas mais usados
– Glimmer• http://ccb.jhu.edu/software/glimmer/index.shtml
– Prodigal• http://prodigal.ornl.gov/
– geneMark• http://exon.gatech.edu/
– Metagene (for metagenomics sequences)• http://weizhong-lab.ucsd.edu/metagenomic-
analysis/server/metagene/
![Page 17: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/17.jpg)
Limitações
• Genes pequenos (menores do que 150 bp) geralmente são perdidos– Se se aumenta a sensibilidade, vem muitos falsos
positivos
• Início de tradução nem sempre é correto
![Page 18: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/18.jpg)
Achar genes de RNA
• RNA ribossomal– Operon– 16S, 5S, 23S
• tRNA– tRNAscan-SE
• Outros RNAs
![Page 19: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/19.jpg)
Alberts et al. 2008
![Page 20: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/20.jpg)
tRNA
Em procariotos tipicamente existemcerca de 50 genes de tRNA
![Page 21: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/21.jpg)
Outros RNAs
• tmRNA– Resgata ribossomos emperrados
• Ribonuclease P RNA• 6S RNA
– Regulação gênica por ligação com RNA polimerase
• SRP RNA• etc
![Page 22: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/22.jpg)
Como achá-los?
• rRNA– BLASTN, RNAmmer– Fronteiras exatas?
• tRNA– tRNAscan-SE– Aragorn
• Outros RNAs– RFAM
![Page 23: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/23.jpg)
RFAM
Famílias de RNA são descritas por esse grupo na Wikipedia
![Page 24: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/24.jpg)
![Page 25: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/25.jpg)
Anotação funcionalatributo exemplo
Nome da proteína Beta-galactosidase
Nome do gene lacZ
organismo Escherichia coli (strain K12)
comprimento 1024 AA
função Hydrolysis of terminal non-reducing beta-D-galactoseresidues in beta-D-galactosides
sequencia MTMITDSLAVVLQRRDWENPGVTQLNRLAA(…)
estrutura Próximo slide
Evidência de existência Referências da literatura
Número EC, sítios ativos, interações, massa, etc
![Page 26: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/26.jpg)
R.H. Jacobson, X.-J. Zhang, R.F. DuBose, B.W. MatthewsThree-dimensional structure of β-galactosidase from E. coliNature, 369 (1994), pp. 761–766
B.W. Matthews, C. R. Biologies 328 (2005)
![Page 27: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/27.jpg)
Como anotar?
• Manualmente– Seguir protocolos– Impraticável para a avalanche de genomas que
existe hoje
• Automaticamente– Pipelines de anotação
![Page 28: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/28.jpg)
![Page 29: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/29.jpg)
![Page 30: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/30.jpg)
![Page 31: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/31.jpg)
O problema dos termos
• Diferentes pessoas usam diferentes palavraspara descrever a mesma função
• Diferentes pessoas usam as mesmas palavraspara descrever funções diferentes
• É necessário uma padronização– Gene Ontology
![Page 32: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/32.jpg)
Gene Ontology
• Sistema que faz 2 coisas básicas– Padroniza os termos– Padroniza a relação entre eles
• 3 grandes áreas– Função molecular– Processo biológico– Componente celular
![Page 33: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/33.jpg)
Simplified directed acyclic graph (DAG) illustrating several terms describing different types of programmed cell death (PCD).
Trudy Torto-Alalibo et al. Microbiol. Mol. Biol. Rev. 2010;74:479-503
![Page 34: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/34.jpg)
Códigos de evidência
• Usados no processo de anotação para indicarcomo a anotação foi feita
![Page 35: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/35.jpg)
![Page 36: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/36.jpg)
Gene Ontology não padronizanomes de proteínas
• lacZ• Ou mesmo…• A frase curta que supostamente descreve a
função dos genes• Então alguns problemas babélicos continuam
![Page 37: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/37.jpg)
Propagação de erros
• Tsunami de sequências• => propagação automática de anotações• Mas toda anotação precisa estar ancorada em
dados experimentais– Estes são escassos
• Resultam muitos erros por propagação
![Page 38: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/38.jpg)
Análise de enriquecimento
• Padronização de termos permite análise de enriquecimento– Exemplo típico é em expressão gênica– genes diferencialmente expressos em condição A
em relação a um controle (para + ou para -)
• Há um enriquecimento de categorias GO (ouCOG, etc) dos genes d.e.?– Super-representação– Sub-representação
![Page 39: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/39.jpg)
Resultado final
![Page 40: Busca de motivos em sequências - IQ USP · Nome da proteína. Beta-galactosidase: Nome do gene. lacZ: organismo. Escherichia coli (strain K12) comprimento. 1024 AA: função. Hydrolysis](https://reader034.vdocuments.com.br/reader034/viewer/2022042805/5f6724a1c72b4e1a9838da75/html5/thumbnails/40.jpg)