computational identification and characterization of novel genes from legumes michelle a. graham,...
TRANSCRIPT
Computational Identification and Characterizationof Novel Genes from
Legumes
Michelle A. Graham, Kevin A.T. Silverstein, Steven B. Cannon, and Kathryn A. VandenBosch
Julho, 2004
Camilla MoreiraProf. Paulo Andrade
Introdução
• Importância das Leguminosas (Fabaceae)
• Disponibilidade de seqüências
• ESTs
• TCs – tentativas consenso
• Seqüências específicas
Objetivo
Utilizar seqüências disponíveis no banco de dados para identificar de forma rápida e eficiente seqüências de M. truncatula, L. japonicus e soja, que não têm homólogos em outros grupos de não-legumes, além de sugerir funções às seqüências-específicas encontradas
Materiais e Métodos
• Identificação das seqüências-específicasBLAST
• Caracterização BlastXInterProScan
Identificação
Foram usados algoritmos BLAST para comparar os unigenes (TCs) de Medicago truncatula, Lotus japonicus e Glycine soja e max, contra conjuntos de unigenes: NR e EST do GenBank, e sequências genômicas de arroz e Arabidopsis, além de seqüências nucleotídicas do TIGR
BLAST• Filtro nas seqüências (repetições, cauda
poliA)• 1º Round
MedicagoTCs Lotus Glycine
BlastNe
TBlastX
Milho
Tomate
Arroz
Arabidopsis
E-value > 10-4
10-4 10-4
TIGR
Próxima fase
BLAST• 2º Round
Medicago• TCs Lotus Glycine
BlastX Banco NR
E-value < 10-4
10-4 10-4 Espera-se que sejam específicas
BLAST
• 3º Round
TBlastX
(TIGR)
E-value > 10-4
10-4 10-4
AlgodãoAlfaceBatataCenteioCevadaGirassolPinusTrigoSorgo
BLAST
• 4º Round
TBlastX
E-value > 10-4
Genoma de Arroz e
Arabidopsis
BLAST
• 5º Round
TBlastX
E-value > 10-4
EST_Others
Seqüências específicas de Leguminosas
<<
Identificação Computacional de Genes Legume-específicos
InterProScan
• Banco de dados de proteínas, domínios e locais funcionais, no qual características identificáveis encontradas em proteínas conhecidas podem ser aplicadas à seqüências protéicas desconhecidas
• Busca por motivos protéicos
Caracterização
• Seq Específicas x GenBank (NR)20% com homologia
• 1ª Análise por Motivos Conservados de outras proteínas46 TCs contendo 55 motivos
conservados
•41 ricos em aa específicos
•14 – F-Box, inibidores de pectinesterase, zinc finger e nodulinas
Caracterização• 2ª Mineração de grupos de genes legume-
específicos com domínios comuns não caracterizados (geração de único domínio)
• Domínio gerado procurar entre proteínas para atribuir função
• 2.525 TCs + 50, 672 e 688 homólogos single
• 665 grupos de potenciais famílias gênicas
F-Box, Ricos em prolina e ricos em cisteína (CCPs)
Similaridade entre os Motivos de F-Box
Análise dos Motivos dos Grupos CCP
A. Regiões com similaridade (e<-10) a sequências do GenBank
1. retroelemento de Arabidopsis2. Proteína gag de pêra3, poliproteína Pol de Nicotiana tabacum4, Proteína de membrana associada a vesícula de
Arabidopsis5. Poliproteína de N. tabacum6. Albumin 1 de Medicago truncatula7, Proteína T31J12.4 de Arabidopsis8. Transposase Mariner de G. max9. Proteína expressa de Arabidopsis10. Fator de transcrição de Arabidopsis11. Elemento de transposição Tnp2 de Antirrhinum
majus
BAC Mth2-34P9
MR = mini-repeatsCCP = genes para proteínas ricas em
cisteínaR1, R2 e R3Setas verdes: início da tradução da CCPCores nos MR = similaridade entre si
pb
pb
Correlação “filogenética” entre os vários mini-repeats e quadro que mostra a provável composição de MR3-1 a partir de MR1-1 e MR1-2
MY
TE
AD
DR
A
MYTEADDRAMYT
Dot plot (esquema) Dot plot (resultado real)
Conclusões
• Origem de não-legumes
• Similaridade com motivos bem representados em diversas categorias
• Esses genes podem ser exemplos de rápida evolução (Blast não pode identificar)
• Genes novos – falha na detecção por domínios (ou não detectados, ou sem similaridade com proteínas conhecidas)
Conclusões
• Identificação de famílias gênicas tecido específica10 raiz e nódulos8 sementes4 folhas e flores7 situações de estresse e patógenos
• Genes candidatos à transformação ou silenciamento gênico em análise futuras de função gênica
Obrigada