anotação molecular

102
Anotação Anotação Molecular Molecular DRA. ADRIANA DANTAS | BIOINFORMÁTICA DRA. ADRIANA DANTAS | BIOINFORMÁTICA

Upload: prof-dra-adriana-dantas

Post on 09-Dec-2014

2.338 views

Category:

Education


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Anotação molecular

Anotação Anotação MolecularMolecular

DRA. ADRIANA DANTAS | BIOINFORMÁTICADRA. ADRIANA DANTAS | BIOINFORMÁTICA

Page 2: Anotação molecular

Introdução

A bioinformática: Imprescindível para a manipulação dos dados biológicos.

Definida como uma modalidade que abrange todos os aspectos de aquisição, processamento, armazenamento, distribuição, análise e interpretação da informação biológica.

Combinação de procedimentos e técnicas da matemática, estatística e ciência da computação

Elaboradas várias ferramentas que nos auxiliam a compreender o significado biológico representado nos dados genômicos.

Criação de bancos de dados com as informações já processadas, acelera a investigação em outras áreas como a medicina, a biotecnologia, a agronomia, etc

Page 3: Anotação molecular

DEFINIÇÕES DE GENOMA A palavra GENOMA foi inventada em 1920, pelo Dr. H. Winkler, que fundiu a palavra ‘

GENes e cromossOMASGENes e cromossOMAS’

O termo GENÔMICA foi estabelecido bem mais tarde, em 1986, quando foi proposta a criação de uma nova disciplina e de uma nova revista cientifica

Definições:

Coleção de genes de um organismo

Casamento entre a biologia celular coma genética clássica e a adoção da ciência de computação

Biologia molecular em grande escala

Rol de tecnologias capazes de decodificar a sequencia de DNA de qualquer organismo

Uma nova ciência que estuda todo o genoma

Integra disciplinas tradicionais como citologia, genética mendeliana, quantitativa, de populações e molecular com novas tecnologias derivadas da informática e de sistemas robóticos automatizados

Page 4: Anotação molecular

Bancos de dados Genômicos

Grande quantidade de dados gerados em inúmeros laboratórios de todo o mundo, faz-se necessário organizá-los de maneira acessível, de modo a evitar redundância na pesquisa científica e possibilitar a análise por um maior número possível de cientistas.

A construção de bancos de dados para armazenamento de informações de sequencias de DNA e genomas inteiros, proteínas e suas estruturas tridimensionais, bem como vários outros produtos da era genômica, tem sido um grande desafio, mas simultaneamente extremamente importante.

Page 5: Anotação molecular

GenBankGenBank

O NCBI, ou Centro Nacional para Informação Biotecnológica dos EUA, é considerado o banco de dados central sobre informações genômicas.

Vários outros bancos de dados similares estão distribuídos por países da Europa e Japão, mas todos trocam dados em um intervalo de 24 horas com o NCBI.

O GenBank é o principal banco de dados do NCBI e armazena todas sequencias disponíveis publicamente de DNA (de seqüências pequenas a genomas inteiros), RNA e proteínas.

Page 6: Anotação molecular

Bancos de dados secundários do NCBI

UniGene

agrupa todas as sequencias parciais do transcriptoma de um organismo em aglomerados ou clusters, onde cada aglomerado representa a sequencia consenso de um gene.

Banco de dados RefSeq

reúne somente as sequencias de referência, ou seja, a mais representativa sequencia de um transcrito, editada e inspecionada por um curador. É, frequentemente, o melhor banco de dados para se evitar a redundância natural num universo com tantas informações.

OMIM (Online Mendelian Inheritance in Man)

que foi criado para catalogar todos genes e alelos relacionados a doenças e outras características humanas, bem como proporcionar um detalhamento técnico e bibliografia referente a cada característica.

Page 7: Anotação molecular

Ferramentas para analise de dados no GenBank

A ferramenta mais popular de comparação de sequencias de DNA com os bancos de dados genômicos é o BLAST BLAST ou Basic Local Alignment Search Tool.

Através deste algoritmo podemos comparar uma sequencia de DNA ou proteína (Query) qualquer com todas sequencias genômicas de domínio público.

O programa BLAST não procura conduzir uma comparação da extensão total O programa BLAST não procura conduzir uma comparação da extensão total das moléculas comparadas, mas apenas identificar, no banco de dados, a das moléculas comparadas, mas apenas identificar, no banco de dados, a presença de uma sequencia suficientemente parecida com a pesquisada. presença de uma sequencia suficientemente parecida com a pesquisada.

Descarta, assim, rapidamente, os resultados não produtivos e estende a Descarta, assim, rapidamente, os resultados não produtivos e estende a vizinhança da região de homologia detectada até não mais conseguir.vizinhança da região de homologia detectada até não mais conseguir.

O resultado desta busca, que é feita no GenBank ou em várias de suas subdivisões (pode-se facilmente limitar a pesquisa a sequencias de um dado organismo, por exemplo), retorna aquelas sequencias (DNA ou proteínas) depositadas (depositadas (Subject)Subject) com maior homologia.

Page 8: Anotação molecular

Banco de Genes Um dos grandes desafios é o desenvolvimento de

procedimentos pelos quais esses dados podem ser “inseridos” e "extraídos" em bancos de dados secundários.

Ferramentas desenvolvidas recentemente incluem: Bancos de genes classificados de acordo com sua história evolutiva

(COG-NCBICOG-NCBI),

Algoritmos de comparação de genomas inteiros (ACT - Artemis ACT - Artemis Comparison ToolComparison Tool),

Ferramentas de busca de similaridade estrutural de proteínas, independentemente da sequencia primária (VAST-NCBIVAST-NCBI), etc.

Page 9: Anotação molecular

Mapas genômicos Em 1995, o primeiro genoma de um organismo celular foi decifrado por meio do

sequenciamento da bactéria da bactéria Haemophilus influenzae Haemophilus influenzae utilizando uma metodologia de “tiro no escuro" (do inglês shotgunshotgun).

Esta estratégia envolve o sequenciamento totalmente ao acaso, para posterior montagem numa sequencia contígua, ou contigcontig (figura 2) Tem-se mostrado extremamente útil para o sequenciamento de genomas simples, como o de bactérias

e em genomas complexos, como o da drosófila (Adams et al. 2000) e do homem (Venter et al. 2001).

O sequenciamento executado pelo consórcio público do genoma humano também teve uma porção shotgun.

Fragmentos grandes de DNA clonados em BAC (cromossomos artificial de bactériacromossomos artificial de bactéria), de cerca de 150 mil pb, previamente mapeados em lugares específicos dos cromossomos (figura 3). Enviados para centros de sequenciamento ao redor do planeta e, em cada centro, fragmentos

pequenos eram gerados por quebras físicas e sequenciados no escuro, com uma cobertura de até dez vezes.

Page 10: Anotação molecular

Figura 2

Page 11: Anotação molecular

Figura 3. sequenciamento de um genoma por biblioteca BACFigura 3. sequenciamento de um genoma por biblioteca BAC

Page 12: Anotação molecular

Processo Shotgun Contigs são montados e geram a sequencia do grande fragmento e a informação é

devolvida para a montagem final do genoma.

Processo Shotgun utilizado pela empresa Celera foi diferente:

o genoma é fragmentado em pedaços de 2 mil, 10 mil e 50 mil nucleotídeos, após são clonados, sequenciados as extremidades das moléculas.

Cada extremidade sequenciada encontra alguma sobreposição com alguma outra sequencia da coleção, mas sabendo-se a sequencia das outras extremidades destas duas moléculas, é possível conferir duplamente o resultado das sobreposições.

As moléculas longas funcionam como âncoras, onde as extremidades das moléculas maiores podem ser utilizadas não apenas para comprovar a montagem mas também para ligar e ordenar contigs bem como direcionar o sequenciamento para algumas áreas de descontinuidade entre os contigs.

Page 13: Anotação molecular
Page 14: Anotação molecular

Análise e Montagem das SequenciasSequencias shotgun analisadas Phred, Phrap e Consed

Resultado: Sequencias ordenadas com consenso formam um “CONTIG”

Page 15: Anotação molecular

Obtenção de Sequencias geradas pelo MegaBace 10

Base calling - Base calling - Dados brutos (medidas analógicas) de saída do seqüênciamento

PHRED:PHRED: Transforma os dados brutos em sequencias de bases, atribuí valores de qualidade a cada base na sequencia e gera arquivos de saída FASTA e PHD

PHRAP: PHRAP: Leitura Montagem dos pequenos fragmentos de DNA sequenciados em seqüências maiores: CONTIG

CONSED:CONSED: Visualização e edição das montagens das seqüências de alta qualidade

Page 16: Anotação molecular
Page 17: Anotação molecular

Base Calling Base Calling Phred : http://www.phrap.com/phred/

Lê o arquivo do cromatograma da sequencia de DNA e analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita

Page 18: Anotação molecular

Valores de qualidade gerados pelo PHRED

Arquivos de sequencias de DNA analisados pelo phred: Cada base é assinada um valor de qualidade, o qual é uma estimativa da

probabilidade de erro para essa base.

Bases com um valor de qualidade de 20 são consideradas com um alto valor de qualidade: q = -10 log10(pe) onde pe= erro estimado

q20 = 1/100 probabilidade de erro

q30= 1/1000 probabilidade de erro

q40= 1/10000 probabilidade de erro

Page 19: Anotação molecular
Page 20: Anotação molecular

PHRAP (agrupamento) e Consed

Page 21: Anotação molecular

Anotação de Genes

Anotar é postular a função ao produto de um ORF

Utilizam-se diversos programas de comparação de dados genéticos conhecidos

Page 22: Anotação molecular
Page 23: Anotação molecular
Page 24: Anotação molecular

Montagem de DNA

Ordenação dos trechos de DNA sequenciados para obtenção da sequencia original

Inclui verificação de qualidade de bases, marcação de vetores, comparação entre clones e formação de contíguos ate se obter o final

Page 25: Anotação molecular
Page 26: Anotação molecular
Page 27: Anotação molecular

Mascaramento de Vetores Mascaramento das regiões que representam, normalmente, partes dos

vetores de clonagem onde as sequencias de interesse foram inseridas ou pedaços de DNA adaptadores utilizados durante a construção das bibliotecas

Page 28: Anotação molecular

Montagem feita pela superposição Para executar essa montagem feita pela superposição das sequencias dos vários

clones, novas ferramentas da bioinformática foram construídas.

Duas dessas ferramentas, o PHRED e o PHRAPPHRED e o PHRAP, possibilitam a análise das milhares de sequencias de DNA geradas pelo sequenciador automático (Figura 4).

PHRED - verifica a qualidade do sequenciamento de cada base das várias sequencias e junto ao PHRAP faz o alinhamento de todos os clones, construindo uma sequencia contínua, ou contig.

No final, vários vários contigscontigs irão compor um grande irão compor um grande contig contig que pode ser a fita de DNA completa de um cromossomo de bactéria, que é na maioria dos casos o seu genoma completo.

Para a montagem final várias outras ferramentas foram desenvolvidas para manipulação e ordenamento de grandes contigs, bem como a visualização do mapa final com toda a anotação funcional (Ex: Mummy e Assembler do TIGR).

Page 29: Anotação molecular

Nos eucariotos, cada cromossomo possui uma molécula de DNA e, como humanos têm 24 tipos de cromossomos (1 a 22, X e Y), deve-se sequenciar completamente 24 dessas moléculas, avançando-se muitas vezes por longos trechos de DNA repetitivo, que são praticamente impossíveis de sequenciar com perfeição.

Page 30: Anotação molecular

Alinhamento de Sequencias Determinar se as sequencias apresentam similaridade.

Uma similaridade significativa é um forte argumento para homologia.

Definição dos termos :

Similaridade Similaridade : é uma medida da qualidade do alinhamento entre as sequencias, baseada em algum critério de comparação.

HomologiaHomologia : refere-se à relação evolutiva entre as sequencias.

Genes Homólogos :Genes Homólogos :pode ser divididos em: ortólogos e parálogos

Page 31: Anotação molecular

Genes Homólogos

Figura 2. Representação dos genes Hox em drosófila com seu posicionamento no DNA e seus respectivos locais de expressão

Cada animal possui um "Kit de ferramentas" que, quando unidos, são capazes de construir um animal. Não importa seu tamanho nem sua complexidade, todos animais são definidos a partir de um pool gênico compartilhado, com pequenas alterações, cuja expressão diferencia-se por sua ativação ou desativação em determinadas espécies, e por pequenas mutações que podem ocorrer durante a história evolutiva. 

Page 32: Anotação molecular

Distinção entre ortólogos e parólogosDistinção entre ortólogos e parólogos

Richardson E J , and Watson M Brief Bioinform 2012;bib.bbs007

© The Author(s) 2012. Published by Oxford University Press.

Page 33: Anotação molecular

Anotação Postular função para produto de gene

Predizer estruturas do genoma e suas funções

Anotam-se: Genes que codificam proteinas

tRNAs

rRNAs

ORFs hipotéticos

Clusters de GC

Repetições

GCsKew

Codon usage

Promotores

Page 34: Anotação molecular
Page 35: Anotação molecular

Para que serve o pacote BLAST? São utilizados para buscas por similaridade de sequencias efetuadas contras

bancos de dados de DNA e proteína;

Comparam proteínas com proteínas, DNA com DNA,

Proteína com DNA ou DNA com proteínas; As sequencias de DNA utilizadas na comparação usualmente são traduzidas antes da

comparação;

Utilizam valores limites (thresholds) que podem ser ajustados para alterar a velocidade e probabilidade;

O pacote pode utilizar várias matrizes de substituição como Blosum( Blocks Substitution Matrix) 62 ou PAM (Percent Accept Mutation) 250.

Page 36: Anotação molecular

BLASTBasic Local Alignment Search Tool - Ferramenta utilizada para realização de alinhamento local entre sequencias;

É um algoritmo heurístico baseado no algoritmo de Smith-Waterman;

É a ferramenta mais utilizada para realizar busca de sequencias contra banco de dados.

• Quais as estratégias utilizadas pelo BLAST ? Calcula similaridade de sequencias;

Executa alinhamento local;

Utiliza busca por palavras (“words”) ao invés de buscas por caracteres individuais (N ou P);

Utiliza cálculos estatísticos para validação do resultado.

Page 37: Anotação molecular

Anotação BLASTBasic Local Aligment Search Tool

Algoritmo BLAST (Alstchul et al., 1990 – J. Biolo., 215, 403-410)

Implementações: NCBIBLAST e WU-BLAST Acesso via web / local Consulta de sequencias em BDs biológicos Alinhamento, similaridade e homologia

Page 38: Anotação molecular

Bancos de dados BLAST www.ncbi.nlm.nih.gov/BLAST/

De acordo com o tipo de dados em que se esteja interessado existem vários bancos de dados contra os quais a sequencia de busca pode ser comparada : Sequencias caracterizadas de DNA ou proteína;

Sub-DBs especializados;

Genomas completos ou cromossomos;

DBs definidos pelo usuário (cópia local).

Page 39: Anotação molecular

BLASTBLAST Várias regiões de DNA podem ser anotadas através do BLAST, cujo

resultado pode servir para atribuir uma função a qualquer segmento de DNA que apresenta homologia significativa a outras sequencias de DNA ou proteínas previamente depositadas no GenBank com função conhecida experimentalmente (figura 1).

Figura 1 - Resultado da busca por similaridade com o programa BLAST. O segmento de DNA sequenciado (Query) demonstrou alta homologia (100%) com o gene da Insulina humana (Sbjct).

Page 40: Anotação molecular

BLASTBLAST

É interessante verificar que se utilizássemos um nucleotídeo, "A" por exemplo, para pesquisar sequencias humanas, a chance de encontrarmos uma região homóloga seria igual a 1 (100%).

Se a nossa sequencia pesquisada fosse mais complexa, 144 bases por exemplo, a chance de encontrarmos uma sequencia perfeitamente idêntica seria pequena.

O valor de "E" O valor de "E" , um parâmetro calculado pelo BLAST, expressa essa dificuldade e, quanto menor seu valor, menor a chance de tal comparação ter sido encontrada por pura coincidência.

Page 41: Anotação molecular

Modalidades de BLAST A mais curiosa e de grande importância na descoberta gênica é aquela onde tanto tanto

a Query como a base de dados (Subject) são sequencias de nucleotídios.a Query como a base de dados (Subject) são sequencias de nucleotídios.

Antes de verificar a homologia, são feitas as seis traduções possíveis de cada sequencia de nucleotídeos, ou seja, tanto a sequencia pesquisada quanto cada uma das presentes na base de dados são transformadas em seis proteínas (iniciando pela base 1, 2 ou 3 de cada fita).

tBLASTxtBLASTx, permite que seja retornado o par proteína Query - proteína Subject e é muito válida pois as proteínas de dois organismos são mais parecidas entre si que os nucleotídios que as codificam. Nesta análise, apenas uma das seis leituras é de significado biológico, as demais geram

resultados que são desprezados. conservadas.

Page 42: Anotação molecular

Modalidades do BLAST tBLASTxtBLASTx foi utilizado em descoberta gênica inúmeras vezes, como por

exemplo na identificação da subunidade catalítica da telomerase humana assim que tal enzima foi identificada no protozoário Euplotes (Meyerson et al. 1997).

BLASTn,BLASTn, buscam homologia entre sequencias de nucleotídeos

BLASTpBLASTp, buscam homologia entre sequencias de proteínas

BLASTxBLASTx, Buscam homologia entre sequencias de nucleotídeos e proteínas

PSI-BLASTPSI-BLAST, que em uma primeira busca encontra as proteínas mais homólogas à pesquisada - Query; procede identificando as regiões conservadas dentre os melhores resultados da pesquisa e, em buscas subsequentes, mascara as regiões não conservadas da Query e pesquisa levando em conta apenas as regiões conservadas.

Page 43: Anotação molecular

Anotação BLAST

BDs – nucleotídeos, proteínas, domínios, genomas, específicos, dados particulares

BLASTp – proteina / proteina (distantes) Blastn – nt / nt (próximos) Blastx – nt traduzido / proteínas (novas sequencias) Tblastn – proteína / nt traduzido( regiões não anotadas) Tblastx – nt trad / nt traduzido (ESTs)

Page 44: Anotação molecular

Modalidades do BLAST

Input (Entrada do Programa)

Query sequence (sequencia de busca)

Subject (Banco de dados de sequencias biológicas)

• Output (Saída do Programa)

Uma lista ordenada de “hits” contendo sequencias do banco de dados que possuem similaridade local com a

sequencia de busca (da qual a função desconhecida da sequencia de busca pode ser inferida).

Significância estatística de cada “hit”

Page 45: Anotação molecular

Query= formato da seq de entrada;

BD= formato das seqs do BD;

nt (trad)= seq em nt traduzida pelo programa;

Compara= o que é comparado, nt (nucleotídeo) ou aa (aminoácido);

Programa= um dos cinco principais tipos de blast.

Page 46: Anotação molecular

Anotação BLAST nts (nucleotídeos) Vs. ntVs. nt

MEGABLAST – identifica as sequencias

BLASTn – identifica a sequencia ou encontra similaridade

Tblastx – comparação de proteínas (nts traduzidos)

Vs. ProteínaVs. Proteína Blastx – comparação de proteinas (nts traduzidas)

Pequenas sequencias de nt

Search for short, nearly exact matches – busca para primers ou motivos

Page 47: Anotação molecular

Anotação BLAST aas (aminoácidos)

Vs. ProteínasVs. Proteínas

Blastp – identifica a sequencia ou encontra similares

PSI-BLAST – encontra membros da família da proteína

PHI-BLAST – encontra proteínas similares a padrão

Domínio ConservadoDomínio Conservado

CD-search – encontra query

CDART – encontra query e busca outras

Page 48: Anotação molecular

Anotação BLAST aas (aminoácidos)

Vs. ntVs. nt

Tblastn – busca proteínas similares

Pequenas sequencia s de proteínas

Search for short, nearly exact matches – busca para motivos

Especializadas (nt ou proteínas)Especializadas (nt ou proteínas)

Blast 2 sequences

BDs específicos (genomas)

Page 49: Anotação molecular

PSI-BLAST Position-Specific Iterated BLAST

Executa um BLAST normal para encontrar no DB um conjunto de sequencias relacionadas (um critério de corte de E-value é utilizado);

Alinha essas sequencias para criar uma nova matriz de substituição P1 que é chamada de “Position Specific Scoring Matrices” (PSSMs);

Depois utiliza interativamente a nova matriz para encontrar novas seqüências, construir uma matriz P2 e executar a etapa 2 novamente;

O número de iterações é definido pelo usuário.

Page 50: Anotação molecular

PHI-BLAST (Pattern-Hit Initiated BLAST)

Pesquisa que combina a busca por expressões regulares com alinhamento local em torno da expressão regular encontrada.

– Procura por sequencias em um banco de dados que contenham o motivo estrutural dado pela expressão e, ao mesmo tempo, são homólogas à sequencia query nas vizinhas do motivo estrutural.

– Muito similar ao PSI-BLAST, exceto que a sequencia query é primeiro pesquisada por um padrão fornecido pelo pesquisador.

Page 51: Anotação molecular

Anotação BLAST Alinhamentos

Query / subject

Low escore filter

Gráfico

Lista de alinhamentos

Score e E-value

Alinhamentos

Identities

Posição de inicio e fim

Page 52: Anotação molecular

Anotação BLAST Alinhamentos

Page 53: Anotação molecular

BLAST Alinhamentos

Page 54: Anotação molecular

BLAST Alinhamentos

Page 55: Anotação molecular

BLAST Alinhamentos

Page 56: Anotação molecular

BLAST Alinhamentos

Page 57: Anotação molecular

Anotação inicial

Page 58: Anotação molecular

Anotação Metabólica

Page 59: Anotação molecular

Anotação de tRNAs Programa tRNAscan-SE tRNAscan – COVE Show Structure TRNAscan-SE

Servidor Web: http://www.genetics.wustl.edu/eddy/tRNAscan-SE/

Lowe, T.M. & Eddy, S.R. (1997). tRNAscan-SE: a program for improved detection of transfers RNA genes in genomic sequence. Nucleic Acids Research 25: 955-964.

Page 60: Anotação molecular

Anotação rRNAs

rRNAsBlast nEstrutura secundaria

Page 61: Anotação molecular

Anotação repetições Programa Tandem Repeat FinderPrograma Tandem Repeat Finder

Programa REPuter

Foward vs. Foward (F) – tandem

Forward vs. Reverse (R)

Forward vs. Complemt (C)

Forward vs. Reverse complemet (P)

Page 62: Anotação molecular

Anotação Conteúdo GC

GC

Clusters de GC

Porcentagem de GC

GC skew – (G-c) / (G + C)

GC skew cumulativo

Page 63: Anotação molecular

Anotação Genômica e Predição de Anotação Genômica e Predição de GenesGenes

O processo de anotação genômica envolve a atribuição de funções e identificação de padrões e de genes na sequencia linear do DNA obtida do sequenciamento.

Para se fazer a predição de genes vários parâmetros podem ser avaliados tais como a existência de sequencias no DNA que possam funcionar como promotores seguidas por sequencias que possam gerar uma proteína funcional, ou que tenham similaridade com genes conhecidos, etc.

Page 64: Anotação molecular

Anotação Genômica e Anotação Genômica e Predição de GenesPredição de Genes

Diferentes algoritmos (Ex: GenScan) empregam processos estatísticos diversos para se fazer a busca por ORFsORFs (Open Reading Frames) ou fases de leitura aberta do código genético, identificadas por um códon iniciador e um terminador, que correspondem a sequencias com possíveis regiões codificadoras.

Oorrência no genoma de ORFs superiores a 100 bases é um evento raro, já que um dos 64 códons (ATG) abre a fase de leitura e três são os terminadores (TAA, TAG e TGA), com alta probabilidade (3/64)

Programas que detectam o uso não aleatório de códons (codon usagecodon usage), o qual é típico para cada organismo.

Nos projetos de análise do transcriptoma frequentemente o códon iniciador nãonão está presente e programas de análise do codon usage podem auxiliar no reconhecimento da fase de leitura da porção codificadora.

O programa ESTScan é um dos mais usados para esses fins.

Page 65: Anotação molecular

Genes Hipotéticos O conhecimento prévio da proteína e a sua função em qualquer outra espécie facilita

bastante o processo de anotação de genes.

Grande parte dos genes são ainda hipotéticos, isto é, não se conhece a função biológica não se conhece a função biológica destas sequencias.destas sequencias.

Exemplo, na bactéria Escherichia coli, na planta Arabidopsis thaliana e na mosca das frutas, Drosophila melanogaster, entre 40 e 60% dos genes anotados não possuem produto gênico ou função conhecida.

Muitos dos supostos "genes hipotéticos" serão futuramente descartados enquanto outros segmentos gênicos serão identificados após terem passado desapercebidos pelos atuais algoritmos de predição gênica.

Aparente paradoxo resulta do fato de que não existe uma Aparente paradoxo resulta do fato de que não existe uma identificação inequívoca de um gene. identificação inequívoca de um gene.

Page 66: Anotação molecular

Genoma Humano

Para o genoma humano acreditava-se até bem pouco tempo em um número estimado ao redor de 70-100 mil genes que foi reduzido para 30-40 mil genes com a publicação dos primeiros rascunhos de nosso genoma em 2001 (Lander et al. 2001 e Venter et al. 2001).

Para facilitar a identificação e classificação funcional dos genes foi criado o consórcio Gene Ontology Gene Ontology que pretende fornecer um vocabulário padronizado para a descrição dos produtos gênicos.

Page 67: Anotação molecular
Page 68: Anotação molecular

Análise de Transcriptomas

O estudo do transcriptoma de cada organismo é de grande importância para a identificação de genes, mas também incorpora informações sobre o funcionamento do seu genoma.

As sequencias produzidas pelos projetos de sequenciamento do transcriptoma constituem-se em evidência direta da existência de genes com sua determinada ordem de éxons.

A análise de transcriptomas de diferentes espécies, inclusive a humana, tem evidenciado uma altíssima frequência de processamentos (splicing) altíssima frequência de processamentos (splicing) diferenciais dos transcritos primários. diferenciais dos transcritos primários.

Neste caso, um gene pode apresentar uma grande variação funcional devido simplesmente ao sorteio de éxons promovido pelo processamento diferencial.

Page 69: Anotação molecular

Análise de Transcriptomas É necessário sequenciar completamente todos os genes de um tecido ou organismo.

Grande parte dos genes podem ser identificados através da análise de Grande parte dos genes podem ser identificados através da análise de pequenas sequencias que funcionam como etiquetas. pequenas sequencias que funcionam como etiquetas. Chamadas ESTs, ou Expressed Seqüence Tags, são resultado do sequenciamento parcial de

cDNAs (figura 6).

O objetivo das ESTsESTs é identificar a presença de genes expressos em um transcriptoma, associando a etiqueta ao gene (e sua função) através um programa tal como o BLAST que faz busca por homologias.

As sequencias parciais (ESTs) se originam de ambas as extremidades do cDNA, embora alguns projetos prefiram a extremidade 3' por facilitar a geração de sequencias consenso através do agrupamento de vários ESTs, enquanto outros escolhem a extremidade 5' por estar mais próxima da região codificadora da proteína, o que facilita a identificação por homologia.

Page 70: Anotação molecular

ORESTES, de ORESTES, de Open Reading frames Open Reading frames ESTsESTs Tecnologia desenvolvida no Brasil (Dias-Neto et al. 2000) permite o sequenciamento da sequenciamento da região central dos mRNAs. região central dos mRNAs.

A tecnologia, denominada ORESTES, de Open Reading frames ESTs ORESTES, de Open Reading frames ESTs (figura 6) baseia-se na amplificação de cDNAs por PCR aleatório cujos produtos são utilizados para gerar uma biblioteca.

O sequenciamento desta biblioteca, contendo fragmentos aleatórios derivados de diferentes regiões de cada mRNA, favorece o reconhecimento da função do transcrito por pesquisa de homologia, pois incorpora mais frequentemente a ORF no transcrito do que as ESTs convencionais (figura 6).

Os ORESTES foram responsáveis pela identificação de 219 novos genes no cromossomo 22 humano (Souza et al. 2000) que não haviam sido detectados previamente por outras análises bioinformáticas.

Agrupamento de sequencias para geração de consensos é facilitado quando são utilizados ESTs convencionais associados aos ORESTES.

Page 71: Anotação molecular

O transcriptoma pode revelar padrões distintos de expressão gênica.

Uma das maneiras de se evidenciar a expressão gênica diferencial é analisar a freqüência de ocorrência de um determinado transcrito numa preparação de cDNA de um tecido ou fase de desenvolvimento.

Apesar da construção de bibliotecas de cDNA sempre trazer um viés, incorrendo na redundância de alguns transcritos, a análise de várias bibliotecas permite alguma aproximação do padrão de expressão de um tecido ou fase de desenvolvimento de um organismo.

Page 72: Anotação molecular

Microarranjos Todavia, nada se compara à inversão introduzida pelos microarranjos (microarrays

ou biochips) na análise da expressão gênica.

Em uma lâmina de microscópio podem ser depositados por um robô cerca de 10 a 100 mil sequencias de genes conhecidos.

Sondas com fluorescências distintas podem ser preparadas a partir de mRNA isolado de duas populações de células, normais ou transformadas por exemplo, e através da análise da intensidade de hibridização pode-se comparar a expressão gênica diferencial desses múltiplos genes em um tempo extremamente reduzido.

Ferramentas bioinformáticas, voltadas ao processamento de imagens em uma escala micro e nanométrica, estão surgindo para analisar a expressão conjunta de genes, detectadas em microarranjos.

Page 73: Anotação molecular

SAGE Metodologia que incorpora um nova técnica de biologia molecular e

ferramentas de bioinformática para análise de expressão gênica diferencial.

O SAGE, ou Serial Analysis of Gene Expression SAGE, ou Serial Analysis of Gene Expression (Velculescu et al. 1995), se baseia no uso de pequenas sequencias chamadas tags chamadas tags (10 a 14 pb), únicas de cada gene, que são obtidas por etapas de clivagens e ligações com o cDNA e posteriormente co-amplificadas por PCR, formando um concatâmero de tags.

A quantificação da expressão gênica se dá pela análise do sequenciamento dos concatâmeros através ferramentas específicas de bioinformática.

Desta forma puderam ser identificados vários genes provavelmente relacionados ao processo de transformação celular nos tumores.

Page 74: Anotação molecular

RNA-seq RNA-seq é uma abordagem recentemente desenvolvida, para

analisar o perfil de transcriptoma, que utiliza tecnologias de deep-sequencing.

O transcriptoma é o conjunto completo de transcritos (RNAs) em uma célula, e sua quantidade, para um estágio de desenvolvimento específico ou condição fisiológica.

* deep-sequencing = indica que a cobertura do processo é muito maior que o comprimento da sequencia em estudo.

Page 75: Anotação molecular

O entendimento do transcriptoma é O entendimento do transcriptoma é essencial para:essencial para:

Interpretar os elementos funcionais do genoma

Revelar os constituintes moleculares de células e tecidos nos diferentes estágios de desenvolvimento

Compreender os elementos presentes no desenvolvimento de doenças

O transcriptoma pretende catalogar todos os tipos de transcritos: mRNAs

RNAs não codificadores

pequenos RNAs.

Page 76: Anotação molecular

Porquê estudar o transcriptoma?

Para determinar a estrutura transcripcional dos genes, em termos de seus sítios de início 5’ e final 3’;

Padrões de splicing e outras modificações pós-traducionais; Quantificar os níveis de mudanças de expressão de cada transcrito durante

o desenvolvimento e sob condições diferentes. Encontrar microRNAs que possuem função reguladora Metagenômica

* Splicing = é um processo que remove os íntrons e junta os éxons depois da transcrição do RNA. O splicing só ocorre em células eucarióticas, já que o DNA das células eucarióticas não possui íntrons.

Page 77: Anotação molecular

Criação da BibliotecaCriação da BibliotecaPode-se utilizar:

Todo o RNA da célula Possui 90-95% de rRNA Apenas mRNA selecionado pela cauda de poli-A Perde-se microRNAs e mRNAs sem poli-A Retirando o rRNA Por hibridização com sequencias específicas ligadas a biotina que são

retiradas com esferas ligadas a streptovidina Quebra por uma exonuclease que age sobre RNAs que possuem fosfato na

extremidade 5' (apenas rRNAs possuem esse fosfato)A remoção de rRNAs aumenta a detecção e a montagem de transcritos raros.Mas se o objetivo do estudo é a quantificação, é necessário uma biblioteca não

depletada.

Page 78: Anotação molecular

Criação da BibliotecaCriação da Biblioteca Para a criação da biblioteca o RNA é transformado em cDNA

por uma transcriptase reversa

Para não se perder a direcionalidade do transcrito podem ser acrescentados adaptadores a uma extremidade do RNA

isso é muito importante no estudo de espécies de genoma muito compactado onde o transcrito pode se sobrepor em fitas opostas

O RNA pode ser fragmentado antes da formação de cDNA evitando a formação de estrutura secundária

Page 79: Anotação molecular
Page 80: Anotação molecular

Cada molécula de cDNA, com ou sem amplificação, é então sequenciada com um método de alto rendimento para obter sequências curtas de um final (sequenciamento single-end) ou de ambos os lados (sequenciamento pair-end).

As leituras são tipicamente 30 – 400 bp, dependendo da tecnologia usada para sequenciamento do DNA.

Para esse método tem se usado plataformas tipo: Illumina IG, SOLiD e 454.

Page 81: Anotação molecular

Considerações Prioritárias na montagemConsiderações Prioritárias na montagem

Para garantir uma alta qualidade na montagem do transcriptoma, cuidados particulares devem ser tomados nos experimentos de RNA-Seq.

• Na fase de análise de dados, as leituras curtas são pré-processadas para remover erros de sequenciamento e outros artefatos.

• As leituras são subsequentemente montadas nos RNAs originais e então sua abundância é avaliada.

Page 82: Anotação molecular
Page 83: Anotação molecular

Para evitar erros na montagem de RNA, é necessário retirar o passo de amplificação por PCR Na etapa de amplificação por PCR alguns fragmentos podem ser

melhor amplificados que outros prejudicando os dados

Já é possível fazer o sequenciamento sem amplificação usando as plataformas Helicos e Pacific Biosciences,

O sequenciamento através de uma única molécula é possível, porém essas tecnologias ainda sofrem com a alta taxa de erro

Page 84: Anotação molecular

Estratégias de Montagem do TranscriptomaEstratégias de Montagem do Transcriptoma

Baseado em três categorias :

- Etratégia baseada em referência

- Estratégia de novo

- Estratégia combinada

Page 85: Anotação molecular

Estratégia baseada em Estratégia baseada em ReferênciaReferência

Quando existe um genoma de referência o transcriptoma pode ser construido a partir dele.

Esse método inclui três passos:

Alinhamento das leituras sobre o genoma de referência

As leituras sobrepostas em cada locus são agrupadas para construir um gráfico de todas as isoformas possíveis.

O gráfico é analisado para resolver isoformas individuais.

Programas: Blat, TopHat, SpliceMap, MapSplice, GSNAP

Page 86: Anotação molecular
Page 87: Anotação molecular
Page 88: Anotação molecular

Após as leituras serem alinhadas ao genoma, dois métodos são usados para a construção dos gráficos:

- Cufflinks - cria um gráfico de sobreposição de todas as leituras que alinham com um único locus para montar isoformas encontrando o mínimo de transcritos que explicam os introns dentro da leitura.

- é mais conservativo na escolha de quais os transcritos são re-construidos

- Scripture - cria um gráfico que une cada base de um cromossomo e adiciona nas laterais (conexões) entre as bases se existe uma leitura que liga duas bases.

- pode produzir um grande conjunto de transcritos de um locus.

Page 89: Anotação molecular

Vantagens

Pode montar transcritos de baixa abundância;

Pode usar computação paralela

Pode ser feita em máquinas com poucos gb de RAM;

Descobrir novos transcritos que não estão em anotações já existentes;

Descarta artefatos e contaminantes (que não alinham)

Usado para transcriptomas simples: bactérias, archeaeal, eucarióticos simples

com poucos introns

pouco splicing alternativo

Page 90: Anotação molecular

Desvantagens

Não é possível sem um genoma de referência;

Depende da qualidade do genoma de referência ;

Genomas podem não ser completos, ter regiões não agrupadas e

parcialmente montadas.

Genes que se encontram muito próximos ou sobrepostos podem

ser interpretados com um único transcrito

Não une leituras que esteja muito distantes no genoma ou em

cromossomos diferentes

Page 91: Anotação molecular

Estratégia Estratégia de novode novo

Não utiliza um genoma de referência;

Se utiliza da redundância das leituras para encontrar sobreposições entre as leituras

Programas usam o gráfico De Brujin para reconstruir transcritos de uma ampla faixa de níveis de expressão e então processar a montagem de contigs e remover redundancias.

Semelhante à montagem de genoma

Page 92: Anotação molecular
Page 93: Anotação molecular
Page 94: Anotação molecular

VantagensNão depende de um genoma de referência;

Pode providenciar um novo conjunto de dados de transcritos para

genomas que não apresenta alta qualidade;

Pode ser usado para encontrar transcritos exógenos ou que estão faltando

no genoma;

Não é influenciado por longos introns

Encontra transcritos trans-spliced, resultantes de rearranjos cromossomais

Pode ser utilizado para o transcriptoma de organismos complexos

Page 95: Anotação molecular

Desvantagens A montagem de organismos eucariotos complexos pode consumir muita

memória RAM Grande quantidade de dados

Complexidade dos gráficos de Brujin nescessários para analizar os possíveis splicings

Consome dias ou semanasde processamento

Exige maior cobertura(30x)

Suscetível a erros de leitura, pode não diferenciar um erro do sequenciamento de um splicing

Trechos similares(como parálogos) ainda podem ser considerados um só transcrito

Page 96: Anotação molecular

Estratégia combinadaEstratégia combinada• A combinação dos dois métodos pode ser utilizada

• O alinhamento tem a vantagem da sensibilidade

• O De Novo para encontrar transcritos novos e trans-spliced

• Realizando o alinhamento primeiro podemos descartar as sequências já conhecidas

• Fazendo a montagem De Novo com uma quantidade muito menor de dados

• Quando o genoma de referência tem baixa qualidade a montagem De Novo pode ser feita primeiro

• Os contigs e singlets são alinhados no genoma e as lacunas podem ser preenchidas com informações do genoma

Page 97: Anotação molecular
Page 98: Anotação molecular

Uma questão importante é a cobertura da sequência ou a porcentagem dos transcritos pesquisados, os quais implicam no custo.

Grandes coberturas requerem mais sequenciamento.

Em transcriptomas simples, como da levedura S. cerevisiae, que não tem evidência de splicing alternativo, 30 milhões de leituras de 35 nucleotídeos são suficientes para observar a transcrição de mais de 90% dos genes de células em crescimento sob uma condição unica

Page 99: Anotação molecular

RNA-seqRNA-seqRNA-Seq revela a localização precisa dos limites da transcrição, com a

resolução base a base.

Além disso, pequenas leituras de 30 pb de RNA-Seq nos mostra

informação como 2 exons estão conectados, enquanto leituras longas ou

leituras curtas por pair-ends poderiam revelar conectividade entre exons

múltiplos.

Os resultados de RNA-Seq também mostram alto nível de

reprodutibilidade, para ambas as técnicas e replicatas biológicas.

Page 100: Anotação molecular

Aplicações

Descoberta de pequenos RNAs

Quantificação da expressão em diferentes

momentos

Fusão de genes em câncer

Identificação de mutações

Metagenômica

Page 101: Anotação molecular

Nova Geração de Sequenciadores de DNA

Page 102: Anotação molecular

Melhorias para o futuroMelhorias para o futuro

Melhorias na anotação automática Embora não seja possível nem desejável eliminar a

anotação manual. Há alguns passos que podem ser melhorados na anotação automática:

Deteção de erros ortográficos comuns por exemplo ou inclusão de mais informação disponível ou anotação com os termos GO

Novos tipos de dados Dados de expressão de micro-arrays e RNA-Seq.

Melhorias nos sofwares que permitam a visualização e integração de todos estes dados são fundamentais.