miguel uso da bioinformática na análise genômica

49

Upload: internet

Post on 17-Apr-2015

106 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Miguel Uso da bioinformática na análise genômica
Page 2: Miguel Uso da bioinformática na análise genômica

www.cromatina.icb.ufmg.br

Miguel

Page 3: Miguel Uso da bioinformática na análise genômica
Page 4: Miguel Uso da bioinformática na análise genômica

Uso da bioinformática na análise genômica

Page 5: Miguel Uso da bioinformática na análise genômica

TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG

ATCTCGTAGCTA

ATCTCGTAGCTAGCTACGACGTCTA

ATCTCGTAGCTAGCTA

ATCTCGTAGCTAGATCTCGTAGCTAGCATCTCGTAGCTAGCT

ATCTCGTAGCTAGCTACATCTCGTAGCTAGCTACGATCTCGTAGCTAGCTACGAATCTCGTAGCTAGCTACGACATCTCGTAGCTAGCTACGACGATCTCGTAGCTAGCTACGACGTATCTCGTAGCTAGCTACGACGTCATCTCGTAGCTAGCTACGACGTCT

ATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCT

A

G

C

T

A

C

G

A

C

G

T

C

T

A

Page 6: Miguel Uso da bioinformática na análise genômica

Início

Fim

Receber Processar Anotar Depositar

Bioinformática

Page 7: Miguel Uso da bioinformática na análise genômica

20

30

10

• A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)

• O programa Phred lê o cromatograma e nomeia as bases

cromatograma

acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc

• Cada base tem uma chance de erro de sua nomeação (10% = 0,1)• A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10-3 = Phred 30

Processamento de seqüências

0

10

20

30

40

50

Page 8: Miguel Uso da bioinformática na análise genômica

I Brazilian Workshop on Bioinformatics October 18th, 2002, Gramado, RS, Brazil

Page 9: Miguel Uso da bioinformática na análise genômica
Page 10: Miguel Uso da bioinformática na análise genômica

Seqüências

0

2.000.000

4.000.000

6.000.000

8.000.000

10.000.000

12.000.000

14.000.000

16.000.000

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

2001

Ano

606

15 milhões

Crescimento do GenBank

Europeu Japonês

24h

Page 11: Miguel Uso da bioinformática na análise genômica

Clonagem hierárquica

Biblioteca de clones grandes- descobre-se a ordem certa- escolhem-se os pouco sobrepostos

Shotguncromossomo cromossomo

Bibliotecas de plasmídios - faz-se o seqüenciamento dos plasmídios- sobreposição cria os contigs

Clonagem hierárquica

Biblioteca de clones grandes- descobre-se a ordem certa- escolhem-se os pouco sobrepostos

Shotguncromossomo cromossomo

Bibliotecas de plasmídios - faz-se o seqüenciamento dos plasmídios- sobreposição cria os contigs

Clonagem hierárquica

Biblioteca de clones grandes- descobre-se a ordem certa- escolhem-se os pouco sobrepostos

Shotguncromossomo cromossomo

Bibliotecas de plasmídios - faz-se o seqüenciamento dos plasmídios- sobreposição cria os contigs

Clonagem hierárquica

Biblioteca de clones grandes- descobre-se a ordem certa- escolhem-se os pouco sobrepostos

Shotguncromossomo cromossomo

Bibliotecas de plasmídios - faz-se o seqüenciamento dos plasmídios- sobreposição cria os contigs

Seqüencias do DNA(genoma)

Repetição calculada•draft = 5x•finished = 10x

Genoma pequeno(seqüenciador grande)

Seqüências do mRNA(genes expressos)

Amostragemtecidos

momentos

Eucariotos

mRNA

cDNA

TR

Page 12: Miguel Uso da bioinformática na análise genômica

Seqüenciamento parcial de transcritos

Page 13: Miguel Uso da bioinformática na análise genômica

Seqüênciamento de genes expressos:

Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...]

• EST (Etiqueta de Seqüência Expressa) – seqüenciamento único de cada cDNA

– extremidades 5’ ou 3’

• ORESTES (ESTs ricas em ORFs)– seqüenciamento único do amplicon derivado de

cDNA por PCR inespecífico

– prevalece o centro do cDNA (cds)

Page 14: Miguel Uso da bioinformática na análise genômica

(A)200

AUG

Um mRNA & suas ESTs

(A)200(T)18cDNA (fita -)

AUG(A)18

cDNA (fita +)

cDNA (fita +)

(T)18cDNA (fita -)

(A)18

ATGATCATGACTTACGGGCGCGCGAT

GGCGCGCGATATCCAAATTTATTATCC

3’EST

3’EST5’EST

5’EST

AAATTTATTATCCATCTACG

Page 15: Miguel Uso da bioinformática na análise genômica

PCR inespecífico & seu ORESTES

(A)200

cDNA (fita -)

AUG amplicon (fita +)

Iniciador(60ºC 37ºC)

amplicon (fita -)

amplicon (fita +)

PCR(60ºC)

ORESTES

AGATCGATCATGACTTACGGGCGCGCGATATCG

GGGCGCGCGATATCGAAAAATTTATAAGGCTAGCCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC

+ORESTES (outros iniciadores)

Page 16: Miguel Uso da bioinformática na análise genômica

100

150

200

250

Page 17: Miguel Uso da bioinformática na análise genômica
Page 18: Miguel Uso da bioinformática na análise genômica

• O formato FASTA, o mais simples, é anotado

>Gene5 EST com homologia...

ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTGATGCTGACTGATCGTAGCTAGCTGACTGATCGTACGTAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc

Seqüências > 50 nt, sem ambiguidades e com anotação, ganham entrada no Entrez Protein/Nucleotide

Page 19: Miguel Uso da bioinformática na análise genômica

•dbEST: ESTs 5’ e 3’

•Trace Arquive: dados originais

•Entrez Nucleotide: > 50 nt, em fase, com anotação

•Entrez Protein: proteínas deduzidas selecionadas

•mineração automática (KOG, BioCarta e KEGG)

•mineração manual (grupos)

•RefSeq: seqüências de referência

•UniGene:

•dados de expressão diferencial (microarray e DGED)

•número I.M.A.G.E.

Transcriptoma de S. mansoniResultados esperados

Rede Genoma de Minas Gerais

Page 20: Miguel Uso da bioinformática na análise genômica
Page 21: Miguel Uso da bioinformática na análise genômica
Page 22: Miguel Uso da bioinformática na análise genômica

Alinhador local

• Identifica, numa coleção de seqüências, as que apresentam alinhamento com a sua.

• Fragmenta sua seqüência e procura homologia no banco de dados.

• Descarta todas as pesquisas com pontuação pequena (score baixo) e vai alinhando a vizinhança das com pontuação boa, até chegar ao máximo valor.

• É fácil verificar que algumas regiões de certos genes alinham bem, mas outras pouco conservadas, não. O Alinhador Local não quer chegar ao alinhamento final, ele só quer identificar sequências com um nível de homologia significativo

Alignments

>gi|13528923|gb|BC005255.1|BC005255 Homo sapiens, insulin mRNA, Length = 495

Score = 285 bits (144), Expect = 5e-75 Identities = 144/144 (100%)

Query: 1 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 60||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 147 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 206

Query: 61 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 120||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 207 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 266

Query: 121 gggggccctggtgcaggcagcctg 144||||||||||||||||||||||||

Sbjct: 267 gggggccctggtgcaggcagcctg 290

Alignments

>gi|13528923|gb|BC005255.1|BC005255 Homo sapiens, insulin mRNA, Length = 495

Score = 285 bits (144), Expect = 5e-75 Identities = 144/144 (100%)

Query: 1 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 60||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 147 ctgtgcggctcacacctggtggaagctctctacctagtgtgcggggaacgaggcttcttc 206

Query: 61 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 120||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

Sbjct: 207 tacacacccaagacccgccgggaggcagaggacctgcaggtggggcaggtggagctgggc 266

Query: 121 gggggccctggtgcaggcagcctg 144||||||||||||||||||||||||

Sbjct: 267 gggggccctggtgcaggcagcctg 290

Page 23: Miguel Uso da bioinformática na análise genômica

Alinhamento local

• O fundamento teórico é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína

• Se não fosse assim, não teria sentido usar...

Page 24: Miguel Uso da bioinformática na análise genômica

Programas BLAST & Bancos

• Há vários Programas BLAST úteis

• Alguns são usados quando a sua sequência é de nucleotídeos (BLASTn, BLASTx e tBLASTx)

• Outros são usados quando a sua seqüência é de aminoácidos (BLASTp)

• E vários bancos de dados para escolher (nr, pdb, dbEST, yeast, month, etc...)

• Ou usa-se limites [organism]

Page 25: Miguel Uso da bioinformática na análise genômica

BLASTn e BLASTx

• A EST identifica o gene homólogo: BLASTn

• A EST identifica proteína ortóloga de outro organismo - a evolução conservou a proteína enquanto o DNA divergiu: BLASTx– BLASTx: a EST traduzida em seis proteínas

– 1 existe, 5 não...

– O mundo Blast é assim

Page 26: Miguel Uso da bioinformática na análise genômica

tBLASTx• tBLASTx traduz sua seqüência de nucleotídeos para proteína nas 6

possibilidades, exatamente como BLASTx

• Depois pesquisa com essas 6 proteínas deduzidas, um banco de dados de nucleotídeos também traduzido dessa maneira

• Pra que serve? Pois imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois DNA não!

• Traduzindo a seqüência pesquisada e o banco de dados dbEST foi possível encontrar seqüências da telomerase humana

Page 27: Miguel Uso da bioinformática na análise genômica

Gene hipotético

Contig....actctagt....

Gene predito

Dados de outros genes e genomaspermitem anotar uma função e produto para o Gene 2 com o auxílio do programa BLAST.

Gene 1 Gene 2

A presença do suposto Gene 1 foi assinalada por um algoritmo que busca por ORFssignificativas, enquanto não se conhece seu produto (proteína), é considerado hipotético.

....actctagt....

Produto gênico

Transposon

Regiões repetitivas como transposonspodem ser anotadas com o auxílio de programas como BLAST, RepeatMasker e outros.

Gene hipotético

Contig....actctagt....

Gene predito

Dados de outros genes e genomaspermitem anotar uma função e produto para o Gene 2 com o auxílio do programa BLAST.

Gene 1 Gene 2

A presença do suposto Gene 1 foi assinalada por um algoritmo que busca por ORFssignificativas, enquanto não se conhece seu produto (proteína), é considerado hipotético.

....actctagt....

Produto gênico

Transposon

Regiões repetitivas como transposonspodem ser anotadas com o auxílio de programas como BLAST, RepeatMasker e outros.

Receber Processar Anotar Depositar

bioinformática

Page 28: Miguel Uso da bioinformática na análise genômica
Page 29: Miguel Uso da bioinformática na análise genômica

3. Quais proteínas vamos estudar?

Page 30: Miguel Uso da bioinformática na análise genômica

Proteína pré-selecionada

EST

Saldo de códons positivo

Algoritmo de seleção de clones com CDS completoPatrimônio de um projeto EST

Page 31: Miguel Uso da bioinformática na análise genômica

Demonstração de agente selecionador de clones(utilizando 16 mil ESTs dbEST)

0

5

10

15

20

25

30

1 2 3 4 5 6 8 14 15 19 20 21 22 23 24 25 26 30 31 34 35 36 37 40 47 51

Identificador da via COG com presença de genes eucarióticos (Dm e Ce)

Núm

ero

de p

rote

ínas

dep

osit

adas

(az

ul)

e d

e E

ST

s co

m s

aldo

de

códo

ns p

osit

ivo

(ver

mel

ho)

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 8 14 15 19 20 21 22 23 24 25 26 30 31 34 35 36 37 40 47 51

Page 32: Miguel Uso da bioinformática na análise genômica
Page 33: Miguel Uso da bioinformática na análise genômica
Page 34: Miguel Uso da bioinformática na análise genômica

• Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum)

• Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes!

• E quantos dos genes foram detectados– Usa-se também para validar bibliotecas

Aglomerados ou Clusters

Page 35: Miguel Uso da bioinformática na análise genômica

Programas para aglomerar

• Icatools

• Phrap

• Cap3, Cap4

• Swat

• BLAST

• MegaBLAST

Um aglomerado = Um gene

Page 36: Miguel Uso da bioinformática na análise genômica

Qualidade das bibliotecas(100 primeiras ESTs)

Freqüência em que uma EST foi amostrada

Boa biblioteca?

mer

o d

e se

ênci

as

1

2

3

4

5

7

9

11

Page 37: Miguel Uso da bioinformática na análise genômica

• Organização das sequências do GenBank em um conjunto de aglomerados

• Cada aglomerado do UniGene contém as sequências que representam um gene único

• E também informações relacionadas, como em que tecidos o gene é expresso, etc.

• E também onde está mapeado

UniGene

Page 38: Miguel Uso da bioinformática na análise genômica

MegaBLAST gera o UniGene

Todas ESTs contra todas

Detecção de homologia

> 96% de identidade

> 70% do potencial

Aglomerar

Page 39: Miguel Uso da bioinformática na análise genômica

020004000600080001000012000140001600018000

Resultado parcial com 14.853 seqüências12/03/2003

UFMG

UFOP

Produção por laboratório

Seq

üênc

ias

boas

Page 40: Miguel Uso da bioinformática na análise genômica

12

34

0

100000

200000

300000

Etapa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 >150

200

400

600

800

1000

1200

1400

1600

1800

Número de seqüências no aglomerado

mero d

e algomerad

os

Construção de UniGene para AW1(5.145 ESTs correspondem a 2.026 clusters)

identidade > 96 %

alinhamento > 70 %do potencial

Page 41: Miguel Uso da bioinformática na análise genômica
Page 42: Miguel Uso da bioinformática na análise genômica

• Interface gráfica• Alternativa para encontrar só o gene

Page 43: Miguel Uso da bioinformática na análise genômica

• Online Mendelian Inheritance in Man

• Um catálogo de genes humanos e anomalias genéticas de autoria do Dr. Victor A. McKusick e seus colaboradores e desenvolvido para a Web pelo NCBI

• Funciona como uma revisão já feita

Page 44: Miguel Uso da bioinformática na análise genômica

catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctaactagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatggtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctatctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgattgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg

Page 45: Miguel Uso da bioinformática na análise genômica

• No NCBI é acessado um banco de dados: MMDB– Molecular Modelling DataBase (PDB sem teóricos)

• O banco de dados PDB tem um mirror no Brasil– www.pdb.ufmg.br

• Arquivos do tipo “1MEY.pdb” são descarregados• As coordenadas 3D de totos os átomos• As proteínas podem ser vistas com programas (RasMol) ou direto no

navegador (Plug-in Chime)

Page 46: Miguel Uso da bioinformática na análise genômica

Modelagem Molecular por Homologia

• A proteína precisa ter uma ortóloga no PDB• Pode ser automaticamente modelada pelo Swiss Model (Modeller na UFMG)• Já modelaram todas proteínas

– confira 3DCrunch:

Page 47: Miguel Uso da bioinformática na análise genômica
Page 48: Miguel Uso da bioinformática na análise genômica

Arquitetura computacional(estações de trabalho e instalações CENAPAD/MG-CO)

metionina.cenapad.ufmg.brProcessamento, Linux RedHat: Phred, BLAST, Java

2x Xeon 2,4 GHz, 4 GB RAM, 2x 36 GB HD, RAID 0

adenina.cenapad.ufmg.brArmazenamento de dados, Linux RedHat: Oracle

2x PIII 1,4 GHz, 4GB RAM, 3x 36 GB HD, RAID 5Unidade de fita DAT 20/40

bionfo.cenapad.ufmg.brInterface Web, Windows 2000: QuickPlace

1x PIII 1,4 GHz, 512 MB RAM, 2x 18 GB HD, RAID 1

Page 49: Miguel Uso da bioinformática na análise genômica

LCC-CENAPAD

A

T

GC

BIOINFORMÁTICA UFMG

Osvaldo Carvalho Farah

Coordenador de Computação Científica:Fabiano Peixoto

Equipe:OperaçãoSuporte Oracle

J. Miguel Ortega

Estudantes de Doutorado:Alessandra Faria-Campos AnotaçãoMaurício Mudado* Bases de dadosSaulo de Paula* MicroarrayCristiane Nobre Redes neuraisDaniela Campos Genoma

Iniciação Científica:Estevam Bravo-Neto (ciências biológicas)*João Torres (ciências da computação)