minicurso 2013

126
+ Bioinformática Prof. Dr. Gabriel da Rocha Fernandes Universidade Católica de Brasília

Upload: gabriel-fernandes

Post on 07-Jul-2015

505 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Minicurso 2013

+

BioinformáticaProf. Dr. Gabriel da Rocha Fernandes

Universidade Católica de Brasília

Page 2: Minicurso 2013

+

BioinformáticaProf. Dr. Gabriel da Rocha Fernandes

Universidade Católica de Brasília

Page 3: Minicurso 2013

+Pré História

nMendel identifica caracteres hereditários.

nLinus Pauling descreve o DNA como uma hélice simples.

nWatson e Crick descrevem a dupla hélice do DNA.

nDogma central da biologia molecular.

2

DNA$

mRNA$

Proteínas$

Variação$Normal$ou$Patológica$

Page 4: Minicurso 2013

+A era genômica

n1977 - Sanger sequencia um bacteriófago.

nAnos 90 - Automatização do processo através de sequenciadores capilares.

n1995 - Primeiro genoma completo (Haemophilus influenzae)

nComeça o projeto genoma humano.

3

Page 5: Minicurso 2013

+A evolução

4

Page 6: Minicurso 2013

+A evolução

5

Page 7: Minicurso 2013

+A evolução

6

Page 8: Minicurso 2013

+Novas tecnologias e a era pós-genômica

7

Page 9: Minicurso 2013

+A explosão de sequências

8

Page 10: Minicurso 2013

+Análise dos dados

9

Page 11: Minicurso 2013

+Dogma Central

10

Croma&na(

mRNA( ncRNA(

Proteínas(

Variação(Normal(ou(Patológica(Ambiente(

Variação(em(seqüência( Variação(estrutural( Variação(química(na(croma&na(

Epigenômica(

Genômica(

Transcritômica(

Proteômica(

Page 12: Minicurso 2013

+Hardware

nComponentes do computador:n Processadoresn Memórian Discos

nDesempenha as funções da máquina.

11

Page 13: Minicurso 2013

+Software

nParte lógica do computador.

nConjunto de instruções processados pelos hardwares.

nInteração entre usuário e máquina.

nTorna o computador útil.

12

Page 14: Minicurso 2013

+Sistemas operacionais

nÉ um conjunto de programas que fazem a inteface do usuário e seus programas com o Hardware.

13

Programas HardwareSistema Operacional

Linux, Windows, Mac

Page 15: Minicurso 2013

+Windows

nMicrosoft

nUser friendly.

nPopular.

nServiço de licenças

nLimitado.

14

Page 16: Minicurso 2013

+MacOS

nApple

nVem de brinde nos Mac.

nSistema Unix.

nAmbiente gráfico => Windows.

nDesenvolvimento => Linux.

15

Page 17: Minicurso 2013

+Porque usamos o Linux?

nÉ livre;

nÉ gratuito;

nNâo é vulnerável a vírus;

nRecebe apoio de grades empresas como IBM, HP, Sun etc;

nMultitarefa e Multiusuário;

nModularização, somente é carregado para memória o que usado durante o processamento;

nNão há necessidade de reinicar o sistemas após cada modificação;

16

Page 18: Minicurso 2013

+Distribuições do Linux

17

Page 19: Minicurso 2013

+Porque usamos o Linux?

nÉ livre;

nÉ gratuito;

nNâo é vulnerável a vírus;

nRecebe apoio de grades empresas como IBM, HP, Sun etc;

nMultitarefa e Multiusuário;

nModularização, somente é carregado para memória o que usado durante o processamento;

nNão há necessidade de reinicar o sistemas após cada modificação;

18

Page 20: Minicurso 2013

+NCBI

nwww.ncbi.nlm.nih.gov

19

Page 21: Minicurso 2013

+NCBI

20

National Instituteof Health

National Libraryof Medicine

Page 22: Minicurso 2013

+A análise bioinformática

21

Page 23: Minicurso 2013

+Análise Genômica

nInterdependência entre as diversas etapas de análises.

nNovas metodologias e melhorias constantes.

22

Page 24: Minicurso 2013

+Como fazer um genoma

nA abordagem shotgun

nParte-se o DNA em pedacinhos

nCorre-se um gel

nEscolhe-se o tamanho dos fragmentos a trabalhar

nPedacinhos são clonados em vetores (montagem da biblioteca genômica)

nSequenciamento com primers do vetor

nMonta-se a sequência por sobreposição

23

Page 25: Minicurso 2013

+Estratégia de sequenciamento

24

Page 26: Minicurso 2013

+Genômica

25

Page 27: Minicurso 2013

+Sequenciadores

26

Page 28: Minicurso 2013

+Base calling

27

Page 29: Minicurso 2013

+Base calling

28

Page 30: Minicurso 2013

+Base calling - PHRED

nLê os arquivos – compatível com os principais formatos de arquivos: SCF (standard chrmoatogram format), ABI (373/377/3700), ESD (MegaBACE) e LI-COR.

nChama as bases – atribui uma base para cada pico identificado com um taxa de erros menor do que os programas de base calling padrões.

nAssina um valor de qualidade às bases – um “valor de Phred” baseado na estimativa da taxa de erros é calculado para cada base.

nCria arquivos de saída – as bases chamadas e os valores de qualidade são escritos em arquivos de saída.

29

Page 31: Minicurso 2013

+Região de boa qualidade

30

Page 32: Minicurso 2013

+Região de média qualidade

31

Page 33: Minicurso 2013

+Região de baixa qualidade

32

Page 34: Minicurso 2013

+Fórmula do valor de PHRED

nq = - 10 x log10 (p) n q - Valor de qualidaden p - Probabilidade estimada de erro na base

nq = 20 significa p = 10-2 (1 erro em 100 bases)

nq = 40 significa p = 10-4 (1 erro em 10,000 bases)

33

Page 35: Minicurso 2013

+Montagem

34

Page 36: Minicurso 2013

+Montagem do genoma

nAlinhamento das sequencias para geração de um consenso.

nIdentificação e eliminação dos gaps.

35

Page 37: Minicurso 2013

+O que sequenciar?

nQuebrar o DNA original em fragmentos aleatórios e selecionar os fragmentos de determinado tamanho (Ex: 2Kbp)

36

10#

singlet

gap

DNA original

Page 38: Minicurso 2013

+A montagem ab initio

nReconstruir a sequência do genoma, dados vários (potencialmente milhões) fragmentos curtos de sequência (os reads)

nOs reads têm tamanho entre 35-800 bp

nOs reads podem conter erros de sequenciamento (mismatches ou indels)

nA orientação (5`3` ou 3`5`) de cada read é desconhecida

37

Page 39: Minicurso 2013

+Terminologia

nRead: fragmento sequenciado

nContig: Pedaço contíguo de sequência formado a partir da sobreposição dos reads

nSinglet: read sem sobreposição com nenhum outro

nGap: região do genoma não capturada por nenhum read

nCobertura: Total de bases sequenciadas dividido pelo tamanho do genoma

38

Page 40: Minicurso 2013

+Contigs e cobertura

39

nTenho um álbum de figurinhas, com 24 figurinhas em uma página.

Page 41: Minicurso 2013

+Contigs e cobertura

40

nCompro 5 pacotes, totalizando 25 figurinhas.

Page 42: Minicurso 2013

+Contigs e cobertura

41

nContigs e singlets.

Contig 1 Contig 2

Contig 3

Page 43: Minicurso 2013

+Contigs e cobertura

42

nCompro mais 5 pacotes, totalizando 50 figurinhas.

Page 44: Minicurso 2013

+Contigs e cobertura

43

nCompro mais 20 pacotes, totalizando 150 figurinhas. E ainda assim faltou uma.

Page 45: Minicurso 2013

+Contigs e cobertura

44

nPrimer walking é ligar na Panini e comprar as figurinhas que faltam.

Page 46: Minicurso 2013

+Estratégias

45

Page 47: Minicurso 2013

+Problemas

nSequências repetitivas.

nTamanho dos reads.

nSequencias Alu.

46

Page 48: Minicurso 2013

+Sequencias repetitivas.De onde veio o meu read?

47

Page 49: Minicurso 2013

+Tamanho do read

48

Page 50: Minicurso 2013

+Montando um “genoma”

49

Page 51: Minicurso 2013

+Uso dos paired-ends

50

nDecisão sobre repetições.

nMontagem de scaffolds.

Page 52: Minicurso 2013

+Predição de genes

nIdentificação de genes codificadores de proteínas.

nCombinam métodos não comparativos e comparativos.

nPredição ab initio usa informações de ORFs, uso de códons, e sequências consenso de sítios de splicing.

nGeneMark, SNAP, GENSCAN...

51

Page 53: Minicurso 2013

+Predição de genes

52

Page 54: Minicurso 2013

+Arquivo GFF

nGeneral Feature Format

nIndica as posições no contig de cada item identificado.

53

Page 55: Minicurso 2013

+No GenBank file

54

Page 56: Minicurso 2013

+No EMBL

55

Page 57: Minicurso 2013

+Visualização

nArtemis - Sanger Institute

56

Page 58: Minicurso 2013

+Análise Funcional

nAssocia uma função aos genes preditos.

nBaseada na homologia entre sequências.

nUtiliza bases de dados de sequências conhecidas e programas de alinhamento.

57

Page 59: Minicurso 2013

+Análise funcional

58

270!!Predição dos genes!

270!!BLAST! Base de dados!

Page 60: Minicurso 2013

+Objetivos

59

nIdentificar as funções dos genes.

nCaracterizar os processos celulares.

nMapear em vias metabólicas.

nElucidar o funcionamento do organismo.

Page 61: Minicurso 2013

+Ferramentas

nFerramenta de alinhamento:n BLASTn HMMER

nBase de dados:n COGn KEGG Orthologyn PFamn Gene Ontology

60

Page 62: Minicurso 2013

+Dicas

nProcurar por Hits que tenham descrição clara.n Evitar: hypothetical protein, putative..

nBuscar em várias bases de dados.n Aumentar a quantidade de entradas anotadas.n Hits não identificados em uma base podem ser anotados por outra.

nObservar a cobertura do alinhamento.n BLAST faz alinhamento local.n Não classificar uma proteína como um todo baseado apenas em

alinhamento a um unico domínio.

61

Page 63: Minicurso 2013

+Blast2GO

62

Page 64: Minicurso 2013

+KEGG Mapper

63

Page 65: Minicurso 2013

+iPath

npathways.embl.de

64

Page 66: Minicurso 2013

+Pfam

65

Page 67: Minicurso 2013

+Arquivo de sequência - FASTA

66

>gi|197101743|ref|NP_001125556.1| myoglobin [Pongo abelii]MGLSDGEWQLVLNVWGKVEADIPSHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISESIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG

>gi|386872|gb|AAA59595.1| myoglobin [Homo sapiens]MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAEGAMNKALELFRKDMASNYKELGFQG

Page 68: Minicurso 2013

+Alinhamentos

nSimples X Múltiplo

n Local X Global

n Heurístico X Ótimo

67

Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 |||||||||||||||||||Sbjct: 680 gcgaaacttctctcagaaa 698

Page 69: Minicurso 2013

+Alinhamento simples

n Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas

68

Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus

Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195

Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255

Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315

Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375

Page 70: Minicurso 2013

+Alinhamento multiplo

nAquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas

69

Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************

Page 71: Minicurso 2013

+Alinhamento global e local

nGlobal: as seqs são alinhadas de ponta a ponta

nLocal: pedaços das seqs é que são comparados

70

Page 72: Minicurso 2013

+Alinhamentos ótimos e heurísticos

nheurística -- do dicionário Houaiss

nmétodo de investigação baseado na aproximação progressiva de um dado problema

nAlinhamento ótimo: produz o melhor resultado computacionalmente possível

nAlinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz

71

Page 73: Minicurso 2013

+Ferramentas de alinhamento

72

Page 74: Minicurso 2013

+Elementos do alinhamento

73

Page 75: Minicurso 2013

+Matrizes de substituição

74

A C G T

A 1 -2 -2 -2

C -2 1 -2 -2

G -2 -2 1 -2

T -2 -2 -2 1

A C G T

A 1 -2 -1 -2

C -2 1 -2 -1

G -1 -2 1 -2

T -2 -1 -2 1

Page 76: Minicurso 2013

+Matrizes de substituição

75

Page 77: Minicurso 2013

+BLAST

nBasic Local Alignment Search Tool

nFerramenta de alinhamento mais utilizada no mundo

nTodo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes)

nDiz-se que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas

nÉ um algoritmo de alinhamento simples, heurístico e local

nAlinha um seqüência de entrada contra uma base de dados desejada

76

Page 78: Minicurso 2013

+Programas do BLAST

77

Formato da Seqüência de

Entrada

Banco de dados

Formato da seqüência que é comparado

Programa BLAST

adequado

Nucleotídeos

Nucleotídeos

Nucleotídeos

BLASTn

Proteínas

Proteínas

Proteínas

BLASTp

Nucleotídeos

Proteínas

Proteínas

BLASTx

Proteínas

Nucleotídeos

Proteínas

TBLASTn

Nucleotídeos

Nucleotídeos

Proteínas

TBLASTtx

Page 79: Minicurso 2013

+Alinhamento multiplo

78

conservation profile

conserved residues

secondary structure

Page 80: Minicurso 2013

+Filogenia a partir do alinhamento

nMatriz de distância entre as proteínas alinhadas

nClustal: 1 - (resíduos idênticos/resíduos alinhados)

79

- .17 - .59 .60 - .59 .59 .13 - .77 .77 .75 .75 - .81 .82 .73 .74 .80 - .87 .86 .86 .88 .93 .90 -

Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla

1 2 3 4 5 6 7

1 2 3 4 5 6 7

Page 81: Minicurso 2013

+Árvore filogenética

nMétodo fenético

nNão considera a evolução de cada caráter (coluna no alinhamento)

nProduz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados

nVizinhos mais-próximos

nNeighbor-joining

nAverage neighbor

nNearest neighbor

nFarthest neighbor

80

Page 82: Minicurso 2013

+Transcritoma

81

nConjunto de todas as moléculas de RNA encontradas em uma população celular:n mRNAn tRNAn rRNAn miRNA

nTotal de transcritos encontrados em um organismo, tipo celular, condição...

nReflete os genes que estão sendo expressos em um determinado momento.

nSnapshot da função celular.

Page 83: Minicurso 2013

+Métodos de estudo

nExpressed Sequence Tags.

nSequenciado por método de Sanger.

nClonagem dos fragmentos usando vetores.

nNão funciona em procariotos.

nLow throughput.

82

Page 84: Minicurso 2013

+Métodos de estudo

83

nMicroarray.

nArranjos com os genes em locais determinados.

nComparação de amostras par a par.

nHibridização.

Page 85: Minicurso 2013

+Next Generation Sequencing

84

Page 86: Minicurso 2013

+Custo do sequenciamento

85

Page 87: Minicurso 2013

+RNA-seq

nUltra larga escala.

nNão necessita de clonagem.

nBaixo custo.

nValores absolutos.

nAnálise multi amostras.

nGrande cobertura.

86

Page 88: Minicurso 2013

+Protocolo

nProtocolo para montagem da biblioteca pode variar de acordo com a tecnologia e com o objetivo:

nRemoção de rRNA.

nAmplificação por PCR.

nConversão a cDNA.

nSingle read ou pair end.

87

Page 89: Minicurso 2013

+Genoma referência vs. Montagem de novo

nMapeamento dos reads a um genoma referência.n Quantificação da expressão.n Identificação de variantes de splicing.

nMontagem de novo do transcritoma.n Caracterização dos genes expressos.n Identificação de isoformas.n Ausência de genoma referência.

88

Page 90: Minicurso 2013

+O que sai do sequenciador?

nFormato padrão para análises é o FastQ.

n @SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC+!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65

nPrimeira linha: identificador da sequência.n Nome da sequência.n Informação sobre filtros.

nTerceira linha: qualidade da chamada da base (em código).

89

Page 91: Minicurso 2013

+Montagem

90

Page 92: Minicurso 2013

+Mapeamento e quantificação

nAs sequências produzidas são mapeadas a um genôma referência.

nAlinhou em apenas uma região = ótimo.

nAlinhou em mais que uma região = dilema.

nO uso de replicatas é FUNDAMENTAL!

91

Repl. 1 Repl. 2 Repl. 3

Gene A 5 3 12

Gene B 16 25 35

Gene C 10 15 3

Gene D 750 500 500

Gene E 1504 1005 1030

Page 93: Minicurso 2013

+Interpretando a contagem dos genes

nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D:

92

Page 94: Minicurso 2013

+Interpretando a contagem dos genes

nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D:n Gene E é expresso duas vezes mais que o Gene D.

92

Page 95: Minicurso 2013

+Interpretando a contagem dos genes

nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D:n Gene E é expresso duas vezes mais que o Gene D.n Ambos os genes se expressam na mesma intensidade, mas o Gene E é

duas vezes maior que o Gene D.

92

Page 96: Minicurso 2013

+Interpretando a contagem dos genes

nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D:n Gene E é expresso duas vezes mais que o Gene D.n Ambos os genes se expressam na mesma intensidade, mas o Gene E é

duas vezes maior que o Gene D.n Ambos os genes tem o mesmo tamanho e se expressam na mesma

intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados.

92

Page 97: Minicurso 2013

+Interpretando a contagem dos genes

nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D:n Gene E é expresso duas vezes mais que o Gene D.n Ambos os genes se expressam na mesma intensidade, mas o Gene E é

duas vezes maior que o Gene D.n Ambos os genes tem o mesmo tamanho e se expressam na mesma

intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados.

nA causa é os três ao mesmo tempo.

92

Page 98: Minicurso 2013

+Identificando genes diferencialmente expressos.

nComparar diferentes condições: controle com testes.n Célula normal com célula tumoral.n Planta sem e com estresse hídrico.n Animal sem e com parasita...

nGenes em duas condições diferentes VÃO apresentar quantidades de reads diferentes.

nEssa variação pode ser diferença biológica entre as duas condições, ou ruído experimental.

nAplicação de testes estatísticos.

93

Page 99: Minicurso 2013

+Identificando genes diferencialmente expressos.

nPara identificar uma diferença estatisticamente significantes, é necessário que a diferença de expressão entre as duas condições seja maior que a imprecisão do nível de expressão sob uma determinada condição.

94

Page 100: Minicurso 2013

+Sou pobre, não vou usar replicata.

nLição de vida:n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,

tem 10 reads.n Uoua! O Gene H é duas vezes mais expresso na célula tumoral!

n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2 pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.

n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé, e 22 reads na célula do Tião Torresmo.

nMoral da história: quanto mais medições fizer, mais vai ter certeza dos níveis de expressão dos genes.

95

Page 101: Minicurso 2013

+Replicata técnica vs. Replicata biológica

nTécnica: explica a variação encontrada que pode ter sido causada por critérios técnicos: preparação da biblioteca, qualidade do sequênciamento, cobertura do gene...

nBiológica: explica a variação encontrada que pode ter sido causada pela variabilidade de expressão que não está associada à mudança nas condições do experimento.

96

Page 102: Minicurso 2013

+Fontes de variaçãoVariância de Poisson

nÉ a incerteza existente em qualquer medição em que algo é amostrado e contado.

nComo é baseado no valor da contagem em si, não é específico do experimento.

nEssa variância está relacionada a quantidade total de reads.

nPor exemplo, a diferença na expressão de um gene medido com 1 read versus 2 reads é inerentemente menos seguro do que as diferenças na expressão de um gene medido com 100 reads versus 200 reads, apesar de ambas as diferenças serem, nominalmente, uma mudança 2X.

97

Page 103: Minicurso 2013

+Fontes de variaçãoVariância de Poisson

98

Page 104: Minicurso 2013

+Fontes de variaçãoVariação Técnica Não-Poisson

nAssociado à incapacidade da técnica não conseguir medir a expressão perfeitamente.

nVisto em replicatas técnicas.

nCausas:n Seleção de miRNA.n Depleção de rRNA.n Amplificação por PCR.n Armazenamento.n RNA-later.

nMoral da história: Manipule sua amostra o mínimo possível.

99

Page 105: Minicurso 2013

+Fontes de variaçãoVariação Biológica

nOcorre naturalmente nas amostras.

nA expressão naturalmente flutua em células sob a mesma condição.

nCausas da variações biológicas podem ser diferenças genéticas, de maquinaria celular, ou de resposta a variação do ambiente.

nVariação biológica também sofre a influência das outras duas variações vistas.

100

Page 106: Minicurso 2013

+Filosofando...

nMais replicatas vs. Mais reads.

nComo lidar com batch-effects?

nPreciso validar com RT-PCR?

nEu considero como diferencialmente expresso genes com p-value < 0.01.

nCalcular FDR (False discovery rate)

nLeia artigos que tenham usado benchmarks.

nConverse com o bioinformata que vai fazer as análises.

101

Page 107: Minicurso 2013

+Metagenômica

nMetagenoma: material genético recuperado diretamente de amostras ambientais.

nFornece informações sobre os organismos em seu habitat natural.

Page 108: Minicurso 2013

+Metagenômica

nCerca de 99% das bactérias não são cultiváveis.

nPermite o estudo de organismos que não são facilmente cultivados em laboratório.

nIdentificação de funções em espécies ainda não identificadas.

Page 109: Minicurso 2013

+Análise do gene do rRNA 16s

nGene altamente conservado em bactérias e archaea.

nRegião hiper variável confere sequências com assinatura específica.

nFornece um perfil da diversidade na amostra.

Page 110: Minicurso 2013

+Whole Genome Shotgun e nova geração de sequenciadores

nPermite uma visão mais global da comunidade.

nAnálise dos níveis da diversidade filogenética e polimorfismos intraespecíficos.

nEstudo de genes completos e de vias metabólicas da comunidade.

nReconstrução dos genomas.

nDemanda intensa análise bioinformática.

Page 111: Minicurso 2013

+Etapas da análise metagenômica

nFatores influentes.

nInterdependências ocultas.

Page 112: Minicurso 2013

+Métodos de estudo - Funcional

nIsolamento do DNA da amostra.

nClonagem do DNA em um hospedeiro.

nExpressão do gene e análise funcional.

nAnálise das sequências.

Page 113: Minicurso 2013

+Métodos de estudo - Genômico

nDNA isolado pode ser submetido a um sequenciamento aleatório ou direcionado.

nPermite montagem de todo metaboloma.

nAnálise filogenética.

nMetagenômica comparativa.

Page 114: Minicurso 2013

+Análise filogenética e funcional

Page 115: Minicurso 2013

+Pipeline de análise

Page 116: Minicurso 2013

+Assinatura filogenética

nCada read é associado a um organismo (espécie, gênero, família…)

nUtiliza bases de dados de genômas referência ou base de dados NT do NCBI.

nFerramenta de alinhamento.

nValores de identidade para definir o nível cladístico assinado.

88% 98% 99%

Bacteroides fragilis

Escherichia coli

70%

Page 117: Minicurso 2013

+Assinatura filogenética

nComposição geral da amostra

nPrograma: MEGAN

nAgrupa multiplos alinhamentos em um nível cladístico.

Page 118: Minicurso 2013

+Análise filogenética

nQual clado prevalece na amostra?

nExiste um perfil filogenético?

nIdentificação de marcadores filogenéticos.

nAssociação da presença de um clado a uma determinada característica.

Page 119: Minicurso 2013

+Anotação funcional

nAvaliar o potencial genético da amostra.

nMontagem dos contigs.

nPredição dos genes.

nAlinhamento dos genes preditos a uma base de dados.

Page 120: Minicurso 2013

+Análise funcional

nQual função está mais presente?

nExiste alguma função do seu interesse?

nMontagem do mapa metabólico do ambiente.

nRastrear a função e identificar o organismo que executa.

Page 121: Minicurso 2013

+

Page 122: Minicurso 2013

+

Page 123: Minicurso 2013

+

Page 124: Minicurso 2013

+

Page 125: Minicurso 2013

+

Page 126: Minicurso 2013

+Visualização