uma abordagem computacional para a determinação de polimorfismos de base única

41
Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Upload: miguel-galves

Post on 19-Jun-2015

94 views

Category:

Documents


0 download

DESCRIPTION

Tese de Mestrado em Ciência da Computação, defendida em Janeiro de 2007, na Universidade Estadual de Campinas (UNICAMP)

TRANSCRIPT

Page 1: Uma abordagem computacional para a determinação de polimorfismos de base única

Uma abordagem computacional para a determinação de polimorfismos de

base única

Miguel Galves Orientador: Zanoni Dias

IC - UNICAMP 01/12/2006

Page 2: Uma abordagem computacional para a determinação de polimorfismos de base única

Roteiro n  Conceitos Básicos n  Motivação n  Objetivos n  Alinhamento de seqüências n  Detecção de SNPs e confiabilidade n  Correlação de SNPs n  Conclusão

Page 3: Uma abordagem computacional para a determinação de polimorfismos de base única

Processo básico de tradução genética n  A informação genética dos seres vivos é

armazenada em cadeias de nucleotídeos n Bases A, C, G e T

n  Proteínas são geradas a partir da leitura da cadeia de nucleotídeos n Processo de tradução

n  Proteína = cadeia de aminoácidos n  1 aminoácido = 3 nucleotídeos = 1 códon

Page 4: Uma abordagem computacional para a determinação de polimorfismos de base única

Tradução

Page 5: Uma abordagem computacional para a determinação de polimorfismos de base única

Polimorfismos e SNP n  Polimorfismo: dois ou mais alelos diferentes

em indivíduos da mesma espécie n  Deve aparecer em pelo menos 1% da

população n  SNP: polimorfismo que ocorre em apenas

uma base da seqüência n SNP sinônimo: não modifica o aminoácido n SNP não sinônimo: modifica o aminoácido

Page 6: Uma abordagem computacional para a determinação de polimorfismos de base única

Porque estudar SNPs? n  Correspondem a mais de 90% dos

polimorfismos nos seres humanos n  Causa de grande parte das doenças com base

genética n  Grande interesse das industrias farmacêuticas

n Criação de terapias específicas n  Marcadores para mapeamento fino do genoma

Page 7: Uma abordagem computacional para a determinação de polimorfismos de base única

Objetivos do trabalho n  Estudar 3 etapas distintas no processo de

detecção e análise de SNPs: n Alinhamento de ESTs com DNA genômico n Detecção de SNPs por análise de

cromatograma n Correlação de SNPs

Page 8: Uma abordagem computacional para a determinação de polimorfismos de base única

Alinhamento de DNA com ESTs

Page 9: Uma abordagem computacional para a determinação de polimorfismos de base única

Alinhamento de sequências

n  Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas

n  Exemplo: AGCTCGTTTG e ACCTTCGTTTTG AGC-TCGTTT-G

ACCTTCGTTTTG

n  Pontuação permite avaliar o alinhamento n  Problema de otimização: obter o alinhamento

de melhor pontuação

Page 10: Uma abordagem computacional para a determinação de polimorfismos de base única

Algoritmos clássicos de alinhamento n  Estratégias de alinhamento

n Global n  Semi-global n  Local

n  Sistemas de pontuação n  Simples: match, mismatch, gap n  Linear: match, mismatch e

gap(k) = g + hk

Page 11: Uma abordagem computacional para a determinação de polimorfismos de base única

Porque estudar alinhamento de mRNA com DNA?

Page 12: Uma abordagem computacional para a determinação de polimorfismos de base única

Objetivos desta etapa

Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA

Page 13: Uma abordagem computacional para a determinação de polimorfismos de base única

Metodologia

n  Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers

n  Criação de uma base de testes n  Definição de um conjunto de parâmetros de

alinhamento n  Execução de alinhamentos de mRNAs com

genes de origem n Nosso alinhador, sim4, est_genome e Spidey

n  Definição de métricas para avaliação dos alinhamentos obtidos

Page 14: Uma abordagem computacional para a determinação de polimorfismos de base única

Conjunto de dados

1.  64 genes do cromossomo Y humano com menos de 100.000 bases

2.  40 genes completos do cromossomo Y humano com menos de 100.000 bases

3.  7376 genes completos do genoma humano com menos de 10.000 bases

4.  4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%

Page 15: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados obtidos - Conjunto 3

Extra Gap Delta Exon Similaridade Mismatch

(1,-2,-1,0) 0.00 0.00 99.89% 0.00%

(1,-2,-10,0) 0.00 0.01 99.89% 0.00%

Sim4 1.03 -0.03 99.18% 0.21%

Est_genome 15.56 -0.17 58.00% 1.31%

Spidey 0.12 -3.82 81.02% 0.17%

Page 16: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados obtidos - Conjunto 4

Page 17: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados obtidos - Conjunto 4

Page 18: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados obtidos

n  O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios

n  O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores

n  Sim4, est_genome e Spidey são mais regulares com ESTs com erros

Page 19: Uma abordagem computacional para a determinação de polimorfismos de base única

Detecção de SNPs

Page 20: Uma abordagem computacional para a determinação de polimorfismos de base única

Base-calling e sequenciamento

Page 21: Uma abordagem computacional para a determinação de polimorfismos de base única

Porque estudar base-calling? n  Pacote phred ignora sinais secundários no

cromatograma n Apenas uma base por posição n SNPs podem gerar sinais secundários

n  PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV

Page 22: Uma abordagem computacional para a determinação de polimorfismos de base única

Objetivos desta etapa

n  Detecção de SNPs em cromatogramas de seqüências de HIV

n  Estudo de métodos para determinação de confiabilidade dos resultados

Page 23: Uma abordagem computacional para a determinação de polimorfismos de base única

Metodologia

n  Definir algoritmos para análise e correção de cromatograma

n  Executar os algoritmos com diversos parâmetros, para análise preliminar

n  Determinação de dois algoritmos para tunning

n  Determinação do melhor algoritmo e do melhor conjunto de parâmetros

Page 24: Uma abordagem computacional para a determinação de polimorfismos de base única

Conjunto de dados n  Sequências genéticas de HIV

n  1302 bp n  Região bem conservada

n  35 lotes de amostras de indivíduos soropositivos n  6 leituras n  1 seqüência validada, com SNPs anotados

manualmente n  Sequência de referência de HIV

Page 25: Uma abordagem computacional para a determinação de polimorfismos de base única

Algoritmos de correção n  Relação das Áreas n  Relação das Médias das Alturas n  Limite Variável n  Pico Único por Janela n  Eliminação de Picos Ruins n  Pico Mais Baixo

Page 26: Uma abordagem computacional para a determinação de polimorfismos de base única

Relação das Áreas

Page 27: Uma abordagem computacional para a determinação de polimorfismos de base única

Relação das Médias das Alturas

x2x1 x1

FAKE_PEAK_HEIGHT_PERCENTAGE

MAXIMUM_FAKE_PEAK_WIDTH

MINIMUM_BORDER_DISTANCE

MINIMUM_HEIGHT

PEAKLAST POSITION

FIRST POSITION

Page 28: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados obtidos Verdadeiro

Positivo Falso

Negativo Falso

Positivo

Área 75% 23% 394%

Média das alturas 53% 42% 317%

PolyPhred 0% 100% 0%

PolyBayes 0% 100% 0%

Page 29: Uma abordagem computacional para a determinação de polimorfismos de base única

Confiabilidade Estatística n  Comparação de dois métodos de

confiablidade estatística para SNPs: n PolyBayes: estatística bayesiana n MSASNP: qualidades das bases

n  Conjunto de teste: SNPs anotados do SUCEST

n  MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes

Page 30: Uma abordagem computacional para a determinação de polimorfismos de base única

Correlação de SNPs

Page 31: Uma abordagem computacional para a determinação de polimorfismos de base única

Linkage Disequilibrium n  Associação não aleatória entre alelos n  Informações sobre um alelo fornece

informações sobre o outro n  Medidas para quantificar LDs

n  D’ = 1, chamado de LD completo n  r2 ≥ 1/3, chamado de LD útil

n  LD múltiplo: conjunto de SNPs em LD dois a dois

Page 32: Uma abordagem computacional para a determinação de polimorfismos de base única

Porque estudar LDs?

n  Doenças genéticas podem ser influenciadas por vários SNPs correlacionados

n  LD permite efetuar mapeamento fino do genoma humano n  Técnica tradicional: definição de 1 a 2cM n  LD: definição de 0.1cM

Page 33: Uma abordagem computacional para a determinação de polimorfismos de base única

Objetivos desta etapa n  Estudar LDs múltiplos n  Analisar o efeito do uso das medidas D’ e r2

Page 34: Uma abordagem computacional para a determinação de polimorfismos de base única

Metodologia

n  Pré-processamento do conjunto de dados n  Definição de uma heurística para busca de

cliques em grafos n  Problema NP-Difícil

n  Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2

Page 35: Uma abordagem computacional para a determinação de polimorfismos de base única

LDs múltiplos

Page 36: Uma abordagem computacional para a determinação de polimorfismos de base única

LDs múltiplos

(j, f, i, e, g, m, n)

(k, l, h)

Page 37: Uma abordagem computacional para a determinação de polimorfismos de base única

Conjunto de dados

n  ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados

n  Genes do genoma humano obtidos do NCBI: n HLA-A, HLA-B e HLA-DOB n Genes do complexo MHC n  Região com alta densidade de SNPs anotados

Page 38: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados n  Bons resultados obtidos com tempo de

busca de 5 segundos por clique n  D’ apresenta resultados melhores

n Maior capacidade de agrupamento n Menor tendência de isolamento de SNPs

n  r2 gera grafos com menos arestas

Page 39: Uma abordagem computacional para a determinação de polimorfismos de base única

Considerações finais n  Foram estudadas 3 etapas distintas

relacionadas a SNPs n  Resultados bastante satisfatórios, tendo em

vista o tipo de problema analisado n  Seria interessante implementar um fluxo de

trabalho único unindo estas etapas

Page 40: Uma abordagem computacional para a determinação de polimorfismos de base única

Trabalhos publicados n  Alinhamento

n  M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg.

Apresentado no BSB 2005, Porto Alegre - RS.

n  Detecção de SNPs n  M. Galves, J. A. A. Quitzau e Z. Dias,

"New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006. Apresentado no X-Meeting 2005, Caxambu - MG.

Page 41: Uma abordagem computacional para a determinação de polimorfismos de base única

Relatórios técnicos n  LDs múltiplos

n  A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006.

n  Confiabilidade Estatística

n  C. Baudet, M. Galves e Z. Dias,“Comparação de métodos para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.