uma abordagem computacional para a determinação de polimorfismos de base única miguel galves...

41
Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Upload: internet

Post on 16-Apr-2015

105 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Uma abordagem computacional para a determinação de polimorfismos de

base única

Miguel GalvesOrientador: Zanoni Dias

IC - UNICAMP01/12/2006

Page 2: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Roteiro Conceitos Básicos Motivação Objetivos Alinhamento de seqüências Detecção de SNPs e confiabilidade Correlação de SNPs Conclusão

Page 3: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Processo básico de tradução genética A informação genética dos seres vivos é

armazenada em cadeias de nucleotídeos Bases A, C, G e T

Proteínas são geradas a partir da leitura da cadeia de nucleotídeos Processo de tradução

Proteína = cadeia de aminoácidos 1 aminoácido = 3 nucleotídeos = 1 códon

Page 4: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Tradução

Page 5: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Polimorfismos e SNP Polimorfismo: dois ou mais alelos diferentes

em indivíduos da mesma espécie Deve aparecer em pelo menos 1% da

população SNP: polimorfismo que ocorre em apenas

uma base da seqüência SNP sinônimo: não modifica o aminoácido SNP não sinônimo: modifica o aminoácido

Page 6: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Porque estudar SNPs?

Correspondem a mais de 90% dos polimorfismos nos seres humanos

Causa de grande parte das doenças com base genética

Grande interesse das industrias farmacêuticas Criação de terapias específicas

Marcadores para mapeamento fino do genoma

Page 7: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Objetivos do trabalho

Estudar 3 etapas distintas no processo de detecção e análise de SNPs: Alinhamento de ESTs com DNA genômico Detecção de SNPs por análise de

cromatograma Correlação de SNPs

Page 8: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Alinhamento de DNA com ESTs

Page 9: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Alinhamento de sequências

Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas

Exemplo: AGCTCGTTTG e ACCTTCGTTTTGAGC-TCGTTT-G

ACCTTCGTTTTG Pontuação permite avaliar o alinhamento Problema de otimização: obter o alinhamento

de melhor pontuação

Page 10: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Algoritmos clássicos de alinhamento

Estratégias de alinhamento Global Semi-global Local

Sistemas de pontuação Simples: match, mismatch, gap Linear: match, mismatch e

gap(k) = g + hk

Page 11: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Porque estudar alinhamento de mRNA com DNA?

Page 12: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Objetivos desta etapa

Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA

Page 13: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Metodologia

Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers

Criação de uma base de testes Definição de um conjunto de parâmetros de

alinhamento Execução de alinhamentos de mRNAs com

genes de origem Nosso alinhador, sim4, est_genome e Spidey

Definição de métricas para avaliação dos alinhamentos obtidos

Page 14: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Conjunto de dados

1. 64 genes do cromossomo Y humano com menos de 100.000 bases

2. 40 genes completos do cromossomo Y humano com menos de 100.000 bases

3. 7376 genes completos do genoma humano com menos de 10.000 bases

4. 4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%

Page 15: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Resultados obtidos - Conjunto 3

Extra Gap Delta Exon Similaridade Mismatch

(1,-2,-1,0) 0.00 0.00 99.89% 0.00%

(1,-2,-10,0) 0.00 0.01 99.89% 0.00%

Sim4 1.03 -0.03 99.18% 0.21%

Est_genome 15.56 -0.17 58.00% 1.31%

Spidey 0.12 -3.82 81.02% 0.17%

Page 16: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Resultados obtidos - Conjunto 4

Page 17: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Resultados obtidos - Conjunto 4

Page 18: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Resultados obtidos

O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios

O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores

Sim4, est_genome e Spidey são mais regulares com ESTs com erros

Page 19: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Detecção de SNPs

Page 20: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Base-calling e sequenciamento

Page 21: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Porque estudar base-calling? Pacote phred ignora sinais secundários no

cromatograma Apenas uma base por posição SNPs podem gerar sinais secundários

PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV

Page 22: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Objetivos desta etapa

Detecção de SNPs em cromatogramas de seqüências de HIV

Estudo de métodos para determinação de confiabilidade dos resultados

Page 23: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Metodologia

Definir algoritmos para análise e correção de cromatograma

Executar os algoritmos com diversos parâmetros, para análise preliminar

Determinação de dois algoritmos para tunning

Determinação do melhor algoritmo e do melhor conjunto de parâmetros

Page 24: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Conjunto de dados

Sequências genéticas de HIV 1302 bp Região bem conservada

35 lotes de amostras de indivíduos soropositivos 6 leituras 1 seqüência validada, com SNPs anotados

manualmente

Sequência de referência de HIV

Page 25: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Algoritmos de correção

Relação das Áreas Relação das Médias das Alturas Limite Variável Pico Único por Janela Eliminação de Picos Ruins Pico Mais Baixo

Page 26: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Relação das Áreas

Page 27: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Relação das Médias das Alturas

Page 28: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Resultados obtidos

Verdadeiro Positivo

Falso Negativo

Falso Positivo

Área 75% 23% 394%

Média das alturas

53% 42% 317%

PolyPhred 0% 100% 0%

PolyBayes 0% 100% 0%

Page 29: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Confiabilidade Estatística Comparação de dois métodos de

confiablidade estatística para SNPs: PolyBayes: estatística bayesiana MSASNP: qualidades das bases

Conjunto de teste: SNPs anotados do SUCEST

MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes

Page 30: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Correlação de SNPs

Page 31: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Linkage Disequilibrium

Associação não aleatória entre alelos Informações sobre um alelo fornece

informações sobre o outro Medidas para quantificar LDs

D’ = 1, chamado de LD completo r2 1/3, chamado de LD útil

LD múltiplo: conjunto de SNPs em LD dois a dois

Page 32: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Porque estudar LDs?

Doenças genéticas podem ser influenciadas por vários SNPs correlacionados

LD permite efetuar mapeamento fino do genoma humano Técnica tradicional: definição de 1 a 2cM LD: definição de 0.1cM

Page 33: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Objetivos desta etapa

Estudar LDs múltiplos Analisar o efeito do uso das medidas D’ e r2

Page 34: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Metodologia

Pré-processamento do conjunto de dados Definição de uma heurística para busca de

cliques em grafos Problema NP-Difícil

Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2

Page 35: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

LDs múltiplos

Page 36: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

LDs múltiplos

(j, f, i, e, g, m, n)

(k, l, h)

Page 37: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Conjunto de dados

ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados

Genes do genoma humano obtidos do NCBI: HLA-A, HLA-B e HLA-DOB Genes do complexo MHC Região com alta densidade de SNPs anotados

Page 38: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Resultados

Bons resultados obtidos com tempo de busca de 5 segundos por clique

D’ apresenta resultados melhores Maior capacidade de agrupamento Menor tendência de isolamento de SNPs

r2 gera grafos com menos arestas

Page 39: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Considerações finais

Foram estudadas 3 etapas distintas relacionadas a SNPs

Resultados bastante satisfatórios, tendo em vista o tipo de problema analisado

Seria interessante implementar um fluxo de trabalho único unindo estas etapas

Page 40: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Trabalhos publicados Alinhamento

M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg.

Apresentado no BSB 2005, Porto Alegre - RS.

Detecção de SNPs M. Galves, J. A. A. Quitzau e Z. Dias,

"New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006.

Apresentado no X-Meeting 2005, Caxambu - MG.

Page 41: Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Relatórios técnicos LDs múltiplos

A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006.

Confiabilidade Estatística C. Baudet, M. Galves e Z. Dias,“Comparação de métodos

para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.