uma abordagem computacional para a determinação de polimorfismos de base única
DESCRIPTION
Uma abordagem computacional para a determinação de polimorfismos de base única. Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006. Roteiro. Conceitos B ásicos Motivação Objetivos Alinhamento de seqüências Detecção de SNPs e confiabilidade Correlação de SNPs Conclusão. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/1.jpg)
Uma abordagem computacional para a determinação de polimorfismos de
base única
Miguel GalvesOrientador: Zanoni Dias
IC - UNICAMP01/12/2006
![Page 2: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/2.jpg)
Roteiro Conceitos Básicos Motivação Objetivos Alinhamento de seqüências Detecção de SNPs e confiabilidade Correlação de SNPs Conclusão
![Page 3: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/3.jpg)
Processo básico de tradução genética A informação genética dos seres vivos é
armazenada em cadeias de nucleotídeos Bases A, C, G e T
Proteínas são geradas a partir da leitura da cadeia de nucleotídeos Processo de tradução
Proteína = cadeia de aminoácidos 1 aminoácido = 3 nucleotídeos = 1 códon
![Page 4: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/4.jpg)
Tradução
![Page 5: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/5.jpg)
Polimorfismos e SNP Polimorfismo: dois ou mais alelos diferentes
em indivíduos da mesma espécie Deve aparecer em pelo menos 1% da
população SNP: polimorfismo que ocorre em apenas
uma base da seqüência SNP sinônimo: não modifica o aminoácido SNP não sinônimo: modifica o aminoácido
![Page 6: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/6.jpg)
Porque estudar SNPs?
Correspondem a mais de 90% dos polimorfismos nos seres humanos
Causa de grande parte das doenças com base genética
Grande interesse das industrias farmacêuticas Criação de terapias específicas
Marcadores para mapeamento fino do genoma
![Page 7: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/7.jpg)
Objetivos do trabalho
Estudar 3 etapas distintas no processo de detecção e análise de SNPs: Alinhamento de ESTs com DNA genômico Detecção de SNPs por análise de
cromatograma Correlação de SNPs
![Page 8: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/8.jpg)
Alinhamento de DNA com ESTs
![Page 9: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/9.jpg)
Alinhamento de sequências
Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas
Exemplo: AGCTCGTTTG e ACCTTCGTTTTGAGC-TCGTTT-G
ACCTTCGTTTTG Pontuação permite avaliar o alinhamento Problema de otimização: obter o alinhamento
de melhor pontuação
![Page 10: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/10.jpg)
Algoritmos clássicos de alinhamento
Estratégias de alinhamento Global Semi-global Local
Sistemas de pontuação Simples: match, mismatch, gap Linear: match, mismatch e
gap(k) = g + hk
![Page 11: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/11.jpg)
Porque estudar alinhamento de mRNA com DNA?
![Page 12: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/12.jpg)
Objetivos desta etapa
Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA
![Page 13: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/13.jpg)
Metodologia
Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers
Criação de uma base de testes Definição de um conjunto de parâmetros de
alinhamento Execução de alinhamentos de mRNAs com
genes de origem Nosso alinhador, sim4, est_genome e Spidey
Definição de métricas para avaliação dos alinhamentos obtidos
![Page 14: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/14.jpg)
Conjunto de dados
1. 64 genes do cromossomo Y humano com menos de 100.000 bases
2. 40 genes completos do cromossomo Y humano com menos de 100.000 bases
3. 7376 genes completos do genoma humano com menos de 10.000 bases
4. 4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%
![Page 15: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/15.jpg)
Resultados obtidos - Conjunto 3
Extra Gap Delta Exon Similaridade Mismatch
(1,-2,-1,0) 0.00 0.00 99.89% 0.00%
(1,-2,-10,0) 0.00 0.01 99.89% 0.00%
Sim4 1.03 -0.03 99.18% 0.21%
Est_genome 15.56 -0.17 58.00% 1.31%
Spidey 0.12 -3.82 81.02% 0.17%
![Page 16: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/16.jpg)
Resultados obtidos - Conjunto 4
![Page 17: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/17.jpg)
Resultados obtidos - Conjunto 4
![Page 18: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/18.jpg)
Resultados obtidos
O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios
O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores
Sim4, est_genome e Spidey são mais regulares com ESTs com erros
![Page 19: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/19.jpg)
Detecção de SNPs
![Page 20: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/20.jpg)
Base-calling e sequenciamento
![Page 21: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/21.jpg)
Porque estudar base-calling? Pacote phred ignora sinais secundários no
cromatograma Apenas uma base por posição SNPs podem gerar sinais secundários
PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV
![Page 22: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/22.jpg)
Objetivos desta etapa
Detecção de SNPs em cromatogramas de seqüências de HIV
Estudo de métodos para determinação de confiabilidade dos resultados
![Page 23: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/23.jpg)
Metodologia
Definir algoritmos para análise e correção de cromatograma
Executar os algoritmos com diversos parâmetros, para análise preliminar
Determinação de dois algoritmos para tunning
Determinação do melhor algoritmo e do melhor conjunto de parâmetros
![Page 24: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/24.jpg)
Conjunto de dados
Sequências genéticas de HIV 1302 bp Região bem conservada
35 lotes de amostras de indivíduos soropositivos 6 leituras 1 seqüência validada, com SNPs anotados
manualmente
Sequência de referência de HIV
![Page 25: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/25.jpg)
Algoritmos de correção
Relação das Áreas Relação das Médias das Alturas Limite Variável Pico Único por Janela Eliminação de Picos Ruins Pico Mais Baixo
![Page 26: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/26.jpg)
Relação das Áreas
![Page 27: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/27.jpg)
Relação das Médias das Alturas
![Page 28: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/28.jpg)
Resultados obtidos
Verdadeiro Positivo
Falso Negativo
Falso Positivo
Área 75% 23% 394%
Média das alturas
53% 42% 317%
PolyPhred 0% 100% 0%
PolyBayes 0% 100% 0%
![Page 29: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/29.jpg)
Confiabilidade Estatística Comparação de dois métodos de
confiablidade estatística para SNPs: PolyBayes: estatística bayesiana MSASNP: qualidades das bases
Conjunto de teste: SNPs anotados do SUCEST
MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes
![Page 30: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/30.jpg)
Correlação de SNPs
![Page 31: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/31.jpg)
Linkage Disequilibrium
Associação não aleatória entre alelos Informações sobre um alelo fornece
informações sobre o outro Medidas para quantificar LDs
D’ = 1, chamado de LD completo r2 1/3, chamado de LD útil
LD múltiplo: conjunto de SNPs em LD dois a dois
![Page 32: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/32.jpg)
Porque estudar LDs?
Doenças genéticas podem ser influenciadas por vários SNPs correlacionados
LD permite efetuar mapeamento fino do genoma humano Técnica tradicional: definição de 1 a 2cM LD: definição de 0.1cM
![Page 33: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/33.jpg)
Objetivos desta etapa
Estudar LDs múltiplos Analisar o efeito do uso das medidas D’ e r2
![Page 34: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/34.jpg)
Metodologia
Pré-processamento do conjunto de dados Definição de uma heurística para busca de
cliques em grafos Problema NP-Difícil
Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2
![Page 35: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/35.jpg)
LDs múltiplos
![Page 36: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/36.jpg)
LDs múltiplos
(j, f, i, e, g, m, n)
(k, l, h)
![Page 37: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/37.jpg)
Conjunto de dados
ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados
Genes do genoma humano obtidos do NCBI: HLA-A, HLA-B e HLA-DOB Genes do complexo MHC Região com alta densidade de SNPs anotados
![Page 38: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/38.jpg)
Resultados
Bons resultados obtidos com tempo de busca de 5 segundos por clique
D’ apresenta resultados melhores Maior capacidade de agrupamento Menor tendência de isolamento de SNPs
r2 gera grafos com menos arestas
![Page 39: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/39.jpg)
Considerações finais
Foram estudadas 3 etapas distintas relacionadas a SNPs
Resultados bastante satisfatórios, tendo em vista o tipo de problema analisado
Seria interessante implementar um fluxo de trabalho único unindo estas etapas
![Page 40: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/40.jpg)
Trabalhos publicados Alinhamento
M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg.
Apresentado no BSB 2005, Porto Alegre - RS.
Detecção de SNPs M. Galves, J. A. A. Quitzau e Z. Dias,
"New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006.
Apresentado no X-Meeting 2005, Caxambu - MG.
![Page 41: Uma abordagem computacional para a determinação de polimorfismos de base única](https://reader035.vdocuments.com.br/reader035/viewer/2022062721/568137e8550346895d9f9963/html5/thumbnails/41.jpg)
Relatórios técnicos LDs múltiplos
A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006.
Confiabilidade Estatística C. Baudet, M. Galves e Z. Dias,“Comparação de métodos
para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.