uma abordagem para detecção e remoção de artefatos em seqüências ests

33
Uma abordagem para detecção e remoção de artefatos em seqüências ESTs Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas, 01 de Dezembro de 2006

Upload: elizabeth-kirk

Post on 30-Dec-2015

21 views

Category:

Documents


1 download

DESCRIPTION

Uma abordagem para detecção e remoção de artefatos em seqüências ESTs. Christian Baudet Zanoni Dias (Orientador). Instituto de Computação – Unicamp Campinas, 01 de Dezembro de 2006. Roteiro. Motivação Conceitos Nova estratégia de detecção de artefatos Detecção e remoção de derrapagem - PowerPoint PPT Presentation

TRANSCRIPT

Uma abordagem para detecção e remoção de artefatos em

seqüências ESTs

Christian BaudetZanoni Dias (Orientador)

Instituto de Computação – UnicampCampinas, 01 de Dezembro de 2006

Roteiro Motivação Conceitos Nova estratégia de detecção de artefatos Detecção e remoção de derrapagem Detecção e remoção de baixa qualidade Novo conjunto de procedimentos de

detecção e remoção de artefatos Conclusões e trabalhos futuros

Motivação Importância da pesquisa genômica Identificação de genes pode trazer:

Descoberta da cura de doenças Descoberta de características de interesses

comerciais Conhecimento sobre evolução dos

organismos Necessidade de dados confiáveis

Transcrição e Tradução

O que são ESTs? EST – Expressed Sequence Tags

Adams et al, 1991 – “Complementary DNA sequencing: expressed sequence tags and the human genome project”

Transcrição Gene transcrito para mRNA

Produção de cDNA Enzima transcriptase reversa

E o que são artefatos? Artefatos são trechos que:

Não pertencem ao organismo alvo do estudo Baixa qualidade ou baixa complexidade

Remoção necessária Podem influenciar negativamente a análise

dos dados

Seqüência original

Artefatos de baixa qualidade

Artefato de vetor

Artefato de adaptador

Artefato de cauda poli-A

Seqüência final

Detecção e remoçãode artefatos

Conjuntos de procedimentos variam muito de projeto para projeto

Os conjuntos normalmente são formados por várias etapas

As etapas são dependentes entre si Execução é feita seqüencialmente Cada etapa depende do resultado da etapa

anterior

Nova Estratégia Detecções de diferentes artefatos

Etapas independentes Cada etapa analisa a seqüência original

Etapa final Combina todos os artefatos encontrados Identifica a região do inserto

Comparação das estratégias

Avaliação da Nova Estratégia Processamento das seqüências do projeto Cattle

EST (Bos taurus) Procedimentos baseados no trabalho de Telles e

da Silva, 2001 – “Trimming and clustering sugarcane ESTs” Simplificação dos métodos de detecção de vetor e

de caudas poli-A/T Detecção de adaptador separada da detecção de

vetor Algoritmo de subseqüência máxima para detecção

de baixa qualidade Sem detecção de derrapagem

Avaliação da Nova Estratégia Todos os tipos de artefatos foram detectados Análise dos artefatos produzidos mostrou:

2,46% de um total de 12.520 seqüências possuíam artefatos que não seriam identificados caso as etapas não fossem independentes

Remoção de seqüências ribossomais também aplicável a mamíferos

Clustering com maior grau de agrupamento de seqüências Menor número de singletons e clusters

Derrapagem Artefato de seqüenciamento

Regiões ricas em grupos ecoados Trabalho de Telles e da Silva único na literatura

Três novos métodos Média Aritmética Média Geométrica Cobertura por Ecos

Duas estratégias Sufixo Subseqüência

Média Aritmética

Média Geométrica

Cobertura por Ecos

Avaliação dos Métodos Testes

Variação de parâmetros Processamento de seqüências do projeto

SUCEST (291.689 ESTs) Melhor estratégia: Subseqüência

Encontra artefatos na porção inicial da seqüência

Melhor método: Cobertura por Ecos Menor perda de hits de BLAST

Baixa Qualidade

Baixa Qualidade Avaliação de dois algoritmos

Janela deslizante Subseqüência máxima

Variação exaustiva dos parâmetros Análise de 1950 execuções distintas Critério de seleção de alternativas

2,5% de erro médio (25 bases 5’) 5,0% de erro médio (25 bases 3’) 80,0% de preservação média do BLAST hit

Baixa Qualidade Adição de procedimento para detecção de

ilhas de baixa qualidade Janela deslizante

Tamanho: 10 bases Erro médio de 20,0% no mínimo

Reprocessamento dos fragmentos Melhor algoritmo: Subseqüência máxima

Qualidade mínima 11 Procedimento de detecção de ilhas

Novo conjunto de procedimentos

Combinação dos resultados dos estudos realizados Nova estratégia Simplificação de métodos Adoção das decisões dos estudos de

derrapagem e baixa qualidade Realização de testes com o conjunto

completo de ESTs do projeto SUCEST

SUCEST x Novo Conjunto

SUCEST Novo Conjunto

Menor descarte de seqüências

18,44% 12,97%

Menor tamanho médio

641,57 ± 139,79 bp 472,05 ± 121,68 bp

Maior qualidade média

27,74 ± 14,30 33,25 ± 14,78

SUCEST x Novo Conjunto Produção de clustering: 145.845 seqüências

SUCEST: 118.991 seqüências 20.202 singletons e 16.394 contigs (36.596)

Novo conjunto: 126.988 seqüências 22.479 singletons e 17.486 contigs (39.965) Melhores consistências interna e externa Menor redundância Redução do número de hits Full-Length Diminuição de SNPs e aumento de INDELs

Conclusão Nova estratégia apresenta bons resultados Novas alternativas para detecção de

derrapagem Estudo de baixa qualidade

Análise aprofundada Adição de procedimento para detecção de

ilhas de baixa qualidade Novo conjunto de procedimentos

Trabalhos Futuros Estudo mais detalhados dos demais artefatos

Estudo de outras variações de parâmetros dos algoritmos para detecção de derrapagem

Estudo do efeito da variação de exigência da qualidade média sobre a construção de clusterings

Aperfeiçoamento de algoritmos de clusterização de seqüências (Projeto de Doutorado)

Trabalhos Publicados Nova estratégia

C. Baudet and Z. Dias, “New EST trimming strategy”. In J.C. Setubal and S. Verjovski-Almeida, editors, Lectures Notes on Bioinformatics, volume 3594, pages 206-209. Springer-Verlag Berlin Heildelberg, July 2005. Brazilian Symposium on Bioinformatics 2005 (BSB2005), extended abstract.

C. Baudet and Z. Dias, “New EST trimming strategy”, Technical Report: IC-05-09, Institute of Computing – University of Campinas, May 2005.

Trabalhos Publicados Derrapagem

C. Baudet and Z. Dias, “Analysis of slipped sequences in EST projects”. Genetics and Molecular Research, 5(1):169-181, 2006.

C. Baudet and Z. Dias, “Analysis of slipped sequences in EST projects”. X-Meeting 2005, Caxambu – MG, October 2005, poster.

Trabalhos Publicados Baixa qualidade

C. Baudet and Z. Dias, “Low quality trimming on SUCEST ESTs”. X-Meeting 2006, Fortaleza – CE, August 2006, poster.

Novo conjunto de procedimentos C. Baudet and Z. Dias, “New EST trimming

procedure applied to SUCEST sequences”. 14th Annual International Conference On Intelligent Systems For Molecular Biology (ISMB2006), Fortaleza – CE, August 2006, poster.