enumeração de soluções de distância de rearranjo e alinhamento de sequências utilizando...

28
Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador) Instituto de Computação – Unicamp Campinas, 05 de Setembro de 2008

Upload: internet

Post on 17-Apr-2015

105 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Enumeração de Soluções de Distância de Rearranjo e

Alinhamento de Sequências utilizando Eventos de Rearranjo

Christian BaudetZanoni Dias (Orientador)

Instituto de Computação – UnicampCampinas, 05 de Setembro de 2008

Page 2: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Roteiro Motivação

Conceitos

Descrição do Projeto

Estágio no Exterior

Cronograma de Atividades

Page 3: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Motivação

Importância da pesquisa genômica

Rearranjo de genomas

Mecanismos de evolução

Page 4: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Rearranjo de Genomas Eventos de rearranjos

Transformam o genoma das espécies Grande influência na evolução Espécies próximas

Diferenças na ordem dos genes Reversões Transposições Translocações

Page 5: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Reversões Inversão na direção de um trecho do

cromossomo:

Page 6: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Reversões Permutações não orientadas

Problema NP-Completo (Caprara, 1999) Berman, Hannehalli e Karpinski, 2002

Algoritmo de aproximação com fator 1.375 Permutações orientadas

Tempo polinomial O(n4) – Hannenhalli e Pevzner, 1995 O(n2) – Bergeron, 2001

Apenas cálculo de d() O(n) – Bader, Moret e Yan, 2001

Page 7: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Transposições Troca de posições entre dois blocos

consecutivos no cromossomo:

Page 8: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Transposições Ordenação por transposições

Problema em aberto Bafna e Pevzner, 1995

Primeiro algortimo de aproximação O(n2) e fator 1.5

Christie, 1996 Block-interchange – Algoritmo O(n2)

Elias e Hartman, 2005 Algoritmo de aproximação com fator 1.375

Page 9: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Translocações Trocas entre prefixos/sufixos de dois

cromossomos diferentes:

Page 10: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Translocações Permutações não orientadas

Problema em aberto Kececioglu e Ravi, 1995

Algoritmo de aproximação com fator 2 Permutações orientadas

O(n3) – Hannehalli, 1996 O(n2) – Wang et al., 2005 Apenas cálculo de distância de translocação

O(n) – Li et al., 2002

Page 11: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Enumeração de Soluções de Distância de Reversão

Braga et al. The Solution Space of Sorting by Reversals

(2007) Exploring the Solution Space of Sorting by

Reversals, with Experiments and an Application to Evolution (2008)

Enumeração de todas as soluções

Utilização do conceito de traces

Page 12: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Traces Relação de equivalência

Se ρ e θ são reversões e não se sobrepõem, então ρθ e são θρ equivalentes

Classes de equivalências Relação acima é aplicada às soluções do

problema de distância de reversão Traces têm a propriedade de “compactar” o

enorme conjunto de soluções Resultados mais representativos

Page 13: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Traces – Forma Normal Decomposição: s = u1|...|um

Todo par de elementos da sub-palavra ui comutam entre si

Para todo elemento ρ de uma sub-palavra ui (i > 1), existe ao menos um elemento θ da palavra ui-1 tal que ρ e θ não comutam

Toda palavra ui é uma palavra crescente não vazia com relação à ordem lexográfica induzida por A

Teorema – Cartier e Foata, 1969 Todo trace possui uma única forma normal

Page 14: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Enumeração de Soluções de Distância de Reversão

Siepel, 2003 Optimal i-sequence : s= ρ1 ρ2... ρi

d( ρ1 ρ2... ρi) = d() – i Obtém todas optimal 1-sequences em tempo O(n3)

Algoritmo iterativo Calcular todas i-sequences a partir de todas as (i-

1)-sequences

Braga et al. 2007 Calcular todos i-traces a partir de todos os (i-

1)-traces

Page 15: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Enumeração de Soluções de Distância de Reversão

Braga et al. 2007 e 2008 Algoritmo que enumera todos os traces das

soluções do problema de distância de reversão

Algoritmo exponencial Altas complexidades de tempo e de espaço Limitado a permutações pequenas (n < 20)

Adição de restrições biológicas para reduzir o espaço de soluções

Page 16: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Alinhamento de Sequências com Reversões

Vellozo et. al Alignment with Non-overlapping Inversions

in O(n3)-Time (2006)

Alinhamento de sequências Inversões que não se sobrepõem Complexidade de tempo O(n3) Complexidade de espaço O(n2)

Page 17: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Alinhamento de Sequências com Reversões

Grafo de edição

Page 18: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Alinhamento de Sequências com Reversões

Grafo de edição estendido

Page 19: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Alinhamento de Sequências com Reversões

Page 20: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Alinhamento de Sequências com Reversões

Matriz B Cada célula (i,j) mantém o peso do caminho

ótimo de (0,0) até (i,j)

Diversas matrizes e vetores auxiliares

Page 21: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Alinhamento de Sequências com Reversões

Vellozo et. al, 2006 Algoritmo utiliza espaço quadrático

Não utiliza pontuação afim

Peso de reversão constante

Page 22: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Projeto Enumeração de Soluções

Aplicar o algoritmo ao gênero Wolbachia

Reduzir consumo de memória

Combinar conceitos: Traces + Transposição Algoritmo de aproximação de fator 1.375

para o problema de distância de transposição

Page 23: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Projeto Alinhamento com eventos de rearranjo

Estender algoritmo para utilização de pontuação afim

Função que penalize as reversões conforme os seus tamanhos

Transposição Algoritmo que realize alinhamento utilizando

eventos de transposição

Page 24: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Estágio no exterior Estágio em Lyon – França

Professora Marie-France Sagot Grupo BAMBOO-BAOBAB Visita em Fevereiro/2007

Braga e Vellozo trabalham no laboratório Intercâmbio com pessoas familiarizadas com

os problemas que serão abordados no projeto

Page 25: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Cronograma

1. Disciplinas2. Revisão Bibliográfica3. Visita ao grupo BAOBAB4. Preparação para o Exame de

Qualificação Específico

Page 26: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Cronograma

5. Aplicar algoritmo de enumeração de soluções de distância de reversão ao gênero Wolbachia

6. Incorporação de pontuação afim ao algoritmo de alinhamento de sequências com reversões

Page 27: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Cronograma

7. Estágio no Exteriora. Redução de consumo de memória do

algoritmo de enumeraçãob. Redução de consumo de memória do

algoritmo de alinhamentoc. Adição de função de peso para as

reversões ao algoritmo de alinhamento

Page 28: Enumeração de Soluções de Distância de Rearranjo e Alinhamento de Sequências utilizando Eventos de Rearranjo Christian Baudet Zanoni Dias (Orientador)

Cronograma

8. Algoritmo de alinhamento de sequências usando transposições

9. Algoritmo de enumeração de soluções de distância de transposição

10. Conclusão da escrita da tese11. Defesa12. Entrega da versão final