reconstrucao filogenetica das algas

47
Uma Visão Geral Sobre Reconstrução Filogenética André Ricardo [email protected] Marlus Barbosa [email protected]

Upload: natimelgaco

Post on 16-Dec-2015

217 views

Category:

Documents


1 download

DESCRIPTION

Introdução sobre a reconstrução filogenética das algas. Uma visao sobre a reconstrução filogenética das algas

TRANSCRIPT

  • Uma Viso Geral SobreReconstruo FilogenticaAndr Ricardo [email protected] Barbosa [email protected]

  • AgendaFilogeniaUso da filogenia em pesquisa biolgicaEtapas da anlise filogenticaProblemas de pesquisa em filogenia molecularMtodos de reconstruo de rvores filogenticasConcluso

  • Filogenia

  • Uso Da FilogeniaUtilizaes diversas e crescentes:Estudo comparativo.Testar hipteses biogeogrficas.Inferir informaes extintas.Rastrear evoluo de doenas.Casos criminais.

  • Anlise Filogentica,como feita na prtica?

  • Etapas:Projeto Do EstudoAmostragem:Taxon, Tamanho, Geografia, Presena de amostra.

    Caractersticas:No-recombinvel (mitocndrias, cloroplastos).De nica cpia gentica.Prontamente amplificvel (PCR).Facilmente seqenciados.Boa velocidade de evoluo.

  • Etapas:Coleta De Organismos

  • Etapas:Laboratorial

  • Etapas:Alinhamento Mltiplo

  • Etapas:Reconstruo Filogentica (1/8)Modelos estocsticos:Jukes-Cantor (JC).General Time Reversible (GTR).

    Padro de evoluo:Incio na raiz,Evoluo sobre a rvore.Mudana de estados.

  • Etapas:Reconstruo Filogentica (2/8)Freqncia de evoluo:

  • Etapas:Reconstruo Filogentica (3/8)Modelo JC:Se um stio muda seu estado, ele muda com igual probabilidade para os outros estados.

  • Etapas:Reconstruo Filogentica (4/8)Modelo GTR:Reversvel no tempo.Mudana de estado,Matriz de substituio 4x4.

  • Etapas:Reconstruo Filogentica (5/8)Mtodos:Distncia dos pares.Tempo polinomial; rpida e prtica.Maximum Parsimony (MP), Maximum Likelihood (ML).Markov Chain Monte Carlo (MCMC).

  • Etapas:Reconstruo Filogentica (6/8)Mtodo MP:

    Entrada: conjunto S de seqncias, de tamanho k, em um alinhamento mltiplo.Sada: rvore T, cujas folhas so referenciadas por S, e com seqncias adicionais, todas de tamanho k, referenciando os ns internos de T, que minimiza a frmula:

    NP-hard.

  • Etapas:Reconstruo Filogentica (7/8)Mtodo ML:

    Entrada: Conjunto S de seqncias de mesmo tamanho, e um valor B.Sada: Uma rvore modelo (T,p), de modo que Pr[S|T,p] >= B, seno falha.

    NP-hard.

  • Etapas:Reconstruo Filogentica (8/8)Mtodo MCMC:Random walk.A sada no uma rvore.Distribuio de probabilidade.

  • Etapas:Suporte AvaliaoQual a melhor reconstruo?

    Medida de Confiabilidade.Arestas.Data-mining.Abordagem combinatria.Abordagem estatstica.

  • Suporte Avaliao:Abordagem CombinatriaTcnica do consenso:Conjunto de melhores rvores.Inicialmente igualmente confiveis.Inferncia da melhor rvore.Bipartio induzida de arestas.

  • Suporte Avaliao:Abordagem Estatstica (1/2)The Bootstrap:Reamostragem.rvore Bootstrap.Comparao com a rvore reconstruda:Armazenamento de informaes sobre as arestas.

  • Suporte Avaliao: Abordagem Estatstica (2/2)The Jackknife:Remoo aleatria de stios.Reconstruo.

    MCMC:Freqncia de cada rvore visitada.

  • Problemas De Pesquisa Em Filogenia Molecular

  • Problemas De Pesquisa:Anlise De Performance AlgortmicaSimulao:Escolha de um modelo estocstico de evoluo.Seqncia de tamanho qualquer.Evoluo sobre a rvore T.Adio de outras sequncias nas folhas.

    Mtodo de reconstruo. Reconstruo da rvore T.

    Comparao T versus T.

  • Problemas De Pesquisa:Reconstruo Filogentica (1/3)Buscas heursticas para MP e ML:Baseadas em hill-climbing.Mximo local.Fuga do mximo local: The Ratchet.Tempo impraticvel.

  • Problemas De Pesquisa:Reconstruo Filogentica (2/3)MP:

    Por que MP to bom?

  • Problemas De Pesquisa:Reconstruo Filogentica (3/3)ML:

    Comparar possveis scores.

  • Problemas De Pesquisa:Alinhamento Mltiplo (MSA)

    Nenhum critrio atingiu aceitao geral...

  • Problemas De Pesquisa:Filogenia em Larga-escalaMtodos NP-hardConjunto das melhores rvoresDados desconhecidosMSA complicado

  • Aspectos De Reconstruo De rvores Filogenticas (1/2)rvores:Topologia.Distncia entre ns.Raiz.

  • Aspectos De Reconstruo De rvores Filogenticas (2/2)Entradas:Caractersticas discretas (matriz de estados).Dados numricos comparativos (matriz de distncias).Caractersticas contnuas.

  • Problema Da Filogenia Perfeita (1/3)Dados um conjunto de objetos e um conjunto de caractersticas, temos uma matriz de estados.Problemas ao se criar uma filogenia:Convergncia ou evoluo paralela.Reverses.Para evitar isso, na rvore T desejada, queremos que, para cada estado de uma caracterstica, o conjunto de todos os ns que possuem essa caracterstica forme uma subrvore.

  • Problema Da Filogenia Perfeita (2/3)Computacionalmente difcil.Mas pode ser simplificado em casos especiais:Caractersticas binrias.Duas caractersticas.

  • Problema Da Filogenia Perfeita (3/3)

  • Filogenia Com Matrizes De Distncia (1/7)Dois problemas:Dada uma matriz de distncias, construir uma rvore com arestas com peso, onde cada folha seja apenas um objeto da matriz e tal que as distncias entre duas folhas correspondam s distncias dadas na matriz.Esse problema exige que as distncias na matriz sejam aditivas, uma condio pouco comum. Da surge o segundo problema:Construir a rvore com duas matrizes, que serviro como limites superior e inferior das distncias entre os objetos.

  • Filogenia Com Matrizes De Distncia (2/7)rvores aditivas.Matriz de entrada precisa ser um espao mtrico aditivo.

    O algoritmo consiste em calcular a rvore para dois objetos (uma aresta) e a partir da acrescentar outros objetos.

  • Filogenia Com Matrizes De Distncia (3/7)

  • Filogenia Com Matrizes De Distncia (4/7)O problema com rvores aditivas que distncias dois a dois sempre possuem incertezas.Utilizar duas matrizes.Limites inferior e superior.rvores ultramtricas:rvores enraizadas, tais que o comprimento de todos os caminhos raiz-folha seja igual.

  • Filogenia Com Matrizes De Distncia (5/7)Minimum Spanning Tree (MST).Calcular Cut-Weights para cada aresta.Construir a rvore propriamente.

  • Filogenia Com Matrizes De Distncia (6/7)

  • Filogenia Com Matrizes De Distncia (7/7)

  • Mtodos Supertree (1/5)Tentam estimar a histria evolucionria de um conjunto atravs das histrias dos seus subconjuntos.Tree of Life.Recomendado para problemas de larga escala e com dados faltando.Meta anlises.Supermatrizes.Mtodos supertree podem ser usados como parte de uma estratgia dividir e conquistar.

  • Mtodos Supertree (2/5)Compatibilidade de rvores.Refinamento.Compatibilidade.Problema: dado um conjunto de rvores, cada um sobre um conjunto de caractersticas, encontrar uma rvore que refine todas as rvores do conjunto.Problema NP-hard.Caso em que as rvores so enraizadas: tempo polinomial.Infelizmente, as entradas para o problema tendem a no ser compatveis.

  • Mtodos Supertree (3/5)

  • Mtodos Supertree (4/5)Matrix Representation Parsimony (MRP).Mtodo que lida com incompatibilidades nas entradas.Cria uma matriz para cada rvore, concatena todas as matrizes e analisa a matriz concatenada com o mtodo de mxima parsimnia.Apesar de ser bom na teoria, sua aplicao prtica pouco clara.

  • Mtodos Supertree (5/5)Existem outros mtodos que lidam com rvores que contm erros.Consenso estrito de Gordon e DCM.Apesar do potencial dos mtodos pouco se sabe sobre seu funcionamento com dados reais.

  • Reconstruo De Filogenias GenmicasAo invs de analisar seqncias, analisa genomas completos.Modificaes genmicas e anlises mais profundas.Modelos estatsticos pouco desenvolvidos.Computacionalmente muito mais complexo.

  • ConclusesMtodos de reconstruo filogenticas apresentam desafios profundos e complexos.Compreender aspectos como dados e mtodos e como os bilogos usam filogenias pode ser crucial.

    Teoria: toda a vida na Terra descende de um nico ancestral comum.Filogenias:Relaes evolucionrias.Importncia em vrios campos da biologia.Bioinformtica.Representao de toda a vida na Terra.Grafo acclico direcionado (DAG).

    Phylogenetic groups:

    A monophyletic taxon contains a common ancestor and all of its descendants. Diagram: in yellow, the group of "reptiles and birds" A paraphyletic taxon contains its most recent common ancestor, but does not contain all the descendants of that ancestor. Diagram: in blue, the reptiles A polyphyletic taxon does not contain the most recent common ancestor of all its members. Diagram: in red, the group of "all warm-blooded animals" Resumindo, inferir a histria do ponto de interesse.

    Estudo comparativo, questo particular, e quer comparar como certas caractersticas biolgicas evoluram nas diferentes espcies. Quando um aspecto de organismos evoluiu em um tempo maior do que o tempo da espcie individual.*A filogenia de toda a vida no pode ser reconstruda diretamente, ento subconjuntos so independentemente inferidos.

    Grupos taxonmicos muito diferentes,Passos similares/idnticos.

    Reconstruo baseada em caractersticas,Qualitativas: cor dos olhos, presena de bico, etc.Quantitativas: altura, peso, etc.

    DNA normalmente.Escolha de outgroups para poder enraizar a rvore.

    Quantos indivduos sero necessrios para ter uma amostra vlida estatisticamente.

    CaractersticasN-recombinavel, pois organismos que retm uma cpia de informao de dna do pai e da me so exemplos ruins, a tira de dna vai ser uma mistura de duas ou mais histrias genealgicas.Cdigo gentico duplicado pode perder as suas partes aleatoriamente em duas histrias genealgicas.Prontamente amplificvel: tendem a ser regies conservadas.Facilmente sequnciados-> se tem repeties, a dna polimerase pode gaguejar e aumentar o nmero de repeties.Evolui rpido o suficiente para se perceber a ltima evoluo de espcie do ingroup, mas n to rpido que n se possa construir/inferir um mas confivel.

    CaracteristicasThus, some characters might be seen as more likely to reflect the true evolutionary relationships among taxa, and thus they might be weighted at a value 2 or more; changes in these characters would then count as two evolutionary "steps" rather than one when calculating tree scores (see below) - Geografia- Tempo

    *Purificao do DNA.Problema: tempo.Estudo preliminar das caractersticas:Informaes discriminatrias.Amplificao e seqenciamento.Matriz:Seqncias alinhadas.Homologia posicional.Homologia estrutural.

    Tamanho das seqncias:Insero de gaps.

    Reduo de rudos:Eliminao de colunas.

    Descrevem a evoluo comeando na raiz e evolundo sobre os galhos como uma sequencia de pontos de mutacao.

    Modelos:KimuraTamuraFelsensteinHKY - Hasegawa, kishino and yanoFreqncia de evoluo:Varivel.os stios evoluem com frequencias diferentes, alguns so imutveis.Os modelos se preocupam com duas coisascomo um sitio aleatorio evoluiDistribuio Gamma.JC69 is the simplest substitution model. There are several assumptions. It assumes equal base frequencies () and equal mutation rates. The only parameter of this model is therefore , the overall substitution rate. In terms of substitution models, this simply means that over time, the relative frequencies of each character do not change. For a time reversible model, there is no assumption that substitutions preferentially change in certain directions over time. For example A -> C -> G is the same as G -> C -> A.The reason for this is because when an analysis of real biological data is performed, there is generally no access to the sequences of ancestral species, only to the species present today. However, when a model is time-reversible, which species was the ancestral species is irrelevant. Instead, the phylogenetic tree can be rooted along the branch leading to any arbitrary extant species, re-rooted later based on new knowledge, or left unrooted.

    The GTR parameters consist of an equilibrium base frequency vector, = (1234), giving the frequency at which each base occurs at each site, and the rate matrix Distncia dos paresthe topology that gives the least total branch length is preferred at each step of the algorithm.*MPMaximum parsimony, often simply referred to as "parsimony," is a non-parametric statistical method commonly used in computational phylogenetics for estimating phylogenies. Under maximum parsimony, the preferred phylogenetic tree is the tree that requires the least number of evolutionary changes.,

    Maximum parsimony is part of a class of character-based tree estimation methods which use a matrix of discrete phylogenetic characters to infer one or more optimal phylogenetic trees for a set of taxa These methods operate by evaluating candidate phylogenetic trees according to an explicit optimality criterion; the tree with the most favorable score is taken as the best estimate of the phylogenetic relationships of the included taxa T tree, p seus parametros associados.

    MLMaximum likelihood estimation (MLE) is a popular statistical method used to calculate the best way of fitting a mathematical model to some data. Modeling real world data by estimating maximum likelihood offers a way of tuning the free parameters of the model to provide an optimum fit.

    The method of maximum likelihood corresponds to many well-known estimation methods in statistics. For example, suppose you are interested in the heights of Americans. You have a sample of some number of Americans, but not the entire population, and record their heights. Further, you are willing to assume that heights are normally distributed with some unknown mean and variance. The sample mean is then the maximum likelihood estimator of the population mean, and the sample variance is a close approximation to the maximum likelihood estimator of the population variance .Loosely speaking, for a fixed set of data and underlying probability model, maximum likelihood picks the values of the model parameters that make the data "more likely" than any other values of the parameters would make them.

    Mechanically, maximum likelihood analysis functions much like parsimony analysis, in that trees are scored based on a character dataset, and the tree with the best score is selected. Maximum likelihood is a , in that it employs an explicit model of character evolution

    Maximum likelihood, as implemented in phylogenetics, uses a stochastic model that gives the probability of a particular character changing at any given point on a tree. This model can have a potentially large number of parameters, which can account for differences in the probabilities of particular states, the probabilities of particular changes, and differences in the probabilities of change among characters.

    describe all substitution as a function of a number of parameters which are estimated for every data set analyzed This has the advantage that the model can be adjusted to the particularities of a specific data set (e.g. different composition biases in DNA). Problems can arise when too many parameters are used, particularly if they can compensate for each other. Then it is often the case that the data set is too small to yield enough information to estimate all parameters accurately.

    Empirical modelsEmpirical models are created by estimating many parameters (typically all entries of the rate matrix and the character frequencies, see the GTR model above) from a large data set. These parameters are then fixed and will be reused for every data set. This has the advantage that those parametes can be estimated more accurately. Normally, it is not possible to estimate all entries of the substitution matrix from the current data set only. On the downside, the estimated parameters might be too generic and don't fit a particular data set well enough.

    With the large-scale genome sequencing still producing very large amounts of DNA and protein sequences, there is enough data available to create empirical models with any number of parameters. Because of the problems mentioned above, the two approaches are often combined, by estimating most of the parameters once on large-scale data, while a few remaining parameters are then adjusted to the data set under consideration

    MCMCBayesian phylogenetic analysis uses Bayes' theorem, which relates the posterior probability of a tree to the likelihood of data, and the prior probability of the tree and model of evolution. However, unlike parsimony and likelihood methods, Bayesian analysis does not produce a single tree or set of equally optimal trees. Bayesian analysis uses the likelihood of trees in a Markov chain Monte Carlo (MCMC) simulation to sample trees in proportion to their likelihood, thereby producing a credible sample of trees.

    MP -> at milhares

    Medida objetiva (confiabilidade).Arestas individuais.Tcnicas estatsticas,Tcnicas combinatoriais,Data-mining.

    Estimating phylogenies is not a trivial problem. A huge number of possible phylogenetic trees exist for any reasonably sized set of taxa; for example, a mere ten species gives over two million possible unrooted trees. These possibilities must be searched to find a tree that best fits the data according to the optimality criterion. However, the data themselves do not lead to a simple, arithmetic solution to the problem.

    Pega a rvore que cujas biparties aparecem em mais da metade das rvores.

    Reamostragem sobre a mesma distribuio do conjunto original.Avaliar se os dados tm repetibilidade.A maior vantagem da comparao simulativa que para todos os conjuntos de dados, no possvel saber precisamente a histria evolucionria correta, mas os aspectos evolucionrios confiveis so geralmente fceis de se obter utilizando qualquer mtodo.

    Avalia-se a preciso topolgica das rvores.Mtrica usada = Robinson Foulds.* Fuga do mximo localThe Ratchet:perturba aleatoriamente a sequncia e escala (usando a sequncia perturbada para scorar cada rvore visitada), at achar um mximo local, ento a sequncia restaurada e a escalada resume.

    Tempo impraticvel1000 sequncias -> semanas- Tcnica atual, rodar o algortimo at convergirQuando ter certeza? preciso determinar melhores limites para mp e ml*Tcnica de maior abordagem

    H(x,y) distncia de hamming (nmeros de posies que diferem)Su, Sv so as sequncias referenciando os ns u e vE conjunto de arestas de T

    Fitch Hartigan algorithm: Para uma rvore fixa, tempo linear = O(rnk), onde n = sequencias, k = tamanho, r = alfabeto

    Questao de buscaMp provado n estatisticamente consistente at mesmo para uma simples sequencia evolutiva de dna*Desde que modelos estocsticos diferem de acordo com os parmetros que devem ser especificados, uma anlise ML precisa desse modelo previamente explicitado. Os parmetros determinam a velocidade da construo das rvores ML.

    Porm, a matemtica para estimar ML n muda entre os modelos, ento avaliamos o mais simples, JC.

    Score:Usamos supremo pq omximo pode n existir, mas o supremo vai pq o conjunto pr... limitado acima por 1.T = raiz da rvore, p = funo de probabilidadeS = conjunto de sequencias localizadas nas folhas geradas por T,pPr = probabilidade

    Modelo JC: objetivo encontrar a rvore com maior score;Porm esse pode n existir, pois o conjunto n fechado, por isso tratamos ML como um problema de deciso

    Quetao de pesquisa:Calcular o score difcil, estimar os parmetros tambm

    *Nenhum critrio para MSA atingiu aceitao geral.Alinhamento dos pares.Soma dos pares.Alinhamento de rvores.Dividir o conjunto de dados e aplicar uma anlise supertree.**