sistemÁtica)filogenÉtica - botanicaamazonica.wiki.br cladogramas mais curtos (com a máxima...
Post on 21-Jan-2019
216 Views
Preview:
TRANSCRIPT
SISTEMÁTICA FILOGENÉTICA
Aula 6: inferência filogenética
Parcimônia
2
Inferência
Qual árvore é a que melhor representa a relação evolutiva entre as espécies?
3
Um exemplo em Carnivora
Inferência
Monofilético!
> Relação dentro do grupo?
> Dentição, dieta….
4
Inferência
Um exemplo em Carnivora
Amostragem?
> 250 spp.
Quais spp. incluir?
5
Fissípedes Pinípedes
Inferência
2 grupos
AguáticosTerrestres
> Um representante de cada família!
6
Inferência
2 grupos
Qual caráter analisar?
> Qualquer caráter que varie entre os terminais!
> ~ 1990: dados morfológicos
Grupo externo (outgroup)
> Ponto de comparação com o ingroup
> Permite enraizar polarizar os caracteres
Creodonta, grupo externo, extinto
7
Inferência
8
Inferência
> Ignorados> Impossível caracterizar
9
Inferência
Sequências DNA
Gaps
10
Inferência Hennigan
Willi Hennig
(1913-‐1976)
1) existe uma possível árvore
1) NÃO existe homoplasia
Caráter
estado plesiomórfico apomórfico
> Não existe mutação reversa/independete
> Terminais que compartilham uma apomorfia = CLADO
11
Inferência Hennigan
Aplicando o método
em uso ~1960 – ~1970
12
Inferência Hennigan
Aplicando o método
Problemas…..
> Faz suposições não realistas sobre a evolução
Homoplasia é ausente, mas…. ocorre!
Duas características não distinguíveis podem evoluir paralelamente!
Problemas na escolha do estado de caráter!
Presença/ ausência baixo premolar 1
Presente
Homoplásico!
14
Parcimônia
> Homoplasia pode ocorrer!
> Podemos minimizar!
A árvore mais parcimoniosa é aquela que requer o menor número de eventos evolu^vos (e.g., subsjtuição de nucleokdeos, trocas de amino ácidos, etc)para explicar os dados
10
Tipos de dados utilizados eminferência filogenética
Tipos de métodos computacionais:
Algorítmos de Agrupamento: Usa distâncias par a par. São métodos puramente algorítmicos, em que o algorítmo define tanto a topologia da árvore quanto o critério de seleção das mesmas. Tendem a ser muito rápidos computacionalmente e produzem uma única árvore, normalmente enraizada por distância. Não possuem uma função objetiva para comparação com outras árvores, mesmo se várias outras podem explicar igualmente bem os dados.
Lembre-se: Encontrar uma única árvore não é necessariamente a mesma coisa de encontrar a “verdadeira” árvore evolutiva”.
Critério de Otimização: Usam tanto caracteres quanto dados de distância. Primeiramente definem um Critério de Optimização(Tamanho mínimo de ramos, Menor número de eventos, Maior verossimilhança), então usa um algorítmo específico para encontra as árvores com o melhor valor para a função objetiva. Pode identificar várias árvores igualmente ótimas, se estas existiremt. Lembre-se: Achar a “melhor” árvore não é necessariamente a mesma coisa de encontrar a “verdadeira” árvore evolutiva”.
10
Tipos de dados utilizados eminferência filogenética
Tipos de métodos computacionais:
Algorítmos de Agrupamento: Usa distâncias par a par. São métodos puramente algorítmicos, em que o algorítmo define tanto a topologia da árvore quanto o critério de seleção das mesmas. Tendem a ser muito rápidos computacionalmente e produzem uma única árvore, normalmente enraizada por distância. Não possuem uma função objetiva para comparação com outras árvores, mesmo se várias outras podem explicar igualmente bem os dados.
Lembre-se: Encontrar uma única árvore não é necessariamente a mesma coisa de encontrar a “verdadeira” árvore evolutiva”.
Critério de Otimização: Usam tanto caracteres quanto dados de distância. Primeiramente definem um Critério de Optimização(Tamanho mínimo de ramos, Menor número de eventos, Maior verossimilhança), então usa um algorítmo específico para encontra as árvores com o melhor valor para a função objetiva. Pode identificar várias árvores igualmente ótimas, se estas existiremt. Lembre-se: Achar a “melhor” árvore não é necessariamente a mesma coisa de encontrar a “verdadeira” árvore evolutiva”.
15
Parcimônia
Aplicando o método
outgroupingroup
16
0 1
caráter 1 = 1 mudança
caráter 2 = 2 mudança
17
1, 3, 4, 5 e 8 = apenas uma reconstrução!
2, 6 e 7 = múltiplas reconstruções!
Parcimônia
Aplicando o método
11 passo!
18
Parcimônia
Aplicando o método
9 passos!
1, 2, 3, 5, 6, 7 e 8 = apenas uma reconstrução!
4 = múltiplas reconstruções!
Tree 3
19
Parcimônia
Aplicando o método
> caráter informativo = 2, 4, 6 e 7
> caráter informativo vs. não informativo
> caráter não informativo = 1, 3, 5 e 8 autoapomorfia!
20
Parcimônia
Procurando a melhor árvore
outgroupingroup
21
Parcimônia
Procurando a melhor árvore
22
Parcimônia
Procurando a melhor árvore
~ 20 taxa Busca “Branch-‐and-‐bound”
25
BranchBranch--andand--boundbound1. Traverse a search tree in a depth-first sequence2. Select upper bound (L) on optimal value of chosen criterion.3. Move along path to tips and evaluate trees. If tree is >L then dispense the rest of that path.
Buscas Heurísticas
-Árvores iniciais-“stepwise addition”-decomposição estelar
-Busca por árvores melhores-“Branch Swapping”
algorítmos heurísticos: Métodos aproximados quetentam encontrar a árvore ótima para o critério de escolha, mas não podem garanti-la. Buscas heurísticas muitavezes operam de forma “Colina acima” (“hill-climbing).
Cladogramas mais curtos (com
a máxima parcimônia) sem
calcular todos os cladogramas
possíveis (exhaustive
23
Buscas Heurís^cas
Parcimônia
Procurando a melhor árvore
> 20 taxa
> Tentam encontrar a árvore ótima para o critério de escolha, mas não podem garanti-la
> Operam de forma “Colina acima” (hill-climbing)
Buscas Heurís^cas
Parcimônia
Procurando a melhor árvore
Parcimônia
Uso de sequências de DNA
Seraina Klopfstein, Stockholm, 28 May – 1 June 2012
Pradosia brevipes
Pradosia cochlearia
Pradosia decipiens
> Caráter = posição do nucleotídio (1, 2, 3…)
> Estado Caráter = nucleotídios (A, C, T, G)
Parcimônia
Uso de sequências de DNA
8
em macromoléculas (DNA, proteínas)….> Primeiro passo, Alinhamento
Problemas???
A T G A C C T G G C G G C T T T AA T G T G G A T A T G G C A T T A
Parcimônia
Uso de sequências de DNA> Primeiro passo, Alinhamento
A T G A C C T G G – – – – C G G C T – T T AA T G – – – T G G A T A T – G G C – A T T A
ou…
> com adição de 5 INDELS
Parcimônia
Uso de sequências de DNA> Primeiro passo, Alinhamento
A T G A C C T G G – – – C G G C T T T AA T G – – – T G G A T A T G G C A T T A
ou…
> 2 INDELS + 2 subsjtuições
???> 5 INDELS
> 2 INDELS + 2 subsjtuiçõesou…
Systematic Botany (2015), 40(1): pp. 14–26© Copyright 2015 by the American Society of Plant TaxonomistsDOI 10.1600/036364415X686305Date of publication February 12, 2015
Is Sequence Alignment an Art or a Science?
David A. Morrison
Systematic Biology, Uppsala University, Norbyvagen 18D, 75236 Uppsala, SwedenAuthor for correspondence (David.Morrison@ebc.uu.se)
Communicating Editor: Mark P. Simmons
Abstract—Aligning multiple nucleotide sequences is a prerequisite for many if not most comparative sequence analyses in evolutionarybiology. These alignments are often recognized as representing the homology relations of the aligned nucleotides, but this is a necessaryrequirement only for phylogenetic analyses. Unfortunately, existing computer programs for sequence alignment are not based explicitlyon detecting the homology of nucleotides, and so there is a notable gap in the existing bioinformatics repertoire. If homology is the goal, thencurrent alignment procedures may be more art than science. To resolve this issue, I present a simple conceptual scheme relating the tradi-tional criteria for homology to the features of nucleotide sequences. These relations can then be used as optimization criteria for nucleotidesequence alignments. I point out the way in which current computer programs for multiple sequence alignment relate to these criteria, notingthat each of them usually implements only one criterion. This explains the apparent dissatisfaction with computerized sequence alignmentin phylogenetics, as any program that truly tried to produce alignments based on homology would need to simultaneously optimize all ofthe criteria.
Keywords—Multiple alignment, alignment algorithm, sequence homology.
Multiple sequence alignment software have not yet mettheir primary aim for evolutionary biologists: maximizinghomology of characters. This is in spite of 30 yr of workin the field by scores of people (starting with Hogweg andHesper 1984). All of this effort has led to a proliferation ofalignment methods that have diverse optimization functions,along with assorted heuristics to search for the optimumalignment. These methods produce detectably different mul-tiple sequence alignments in almost all realistic cases, whichleaves the phylogenetics practitioner wondering what to do.If the goal is to develop an automated procedure for
homology assessment, then we currently do not have one,and no one has demonstrated where we might get one inpractice. It is worth looking at why, and also how we mightmake some progress in the near future. My purpose hereis therefore to try to conceptualize why there are currentlyso many different approaches to sequence alignment (e.g.see the lists of programs in Do and Katoh 2009; Anisimovaet al. 2010), and see how they relate to each other in thecontext of homology assessment.I start by putting aside the automation issue for the
moment, and looking first at the actual biological goal(nucleotide homology). I try to identify the traditional para-digm for detecting homology, and then explicitly relate thisto nucleotide sequences. Only then do I consider whether /how this paradigm might be automated.
Homology as a Goal for Alignment
Homology is a topic of long-standing interest to biologists(Hall 1994; Bock and Cardew 1999; Wagner 2001; Kleisner2007). This follows from the idea that both homologies andphylogenies need to be “discovered” within the phenotypicand genotypic data that we have accumulated about bio-logical organisms. How do we go about this discovery?If we accept the idea that there is no fundamental differ-
ence between homology in classical and molecular biology,then for sequence alignment two sequences are homologousif they have descended through a chain of replication froma common precursor molecule, and their residues are alsohomologous if they have, in turn, descended through a chainof replication from a common precursor set of residues. If a
multiple sequence alignment is to represent homology rela-tionships, then all of the nucleotides in any column of thealignment should be homologous, or at least be hypothe-sized as homologous. Homology is not the only possiblecriterion for aligning nucleotides, but it is the one that I amaddressing here: homology is the relationship among partsof organisms that provides evidence for common ancestry(Brower and de Pinna 2012).
Sequence alignment is one of the core techniques in bio-informatics (Wallace et al. 2005; Edgar and Batzoglou 2006;Kumar and Filipski 2007; Notredame 2007; Pei 2008; Kemenaand Notredame 2009). Indeed, some of the most-cited papersin biology describe the most commonly used alignmentprograms: BLAST for pairwise alignment (papers ranked12th and 14th in the Science Citation Index) and Clustal formultiple alignment (ranked 10th and 28th) (van Noordenet al. 2014). Bioinformatics lies at the junction of mathematics,computing and biology. The computer programs implementmathematical algorithms in a usable and efficient way, andthe algorithms define a procedure for optimizing some objec-tive function. The objective function will be an equation (or setof equations) that mathematically defines some biologicalnotion, so that optimizing the function with respect to anygiven data will yield a biologically relevant answer. Thisnexus defines the importance of bioinformatics in modernbiological science.
The catch for sequence alignment is that there is noknown objective function for identifying homology, and sothe bioinformatics nexus breaks down. Homology relationsare defined by unique historical events (Donoghue 1992;Brigandt 2003), which by their very nature are unobserv-able: homology exists independently of our ability to rec-ognize it. Comparative biology is thus based on studyingthe features of contemporary organisms, on the groundsthat they will contain traces of their historical ancestry,from which homology relations might be extracted, how-ever imperfectly. It is, however, very difficult to get anyinformatics into this biology.
The mathematical argument for current computerizedalignment practices is basically this:
similarity = homology + analogy
14
Parcimônia
Uso de sequências de DNA> Primeiro passo, Alinhamento
Parcimônia
Análises
Morfologia DNAchances: 1 em 2000
Parcimônia
Peso para os caracteres (Character state Weigh/ng)
Fitch parsimoy (Fitch 1971)> Peso igual aos caracteres!
> Peso para caracteres mais informa^vos!
ou….Generalized parsimony
> mais informa^vo
Parcimônia
Problemas….
> Não leva em consideração o comprimento dos ramos
-‐ Taxa de evolução é alta
-‐ Braços com diferente comprimento
alguma informação pode ser perdida
> Long-‐branch a3rac4on-‐ Braços longos são agrupados
> Long-‐branch a3rac4on
top related