matrizes para análise de similaridade entre seqüências. seqüências. universidade federal de...

24
Matrizes para Análise Matrizes para Análise de Similaridade entre de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática BIO 796 – Problemas Especiais III - Bioinformática Samuel Mazzinghy Alvarenga Samuel Mazzinghy Alvarenga

Upload: internet

Post on 17-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Matrizes para Análise de Matrizes para Análise de Similaridade entreSimilaridade entre

Seqüências.Seqüências.

Matrizes para Análise de Matrizes para Análise de Similaridade entreSimilaridade entre

Seqüências.Seqüências.

Universidade Federal de ViçosaUniversidade Federal de Viçosa

BIO 796 – Problemas Especiais III - BioinformáticaBIO 796 – Problemas Especiais III - Bioinformática

Universidade Federal de ViçosaUniversidade Federal de Viçosa

BIO 796 – Problemas Especiais III - BioinformáticaBIO 796 – Problemas Especiais III - Bioinformática

Samuel Mazzinghy AlvarengaSamuel Mazzinghy AlvarengaSamuel Mazzinghy AlvarengaSamuel Mazzinghy Alvarenga

Page 2: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Tipos de matrizes de valores:Tipos de matrizes de valores:Tipos de matrizes de valores:Tipos de matrizes de valores:

As Matrizes de valores são usadas em todas as As Matrizes de valores são usadas em todas as análises que envolvem comparação de análises que envolvem comparação de seqüênciasseqüências

As Matrizes de valores são usadas em todas as As Matrizes de valores são usadas em todas as análises que envolvem comparação de análises que envolvem comparação de seqüênciasseqüências

IntroduçãoIntroduçãoIntroduçãoIntrodução

Matriz unitáriaMatriz unitária - usada para dar valores à - usada para dar valores à pares de nucleotídeospares de nucleotídeosMatriz unitáriaMatriz unitária - usada para dar valores à - usada para dar valores à pares de nucleotídeospares de nucleotídeos

Matrizes de substituiçãoMatrizes de substituição - usadas para darem - usadas para darem valores à substituições de pares de valores à substituições de pares de aminoácidos.aminoácidos.

Matrizes de substituiçãoMatrizes de substituição - usadas para darem - usadas para darem valores à substituições de pares de valores à substituições de pares de aminoácidos.aminoácidos.

A escolha da matriz tem uma influência forte no A escolha da matriz tem uma influência forte no resultado da análise.resultado da análise.A escolha da matriz tem uma influência forte no A escolha da matriz tem uma influência forte no resultado da análise.resultado da análise.

Um entendimento do desenvolvimento das Um entendimento do desenvolvimento das diferentes matrizes ajuda nesta escolhadiferentes matrizes ajuda nesta escolhaUm entendimento do desenvolvimento das Um entendimento do desenvolvimento das diferentes matrizes ajuda nesta escolhadiferentes matrizes ajuda nesta escolha

Page 3: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Matriz Unitária ou IdentidadeMatriz Unitária ou IdentidadeMatriz Unitária ou IdentidadeMatriz Unitária ou Identidade

Somente caracteres idênticos recebem valor Somente caracteres idênticos recebem valor positivo:positivo:• • Valor > 0 para pares Valor > 0 para pares reaisreais;;• • Valor ≤ 0 para pares Valor ≤ 0 para pares falsosfalsos..

Somente caracteres idênticos recebem valor Somente caracteres idênticos recebem valor positivo:positivo:• • Valor > 0 para pares Valor > 0 para pares reaisreais;;• • Valor ≤ 0 para pares Valor ≤ 0 para pares falsosfalsos..

As matrizes de similaridade usadas em:As matrizes de similaridade usadas em:

FASTA BLAST: FASTA BLAST:

As matrizes de similaridade usadas em:As matrizes de similaridade usadas em:

FASTA BLAST: FASTA BLAST:

55-4-4-4-4-4-4GG-4-455-4-4-4-4CC-4-4-4-455-4-4TT-4-4-4-4-4-455AAGGCCTTAA

11-1-1-1-1-1-1GG-1-111-1-1-1-1CC-1-1-1-111-1-1TT-1-1-1-1-1-111AAGGCCTTAA

Page 4: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Estas matrizes funcionam (e são usadas) ...Estas matrizes funcionam (e são usadas) ...

...mas o mundo real é mais ...mas o mundo real é mais complicado.complicado.

-As freqüências de transições (purina-purina; As freqüências de transições (purina-purina; ppiirimidina-pirimidina) e transverrimidina-pirimidina) e transverçções (purina-ões (purina-pirimidina e vice-versa) não são iguais.pirimidina e vice-versa) não são iguais.

- As freqüências de AT e CG variam entre as - As freqüências de AT e CG variam entre as espécies, e entre regiões diferentes dos espécies, e entre regiões diferentes dos cromossomos.cromossomos.

Estas matrizes funcionam (e são usadas) ...Estas matrizes funcionam (e são usadas) ...

...mas o mundo real é mais ...mas o mundo real é mais complicado.complicado.

-As freqüências de transições (purina-purina; As freqüências de transições (purina-purina; ppiirimidina-pirimidina) e transverrimidina-pirimidina) e transverçções (purina-ões (purina-pirimidina e vice-versa) não são iguais.pirimidina e vice-versa) não são iguais.

- As freqüências de AT e CG variam entre as - As freqüências de AT e CG variam entre as espécies, e entre regiões diferentes dos espécies, e entre regiões diferentes dos cromossomos.cromossomos.

Matriz Unitária ou IdentidadeMatriz Unitária ou IdentidadeMatriz Unitária ou IdentidadeMatriz Unitária ou Identidade

Deve se levar em consideração a variabilidade Deve se levar em consideração a variabilidade nas freqüências das substituições; é preciso nas freqüências das substituições; é preciso uma análise mais sofisticada.uma análise mais sofisticada.

Deve se levar em consideração a variabilidade Deve se levar em consideração a variabilidade nas freqüências das substituições; é preciso nas freqüências das substituições; é preciso uma análise mais sofisticada.uma análise mais sofisticada.

Page 5: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Matrizes de SubstituiçãoMatrizes de SubstituiçãoMatrizes de SubstituiçãoMatrizes de Substituição

São tabelas bidimensionais (i, j) que contêm São tabelas bidimensionais (i, j) que contêm valores que demonstram a probabilidade de que valores que demonstram a probabilidade de que o aminoácido da posição i sofra mutação para o o aminoácido da posição i sofra mutação para o aminoácido da posição j, quaisquer que sejam as aminoácido da posição j, quaisquer que sejam as duas seqüências envolvidas duas seqüências envolvidas

São tabelas bidimensionais (i, j) que contêm São tabelas bidimensionais (i, j) que contêm valores que demonstram a probabilidade de que valores que demonstram a probabilidade de que o aminoácido da posição i sofra mutação para o o aminoácido da posição i sofra mutação para o aminoácido da posição j, quaisquer que sejam as aminoácido da posição j, quaisquer que sejam as duas seqüências envolvidas duas seqüências envolvidas Para alinhamento de proteínas, o método de Para alinhamento de proteínas, o método de pontuação simples aplicado ao DNA não é pontuação simples aplicado ao DNA não é suficiente. Os aminoácidos possuem suficiente. Os aminoácidos possuem propriedades bioquímicas que determinam como propriedades bioquímicas que determinam como eles são substituídos durante a evolução. eles são substituídos durante a evolução.

Por exemplo, existe uma maior probabilidade de Por exemplo, existe uma maior probabilidade de que um aminoácido seja substituído por um que um aminoácido seja substituído por um outro de igual tamanho em vez de um outro de igual tamanho em vez de um aminoácido maior. aminoácido maior.

Para alinhamento de proteínas, o método de Para alinhamento de proteínas, o método de pontuação simples aplicado ao DNA não é pontuação simples aplicado ao DNA não é suficiente. Os aminoácidos possuem suficiente. Os aminoácidos possuem propriedades bioquímicas que determinam como propriedades bioquímicas que determinam como eles são substituídos durante a evolução. eles são substituídos durante a evolução.

Por exemplo, existe uma maior probabilidade de Por exemplo, existe uma maior probabilidade de que um aminoácido seja substituído por um que um aminoácido seja substituído por um outro de igual tamanho em vez de um outro de igual tamanho em vez de um aminoácido maior. aminoácido maior.

Page 6: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Dado que a comparação de proteínas e feita Dado que a comparação de proteínas e feita frequentemente com critérios evolutivos, e frequentemente com critérios evolutivos, e necessário um esquema de pontuação que leve necessário um esquema de pontuação que leve em conta estas probabilidadesem conta estas probabilidades

Se a amostra é grande o suficiente para ser Se a amostra é grande o suficiente para ser estatisticamente significante, as matrizes devem estatisticamente significante, as matrizes devem refletir as verdadeiras possibilidades de refletir as verdadeiras possibilidades de mutações que ocorreram ao longo de um certo mutações que ocorreram ao longo de um certo período de evolução período de evolução

Dado que a comparação de proteínas e feita Dado que a comparação de proteínas e feita frequentemente com critérios evolutivos, e frequentemente com critérios evolutivos, e necessário um esquema de pontuação que leve necessário um esquema de pontuação que leve em conta estas probabilidadesem conta estas probabilidades

Se a amostra é grande o suficiente para ser Se a amostra é grande o suficiente para ser estatisticamente significante, as matrizes devem estatisticamente significante, as matrizes devem refletir as verdadeiras possibilidades de refletir as verdadeiras possibilidades de mutações que ocorreram ao longo de um certo mutações que ocorreram ao longo de um certo período de evolução período de evolução

Matrizes de SubstituiçãoMatrizes de Substituição Matrizes de SubstituiçãoMatrizes de Substituição

São geradas a partir de um grande e diverso São geradas a partir de um grande e diverso número de amostras de pares de alinhamentos número de amostras de pares de alinhamentos entre seqüências de aminoácidosentre seqüências de aminoácidos

São geradas a partir de um grande e diverso São geradas a partir de um grande e diverso número de amostras de pares de alinhamentos número de amostras de pares de alinhamentos entre seqüências de aminoácidosentre seqüências de aminoácidos

Page 7: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Matrizes de SubstituiçãoMatrizes de Substituição Matrizes de SubstituiçãoMatrizes de Substituição

PAMPAM((PPoint oint AAccepted ccepted MMutation)utation)

BLOSUMBLOSUM((BLOBLOcks cks SUSUbstitution bstitution MMatrix)atrix)

As mais conhecidas são :As mais conhecidas são :As mais conhecidas são :As mais conhecidas são :

Page 8: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Matrizes PAM (Dayhoff, Matrizes PAM (Dayhoff, 1978)1978)

Matrizes PAM (Dayhoff, Matrizes PAM (Dayhoff, 1978)1978)

Primeiras matrizes de substituição de Primeiras matrizes de substituição de aminoácidos, utilizadas nos alinhamentos aminoácidos, utilizadas nos alinhamentos efetuados na pesquisa de seqüências homólogas efetuados na pesquisa de seqüências homólogas em base de dados biológicasem base de dados biológicas

Primeiras matrizes de substituição de Primeiras matrizes de substituição de aminoácidos, utilizadas nos alinhamentos aminoácidos, utilizadas nos alinhamentos efetuados na pesquisa de seqüências homólogas efetuados na pesquisa de seqüências homólogas em base de dados biológicasem base de dados biológicas

A construção destas matrizes baseou-se na A construção destas matrizes baseou-se na obtenção de dados sobre as substituições obtenção de dados sobre as substituições ocorridas em alinhamentos de proteínas muito ocorridas em alinhamentos de proteínas muito semelhantessemelhantes

Permite obter relações evolutivas para Permite obter relações evolutivas para proteínas da mesma família e permite ainda a proteínas da mesma família e permite ainda a extrapolação desta informação para outras extrapolação desta informação para outras distâncias evolutivasdistâncias evolutivas

A construção destas matrizes baseou-se na A construção destas matrizes baseou-se na obtenção de dados sobre as substituições obtenção de dados sobre as substituições ocorridas em alinhamentos de proteínas muito ocorridas em alinhamentos de proteínas muito semelhantessemelhantes

Permite obter relações evolutivas para Permite obter relações evolutivas para proteínas da mesma família e permite ainda a proteínas da mesma família e permite ainda a extrapolação desta informação para outras extrapolação desta informação para outras distâncias evolutivasdistâncias evolutivas

Page 9: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

1)1) Alinhamento de seqüências de amino ácidos Alinhamento de seqüências de amino ácidos com um mínimo de 85% de identidade.com um mínimo de 85% de identidade.

1)1) Alinhamento de seqüências de amino ácidos Alinhamento de seqüências de amino ácidos com um mínimo de 85% de identidade.com um mínimo de 85% de identidade.

1 2 3 4 5 6 7 8 91 2 3 4 5 6 7 8 9

A C G C T A F K IA C G C T A F K IGG C G C T A F K I C G C T A F K IA C G C T A F K A C G C T A F K LLGG C G C T C G C T GG F K I F K IGG C G C T C G C T LL F K I F K IA A SS G C T A F K G C T A F K LLA C A C AA C T A F K C T A F K LL

1 2 3 4 5 6 7 8 91 2 3 4 5 6 7 8 9

A C G C T A F K IA C G C T A F K IGG C G C T A F K I C G C T A F K IA C G C T A F K A C G C T A F K LLGG C G C T C G C T GG F K I F K IGG C G C T C G C T LL F K I F K IA A SS G C T A F K G C T A F K LLA C A C AA C T A F K C T A F K LL

- minimiza ambigüidades no alinhamento- minimiza ambigüidades no alinhamento- maximiza o número de posições com mutações (i.e. evitar maximiza o número de posições com mutações (i.e. evitar introdução deintrodução de gaps)gaps)

- minimiza ambigüidades no alinhamento- minimiza ambigüidades no alinhamento- maximiza o número de posições com mutações (i.e. evitar maximiza o número de posições com mutações (i.e. evitar introdução deintrodução de gaps)gaps)

Matrizes PAMMatrizes PAMMatrizes PAMMatrizes PAM

Passos para a obtenção da matrizPassos para a obtenção da matriz

ExemplExemplooExemplExemploo

Page 10: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Matrizes PAMMatrizes PAMMatrizes PAMMatrizes PAM

Passos para a obtenção da matrizPassos para a obtenção da matriz

2) Construir um arvore inferindo a seqüência 2) Construir um arvore inferindo a seqüência das substituiçõesdas substituições2) Construir um arvore inferindo a seqüência 2) Construir um arvore inferindo a seqüência das substituiçõesdas substituições

AACGCTAFKCGCTAFKIIAACGCTAFKCGCTAFKII

GGCGCTCGCTAAFKIFKIGGCGCTCGCTAAFKIFKI AACGCGCTAFKCTAFKLLAACGCGCTAFKCTAFKLL

GGCGCTCGCTGGFKIFKIGGCGCTCGCTGGFKIFKI GGCGCTCGCTLLFKIFKIGGCGCTCGCTLLFKIFKI AASSGCTAFKGCTAFKLLAASSGCTAFKGCTAFKLL ACACAACTAFKCTAFKLLACACAACTAFKCTAFKLL

A1GA1GA1GA1G I9LI9LI9LI9L

A6GA6GA6GA6G A6LA6LA6LA6L C2SC2SC2SC2S G3AG3AG3AG3A

Page 11: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

ffG,AG,A = = ffA,GA,G = 3 = 3ffG,AG,A = = ffA,GA,G = 3 = 3

ffabab = = ffbabaffabab = = ffbaba

3) Faz a soma do número de cada mutação (as 3) Faz a soma do número de cada mutação (as mutações a-b, e b-a são consideradas mutações a-b, e b-a são consideradas equivalentes neste modelo de evolução).equivalentes neste modelo de evolução).

3) Faz a soma do número de cada mutação (as 3) Faz a soma do número de cada mutação (as mutações a-b, e b-a são consideradas mutações a-b, e b-a são consideradas equivalentes neste modelo de evolução).equivalentes neste modelo de evolução).

Matrizes PAMMatrizes PAMMatrizes PAMMatrizes PAM

Passos para a obtenção da matrizPassos para a obtenção da matriz

No exemplo acima, as mutações A1G, A6G e G3A dá um total de 3, portanto:No exemplo acima, as mutações A1G, A6G e G3A dá um total de 3, portanto:

Page 12: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

4) Calcula a 4) Calcula a mutabilidade relativamutabilidade relativa ( (mmaa) de cada ) de cada aminoácidoaminoácido4) Calcula a 4) Calcula a mutabilidade relativamutabilidade relativa ( (mmaa) de cada ) de cada aminoácidoaminoácido

b) O número de vezes que b) O número de vezes que aa é substituída ( é substituída (ffaa))::

E.g. de alanina, A1G, A6G, A6L e G3A: E.g. de alanina, A1G, A6G, A6L e G3A: ffaa= 4 = 4

b) O número de vezes que b) O número de vezes que aa é substituída ( é substituída (ffaa))::

E.g. de alanina, A1G, A6G, A6L e G3A: E.g. de alanina, A1G, A6G, A6L e G3A: ffaa= 4 = 4

c) O número total de aas envolvidos em mutações (c) O número total de aas envolvidos em mutações (ff):): no exemplo são 6 mutações, portanto 6 x 2 aas: no exemplo são 6 mutações, portanto 6 x 2 aas: ff = 12 = 12c) O número total de aas envolvidos em mutações (c) O número total de aas envolvidos em mutações (ff):): no exemplo são 6 mutações, portanto 6 x 2 aas: no exemplo são 6 mutações, portanto 6 x 2 aas: ff = 12 = 12

a) Probabilidade (freqüência) de a) Probabilidade (freqüência) de aa no alinhamento, no alinhamento, ppaa, onde, onde

E.g. alanina aparece 10 vezes de um total de 63 aas; E.g. alanina aparece 10 vezes de um total de 63 aas; ppaa = 10/63 = 0,1587 = 10/63 = 0,1587 a) Probabilidade (freqüência) de a) Probabilidade (freqüência) de aa no alinhamento, no alinhamento, ppaa, onde, onde

E.g. alanina aparece 10 vezes de um total de 63 aas; E.g. alanina aparece 10 vezes de um total de 63 aas; ppaa = 10/63 = 0,1587 = 10/63 = 0,1587

Mutabilidade relativa, Mutabilidade relativa, mmaa::

Fator de 100 “normaliza” a mutabilidade para a taxa de substituições Fator de 100 “normaliza” a mutabilidade para a taxa de substituições por 100 aas.por 100 aas. E.g. de alanina E.g. de alanina mmaa = 4 / (100 x 12 x 0,1587 ) = 0,0209 = 4 / (100 x 12 x 0,1587 ) = 0,0209Fator de 100 “normaliza” a mutabilidade para a taxa de substituições Fator de 100 “normaliza” a mutabilidade para a taxa de substituições por 100 aas.por 100 aas. E.g. de alanina E.g. de alanina mmaa = 4 / (100 x 12 x 0,1587 ) = 0,0209 = 4 / (100 x 12 x 0,1587 ) = 0,0209

Matrizes PAMMatrizes PAMMatrizes PAMMatrizes PAMPassos para a obtenção da matrizPassos para a obtenção da matriz

Page 13: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

5) 5) MMabab é a probabilidade que a é a probabilidade que a b: b:

= P (a b) = P (a b) = =

5) 5) MMabab é a probabilidade que a é a probabilidade que a b: b:

= P (a b) = P (a b) = = E.g. para alanina/glicina; E.g. para alanina/glicina; ffabab =3 (passo 3); =3 (passo 3); ffaa = 4 (passo 4b); = 4 (passo 4b); mmaa = 0,0209 (passo 4c) = 0,0209 (passo 4c)

MMA,GA,G = ( 3 / 4 ) x 0,0209 = 0,0156 = ( 3 / 4 ) x 0,0209 = 0,0156E.g. para alanina/glicina; E.g. para alanina/glicina; ffabab =3 (passo 3); =3 (passo 3); ffaa = 4 (passo 4b); = 4 (passo 4b); mmaa = 0,0209 (passo 4c) = 0,0209 (passo 4c)

MMA,GA,G = ( 3 / 4 ) x 0,0209 = 0,0156 = ( 3 / 4 ) x 0,0209 = 0,0156

6) Calcular a probabilidade de não ocorrer 6) Calcular a probabilidade de não ocorrer nenhuma mutação - nenhuma mutação - MaaMaa

7) Finalmente calcula a matriz, 7) Finalmente calcula a matriz, RRijij, (Relatedness , (Relatedness Odds Matrix) normalizando as probabilidades de Odds Matrix) normalizando as probabilidades de mutação (mutação (MMabab) com a probabilidade (freqüência) ) com a probabilidade (freqüência) de cada aa no alinhamento (de cada aa no alinhamento (ppbb):):

7) Finalmente calcula a matriz, 7) Finalmente calcula a matriz, RRijij, (Relatedness , (Relatedness Odds Matrix) normalizando as probabilidades de Odds Matrix) normalizando as probabilidades de mutação (mutação (MMabab) com a probabilidade (freqüência) ) com a probabilidade (freqüência) de cada aa no alinhamento (de cada aa no alinhamento (ppbb):):

E.g. E.g. RRA,GA,G = = MMA,GA,G / / ffGG = 0,0156 / (10 / 63 ) = 0.0982 = 0,0156 / (10 / 63 ) = 0.0982 E.g. E.g. RRA,GA,G = = MMA,GA,G / / ffGG = 0,0156 / (10 / 63 ) = 0.0982 = 0,0156 / (10 / 63 ) = 0.0982

Matrizes PAMMatrizes PAMMatrizes PAMMatrizes PAMPassos para a obtenção da matrizPassos para a obtenção da matriz

Page 14: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

A matriz calculada foi normalizada para uma A matriz calculada foi normalizada para uma mutação por 100 aas (passo 4). Por isso a mutação por 100 aas (passo 4). Por isso a matriz é chamada matriz é chamada PAM1PAM1

A manipulação matemática permite que esta A manipulação matemática permite que esta matriz possa usada para calcular outras matriz possa usada para calcular outras matrizes:matrizes:

A matriz calculada foi normalizada para uma A matriz calculada foi normalizada para uma mutação por 100 aas (passo 4). Por isso a mutação por 100 aas (passo 4). Por isso a matriz é chamada matriz é chamada PAM1PAM1

A manipulação matemática permite que esta A manipulação matemática permite que esta matriz possa usada para calcular outras matriz possa usada para calcular outras matrizes:matrizes:

Depois desses cálculos, os números ficam Depois desses cálculos, os números ficam grandes, e para facilitar a manipulação rápida grandes, e para facilitar a manipulação rápida nos algoritmos computacionais, o logaritmo da nos algoritmos computacionais, o logaritmo da matriz é usado (logarithm of odds):matriz é usado (logarithm of odds):

Depois desses cálculos, os números ficam Depois desses cálculos, os números ficam grandes, e para facilitar a manipulação rápida grandes, e para facilitar a manipulação rápida nos algoritmos computacionais, o logaritmo da nos algoritmos computacionais, o logaritmo da matriz é usado (logarithm of odds):matriz é usado (logarithm of odds):

Matrizes PAMMatrizes PAMMatrizes PAMMatrizes PAM

Page 15: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Para k = 250i.e 2,5 substituições por posição no alinhamento OU:250 substituições por 100 aa no alinhamento:

PAM250

Para k = 250i.e 2,5 substituições por posição no alinhamento OU:250 substituições por 100 aa no alinhamento:

PAM250

Matrizes PAMMatrizes PAMMatrizes PAMMatrizes PAM

Page 16: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Vantagens de matrizes PAM:Vantagens de matrizes PAM:

-Uma metodologia foi estabelecida para quantificação de Uma metodologia foi estabelecida para quantificação de processos evolutivos baseado em observação empíricasprocessos evolutivos baseado em observação empíricas

- Válida para aplicações que mimetizam o processo de - Válida para aplicações que mimetizam o processo de comparação de alinhamentos que gerou a matriz. E.g. comparação de alinhamentos que gerou a matriz. E.g. busca de parálogbusca de parálogoos/ortólogs/ortólogoos com alto nível de identidade s com alto nível de identidade entre as seqüências entre as seqüências

Vantagens de matrizes PAM:Vantagens de matrizes PAM:

-Uma metodologia foi estabelecida para quantificação de Uma metodologia foi estabelecida para quantificação de processos evolutivos baseado em observação empíricasprocessos evolutivos baseado em observação empíricas

- Válida para aplicações que mimetizam o processo de - Válida para aplicações que mimetizam o processo de comparação de alinhamentos que gerou a matriz. E.g. comparação de alinhamentos que gerou a matriz. E.g. busca de parálogbusca de parálogoos/ortólogs/ortólogoos com alto nível de identidade s com alto nível de identidade entre as seqüências entre as seqüências

Desvantagens de matrizes PAM:Desvantagens de matrizes PAM:

- Os valores na matriz dependem das proteínas usadas Os valores na matriz dependem das proteínas usadas no alinhamento – não existe composição “padrão” de no alinhamento – não existe composição “padrão” de aasaas

- O modelo evolutivo usado é muito simplificado – a O modelo evolutivo usado é muito simplificado – a substituição dos aas não é aleatóriasubstituição dos aas não é aleatória (conservação de (conservação de motifs por exemplo)motifs por exemplo)

Desvantagens de matrizes PAM:Desvantagens de matrizes PAM:

- Os valores na matriz dependem das proteínas usadas Os valores na matriz dependem das proteínas usadas no alinhamento – não existe composição “padrão” de no alinhamento – não existe composição “padrão” de aasaas

- O modelo evolutivo usado é muito simplificado – a O modelo evolutivo usado é muito simplificado – a substituição dos aas não é aleatóriasubstituição dos aas não é aleatória (conservação de (conservação de motifs por exemplo)motifs por exemplo)

Matrizes PAMMatrizes PAMMatrizes PAMMatrizes PAM

Page 17: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Matrizes BLOSUM (Henikoff, Matrizes BLOSUM (Henikoff, 1992)1992)

Matrizes BLOSUM (Henikoff, Matrizes BLOSUM (Henikoff, 1992)1992)

Foram obtidas a partir de um enorme volume de Foram obtidas a partir de um enorme volume de dados pertencentes à base de dados, BLOCKS, dados pertencentes à base de dados, BLOCKS, de famílias de proteínasde famílias de proteínas

As seqüências foram agrupadas sempre que aAs seqüências foram agrupadas sempre que apercentagem de caracteres idênticos excedesse percentagem de caracteres idênticos excedesse umumdeterminado nível Ldeterminado nível L

Foram obtidas a partir de um enorme volume de Foram obtidas a partir de um enorme volume de dados pertencentes à base de dados, BLOCKS, dados pertencentes à base de dados, BLOCKS, de famílias de proteínasde famílias de proteínas

As seqüências foram agrupadas sempre que aAs seqüências foram agrupadas sempre que apercentagem de caracteres idênticos excedesse percentagem de caracteres idênticos excedesse umumdeterminado nível Ldeterminado nível L

Page 18: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Matrizes BLOSUMMatrizes BLOSUMMatrizes BLOSUMMatrizes BLOSUMPassos para a obtenção da matrizPassos para a obtenção da matriz

1)1) Construir um alinhamento sem gaps das Construir um alinhamento sem gaps das regiões conservadas de uma família de regiões conservadas de uma família de proteínas. proteínas. Regiões chamadas de Regiões chamadas de blocos blocos conservadosconservados (conserved blocks) são (conserved blocks) são identificadas, e são analisadas para calcular as identificadas, e são analisadas para calcular as matrizesmatrizes

1)1) Construir um alinhamento sem gaps das Construir um alinhamento sem gaps das regiões conservadas de uma família de regiões conservadas de uma família de proteínas. proteínas. Regiões chamadas de Regiões chamadas de blocos blocos conservadosconservados (conserved blocks) são (conserved blocks) são identificadas, e são analisadas para calcular as identificadas, e são analisadas para calcular as matrizesmatrizes

Blocos conservados de Blocos conservados de mais de 1500 famílias de mais de 1500 famílias de proteínas estão proteínas estão disponíveis no banco de disponíveis no banco de dados BLOCKS:dados BLOCKS: http://blocks.fhcrc.org/http://blocks.fhcrc.org/

Blocos conservados de Blocos conservados de mais de 1500 famílias de mais de 1500 famílias de proteínas estão proteínas estão disponíveis no banco de disponíveis no banco de dados BLOCKS:dados BLOCKS: http://blocks.fhcrc.org/http://blocks.fhcrc.org/

Bloco conservadoBloco conservadoBloco conservadoBloco conservado

1 2 3 4 51 S A A I F2 A S A L G3 Q T A L Y4 T T A V E5 L A A L N

1 2 3 4 51 S A A I F2 A S A L G3 Q T A L Y4 T T A V E5 L A A L N

Page 19: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Matrizes BLOSUMMatrizes BLOSUMMatrizes BLOSUMMatrizes BLOSUMPassos para a obtenção da matrizPassos para a obtenção da matriz

2) Eliminação de seqüências com alto grau de 2) Eliminação de seqüências com alto grau de identidade.identidade.- Este passo evita que os blocos analisados contenham “bias”- Este passo evita que os blocos analisados contenham “bias”- As seqüências similares são eliminadas ou substituídas por uma - As seqüências similares são eliminadas ou substituídas por uma seqüênciasseqüências consenso. consenso. -O grau de similaridade entre as seqüências no bloco pode ser O grau de similaridade entre as seqüências no bloco pode ser escolhido. escolhido. E.g. Análises de blocos de seqüências com 50% ou 80% E.g. Análises de blocos de seqüências com 50% ou 80% similaridade resultam em matrizes BLOSUM50 e BLOSUM80 similaridade resultam em matrizes BLOSUM50 e BLOSUM80 respectivamente.respectivamente.

2) Eliminação de seqüências com alto grau de 2) Eliminação de seqüências com alto grau de identidade.identidade.- Este passo evita que os blocos analisados contenham “bias”- Este passo evita que os blocos analisados contenham “bias”- As seqüências similares são eliminadas ou substituídas por uma - As seqüências similares são eliminadas ou substituídas por uma seqüênciasseqüências consenso. consenso. -O grau de similaridade entre as seqüências no bloco pode ser O grau de similaridade entre as seqüências no bloco pode ser escolhido. escolhido. E.g. Análises de blocos de seqüências com 50% ou 80% E.g. Análises de blocos de seqüências com 50% ou 80% similaridade resultam em matrizes BLOSUM50 e BLOSUM80 similaridade resultam em matrizes BLOSUM50 e BLOSUM80 respectivamente.respectivamente.

3) Contar pares de aas em cada coluna:3) Contar pares de aas em cada coluna:3) Contar pares de aas em cada coluna:3) Contar pares de aas em cada coluna:

1 A A I1 A A I2 S A L2 S A L3 T A L3 T A L4 T A V4 T A V5 A A L5 A A L

1 A A I1 A A I2 S A L2 S A L3 T A L3 T A L4 T A V4 T A V5 A A L5 A A L

1.vs.2:A-S1.vs.2:A-S 2.vs.1:X 3.vs.1:X 4.vs.1:X 2.vs.1:X 3.vs.1:X 4.vs.1:X 1.vs.3:A-T 2.vs.3:S-T1.vs.3:A-T 2.vs.3:S-T 3.vs.2:X 4.vs.2:X 3.vs.2:X 4.vs.2:X 1.vs.4:A-T 2.vs.4:S-T 2.vs.4:T-T1.vs.4:A-T 2.vs.4:S-T 2.vs.4:T-T 4.vs.3:X 4.vs.3:X 1.vs.5:A-A 2.vs.5:S-A 2.vs.5:T-A 4.vs.5:T-A1.vs.5:A-A 2.vs.5:S-A 2.vs.5:T-A 4.vs.5:T-A

1.vs.2:A-S1.vs.2:A-S 2.vs.1:X 3.vs.1:X 4.vs.1:X 2.vs.1:X 3.vs.1:X 4.vs.1:X 1.vs.3:A-T 2.vs.3:S-T1.vs.3:A-T 2.vs.3:S-T 3.vs.2:X 4.vs.2:X 3.vs.2:X 4.vs.2:X 1.vs.4:A-T 2.vs.4:S-T 2.vs.4:T-T1.vs.4:A-T 2.vs.4:S-T 2.vs.4:T-T 4.vs.3:X 4.vs.3:X 1.vs.5:A-A 2.vs.5:S-A 2.vs.5:T-A 4.vs.5:T-A1.vs.5:A-A 2.vs.5:S-A 2.vs.5:T-A 4.vs.5:T-A

E.g. Análise da 1E.g. Análise da 1oo coluna: coluna:E.g. Análise da 1E.g. Análise da 1oo coluna: coluna:

O mesmo par e contado uma vez sóO mesmo par e contado uma vez sóO mesmo par e contado uma vez sóO mesmo par e contado uma vez só

Page 20: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

Matrizes BLOSUMMatrizes BLOSUMMatrizes BLOSUMMatrizes BLOSUMPassos para a obtenção da matrizPassos para a obtenção da matriz

4) O número total de pares é uma medida da 4) O número total de pares é uma medida da probabilidade de substituições entre dois aas (probabilidade de substituições entre dois aas (qqijij) ) para formar uma matriz, para formar uma matriz, M,M, 20x20. 20x20.

4) O número total de pares é uma medida da 4) O número total de pares é uma medida da probabilidade de substituições entre dois aas (probabilidade de substituições entre dois aas (qqijij) ) para formar uma matriz, para formar uma matriz, M,M, 20x20. 20x20.

qab = Número total de pares Número de um par observado

No exemplo:No exemplo: AS: 2 AS: 2 AT: 4 AT: 4 AA: 1 AA: 1 ST: 2 ST: 2 TT: 1 TT: 1 --- --- 10 10 TOTAL =TOTAL =

qqASAS: 0,2 : 0,2 qqATAT: 0,4 : 0,4 qqAAAA: 0,1 : 0,1 qqSTST: 0,2 : 0,2 qqTTTT: 0,1 : 0,1

5) Calcular a freqüência de cada aa (5) Calcular a freqüência de cada aa (ppii):):

E.g. Treonina e Alanina no exemplo acima:E.g. Treonina e Alanina no exemplo acima: PPTT = = qqTTTT + ( + (qqATAT + + qqSTST)/2 )/2 PPAA = = qqAAAA + ( + (qqATAT)/2 )/2 = 0,1 + (0,4+0,2)/2 = 0,1 + (0,4)/2= 0,1 + (0,4+0,2)/2 = 0,1 + (0,4)/2 = 0,4 = 0,3= 0,4 = 0,3

Page 21: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

b) Para cada elemento b) Para cada elemento ii e e jj na matriz na matriz MM, , calcular a probabilidade normalizada:calcular a probabilidade normalizada:

SSijij = log = log22 ( ( qqijij / / eeijij ) )

Esta matriz representa um “logarithm of odds” e está Esta matriz representa um “logarithm of odds” e está pronta para ser usada por algoritmos computacionaispronta para ser usada por algoritmos computacionais

b) Para cada elemento b) Para cada elemento ii e e jj na matriz na matriz MM, , calcular a probabilidade normalizada:calcular a probabilidade normalizada:

SSijij = log = log22 ( ( qqijij / / eeijij ) )

Esta matriz representa um “logarithm of odds” e está Esta matriz representa um “logarithm of odds” e está pronta para ser usada por algoritmos computacionaispronta para ser usada por algoritmos computacionais

6) a) Calcula a freqüência de cada par de aas (6) a) Calcula a freqüência de cada par de aas (eeabab): ): 6) a) Calcula a freqüência de cada par de aas (6) a) Calcula a freqüência de cada par de aas (eeabab): ):

eeijij = 2 = 2ppi i ppj j , , ii = = jjeeijij = = ppii

2 2 , , ii = = jjeeijij = 2 = 2ppi i ppj j , , ii = = jjeeijij = = ppii

2 2 , , ii = = jj

para os pares para os pares TTTT e e ATAT no exemplo: no exemplo:eeTTTT = = 0,4 x 0,4 = 0,160,4 x 0,4 = 0,16 eeATAT = 2 x 0,3 x 0,4 = 0,24 = 2 x 0,3 x 0,4 = 0,24

para os pares para os pares TTTT e e ATAT no exemplo: no exemplo:eeTTTT = = 0,4 x 0,4 = 0,160,4 x 0,4 = 0,16 eeATAT = 2 x 0,3 x 0,4 = 0,24 = 2 x 0,3 x 0,4 = 0,24

Matrizes BLOSUMMatrizes BLOSUMMatrizes BLOSUMMatrizes BLOSUMPassos para a obtenção da matrizPassos para a obtenção da matriz

Page 22: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

A matriz A matriz BLOSUM62BLOSUM62 - - SSa,ba,b = log = log22 ( ( qqa,ba,b / / ppaa ) )A matriz A matriz BLOSUM62BLOSUM62 - - SSa,ba,b = log = log22 ( ( qqa,ba,b / / ppaa ) )

Matrizes BLOSUMMatrizes BLOSUMMatrizes BLOSUMMatrizes BLOSUM

Page 23: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

O modelo PAM tem a capacidade de evidenciar a O modelo PAM tem a capacidade de evidenciar a origem evolutivaorigem evolutiva de proteínas de proteínas

O modelo Blosum tem a capacidade de O modelo Blosum tem a capacidade de evidenciar evidenciar domínios conservadosdomínios conservados em proteínas em proteínas

Regras práticasRegras práticas

• • Baixas PAMs e elevadas Blosums encontram Baixas PAMs e elevadas Blosums encontram pequenos alinhamentos locais com elevada pequenos alinhamentos locais com elevada semelhançasemelhança

• • Elevadas PAMs e baixas Blosums encontram Elevadas PAMs e baixas Blosums encontram alinhamentos locais mais fracos mas longosalinhamentos locais mais fracos mas longos

PAM vs. BLOSUMPAM vs. BLOSUM

Page 24: Matrizes para Análise de Similaridade entre Seqüências. Seqüências. Universidade Federal de Viçosa BIO 796 – Problemas Especiais III - Bioinformática Universidade

PAMPAM BLOSUMBLOSUMCalculada a partir de Calculada a partir de alinhamentos globais alinhamentos globais

Calculada a partir de Calculada a partir de alinhamentos locaisalinhamentos locais

As seqüências de proteínas As seqüências de proteínas usadas no alinhamento têm usadas no alinhamento têm >99% identidade>99% identidade

Pode se selecionar o nível de Pode se selecionar o nível de similaridade entre as similaridade entre as seqüências usadas na análiseseqüências usadas na análise

As matrizes são As matrizes são extrapolações matemáticas extrapolações matemáticas do matriz PAM1do matriz PAM1

Cada matriz é um resultado Cada matriz é um resultado de uma análise de um de uma análise de um alinhamento de blocos alinhamento de blocos conservadosconservados

Defina a pergunta e depois escolha a matrizDefina a pergunta e depois escolha a matriz

PAM vs. BLOSUMPAM vs. BLOSUM