alinhamento local- utilização do blastrdemarco/ffi0760/alinhamento_local.pdf · derivados de...

31
Alinhamento local- Utilização do BLAST

Upload: hathuan

Post on 20-Jan-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Alinhamento local- Utilização do BLAST

Page 2: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

BLAST

Page 3: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Tipos de BLAST

Compara nucleotídeos(blastn)

(blastp) Compara proteínas

Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de proteína

Utiliza proteína como “query” , esta é comparada contra banco de nucleotídeo traduzido nos 6 quadros de leitura

Utiliza nucleotídeo como “query” , este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de nucleotídeo traduzido nos 6 quadros de leitura

Page 4: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Submissão de seqüências Blastn

Seqüência a ser alinhada ou numero de acesso

Bases de dados

Busca por palavra chave

ProgramaMegablast + rapido

Page 5: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Parâmetros do blastn

Programa:Megablast utiliza “seeds” maiores (28 bases) fazendo com que o algoritmo seja mais rápidoDiscontiguos megablast- Utiliza seeds maiores, mas exige que apenas algumas bases sejam coincidentes dentro de um padrão definido.Blastn- seeds menores (11 bases, podendo ser ajustado ate 7 bases). Mais sensível mas também mais lento

Page 6: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Parâmetros do blastn

Max Target sequences- Numero de alinhamentos mostradosShort queries- Ajuste automático de parâmetros para seqüências pequenasExpect threshold- Ajuste da exigência mínima de relevância estatistica para seqüência ser mostradaWord size- Tamanho do “seed”

Page 7: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Parâmetros do blastn

Match/Mismatch scores- escores para alinhamento coreto e incorretoGap costs- Penalização para abertura de “gaps”

Filtros- Filtragem de região de baixa complexidade ou repetiçõesMascaras- Filtragem de seqüências para busca dos “seeds” e mascaramento dado pelo usuario

Page 8: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Interpretação do resultado do blast

Page 9: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Interpretação do resultado do blast

Accesion – Numero de acesso para seqüência alinhada

Description- Descrição breve da seqüência

Max score- escore máximo resultante de um único HSPs (High-scoring Segment

Pairs)

Total score- Escore resultante da soma de HSPs

Query coverage- Porcentagem da seqüência submetida ao programa que é

coberta pelo alinhamento

E-value- Parâmetro de confiança

Max identity- Identidade máxima obtida por um HSP

Page 10: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Escore do blast

• Escore do blast

O escore do blast é normalizado e é dado pela seguinte equação:

l e K são parâmetros estatísticos utilizados utilizada que buscam normalizar os escores de resultados derivados de diferentes matrizes e espaços de busca

Page 11: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

expected value (e-value)

• Parâmetro de confiança do alinhamento

Onde E = expect value

m e n-tamanho das seqüências alinhadas

S´- escore normalizado

Page 12: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Relação entre e-value e p-value

E p

10 0.99995460

5 0.99326205

2 0.86466472

1 0.63212056

0.1 0.09516258

0.05 0.04877058

0.001 0.00099950

0.0001 0.0001000

Page 13: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Interpretação de e-value

• O e-value permite-nos ter uma idéia de quão significativos são os alinhamentos que obtemos. Entretanto a interpretação de um resultado nem sempre é trivial e muitas vezes dependo do que o usuário busca (definição de função, busca de motivos conservados, etc..) e também do tamanho da seqüência submetida (seqüências muito pequenas nunca obterão um e-value muito baixo mesmo obtendo um alinhamento perfeito)

• O fato de termos um e-value significativo não implica que necessariamente podemos postular a função de uma proteína, pois em alguns casos isso reflete meramente a conservação de algum motivo ou domínio que podem esta presentes em proteínas com funções diversas

Page 14: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Interpretação do resultado do blast

Traços verticais representam

identidade entre nucleotídeos

Letras minúsculas em cinza

representam trechos

mascarados

Traços horizontais

representam “gaps”

Query- seqüência submetida

ao programa

Subject- seqüência do banco

de dados alinhada a

seqüência submetida

Page 15: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Interpretação do resultado do blast

Resultado tem dois HSPs (High-scoring Segment Pairs), estatísticas para

cada um deles é dada.

Page 16: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Submissão de seqüências Blastp

Basicamente o mesmo que o

blastn

Podem ser utilizados 3 programas:

Blastp- algoritimo normal

PSI-Blast- Matriz modificada

PHI-BLAST-Busca sequencias

contendo um motivo indicado pelo

usuário

Proteína X proteína

Page 17: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Submissão de seqüências Blastp

• Word size padrão para proteínas é 3 (contra 7 dos nucleotideos), entretanto somente aqueles mais significativos são utilizados como seeds

Parâmetros do PSI-blast

Page 18: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Interpretação do resultado do blastp

Espaços com letras na linha

do meio do alinhamento

indicam conservação do

aminoácido

Sinal + neste espaço indica

uma substituição com escore

positivo segundo a matriz de

substituição utilizada

Page 19: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

PSI-BLAST

• O PSI-blast inicia-se como um blastp normal e recupera proteínas contendo similaridades com a proteína inserida.

• Entretanto o algoritmo se utiliza das seqüências resultantes desta primeira pesquisa que obtiveram um escore acima de um certo limite para criar uma nova matriz (position-specific score matrix) baseada no alinhamento destas seqüências

• Esta matriz tenderá a fornecer escores mais altos para regiões conservadas dentro desta família e escores baixos para regiões pouco conservadas

• Uma nova busca é realizada com esta matriz e com os novos alinhamentos formados uma nova matriz pode ser criada

Page 20: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

PSI-Blast

Resultado primeiro

alinhamento

Page 21: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

PSI-Blast

Resultado Primeiro

alinhamento

Page 22: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

PSI-Blast

Resultado terceiro

alinhamento

Page 23: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Primeiro alinhamento –melhor hit

Terceiro alinhamento –

melhor hit

Terceiro alinhamento –

melhor hit do primeiro

alinhamento

Page 24: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Interpretação do resultado do blastx

Quadro de leitura da tradução da seqüência submetida

Page 25: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Interpretação do resultado do tblastn

Quadro de leitura da tradução da seqüência do banco de dados

Page 26: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Interpretação do resultado do tblastx

Quadro de leitura da

tradução da seqüência

submetida

Provável resultado espúrio

devido a conservação de

bases no quadro de leitura

positivo

Quadro de leitura da

tradução da seqüência do

banco

Page 27: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Interpretação do resultado do tblastx

• Quando utilizamos o tblastx muitas vezes temos alinhamentos em quadros de leitura que não possuem nenhum sentido biológico, mas que são similares entre as seqüências devido a pouca divergência entre elas

• É recomendável quando analisamos uma seqüência de nucleotídeos tentarmos deduzir primeiramente a proteína codificada por este (através da dedução do quadro de leitura mais longo) e após isso utilizar o programa tblastn

Page 28: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Blast 2 sequences

Permite a realização de alinhamento local entre duas seqüências

Parâmetros semelhante ao do blast

Page 29: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

Blast 2 sequences

Estatísticas são calculadas

levando-se em conta o banco nr

do NCBI

Page 30: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

BLAST Assembled Genomes

Page 31: Alinhamento local- Utilização do BLASTrdemarco/FFI0760/Alinhamento_local.pdf · derivados de diferentes matrizes e espaços de busca. ... 10 0.99995460 5 0.99326205 2 0.86466472

BLAST Assembled Genomes

Ab-initio RNA ou protein-

seqüências deduzidas a partir

de programas de predição de

genes utilizando a informação

disponível para o organismo

Build RNA ou protein-

Combinação dos dados de ref-

Seq mais as seqüências ab-

initio (dando preferência a

primeira)

Traces- Dados brutos de

seqüenciamento em larga

escala