busca em banco de dados - ifsc.usp.brrdemarco/ffi0760/busca.pdf · busca em banco de dados •a...

26
Busca em banco de dados

Upload: others

Post on 23-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Busca em banco de dados

Page 2: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Busca em banco de dados

• A quantidade imensa de dados existentes nos bancos públicos torna critica a existência de ferramentas eficientes que permitam a recuperação de dados desejados

• Existem diversas formas através das quais os bancos podem ser interrogados para obtenção da informação desejada

Page 3: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

NCBI

http://www.ncbi.nlm.nih.gov/

Um dos maiores repositórios de informações biológicas existentes

Parte do NIH (National Institutes of Health) dos EUA.

Page 4: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Estrutura do NCBI

Page 5: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Bancos de dados do NCBI

Page 6: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

PubMed

Busca por referencias bibliográfica

Busca por palavra chave ou nome de autor (sobrenome seguido de iniciais)

Page 7: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

PubMedAcesso ao artigo completo

Titulo do artigo, nome dos autores e resumo do artigo Artigos relacionados

Page 8: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

PubMed

Permite acesso a seqüências descritas no artigo, artigos citados por este artigo, entre outros

Page 9: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Entrez nucleotide

Page 10: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Bases de dados de nucleotídeos

A base de dados de nucleotídeos é subdividida em diversas bancos dependendo da origem da seqüência (DNA, RNA) e da metodologia utilizada na obtenção desta seqüência

Estes bancos podem ser pesquisados em conjunto através da primeira pagina de busca do ENTREZ nucleotide ou separadamente

Page 11: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Bases de dados de nucleotídeos

• GenBank– Seqüências de cDNA ou DNA anotadas e

divididas em bancos relacionados com a taxonomia (invertebrados (INV),primatas (PRI),roedores (ROD), etc..)

– Alem disso existem bancos a parte que refletem certas estratégias de seqüenciamento

Page 12: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Bases de dados de nucleotídeos

Bancos a parte do GenBank:EST (Expressed Sequence Tag)- Resultante de

seqüenciamento em larga escala de mRNA. Seqüências são “single pass”, podendo ter baixa qualidade e só representam parte da molécula.

STS (Sequence-Tagged Sites) – Seqüências únicas em um genoma, utilizadas no mapeamento físico de cromossomos

GSS (Genome Survey sequences)- Seqüência de amostragem do genoma, normalmente “single pass”,. Mais da metade das seqüências são de pontas de BACs (Bacterial Artificial Chromosome)

Page 13: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Bases de dados de nucleotídeos

Bancos a parte do GenBank:ENV (environmental sample sequences)-

amostragem de seqüência de uma amostra ambiental sem que se determine os organismos que estão sendo seqüenciados

HTG (High-throughput genomic)- Derivadas se seqüenciamento em larga escala de genoma, mas que ainda não foram finalizadas.

HTC (high-throughput cDNA)-Derivadas de seqüenciamento em larga escala de moléculas completas de mRNA, , mas que ainda não foram finalizadas.

Page 14: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Bases de dados de nucleotídeos

• WGS (Whole Genome Shotgun)- Genomas produzidos utilizando a estratégia de WGS

• TPA (Thrid party anotation)- Re-anotação de seqüências por grupos que não produziram o dado original (é necessário uma publicação relacionada)

• RefSeq (Reference sequences)- Banco inclusivo, não redundante de seqüências anotadas (DNA, proteína e mRNA).

Page 15: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Resultado busca nucleotídeos

Seqüências do tipo “single-pass”

Seqüências de referencia

Seqüências derivadas de mRNA

Page 16: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Exemplo de um registro

Numero de acesso

Organismo

Publicação

Detalhes do registro

Page 17: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Exemplo de um registroAtributo da seqüência

Descrição de trecho codificante para uma proteína

Page 18: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Seqüência em formato FASTA

Formato mais utilizado para reconhecimento de seqüências por programa de bioinformática

Primeira linha possui um sinal > seguido pela descrição da seqüência

Linhas seguinte contem a seqüência

Alguns programas aceitam formato multi-fasta

Page 19: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Bases de dados de proteínas

• Ao contrario do DNA, proteínas não são facilmente seqüenciáveis

• Praticamente não existem depósitos em bancos de dados de seqüenciamento direto destas moléculas

• Entretanto devido ao fato de poder se deduzir facilmente seqüências protéicas a partir da informação do mRNA existem diversos bancos de seqüências protéicas deduzidas.

Page 20: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Resultado busca proteína

Seqüências de referencia

Seqüências que possuem seqüências similares com estrutura tridimensional resolvida

Page 21: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Exemplo de um registro

Link para seqüência de nucleotídeo a partir da qual este proteína foi deduzida

Page 22: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Buscando entender a função de uma proteína através dos dados disponíveis

Exemplo de um deposito

Qual será a função desta proteína?

Page 23: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Buscando entender a função de uma proteína através dos dados disponíveis

Depósitos de alguns bancos (Swiss-prot por exemplo) já possuem no deposito uma descrição da função da proteína

Page 24: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Buscando entender a função de uma proteína através dos dados disponíveis

Muitos depósitos apontam para referencias que realizaram estudos com a proteína em questão

Page 25: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Buscando entender a função de uma proteína através dos dados disponíveis

É possível obter informações sobre a proteína depositada em outros bancos do NCBI, no exemplo é mostrado o OMIM que é um catalogo de genes humanos e desordens geneticas

Page 26: Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A quantidade imensa de dados existentes nos bancos públicos torna critica a existência

Busca por organismo no taxonomy browser

Depósitos nos diferentes bancos de dados de informações relacionadas a este organismo