busca em banco de dados - ifsc.usp.brrdemarco/ffi0760/busca.pdf · busca em banco de dados •a...
TRANSCRIPT
Busca em banco de dados
Busca em banco de dados
• A quantidade imensa de dados existentes nos bancos públicos torna critica a existência de ferramentas eficientes que permitam a recuperação de dados desejados
• Existem diversas formas através das quais os bancos podem ser interrogados para obtenção da informação desejada
NCBI
http://www.ncbi.nlm.nih.gov/
Um dos maiores repositórios de informações biológicas existentes
Parte do NIH (National Institutes of Health) dos EUA.
Estrutura do NCBI
Bancos de dados do NCBI
PubMed
Busca por referencias bibliográfica
Busca por palavra chave ou nome de autor (sobrenome seguido de iniciais)
PubMedAcesso ao artigo completo
Titulo do artigo, nome dos autores e resumo do artigo Artigos relacionados
PubMed
Permite acesso a seqüências descritas no artigo, artigos citados por este artigo, entre outros
Entrez nucleotide
Bases de dados de nucleotídeos
A base de dados de nucleotídeos é subdividida em diversas bancos dependendo da origem da seqüência (DNA, RNA) e da metodologia utilizada na obtenção desta seqüência
Estes bancos podem ser pesquisados em conjunto através da primeira pagina de busca do ENTREZ nucleotide ou separadamente
Bases de dados de nucleotídeos
• GenBank– Seqüências de cDNA ou DNA anotadas e
divididas em bancos relacionados com a taxonomia (invertebrados (INV),primatas (PRI),roedores (ROD), etc..)
– Alem disso existem bancos a parte que refletem certas estratégias de seqüenciamento
Bases de dados de nucleotídeos
Bancos a parte do GenBank:EST (Expressed Sequence Tag)- Resultante de
seqüenciamento em larga escala de mRNA. Seqüências são “single pass”, podendo ter baixa qualidade e só representam parte da molécula.
STS (Sequence-Tagged Sites) – Seqüências únicas em um genoma, utilizadas no mapeamento físico de cromossomos
GSS (Genome Survey sequences)- Seqüência de amostragem do genoma, normalmente “single pass”,. Mais da metade das seqüências são de pontas de BACs (Bacterial Artificial Chromosome)
Bases de dados de nucleotídeos
Bancos a parte do GenBank:ENV (environmental sample sequences)-
amostragem de seqüência de uma amostra ambiental sem que se determine os organismos que estão sendo seqüenciados
HTG (High-throughput genomic)- Derivadas se seqüenciamento em larga escala de genoma, mas que ainda não foram finalizadas.
HTC (high-throughput cDNA)-Derivadas de seqüenciamento em larga escala de moléculas completas de mRNA, , mas que ainda não foram finalizadas.
Bases de dados de nucleotídeos
• WGS (Whole Genome Shotgun)- Genomas produzidos utilizando a estratégia de WGS
• TPA (Thrid party anotation)- Re-anotação de seqüências por grupos que não produziram o dado original (é necessário uma publicação relacionada)
• RefSeq (Reference sequences)- Banco inclusivo, não redundante de seqüências anotadas (DNA, proteína e mRNA).
Resultado busca nucleotídeos
Seqüências do tipo “single-pass”
Seqüências de referencia
Seqüências derivadas de mRNA
Exemplo de um registro
Numero de acesso
Organismo
Publicação
Detalhes do registro
Exemplo de um registroAtributo da seqüência
Descrição de trecho codificante para uma proteína
Seqüência em formato FASTA
Formato mais utilizado para reconhecimento de seqüências por programa de bioinformática
Primeira linha possui um sinal > seguido pela descrição da seqüência
Linhas seguinte contem a seqüência
Alguns programas aceitam formato multi-fasta
Bases de dados de proteínas
• Ao contrario do DNA, proteínas não são facilmente seqüenciáveis
• Praticamente não existem depósitos em bancos de dados de seqüenciamento direto destas moléculas
• Entretanto devido ao fato de poder se deduzir facilmente seqüências protéicas a partir da informação do mRNA existem diversos bancos de seqüências protéicas deduzidas.
Resultado busca proteína
Seqüências de referencia
Seqüências que possuem seqüências similares com estrutura tridimensional resolvida
Exemplo de um registro
Link para seqüência de nucleotídeo a partir da qual este proteína foi deduzida
Buscando entender a função de uma proteína através dos dados disponíveis
Exemplo de um deposito
Qual será a função desta proteína?
Buscando entender a função de uma proteína através dos dados disponíveis
Depósitos de alguns bancos (Swiss-prot por exemplo) já possuem no deposito uma descrição da função da proteína
Buscando entender a função de uma proteína através dos dados disponíveis
Muitos depósitos apontam para referencias que realizaram estudos com a proteína em questão
Buscando entender a função de uma proteína através dos dados disponíveis
É possível obter informações sobre a proteína depositada em outros bancos do NCBI, no exemplo é mostrado o OMIM que é um catalogo de genes humanos e desordens geneticas
Busca por organismo no taxonomy browser
Depósitos nos diferentes bancos de dados de informações relacionadas a este organismo