banco de dados biológicos
TRANSCRIPT
Bancos de dados biológicos
Bancos de dados incluem:
- Arquivos contendo as informações
- Organização lógica e estruturada dessas informações
- Ferramentas para se ter acesso às informações
Disponibilizar dados biológicos para os cientistas
O máximo possível de um tipo particular de informação deve estar disponível em um único lugar
Por que criar bancos de dados biológicos?
Dados publicados podem ser difíceis de encontrar ou acessar
Coletá-los da literatura consume muito tempo
Disponibilizar dados em formato que possa ser lido por um computador
- Todo banco de dados é composto por entradas (pacotes discretos e coerentes de informação)
- Um software de recuperação de informação identifica entradas relevantes para o seu interesse
- Para que a pesquisa seja bem-sucedida, seja o mais específico possível
- Se você procura uma albumina de galinha....
Como acessar e recuperar informações dos bancos de dados?
- Se você procura uma albumina de galinha....
Busque por Chicken AND albumin
- Se você for procurar primeiro por Chicken vão aparecer entradas que não contêm informação sobre as albuminas (perda de tempo)
- Se você procurar por albumin vão aparecer entradas contendo a informação sobre albuminas que não são necessariamente de galinha (perda de informação)
• Saiba o quê e aonde você está pesquisando....
E. coli – Escherichia coli
E. Coli – Elisabetta coli, pesquisadora do departamento de psiquiatria, farmacologia, neurobiologia e biotecnologia.Seção de psiquiatria, Universidade de Pisa, Italia.
Sede por conhecimento
-Talvez você não encontre o que você busca, mas se e ncontrar.....provavelmente vai querer saber mais
- Exemplos: - Exemplos:
-Achar genes homólogos ao que você buscou
-Referências bibliográficas sobre o gene
-Estrutura da proteína codifcada por esse gene
Conecção entre os bancos de dados(Interatividade)
-Achar genes homólogos ao que você buscou- Conecção entre entradas do mesmo banco(banco de dados de genes)
-Referências bibliográficas sobre o gene- Conecção entre banco de dados de genes e banco - Conecção entre banco de dados de genes e banco de referências
-Estrutura da proteína codifcada por esse gene-Conecção entre banco de dados de genes e banco de struturas de proteínas
- Aumento do recurso computacional para o arquivamento einterpretação dos dados
- Aumento do número de bancos especializados (“boutiques”)
Informação aumenta, os genes evolueme os bancos devem se adequar...e ..evoluir
- Aumento do número de bancos especializados (“boutiques”)
- Surgimento dos sites “guarda-chuva” – tipo portal
- Aumento da interatividade
1 - Bancos de dados primários (seqüências de nucleot ídeos)- NCBI, EMBL, DDBJ2 - Meta-databases ENTREZ3 - Bancos de dados genômicosEnsembl, SGD, TAIR4 - Bancos de dados de proteínasUNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY5 - Bancos de dados de estrutura de proteínas
Exemplos de bancos de dados públicos para biologia molecular
5 - Bancos de dados de estrutura de proteínasPDB6 - Bancos de domínios e motivos proteicosPFAM, SMART, PROSITE, PRODOM, PRINTS7 - Bancos de vias metabólicasKEGG, BioCyc8 - Bancos de dados de expressão gênicaArrayExpress, GEO9 - Bancos de ontologiaGene Ontology
1 - Bancos de dados primários (seqüências de nucleot ídeos)
DDBJ (DNA Data Bank of Japan) EMBL Nucleotide DB (European Molecular Biology Labo ratory - EBI)
GenBank (National Center for Biotechnology Informa tion - NCBI)
Consórcio International Nucleotide Sequence Database (INSD)
Armazenam seqüências de nucleotídeos de todos os or ganismos
Eles trocam informação e são fontes para outros ban cos de dados
http://www.ddbj.nig.ac.jp/
http://www.ebi.ac.uk/embl/
http://www.ncbi.nlm.nih.gov/
Ponto forte do sistema NCBI são as conexões entreos vários bancos de dados
Selecionar
Inserir consulta
PubMed: biomedical literature citations and abstrac ts, includingMedline - articles from (mainly medical) journals
PubMed Central: free, full text journal articles Books: online books OMIM: online Mendelian Inheritance in Man OMIA: online Mendelian Inheritance in Animals Nucleotide : sequence database (GenBank) Protein : sequence database Genome : whole genome sequences and Mapping Structure : three-dimensional macromolecular structures Taxonomy : organisms in GenBank Taxonomy SNP: single nucleotide polymorphism Gene: gene-centered information HomoloGene : eukaryotic homology groups
Busca em vários bancosdo NCBI
Entrez
2–Meta-database
HomoloGene : eukaryotic homology groups PubChem Compound: unique small molecule chemical st ructures PubChem Substance: deposited chemical substance rec ords Genome Project: genome project information UniGene: gene-oriented clusters of transcript seque nces CDD: conserved protein domain database 3D Domains : domains from Entrez Structure UniSTS : markers and mapping data PopSet : population study data sets (epidemiology) GEO Profiles : expression and molecular abundance profiles GEO DataSets : experimental sets of GEO data Cancer Chromosomes : cytogenetic databases PubChem BioAssay : bioactivity screens of chemical substances GENSAT: gene expression atlas of mouse central nervous sy stem Probe : sequence-specific reagents
do NCBI
Interface por meio da qual todos os seusBDs componentes
podem ser acessados
3 - Bancos de dados genômicos
Coleção de informações sobre determinados genomas ( quase sempre organimos modelo).
Dados de anotação vinculados a genome browse
Iniciativa conjunta ente o EBI e o Sanger Center. Coleta e anotação de seqüências disponíveis de eucariotos, tendo como foco principal o Homo sapiens.
Ensembl fornece:- Genomas completos de diversos - Anotação de SNPs- Alinhamento com seqüências homólogas de outros orga nismo- Correlações com outros bancos de dados
SGD fornece:-Genoma completo-Fenótipos de mutantes específicos para cada gene-Dados de expressão gênica
The Arabidopsis Information Resource
TAIR fornece:-Genoma completo-Localização das inserções de T-DNA-Dados de expressão gênica
4 - Bancos de proteínas
Consórcio que visa fornecer anotação relevante e cu rada de proteínas. Baseiam-se em dados de proteômica (principalmente), genômica e transcriptômica.
Como funciona:
Proteínas anotadas são incluídas no UniProtKB-Swiss ProtTraduções de genes depositados no EBI são incluídos no UniProt-TrEMBL
Vantagens do UniProt:Vantagens do UniProt:
- banco curado manualmente
- contém muita informação sobre as proteínas (glicosilação, pontes dissulfeto, Sítios transmembrana)
- conectado a outros bancos de dados de proteínas
ExPASy – Expert Protein Analysis System
Sistema de análise e recuperação de informação de p roteínas.
Produz as anotações para o UniProtKB/SwissProt
Possui uma série de ferramentas para análise de pro teínas
5 - Bancos de estruturas de proteínas e outras macro moléculas
Estrutura do vírus da dengue
Anota, cataloga e distribui conjuntos de coordenada satômicas de macromoléculas
PDB fornece:- Detalhes experimentais sobre a geração da estrutura- Atribuições da estrutura- Coordenações atômicas- Links para outros bancos de dados
6 - Bancos de domínios proteicos
Anotam e catalogam domínios ou motivos proteicos. F azem comparações entre sequencia de consulta e banco de dados.
7 - Bancos de vias metabólicasKegg – coleção de bancos de dados on-line que ligam genomas com vias enzimáticas
8 - Bancos de dados de expressão gênica
- Banco de dados de depósito de dados de expressão gê nica em larga escala (ArrayExpress – somente microarranjos)
9 - Bancos de ontologia
Gene Ontology (GO) project, fornece um vocabulário controlado para descrevergenes e produtos gênicos de um organismo.
Ontologias :Ontologias :
Molecular Function (atividade enzimática, função biológica)Biological process (processo em que a proteína está envolvida), Cellular component (Ccompartimento onde a proteína se localiza)
As ontologias são estruturadas como grafos acícilic os diretos. Parece uma Hierarquia, porém termos mais especializa dos (filhos)podem ser relacionados a mais de um termo menos esp ecializado (pai).
Biological process – Biossíntese de hexose tem dois pais:
- Processo metabólico de hexose e processo biossinté tico de monossacarídeos
- Biossíntese de hexose é um tipo de processo metabó lico e hexose é um monossacarídeo
- Qualquer gene envolvido com biossíntese de hexose será anotado com esse termo e automaticamente anotado e m processo metabólico de hexose e processo biossintét ico de monossacarídeos