Download - Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina
![Page 1: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/1.jpg)
Bancos de Dados Biológicos
Luis Artur RibeiroRafael JustinoPoline Lottin
Debora Comochina
![Page 2: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/2.jpg)
Conceitos
Bioinformática: especialização da Informática aplicada à informação originada pela/para Biologia; ou estudo da aplicação de técnicas computacionais e matemáticas à geração e gerenciamento de (bio)informação. A Bioinformática combina conhecimentos de química, física, biologia, ciências da computação, informática e matemática/estatística para processar dados biológicos ou biomédicos.
Exemplos em Softwares: identificar genes, prever a configuração tridimensional de proteínas, identificar inibidores de enzimas, organizar e relacionar informação biológica, simular células, agrupar proteínas homólogas, montar árvores filogenéticas, analisar experimentos de expressão gênica entre outras inúmeras aplicações.
![Page 3: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/3.jpg)
Conceitos
“BD biológicos se tornaram uma importante ferramenta no entendimento da vasta quantidade de fenômenos biológicos existentes, desde a estrutura das biomoléculas e sua interação ao metabolismo como um todo e a evolução das espécies. Este entendimento contribui para facilitar a luta contra doenças, auxilia no desenvolvimento de novos fármacos e na descoberta de relações entre espécies.” (Wikipedia, 2006)
![Page 4: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/4.jpg)
Conceitos
•São tanto bancos públicos (ex: Genbank) como privados •Mais de 1000 bancos de dados biológicos comerciais e públicos disponíveis atualmente •Acesso a esses bancos de dados através de padrões abertos (open standards) como a web é importante dadas as características dos usuários destes bancos – Servidores UNIX x Macintosh •A revista NucleicAcidsResearch é um importante recurso com informações sobre estes BD(http://www3.oup.co.uk/nar/database/c/)
![Page 5: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/5.jpg)
Motivação
• Disponibilizar dados biológicos para os cientistas. • O máximo possível de um tipo particular de informação
deve estar disponível em um único lugar. • Dados publicados podem ser difíceis de encontrar ou
acessar. • Coletá-los da literatura consume muito tempo.
• Disponibilizar dados em formato que possa ser lido por
um computador.
![Page 6: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/6.jpg)
Conteúdo
Dados de genômica, transcriptômica, proteômica, taxonomia, ecologia, doenças, fármacos...
Informações:• Seqüências de nucleotídeos, aminoácidos• Função, estrutura, localização no cromossomo• Mapas metabólicos• Efeitos clínicos de mutações• Características genéticas de populações específicas• Catálogo de espécies ou recursos naturais
![Page 7: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/7.jpg)
Conteúdo
Bancos de Dados bibliográficos. • Resumem a literatura cientifica de uma forma legível para a máquina.
Bancos de Dados Taxonômicos. • Bancos de dados de classificação de espécies. São extremamente
dependentes da classificação feita por um especialista.
Bancos de Dados de Seqüências de Nucleotídeos. • Enfocam entidades biológicas como genes e ácidos nucléicos. Visam o
armazenamento e divulgação dedados de seqüências de nucleotídeos de uma comunidade de pesquisa. As seqüências de DNA e RNA são normalmente apresentadas juntamente com outras informações como o organismo a qual a seqüência pertence ou ainda com as funções fisiológicas relacionadas à seqüência.
![Page 8: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/8.jpg)
Conteúdo
Bancos de Dados Genômicos. • Disponibilizam dados genéticos de um organismo especial, variando muito no
conteúdo. As informações armazenadas em bancos de dados genômicos incluem informações sobre genótipos, nome de genes, propriedades de genes, mutações específicas, assim como mapas genômicos e informações referentes a raças.
Bancos de Dados Proteômicos. • Em geral, podem ser vistos como uma mistura de banco de dados de
seqüências de nucleotídeos, seqüências de proteínas e outros.
Bancos de Dados de Vias Metabólicas. • Armazenam informações sobre o metabolismo de um organismo ou de vários
organismos diferentes. As enzimas participantes de reações são freqüentemente relacionadas com bancos de dados de seqüências.
![Page 9: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/9.jpg)
Conteúdo
Bancos de Dados de Seqüências de Proteínas. • Proporcionam informações sobre proteínas. Bancos de dados universais que
armazenam informações sobre proteínas de todos organismos devem ser diferenciados de bancos de dados especializados que armazenam informações sobre famílias especificas ou grupo de proteínas ou sobre as proteínas em espécies específicas.
Bancos de Dados de Estrutura Protéica. • Estes bancos mantêm dados relativos à estrutura de proteínas. A estrutura
3D completa de proteínas é representada pelo armazenamento de coordenadas no espaço 3D.
Bancos de Dados Híbridos. • Trata-se de bancos de dados que armazenam diferentes conteúdos,
pertencendo a mais de um dos grupos citados.Com o crescente número de dados biológicos que vem sendo gerados,vários bancos de dados têm surgido.
![Page 10: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/10.jpg)
Exemplos
Alguns tipos de bancos de dados biológicos:
•Bancos de dados primários de seqüência (nucleotídeos e aminoácidos) –GenBank, UniProt•Bancos de genomas – Mouse GenomeDatabase, NCBI Genomic Biology•Bancos de dados especializados - Flybase, Wormbase, CGAP•Bancos de dados de estrutura de proteínas – PDB, SCOP•Bancos de dados de interações proteína-proteína – STRING, BioGRID•Bancos de Cadastro de recursos naturais – AmazonLink, ENDS, National Whale and Dolphins Stranding Database
![Page 11: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/11.jpg)
Relembrando
Nucleotídeos ou nucleótidos são compostos ricos em energia e que auxiliam os processos metabólicos, principalmente as biossínteses, na maioria das células.
Funcionam ainda como sinais químicos, respondendo assim a hormônios e outros estímulos extracelulares; eles são também componentes estruturais de cofactores enzimáticos, intermediários metabólicos e ácidos nucleicos. Os nucleóticos podem ser considerados os monómeros da DNA/RNA, sendo o polimero, o próprio DNA/RNA.
![Page 12: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/12.jpg)
Relembrando
Genótipos, o conjunto dos cromossomos que se situam no núcleo das células. Os cromossomos são interpretados como uma sequência de genes. São os genes os portadores das informações que condicionam o fenótipo. Ao conjunto dos genes de um indivíduo damos o nome de genótipo.• É o conjunto dos genes, condiciona os fenótipos totais.
• São as informações hereditárias de um organismo contidas em seu genoma.
• gene é uma seqüência de nucleotídeos do DNA que pode
ser transcrita em uma versão de RNA.
![Page 13: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/13.jpg)
Relembrando
Fenótipo são as características observáveis ou caracteres de um organismo como, por exemplo: morfologia, desenvolvimento, propriedades bioquímicas ou fisiológicas e comportamento. Resulta da expressão dos genes do organismo, da influência de fatores ambientais e da possível interação entre os dois. Nem todos os organismos com um mesmo fenótipo parecem ou agem da mesma forma, porque a aparência e o comportamento, assim como os demais componentes do fenótipo, são modificados por condições ambientais e de desenvolvimento. Do mesmo modo, nem todos os organismos cujas aparências se assemelham possuem necessariamente o mesmo genótipo.
![Page 14: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/14.jpg)
O DNA é uma hélice dupla onde os pares seguem algumas regras.
![Page 15: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/15.jpg)
Características BDB
• Tratam de dados biológicos altamente heterogêneos mas relacionados
• Informações dinâmicas, modificações e atualizações
constantes • Grande volume e variedade de dados biológicos
![Page 16: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/16.jpg)
![Page 17: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/17.jpg)
![Page 18: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/18.jpg)
Geração de Dados
Fontes de dados:
• sequenciamento e anotação de genomas • experimentos em larga escala: identificação de proteínas,
estrutura 3D de proteínas, microarranjos de DNA Anotação:
• anexar conhecimento biológico relevante aos dados de sequenciamento do genoma de um organismo.
![Page 19: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/19.jpg)
Geração de Dados
• Visão direcionada para a biologia molecular • Base da biologia molecular: DNA
o Nucleotídeos {A, C, G, T} • Além do DNA, existem outros tipos de dados na linha de evolução (RNA e proteínas) • Uma seqüência de DNA pode possuir milhares de pares de nucleotídeos. • Cada seqüência possui uma identificação, funções biológicas e podem pertencer a vários organismos.
![Page 20: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/20.jpg)
![Page 21: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/21.jpg)
Requisitos
•Qualidade dos dados (obtenção). •Anotações consistentes. •Integração entre ferramentas. •Fácil acesso às informações disponíveis.
•Mecanismos para extrair do conjunto de dados apenas aqueles de interesse do pesquisador.
![Page 22: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/22.jpg)
Fatos
Mais de 1000 bases de dados diferentes • 968 databases em The Molecular Biology Database
Collection: 2007 update by Galperin, Nucleic Acids Research, 2007, Vol. 35, Database issue D3-D4
Tamanho dos bancos: de 100kB até 100GB • DNA: >100GB• Proteina: 1GB• 3D structure: 5GB
![Page 23: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/23.jpg)
Fatos
Organismos, Número de genes:
Plantas, <50.000Mamíferos, 100.000Vermes, 14.000Bactérias, 2-4.000 dsDNAVírus Vacina, <300 ssRNAVírusINfluenza 12
![Page 24: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/24.jpg)
Modelagem
Atualmente, os modelos de dados “tradicionais” mais referenciados para desenvolvimento de bancos de dados de biologia molecular são: o modelo relacional, o modelo orientado a objetos e o modelo semi-estruturado (bancos de dados XML).
Cada vez mais bancos de dados com diferentes conteúdos do domínio abordado estão utilizando um SGBD relacional. Por exemplo: • Genome Sequence Database (GSDB), um banco de dados de seqüências de
nucleotídeos, é implementado usando o SGBD Relacional Sybase. • CyanoBase, um banco de dados genético, também está implementado
usando o Sybase • O banco de dados proteômico YPD é gerenciado por um SGBD relacional
Oracle.
![Page 25: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/25.jpg)
Modelagem - Modelo Relacional
Dados biológicos são complexos. Um típico tipo de dado tem uma estrutura aninhada de difícil representação no modelo relacional. Sistemas gerenciadores de bancos de dados relacionais freqüentemente proporcionam um projeto fragmentado e não intuitivo.
São melhores quando o esquema é simples, o dado é regular e consultas sucessivas são independentes. Apesar disso, SGBDs relacionais são utilizados para gerenciar todo tipo de dado biológico.
O esquema do modelo relacional é pré-definido. Os dados são abstraídos em entidades e relacionamentos, sendo armazenados em tabelas. Além disso, o modelo relacional é muito restritivo quanto à habilidade de ser estendido O fato de decisões serem tomadas nos estágios iniciais, como a definição das entidades e dos atributos, caracteriza uma desvantagem do modelo relacional. Em dados biológicos, não há como predizer qual fator se provará importante ou sujeito à modificação, isto se tornar um problema, pois se mostra difícil e trabalhoso, senão impossível, alterar o esquema.
![Page 26: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/26.jpg)
Modelagem - Modelo Relacional
A força do modelo relacional é sua total provisão por SQL. Mas sua principal fraqueza é a ineficiência para modelagem de objetos genômicos complexos.
O modelo relacional é orientado em direção a um eficiente armazenamento e gerenciamento de dados, mas não provê construtores para uma boa captura da semântica dos dados: a representação de um objeto conceitual complexo em um banco de dados relacional pode se estender por muitos registros em várias tabelas distintas, fazendo do esquema relacional um pobre veículo para comunicação semântica de um banco de dados.
Com relação ao desempenho pode–se destacar que SGBDs relacionais apresentam melhor desempenho em operações de pesquisa para bases de dados de grande dimensão.
![Page 27: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/27.jpg)
Modelagem - Modelo Orientado a ObjetoAssim como o modelo relacional, o modelo orientado a objeto está sendo bastante empregado para o tratamento de dados biológicos. O INTERACT, por exemplo, um banco de dados sobre interações de proteína, utiliza o SGBD orientado a objetos Poet. Outros bancos de dados como o PSD/PIR, um banco de seqüências de proteínas também foram implementados usando um SGBD orientado a objetos.
![Page 28: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/28.jpg)
Modelagem - Modelo Orientado a ObjetoNo modelo orientado a objeto os dados são abstraídos e armazenados como objetos, possuindo estruturas com tipos pré-definidos. Sistemas orientados a objeto são melhores quando o esquema é complexo, o dado irregular e as consulta correlatas, sendo mais fácil pesquisar nas vizinhanças.
Uma vantagem de armazenar dados em um SGBD orientado a objeto é que ele é capaz de proporcionar uma melhor performance para dados complexos (ex: dados biológicos) como gráficos complicados, de 10-1000% comparado com o padrão de banco de dados relacional.
Diferentemente do modelo relacional, modelos orientados a objeto são extensíveis, contudo enfatizam o comportamento de objetos e insistem que cada objeto tem sua própria identidade.
![Page 29: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/29.jpg)
Modelagem - Modelo Orientado a ObjetoA extensibilidade de sistemas de bancos de dados baseados em orientação a objeto também nos permite incorporar operações sobre os dados diretamente nas descrições de classe do objeto no banco de dados, deste modo escondendo os detalhes de implementação do usuário e permitindo ser usado diretamente com a linguagem de consulta do banco de dados.
A principal força do modelo orientado a objeto é seu poder de modelagem de dados altamente flexível, oferecendo uma elegante maneira de representação de objetos genômicos complexos. A principal fraqueza inclui a falta de uma forma genérica de acesso aos objetos complexos.
A orientação a objeto permite ainda mais concisão e facilidade para entender definições do banco de dados quando comparados com construtores de bancos de dados relacionais.
A experiência tem mostrado que este tipo de modelagem permite criar esquemas que são mais intuitivos para biólogos moleculares compreender se comparados com os esquemas relacionais.
![Page 30: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/30.jpg)
Modelagem - Modelo Semi-Estruturado (XML)
Dados biológicos nem sempre são bem estruturados, muitas vezes se mostram incompletos, irregulares, redundantes ou contem erros. A maioria deles são implicitamente estruturados. Portanto, dados da biologia molecular são bons candidatos para um modelo de dados semi-estruturado.
No modelo semi-estruturado, o esquema é definido dinamicamente através dos dados (auto-descritivo), apresentando uma descrição flexível de dados com relacionamentos complexos.
A natureza auto-descritiva de XML a torna uma forma promissora para definição de dados semi-estruturados.
XML é altamente flexível. Atualizar um modelo de dados é, portanto, simples. XML é orientado a Internet e tem grande capacidade para vincular dados, podendo ser utilizado para interconectar bancos de dados.
![Page 31: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/31.jpg)
Modelagem - Modelo Semi-Estruturado (XML)
XML proporciona uma área aberta para definir especificações padronizadas. Ponto importante, pois claramente há falta de padronização na bioinformática. O custo de um formato baseado em texto na analise de dados, armazenamento e transmissão precisam ser avaliados antes de adotar XML como uma solução geral. Contudo, um formato texto significa que o código fonte pode ser lido e editado com um editor de texto.
A expressividade de um modelo de dados XML provavelmente não será suficiente para a biologia molecular. A semântica de dados biológicos é bastante rica e requer um modelo de dados bastante expressiva.XML não tem mecanismos de herança e nem métodos em objetos. O conceito de relacionamento pode ser imitado através de referências lentas, mas não existe como tal.
Apenas restrições de unicidade, cardinalidade e não nulo podem ser especificadas: não há simetria, nem restrições elaboradas e nem ‘triggers’; XML não tem suporte para valores numéricos, tabelas e matrizes.
![Page 32: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/32.jpg)
Desafios
Armazenar dados de sequenciamento, experimentos e resultado das anotações (conhecimento biológico).Projetar banco de forma eficiente para facilitar recuperação de informações.
Disponibilizar acesso às informações (ferramentas) • Interface com usuário: intuitiva, fácil manipulação• Flexibilidade de acesso: tipos de informação que podem ser
recuperadas (consultas)• Flexibilidade de visualização: formato de apresentação dos
dados (texto, gráfico, links)
![Page 33: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/33.jpg)
Desafios
Integrar dados heterogêneos
• Integração física (bancos distribuídos geograficamente)
o Tecnologias de integração de dados (web services, DAS)
• Integração conceitual (semântica)
o Ontologias (bases de conhecimento)
![Page 34: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/34.jpg)
Desafios
Diferentes bases de dados para armazenamento de dados biológicos: • arquivos em formato de texto
• arquivos estruturados
• bancos de dados relacionais
• bancos de dados objeto-relacionais
• bancos de dados orientado a objetos
![Page 35: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/35.jpg)
Ontologias
![Page 36: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/36.jpg)
Desafios
Muitas bases de dados foram construídas por biólogos. • Não padronização da taxonomia
• Dificuldade na adoção de um vocabulário comum entre
os grupos de pesquisa • Termos diferentes para conceitos iguais
• Conceitos diferentes para termos iguais
![Page 37: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/37.jpg)
Desafios
Qualidade dos dados disponíveis na Web
• Grupos de pesquisa submetem suas descobertas • Algumas bases aceitam de qualquer entrada
• Muitas bases não verificam a qualidade dos dados
• Outras bases preocupam-se com a qualidade dos
dados, onde um comitê valida-os. Estas bases ganham destaque da comunidade científica.
![Page 38: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/38.jpg)
Buscas
Muitos tipos de seqüências de entrada
• Pode ser uma seqüência de aminoácido ou de nucleotídeo • Genômica, cDNA/mRNA, proteína
• Completa ou fragmentada
Matches exatos são raros
• Em geral, o objetivo é recuperar um conjunto de seqüências similares
![Page 39: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/39.jpg)
Buscas
O que queremos saber sobre a seqüência?• Ela é similar ao algum gene conhecido? Quão próximo é o
melhor match? Significância? • O que sabemos sobre este gene?
o Genômica(localização no cromossomo, regiões reguladoras, ...)
o Estrutural (estrutura conhecida? ...)o Funcional (molecular, celular e doença)
•Informação evolutiva
o Este gene é encontrado em outros organismos?o Qual é sua árvore taxonômica?
![Page 40: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/40.jpg)
NCBI - National Center for Biotechnology Information - GenBank
NCBI disponibiliza o banco de sequência de DNA GenBank desde 1992. O GenBank tem acesso aberto e possui uma coleção de todas as sequências de nucleotídios disponíveis publicamente e suas proteínas traduzidas.
• Recebe sequências prodozidas em laboratórios de todo o mundo de mais de 100,000 organismos.
• Cresce a ritmo exponencial, duplicando sua base a cada 18 meses.• Em agosto de 2006 possuía mais de 65 milhões de bases de
nucleotídios em mais de 61 milhões de sequências. Se coordena com laboratórios individuais e outros bancos de sequências como European Molecular Biology Laboratory (EMBL) e DNA Database of Japan (DDBJ).
![Page 41: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/41.jpg)
Basic Local Alignment Search Tool (BLAST)
Algoritmo de comparação de sequências biológicas primárias (aminoácidos e nucleotídios) Permite ao pesquisador comparar uma sequência com outras disponíveis na base de dados e idientificar as parecidas com um determinado grau de confiabilidade. • Algorítmo de busca de sequências genéticas• Cria lista de partes da sequência de busca• Pesquisa a base de dados• Calcula semelhanças
![Page 42: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/42.jpg)
Protein Data Bank (PDB) & Fasta
PDB: • Banco de dados que compõe o projeto NCBI.• É um repositório de informações estruturais 3-D de grandes
moléculas biológicas como preoteínas e ácidos nucléicos.• Trabalho com o MMDB (Molecular Modeling DB) .
Fasta • Formato de texto que representa sequências de
nucleotídios ou peptídios, em que pares base ou aminoácidos são representados usando letras.
![Page 43: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/43.jpg)
Exemplo
Influenzavirus A
• gripe aviária• gripe suína
o depende da espécie do hospedeiro Neuraminidase
• enzima presente na superfície dos vírus influenza que permite ao vírus ser liberado da célula hospedeira
![Page 44: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/44.jpg)
![Page 45: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/45.jpg)
![Page 46: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/46.jpg)
Exemplo
Links: http://en.wikipedia.org/wiki/Influenzavirus_A
http://en.wikipedia.org/wiki/Viral_neuraminidase
![Page 47: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/47.jpg)
Exemplo
Influenza Research Databasehttp://www.biohealthbase.org/GSearch/fluSegmentDetails.do?ncbiGenomicAccession=FJ998214&decorator=influenzaNCBI - Nucleotide Databasehttp://www.ncbi.nlm.nih.gov/nuccore/229484043?report=genbank
NCBI - Taxonomy Browserhttp://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=643780
NCBI - Blast *http://blast.ncbi.nlm.nih.gov/Blast.cgi*
NCBI - PDB - MMDBhttp://www.ncbi.nlm.nih.gov/Structure/mmdb/mmdbsrv.cgi?uid=67153
![Page 48: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/48.jpg)
![Page 49: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/49.jpg)
Influenza Research Database
Através de palavras-chave pesquisa-se:• Segmentos de Nucleotídios• Proteínas• Tipos de Influenzas
o tipos de hospedeiroo paíso data de adiçãoo e outros.
Pesquisando Neuraminidase em tipo s de influenza, obtêm-se mais de 10 mil resultados, e arbitrariamente seleciona-se um caso mexicano de 2009 com um hospedeiro humano.
Atributos (taxonomia, segmento...) possuem IDs que "linkam" diretamente outras bases usadas na consulta. (NCBI, UniProtKB, GBrowse, TARGET, IEDB)
![Page 50: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/50.jpg)
![Page 51: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/51.jpg)
![Page 52: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/52.jpg)
NCBI - Nucleotide - Taxonomy
Através do ID de segmento (FJ998214) se acessa página do mesmo na base de Nucleotídios do NCBI. • autores, referências, sequência do segmento, tradução Fasta.
Através do ID de taxonomia (643780) se acessa a página da espécie (Influenza A virus (A/Mexico/InDRE4487/2009(H1N1))) na base de Taxonomia do NCBI. Na página de segmento já há um link para usar o Blast e fazer comparação do segmento genético em outras espécies sem precisar copiar e colar a sequência Fasta.
![Page 53: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/53.jpg)
![Page 54: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/54.jpg)
NCBI - Blast - PDB - MMDB
Através de múltiplas consultas como resultado são apresentadas dezenas de variações de vírus que possuem a mesma sequência exata (100%) e aproximadas (99%); toas com seus IDs linkados para continuar a pesquisa no NCBI.
No mesmo portal há ferramentas de visualização 3D das estruturas dos vírus, o formato pode ser baixado e visualizado com o uso de um software (Cn3D) na máquina do usuário. Toda a navegação é intuitiva feita a partir de links e IDs e as bases funcionam de forma interligada.
![Page 55: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/55.jpg)
![Page 56: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/56.jpg)
Bibliografia
http://www.icb.ufmg.br/biq/maira/biodbfiles/aula1-introducaobioinfo.pdf
http://biotec.icb.ufmg.br/cabi/aulas/aula21.pdf
http://www.inf.ufrgs.br/~clesio/cmp151/cmp15120031/BDsBiologicos.pdf
http://en.wikipedia.org/wiki/National_Center_for_Biotechnology_Information
http://en.wikipedia.org/wiki/BLAST
http://en.wikipedia.org/wiki/Protein_data_bank#Viewing_the_data
http://en.wikipedia.org/wiki/FASTA_format http://pt.wikipedia.org/wiki/Gene
![Page 57: Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina](https://reader035.vdocuments.com.br/reader035/viewer/2022081418/5706386c1a28abb8239054fd/html5/thumbnails/57.jpg)
Bibliografia
http://pt.wikipedia.org/wiki/Gen%C3%B3tipo http://pt.wikipedia.org/wiki/Fen%C3%B3tipo
http://www2.dc.uel.br/nourau/document/?view=127