bioinformática estruturas de banco de dados cristiano barbieri giovani facchini

33
Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Upload: internet

Post on 17-Apr-2015

106 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Bioinformática

Estruturas de Banco de Dados

Cristiano BarbieriGiovani Facchini

Page 2: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Introdução

● Este trabalho visa a abordagem sobre estruturas biomoleculares assim como as sequências contidas em estruturas tridimensionais.

● Os dados armazenados são provenientes de experimentos tais como: raio-x e resonância magnética nuclear.

● Características sobre ferramentas que possibilitam a visualização das estruturas em 3D.

Page 3: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Coordenadas, sequências e gráficos químicos

● Cada átomo dentro da estrutura tridimensional possui uma posição. Esta posição é representada pelas coordenadas(x, y, z).

● Cada sequência é um importante dado químico.● Gráfico químico é a representação tridimensional

da molécula.

Page 4: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Átomos, ligações e integridade estrutural

● As ligações são utilizadas para unir todos os átomos.

● Sao raras as estruturas armazenadas em banco de dados que possuem integridade completa(H).

● As regras que descrevem estes arquivos(PDB) nunca foram explicitamente codificadas. Isso gera um problema, pois será o programador que terá de decidir qual a melhor forma para decodificar as informações deste arquivo.

Page 5: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Átomos, ligações e integridade estrutural

● Arquivos PDB são arquivos que contém as regras químicas(união entre as moléculas)

● Formato de arquivos MMDB contém todas as informações sobre as ligações entre os átomos que formam a estrutura.

Page 6: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

PDB (Protein Data Bank)

● PDB é um esforço colaborativo entre San Diego Supercomputing Center, Rutgers University e a National Institute of Standards and Technology (NIST).

● Este banco contém todas as publicações disponíveis de estruturas tridimensionais de proteínas, ácidos nucleicos(DNA e RNA), carboidratos e uma variedade de outros complexos experimentalmente determinados.

Page 7: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

PDB (Protein Data Bank)

● RCSB (Research Collaboraty for Structural Bioinformatics) disponibiliza um site onde o usuário pode informar e/ou obter estruturas tri-dimensionais.

● Existem dois tipos de consulta neste site: SearchLite (procura por textos) e SearchField (procura por campos específicos)

Page 8: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

PDB (Protein Data Bank)

● Para o envio de estruturas tridimensionais(PDB) foi disponibilizado um serviço na web de nome: ADIT

● É extremamente desencorajada a submissão de dados obtidos através de métodos não experimentais, ou seja, quase todos são rejeitados

Page 9: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

PDB (Protein Data Bank)

● Para o controle da chave-única(PK), ou seja, cada registro armazenado no banco, será identificado por apenas um PDB-ID Code.

● Este ID é um alfanumérico(formado por letras e números) composto por 4 caracteres.

Page 10: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

PDB (Protein Data Bank)

● Além de buscar as informações que o usuário está a procura, o PDB fornece uma lista de links interessantes(third-party), como: evolução estrutural, similaridade entre estruturas e movimentação da proteína.

Page 11: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

PDB (Protein Data Bank)

● Arquivos PDB são sequências que seguidamente preocupam os programadores. Esta preocupação deve-se ao fato de que a integridade das estruturas não são garantidas.

● Este arquivo possui duas cópias da sequência de informações: uma implícita e outra explícita. Ambas sao necessárias para reconstrução do gráfico químico e de biopolímero(DNA, RNA e proteínas).

Page 12: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

PDB (Protein Data Bank)

● Sequências implícitas: contém apenas as regras químicas que compõem a estrutura

● Sequências explícitas: contém todas as informações sobre as ligações entre os átomos, formas dos aminoácidos e dos resíduos dos ácidos nucleicos.

Page 13: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

PDB (Protein Data Bank)● Os registros nos arquivos PDB usam sequência de

código de aminoácidos de 3 letras, mas são encontrados sequências de letras não padrão, faltando regras consistentes!

● Na prática muitos visualizadores de arquivos PDB, reconstrõem o gráfico químico de uma proteína utilizando somente a sequência implícita e ignorando a explícita, porém a sequência implícita não é suficientemente capaz de reconstruir um gráfico químico completo.

● Se o arquivo PDB estiver incompleto a sequência representada será irrelevante.

Page 14: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

PDB (Protein Data Bank) - Validação

● Para validação de um registro do PDB primeiramente deriva-se a sequência implícita do registro ATOM.

● Processo não trivial.● Se a estrutura tiver “gaps” teremos apenas

fragmentos de sequências implícitas.● Deve-se então alinhar com a sequência explícita

para completar o gráfico químico.● Este tipo de validação é feito na criação de

registros do MMDB.

Page 15: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

MMDB (Molecular Modeling Database AT NCBI)

● Os registros deste arquivo pertencem ao formato ASN.1, diferente do formato PDB.

● Arquivos PDB podem ser obtidos através de arquivos MMDB.

● A representação de dados no formato ASN.1 para os registros MMDB agregam valores além da representação no formato do PDB (informação de gráficos químicos explícitas, domínio da estrutura, citação para MEDLINE, entre outros).

Page 16: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

MMDB (Molecular Modeling Database AT NCBI)

● O banco de dados MMDB pode ser acessado pela página da NCBI utilizando o Entrez.

● Visualização das informações no formato FASTA.● Banco de dados BLAST contém uma cópia de

todas as sequências válidas do MMDB. Além disso é utilizado para comparar sequências que tenham algum tipo de similaridade.

Page 17: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Estrutura do formato dos arquivos

● O formato do arquivo PDB é orientado a coluna.● O formato exato do arquivo PDB está disponível

no web site da PDB.● Para ser feito o “parser” do arquivo os

bioinformatas utilizam linguagens baseadas em C. Exemplo: Perl.

● Como temos várias ligações ausentes, isso obriga o programa a conter as regras da química. Necessita de tabelas para interpretar as exceções corretamente.

Page 18: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Estrutura do formato dos arquivos

● Para modernizar as informações do PDB foram criados dois tipos de arquivos:– MMDB(Molecular Modeling Database Format) – mmCIF(MacroMolecular Chemical Interchange

Format)● São facilmente “parseaveis” e são criados a partir

dos formatos implícitos e explícitos do PDB, fazendo uma validação extensiva.

Page 19: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Estrutura do formato dos arquivos

● mmCIF é um grande dicionário que contém as especificações guardadas nos arquivos PDB.

● Contém outros dados derivados de coordenadas de dados primários, como ângulo das ligações.

● Para teste de “streams” de dados o tempo computacional é significante (alto).

Page 20: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Estrutura do formato dos arquivos

● Ao contrário do mmCIF os registros do MMDB são estruturas hierárquicas.

● O formato do arquivo é baseado em Hash Table.● Velocidade de acesso é muito maior que a do

mmCIF.● Existem muitos softwares no NCBI toolkit, para a

manipulação dessa estrutura.

Page 21: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Visualizando informações das estruturas

● São oferecidos múltiplos estilos de representações gráficas para a visualização dos diferentes aspectos das estruturas moleculares. Exemplos:– Aramada– Espaço-preenchido– Rede alfa-carbono– Estrutura secundária (alfa-hélice e folha-beta)

Page 22: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Visualizando informações das estruturas

● Os progamas que não levam em consideração a origem dos dados obtidos, se raio-X ou resonância magnética. Podem causar interpretações biológicas defasadas.

● O raio-X mostra as moléculas estáticas(estado de cristalização)

● Resonância magnética possui um “range” de distâncias entre os átomos(movimentação), ou seja, mostra a variação dinâmica de uma mólecula em solução.

Page 23: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Problemas na visualização das informações estruturais

● Desordem Correlacionada também é conhecida como coordenadas degeneradas.

● Os softwares tridimensionais mostram apenas a primeira localização de cada átomo de um conjunto de desordem correlacionada, ignorando o restante dos valores de coordenadas degeneradas.

● Locais Dinâmicos:– Movimentação dos átomos:

● Maior conformação na parte externa● Menor conformação na parte interna

Page 24: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Estruturas de visualização● Sotwares para visualização, tem melhorado

fortemente nos últimos anos em termo de qualidade de visualização, além de relacionar informações de sequênciais com informações da estrutura.

● WebMol – Visualizador de proteínas● Assim como o WebMol o RasMol é muito

recomendado para visualização de dados estruturais também. Seu código fonte é um excelente material de estudo para os interessados em gráficos tridimensionais de alta performance.

Page 25: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Estruturas de visualizaçãoRasMol

● Trata os arquivos PDB com extrema precaução e muitas vezes recomputa informações, refazendo inconsistências.

● Não valida gráficos químicos de sequências ou estruturas codificantes.

● Não realiza validações em alinhamento de sequências explícitas ou implícitas.

● Melhor visualizador para leitura de arquivos em formato mmCIF.

● Pode gerar diferentes tipos de arquivos de saída, como exemplo, postscript.

Page 26: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Estruturas de visualizaçãoCn3D

● Visualizador de estrutura 3D, para arquivos MMDB.

● Capaz de mostrar estruturas tridimensionais consistentes, sem necessidade de parsing, validações e tratamento de exceções.

● Possui a imagem mais inteligível, devido ao funcionamento sem receio de encontrar representações errôneas.

● Possui a capacidade de guardar o estado, tornando possível renderizar e colorir uma estrutura.

● Possibilita também animação em 3D das estruturas tridimensionais.

Page 27: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Estruturas de visualizaçãoCAD

● Representa uma tecnologia madura, robusta, muito melhor que a maioria dos softwares que existem no mercado para estrutura molecular. Apresentam problemas ao examinar o mundo molecular, faltando algumas visões e funções analíticas para o exame detalhado de estruturas de proteínas.

Page 28: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Estruturas de visualizaçãoVRML

● Arquivo que contém informações para montar gráficos tridimensionais, mas pouca ou nenhuma informação sobre gráfico químico subjacente da molécula.

● Difícil renderização dos arquivos neste modelo, pois para cada forma de representação de uma estrutura molecular, precisará um tipo de arquivo correpondente para esta representação (linhas, preenchimento espacial, entre outros).

Page 29: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Estruras Avançadas de Modelagem

● Biólogos querem ferramentas que vão além de uma simples visualização.

● Necessitam de características de visualização como: – Informações sobre distribuição de cargas;– acessibilidade da superfície;– forma molecular;– fazer experimentos simples de mutagênese e

modelagem de estruturas.● Um ferramenta que engloba algumas destas

características é o SwissPDB Viewer.

Page 30: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Busca de Similaridade entre Estruturas

Embora um programa de similaridade seqüência-seqüência forneça o alinhamento de duas seqüências, um programa de similaridade estrutura-estrutura fornece uma superposição estrutural tridimensional, ou seja, resulta de um conjunto de operações matriciais sobre rotações-translações tridimensionais e que sobreponha partes similares da estrutura.

Page 31: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Busca de Similaridade entre Estruturas

Ao comparar estruturas fazendo superposição tridimensional e existindo um acerto feito entre duas estruturas que não estão relacionadas por nenhuma similaridade de seqüência mensurável, então certamente uma surpreendente descoberta foi feita.

Page 32: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Busca de Similaridade entre Estruturas

VAST fornece uma medida de similaridade de estruturas tridimensionais. É capaz de encontrar similaridades estruturais quando nenhuma similaridade seqüencial é detectada. Assim como BLAST, é executado em todas as entradas na base de dados de um modo N x N(matriz bidimensional), e os resultados são armazenados para uma rápida recuperação usando a interface Entrez.

Page 33: Bioinformática Estruturas de Banco de Dados Cristiano Barbieri Giovani Facchini

Características do VAST

● Seu algoritmo foca realmente na similaridade de alinhamento;

● Não há perda de tempo examinando muitas similaridades de pequenas estruturas;

● As similaridade encontradas por esta ferramente podem fornecer uma vista mais ampla da estrutura, função, e evolução de uma família de proteínas;

● Tem a capacidade de integração com Cn3D como ferramenta de visualização para inspecionar relacionamentos estruturais surpreendentes em detalhes

● Pode mostrar exeplos de homologias remotas, não mostradas em alinhamento simples