evinci_21_banner

1
BANCO DE DADOS E MINERAÇÃO DE DADOS EM BIOINFORMÁTICA ANA PAULA SANDOVAL CARLOS PIBIC/CNPQ JERONIZA NUNES MARCHAUKOSKI Com o avanço da tecnologia, o crescimento das informações através da produção científica é exorbitante. Dados biológicos, como a genômica e proteômica, o contingente é ainda maior. O desafio posto na manipulação de elementos complexos instiga a busca de soluções eficazes. O estudo trata da modelagem desses, definindo arquiteturas de banco de dados para o gerenciamento de grandes volumes de informação e estratégias de mineração, através de algoritmos genéticos e redes neuronais Pesquisa e estudos dos repositórios de dados biológicos do NCBI (NR),PFAM e COG. O NCBI concentra diversos dados de genomas, cada sequência de proteína é identificada por um único ‘gi’, composto somente por números, sua base de dados inclui ainda taxonomia, tamanho da sequência. O PFAM organiza os dados relacionados a famílias de proteínas, incluindo suas anotações. A base de dados COG classifica esses genomas por relacionamentos ortólogos. Ao verificar os bancos, observou-se a redundância ocasionada por erros de anotação de genes ou informações repetidas de diferentes formas. Os comandos de inserção e comparação dos dados no banco de dados dos repositórios foram alterados de forma a facilitar o entendimento. Neste trabalho, o identificador ‘gi’ do NCBI foi utilizado como referência para integrar os dados das bases de dados públicas NCBI, PFAM e COG, das proteínas em estudo. Uma nova base de dados integradora foi desenvolvida utilizando-se o Sistema Gerenciador de Banco de Dados MySQL, linguagem de programação C e interface para a manipulação de dados em MATLAB. Para melhorar a comparação, será necessário comparar as sequências pela tabela de sequências do NR e depois fazer outra comparação a fundo mas só dos gis atrelado a essa sequência (também é necessário desenvolver uma técnica para encontrar o gi certo). Com os bancos de dados públicos integrados, as consultas às informações de proteína são extraídas de forma transparente e mais rapidamente,. A manipulação das informações são realizadas através de comandos da linguagem de Banco de Dados, mais amigável e, dinâmico pois os dados podem ser acessados em um único local. [1]PFAM:<http://pfam.sanger.ac.uk/>. [2]NCBI:http://www.ncbi.nlm.nih.gov/>. [3]COG:<http://www.ncbi.nlm.nih.gov/ COG/>.[4]ENZYME:<http:// enzyme.expasy.org/>. [5]Xml_io_tools.:<http:// www.mathworks.com/matlabcentral/

Upload: moswen

Post on 14-Jan-2016

21 views

Category:

Documents


1 download

DESCRIPTION

BANCO DE DADOS E MINERAÇÃO DE DADOS EM BIOINFORMÁTICA ANA PAULA SANDOVAL CARLOS PIBIC/CNPQ JERONIZA NUNES MARCHAUKOSKI. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: evinci_21_banner

BANCO DE DADOS E MINERAÇÃO DE DADOS EM BIOINFORMÁTICAANA PAULA SANDOVAL CARLOSPIBIC/CNPQJERONIZA NUNES MARCHAUKOSKI

Com o avanço da tecnologia, o crescimento das informações através da produção científica é exorbitante. Dados biológicos, como a genômica e proteômica, o contingente é ainda maior. O desafio posto na manipulação de elementos complexos instiga a busca de soluções eficazes. O estudo trata da modelagem desses, definindo arquiteturas de banco de dados para o gerenciamento de grandes volumes de informação e estratégias de mineração, através de algoritmos genéticos e redes neuronais

Pesquisa e estudos dos repositórios de dados biológicos do NCBI (NR),PFAM e COG. O NCBI concentra diversos dados de genomas, cada sequência de proteína é identificada por um único ‘gi’, composto somente por números, sua base de dados inclui ainda taxonomia, tamanho da sequência. O PFAM organiza os dados relacionados a famílias de proteínas, incluindo suas anotações. A base de dados COG classificaesses genomas por relacionamentos ortólogos.

Ao verificar os bancos, observou-se a redundância ocasionada por erros de anotação de genes ou informações repetidas de diferentes formas. Os comandos de inserção e comparação dos dados no banco de dados dos repositórios foram alterados de forma a facilitar o entendimento. Neste trabalho, o identificador ‘gi’ do NCBI foi utilizado como referência para integrar os dados das bases de dados públicas NCBI, PFAM e COG, das proteínas em estudo. Uma nova base de dados integradora foi desenvolvida utilizando-se o Sistema Gerenciador de Banco de Dados MySQL, linguagem de programação C e interface para a manipulação de dados em MATLAB. Para melhorar a comparação, será necessário comparar as sequências pela tabela de sequências do NR e depois fazer outra comparação a fundo mas só dos gis atrelado a essa sequência (também é necessário desenvolver uma técnica para encontrar o gi certo).

Com os bancos de dados públicos integrados, as consultas às informações de proteína são extraídas de forma transparente e mais rapidamente,. A manipulação das informações são realizadas através de comandos da linguagem de Banco de Dados, mais amigável e, dinâmico pois os dados podem ser acessados em um único local.

[1]PFAM:<http://pfam.sanger.ac.uk/>.[2]NCBI:http://www.ncbi.nlm.nih.gov/>.[3]COG:<http://www.ncbi.nlm.nih.gov/COG/>.[4]ENZYME:<http://enzyme.expasy.org/>.[5]Xml_io_tools.:<http://www.mathworks.com/matlabcentral/fileexchange/12907-xmliotools>.