trabalho ia ime periodo-0

Upload: yasmmin-cortes-martins

Post on 14-Oct-2015

15 views

Category:

Documents


0 download

TRANSCRIPT

  • Projeto de ferramenta para estruturao e anlise de informaes de bancos de dados biolgicosYasmmin Crtes Martins

  • RoteiroO que so os bancos de dados biolgicos (para protenas, sequncias, genomas completos)

    Aplicaes dos dados destes bancos

    Exemplos e bancos de dados a serem utilizados na ferramenta

    Importncia da ferramenta

    Objetivos da ferramenta

    Processo da ferramenta

    Mtodos e assistentes (APIs e softwares) a serem utilizados nas etapas de construo.

    Etapas de construo

    Possveis resultados

  • O que so bancos de dados biolgicosSo informaes biolgicas que com o avano da tecnologia puderam ser descobertas por diversos laboratrios e centros de pesquisas.

    E que geraram uma enorme quantidade de dados, como por exemplo o projeto de decodificao completa do genoma humano.

  • O que so bancos de dados biolgicosExistem, nos dias atuais, vrios bancos de dados deste tipo, que armazenam informaes diferentes, como bases, nucleotdeos, protenas, expresses gnicas, mutaes, etc.

    Formatos de arquivos: Arquivos de texto, pginas html, anotaes de sequncias, e mais recentemente o uso de bancos de dados relacionais.

  • Aplicaes dos dados destes dbs (Caso brasileiro - FioCruz)Em parceria com outras instituies e laboratrios internacionais, foi montado e est sendo estudado/analisado o dataset com a linhagem gentica do trypanossoma cruzi (T. cruzi).

    Objetivos:Tcnicas de genotipagemCompreenso da populao genticaSequenciamento do genoma do T. cruziDiagnsticos imunolgicos especficosLinhas de pesquisa associadas (resultados clnicos; infeco congnita, capacidade de infeco celular; suscetibilidade aos medicamentos)

  • Aplicaes dos dados destes dbs (Caso chins Evoluo gentica e adaptaes aquticas)No Rio Yangtze da China, h uma espcie aqutica denominada golfinho de rio Yangtze que importante para a conservao de animais aquticos e ecossistema neste rio. Contudo ela foi reconhecida como funcionalmente extinta.

    Ento foi feito um rascunho de alta qualidade e trs genomas re-sequenciados desta espcie para anlise.

  • Objetivos e resultados:Relgio e adaptaes moleculares em cetceos.Baixo nmero de polimorfismos heterozigticos de nucleotdeos em relao aos outros genomas de mamferos.O gargalo que gerou isso, ocorreu na ltima era glacial, coincidindo com a rpida queda de temperatura e um aumento global uniforme no nvel do mar.Aplicaes dos dados destes dbs (Caso chins Evoluo gentica e adaptaes aquticas)

  • Exemplos de bds biolgicosGenBank Sequence DatabaseResponsvel: National Center for Biotechnology Information (NCBI) at the National Library of Medicine (NLM), National Institutes of Healthy (NIH).

    Contm sequncias de nucleotdeos, disponibilizando os dados em diferentes formas, e mostrando publicaes a respeito de anlises e estudos com as sequncias.

  • Exemplos de bds biolgicosEMBL Nucleotide Sequence DatabaseResponsvel: EMBL OutStation The Bioinformatics Institute

    Contm sequncias de nucleotdeos, os tipos de dados contidos so diferentes do banco anterior, este possui mais detalhes.Possui opo de gerar XML, porm no cobre todas as informaes, mas adianta a traduo.

  • Importncia da ferramenta-Tipos diferentes de armazenar informaes que so complementares e similares entre si.-Formatos diferentes que necessitam de leituras especficos.-Dificulta a integrao entre bases de dados diferentes.-Consulta complexa, para as pessoas que no so habituadas.-Necessidade de algo que facilite a interligao das informaes e busca mais fcil e rpida de dados.

  • Objetivos da ferramenta-Prover os dados de diferentes bases (por enquano apenas NCBI e EMBL), em um padro de dados nico, RDF.

    -Aps ter uma quantidade de dados devidamente classificados e organizados, prover uma interface de consulta amigvel.

    -Estabelecer links semnticos entre sequncias similares.

  • Processo da ferramentaArquivos HTMLCrawler verificando os links dentro dos arquivos-Extrao de dados Relevantes-Parsing HTML para XMLMinerao(agrupamento)Gerao do Arquivo RDFConstruo de interface de consultas

  • APIs e softwares a serem utilizados na construo da ferramentaXstream API java para leitura e escrita dos arquivos XML.

    RapidMiner 5.0 Software de minerao. A partir dos dados dos arquivos XML, classificar os dados usando a tarefa classificao, para obter a rvore de caractersticas dos conjuntos de dados.

    Jena API java para leitura e escrita de dados RDF, consulta por SPARQL, e inferncia de novos dados.

  • Neo4j banco de dados orientado a grafo, para permitir uma alternativa mais rpida de acesso e consulta aos dados dos arquivos, mas que possui o mesmo modelo e estrutura. No caso, ser utilizado tanto a API, quanto o software do banco de dados.APIs e softwares a serem utilizados na construo da ferramenta

  • Etapas de construo necessrias para a ferramentaDados=>-Obteno

    -Rastreamento de links

    Fonte:-NCBI -GeoPept

    -EMBL

  • Etapas de construo necessrias para a ferramenta1. Preparao destes dados para passar por uma ferramenta de minerao de dados que suportem dados no estruturados. Obter as informaes que mais interessem como verso, espcie, a sequncia em si.

    2. Verificar duplicao de dados, para saber se j foi analisada e representada aquela informao.

  • Etapas de construo necessrias para a ferramenta3. Gravar a informao depois da minerao com seu classificador, e ordem de relevncia, num arquivo XML, para facilitar na representao destes dados em um formato interopervel

    4. Verificar se a ontologia para este domnio, a geneOntology, cobre as informaes passveis de descoberta, para sua estrututurao em RDF+XML. Se no houver classes/predicados suficientes, propor novos.

  • Etapas de construo necessrias para a ferramenta5. Construir a ferramenta utilizando tcnicas de inferncia e busca sparql, utilizando para trabalhar com a web semntica a API Jena. Podendo continuar utilizando arquivos fsicos em rdf ou alimentar um banco de dados orientado a grafo, como o neo4j.

    6. Possibilidade de construir relaes do tipo sameAs quando uma sequncia encontrada tiver uma determinada similaridade com outra durante as consultas.

  • RefernciasSeibel, Luiz Fernando; Lemos, Melissa; Lifschitz, Srgio. Bancos de dados de genoma. SBBD 2000. Acesso em: 06/04/2014. Disponvel em: http://139.82.24.35:81/seibel/hp/Tutorial%20SBBD2000%20FinalRev.pdf An European Union seventh framework program. Project description. Acesso em: 06/04/2014. Disponvel em: http://www.ki.se/chagasepinet/description.html

    Xuming Zhou et al. Baiji genomes reveal low genetic variability and new insights into secondary aquatic adaptations. Nat Commun. Oct 29, 2013; 4: 2708. Acesso em: 06/04/2014. Disponvel em: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3826649/

  • RefernciasNCBI National Center for Biotechnology Information. REDICTED: LOW QUALITY PROTEIN: polycystic kidney disease protein 1-like 2 [Lipotes vexillifer]. Acesso em: 06/04/2014. Disponvel em: http://www.ncbi.nlm.nih.gov/protein/XP_007452617.1 EMBL. Homo sapiens (human) partial MHC HLA-Cw11 chain. Acesso em: 06/04/2014. Disponvel em: http://www.ebi.ac.uk/ena/data/view/AAA00027

    Apostila laboratrio java com testes, XML e design patterns. Acesso em: 06/04/2014. Disponivel em: http://www.caelum.com.br/apostila-java-testes-xml-design-patterns/trabalhando-com-xml/#4-4-xstream

  • RefernciasAkthar Fareed, Hahne Caroline. RapidMiner 5 Operator Reference. Acesso em: 06/04/2014. Disponvel em: http://1xltkxylmzx3z8gd647akcdvov.wpengine.netdna-cdn.com/wp-content/uploads/2013/10/RapidMiner_OperatorReference_en.pdf

    Apache Jena: A free and open source Java framework for building Semantic Web and Linked Data applications. Acesso em: 06/04/2014. Disponvel em: https://jena.apache.org/

    Chapter 32. Using Neo4j embedded in Java applications. Acesso em: 06/04/2014. Disponvel em: http://docs.neo4j.org/chunked/stable/tutorials-java-embedded.html

  • Wu, lulu; Costa-filho, Roberto; Ruiz, Evandro. Estudo de similaridade semntica e visualizao de interaes gnicas. Acesso em: 06/04/2014. Disponvel em: http://www.sbis.org.br/cbis2012/arquivos/676.pdf

    The Gene Ontology Consortium. Gene ontology: tool for the unification of biology. Nat. Genet.. May 2000;25(1):25-9. Acesso em: 06/04/2014. Disponvel em: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3037419/Referncias