alexandre l. martins valério a. balani. introdução a cinqüenta anos atrás, o estudo da célula...

73
Alexandre L. Martins Valério A. Balani

Upload: internet

Post on 17-Apr-2015

104 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alexandre L. MartinsValério A. Balani

Page 2: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

IntroduçãoIntrodução

A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de

suas estruturas com o uso do microscópio. Bem pouco se conhecia do complexo mecanismo que se processa em nível molecular, coordenando, por meio da

atividade enzimática, todo o vasto funcionamento íntimo da célula.

Page 3: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

IntroduçãoIntroduçãoO DNA foi, há 50 anos atrás, a última grande O DNA foi, há 50 anos atrás, a última grande

revolucionária descoberta científica da revolucionária descoberta científica da humanidade, abrindo novos caminhos para o humanidade, abrindo novos caminhos para o

desenvolvimento das ciências da vida e para o desenvolvimento das ciências da vida e para o nascimento de áreas multidisciplinares de nascimento de áreas multidisciplinares de estudo e pesquisa antes desconhecidas. estudo e pesquisa antes desconhecidas.

•Biologia Molecular

•Bioinformática

•Genômica

•Proteômica

•Engenharia Genética, ...

Page 4: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

O que é Bioinformática?O que é Bioinformática?"A bioinformática é uma nova disciplina científica com "A bioinformática é uma nova disciplina científica com

raízes nas ciências da computação, na estatística e raízes nas ciências da computação, na estatística e na biologia molecular. A bioinformática desenvolveu-na biologia molecular. A bioinformática desenvolveu-

se para enfrentar os resultados das iniciativas de se para enfrentar os resultados das iniciativas de seqüenciamento de genes, que produzem uma seqüenciamento de genes, que produzem uma

quantidade cada vez maior de dados sobre proteínas, quantidade cada vez maior de dados sobre proteínas, DNA e RNA. Desse modo, os biólogos moleculares DNA e RNA. Desse modo, os biólogos moleculares passaram a utilizar métodos estatísticos capazes de passaram a utilizar métodos estatísticos capazes de analisar grandes quantidades de dados biológicos, a analisar grandes quantidades de dados biológicos, a predizer funções dos genes e a demonstrar relações predizer funções dos genes e a demonstrar relações

entre genes e proteínas". entre genes e proteínas".

Universidade de Wageningen, HolandaUniversidade de Wageningen, Holanda http://www.bioinformatica.nlhttp://www.bioinformatica.nl

Page 5: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

O que é Bioinformática?O que é Bioinformática?

Dentre as características da Bioinformática, pode-se citar:

O recebimento das seqüências

O tratamento de seqüências e a montagem do genoma

A anotação do genoma.

Base para novas hipóteses

Page 6: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Bioinformática: Um ramo da Biologia Computacional que se vale de “informações”

para entender a Biologia. Para tanto, ela constroi ferramentas computacionais com base

em “Algoritmos” que representam o comportamento dos dados biológicos, sendo este comportamento definido pela Ciência da

Computação como “Estrutura de Dados”.

O que é Bioinformática?O que é Bioinformática?

Page 7: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

O que é Bioinformática?O que é Bioinformática?

As características funcionais da Bioinformática são:

Representação,

Armazenamento e

Distribuição de dados Biológicos.

Page 8: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

O que é Bioinformática?O que é Bioinformática?

Qual a importância da BI para os biólogos?Qual a importância da BI para os biólogos?

Melhor planejamento experimental,Melhor planejamento experimental,

Redução de custos em P&D (homem/hora),Redução de custos em P&D (homem/hora),

Melhor compartilhamento de informações eMelhor compartilhamento de informações e

Melhor Armazenamento de Informações.Melhor Armazenamento de Informações.

Page 9: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

O que é Bioinformática?O que é Bioinformática?

ImportânciaImportância

Genoma Humano: previsto para ser Genoma Humano: previsto para ser desenvolvido e concluído em 15 anos, foi desenvolvido e concluído em 15 anos, foi antecipado, em cerca de 5 anos.antecipado, em cerca de 5 anos.

Hoje, um novo gene, com 12 mil bases tem Hoje, um novo gene, com 12 mil bases tem sua seqüência decifrada em 1 minuto, há 3 sua seqüência decifrada em 1 minuto, há 3 anos atrás a mesma tarefa levaria 20 minutos.anos atrás a mesma tarefa levaria 20 minutos.

Page 10: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Breve Introdução aos Breve Introdução aos Conceitos Conceitos

Computacionais da Computacionais da BioinformáticaBioinformática

Page 11: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Dado

Menor parte da informação que não Menor parte da informação que não possui um significado em si.possui um significado em si.

Exemplo: 5 6 3 4 5 6. Exemplo: 5 6 3 4 5 6.

Page 12: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Estrutura de Dados

Comportamento dos dados e suas Comportamento dos dados e suas características cuja determinação características cuja determinação

permite definir qual o melhor tipo de permite definir qual o melhor tipo de tratamento a eles se deve aplicar tratamento a eles se deve aplicar

visando a obtenção de informação visando a obtenção de informação sobre estes.sobre estes.

Page 13: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Informação

Conjunto de dados organizado de Conjunto de dados organizado de maneira a possuirem um significado que maneira a possuirem um significado que

descreva um objeto.descreva um objeto.

Ex: 12 anos, 12 anos, 25 anos : a média Ex: 12 anos, 12 anos, 25 anos : a média dos tempos em ano é 16,3 anos.dos tempos em ano é 16,3 anos.

Page 14: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Algoritmo

Processo de cálculo em que um certo Processo de cálculo em que um certo número de regras formais resolvem de número de regras formais resolvem de

forma precisa ou aproximada, na forma precisa ou aproximada, na generalidade, sem exceções e de forma generalidade, sem exceções e de forma finita, problemas da mesma natureza.finita, problemas da mesma natureza.

Page 15: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Exemplo de Algoritmo

1. Iniciar1. Iniciar

2. Armazene X2. Armazene X

3. Armazene Y3. Armazene Y

4. Some X + Y4. Some X + Y

5. Apresente o resultado5. Apresente o resultado

6. Finalizar6. Finalizar

Page 16: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Linguagem

Conjunto de regras gramaticais que Conjunto de regras gramaticais que definem a estrutura de comunicação definem a estrutura de comunicação

entre o usuário e o Sistema entre o usuário e o Sistema Computacional.Computacional.

Page 17: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Um Vírus em C

int main()int main()

{{

int *i;int *i;

new(i);new(i);

while (i != null) new(i);while (i != null) new(i);

}}

Page 18: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Sistema Computacional

Infra-estrutura na qual são feitas as Infra-estrutura na qual são feitas as implementações dos conceitos implementações dos conceitos

computacionais, pode ser dividido em computacionais, pode ser dividido em dois conjuntos: Hardware e Software.dois conjuntos: Hardware e Software.

Page 19: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Infra-Estrutura Infra-Estrutura específica para a BIespecífica para a BI

Page 20: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Sistema Operacional(SO)

Software responsável pelo Software responsável pelo gerenciamento das atividades de um gerenciamento das atividades de um

sistema computacional. sistema computacional.

Page 21: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

UNIX e GNU/LINUXEstes dois sistemas fazem parte da família X (seu criador não foi o Prof. Estes dois sistemas fazem parte da família X (seu criador não foi o Prof. Xavier) e têm por caracterísiticas:Xavier) e têm por caracterísiticas:Confiabilidade,Confiabilidade,Multiplataforma (baixa ou alta),Multiplataforma (baixa ou alta),Multiusuário,Multiusuário,Multitarefa,Multitarefa,Enorme gama de comandos,Enorme gama de comandos,Não é um sistema amigavel para iniciantes,Não é um sistema amigavel para iniciantes,Possui um conjunto pderoso de aplicativos,Possui um conjunto pderoso de aplicativos,POSIX (Portable Operating System Interface),POSIX (Portable Operating System Interface),Comunidade de desenvolvedores, Comunidade de desenvolvedores, Escrito todo em C eEscrito todo em C eBaseado em arquivos texto (.txt)Baseado em arquivos texto (.txt)

Page 22: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Por que X?

O motivo da BI usar o Unix/Linux como SO preferêncial está no O motivo da BI usar o Unix/Linux como SO preferêncial está no fato desse SO ter sido criado para desenvovimentos de software fato desse SO ter sido criado para desenvovimentos de software de alto desempenho em situações críticas, particularmente de alto desempenho em situações críticas, particularmente aquelas nas quais estão envovidas enormes quantidades de aquelas nas quais estão envovidas enormes quantidades de dados. A possibilidade de se usar um SO de alta performance em dados. A possibilidade de se usar um SO de alta performance em baixa platamorfa (Linux e FreeBSD) ou se valer dos Clusters que baixa platamorfa (Linux e FreeBSD) ou se valer dos Clusters que são construidos com base em Linux e fazem as vezes dos são construidos com base em Linux e fazem as vezes dos Supercomputadores. O fator “preço” também é importante, é Supercomputadores. O fator “preço” também é importante, é possível usar sistemas X sem a necessidade de se pagar direitos possível usar sistemas X sem a necessidade de se pagar direitos autorais. Some a isso o perfil acadêmico destes softwares que já autorais. Some a isso o perfil acadêmico destes softwares que já são amplamente usados em outras áreas como física e são amplamente usados em outras áreas como física e matemática.matemática.

Page 23: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Linguagem de Programação Perl e BI.

A Linguagem Prática de Extração e Geração de Relatórios - The Practical A Linguagem Prática de Extração e Geração de Relatórios - The Practical Extraction and Report Language (ou Pathologically Eclectic Rubbish Lister) é Extraction and Report Language (ou Pathologically Eclectic Rubbish Lister) é uma linguagem de programação estável e multiplataforma, usada em aplicações uma linguagem de programação estável e multiplataforma, usada em aplicações de missão crítica em todos os setores, e é bastante usada para desenvolver de missão crítica em todos os setores, e é bastante usada para desenvolver aplicações web de todos os tipos, foi criada por Larry Wall em dezembro de aplicações web de todos os tipos, foi criada por Larry Wall em dezembro de 1987. A origem do Perl remonta ao shell scripting, Awk e à linguagem C, e está 1987. A origem do Perl remonta ao shell scripting, Awk e à linguagem C, e está disponível para praticamente todos os sistemas operacionais, mas é usado mais disponível para praticamente todos os sistemas operacionais, mas é usado mais comumente em sistemas Unix e compatíveis. Perl é uma das linguagens comumente em sistemas Unix e compatíveis. Perl é uma das linguagens preferidas por administradores de sistema e autores de aplicações para a web. É preferidas por administradores de sistema e autores de aplicações para a web. É especialmente versátil no processamento de cadeias (strings), manipulação de especialmente versátil no processamento de cadeias (strings), manipulação de texto e no pattern matching implementado através de expressões regulares, texto e no pattern matching implementado através de expressões regulares, além de permitir tempos de desenvolvimento curtos. A linguagem Perl já foi além de permitir tempos de desenvolvimento curtos. A linguagem Perl já foi portada para mais de 100 diferentes plataformas, e é bastante usada em portada para mais de 100 diferentes plataformas, e é bastante usada em desenvolvimento web, finanças e bioinformáticadesenvolvimento web, finanças e bioinformática

Page 24: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Características da Linguagem PerlCaracterísticas da Linguagem Perl

Perl tira as melhores características de linguagens como C, awk, sed, sh, e BASIC, entre outras.

Sua interface de integração com base de dados (DBI) suporta muitos bancos de dados, incluindo Oracle, Sybase, PostgreSQL, MySQL e outros.

Perl tem módulos para trabalhar com HTML, XML, e outras linguagens de markup. Perl suporta Unicode.Perl permite programação procedural e orientada a objetos.

Perl pode acessar bibliotecas externas em C/C++ através de XS ou SWIG.

Perl é extensível. Existem milhares de módulos disponíveis no Comprehensive Perl Archive Network (CPAN).

O interpretador Perl pode ser embutido em outros sistemas.

Page 25: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Exemplo de código em Perl

Em PerlEm Perl

printf “Oi mundo!! \n”;printf “Oi mundo!! \n”;

Em CEm C

void main()void main()

{{

printf (“Oi mundo!! \n”);printf (“Oi mundo!! \n”);

}}

Page 26: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Banco de Dados

Bancos de dados, (ou bases de dados), são conjuntos de dados com Bancos de dados, (ou bases de dados), são conjuntos de dados com uma estrutura regular que organizam informação. Um banco de dados uma estrutura regular que organizam informação. Um banco de dados normalmente agrupa informações utilizadas para um mesmo fim.normalmente agrupa informações utilizadas para um mesmo fim.

Um banco de dados é usualmente mantido e acessado por meio de um Um banco de dados é usualmente mantido e acessado por meio de um software conhecido como Sistema Gerenciador de Banco de Dados software conhecido como Sistema Gerenciador de Banco de Dados (SGBD). Normalmente um SGBD adota um modelo de dados, de forma (SGBD). Normalmente um SGBD adota um modelo de dados, de forma pura, reduzida ou extendida. Muitas vezes o termo banco de dados é pura, reduzida ou extendida. Muitas vezes o termo banco de dados é usado como sinônimo de SGDB.usado como sinônimo de SGDB.

O modelo de dados mais adotado hoje em dia ó o modelo relacional, O modelo de dados mais adotado hoje em dia ó o modelo relacional, onde as estruturas têm a forma de tabelas, compostas por linhas e onde as estruturas têm a forma de tabelas, compostas por linhas e colunas.colunas.

Page 27: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Bancos de DadosBancos de Dados

Sistema de Gerenciamento de Banco de DadosSistema de Gerenciamento de Banco de DadosConstruçãoConstrução

ManipulaçãoManipulação

AdministraçãoAdministração

MySQLMySQL

PostgreSQLPostgreSQL

OracleOracle

sqlServersqlServer

MySQL

•Gratuíto

•Código Aberto

•Acesso Veloz aos Dados

Page 28: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Bancos de DadosBancos de Dados

Page 29: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Bancos de DadosBancos de Dados

Fonte: GOLD[TM] Genomes OnLine Database

http://www.genomesonline.org/

Page 30: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Bancos de DadosBancos de Dados

Primários:Primários:GenBankGenBank

EBI-EMBL (European Bioinformatics Institut)EBI-EMBL (European Bioinformatics Institut)

DDBJ (DNA Data Bank of Japan)DDBJ (DNA Data Bank of Japan)

PDB (Protein Data Bank)PDB (Protein Data Bank)

Secundários:Secundários:PIR (Protein Information Resource)PIR (Protein Information Resource)

SWISS-PROTSWISS-PROT

INSDC – International Nucleotide Sequence Database Colaboration

Page 31: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Bancos de DadosBancos de Dados

Funcionais:Funcionais:

KEGG (Kyoto Encyclopedia of Genes and Genomes)KEGG (Kyoto Encyclopedia of Genes and Genomes)Mapas metabólicos de organismos com genoma Mapas metabólicos de organismos com genoma completamente ou parcialmente seqüenciadoscompletamente ou parcialmente seqüenciados

Estruturais:Estruturais:Mantém dados sobre estrutura de proteínasMantém dados sobre estrutura de proteínas

Nucleic Acids Researchhttp://www3.oup.co.uk/nar/database/

Page 32: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

BD de SeqüênciasBD de Seqüências Há uma quantidade gigantesca de informação sobre biomoléculas em BD Há uma quantidade gigantesca de informação sobre biomoléculas em BD públicospúblicosMais de 348 BDMais de 348 BD– BD de seqüências de nucleotídeosBD de seqüências de nucleotídeos

EMBL (http://www.ebi.ac.uk/embl)EMBL (http://www.ebi.ac.uk/embl)GenBank (http://www.ncbi.nlm.nih.gov/GenBank)GenBank (http://www.ncbi.nlm.nih.gov/GenBank)DDBJ (http://www.ddbj.nig.ac.jp)DDBJ (http://www.ddbj.nig.ac.jp)UniGene (http://www.ncbi.nlm.nih.gov/UniGene)UniGene (http://www.ncbi.nlm.nih.gov/UniGene)

– BD de seqüências de proteínasBD de seqüências de proteínas

SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot)SWISS-PROT, TrEMBL (http://www.expansy.ch/sprot)PIR (http://pir.georgetown.edu)PIR (http://pir.georgetown.edu)

– BD de motivosBD de motivos

Pfam (http://www.sanger.ac.uk/Software/Pfam)Pfam (http://www.sanger.ac.uk/Software/Pfam)PROSITE (http://www.expansy.ch/prosite)PROSITE (http://www.expansy.ch/prosite)

– BD de estruturas macromoleculares 3DBD de estruturas macromoleculares 3D

PDB (http://www.rcsb.org/pdb)PDB (http://www.rcsb.org/pdb)

Page 33: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Usos de BD de SeqüênciasUsos de BD de Seqüências

O que se pode descobrir sobre um gene por meio O que se pode descobrir sobre um gene por meio de uma busca a um BD?de uma busca a um BD?

– Informação evolutiva: genes homólogos, freqüências Informação evolutiva: genes homólogos, freqüências dos alelos, ...dos alelos, ...

– Informação genômica: localização no cromossomo, Informação genômica: localização no cromossomo, introns, ORFs, regiões reguladoras, ...introns, ORFs, regiões reguladoras, ...

– Informação estrutural: estruturas da proteína Informação estrutural: estruturas da proteína correspondente, tipos de folds, domínios estruturais, ...correspondente, tipos de folds, domínios estruturais, ...

– Informação de expressão: expressão específica a um Informação de expressão: expressão específica a um dado tecido, fenótipos, doenças, ...dado tecido, fenótipos, doenças, ...

– Informação funcional: função molecular/enzimática, Informação funcional: função molecular/enzimática, papel em diferentes rotas, papel em doenças, ...papel em diferentes rotas, papel em doenças, ...

Page 34: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Busca em BD de SeqüênciasBusca em BD de SeqüênciasO que queremos saber sobre a seqüência?O que queremos saber sobre a seqüência?

– Ela é similar ao algum gene conhecido? Quão próximo é o Ela é similar ao algum gene conhecido? Quão próximo é o melhor melhor matchmatch? Significância? ? Significância?

– O que sabemos sobre este gene?O que sabemos sobre este gene?Genômica (localização no cromossomo, regiões reguladoras, ...)Genômica (localização no cromossomo, regiões reguladoras, ...)

Estrutural (estrutura conhecida? ...)Estrutural (estrutura conhecida? ...)

Funcional (molecular, celular e doença)Funcional (molecular, celular e doença)

– Informação evolutivaInformação evolutivaEste gene é encontrado em outros organismos?Este gene é encontrado em outros organismos?

Qual é sua árvore taxonômica?Qual é sua árvore taxonômica?

Page 35: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

NCBI e EntrezNCBI e EntrezA mais usada interface para a recuperação de informação de BD A mais usada interface para a recuperação de informação de BD

biológicos é o sistema biológicos é o sistema EntrezEntrez do do NCBI NCBI ((http://www.ncbi.nlm.nih.gov/Entrezhttp://www.ncbi.nlm.nih.gov/Entrez))

– NCBI (NCBI (National Center for Biotechnology InformationNational Center for Biotechnology Information))

– O sistema Entrez tira vantagem do fato que há O sistema Entrez tira vantagem do fato que há relacionamentos lógicos relacionamentos lógicos pré-existentespré-existentes entre as entradas indíviduas encontradas entre as entradas indíviduas encontradas em diversos BD em diversos BD públicospúblicos

Por um exemplo, um artigo no Por um exemplo, um artigo no PuBMedPuBMed pode descrever o pode descrever o sequenciamento de um sequenciamento de um genegene cuja cuja seqüênciaseqüência aparece no aparece no GenBankGenBank

A seqüência de A seqüência de nucleotídeosnucleotídeos, por sua vez, pode , por sua vez, pode codificarcodificar o produto de o produto de umauma proteínaproteína cuja cuja seqüência seqüência está armazenada em um está armazenada em um BD de proteínasBD de proteínas

A A estrutura 3Destrutura 3D desta proteína pode ser desta proteína pode ser conhecidaconhecida - as coordenadas da - as coordenadas da estrutura podem aparecer em um estrutura podem aparecer em um BD de estruturasBD de estruturas

Finalmente,Finalmente, o o genegene pode ter sido pode ter sido mapeadomapeado para uma para uma região específicaregião específica do cromossomo - do cromossomo - BD de mapeamentoBD de mapeamento

– A existência dessas conexões naturais, levou ao desenvolvimento de um A existência dessas conexões naturais, levou ao desenvolvimento de um método por meio do qual toda a informação poderia ser encontrada sem método por meio do qual toda a informação poderia ser encontrada sem ter que visitar sequencialmente BD distintoster que visitar sequencialmente BD distintos

Page 36: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Mais que NCBIMais que NCBI

Links para anotações funcionais fora do NCBILinks para anotações funcionais fora do NCBI

– Gene Ontology - nomes padrões para:Gene Ontology - nomes padrões para:

Funções molecularesFunções moleculares

Localização celularLocalização celular

ProcessosProcessos

– Links para o BD KEGG (vias)Links para o BD KEGG (vias)

Page 37: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento de SeqüênciasAlinhamento de Seqüências

Possibilitar ao pesquisador Possibilitar ao pesquisador determinar determinar se duas se duas seqüênciasseqüências apresentam apresentam suficiente similaridadesuficiente similaridade tal que uma inferência sobre tal que uma inferência sobre homologiahomologia possa ser justificada possa ser justificada

– HomologiaHomologia: significa dizer que duas (ou mais) seqüências tem um : significa dizer que duas (ou mais) seqüências tem um ancestral comumancestral comum

História evolutivaHistória evolutiva

– SimilaridadeSimilaridade: é uma medida da qualidade do alinhamento entre : é uma medida da qualidade do alinhamento entre duas seqüências, baseada em algum critérioduas seqüências, baseada em algum critério

Não se refere a nenhum processo históricoNão se refere a nenhum processo histórico

Apenas uma comparação das seqüências com algum métodoApenas uma comparação das seqüências com algum método

É uma afirmação logicamente mais fracaÉ uma afirmação logicamente mais fraca

Page 38: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Relação entre SeqüênciasRelação entre Seqüências

Page 39: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento de SeqüênciasAlinhamento de Seqüências

Programas mais utilizados:Programas mais utilizados:ClustalWClustalW

MultialinMultialin

FASTAFASTA

Blast 2 sequencesBlast 2 sequences

BlastBlast

Page 40: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento de Seqüências Alinhamento de Seqüências Alinhamento Global e LocalAlinhamento Global e Local

Page 41: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento Alinhamento GGlobal e lobal e LLocalocal

GlobalGlobal– Seqüências são comparadas como um todoSeqüências são comparadas como um todo

Útil quando temos seqüências que diferem pouco entre siÚtil quando temos seqüências que diferem pouco entre si

Inclui gapsInclui gaps

LocalLocal– O alinhamento localiza fragmentos de seqüências que são mais O alinhamento localiza fragmentos de seqüências que são mais

similaressimilares

Algumas vezes não inclui gapsAlgumas vezes não inclui gaps

Muitas proteínas não apresentam um padrão global de similaridadeMuitas proteínas não apresentam um padrão global de similaridade– Mosaico de domínios modularesMosaico de domínios modulares

Alinhamento de seqüências de nucleotídeos de um mRNA Alinhamento de seqüências de nucleotídeos de um mRNA processado (spliced) com sua seqüencia genômica (Exon/Intron)processado (spliced) com sua seqüencia genômica (Exon/Intron)

Page 42: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento de Seqüências Alinhamento de Seqüências

•Unidade pareada (match): +

•Espaços (gaps): -

•Não pareadas (mismatch): -

Page 43: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento de SeqüênciasAlinhamento de Seqüências

Page 44: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento de SeqüênciasAlinhamento de Seqüências

Page 45: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento de SeqüênciasAlinhamento de Seqüências

Page 46: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento de SeqüênciasAlinhamento de Seqüências

Page 47: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento de Seqüências Alinhamento de Seqüências

Page 48: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Alinhamento de Seqüências Alinhamento de Seqüências

Blast 2 Sequences

Page 49: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Projetos GenomaProjetos Genoma

•Shotgun

•Shotgun hierárquico

Page 50: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas
Page 51: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas
Page 52: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Base CallingBase CallingDados Brutos Dados Brutos Programa dePrograma dedo Seqüênciador do Seqüênciador Base callingBase calling

Identifica e atribui valor de qualidade

para cada nucleotídeo

Page 53: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Base CallingBase Calling

PHREDPHRED

Reconhece arquivos .SCF, .ABI e .MegaBACE Reconhece arquivos .SCF, .ABI e .MegaBACE ESDESD

Reconhece os dados brutos do seqüenciadorReconhece os dados brutos do seqüenciador

Atribui valores de qualidade aos nucleotídeosAtribui valores de qualidade aos nucleotídeos

Gera arquivos de saída com informações sobre Gera arquivos de saída com informações sobre o o basecall basecall e os valores de qualidade (FASTA e e os valores de qualidade (FASTA e PHD)PHD)

Page 54: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Base CallingBase Calling

CálculoCálculo

Algorítmo – Métodos de Análise de Fourier.Algorítmo – Métodos de Análise de Fourier.

Qualiadade: probabilidade de erroQualiadade: probabilidade de erro

PHRED Quality -log (PHRED Quality -log (PePe))

Ex: Ex: Valor 20 para uma posição nucleotídica Valor 20 para uma posição nucleotídica significa uma chance em 100 de estar erradasignifica uma chance em 100 de estar errada

Valor 30 para uma posição nucleotídica Valor 30 para uma posição nucleotídica significa uma chance em 1000 de estar erradasignifica uma chance em 1000 de estar errada

Page 55: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Phred – qualidade dos Phred – qualidade dos readsreads

Alta qualidade

Média qualidade

Baixa qualidade

Page 56: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Mascaramento de VetoresMascaramento de VetoresRetirada de seqüências contaminantes:Retirada de seqüências contaminantes:

Partes de vetores de clonagensPartes de vetores de clonagens

DNA adaptoresDNA adaptores

Programa mais utilizado é o Cross_matchPrograma mais utilizado é o Cross_match

Page 57: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Mascaramento de Vetores Mascaramento de Vetores

Page 58: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Agrupamento de SeqüênciasAgrupamento de Seqüências

Software de montagem (Assembler)Software de montagem (Assembler)PHRAPPHRAPCAP3CAP3TIGR AssemblerTIGR Assembler

•Leitura do base call

•Montagem dos contigs

Page 59: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Agrupamento de SeqüênciasAgrupamento de Seqüências

Pontos ChavesPontos Chaves

Uso de seqüências com alta qualidadeUso de seqüências com alta qualidade

Uso de informações de qualidade computadas Uso de informações de qualidade computadas internamente e fornecidas pelo usuáriointernamente e fornecidas pelo usuário

Informações sobre as montagens realizadasInformações sobre as montagens realizadas

Projetos Genoma = contíguo genômico

Projetos Transcriptoma = seqüências dos genes expressos

Page 60: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

O PhrapO Phrap

Assembler (monta as sequencias Assembler (monta as sequencias contíguas usando as reads).contíguas usando as reads).Contig 1

Contig 2

reads

Região desobreposição

Page 61: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Visualização e MontagemVisualização e MontagemProgamas Phrapview ou ConsedProgamas Phrapview ou Consed

Page 62: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Standen PackageStanden Package

Page 63: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Standen PackageStanden Package

Page 64: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Standen PackageStanden Package

Page 65: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Standen PackageStanden Package

Page 66: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Standen PackageStanden Package

Page 67: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Fluxo de dadosFluxo de dados

Sequenciador Phred

PhrapConsed

IndiretoPhd2fasta

Cross_match

Page 68: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Análise de GenomasAnálise de Genomas

Então, o que fazer com um genoma completo? Então, o que fazer com um genoma completo?

Afinal, um genoma seqüenciado consiste apenas Afinal, um genoma seqüenciado consiste apenas de um infinidade de bases em uma ordem definidade um infinidade de bases em uma ordem definida

Análise é obviamente necessária a fim de se obter Análise é obviamente necessária a fim de se obter informações biologicamente interessantes. A informações biologicamente interessantes. A análise de um genoma cobre muitos aspectos análise de um genoma cobre muitos aspectos diferentesdiferentes

Page 69: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Anotação GênicaAnotação Gênica

•RepeatMasker•Genscan•tRNAscan-SE•BLAST•InterproGeneOntology•GenomeScan

Page 70: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Definição da localização dos genes (regiões Definição da localização dos genes (regiões codificadoras, regiões reguladoras)codificadoras, regiões reguladoras)

Predição de genes Predição de genes ab initio ab initio usando software usando software baseado em regras e padrões. baseado em regras e padrões.

Identificação de genes por meio de alinhamento Identificação de genes por meio de alinhamento com proteínas conhecidas e seqüências ESTcom proteínas conhecidas e seqüências EST

Predição de genes por meio de similaridade com Predição de genes por meio de similaridade com proteínas e seqüências EST em outros proteínas e seqüências EST em outros organismosorganismos

Predição de genes por meio de comparação com Predição de genes por meio de comparação com outros genomasoutros genomas

Regiões conservadas são provavelmente regiões Regiões conservadas são provavelmente regiões codificadoras ou reguladorascodificadoras ou reguladoras

Page 71: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas
Page 72: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

Anotação GênicaAnotação Gênica

Algorítimo gene-finder chamado BGF (BGI GeneFinder) baseado no GenScan e FgeneSH

Teste com Drosophila Predição: 13.366 genes

Oficial: 13.379 genes

Page 73: Alexandre L. Martins Valério A. Balani. Introdução A cinqüenta anos atrás, o estudo da célula se baseava fundamentalmente na observação de suas estruturas

E a Bioinformática não pára por ai...