laboratório de genética molecular e bioinformática laboratório de genética molecular e...

107
Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de Ribeirão Preto Universidade de São Paulo Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular Introdução à Bioinformática Daniel Guariz Pinheiro, PhD.

Upload: internet

Post on 18-Apr-2015

133 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Laboratório de Genética Molecular e Bioinformática

Departamento de GenéticaFaculdade de Medicina de Ribeirão PretoUniversidade de São Paulo

Instituto Nacional de Ciência e Tecnologia em Células-Tronco e Terapia Celular

Introdução à Bioinformática

Daniel Guariz Pinheiro, PhD.

Page 2: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Sumário• Introdução

– Revisão Histórica– Sequenciamento– Projetos– Definição de Bioinformática

• Áreas de Aplicação – Estudos “-omas”– Problemas clássicos em Bioinformática

• Desenvolvimento de Sofwares – Principais programas– Análises comuns

• Bancos de Dados Biológicos– Principais repositórios– Extração de Conhecimento de Bases de Dados

• Centros de Pesquisa– Nacionais e Internacionais / Públicos e Privados

• Formação na Área– Cursos (Graduação / Pós-Graduação)– Eventos (Congressos, Simpósios, Cursos de Verão, ...)

• Perspectivas profissionais• Referências

Page 3: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

INTRODUÇÃO

Page 4: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Revisão Histórica

The Origin of Species

Experiments in Plant Hybridization

Molecular Structure of Nucleic Acids

1859

1866

1953

1946

ENIAC,o 1° computador eletrônico

1944

Caráter Hereditário(DNA)

Oswald Avery

Leis da hereditariedade1900Gene

Page 5: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Revisão Histórica

1977

1986

Gilbert & Sanger

- Métodos para o sequenciamento de DNA

- Sequenciadorsemi-automático

Leroy Hood

1986

- Sequenciador automáticocomercial

Applied Biosystems A C G T

Page 6: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Revisão Histórica

Iniciativa pública Projeto Genoma Humano

Publicação do rascunhodo Genoma Humano

1990 2001

2000

GenomabactériaXylella fastidiosa

1997

Organization for Nucleotide Sequencing and Analysis

19991996

Cancer GenomeAnatomy Project

1988

National Center forBiotechnology Information

1995

SAGE microarray

2005, 2006, 2007

...

Next-Generation Sequencing

2003

Conclusão do Projeto Genoma Humano

2008

1000 GenomesProject

Page 7: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Projeto Genoma Humano

• The International Human Genome Sequencing Consortium • 13 anos (1990-2003)• U$3.000.000.000,00 (3 BILHÕES de DÓLARES!!!)• Avanços imediatos proporcionados

• Identificação de ~25.000 genes (~20% material genético total);• Possibilitou a descoberta de ~1.800 genes relacionados a doenças,

facilitando a identificação de outros genes;• Permitiu o desenvolvimento de mais de 1.000 testes genéticos;• Ao menos 350 produtos biotecnológicos resultantes deste

conhecimento já estão em testes clínicos;• Desenvolvimentos de ferramentas para análise genômica, inclusive

de outras espécies de interesse biomédico e econômico;• Promoveu discussões éticas, legais e implicações sociais em torno

do assunto;• Base de conhecimento;

Page 8: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

International Nucleotide Sequence Database Colaboration

200898.868.465 seqüências99.116.431.942 bases

1982606 seqüências2.427 bases

Page 9: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Nova Geração de Sequenciadores de DNA

Roche/454 FLX Illumina/Solexa GA ABI SOLiDABI 3730xl

ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD

Método Sanger Pirosequenciamento Sequenciamento por Síntese

Sequenciamento por Ligação

• Aumento na quantidade de Dados (até ~1/2 Tb por corrida);• Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x) em

questão de poucas semanas);• Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);• Redução do custo por base sequenciada;

Page 10: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Sequence Read Archive

“(…) In mid-September 2010,

the SRA contained >500 billion reads consisting of 60 trillion base pairs available for download (…) Almost 80% of the sequencing data are derived from the Illumina GA platform. The SOLiD™ and Roche/454 platforms account for 15% and 5% of submitted base pairs, respectively.(…)”

[Leinonen R et. al., 2011]

“We’re growing by about 1 Tb/month.”NCBI’s staff scientist Martin Shumway

InternationalNucleotideSequenceDatabaseCollaboration

• SRA (NCBI Sequence Read Archive): http://www.ncbi.nlm.nih.gov/sra• ENA (EBI European Nucleotide Archive): http://www.ebi.ac.uk/ena/• DRA (DDBJ Sequence Read Archive): http://trace.ddbj.nig.ac.jp/dra/index_e.shtml

Page 11: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Novas promessas

• HeliScope– Helicos BioSciences

• ION Torrent– Applied Biosystems

• PacBio RS– Pacific Biosciences

2008

2010

2010

Page 12: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

$100 genome

• Seqüenciamento genoma completo – 2010 (~U$50.000,00)– 2011 (~U$10.000,00)

• Testes genéticos (marcadores)– deCODEme (~U$2.000,00 ~50

doenças/traços)• http://www.decodeme.com/

– 23andme (~U$500,00 ~174 relatórios saúde)• http://www.23andme.com

Page 13: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

1000 Genomes

• Catálogo completo e detalhado de Variantes Genômicas Humanas

• 2.000 genomas, 4x cobertura– 1.270 genomas seqüenciados– Mais de 6 trilhões de bases

• Suporte financeiro– Wellcome Trust Sanger

Institute (Inglaterra);– Beijing Genomics Institute

(China);– National Human Genome

Research Institute (EUA);

Craig Venter

Page 14: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Início dos anos 90...Início do Projeto Genoma Humano

Page 15: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Por onde começar?

Page 16: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Bancos de Dados

Propriedades:

- Representar um aspecto do mundo real;- Conter dados coerentes e com um significado inerente;- Deve ter um propósito;

A database is a repository for a collection of computerized data files. (C.J.Date)

A database is a collection of related data. By data, we mean known facts that can be recorded and that have implicit meaning. (R. Elmasri and S. B. Navathe)

Page 17: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Abordagem utilizando Sistema de Arquivos

• Cada usuário define e implementa os arquivos necessários para uma aplicação específica.– Gera redundância na definição e no

armazenamento dos dados;– Possui estrutura específica e dependente de

determinada aplicação;– Não permite compartilhamento e acesso

concorrente;– …

Page 18: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Abordagem utilizando Sistema de Banco de Dados

• Utiliza um sistema de gerenciamento de bancos de dados para manter um único repositório de dados;– Evita redundância;– Contém em si a definição de sua estrutura (metadados);– Possui restrições implementadas que evitam inconsistências nos

dados;– Solução genérica para qualquer aplicação;– Permite o acesso concorrente de múltiplos usuários;– Permite diferentes visões dos dados;– Independência da aplicação;– Permite representar relacionamentos complexos entre os dados;– ...

Page 19: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Em que situações a abordagem com arquivos é indicada?

• O banco de dados e as aplicações são simples e bem definidas e não espera-se alterações;

• Há o requisito de tempo-real para alguns programas, não encontrado com o uso de SGBDs dada sua sobrecarga;

• Não há necessidade de múltiplos acessos.

Page 20: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Elmasri, R. A. and Navathe

Ambiente Simplificado de um Sistema de Banco de Dados

Page 21: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Banco de Dados Flat file

• Abordagem utilizando arquivos– Arquivos que contêm registros de dados que não

estão estruturalmente relacionados.• Exemplo: Banco de Dados flat file de seqüências

de nucleotídeos (nt)• Possui um padrão específico de formatação

– GenBank, Fasta, ASN.1 ...• É necessário um programa chamado de parser,

que reconhece esses formatos específicos e conseguem extrair informação de forma automática.

– Ex.: Módulos da BioPerl

Page 22: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Repositórios de Dados Biológicos

• 1965 – Atlas of Protein Sequences and Structure (Dayhoff et al.) - ~1Mb

• 1982 – GenBank – 1988 – NCBI – National Center for Biotechnology Information

• 1997 – EMBL – European Molecular Biology Laboratory

• 1986 – DDBJ – DNA Data Bank of Japan

Page 23: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

E agora ?

Page 24: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Análise dos Dados

• Necessidade de sistemas computacionais para análise dos dados e interpretação dos resultados.

• Desafios : – Armazenar e organizar– Estabelecer relações– Procurar padrões– Analisar– Filtrar– Desenvolver mecanismo de

visualização– Integrar– Etc.

Equipe Multidisciplinar

Page 25: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Bioinformática

Etimologia

Bio = “bios” (vida)

+

Informática = “informatik” (informação + automática)

Page 26: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Termo “Bioinformática”

• “Bioinformática”– Paulien Hogeweg, 1978

• Estudo de sistemas biológicos como sistemas dinâmicos (modelos matemáticos que descrevem o comportamento de um sistema)

– Origem disputada, meados 1980• Análise de seqüências biológicas

Page 27: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Bioinformática

“The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related information.”

Fredj Tekaia ( Institut Pasteur )

“Métodos matemáticos, estatísticos e computacionais para resolver problemas biológicos usando seqüências de DNA e aminoácidos e informações relacionadas”

Page 28: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Biologia Computacional

“Computational biology is not a “field”, but an “approach” involving the use of computers to study biological processes and hence it is an area as diverse as biology itself.”

Paul J Schulte ( University of Washington )

“Biologia Computacional não é um “campo”, mas uma “abordagem” envolvendo o uso de computadores para estudar processos biológicos e portanto é uma área tão diversa quanto a biologia em si.”

Page 29: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Definições atuais

• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas computacionais e abordagens para expandir a utilização de dados biológicos, médicos, comportamentais e de saúde, incluindo a aquisição, o armazenamento, a organização, o arquivamento a análise ou visualização desses dados.

• Computational Biology: O desenvolvimento e aplicação de métodos teóricos e analíticos, incluindo modelagem matemática e aplicação de técnicas de simulações computacionais para o estudo de sistemas biológicos, sociais ou comportamentais.

Biomedical Information Science and Technology Initiative Consortium (NIH)

Page 30: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

As Bases da Bioinformática

Page 31: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

ÁREAS DE APLICAÇÃO

Page 32: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Projetos “-omas”x

Pesquisa Clássica em Genética e Bioquímica

                                                  

             

Science 291:1221. 2001

Genômica

Transcritômica

Proteômica

Epigenômica

Metabolômica

Page 33: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Genômica

• Genômica Estrutural– Construção de mapas

genéticos, físicos e de transcrição de um organismo.

• Genômica Funcional– Caracterização das

propriedades funcionais do conjunto gênico e padrão de Expressão Gênica.

• Genômica Comparativa• Genômica Clínica

Page 34: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Proteômica

• Como regra geral, as proteínas são estudadas isoladamente.• A Proteômica engloba o estudo amplo de todas as propriedades

das proteínas, isoladamente e em interação com o organismo.

Page 35: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Bioinformática “Clássica”

• Organização da Informação Biológica– Definição de Bases de Dados

• Genômica Estrutural– Análise de seqüências de DNA ou

RNA• Processamento automatizado dos

Dados de Seqüências (pipelines);• Montagem de seqüências genômicas;• Predição Gênica;• Definição das estruturas gênicas;• Mapeamento genômico de estruturas

gênicas;• Identificação e de Polimorfismos de

DNA;• ...

Page 36: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Montagem do quebra-cabeças

HUMAN GENOME CONSORTIUM CELERA GENOMICS

100.000 fragmentos (1000 b) - ~ 3 a 4 milhões de bases (Genoma de uma Bactéria)

Estratégias (Pública x Privada)

Cra

ig V

ente

r

Fra

ncis

Col

lins

Page 37: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Base-Calling

• Phred : http://www.phrap.com/phred/ • Lê o arquivo do cromatograma da seqüência de DNA e

analisa os picos para descrever as bases, associando um valor de qualidade para cada base descrita.

Phred quality score Probability that the base is called wrong Accuracy of the base call10 1 in 10 90%20 1 in 100 99%30 1 in 1,000 99,90%40 1 in 10,000 99,99%50 1 in 100,000 99,999%

Page 38: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Problema clássicoComo obter as sequências de

nucleotídeos dos cromossomos a partir do sequenciamento de milhares de sequências de fragmentos de DNA?

Como montar as peças desse quebra-cabeças?

Page 39: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Problema clássico

Sejam duas seqüências de caracteres distintas:

É possível quantificar o quanto elas estão relacionadas e quais regiões são correspondentes entre si?

ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG 

GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG

Alinhamento de seqüências

ATATTAATGATTTGTAAGGTGGTGGTGGGGAACTTG  ||||||||||||||||||||||||GCTAGACGAATGATTTGTAATGTGGTGGGAAACTTG

Page 40: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Alinhamento de Sequências

Em Bioinformática, alinhamento de sequências é uma forma de dispor as sequências de DNA, RNA, ou proteínas para identificar regiões de similaridade que podem ser consequência de relacionamentos funcionais, estruturais ou relações evolutivas entre elas.

Page 41: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Significado Biológico do Alinhamento de Sequências

• Definição de 3 termos importantes:– identidade: refere-se à fração de

aminoácidos ou nucleotídeos idênticos entre pares de sequências após um alinhamento dessas sequências;

– similaridade: refere-se à fração de aminoácidos ou nucleotídeos similares (com propriedades físico-químicas semelhantes – aminoácidos conservados) entre pares de sequências após um alinhamento dessas sequências;

– homologia: representa uma relação evolutiva entre as sequências;

• Homólogos– Parálogos;– Ortólogos;

Page 42: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Há uma referência?

• Resequenciamento– Existem sequências produzidas a partir de um

genoma/transcriptoma da mesma espécie da amostra ou de uma espécie relacionada que podem ser usadas como referências. Alinhamento com a referência.

• Sequenciamento de novo– Não há sequências que podem ser usadas como

referências. Este tipo de sequenciamento exigirá uma montagem (assembly) das sequências, utilizando apenas os dados obtidos desse sequenciamento. Alinhamento entre as sequencias geradas, que permitirá a obtenção de um consenso.

Page 43: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Identificação das sequências

• Resequenciamento– Alinhamento: Conjunto de Sequências X Sequências

Referências (Ex.: Genoma)>seq1gcagtcagtcacacatgtca...>seq2cgcgcatgcGcgtactctat...>seq3tcgagcatcatcagtcgtca...>seq4tatgctttatagcgagtcat........

>chrXatcacacatgtcacatggtcagggcatcagtcagtcagtcatgcgcgcgcatgcCcgtactctatctcatgcgtcagtcatgcatgcgagcagtcatgcatgcatcgcactgcatcatacgtcatgcatgaa.....

Objetivos:- Eliminar as sequência sem hit- Eliminar as sequência com hits múltiplos (ambiguous)- Identificar as sequência com hit único (unambiguous)

Page 44: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Montagem de sequências

• Sequenciamento de novo– Alinhamentos:

• Conjunto de Sequências X Conjunto de Sequências (alinhamento pareado)• Alinhamento Múltiplo de Sequências (MSA)

ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGGACAGTACGACAGTACGAAAC GTACGACCAGTACGATACACT AACGACAGTACGAAACGGG TATAGGTACGATACGACGGAC

Consensus :Seq ASeq BSeq CSeq DSeq ESeq FSeq G

Page 45: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Abordagens para alinhar sequências

ALGORITMOS PARA ALINHAMENTO DE SEQUÊNCIAS

Page 46: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Problema básico

• Transformar uma sequência de caracteres em outra:– Operações:

• inserção• deleção• substituição

– Custo de operação:• Score de substituição• Penalidade para Gaps (inserção/deleção)

– Qual é a quantidade de operações mínima ?– Como achar a séries de operações que vai garantir que usamos a

quantidade de operações mínima ?

Exemplo: ACGT ||G-GT

Scores:Match: 2Mismatch (S): -1Gap(I): -2Gap(D): -2

Score (4-2-1): 12 matches: 41 gap: -21 mismatch: -1

Page 47: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Soluções

• Matrix de pontos (dot matrix)– Informação qualitativa;

Drosophila Dystrobrevin and Mouse ortholog

[Gol

dste

in e

Gun

awar

dena

a, 2

000]

Page 48: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Soluções

• Matrix de pontos (dot matrix)– Informação qualitativa;

• Algoritmos de Programação Dinâmica– Smith-Waterman; Needleman-Wunsch;

• SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa;

Page 49: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Alinhamentos de Sequências• Alinhamento Global (e.g. Algoritmo de Needleman-Wunsch)

• As sequências envolvidas devem ser alinhadas de um extremo ao outro. Adequado quando as sequências possuem aproximadamente o mesmo tamanho.

Seq X : C A T T A G C A G C C T | | | | | | Seq Y : - A G T A – - A G C - -

• Alinhamento Local (e.g. Algoritmo de Smith–Waterman)• Procura-se alinhar apenas as regiões mais similares, independente da

localização relativa de cada região.

Seq X [4,10]: T A G C A G C | | | | |Seq Y [3,7]: T A - - A G C

Alinhamentos (Global/Local) (DNA/Protein)• FASTA (http://fasta.bioch.virginia.edu/fasta_www2/fasta_list2.shtml)• EMBOSS Align (http://www.ebi.ac.uk/Tools/emboss/align/)

Page 50: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Matriz de Programação Dinâmica

Exemplo: ACGT ||G-GT

Scores:Match: 2Mismatch (S): -1Gap(I): -2Gap(D): -2

Score (4-2-1): 12 matches: 41 gap: -21 mismatch: -1

D(i, j) = max

D(i-1, j-1) + s(xi, yj) (diagonal -> match/mismatch)D(i -1, j) + g (acima -> gap acima)D(i, j -1) + g (esquerda -> gap esquerda)

D(i-1,j-1)

D(i-1,j)

D(i,j-1) D(i,j)

traceback

GG A

> Score (-2-1): -31 gap: -21 mismatch: -1

> Score(-1-2): -31 mismatch: -11 gap: -2

> Score(-4-2): -62 gaps: -41 gap: -2

GGA

GG A

Page 51: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Solução

• Matrix de pontos (dot matrix)– Informação qualitativa;

• Algoritmos de Programação Dinâmica– Smith-Waterman; Needleman-Wunsch;

• SW é um algoritmo para achar o alinhamento mais provável com uma estrutura certa;

• Por razões de tempo e espaço, não pode ser usado para alinhamento de sequências de larga escala;

• Utilizações de aproximações (heurísticas);• Geralmente, quanto mais rápida for a aproximação, mais

distante estará a resposta da solução “correta”;

Page 52: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Desafios

• Eficiência;– velocidade;– sensibilidade;– especificidade;

• Ambiguidade causada por sequências repetitivas;

• Erros inerentes às técnicas de sequenciamento.

Page 53: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Identificação de sequências

• Utilização de sequências referência– Ex.: Genoma

• Localização precisa– quantidade de matches suficientes– não tenha ambiguidade

• Exemplo:– Sequenciamento de transcritos humanos para

determinar expressão gênica

Page 54: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

BLAST• Basic Local Alignment Search Tool• http://blast.ncbi.nlm.nih.gov/• Heurística: dicionário de palavras

E-value (S): número de diferentes alinhamentos com scores equivalentes ou melhores que S que são esperados ocorrer ao acaso em buscas em um banco de dados aleatório, do mesmo tamanho, com a mesma composição de bases;

QUANTO MENOR... MELHOR!!!NÃO CONFUNDIR COM P-value (probabilidade)

Page 55: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

BLAT• BLAT—The BLAST-Like Alignment Tool• http://genome.ucsc.edu/• Estruturalmente diferente (BLAST)

– Além de outros pontos, o Blat constrói um índice do banco de dado de sequências (database) (k-mers) e faz as buscas na sequência a qual se deseja consultar (query);

• Blat é mais rápido, porém menos sensível;• Possui código especialmente para lidar com intros em alinhamentos RNA/DNA;• Comumente utilizado para localizar uma determinada sequência no genoma ou

determinar a estrutura de exons de um RNA;• Pode ser utilizado para alinhar sequências de Roche/454;

Page 56: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Alinhamento de sequências curtas

• BLAST/BLAT são lentos demais para alinhar milhões de sequências (Illumina: 35bp-100bp/SOLiD: )

• Novos algoritmos– Novas implementações

• BWA• Bowtie• Bfast• Mosaik• ...

Page 57: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Mascaramento de Vetores

• Mascaramento das regiões que representam, normalmente, partes dos vetores de clonagem onde as seqüências de interesse foram inseridas ou pedaços de DNA adaptadores utilizados durante o experimento.

• Cross_match (http://www.phrap.org/phredphrap/)

>CloneXTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAGACGATTCACGTGTGGGTCTATGTTCAGGTCCT

>CloneXmaskedTGAGATCACTTCCCTTGCACAGTTTGGAAGGGAGAGCACTTTATTACAGACCTTGGAAGCAAGAGGATTG CATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGC TATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTG TTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA CATTGTAAGAAGAAACCGGGGTGGGTGGTGTCTCCAGGTCAATCAACTTCTGTACTGGGCTCTGACCACAXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX

Page 58: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Mascaramento de Elementos Repetitivos

• Mascaramento das regiões que representam, normalmente elementos repetitivos do genoma (transposons, retrotransposons, ...) ou sequências de baixa complexidade;

• RepeatMasker (http://www.repeatmasker.org/ )

>CloneXTGAGTTAGTTAATTGTGCCAGCCTGGCCGATAATCACATGTGGGGCTAATTGAAAGGCGGAGGGATAAATGGGTGGTGAGCCTCGCCTTTCTAGTTCTCGGGTCTCTTGCTTTGTGATGGATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA

>CloneXmaskedNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNATTCAGCCTAGTTCCTGGTTGCTGGCCAAAGGGATCATGGACATTGAAGCATATTTTGAAAGAATTGGCTATAAGAACTCTAGGAACAAATTGGACTTGGAAACATTAACTGACATTCTTGAGCACCAGATCCGGGCTGTTCCCTTTGAGAACCTTAACATGCATTGTGGGCAAGCCATGGAGTTGGGCTTAGAGGCTATTTTTGATCA

Page 59: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Análise Filogenética

• Alinhamento Global• Inferência de Filogenias• Reconstruir o parentesco entre as espécies associando essas

informações a uma escala temporal;• PHYLIP (http://evolution.genetics.washington.edu/phylip.html)

Page 60: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Detecção de Formas Alternativas do Gene

• Encadeamento Alternativo de Exons (Alternative Splicing):• Alinhamento de sequências de transcritos em relação a um genoma

referência;

A) exon skipping (CD44)B) alternative acceptor (MDM2)C) Intron retention (WDR39)

Page 61: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Análise de SNP

• SNP - Single Nucleotide Polymorphism • polybayes (http://bioinformatics.bc.edu/marthlab/PolyBayes)

ATGGTGCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA TGACTCCTGTGGAGAAGTCTGCCGTTACTGCCATGGTGCATCTGACTCCTGAGGAGAAGTCTGATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGT GCATCTGACTCCTGAGGAGAAGTCTGCCGTTACTGCCCTGTGGGGATGGTGCATCTGACTCCTGTGGAGAAGTCTGCCGTTACTGCCCTGTGGGGCA CATCTGACTCCTGAGGAGAAGTCTGCCGTTAC

Seq 1 :Seq 2 :Seq 3 :Seq 4 :Seq 5 :Seq 6 :Seq 7 :

Anemia Falciforme- deficiência no transporte de oxigênio

Glutamato (GAG) / Valina (GTG)Gene HBB

Page 62: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Abordagem para montar sequências

• Alinhamentos para montagem de sequências;

• Algoritmos de montagem (Overlap-Layout-Consensus)– Requerem o alinhamentos pareados entre as

sequências;

Page 63: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Abordagem para montagem de seqüências• Montagem dos pequenos fragmentos seqüenciados em

seqüências maiores. Considera-se um mosaico de partes da seqüências que são agrupadas, como regiões de alta qualidade e onde a sobreposição.

• Montagem: Phrap (http://www.phrap.org/phredphrap/)

ACAGTACGACAGTACGACCAGTACGATAGCAGTACGATACGACCGA TCCAGTACGATAGCAGTACGATCAG GCACAGTACGACCAGTACGATACAGGAAC CAGGTACGATACGACGGACGGGGACAGTACGACAGTACGAAAC

Consensus :Seq ASeq BSeq CSeq D

Page 64: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Montagem• Definição

– É uma estrutura hierárquica que mapeia os dados de sequências de fragmentos para uma reconstrução aproximada do alvo (neste caso transcritos) em sua forma original;• leituras (reads) => contigs => scaffolds

– A montagem agrupa sequências em contigs e contigs em scaffolds (supercontigs);

– A montagem só é possível quando o alvo (transcriptoma) é excessivamente sequenciado;

Page 65: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Gap

Conceitos Básicos (1)• contig – alinhamento múltiplo de leituras de onde é extraída uma

sequência consenso;• unitig – contig formado pela sobreposição de sequências únicas das

leituras, ou seja, sem ambiguidades;

• scaffold – definem a ordem e orientação dos contigs além do tamanho dos gaps entre os contigs;

• singlets – leituras não agrupadas em um contig;• gap – espaço entre dois contigs, onde não se conhece a

sequência;

Page 66: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Conceitos Básicos (2)

• Cobertura (coverage)– Total de pares de bases sequenciadas [N*L] dividido pelo tamanho da

região de interesse (genoma) [G]• ((N*L)/G)

– Ex: Genoma de 1Mbp (G)» 5 milhões de reads (N) de 50bp (L)» Cobertura = (5.000.000 * 50) / 1.000.000 = 25X

– Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada;

– Profundidade (depth of coverage)• Requisitos para o sequenciamento de genomas:

– Sanger: C. Venter (3Gb ~7.5x) • [Levy et al., 2007]

– Roche 454: J. Watson (3Gb ~7.4x) • [Wheeler et al., 2008]

– Illumina (52pb): Panda (Ailuropoda melanoleura) (2.4Gb ~73x) • [Li et al., 2010]

Page 67: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Montagem “de novo”

• Reconstrução da sequência (transcrito) em sua forma original, sem a consulta de sequências previamente resolvidas de genomas, transcritos e proteínas.

• A montagem é possível quando o alvo é excessivamente amostrado com leituras “shotgun” que se sobrepõem.

• Montagem de novo de dados de Next-Generation Sequencing (NGS)– tamanho das leituras (menos informação por leitura)

• necessidade de maior cobertura – aumento da complexidade;

– grande volume de dados• necessidade de algoritmos que utilizem de forma racional e eficiente

os recursos computacionais (CPU/RAM);

Page 68: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Desafios (1)• Contaminates nas amostras (e.g. Bacteria)

• Ribosomal RNA (pequenas e grandes sub-unidades)

• Artefatos gerados na etapa de PCR (e.g. Quimeras e mutações)

• Erros de sequenciamento– e.g. Roche 454 - erros de homopolímeros (3 ou mais bases consecutivas);

• Presença de primers/adaptadores (e.g. adaptadores SMART utilizados na síntese de cDNA);

• Repetições e genomas poliplóides (sequências repetitivas no transcritoma torna a montagem mais difícil);– Necessidade de “spanners” – leituras que atravessam uma região de repetição e que

possuem suficientes regiões únicas em ambos os lados;– Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho e

orientação, estando um dos pares ancorado em uma região única;

Page 69: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Desafios (2)

• Passos extras na preparação das amostras e síntese de cDNA pode levar a um maior risco de erros na clonagem ou contaminação;

• Transcritos muito abundantes (alta cobertura), transcritos pouco abundantes (baixa cobertura);

• Processamento alternativo do RNA– e.g. Alternative splicing

• Genes parálogos

• A falta de um genoma referência torna difícil o julgamento da qualidade da montagem

Page 70: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Problemas recorrentes causados por repetições

Page 71: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Visualização

• É importante a visualização dos alinhamentos, que permite extrair conclusões ainda não consideradas.

• Visualização : Consed (http://www.phrap.org/phredphrap/)

Page 72: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Mapeamento e Apresentação dos Dados

UCSC Genome Browser ( http://genome.ucsc.edu/ )

Page 73: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Predição Estruturas Gênicas• Identificação de estruturas de genes em DNA genômico• O programa determina a estrutura gênica mais provável baseado

em um modelo probabilístico de um gene estrutural e de propriedades composicionais no DNA genômico de determinado organismo que caracterizam um gene.

• GenScan (http://genes.mit.edu/GENSCAN.html)

Page 74: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

O processo de anotaçãogênica

• Onde está localizado ?

• O quê ele faz ?

• Como ele faz ?

Page 75: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Era pós-genômica

Quais são os genes e de que forma eles podem influenciar em determinado fenótipo ?

Page 76: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Expressão Gênica Diferencial

Célula do Músculo Célula da Pele Célula neuralCélula do Músculo Célula da Pele Célula neural

Rede de Interações GênicasRegulação Gênica

Ambiente

Page 77: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Gene A

Gene B

Gene C

Células Normais Células do Tumor

oncogene

supressor tumoral

Expressão Gênica e Câncer

Célula Normal Célula Cancerosa

Cell. 2000 Jan 7;100(1):57-70

Célula Normal Célula Cancerosa

Auxílio diagnóstico eprognóstico

Perfil de expressão de70 genes

Desenvolvimento de novosfármacos e terapias individualizadaspara o tratamento do pacientecom câncer

Page 78: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Genômica Funcional: Análise de Expressão Gênica

Genômica Funcional = Métodos de obtenção de dados em larga escala

+ Métodos de Bioinformática

(Genome-wide expression “profiling”)

Revolução dos projetos “-omas”

Mayo Clin Proc. 2004 May;79(5):651-8

Page 79: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Análises de Expressão Gênica

Experimento de microarray

Nature Genetics  34, 85 - 90 (2003)

HierarchicalCluster

~100,000 – ~150,000 spots

Page 80: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Bioinformática Atual• Análise dos resultados obtidos através da

Genômica e Proteômica.• Análise dos dados obtidos através de novas

técnicas de laboratório.• Desenvolvimento de modelos de simulação de

redes de interações gênicas.• Desenvolvimento de metodologias para o

reconhecimento de padrões de expressão gênica que determinam um fenótipo.

• Análise entre os dados clínicos de pacientes e os obtidos através da pesquisa genômica e proteômica.

• Integração dessas Informações.

Page 81: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Biologia Sistêmica

• Estudo das interações entre as componentes de um sistema biológico, e como essas interações fazem emergir função e comportamento no sistema;

"Systems Biology is the science of discovering, modeling, understanding and ultimately engineering at the molecular level the dynamic relationships between the biological molecules that define living organisms “

Leroy Hood

Page 82: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Integração dos Bancos de Dados Biológicos

• Características– Grande volume de dados;

• Desenvolvimento de novos mecanismos e técnicas para o armazenamento e recuperação (e.g. Google BigTable );

– Não há padrão para os nomes dos objetos;• Ontologias (e.g. Gene Ontology) e organizações que regulam a

nomenclatura (e.g. HUGO)– Não há padrão para acesso aos dados, cuja natureza é

distribuída;• Utilização de formatação padrão para troca de informações (e.g.

GFF) e web services;– Definição variável para alguns conceitos;

• e.g. gene– Dados altamente heterogêneos mas inter-relacionados;– Informação dinâmica e em constante atualização;

Page 83: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Bancos de Dados para Extração de Conhecimento

Data warehouse

Bancos de Dados

Integração dos Dados/Consolidação dos Dados

Seleção epré-processamento

Data mining

Dados

Padrões eModelos

ConhecimentoTransformação

Interpretaçãoe Avaliação

Page 84: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

DESENVOLVIMENTO DE SOFTWARES

Page 85: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Plataforma de Desenvolvimento

• Sistemas Operacionais : Linux, UNIX, MacOS, Windows

• Linguagens de Programação : Perl (Practical Extract and Report Language), C/C++, Java, Python

• Sistemas de Gerenciamento de Bancos de Dados : MySQL, PostgreSQL

Page 86: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

• BioPerl ?

• Projeto de colaboração open-source internacional (1996- …)

• Biblioteca de módulos Perl• Soluções para a Pesquisa em Bioinformática, Genômica e

Ciências Biológicas;• Tarefas complexas e rotineiras utilizando algumas poucas

linhas de código;• Análise e anotação de seqüências e outras áreas;

• Licenciado sob a Perl Artistic License;• Open Bioinformatics Foundation (2002-...)

Open Bioinformatics Foundation

IntroduçãoBioPerl

Page 87: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

1. Conhecimentos e alguma experiência na área de Biologia Molecular, Computação e Estatística;

2. Conhecimentos e experiência em utilizar as principais ferramentas e pacotes de análises em Bioinformática;

3. Se sentir à vontade no ambiente de linha de comando;

4. Conhecimentos e experiência em linguagens de programação C/C++, Perl ou Python;

Habilidades essenciais (Bioinformática)

Page 88: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Considerações

• A Bioinformática “estima”, você é que afirma.• G.I.G.O. - “Garbage in, garbage out”; Entra lixo,

sai lixo.• Quanto mais informações corretas você puder

dar, melhor será o resultado.• Sempre há um resultado, pode ser bom ou ruim,

mas como julgar?• Não há fuga da bancada.• Se você torturar os dados o suficiente, eles irão

confessar qualquer coisa.

Page 89: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Centros de Pesquisa

Page 90: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Next Generation Sequencers

Page 91: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

No mundo...

National Center for Biotechnology Informationhttp://www.ncbi.nlm.nih.govBethesda – MD - US

European Bioinformatics Institutehttp://www.ebi.ac.uk Hinxton - UK

South African National Bioinformatics Institutehttp://www.sanbi.ac.za Tygerberg - ZA

Center for Information Biology http://www.cib.nig.ac.jp Mishima - JP

TIGR/J. Craig Venter Institutehttp://jcvi.orgSan Diego - CA - US

Wellcome trust SANGER Institutehttp://www.sanger.ac.uk/Hinxton - UK

Page 92: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Companhias de Bioinformática

http://www.bioplanet.com/bioinformatics_companies.htm

Page 93: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

e no Brasil...

Ludwig Institute for Cancer Research – São Paulo Branchhttp://www.ludwig.org.brSão Paulo - BR

Laboratório Nacional de Computação Científicahttp://www.lncc.br Petrópolis - BR

Embrapahttp://www.nbi.cnptia.embrapa.br Campinas - BR

Laboratório de Genética Molecular e Bioinformática (INCTC)http://lgmb.fmrp.usp.br/inctc/Ribeirão Preto - BR

Departamento de Bioquímica - Instituto de Química - USPhttp://verjo19.iq.usp.br/pt_index.php São Paulo - BR

Bioinformatics Laboratory - Universidade Católica de Brasília (BioFoco)http://bioinformatica.ucb.brBrasília - BR

Laboratory for Bioinformatics – UNICAMPhttp://www.lbi.dcc.unicamp.br Campinas - BR

Alellyx Applied Genomicshttp://www.alellyx.com.br Campinas - BR

Scylla Bioinformáticahttp://www.scylla.com.br Campinas - BR

Page 94: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Formação na Área

Page 95: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Graduação

• Informática Biomédica – USP• 3 principais áreas

– Bioinformática– Processamento de Imagens e

sinais– Sistemas de Informação em

Saúde

Page 96: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Pós-Graduação

• Bioinformática – Interunidades/USP– http://www.ime.usp.br/posbioinfo/

• Genética – FMRP/USP– http://rge.fmrp.usp.br/

• Bioinformática – UFMG– http://www.pgbioinfo.icb.ufmg.br/

• Genética – UFPA– http://www.lghm.ufpa.br/ppgbm/

• Bioinformática – UFPR– http://www.bioinfo.ufpr.br/

Page 97: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Curso de Inverno em Bioinformática

• Objetivo principal : curso introdutório sobre as principais técnicas utilizadas em projetos de Bioinformática, permitindo a integração entre os interssados na área.

• Público alvo : O curso é aberto a toda comunidade, direcionado principalmente aos alunos de graduação, sem restrição de área.

• http://gbi.fmrp.usp.br/cursodeinverno/

Page 98: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Curso de Verão em Bioinformática

• Objetivo principal : apresentar um cenário real de elaboração e execução de um projeto em Bioinformática.

• Público alvo : alunos de graduação, pós-graduação ou profissionais, das áreas de ciências exatas ou biológicas .

• http://lgmb.fmrp.usp.br/cvbioinfo/

Page 99: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

AB3C

• Servir a comunidade científica brasileira e internacional influenciando as políticas governamentais e científicas;

• Representar a comunidade brasileira de Bioinformática e Biologia Computacional junto aos poderes públicos, influenciando as políticas de governo em ciência e tecnologia;

• Congregar a comunidade brasileira de Bioinformática e Biologia Computacional, possibilitando um maior relacionamento social e profissional entre seus membros;

• Organizar encontros e publicações de alta qualidade na área de Bioinformática e Biologia Computacional;

• Distribuir informação sobre treinamento, educação, emprego e notícias relevantes de áreas correlatas.

http://www.ab3c.org/

Page 100: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

X-Meeting

http://www.ab3c.org/xmeeting

Page 101: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Perspectivas

http://physweb.bgu.ac.il

Page 102: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

... para a Bioinformática

• Consolidar-se definitivamente como ciência.– Disciplina obrigatória na área de Genética Molecular;– Disciplina opcional para área de Ciência da Computação;– No Brasil, novos cursos de graduação, extensão e pós-graduação.

• Em universidades públicas e privadas.• No Brasil, deve desenvolver-se também em outros estados.• Desenvolvimento da Bioinformática aplicada à Proteômica.• Desafio do futuro: integrar todo o conhecimento adquirido (Biologia

Sistêmica).• Exigir e promover ainda mais a multidisciplinaridade e a integração

entre os profissionais das diferentes áreas envolvidas.• Conquistar o mercado.

– No Brasil, a área ainda tem muito espaço pra crescer.• Mais investimentos na área.

Page 103: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

e para o bioinformata

•No Brasil–Ainda muito restrito à área acadêmica e institutos públicos de pesquisa;–Bolsas de Estudo de Instituições de fomento à Pesquisa.–Poucos cursos e treinamento para capacitação.–Excelente formação na área;•América do Norte e Europa e Ásia–Grandes centros de Bioinformática financiados por instituições

governamentais e privadas [empresas farmacêuticas];–Cursos e treinamentos especializados para a capacitação.–Carreira de Bioinformática - salário médio anual - Pesquisador:

US$77.710,00 – (~R$140.000,00)•http://www.jobs-salary.com

Page 104: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Referências

Page 105: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Referências• STRACHAN, T ; READ, A P. Genética Molecular Humana.  Artmed. 2002.• Alberts, B; Johnson, A; Lewis J; Raff, M; Roberts, K; Walter, A. Biologia Molecular da Célula. Ed.

Artmed. 2004.• Prosdocimi F et. al. Bioinformática: manual do usuário . Biotec. Ci. Des. 29: 18-31, 2002.• O DNA Vai à Escola,

http://www.odnavaiaescola.com • Wikipedia,

http://en.wikipedia.org/wiki/Main_Page • Revista ComCiência,

http://www.comciencia.br • Genome News Network,

http://www.genomenewsnetwork.org• Folha Online,

http://www1.folha.uol.com.br • Bioinformatics.Org

http://bioinformatics.org • Catálogo de Centros de Bioinformática

http://sullivan.bu.edu/~mfrith/BioinfoCenters.html• Salários

http://www.jobs-salary.com/bioinformatics-scientist-salary.htm• Genome (NHGRI)

http://www.genome.gov

Page 106: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Links Úteis e Interessantes

• Bioinformatics Organization (http://www.bioinformatics.org/)

• NCBI (http://www.ncbi.nlm.nih.gov)

• EBI (http://www.ebi.ac.uk/)

• CPAN - Comprehensive Perl Archive Network (http://www.cpan.org)

• BioPerl (http://bioperl.org)

• Os livros editados pela O’REILLY (http://www.oreilly.com)– Perl (http://oreilly.com/pub/topic/perl)– Bioinformatics (http://oreilly.com/pub/topic/bioinformatics)

• Periódicos Científicos– Bioinformatics (http://bioinformatics.oxfordjournals.org/)– BMC Bioinformatics (http://www.biomedcentral.com/bmcbioinformatics/)

Page 107: Laboratório de Genética Molecular e Bioinformática Laboratório de Genética Molecular e Bioinformática Departamento de Genética Faculdade de Medicina de

Daniel Guariz [email protected]

http://lgmb.fmrp.usp.br/~daniel/

Laboratório de Genética Molecular e Bioinformática

http://lgmb.fmrp.usp.br

OBRIGADO PELA PACIÊNCIA !!!

Perguntas...