2017/2018pribeiro/aulas/bioinformatica1718/bioinf1718... · nota: nesta tabela estao os˜ numeros...
TRANSCRIPT
BioinformaticaMIM
2017/2018
Pedro Ribeiro
Introducao a UC(baseado nos slides Vıtor Santos Costa (DCC/FCUP) e de Sushmita Roy/UWisconsin)
Apresentacao
Pedro Ribeiro - DCC/FCUP - Gab. 1.47 (FC6)[email protected]://www.dcc.fc.up.pt/∼pribeiro/
• Afiliacao:
? Professor Auxiliar no Dep. Ciencia de Computadores (FCUP)? Investigador no CRACS (Center for Research in Advanced Computing Systems)
• Areas de Investigacao:
? Algorimos e Estruturas de Dados, Complexidade? Analise de Redes Complexas, Graph Mining, Extracao de Dados de Redes
Redes Biologicas, Redes Sociais, Redes Desportivas? Computacao Paralela e Distribuıda? Educacao em Ciencia de Computadores, Concursos de Programacao
Funcionamento da Unidade Curricular
• Pagina: http://www.dcc.fc.up.pt/∼pribeiro/aulas/bioinformatica1718/
• Avaliacao:
? Apresentacao de Artigo (individual): 30% [ultima aula]? Projecto (maximo de 2 pessoas): 40% (opcional) [ate dia do exame]
1 de 3 alternativas∗ Artigo de revisao do estado da arte (entrega: artigo escrito)∗ Aplicacao de bioinformatica (entrega: artigo escrito)∗ Criacao de ferramenta de bioinformatica (entrega: codigo + manual)
? Exame Final: 30% a 70% [24 de Marco]
• Nota: Apresentacao×30% + Max(Exame×70%, Exame×30% + Projecto×40% )
Objectivos da unidade curricular
Pretende-se que o aluno:
• Se familiarize com os conceitos basicos de Bioinformatica, com especial enfase naBiologia Molecular Computacional
• Conheca e compreenda os tipos e fontes de dados usados
• Conheca os problemas computacionais mais importantes
• Entenda os algoritmos mais importantes e interessantes, em particular na assem-blagem, emparelhamento de sequencias, filogenia e reconhecimento de padroes (nogenoma, proteoma e redes de interacao)
• Tenha uma perspectiva das ferramentas mais populares e das questoes abertas naarea
Bibliografia
1. Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids.R. Durbin, S. Eddy, A. Krogh, and G. Mitchison. Cambridge University Press,1998. [Google Scholar]
2. Computational Genome Analysis An Introduction, Richard Deonier, S Tavare, andMichael S. Waterman, Springer Verlag, 2005.
3. Artigos cientıficos (revistas, conferencias, etc)
Cursos Relacionados
• Introduction to Bionformatics (Irene Ong, Univ. Wisconsin)
• Introduction to Computational Molecular Biology (Bonnie Berger, MIT)
• Introduction to Bioinformatics (Yael Mandel-Gutfreund, IIT, Israel)
• Biologia Computacional (Joao Meidanis, UNICAMP)
Bioinformatica
Processamento/armazenamento/apresentacao/pesquisa de dados biologicos:
1. sequencias;
2. estruturas;
3. funcoes;
4. nıveis de actividade;
5. redes de interacao;
de/entre biomoleculas.
Tambem conhecida como Biologia Computacional ou Biologia Molecular Computaci-onal
Porque usar computadores?
• Biologia e muito baseada em dados
? Riqueza de dados: muitos tipos e fontes? Complexidade: sistemas complexos e dados com “ruıdo”
• Sao necessarios computadores para guardar, gerenciar, analisar e visualizar os dados
• Queremos essencialmente passar de dados para conhecimento
• Muitas questoes biologicas traduzem-se intuitivamente para um problema compu-tacional
? Descobrir padroes, inferir relacoes, ...
Visao geral dos topicos que vamos abor-dar
• Assemblagem de genomas
• Comparacao de genomas
? Alinhamentos? Arvores filogeneticas
• Analise de Redes Biologicas
Topicos em Assemblagem de Genomas
• Sequenciacao
• Algoritmos greedy
• Teoria de Grafos e o problema da “superstring” mınima
? Caminhos de Hamilton e de Euler? Grafos ”De Bruijn”
• Alguns dos algoritmos reais mais populares
Comparacao de Genomas I
Quao similares sao duas ou mais sequencias?
Topicos em Comparacao de Sequencias
• Alinhamento de pares com programacao dinamica
• Alinhamentos locais e globais
• Modelos de avaliacao de alinhamentos
• Metodos Heurısticos
Comparacao de Genomas II
Como estao os organismos relacionados?
Topicos na Comparacao de Genomas
• Alinhamentos multiplos
? Programacao Dinamica? Alinhamento em Estrela? Alinhamento em Arvore
• Arvores filogeneticas
? Construcao de arvores? Metodos baseados em distancia e em parcimonia? Branch & Bound
Redes Biologicas
Quais sao as interaccoes entre entidades biologicas? Como caracteriza-las?
Topicos em Redes Biologicas
• Tipos de Redes
• Propriedades teoricas (scale-free, small-world, ...)
• Metricas (grau, diametro, centralidade, coeficiente de clustering, ...)
• Padroes (motifs, graphlets)
• Algoritmos para pesquisa e contagem de subgrafos
• Aplicacoes
Planificacao
• Aula #1: Introducao e conceitos fundamentais de Biologia Molecular
• Aula #2: Assemblagem de Genomas
• Aula #3: Alinhamento de Sequencias I
• Aula #4: Alinhamento de Sequencias II e Arvores Filogeneticas
• Aula #5: Redes Biologicas
• Aula #6: Apresentacoes de Artigos
Introducao a Biologia Molecular
• Organizacao da informacao biologica
• As diferentes partes da celula
• DNA, RNA, cromossoma, nucleo, ...
• Entidades bioquımicas: mRNA, proteınas, metabolitos, ...
• Genes, heredetariedade, transcricao, traducao, regulacao, expressao, splicing, ...
• Genoma e outros “omas”, redes de interacao
DNA
• Acido desoxirribonucleico
• Vista como sendo a Matriz que codifica o organismo
• Composta de pequenas moleculas chamadas nucleotidos
• Distinguidos por uma base:
? A: adenina? C: citosina? G: guanina? T: timina
• Polımero: macromolecula enorme composta por unidades estruturais similares
DNA
• Pode ser visto como uma sequencia de 4 letras:ctgcatctatacgatcg
cggggccgggggtgcggg
ctaggaccctgactgcc
cggggccgggggtgcggg
• Moleculas usualmente sao duas fitas formando a famosa helice dupla.
A Helice Dupla
• Cada fita de DNA tem uma “direccao”:
? Num lado o carbono terminal da coluna esta ligado ao carbono 5’ do acucar? No oposto, esta ligado ao carbono 3’
• Podemos portanto falar do terminal 5’ e 3’ de uma fita
• As fitas sao antiparalelas
DNA como a “planta” de um organismo
• E a “molecula da hereditariedade”
• Contem toda a informacao necessaria para “criar” um organismo
• A ligacao com pares torna possıvel a auto-replicacao:
? Uma fita contem toda a informacao necessaria
Cromossomas
• O DNA esta armazenado em cromossomas (juntamente com proteınas)
• procariontes sao organismos uni-celulares sem nucleo e tem apenas um cromos-soma circular
• eucariontes sao organismos com nucleo e tem um numero especıfico de cromosso-mas lineares.
Organizacao Fısica do DNA
DNA e muito “longo” ( 3m nos humanos, 3000 milhoes de nucleotidos)Celula e muito pequena: os cromossomas comprimem a molecula de DNACromatina = DNA+proteınas
Numero de Cromossomas
As diferentes especies possuem um numero diferente de cromossomas:
Myrmecia pilosula (formiga) 2Drosopihla melanogaster (mosca) 8Macropus (canguru) 16Phaseolus (feijao) 22Felis catus (gato) 38Homo sapiens (humano) 46Bos primigenius (vaca) 60Canis lupus familiaris (cao) 78Carpa (peixe) 104Ophioglossum reticulatum (planta) 1440
Nota: nesta tabela estao os numeros diploides (2n)
Genoma
O termo genoma refere-se ao DNA completo para uma especie
• O ser humano tem 46 cromossomas;
• Todas as celulas tem o genoma completo
? Excepcoes: celulas sexuais e celulas vermelhas maduras do sangue.
A Corrida do Genoma
Tipo Genoma One AnoProcarionte H. Influenza TIGR 1995Eucarionte S. Cerevisiae (fermento) Wisconsin 1997Animal C. Elegans (verme) Washington U./Sanger 1998Planta A. thaliana varios grupos 2000Mosca: Drosophila M. varios grupos 2000Primata: H. Sapiens colaboracao internacional/Celera 2001
Tamanhos de Alguns Genomas
Genoma #bpsHIV 9750E. coli 4.6 milhoesS. cerevisiae 12 milhoesC. elegans 97 milhoesDrosophila M. 137 milhoeshuman 3000 milhoes
Muito mais...
• > 300 outras bases de dados sobre biologia nuclear.
• GenBank (Dez 2017):
? 206,293,625 sequencias? 249,722,163,594 bases
• UniProt com SWISS-Prot (2017 12):
? 556,388 entradas com sequencias de proteınas
• Protein Data Bank (Fev 2018):
? 137,478 proteinas e estruturas relacionadas.
Mais Dados
• NCBI: National Center for Biotechnology Information
• EMBL/EBI: European Bioinformatics Institute
• 1000 genomes project
• Yeast Genome
• Drosophila
Genes
Genes sao a unidade basica de hereditariedade:
• sequencia de bases do DNA que carrega a informacao necessaria para construir umacerta proteına (ou RNA)
• diz-se que genes codificam proteınas
• estimativa: o nosso genoma tem cerca de 20 000 genes
• Um gene pode ter varias funcoes, uma funcao pode precisar de varios genes
Densidade de Genes
Nem todo o DNA no genoma codifica proteınas:
microbios 90% codificacaohumanos 2% codificacao
Proteınas
• Proteınas sao moleculas compostas de polipeptıdeos;
• Um polipeptıdeo e um polımero composto de amino-acidos
• As celulas constroem as suas proteınas a partir de ∼20 amino-acidos diferentes
• Um polipeptıdeo pode ser visto como uma sequencia composta de um alfabeto com20 caracteres.
Funcao das Proteınas
• Suporte Estrutural
• Armazenamento de Amino Acidos
• Transporte de outras substancias
• Coordenacao das actividades do organismo
• Resposta ao estımulos quımicos
• Movimento
• Proteccao contra doencas
• Aceleracao selectiva de reaccoes quımicas
Amino-Acidos
Alanina Ala A Isoleucina Ile IArginina Arg R Leucina Leu LAcido Aspartico Asp D Licina Lys KAsparagina Asn N Metionina Met MCisteına Cys C Prolina Pro PAcido Glutamico Clu E Serina Ser SFenilalanina Phe F Treonina Thr TGlutamina Gln Q Triptofan Trp WGlicina Cly G Tirosina Tyr YHistina His H Valina Val V
Hexokinase
5 10 15 20 25 301 A A S X D X S L V E V H X X V F I V P P X I L Q A V V S I A31 T T R X D D X D S A A A S I P M V P G W V L K Q V X G S Q A61 G S F L A I V M G G G D L E V I L I X L A G Y Q E S S I X A91 S R S L A A S M X T T A I P S D L W G N X A X S N A A F S S121 X E F S S X A G S V P L G F T F X E A G A K E X V I K G Q I151 T X Q A X A F S L A X L X K L I S A M X N A X F P A G D X X181 X X V A D I X D S H G I L X X V N Y T D A X I K M G I I F G211 S G V N A A Y W C D S T X I A D A A D A G X X G G A G X M X241 V C C X Q D S F R K A F P S L P Q I X Y X X T L N X X S P X271 A X K T F E K N S X A K N X G Q S L R D V L M X Y K X X G Q301 X H X X X A X D F X A A N V E N S S Y P A K I Q K L P H F D331 L R X X X D L F X G D Q G I A X K T X M K X V V R R X L F L361 I A A Y A F R L V V C X I X A I C Q K K G Y S S G H I A A X391 G S X R D Y S G F S X N S A T X N X N I Y G W P Q S A X X S421 K P I X I T P A I D G E G A A X X V I X S I A S S Q X X X A451 X X S A X X A
RNA
• RNA e como DNA excepto que:
? habitualmente tem apenas uma fita? usa uracilo (U) em vez de timina (T)
• Uma fita de RNA pode ser vista como uma sequencia formada com 4 letras:A, C, G, U.
Transcripcao
• RNA Polimerase e a enzima que constroi uma fita de RNA a partir de um gene.
• O RNA que e transcrito e chamado de RNA mensageiro: RNA-m.
• Existem mais variedades de RNA.
O Codigo Genetico e Proteınas
Traducao
• Ribossomas sao as maquinas que sintetizam proteınas a partir do mRNA;
• Um grupo de codoes e chamado de quadro de leitura (“reading frame”):Fita de DNA A C G C A G A T A T C A T G A
A C G C A G A T A T C A T G AA C G C A G A T A T C A T G AA C G C A G A T A T C A T G A
• a traducao comeca com o “start codon”
• a traducao termina com o “stop codon”
Processamento do RNA nos eucariontes
• Eucariontes sao organismos que tem nucleos fechados nas suas celulas
• Nos eucariontes, o mRNA consiste de segmentos alternados de exoes e introes:
? os exoes sao as componentes responsaveis por codificacao? os introes sao removidos antes da traducao
RNA e Genes
• Ha genes que nao codificam proteınas
• Em alguns casos o resultado e RNA:
? RNA ribossomal (rRNA), inclui componentes importantes dos ribossomas? RNA de transferencia (tRNA), que envia amino-acidos para ribossomas? micro RNAs (miRNAs) que tem um papel regulatorio importante em muitas
plantas e animais
Resumo
• Conceitos Chave
? Dogma central? DNA, RNA, proteınas? Cromossoma, Nucleo, Ribossoma
• Processos Importante
? Transcricao? Traducao? Splicing de RNA
Dinamica da Celula
• quase todas as celulas no mesmo ser tem o mesmo genoma, mas os genes sao ex-pressos de forma diferente de acordo com tipo da celula, tempo, e ambiente.
• DNA e “estatico” mas RNA nao
• Existem redes de interacao entre diferente entidades bioquımicas na celula (DNA,RNA, proteınas, moleculas) que executam processos como:
? metabolismo (conjunto de reaccoes quımicas)? regulacao (quais genes sao expressos e quando)? sinalizacao (intra e inter)
Um Detalhe: Histidine
Interacoes
• cada no representa o produto de um gene (proteına)
• linhas azuis representam interaccoes directas entre proteınas
• linhas amarelas mostram interaccoes em que uma proteına se associa a DNA e alteraa expressao de outra.
Significado da Revolucao Genomica
• Biologia baseada em dados:
? genomicas funcional? biologia de sistemas
• Medicina Molecular:
? Identificacao de componentes geneticos de varias doencas? diagnose/prognose a partir de sequencias/expressoes? terapia com genes
• Farmacogenomicas:
? Desenvolver drogas altamente especializada
• Toxicogenomicas:
? Que genes sao afectadas por que agentes quımicos.
Resumo
• Celulas tem (muitas) diferentes entidades
• Celulas funcionam atraves da interaccao (complexa) entre estas entidades
• Biologia de Sistemas procurar criar modelos compreensivos
Bioinformatica Revisitada
Representacao/Armazenamento/Recuperacao/Analise de dados biologicos sobresequencias (DNA, proteınas)
• estruturas (proteınas)
• funcoes (proteınas, sinais de sequencias)
• nıveis de actividade (mRNA, proteınas)
• redes de interaccoes (caminhos metabolicos, caminhos regulatorios, caminhos desinalizacao)
de/entre biomoleculas
Artigo recomendado
L. Hunter. Life and Its Molecules: A Brief Introduction. AI Magazine 25(1):9-22,2004.