Introdução a bioinformática e a
biologia computacional
Itamar Leite de Oliveira
Universidade Federal de Juiz de ForaInstituto de Ciências ExatasDepartamento de Ciência da Computação
O QUE É BIOINFORMÁTICA?
Bioinformática é uma das áreas de pesquisa quemais cresce em Ciência da Computação.
Ela surgiu a partir de um boom no processo de seqüenciamento de DNA, que gerou um enormevolume de dados que agora precisam ser analisadospara gerar informações úteis.
Características principais da Bioinformática
Interdisciplinaridade - Área associada a: - Biologia - Química - Bio-física - Estatística - Matemática
- Computação
Cooperação - Open source / open code
Áreas da computação em que se pode
atuar na BIOINFORMÁTICA
- - Bancos de DadosBancos de Dados- Data Mining Data Mining - Redes Neurais Redes Neurais - Aprendizagem de MáquinaAprendizagem de Máquina- Processos Estocásticos Processos Estocásticos - - Algoritmos e CombinatóriaAlgoritmos e Combinatória- Visualização / Realidade VirtualVisualização / Realidade Virtual
Estrutura do DNA
G
C
A
T C
GT
A
|||
||| ||
||
DNA
Dógma Central da Biologia Molecular
mRNAGene (DNA) Proteína
Século 21Genoma Transcriptoma Proteoma
Estrutura 3-D do DNA
Tipos RNAs
Transcrição do DNA
• A síntese dos diferentes tipos de RNA, a partir de um molde de DNA, usando as regras da complementaridade, é um processo denominado Transcrição do DNA– A informação genética contida num segmento do DNA, é
reescrita em uma fita simples de RNA – Esta fita apresenta uma seqüência de ribonucleotídios
complementar a uma das fitas da dupla hélice de DNA (fita molde) e idêntica àidêntica à seqüência da outra fita (fita codificadora), com substituição de T por U
A Unidade de Transcrição
Diz-se que as seqüências que antecedem o ponto de início localizam-se à montante (upstream) e as que o sucedem localizam-se à jusante (downstream)A posição das bases é numerada nos dois sentidos, a partir do ponto de início, ao qual se atribui o valor +1. Os valores aumentam (valor positivo) à jusante e diminuem (valor negativo) à montante
Processamento Pós-Transcricional
Sítios de splicing
Splicing
DNA
Transcriçãodoador
mRNAintronexon
receptor
Expressão Gênica – TranscriçãoExpressão Gênica – Transcrição
T G C A G C T C C G G A C T C C A T . . . RNA Polimerase
promotor Transcrição
DNA
mRNA
A
T
Expressão Gênica – TranscriçãoExpressão Gênica – Transcrição
T G C A G C T C C G G A C T C C A T . . . RNA Polimerase
promotor Transcrição
A C G A G G C C U G A G G U A . . .
DNA
mRNA
C G U
Código Genético
• Código Genético mapeamento dos códons nos aminoácidos– 64 códons– 20 aminoácidos
– 3 códons de parada
aminoácidos mapeados por mais de um códon
Degeneração do código genético
Código Genético
T C A GT Phe
PheLeuLeu
SerSerSerSer
TyrTyr
ParadaParada
CysCys
ParadaTrp
TCAG
C LeuLeuLeuLeu
ProProProPro
HisHisGlnGln
ArgArgArgArg
TCAG
A IleIleIle
Met
ThrThrThrThr
AsnAsnLysLys
SerSerArgArg
TCAG
G ValValValVal
AlaAlaAlaAla
AspAspGluGlu
GlyGlyGlyGly
TCAG
1a b
ase
no c
ódon
2a base no códon
3a base no códon
Expressão Gênica – TraduçãoExpressão Gênica – Tradução
T G C A G C T C C G G A C T C C A T . . . RNA Polimerase
promotor Transcrição
A C G U C G A G G C C U G A G G U A . . .
DNA
mRNA
Tradução
His
RibossomoA C
Gcódon
Expressão Gênica – TraduçãoExpressão Gênica – Tradução
T G C A G C T C C G G A C T C C A T . . . RNA Polimerase
promotor Transcrição
A C G U C G A G G C C U G A G G U A . . .
DNA
mRNA
Tradução RibossomoHis
LeuGliSerSer
Cis
Tamanho de Genomas
Organismo Genoma Data Genes Est.
H.influenzae 1.8 Mb 1995 1.740
S.cerevisiae 12.1 Mb 1996 6.034
C.elegans 97 Mb 1998 19.099
A.thaliana 100 Mb 2000 25.000
D.melanogaster 180 Mb 2000 13.061
H.sapiens 3000 Mb 2003 25.000
Transcriptoma• Coleção completa de todos os possíveis
mRNAs de um organismo. • Regiões de um genoma de um organismo
que são transcritas em RNA mensageiro.
GenomaConjunto de genes de um organismo
Proteoma
• A coleção completa de proteínas que podem ser produzidas por um organismo.
• Podem ser estudadas estaticamente (soma de todas as proteínas possíveis) ou dinamicamente (todas proteínas encontradas num determinado momento)
Do DNA ao Genoma
Watson e Crick modelo do DNA
primeira sequencia de
proteína1955
1960
1965
1970
1975
1980
1985
Primeira estrutura de uma proteína
Primeiro rascunho do
genoma humano
Primeiro genoma bacterial
Hemophilus Influenzae
Genoma da levedura
1995
1990
2000
O Projeto Genoma HumanoIniciado em 1986 Terminado em 2003
Objetivos eram: • Identificar todos os genes no DNA humano, • Determinar as 3 bilhões de sequencias de pares
de bases que formam o DNA humano • Melhorar as ferramentas de análise de dados e
desenvolver novas
A eraA era “pós-genômica”“pós-genômica”
Objetivo: compreender as redes funcionais de um célula viva
Anotação GenômicaComparativa
Genômicaestrutural
Genômica funcional
Anotação
Open reading frames
Sítios Funcionais
Estrutura, funções
CCTGACAAATTCGACGTGCGGCATTGCATGCAGACGTGCATGCGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAACTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTCAGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGAAGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATG CAATAT GGA CAA TTG GTT TCT TCT CTG AAT .................... TGAAAAACGTA
CCTGACAAATTCGACGTGCGGCATTGCATGCAGACGTGCATGCGTGCAAATAATCAATGTGGACTTTTCTGCGATTATGGAAGAACTTTGTTACGCGTTTTTGTCATGGCTTTGGTCCCGCTTTGTTCAGAATGCTTTTAATAAGCGGGGTTACCGGTTTGGTTAGCGAGAAGAGCCAGTAAAAGACGCAGTGACGGAGATGTCTGATG CAATAT GGA CAA TTG GTT TCT TCT CTG AAT .................................
.............. TGAAAAACGTA
Sítio de ligação TFpromotor
Ribosome binding SiteORF=Open Reading FrameCDS=Coding Sequence
Tran
script
ion
Star
t Site
GenômicaComparativa
Comparação do genoma inteiro
Conclusões sobre as redesreguladoras
GenômicaFuncional
Perfis, considerando o todo o genoma, dos:• Níveis de mRNA• Níveis de proteínas
Co-expressão de genes e/ou proteínas
Compreensão das funções dos genes e outras partes do genoma
GenômicaFuncional
Identificação de iterações proteína-proteína
Redes de interações
Perfis, considerando o todo o genoma, de:• Níveis de mRNA• Níveis de proteínas
Co-expressão de genes e/ou proteínas
A large network of 8184 interactions among 4140 S. Cerevisiae proteins
Uma rede de iterações pode ser construídapara todas as proteínas num organismo
GenômicaEstrutural
Descobrir a estrutura de todas as proteínas codificadas num genoma
Estrutura de Proteína
Bioinformática no DCC
• Núcleo de Bioinformática (NuBio) – ICE– Helio F. Dos Santos (D. Química)– Carlos Cristiano (DCC)– Itamar L. Oliveira (DCC)– Ilaim C. Jr (DCC)– Kelle Bellozzi (DCC)– Wagner Arbex (EMPRABA GL)– Lobosco (DCC)
FIOCRUZ - BH
• Financiado pela FAPEMIG
Reações BioquímicasReações Bioquímicas
Rede metabólica
Enzimas (proteínas)
Enzimas
Lei de ação de das massas• A velocidade de uma reação química
é proporcional a probabilidade de colisões das moléculas
S1 + S2 2P
A velocidade da reação:dP/dt = v = v+ - v- = k+S1S2 – k-
P2
k+ e k-: constantes da reação (fator de proporcionalidade)
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas
Cinética de Reações Enzimáticas
Equação de Michaelis-Menten:
][3 Tmáx EkV
Cinética de Reações Enzimáticas
[E] = cte
[S] = V0 linear
[S] = V0
V0 = Vmáx
Influência do Substrato
Gráfico substrato e produto
Parâmetros Cinéticos
Parâmetros CinéticosLineweaver-Burk
Equação Michaelis-Menten
Curva: possui a mesma forma para a maioria das enzimas;
Expressa pela Equação de Michaelis e Menten;
Hipótese: limitante: quebra de ES E + P.
Inibidores Competitivos
Forma estrutural = substrato competição;
Porcentual de inibição concentrações e afinidade pela enzima.
Inibidores Competitivos
Equação de Michaelis e Menten
Lineweaver-Burk
SKIK
SVV
Im
máx
1
SVK
IK
VV máx
Im
máx
1111
Inibidores Não-Competitivos
Ocupa outro sítio ES, EI e EIS;
[S] = não leva todas as E produtiva;
Vmáx e Km normal.
Inibidores Não-Competitivos
Equação da velocidade:
Lineweaver-Burk
IIm
máx
KIS
KIK
SVV11
ImáxImáx
m
KI
VSKI
VK
V11111
Biologia Computacional
Matriz Estequiométrica
Elementos básicos:• compostos ou espécies
bioquímicas • concentrações dos compostos• reações ou processos de
transporte
Matriz Estequiométrica
Matriz estequiométrica total
0000
:kvjv
lb
ixS
kvjv
ix:N
Matriz estequiométrica dos metabólitos internos
Parte superior da glicólise da Saccharomyces cerevisiae
Glicose Glic-6-P Fruc-6-P Fruc-1,6-P2ATP
ADP
ATP ADP ATP ADPv1
v2
v3
v4 v5
ADP ATPv6
ATP ADPv7
ATP + AMP 2ADPv8
v1:Glicose + ATP -> ADP + Glic-6-Pv2:Glic-6-P + ATP -> ADPv3:Glic-6-P <-> Fruc-6-Pv4:Fruc-6-P + ATP -> Fruc-1,6-P2 + ADPv5:Fruc-1,6-P2 -> nullv6:ADP -> ATPv7:ATP -> ADPv8:ATP + AMP_i <-> 2ADP
7 metabólitos
8 reações
-1 0 0 0 0 0 0 0 -1 -1 0 -1 0 1 -1 -1 1 1 0 1 0 -1 1 2 1 -1 -1 0 0 0 0 0 0 0 1 -1 0 0 0 0 0 0 0 1 -1 0 0 0 0 0 0 0 0 0 0 -1
Simulação DinâmicaBalanço para os metabólitos
internos:
n
jjij
i vdtdx
1
Nvx
dtd
ij é o coeficiente estequiométrico do metabólito interno i na reação j
• velocidade da reação: px,fv j
Matricial
Simulação DinâmicaSimulação
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
time (min)
mM
ATPADPGluc-6-PFruc-6-PFruc-1,6-P2AMP
i
Análise de Fluxo Metabólico (AFM)
Determina os fluxos desconhecidos (internos) dados alguns fluxos conhecidos (medidos). Particionando a equação abaixo segundoesta classificação (conhecidosdesconhecidos)
0Nv
0vv
NN
c
x
c
x
obtém-se
rearranjando
ccxx vNvN
Análise de Fluxo Metabólico (AFM)
Resíduo:
determinado (solução única):
0r sobredeterminado (solução única):
ccxx vNNv #Solução:
ccxx vNvN r
mínima é r indeterminado (várias soluções):
mínima com 0 xvr
ccxx vNvN
Repetindo a eq. da AFM:
Análise de Balanço de Fluxo (ABF)
Restrições de balanço
0NvRestrições de capacidade
jjj vvv max,min,
Restrições Termodinâmicas
Reações irreversíveis:
Reações reversíveis:
0min v maxv
minv e maxv
n
jjjvZ
1
e
Rede metabólica daC. acetobutylicum
20 reações
25 metabólitos
11 internos
14 externos
v16
Glicose GlicerolGDH-3-P
NADH NAD+
ATPADP
2ATP 2ADP
(2)
PIR
Acetil-CoA
FdOx
FdRed
NAD+
NADHH2CoA
Lactato
NADHNAD+
AcAcetil-CoA
(2)
CoA2Glicose
1,75NADH
29,7ATP
ADPATP
Acetato
ADPATP
CoA
Etanol
2NAD+2NADH
Acetona
Butirato Butyril-CoA
2NADH
2NAD+
Butanol
2NAD+2NADHATP ADP
CoA
CoA
LactatoExt
AcetatoExt
ButiratoExt
v1 v2
v3
v4
v5 v6
v7
v8
v9 v10
v11
v12 v13
v14 v15
CoA
v17
v18
v19
v20
3Biomassa
Análise de Balanço de Fluxo (ABF)
Maximizar H2
maxZ H2min v2 = 0max v1 = 8.72 v2 = 0
v1 = 8.72v2 = 0v3 = 17.44v4 = 17.44v5 = 17.44v6 = 34.88v7 = 0v8 = 8.72v9 = 0v10 = 0v11 = 0v12 = 8.72v13 = 0v14 = 8.72v15 = 0v16 = 0v17 = 26.16v18 = 0v19 = 0v20 = 0
8,72 0
17,44
17,44 17,44 34,88
0
8,72
0
0
7,720
8,72 0
0
0
0
0
26,16
0
Análise de Balanço de Fluxo (ABF)
Biologia Computacional no DCC• Projetos de Pesquisa: Ferramentas Computacionais
Aplicadas a Modelos Complexos da Fisiologia de Células Cardíacas– Carlos Cristiano– Itamar L. Oliveira– Marcelo Lobosco– Rodrigo Weber– Ciro Barbosa– Ana Paula C. Silva
• Financiado pela FAPEMIG• Outros 2 submetidos ao CNpQ