as ferramentas da bioinformáticaqobweb.igc.gulbenkian.pt/courses/inspirarciencia... · ferramentas...
TRANSCRIPT
Ferramentas da Bioinformáticapara a descodificação do ADN
Daniel SobralUnidade de Bioinformática do IGC
A informação de todos os seres vivos transmite-se através do ADN
A célula é feita sobretudo de proteínas(cadeias de 20 aminoácidos)
Mas a informação está no ADN(cadeias de 4 nucleótidos)
Já nos anos 60 se descobriu um código genético (quase) universal
A célula é feita sobretudo de proteínas(cadeias de 20 aminoácidos)
Mas a informação está no ADN(cadeias de 4 nucleótidos)
© ?? Google cacheFrançois Jacob and Jacques Monod. Journal of Molecular Biology (1961)
Já nos anos 60 se descobriu um código genético (quase) universal
© candelalearning.com
A partir dos anos 70 começou-se a poder ler o ADN com eficiência
(por outro lado, as proteínas mesmo hoje não são assim tão simples de ler)
Genoma Humano: 3x109 nucleótidos
1º Genoma (1990-2000): 3x109 € em 10 anos
Hoje em dia: < 104 € em menos de 1 semana
© Nobel Media
Tornou-se então possível pensar na descodificação do “código da vida”
atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgcgattatcgatccggtacgttcggtttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggttatctcggtttcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct
Como interpretar esta sequência?
?
Mas o “código da vida” não é fácil
atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgcgattatcgatccggtacgttcggtttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggttatctcggtttcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct
atg: códão de iniciação do gene (metionina)(qual deles é o “verdadeiro” início do gene?)
?
Aos poucos foram-se descobrindo padrões
ATG
Estes padrões permitem identificar com maior probabilidade onde estão os genes
© Oxford Genetics
Mas a Natureza é complicada
Distâncias grandes e variáveis
(mais difícil encontrar padrões )
Genes repartido em partes
Entre muitas outras complicações!
Mas a Natureza é complicada
Vários padrões alternativos
Distâncias variáveis
Definir onde está um gene nem sempre é fácil
© James Kadonaga
Mas a Natureza é complicada
Padrões para definir as várias partes dos genes (exões)
© geneinfinity.org
Mas a Natureza é complicada
• Em organismos complexos, padrões que definem início dos genes não têm distâncias bem definidas e não estão sempre presentes (eg. TATA só está em 25% dos genes)
• Em muitos genes o que existe são ilhas de CpG– Mini Projeto 1
A Natureza é complicada… e fascinante
Como se gera um organismo inteiro a partir da fusão entre duas células?
© Campbell’s book
Cada tipo de célula precisa de genes (proteínas) diferentes
© Arthur’s clipart
As células têm todas a mesma origem(partilham o mesmo código genético)
Public Domain: US Gov
Alguns genes precisam de ter a sua expressão limitada/regulada
No ADN está codificado (pelo menos em parte) quando e onde os genes se ativam
Os genes para processar arabinose
em bactérias só ativam quando este
açúcar está disponível no ambiente
e glucose não está presente.
© igem.org
Parte desta regulação é feita por proteínas que se ligam ao ADN
Fatores de Transcrição
© Robert Tjian
Fatores de transcrição atuam ao reconhecerem motivos no ADN
O enigma do “DNA lixo”
• Genoma Humano: ~3x109 nucleótidos• Só 2% codifica proteínas• O que faz o resto? Alguns pensam que é “lixo”
• Neste “lixo” está código para regular genes
É importante encontrar os motivos onde se ligam fatores de transcrição
• Muitas (~90%) das mutações implicadas em doenças não afetam diretamente a proteína
• Pensa-se que em muitos casos essas mutações afetem a regulação de expressão dos genes
Mas encontrar estes sítios é como procurar uma agulha num palheiro
• Motivos são pequenos (6-30 bases)• Temos de procura-los em milhares de bases
atctggtctcgatcgatcgatccggtacgttttcatcgctccggtacgttatattcgacgatttcgacgttcgacgcgattatcgatccggtacgttcggtttcgacgtatcgacgcgatccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcggtttacacgttcggtcttctcggttctggtttctcggtttacgttcggttatctcggtttcgatccggtacgttcggtcgatccggtacgttcggtcgatccggtacgttcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcggtttctcgccggtacgttatgacgagttctcgacgttcgacgcgttatgacgagtttcccggtacgttcggttctctcggtcttcgaacgttcggtttctcggtattacgttcggtttctcggtttacgttcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcctgttcggttctctcggtcccggtacgttcggttctctcggtgttctctcggccgtcct
Felizmente há estratégias para facilitar
Felizmente há estratégias para facilitar
• Procurar apenas nos promotores de genes expressos em condições particulares
• Procurar zonas conservadas evolutivamente
• Técnicas experimentais para selecionar apenas as zonas onde o fator está ligado ao ADN
Problema de encontrar motivosEntrada: Conjunto de sequências relacionadasSaída: Motivo(s) mais enriquecidos
Caso Ideal:- Motivo perfeito, em todas as sequências
Realidade:- Motivo imperfeito, em algumas sequências
- Combinação de motivos (“gramáticas”)
Problema de encontrar motivos
No caso Ideal:• Como definir um motivo (probabilidade)?• Como descobrir o tamanho do motivo?
No caso Real:• Como contruir um motivo imperfeito?• Como integrar dependências entre posições?
Algumas abordagens• Assumir modelo nulo completamente aleatório
– Não realista, aparecem muitos falsos positivos
• Usar o genoma todo como modelo nulo– Modelo ordem 0: Humano: 41% C e G; 59% A e T
• O genoma humano tem padrões de ordem superior– Modelos de ordem superior (1..k)
• Precisam de muita informação• Fixar numa ordem pode causar outros problemas
• Usar a própria amostra para construir um modelo nulo– Pode não ter informação suficiente para gerar modelo– Podemos estar a perder informação ao usar a amostra para criar um modelo nulo
• Usar sequências “pseudo-aleatórias” que repliquem propriedades da amostra– Nem sempre fácil de gerar, podem causar mais problemas
Uma abordagem experimental
• SELEX: modelo nulo aleatório
• Problema maior: não nos dá as sequências “reais” onde o fator se liga ao ADN
Sequências aleatórias
Fator a testar
Seleção das sequências© Jussi Taipale
Abordagens para motivos imperfeitos
• Motivo deve minimizar Entropia Informativaie, deve ser o menos aleatório possível
A [ 4 19 0 0 0 0 ]C [16 0 20 0 0 0 ]G [ 0 1 0 20 0 20 ]T [ 0 0 0 0 20 0 ]
H(X) = 0.30
A [ 4 41 36 7 19 3 ] C [35 1 2 29 14 22 ] G [ 2 1 4 6 7 15 ] T [ 2 0 1 1 3 3 ]
H(X) = 2.05
Outros desafios
• Nem sempre há independência posicional
• Distâncias variáveis
GT OU CC
Problema de encontrar motivos
Mini-Projeto 2?Discutir estratégias para encontrar motivos enriquecidos em sequências de nucleótidos, em diversas condições- Começando pela situação ideal e introduzindo complexidade