análise de dados de expressão gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se...

39
Biologia In Silico - Centro de Informática - UFPE Ivan G. Costa Filho [email protected] Centro de Informática Universidade Federal de Pernambuco Análise de Dados de Expressão Gênica

Upload: lamnhan

Post on 24-Jan-2019

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Ivan G. Costa [email protected]

Centro de InformáticaUniversidade Federal de Pernambuco

Análise de Dados de Expressão Gênica

Page 2: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Tópicos

• O que e expressão gênica?• Como medir expressão gênica?• Aspectos básicos da analise …

– pré-processamento, expressão diferencial

– analise de agrupamento e classificação.

– desvendar mecanismos de regulação gênica

http://www.cin.ufpe.br/~igcf/aeg.html

Page 3: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Disciplina

• Aulas - Marco a Abril– introdução de conceitos básicos

• Seminários - Abril a Maio– apresentação de artigos de analise de

expressão gênica (individual)• Projeto Maio a Junho

– analise de dados reais (de artigos discutidos) em grupo

– aulas práticas

Page 4: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Avaliação

• 50% - apresentação dos seminários– avaliação pelos companheiros de

classe e presença

• 50% - projeto (nota individual)– cada grupo é responsável por

descrever a participação

Page 5: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Bibliografia

• H. Causton, J. Quackebush, A. Brazma, Microarray Gene Expression Data Analysis, Blackwell publishing, 2003.

• Ver pagina para literatura especifica de cada aula …

http://www.cin.ufpe.br/~igcf/aeg.html

Page 6: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Biologia Molecular e

Expressão Gênica

Page 7: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Entender a vida a nível celular

• Como a informação genética é herdada

• Como a informação genética influencia processos celulares

• Como genes trabalham juntos para realizar uma função celular

Page 8: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Informação Genética - DNA

• DNA (ácido desoxirribonucleico) – Cadeia de

nucleotídeos – 4 tipos: A;C;G;T– forma fita dupla a

partir da complementaridade.

• A = T e C = G

Page 9: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Dogma Central - Transcrição

• Transcrição – DNA para RNA

• RNA (acido ribonucléico)– fita simples.– 4 tipos: A;C;G;U– Moléculas instáveis– Transporte de

informação do núcleo ao citoplasma

Page 10: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Dogma Central - Transcrição

• Transcrição – copia seqüência de bases do DNA para o RNA (com U ao invéss de T).

Page 11: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Dogma Central - Tradução

• Tradução– RNA -> Proteínas– realizada pelo ribossomo– Código genético

• Proteínas– cadeia de aminoácidos– 20 tipos diferentes– adquire uma estrutura tri-

dimensional– entidades funcionais da

célula

Page 12: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Tradução - Código Genético

• Combinações de códons (3 bases) codificam um dos 20 aminoácidos.

Page 13: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Tradução

• Animação!

Page 14: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Dogma Central

• Dogma: fluxo de informação

DNA → mRNA → Proteína• Gene: segmento de DNA

codificando uma proteína.• Transcrito: segmento de

RNA transcrito de uma gene.

• Um gene corresponde a uma proteína e uma função celular.

Page 15: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Controle da Expressão Gênica

• Como se da o controle da expressão gênica?

• Certas proteínas, fatores de transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição.

Page 16: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Controle da Regulação Gênica

Page 17: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Controle da Regulação Gênica

• Animacao!

Page 18: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Expressão Gênica

Page 19: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Expressão Gênicae Organismos

Page 20: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Complexidade de Organismos

• Levedura: 6,000 genes• Drosophila: 13,500 genes• Camundongo: 22,000 genes• Chimpanzé: 20,000 genes • H. Sapiens: 20,000 genes

Page 21: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Complexidade Celular

Page 22: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Complexidade Organismos Celulas• Regulação Transcripcional :

– Controla a quantidade e quais genes são transcritos.

• Splice alternativo:– um gene codifica mais de uma proteína.

• Formação de complexos:– Proteínas de agrupam em complexos para

realizar uma tarefa celular. • Epigenética, regulação pós-

transcripcional, …

Page 23: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Biologia Molecular no tempo dos `- ômas´• Genoma: conjuntos de genes de um organismo

– seqüenciadores sanger, seqüenciadores de 2da geração

• Transcriptôma: quantidade de transcritos em uma célula– micro-arranjos, SAGE, PCR, hibridização in-situ …

• Proteôma - quantidade de proteínas em uma célula – Espectrômetro de massa

• Interactôma – conjunto de complexos de proteínas em uma célula– `Yeast two-hybrid analysis´, purificação de afinidade

• Regulômica, Epigenômica, Metabôlomica, …

Page 24: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Biologia ComputacionalDesafio

Desenvolvimento de técnicas computacionais/estatísticas para

entender sistemas vivos a partir de dados de `omicas´

Page 25: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Biologia Molecular no tempo dos `- ômas´• Genoma: conjuntos de genes de um organismo

– seqüenciadores sanger, seqüenciadores de 2da geração

• Transcriptôma: quantidade de transcritos em uma célula– micro-arranjos, SAGE, PCR, hibridização in-situ …

• Proteôma - quantidade de proteínas em uma célula – Espectrômetro de massa

• Interactôma – conjunto de complexos de proteínas em uma célula– `Yeast two-hybrid analysis´, purificação de afinidade

• Regulômica, Epigenômica, Metabôlomica, …

Page 26: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Transcriptômica

Page 27: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Medindo TranscriçãoHibridização Complementar

Page 28: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Medindo TranscriçãoMicro-arranjos

• Um experimento mede a expressão de 10.000 de genes.

• Problemas:– qualidade dos

dados

Page 29: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Analise de dados de Micro-arranjos

• Diagnostico Personalizado– Dado a expressão de diversos tipos de câncer,

qual o tipo de câncer de um paciente novo?

• Expressão diferencial– Dado a expressão de pacientes com ou sem

câncer indicar quais genes tem alta ou baixa expressão

• Detecção de Módulos Funcionais/Regulatorios– Dado a expressão de uma célula em um

determinado processo• Divisão celular, desenvolvimento, tratamentos

– Quais genes tem o mesmo padrão de expressão?

Page 30: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Diagnostico Personalizado

Page 31: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Diagnostico Personalizado• Usar metodos de aprendizagem de maquina para fazer a classificacao de pacientes

• Desafios:• Normalmente existem poucos tecidos de

cancer• Retornar um padrao de confiaca• Explicar decisoes do classificador• Descoberta de novos sub-tipos de cancer• Replicabilidade de experimentos

Page 32: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Expressão Diferencial

• Usar métodos estatísticos para listar genes ativos ou inativos em uma determinada celular• Ie. câncer X não

câncer• Desafios:

• O que fazer quando mais de uma condição existe?

• Como definir limiar da lista de genes diferencias?

• …

Page 33: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Detecção de Módulos Funcionais/RegulatoriosModulo Funcional: conjunto de genes

associados a mesma função biológica

• genes tem o mesmo padrão de transcrição

• genes tem o mesmo reguladores

Usar métodos de aprendizagem não supervisionada/clustering

Page 34: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Modulos FuncionaisEstudo do Ciclo Celular da Levedura

• Processo de divisão celular

• Medir a expressão gênica de células ao decorrer do ciclo.

Page 35: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Modulos Funcional Ciclo Celular

tempo

gen

es

metodode clustering

Gru

po 1

Gru

po 2

Gru

po 3

Gru

po 4

YIR017CYJL118WYER019WYDR113CYJR043CYPL016WYBR156CYKR010CYPR141C...

YDL093WYER016WYNL126WYKL053WYJL099WYDL198CYCR085WYBR043CYDR325W...

Gu

rpos d

e g

en

es

---

---

Page 36: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

3‘ UTRORF

Modulo RegulatoriosCiclo Celular

Gru

po 1

Gru

po 2

Gru

po 3

Gru

po 4

YIR017CYJL118WYER019WYDR113CYJR043CYPL016WYBR156CYKR010CYPR141C...

YDL093WYER016WYNL126WYKL053WYJL099WYDL198CYCR085WYBR043CYDR325W...

---

---

miR­142 

miR­26a 

miR­181a

Page 37: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Ferramentas para Analise de Expressão Gênica

Page 39: Análise de Dados de Expressão Gênica - cin.ufpe.brigcf/aeg/aula-intro.pdf · transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição. Biologia In Silico

Biologia In Silico - Centro de Informática - UFPE

Software

• Bioconductor (em R)– www.bioconductor.org– Pré-processamento, clustering, classificação

• GeneCluster– eisen.lbl.gov/EisenSoftware.html– Clustering e Red-green plots

• MiDAs/MEV – TIGR– www.tigr.org/softlab– Pre-processamento, clustering e

classificação