pré-processamento e normalização de microarraysigcf/aeg/aula-normalizacao.pdf · biologia in...

52
Biologia In Silico - Centro de Informática - UFPE Ivan G. Costa Filho [email protected] Centro de Informática Universidade Federal de Pernambuco Pré-processamento e Normalização de Microarrays

Upload: trinhkien

Post on 10-Nov-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Ivan G. Costa [email protected]

Centro de InformáticaUniversidade Federal de Pernambuco

Pré-processamento e Normalização de Microarrays

Page 2: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Tópicos

• Microarrays e Ruídos• Aquisição dos dados de microarray

– análise da imagem– medição da expressão

• Pré-processamento e normalização– normalização dos dados

• inter e intra arrays

– filtros

Page 3: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Aquisição e Processamento de Dados

• Extração dos valores de expressão– identificação do spot– calcular intensidade

do sinal– normalizar valores

entre arrays– detecção de ruídos

Cond A Cond B Cond C

Gene 1 -1,1 0,1 1,5Gene 2 3,1 3,4 2,1

Gene 3 -2,2 -1,9 -3

... ... ...

BC

BC

A

Page 4: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Fontes de Variabilidade (1)

• Sistemáticos– quantidade total de RNA– transcriptase reversa– etiquetagem (label)– processo de escaneamento da imagem

• Efeitos similares em muitos dados– Técnicas de normalização

Page 5: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Fontes de Variabilidade (2)

• Estocásticos– defeito em sondas– deficiência do processo de detecção de

spots – cross-hibridização ou hibridização não

específica

• Efeitos específico de cada sonda– requerer modelos ruído

Page 6: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Fontes de Variabilidade (3)

Page 7: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Conceitos Basicos

Víes Ausencia de Víes

Ruido P

ouco Ruido

Page 8: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Processamento de Imagem

Page 9: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Processamento de Imagem

• Arquivo GAL identifica o posicionamento das sondas– especifico da plataforma

• Processamento– Posicionamento dos grids

Page 10: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Processamento de Imagem

• Arquivo GAL identifica o posicionamento das sondas– especifico da plataforma

• Processamento– Posicionamento dos grids

Page 11: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Processamento de Imagem

• Arquivo GAL identifica o posicionamento das sondas– especifico da plataforma

• Processamento– Posicionamento dos grids– Identificação dos spots– Valor do background

Page 12: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Identificação Spots

• Identificar bordas

• Custoso, boa detecção do sinal

• Centralizar círculos

• Simples, baixa qualidade no sinal

Page 13: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Valor do Spot

Page 14: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Valor do Spot Saturação • Calibragem do scanner pode levar

muitos pixels a ter valores máximos– 16bits – 65,535

• Mediana resolve com poucos pontos saturados

• Usar NA no caso de vários valores

Page 15: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

verde (cy5)

vermelho(cy3)

cDNA Leitura - Exemplo

• Imagem é dividida em 2 canais (verde e vermelho)

• Mediana da intensidade de cada circulo

• Expressão final é dada por

– cy3mediana/cy5mediana

20050

Page 16: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Detecção de Background

• Problemas:– falha na lavagem do

array, luminosidade, hibridização não específica

• Uso de intensidade local como sinal de background

Page 17: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

verde (cy5)

vermelho(cy3)

cDNA Leitura - Exemplo

• Imagem é dividida em 2 canais (verde e vermelho)

• Inclusão de background na medida

• Expressão final é dada por– (cy3sinal-cy3background)/

(cy5sinal -cy5background)

20050

Page 18: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Leitura Affymetrix Exemplo

• Grid quadrado é usado para marcar sondas

• Expressão absoluta do gene

PMPM

MM

PMPMPM

PM1 = 300

PM1 = 0

PM2 = 2000

PM2 = 100

Page 19: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Leitura Affymetrix Exemplo

• Expressão absoluta do gene

• Formula original pode gerar valores negativos

PMPM

MM

PMPMPM

PM1 = 300

PM1 = 0

PM2 = 2000

PM2 = 100

Avg.diff=∑j∈A

w j PM j−MM j

∣A∣∑j∈A

w j

w j=1 if PM j−MM j00 if PM j−MM j0

Page 20: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Qualidade de Leitura • u

• Fontes de ruído– Defeito de fabricação, distribuição, erro no

processo de identificação do spot, bolha de ar, poeira, cabelo, buracos negros

• Qualidade do spot:– Luminosidade: razão do sinal/background – Uniformidade: variação da intensidade do

pixel– Morfologia: área, perímetro, forma circular– Tamanho do spot: numero de pixels

Page 21: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Qualidade de Leitura • u

• Ações:– Definir valores como NA (missing values)

•i.e. (cy3sinal-cy3background) < c– normalização locais para reduzir problemas

como poeira– usar indicadores de qualidade em estágios

posteriores da análise.

Page 22: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalização

Page 23: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Preliminares

Page 24: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Preliminares

Page 25: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalização

Page 26: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalização

microarrays

expre

ssão

Page 27: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalização

• Problemas– Intensidade dos canais, calibragem do

scanner, ...

• Princípios básicos– a maioria dos genes medidos mantem

mesma expressão– a quantidade total de RNA

apresentado é igual

Page 28: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalização

• Localização– Corrigir viés

espacial• Escala

– igualar variabilidade

• Os microarrays devem ter mesma escala e localização

{

Page 29: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalização Escalonamento

• Rescalonamento

Mediana é usada por ser mais robusto

• Todos arrays tem a mesma localização

enorm=enorm−medianaarray

Page 30: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalização Escalonamento (2)• Como medir o fator de escalonamento?

– todos os genes– genes house-keeping – controles spike-in

• Correção do Background– global - Usar 5% percentile– Local - ???

Page 31: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Controle de Qualidade

• Swirl data

log(red)/log(green)

Page 32: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Controle de Qualidade

Page 33: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Escalonamento Local

Aplicar escalonamento para cada sub-grid

Page 34: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Escalonamento Local

Page 35: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

EscalonamentoProblemas Scatter Plot MA Plot

Normalização global → não leva efeitos de intensidade em consideração

Page 36: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalização Loess

• Existe um viés dependente da intensidade

Viés = f(x)• emed= f(x) + ereal

• Encontra f e calcular emed-f

• Calcular f com regressão local

Page 37: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalização LoessExemplo

Page 38: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalizacao Metodo de Quantil• Todos os histogramas devem ser

identicos

Page 39: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalizacao Metodo de Quantil

Normalizacao Metodo de Quantil

Page 40: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalizacao Metodo de Quantil

Normalizacao Metodo de Quantil

Page 41: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalizacao Metodo de Quantil

Normalizacao Metodo de Quantil

Page 42: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalizacao Metodo de Quantil

Normalizacao Metodo de Quantil

Page 43: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

NormalizacaoEstabilizacao de Variancia• Usa transformacao arcsin ao invez

do log• Usa metodos de maxima

verossimilhanca para calcular valores de escalonamento e normalizacao

• Ussume um erro aditivo e multiplicativo

Page 44: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

NormalizacaoEstabilizacao de Variancia

Page 45: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

NormalizacaoEstabilizacao de Variancia

Page 46: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Normalizacoes

• A principio todas as normalizacoes retornam bom resultados– Escalonamento local– Loess– Quantil– Estabilizacao de variancia

Page 47: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Filtros

Page 48: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Filtros

• Problema no desing da sonda

Page 49: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Filtros

• Alguns genes nao hidridizam com suas sondas

• Problemas de confeccao da sonda• Solucoes

– Usar sondas multiplas– Filtrar genes com baixa expressao

• Ex. Em affymetrix genes com emed > 200

Page 50: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Conclusoes

• Pre-processamento – Obtenco dos dados– Requer varios niveis de checagem de

qualidade• Sonda, array, gene

– Exercicio importante na analise de dados!

Page 51: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Software

• Bioconductor– Implementa maioria dos metodos:

vsn, limma, affy, …

• Affymetrix, Agilent– tem software proprio implementando

metodos.

Page 52: Pré-processamento e Normalização de Microarraysigcf/aeg/aula-normalizacao.pdf · Biologia In Silico - Centro de Informática - UFPE • uQualidade de Leitura • Fontes de ruído

Biologia In Silico - Centro de Informática - UFPE

Agradecimentos

Slides foram retirados de apresentacoes de Christine Steinhof e Tim Beissbarth