introduÇÃo À calibraÇÃo multivariada · • na análise química e de processos, as matrizes...

41
INTRODUÇÃO À CALIBRAÇÃO INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA MULTIVARIADA APLICAÇÃO NO CONTROLE DE QUALIDADE APLICAÇÃO NO CONTROLE DE QUALIDADE DE FÁRMACOS DE FÁRMACOS Prof. Dr. Marcelo Martins de Sena MÓDULO 03 1 Unidade Universitária de Ciências Exatas e Tecnológicas UnUCET – Anápolis

Upload: others

Post on 28-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

INTRODUÇÃO À CALIBRAÇÃO INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADAMULTIVARIADA

APLICAÇÃO NO CONTROLE DE QUALIDADE APLICAÇÃO NO CONTROLE DE QUALIDADE DE FÁRMACOSDE FÁRMACOS

Prof. Dr. Marcelo Martins de Sena

MÓDULO 03

1Unidade Universitária de Ciências Exatas e Tecnológicas

UnUCET – Anápolis

Page 2: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

2 MÓDULO 03

Análise de Análise de Componentes Componentes

Principais (PCA)Principais (PCA)• do inglês Principal Component(s) Analysis

Page 3: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

3 Correlação• É comum a presença de correlação em

qualquer tipo de dados!

18 20 22 24 26 28 3075

76

77

78

79

80

81

82

83

84

Idade (meses)

Altu

ra (

cm)

• Exemplo: altura média vs. idade de um grupo de crianças pequenas

• Observa-se uma forte relação linear entre altura e idade.

• Para crianças pequenas, altura e idade estão correlacionadas. Moore, D.S. and McCabe G.P., Introduction to the Practice of Statistics (1989).

Page 4: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

4 Correlação em espectroscopiaCorrelação em espectroscopia

200 210 220 230 240 250 260 270 280 290 3000

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Comprimento de onda (nm)

Abs

orbâ

ncia

λ230• Exemplo: um composto puro émedido em dois comprimentos de onda para várias concentrações

λ265

0,332

0,498

0,664

0,831

0,166

Intensidade a 230nm

0,181

0,270

0,362

0,453

0,090

Intensidade a 265nm

15

20

25

Conc. (MMol)

5

10

Page 5: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

5 Correlação em espectroscopiaCorrelação em espectroscopia

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

Absorbância a 230nm (unidades)A

bsor

bânc

ia a

265

nm (

unid

ades

)

• As intensidades a λ230 e a λ265 são altamente correlacionadas.

Aumento da concentração

• Os dados não têm duas dimensões, mas apenas uma.

• Existe apenas um fatorgerando os dados: concentraconcentraççãoão.

Page 6: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

6 A matriz de dadosA matriz de dados

variáveis

• Dados podem ser representados na forma de uma matriz:

65,078,022,015,0

33,085,024,013,081,093,034,014,029,065,045,012,0

L

MOMMM

K

K

K

objetos

• Por exemplo,– Espectroscopia: amostra × comprimento de onda

– Processo contínuo: tempo × T, P, taxa de fluxo etc.– Análises ambientais:

amostras (em função do espaço ou do tempo) × variáveis

Page 7: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

7 Matriz de DadosMatriz de Dados• Dados químicos multivariados (espectros)

podem ser arranjados na forma de uma tabela de dados.

Variáveis

Am

ostr

as Matriz de Dados X

Page 8: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

8 Grandes quantidades de dadosGrandes quantidades de dados• Na análise química e de processos, as matrizes

de dados obtidas podem ser muito grandes.

– Um espectro de infravermelho medido para 50 amostras produz uma matriz de dados de dimensões 50 × 800 = 40.000 números!

– 100 variáveis de processo medidas a cada minuto durante um dia produzem uma matriz de dimensões 1440 × 100 = 144.000 números!!

• É necessária uma maneira de extrair a informação importante de matrizes de dados tão grandes.

Page 9: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

9 Principal Component Analysis• Redução dos dados

– A PCA transforma grandes matrizes de dados em matrizes menores, as quais podem ser mais facilmente examinadas, plotadas e interpretadas.

• Exploração dos dados – A PCA extrai os fatores mais importantes (componentes principais

- CPs) dos dados, preservando a maior parte da variância. Esses fatores descrevem as interações multivariadas entre as variáveis medidas e revelam tendências subjacentes aos dados.

• Interpretação dos dados– As CPs podem ser usadas para classificar amostras, identificar

compostos através da obtenção de seus espectros puros, determinar quais as variáveis fundamentais para um processo, etc.

Page 10: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

10 Diferentes visões da PCADiferentes visões da PCA• Estatisticamente, a PCA é uma técnica de análise

multivariada relacionada com– Análise de autovetores/autovalores– Decomposição em valores singulares (SVD)

• Em termos matriciais, a PCA é um método para decompor X em duas matrizes menores (T e P) mais uma matriz de resíduos (E):X = TPT + E

• Geometricamente, a PCA é uma técnica de projeção, na qual, a matriz X é projetada num sub-espaço de dimensões reduzidas.

Page 11: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

11 PCA: matemáticaPCA: matemática• A equação básica para a PCA é escrita como

ondeX (I × J) é uma matriz de dados,T (I × R) são os escores,P (J × R) são os pesos (“loadings”) e

E (I × J) são os resíduos.

R é o número de CPs usados para descrever X.

ETPEptptptX

+=

+++=T

TT22

T11 ... RR

Page 12: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

12 Componentes Principais (Componentes Principais (CPsCPs))• Uma CP é definida por um par de vetores pesos e

vetores escores: rr ,pt

• As CPs descrevem o máximo de variância (= informação) e são calculadas em ordem decrescente de importância

18,1 87,63

1,3 88,94

23,9 69,52

45,6 45,61

% de X explicada

% total de X explicada

CP.

e assim por diante... até 100%

Page 13: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

13 PCA: matrizesPCA: matrizes

pesos

= +X ... +escores

componente principal

=

T

PT+ E

Page 14: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

14 Escores & pesosEscores & pesos• Escores

– relações entre objetos– ortogonais, TTT = matriz diagonal

• Pesos– relações entre variáveis– ortonormais, PTP = matriz identidade, I

• Similaridades e diferenças entre objetos (ou variáveis) podem ser vistas através de gráficos em que os escores (ou pesos) são plotados uns contra os outros.

Page 15: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

15 PCA: projeção simplesPCA: projeção simples• Caso mais simples : duas variáveis correlacionadas

18 20 22 24 26 28 3075

76

77

78

79

80

81

82

83

84

Idade (meses)

Altu

ra (

cm)

-8 -6 -4 -2 0 2 4 6 8-8

-6

-4

-2

0

2

4

6

8

Escores CP 1 (99,77%)

Esc

ores

CP

2 (

0,23

%)

gráfico de escores

PCA

CP1

CP2

• A CP1 descreve 99,77% da variação total em X.

• A CP2 descreve a variação residual (0,23%).

Page 16: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

16 PCA: projeçõesPCA: projeções

• A PCA é uma técnica de projeção.• Cada linha de cada matriz de dados X (I × J) pode

ser considerada como um ponto no espaço J-dimensional. Esses dados são projetados ortogonalmente em um sub-espaço de menor dimensionalidade.

– No exemplo anterior, dados de duas dimensões foram projetados em um espaço de uma dimensão, ou seja, em uma linha.

– Agora, nós iremos projetar dados de J dimensões em um espaço de duas dimensões, ou seja, um plano.

Page 17: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

17

= +•••••••••••••••

EPTX T +=

•••••••••••••••• •

••

• •••••••••••••••••••••••••••••••

Page 18: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

18

B

x1

x2CP1

23

4

56

t1

t2

A

x1

x2

θ2

θ1

p1=cosθ1p2=cosθ2

+∞

-∞

CP: reta na direção de maior variação das amostras

(A) “pesos” são os ângulos do vetor direção(B) “escores” são as projeções nas amostras na direção de CP

Page 19: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

19 Exemplo:Exemplo: Dados ProteínasDados Proteínas

• Foi estudado o consumo de proteínas na Europa.• 9 variáveis descrevem diferentes fontes de proteína.• Os 25 objetos são os diferentes países.• A matriz de dados tem as dimensões 25 × 9.

• Quais países são semelhantes?

• Quais alimentos estão correlacionados com o consumo de carne vermelha?

Weber, A., Agrarpolitik im Spannungsfeld der internationalenErnaehrungspolitik, Institut fuer Agrarpolitik und marktlehre, Kiel (1973) .

Page 20: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

20

Page 21: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

21 PCA nos dados de proteínasPCA nos dados de proteínas

• Os dados são centrados na média e cada variável é autoescalada para variância um. A PCA é então aplicada.

Variância Percentual Capturada pelo Modelo PCA

Número de Autovalor % Variância % VariânciaComponentes de Capturada CapturadaPrincipais Cov(X) por este CP Total--------- ---------- ---------- ----------

1 4,01e+000 44,52 44,522 1,63e+000 18,17 62,683 1,13e+000 12,53 75,224 9,55e-001 10,61 85,825 4,64e-001 5,15 90,986 3,25e-001 3,61 94,597 2,72e-001 3,02 97,618 1,16e-001 1,29 98,909 9,91e-002 1,10 100,00

Quantos componentes principais você quer escolher?4

1 2 3 4 5 6 7 8 90

0.5

1

1.5

2

2.5

3

3.5

4

4.5Autovalores vs. Número de CPs

Número de CPs

Aut

oval

ores

Page 22: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

22

Escores: CP1 Escores: CP1 vsvs CP2CP2

-3 -2 -1 0 1 2 3 4-5

-4

-3

-2

-1

0

1

2

Escores CP 1 (44,52%)

Esc

ores

CP

2 (

18,1

7%)

Albania

Austria

Belgium

Bulgaria

Czechoslovakia

Denmark East Germany

Finland

France Greece

Hungary Ireland

Italy

Netherlands

Norway

Poland

Portugal

Romania

Spain

Sweden

Switzerland

UK USSR West Germany

Yugoslavia

PC 2

Page 23: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

23

PesosPesos

White meat Eggs Milk Fish Cereals Starch Beans/nuts/oil Fruit & veg-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6P

esos

CP

CP1CP2

Red meat

Page 24: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

24

GráficosGráficos BivariadosBivariados ((BiplotsBiplots))

PERMITEM VISUALIZAR OS

ESCORES E OS PESOS

SIMULTANEAMENTE

Page 25: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

25

BiplotBiplot: CP1 : CP1 vsvs CP2CP2

-5 -4 -3 -2 -1 0 1 2 3 4 5-5

-4

-3

-2

-1

0

1

2

CP 1

CP

2Albania

Austria

Belgium

Bulgaria

Czechoslovakia

Denmark East Germany

Finland

France Greece

Hungary Ireland

Italy

Netherlands

Norway

Poland

Portugal

Romania

Spain

Sweden

Switzerland

UK USSR West Germany

Yugoslavia

Red meat

White meat

Eggs

Milk

Fish

Cereals

Starch

Beans/nuts/oil

Fruit & veg

CP2 indica que os espanhóis e os portugueses gostam especialmente de frutas, vegetais e peixes.

Europeus do SE comem muito cereais

Page 26: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

26

BiplotBiplot: CP1 : CP1 vsvs CP3CP3

-5 -4 -3 -2 -1 0 1 2 3 4 5-3

-2

-1

0

1

2

3

4

CP 1

CP

3

Albania

Austria

Belgium Bulgaria

Czechoslovakia

Denmark

East Germany

Finland

France

Greece

Hungary

Ireland Italy

Netherlands

Norway

Poland

Portugal Romania

Spain

Sweden

Switzerland

UK

USSR

West Germany

Yugoslavia

Red meat

White meat

Eggs

Milk

Fish

Cereals

Starch

Beans/nuts/oil

Fruit & veg

Escandinavos comem muito peixe!

Carne vermelha e leite estão correlacionados

Os holandeses gostam de batata…

...com maionese!?

Page 27: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

27 ResíduosResíduos• Também é importante examinar os resíduos do

modelo, E.

1 2 3 4 5 6 7 8 9-1

-0.5

0

0.5

1

1.5

Número da variável

Var

iaçã

o R

esid

ual

• Idealmente, os resíduos não deverão conter nenhuma estrutura - apenas variação aleatória (ruído).

Page 28: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

28 ResíduosResíduos• Os resíduos (quadrados) do modelo podem ser

somados ao longo da direção dos objetos ou das variáveis:

0 5 10 15 20 250

0.5

1

1.5

2

2.5

3

3.5

Número do objeto

Q (

som

a do

s re

sídu

os q

uadr

ados

)

∑=

=J

jiji eQ

1

2

País 23 (URSS) se ajusta ao modelo de

maneira pior

Page 29: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

29 PréPré--processamento dos dadosprocessamento dos dados• Na maioria das vezes, nós estamos interessados nas

diferenças entre os objetos, não nos seus valores absolutos.– Dados de proteínas : diferenças entre países– Dados ambientais : diferenças entre amostras de diferentes

locais ou em função do tempo

• Se diferentes variáveis são medidas em diferentes unidades, algum tipo de escalamento (normalização) é necessário para dar a cada variável a mesma chance de contribuir para o modelo.– Dados ambientais: pH e [Mg] possuem escalas muito diferentes

Page 30: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

30 Centrando os dados na médiaCentrando os dados na média

• Subtrair a média de cada coluna de X:

⎥⎥⎥⎥

⎢⎢⎢⎢

107111,387,6105482,363,6118575,355,6102452,376,6

⎦⎣⎥⎥⎥⎥⎤

⎢⎢⎢⎢⎡

−−−−

−−−

3.129,350,1175,03,292550,0225,0

1016250,1025,02,595450,0075,0

Centrar

na média

=x6,525 1084036,75

=x0,0 0,00,0

Page 31: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

31 AutoescalandoAutoescalando os dadosos dados

• Dividir cada coluna de X por seu desvio padrão:

=σ0,171 704,81,139

⎥⎥⎥⎥

⎢⎢⎢⎢

−−−−

−−−

3,129350,1175,03,292550.0,225,0

1016250,1025,02,595450,0075,0

Escalamento

⎥⎥⎥⎥

⎢⎢⎢⎢

−−−−

−−−

183,0186.1,025,1415,0483,0318,1443.1,098,1146.0,845,0395,0439,0

1,01,01,0=σ

Page 32: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

32 Quantos CP’s usar?Quantos CP’s usar?

X = TPT + E

• Poucos CP’s:– alguma variação sistemática deixa de ser descrita.– O modelo não consegue descrever os dados completamente.

resíduo (ruído)

variação sistemática

• Muitos CP’s:– Os últimos CP’s descrevem apenas ruído.– O modelo não é robusto quando aplicado a novos dados.

• Como selecionar o número correto de CP’s?

Page 33: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

33 Quantos CP’s usar?Quantos CP’s usar?

• Gráfico de Autovalores

• Selecionar os componentes quando % variância explicada > nível do ruído

• Interpretar os escores e os pesos das CP’s: Eles fazem sentido?! Os resíduos têm estrutura?

• Validação cruzada

1 2 3 4 5 6 7 8 90

0.5

1

1.5

2

2.5

3

3.5

4

4.5Eigenvalue vs. PC Number

Eig

enva

lue

‘Saliência’ aqui selecionar 4 CP’s

PC Number

Page 34: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

34 Amostras anômalas (Amostras anômalas (OutliersOutliers))

• Outliers são objetos que são muito diferentes do resto dos dados. Eles podem ter um grande efeito no modelo (na CP) e devem ser removidos.

1 1.5 2 2.5 3 3.5 4 4.54

6

8

10

12

14

16

18

pH

T (o C

)

1 1.5 2 2.5 3 3.5 4 4.54

6

8

10

12

14

16

18

pHT

(o C)

Remover “outlier”

Experimento

anômalo

Page 35: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

35 Amostras anômalas (Amostras anômalas (OutliersOutliers))

• Outliers também podem ser encontrados no espaço do modelo ou nos resíduos.

-8 -6 -4 -2 0 2 4 6 8-8

-6

-4

-2

0

2

4

6

Escores CP 1

Esc

ores

CP

2

22 24 26 28 30 32 34 36 38 40 420

2

4

6

8

10

12

14

Tempo (min)

Som

a-do

s-qu

adra

dos

dos

resí

duos

Page 36: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

36 Amostras anômalas (Amostras anômalas (OutliersOutliers))• Podem ser avaliadas através dos resíduos, Qi, e do

seu peso no modelo (estimado pelo valor de T2 de Hotelling, Ti

2).• Ti

2 é a soma dos escores ao quadrado e é uma medida da variação (da influência) de cada amostra dentro do modelo PCA.

Ti2 = tiλ-1ti

T

onde ti é o vetor escore da i-ésima amostra e λ-1 é o autovalor correspondente à CP.

• Intervalos de confiança podem ser estimados para os valores de Qi e Ti

2. Espera-se que as distribuições de Qi e Ti

2 sigam a normalidade (lembre-se do TLC).• Amostras com altos resíduos (mal modeladas) e

altos valores de T2 (alta influência no modelo) devem ser consideradas outliers.

Page 37: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

37

Page 38: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

38 A extrapolação do modelo não é A extrapolação do modelo não é recomendávelrecomendável

0 5 10 15 20 25 300

50

100

150

200

250

300

Idade (anos)

Altu

ra (

cm)

…mas não é válido p/ a faixa de 30 anos!

O modelo linear foi válido para essa faixa de idade...

Page 39: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

39 ConclusõesConclusões• A análise de componentes principais (PCA) reduz

grandes matrizes colineares a umas poucas matrizes de escores e de pesos:

ETPEptptptX

+=

+++=T

TT22

T11 ... RR

• Componentes Principais (CP’s)– descrevem a variação mais importante nos dados.– são calculados em ordem de importância.– são ortogonais.

Page 40: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

40 ConclusõesConclusões

• Gráficos de escores e “biplots” podem ser muito úteis para a exploração e o entendimento dos dados.

• Freqüentemente, é necessário centrar na média e escalar as variáveis antes da análise.

• A escolha do número correto de CP’s é um passo importante na construção de um modelo PCA.

Page 41: INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA · • Na análise química e de processos, as matrizes de dados obtidas podem ser muito grandes. –Um espectro de infravermelho medido

Prof. Dr. Marcelo Martins de SenaProf. Dr. Marcelo Martins de Sena

41

Agradecimentos

Prof. Age K. Smilde

UNIVERSITY OF AMSTERDAM