aca226 – climatologia ii, depto ciências atmosféricas, iag/usp prof. humberto rocha análise...

26
ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais (CP) (ou Funções Ortogonais Empíricas) Motivação variáveis hidroclimatológicas do sistema climático : grande quantidade muitas vezes correlacionadas entre si uma tecnica estatistica que, sem perder as informação relevantes, viabiliza: •Interpretação do sistema de variáveis como um todo, seus padrões dominantes de variabilidade •Reduzir a interpretação a um número de variáveis menor, ou seja: • prover variaveis não correlacionadas entre si (limitação da técnica de regressão) • diminuir a redundância de informação Climatologia II - ACA226 (Iag/USP)

Upload: maria-antonieta-castilho-jardim

Post on 07-Apr-2016

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USPProf. Humberto Rocha

Análise Estatística Multivariada•Técnica das Componentes Principais (CP)(ou Funções Ortogonais Empíricas)

Motivação

variáveis hidroclimatológicas do sistema climático : grande quantidademuitas vezes correlacionadas entre si

uma tecnica estatistica que, sem perder as informação relevantes, viabiliza:

•Interpretação do sistema de variáveis como um todo, seus padrões dominantes de variabilidade

•Reduzir a interpretação a um número de variáveis menor, ou seja:

• prover variaveis não correlacionadas entre si (limitação da técnica de regressão)• diminuir a redundância de informação

Climatologia II - ACA226 (Iag/USP)

Page 2: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Se i = j então torna-se a variância de Xi:

Climatologia II - ACA226 (Iag/USP)

Revisão.1 A função covariância de duas variáveis aleatórias xi e xj, como séries temporais no tempo k=1,n

n

ttjjtiiijji xxxx

nsxx

1

)()()1(

1),cov(

n

ttiiiiii xx

nsxx

1

22 )()1(

1),cov(

Page 3: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Revisão 2. A matriz de covariância Σ

Representação matricial de todas as combinações possíveis de covariâncias no vetor X de séries temporais de v.a. X = (x1,x2,...xp), no tempo t=1,n

é a matriz quadrática (p x p) definida como

Como s12 = s21, ..., sij = sji, a matriz é simétrica, e a diagonal é a variância de cada xi

Climatologia II - ACA226 (Iag/USP)

2

11

2221122

1122112

11

1

)(......)()(..................)()()(

)()(...)()()(

)1(1)cov(

tppttpp

ttt

tpptttt

n

t

xxxxxx

xxxxxxxxxxxxxxxx

nX

pppp

p

p

sss

ssssss

...............

...

...

21

22221

11211

Page 4: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Revisão 3. Matriz de Correlação ρ

O coeficiente de correlação entre duas variáveis Xi e Xj se definido como

de forma que se i = j, então2

2 21i

ii

i i

srs s

define-se a matriz de correlação como

r11 = r22 = ... rpp = 1 define a diagonal da matriz

Climatologia II - ACA226 (Iag/USP)

ρ

yx

ji

yx

ijij ss

xxss

sr

),cov(

Page 5: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Revisão 4. Variáveis independentes

O coeficiente de correlação linear também pode ser expresso como

Se xi e xj são variáveis independentes (não relacionadas) então cov(xi,xy) = 0

Contudo, o oposto nem sempre é verdadeiro.

Climatologia II - ACA226 (Iag/USP)

Se Xi e Xj não tem relação (ou proporção) linear entre si, β = 0, ou seja, se

0),cov(0 jiij xxr

y

xij s

sr

Page 6: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Revisão 5. Problema de autovetores e Autovalores

a) Seja um vetor (de 2 dimensões por exemplo ) X = (x1,x2)

Uma transformação linear em X, obtida por uma matriz A (conhecida) que obtem o vetor Y, Y= A X (1)

e seja equivalente a um vetor paralelo a X (ou seja, multiplicado por uma constante λ, desconhecida)

Y= λ X (2)

tem como solução possíveis os valores de λ, chamados autovalores,

e de X como o autovetor associado (calculado) a λ,

onde A é chamada de matriz de transformação.

Climatologia II - ACA226 (Iag/USP)

Page 7: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Determinação dos autovalores e autovetoresDe (1) e (2) A X = λ X ↔ (A – λ I) X = 0 (3)

Definindo-se a matriz A e a matriz identidade I, temos

11 21 1

12 22 2

1 0, ,

0 1a a x

A X Ia a x

Então em (3)

a11x1 + a12x2 – λx1 = 0 (a11 - λ) x1 + a12x2 = 0

a21x1 + a22x2 – λx2 = 0 a21x1 + (a22 - λ)x2 = 0↔

A solução do sistema tem solução para λ ≠ 0 que exige det (A – λ I) = 0, ou seja

e que é chamada de equação característica da matriz A ,com soluções (chamadas características) que são os autovalores λ1 e λ2.

Climatologia II - ACA226 (Iag/USP)

Page 8: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Em (3), para cada λi obtem-se um autovetor associado Xi, ou seja,(no exemplo i=1,2) formam-se os pares (λ1, X1) e (λ2,X2), com as seguintes propriedades:

os autovetores Xi são lineares independentes, portanto formam uma base vetorial,

são ortogonais entre si;

nenhum Xk pode ser expresso em função de outro Xj;

cov(Xk,Xj)k≠j = 0

Revisão 6. Variância de um Sistema Def: a Variância total de um sistema Y = f(x1,x2) sob uma relação linear

y = (a1x1 + a2x2), dependente das v.a. x1 e x2 , é definida como

Var(y) = Var(a1x1+a2x2) = a12Var(x1) + a2

2Var(x2)+2a1a2cov(x1,x2)

Climatologia II - ACA226 (Iag/USP)

Page 9: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

1

2( ) '( ), onde ,

p

aa

Var y a a a

a

= matriz de covariância de Xa’ = matriz transposta de a

Demonstração:

11 12 1 1

21 22 2 2

1 2

...

...'( ) 1 2

...

p

p

p p pp p

s s s as s s a

a a a a ap

s s s a

1 11 2 12 1

1 21 2 22 2

1 1 2 2

( .. )( .. )

'( ) 1 2

( .. )

p p

p p

p p p pp

a s a s a sa s a s a s

a a a a ap

a s a s a s

Ou na forma genérica (i=1, ..,p)

mostra-se que

Climatologia II - ACA226 (Iag/USP)

Page 10: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Na diagonal principal vem

Nas diagonais em geral

1 2 12 1 2 1 2

1( )

2 2 cov( , )

2 cov( , )p

i j i jii p

a a s a a x x

a a x x

Portanto cqd

2

1 1

'( ) var( ) 2 cov( , )

'( ) ( )

p p

i i j i ji i

a a a xi a a x x

a a Var y

Climatologia II - ACA226 (Iag/USP)

Na 1ª diagonal por ex

Page 11: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Componentes Principais (CPs) : definição

Seja um conjunto X=(X1, X2,..., Xp) de p variáveis Xi, com n eventos cada (no tempo por ex.),as CPs de X serão determinadas obtendo-se outras p variáveis (Y1, Y2,...,Yp), por meio de um sistema definido como Y = f(X1,X2,..,Xp ), ou conjunto de vetores Y = (Y1,Y2,...,Yp ) formados por p combinações lineares de X , tal que

de forma que(i)se garanta a ortogonalidade de Yi com Yj ;(ii)se obtenha a máxima informação destas variáveis (X1, X2,..., Xp), retendo somente as k variáveis mais importantes Y1,...,Yk ; (k<p)(iii)se possa interpretar a importância de cada Xi (i=1,p) nas CPs

)...,,( 21 piiii llll XlXlXlXlY

XlXlXlXlY

XlXlXlXlY

ppppppp

pp

pp

´......

´...

´...

2211

222221122

112211111

Com o vetor

Climatologia II - ACA226 (Iag/USP)

Page 12: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Estimativa das Componentes principais

Objetivo: maximizar Var(Yi) (condição ii pré-definida), onde

Para a 1ª CP Var(Y1) = l1 (Σ l1’) onde Σ = matriz covariância de X, e l1 = (l11,l21,...,lp1)

Renomeando Q1 = var(Y1), introduzimos um multiplicador lagrangiano λ1 tal que Q1 = l1 (Σ l1’) + λ1 - λ1l1l1’com a condição de contorno l1 l1’=1

max(Q1) = max ( l1 (Σ l1’) + λ1 - λ1l1l1’ ), ou sejaequação característica da matriz Σ com p-pares solução (λ1, l1´), mas para obter uma solução única de

l1 vem:

p

i jip

i i YYYVarYVar11

),cov(2)()(

= 0 , conforme condição i pré- definida

vetores unitários garantem maximização não ocorra simplesmente por multiplicação de uma constante

111 1.)( YVar

A variancia de Y1 é o próprio autovalor λ1 estimado

Climatologia II - ACA226 (Iag/USP)

multiplicando por l1 vem l1 (Σ l1’) = λ1 l1 l1’

´´0´´ 111111

1

1 lllll

Q

Page 13: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Climatologia II - ACA226 (Iag/USP)

Procedimento de cálculo e propriedades

1) dada matriz de covariância Σ do sistema X = (X1, .., Xp) calculam-se os p pares (autovalor, autovetor) = (λ1, l1) ,..., (λp, lp)

Identifica-se a 1ª CP no par de maior autovalor, ou seja se λ1 > λ2 > ... > λp ,é denominado assim λ1, e sucessivamente para a 2ª CP até a k-esima CP

2) Construção de cada CP : chamada também de fatores (factors)

ppppppp

pp

pp

XlXlXlXlY

XlXlXlXlYXlXlXlXlY

...´...

...´...´

2211

222211222

122111111

O coeficiente lk1, chamado de peso (weight) ou carga (loading), da variável Xk na 1ª CP Y1 relativamente aos demais; pode ser positivo ou negativo (proporção direta ou indireta), e assim sucessivamente para os coeficientes lk2 na 2ª CP, ....

infere a importância de cada Xk (serve como critério para selecionar variáveis em um modelo de regressão linear múltipla, por ex.)

Page 14: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Propriedades e práticas

3) A variância total do sistema é dada por

e a percentagem da variância total explicada pela i-ésima CP é

4) Para fins de análise do padrão, escolhem-se somente

as k primeiras CPs (Y1,Y2,...,Yk), (k<p)

que respondam pela maior parte da variância total.

pi

ipi

iYVar,1,1

)(

%100.

,1 pi

i

i

Climatologia II - ACA226 (Iag/USP)

Page 15: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Exemplo 1: dados de precipitação, Tmin, Tmax, em Ithaca (NY) e Canandaigua (NY) durante 31 dias (fonte: Wilks 2005)

Matriz de covariancia de Pearson

Gráfico de dispersão (scatterplot)

Page 16: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

X1 = Min temperatura em Ithaca X2 = Min temperatura em Canandaigua

s1 = 13.5 oF (mais acentuado) s2 = 8.8 oF

r = 0.92 (alta correlação)

848.0530.0530.0848.0

E

Calculo das CPs

(λ 1; λ 2 ) = (254,7 ; 8.3)

λ 1+λ 2 = 263,05λ 1/ 263,05 = 0,968 ou 96,8% da variância é devido à 1ª CP

λ2 / 263,05 = 3,2% devido à 2ª CP

saída: matriz de autovetores E

1ª CP 2ª CP

X1

X2

Page 17: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

cos(e1,x1)=0.848

cos(e2,x1)= - 0.53

Interpretação geométrica das CPs : rotação de eixoseixo e1 = direção principal de variação entre X1 e X2 (ou da 1a CP)eixo e2 = 2a direção principal (ou da 2a CP)

Dispersão entre X2 e X1 (desvio da média)

x1

848.0530.0530.0848.0

E

1ª CP 2ª CP X1

X2

Page 18: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Reconstrução da série de CPs e projeção nos eixos Por ex. o evento (X1,X2) = 16,0 ; 17,8 (quadrado)

Significa a projeção no eixo e1 (ou 1a CP)e1 = 0,848 . 16 + 0,530 . 17,8 = 23

Projeção no eixo e2 (ou 2a CP)e2 = -0,530 . 16 + 0,848 . 17,8 = 6,6

Construção da 1ª CP e visualização

Y1(t) = 0,848 . X1(t) + 0,530 . X2(t) (linha cinza)

Serie temporal de X1, X2 (como desvio da média) (preto)

848.0530.0530.0848.0

E

Page 19: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Calculo da CP: com matriz de covariância ou matriz de correlação

Calculando as variaveis normalizadas de Xi como Zi, ou seja, (Z1, Z2, ... Zp)promove-se média=0 e desvio-padrão=1 para cada Zi

portanto a matriz de covariância de Zi é a própria matriz de correlação de X i

Ex: calculando CPs com todas as variaveis em Ithaca e Canandaigua

as variaveis de temperatura tem maior variancia amostral (pela unidade oF) e dominam a variancia, basicamente na 1ª CP

as variaveis de temperatura e precipitação tem influência mais bem distribuída na variancia do sistema, basicamente na 1ª e 2ª CPs

Page 20: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Exemplo 2: CPs com 3 variáveis

Page 21: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Exemplo 3 - Aplicação espacial, escala regionalCada ponto no espaço com informação é uma variável (Xi, i=1,p pontos), todos como série temporal n eventos.

Exemplo: 27 estações no estado do Piauí, médias mensais de precipitação 1963 a 2000 (38 anos) Fonte: Guedes et al., 2010 (Rev. de Geografia Recife, v. 27). (p=27 estações de chuva mensal) em série temporal n=38 anos*12meses= 456 eventos

VerificarEstimativa média anualNormalização das variáveis Médias mensais de longo prazo separadas por grupos

Climatologia II - ACA226 (Iag/USP)

Page 22: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Construção da 1ª e 2ª CPs

1ª CP explica a chuva de Jan a Ago(estação chuvoso)

2ª CP explica a chuva de Set a Dez(estação seca e início est.chuvosa)

Autovetores nas 27 estações, interpolados espacialmente, da 1ª e 2ª CPs.

1ª CP explica mais chuva no norte (ZCIT, brisa, ZCAS) e escassez no sul (que ocorre de Jan a Ago)

2ª CP explica mais a chuva no Sudoeste (ZCAS) e a região seca em todo o Leste (de Set a Dez quando é seco no NE do Brasil)

Page 23: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Exemplo 4 - Aplicação espacial, escala continental

Variáveis: série histórica de precipitação (pentadas ou acumulado em 5 dias) entre 1979 a 2010 (=2336 pêntadas) Fonte: GPCP (Adler et al., 2003)

Disposição: grade regular na America do Sul (60S a 10N ; 90W a 30W ) com 24 pontos em x, 28 pontos em y, 2336 pontos em t

Cada ponto é uma variável (no total p=24x28 = 672 variáveis), e cada um é uma série temporal com n=2336 eventos

Climatologia II - ACA226 (Iag/USP)

Page 24: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

1º CP 18.6% da variância explicada

2º CP 7.8% da variância explicada

3º CP 4.36% da variância explicada4º CP 3.92% da variância explicada

Autovetores nos pontos de grade, interpolados espacialmente

Page 25: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

1º CP 2º CP

3º CP 4º CP

Reconstrução temporal das CPs em um ponto de máximos

Climatologia II - ACA226 (Iag/USP)

Page 26: ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USP Prof. Humberto Rocha Análise Estatística Multivariada Técnica das Componentes Principais

Dados originais de Precipitação

Reconstrução da Sérieevento pentada centrada em 25-maio-1984

Climatologia II - ACA226 (Iag/USP)