aca226 – climatologia ii, depto ciências atmosféricas, iag/usp prof. humberto rocha análise...
TRANSCRIPT
ACA226 – Climatologia II, Depto Ciências Atmosféricas, IAG/USPProf. Humberto Rocha
Análise Estatística Multivariada•Técnica das Componentes Principais (CP)(ou Funções Ortogonais Empíricas)
Motivação
variáveis hidroclimatológicas do sistema climático : grande quantidademuitas vezes correlacionadas entre si
uma tecnica estatistica que, sem perder as informação relevantes, viabiliza:
•Interpretação do sistema de variáveis como um todo, seus padrões dominantes de variabilidade
•Reduzir a interpretação a um número de variáveis menor, ou seja:
• prover variaveis não correlacionadas entre si (limitação da técnica de regressão)• diminuir a redundância de informação
Climatologia II - ACA226 (Iag/USP)
Se i = j então torna-se a variância de Xi:
Climatologia II - ACA226 (Iag/USP)
Revisão.1 A função covariância de duas variáveis aleatórias xi e xj, como séries temporais no tempo k=1,n
n
ttjjtiiijji xxxx
nsxx
1
)()()1(
1),cov(
n
ttiiiiii xx
nsxx
1
22 )()1(
1),cov(
Revisão 2. A matriz de covariância Σ
Representação matricial de todas as combinações possíveis de covariâncias no vetor X de séries temporais de v.a. X = (x1,x2,...xp), no tempo t=1,n
é a matriz quadrática (p x p) definida como
Como s12 = s21, ..., sij = sji, a matriz é simétrica, e a diagonal é a variância de cada xi
Climatologia II - ACA226 (Iag/USP)
2
11
2221122
1122112
11
1
)(......)()(..................)()()(
)()(...)()()(
)1(1)cov(
tppttpp
ttt
tpptttt
n
t
xxxxxx
xxxxxxxxxxxxxxxx
nX
pppp
p
p
sss
ssssss
...............
...
...
21
22221
11211
Revisão 3. Matriz de Correlação ρ
O coeficiente de correlação entre duas variáveis Xi e Xj se definido como
de forma que se i = j, então2
2 21i
ii
i i
srs s
define-se a matriz de correlação como
r11 = r22 = ... rpp = 1 define a diagonal da matriz
Climatologia II - ACA226 (Iag/USP)
ρ
yx
ji
yx
ijij ss
xxss
sr
),cov(
Revisão 4. Variáveis independentes
O coeficiente de correlação linear também pode ser expresso como
Se xi e xj são variáveis independentes (não relacionadas) então cov(xi,xy) = 0
Contudo, o oposto nem sempre é verdadeiro.
Climatologia II - ACA226 (Iag/USP)
Se Xi e Xj não tem relação (ou proporção) linear entre si, β = 0, ou seja, se
0),cov(0 jiij xxr
y
xij s
sr
Revisão 5. Problema de autovetores e Autovalores
a) Seja um vetor (de 2 dimensões por exemplo ) X = (x1,x2)
Uma transformação linear em X, obtida por uma matriz A (conhecida) que obtem o vetor Y, Y= A X (1)
e seja equivalente a um vetor paralelo a X (ou seja, multiplicado por uma constante λ, desconhecida)
Y= λ X (2)
tem como solução possíveis os valores de λ, chamados autovalores,
e de X como o autovetor associado (calculado) a λ,
onde A é chamada de matriz de transformação.
Climatologia II - ACA226 (Iag/USP)
Determinação dos autovalores e autovetoresDe (1) e (2) A X = λ X ↔ (A – λ I) X = 0 (3)
Definindo-se a matriz A e a matriz identidade I, temos
11 21 1
12 22 2
1 0, ,
0 1a a x
A X Ia a x
Então em (3)
a11x1 + a12x2 – λx1 = 0 (a11 - λ) x1 + a12x2 = 0
a21x1 + a22x2 – λx2 = 0 a21x1 + (a22 - λ)x2 = 0↔
A solução do sistema tem solução para λ ≠ 0 que exige det (A – λ I) = 0, ou seja
e que é chamada de equação característica da matriz A ,com soluções (chamadas características) que são os autovalores λ1 e λ2.
Climatologia II - ACA226 (Iag/USP)
Em (3), para cada λi obtem-se um autovetor associado Xi, ou seja,(no exemplo i=1,2) formam-se os pares (λ1, X1) e (λ2,X2), com as seguintes propriedades:
os autovetores Xi são lineares independentes, portanto formam uma base vetorial,
são ortogonais entre si;
nenhum Xk pode ser expresso em função de outro Xj;
cov(Xk,Xj)k≠j = 0
Revisão 6. Variância de um Sistema Def: a Variância total de um sistema Y = f(x1,x2) sob uma relação linear
y = (a1x1 + a2x2), dependente das v.a. x1 e x2 , é definida como
Var(y) = Var(a1x1+a2x2) = a12Var(x1) + a2
2Var(x2)+2a1a2cov(x1,x2)
Climatologia II - ACA226 (Iag/USP)
1
2( ) '( ), onde ,
p
aa
Var y a a a
a
= matriz de covariância de Xa’ = matriz transposta de a
Demonstração:
11 12 1 1
21 22 2 2
1 2
...
...'( ) 1 2
...
p
p
p p pp p
s s s as s s a
a a a a ap
s s s a
1 11 2 12 1
1 21 2 22 2
1 1 2 2
( .. )( .. )
'( ) 1 2
( .. )
p p
p p
p p p pp
a s a s a sa s a s a s
a a a a ap
a s a s a s
Ou na forma genérica (i=1, ..,p)
mostra-se que
Climatologia II - ACA226 (Iag/USP)
Na diagonal principal vem
Nas diagonais em geral
1 2 12 1 2 1 2
1( )
2 2 cov( , )
2 cov( , )p
i j i jii p
a a s a a x x
a a x x
Portanto cqd
2
1 1
'( ) var( ) 2 cov( , )
'( ) ( )
p p
i i j i ji i
a a a xi a a x x
a a Var y
Climatologia II - ACA226 (Iag/USP)
Na 1ª diagonal por ex
Componentes Principais (CPs) : definição
Seja um conjunto X=(X1, X2,..., Xp) de p variáveis Xi, com n eventos cada (no tempo por ex.),as CPs de X serão determinadas obtendo-se outras p variáveis (Y1, Y2,...,Yp), por meio de um sistema definido como Y = f(X1,X2,..,Xp ), ou conjunto de vetores Y = (Y1,Y2,...,Yp ) formados por p combinações lineares de X , tal que
de forma que(i)se garanta a ortogonalidade de Yi com Yj ;(ii)se obtenha a máxima informação destas variáveis (X1, X2,..., Xp), retendo somente as k variáveis mais importantes Y1,...,Yk ; (k<p)(iii)se possa interpretar a importância de cada Xi (i=1,p) nas CPs
)...,,( 21 piiii llll XlXlXlXlY
XlXlXlXlY
XlXlXlXlY
ppppppp
pp
pp
´......
´...
´...
2211
222221122
112211111
Com o vetor
Climatologia II - ACA226 (Iag/USP)
Estimativa das Componentes principais
Objetivo: maximizar Var(Yi) (condição ii pré-definida), onde
Para a 1ª CP Var(Y1) = l1 (Σ l1’) onde Σ = matriz covariância de X, e l1 = (l11,l21,...,lp1)
Renomeando Q1 = var(Y1), introduzimos um multiplicador lagrangiano λ1 tal que Q1 = l1 (Σ l1’) + λ1 - λ1l1l1’com a condição de contorno l1 l1’=1
max(Q1) = max ( l1 (Σ l1’) + λ1 - λ1l1l1’ ), ou sejaequação característica da matriz Σ com p-pares solução (λ1, l1´), mas para obter uma solução única de
l1 vem:
p
i jip
i i YYYVarYVar11
),cov(2)()(
= 0 , conforme condição i pré- definida
vetores unitários garantem maximização não ocorra simplesmente por multiplicação de uma constante
111 1.)( YVar
A variancia de Y1 é o próprio autovalor λ1 estimado
Climatologia II - ACA226 (Iag/USP)
multiplicando por l1 vem l1 (Σ l1’) = λ1 l1 l1’
´´0´´ 111111
1
1 lllll
Q
Climatologia II - ACA226 (Iag/USP)
Procedimento de cálculo e propriedades
1) dada matriz de covariância Σ do sistema X = (X1, .., Xp) calculam-se os p pares (autovalor, autovetor) = (λ1, l1) ,..., (λp, lp)
Identifica-se a 1ª CP no par de maior autovalor, ou seja se λ1 > λ2 > ... > λp ,é denominado assim λ1, e sucessivamente para a 2ª CP até a k-esima CP
2) Construção de cada CP : chamada também de fatores (factors)
ppppppp
pp
pp
XlXlXlXlY
XlXlXlXlYXlXlXlXlY
...´...
...´...´
2211
222211222
122111111
O coeficiente lk1, chamado de peso (weight) ou carga (loading), da variável Xk na 1ª CP Y1 relativamente aos demais; pode ser positivo ou negativo (proporção direta ou indireta), e assim sucessivamente para os coeficientes lk2 na 2ª CP, ....
infere a importância de cada Xk (serve como critério para selecionar variáveis em um modelo de regressão linear múltipla, por ex.)
Propriedades e práticas
3) A variância total do sistema é dada por
e a percentagem da variância total explicada pela i-ésima CP é
4) Para fins de análise do padrão, escolhem-se somente
as k primeiras CPs (Y1,Y2,...,Yk), (k<p)
que respondam pela maior parte da variância total.
pi
ipi
iYVar,1,1
)(
%100.
,1 pi
i
i
Climatologia II - ACA226 (Iag/USP)
Exemplo 1: dados de precipitação, Tmin, Tmax, em Ithaca (NY) e Canandaigua (NY) durante 31 dias (fonte: Wilks 2005)
Matriz de covariancia de Pearson
Gráfico de dispersão (scatterplot)
X1 = Min temperatura em Ithaca X2 = Min temperatura em Canandaigua
s1 = 13.5 oF (mais acentuado) s2 = 8.8 oF
r = 0.92 (alta correlação)
848.0530.0530.0848.0
E
Calculo das CPs
(λ 1; λ 2 ) = (254,7 ; 8.3)
λ 1+λ 2 = 263,05λ 1/ 263,05 = 0,968 ou 96,8% da variância é devido à 1ª CP
λ2 / 263,05 = 3,2% devido à 2ª CP
saída: matriz de autovetores E
1ª CP 2ª CP
X1
X2
cos(e1,x1)=0.848
cos(e2,x1)= - 0.53
Interpretação geométrica das CPs : rotação de eixoseixo e1 = direção principal de variação entre X1 e X2 (ou da 1a CP)eixo e2 = 2a direção principal (ou da 2a CP)
Dispersão entre X2 e X1 (desvio da média)
x1
848.0530.0530.0848.0
E
1ª CP 2ª CP X1
X2
Reconstrução da série de CPs e projeção nos eixos Por ex. o evento (X1,X2) = 16,0 ; 17,8 (quadrado)
Significa a projeção no eixo e1 (ou 1a CP)e1 = 0,848 . 16 + 0,530 . 17,8 = 23
Projeção no eixo e2 (ou 2a CP)e2 = -0,530 . 16 + 0,848 . 17,8 = 6,6
Construção da 1ª CP e visualização
Y1(t) = 0,848 . X1(t) + 0,530 . X2(t) (linha cinza)
Serie temporal de X1, X2 (como desvio da média) (preto)
848.0530.0530.0848.0
E
Calculo da CP: com matriz de covariância ou matriz de correlação
Calculando as variaveis normalizadas de Xi como Zi, ou seja, (Z1, Z2, ... Zp)promove-se média=0 e desvio-padrão=1 para cada Zi
portanto a matriz de covariância de Zi é a própria matriz de correlação de X i
Ex: calculando CPs com todas as variaveis em Ithaca e Canandaigua
as variaveis de temperatura tem maior variancia amostral (pela unidade oF) e dominam a variancia, basicamente na 1ª CP
as variaveis de temperatura e precipitação tem influência mais bem distribuída na variancia do sistema, basicamente na 1ª e 2ª CPs
Exemplo 2: CPs com 3 variáveis
Exemplo 3 - Aplicação espacial, escala regionalCada ponto no espaço com informação é uma variável (Xi, i=1,p pontos), todos como série temporal n eventos.
Exemplo: 27 estações no estado do Piauí, médias mensais de precipitação 1963 a 2000 (38 anos) Fonte: Guedes et al., 2010 (Rev. de Geografia Recife, v. 27). (p=27 estações de chuva mensal) em série temporal n=38 anos*12meses= 456 eventos
VerificarEstimativa média anualNormalização das variáveis Médias mensais de longo prazo separadas por grupos
Climatologia II - ACA226 (Iag/USP)
Construção da 1ª e 2ª CPs
1ª CP explica a chuva de Jan a Ago(estação chuvoso)
2ª CP explica a chuva de Set a Dez(estação seca e início est.chuvosa)
Autovetores nas 27 estações, interpolados espacialmente, da 1ª e 2ª CPs.
1ª CP explica mais chuva no norte (ZCIT, brisa, ZCAS) e escassez no sul (que ocorre de Jan a Ago)
2ª CP explica mais a chuva no Sudoeste (ZCAS) e a região seca em todo o Leste (de Set a Dez quando é seco no NE do Brasil)
Exemplo 4 - Aplicação espacial, escala continental
Variáveis: série histórica de precipitação (pentadas ou acumulado em 5 dias) entre 1979 a 2010 (=2336 pêntadas) Fonte: GPCP (Adler et al., 2003)
Disposição: grade regular na America do Sul (60S a 10N ; 90W a 30W ) com 24 pontos em x, 28 pontos em y, 2336 pontos em t
Cada ponto é uma variável (no total p=24x28 = 672 variáveis), e cada um é uma série temporal com n=2336 eventos
Climatologia II - ACA226 (Iag/USP)
1º CP 18.6% da variância explicada
2º CP 7.8% da variância explicada
3º CP 4.36% da variância explicada4º CP 3.92% da variância explicada
Autovetores nos pontos de grade, interpolados espacialmente
1º CP 2º CP
3º CP 4º CP
Reconstrução temporal das CPs em um ponto de máximos
Climatologia II - ACA226 (Iag/USP)
Dados originais de Precipitação
Reconstrução da Sérieevento pentada centrada em 25-maio-1984
Climatologia II - ACA226 (Iag/USP)