na análise fatorial as variáveis y1, y2,. . . , yp, são ... · como parte deste método, um...
Post on 19-Aug-2020
0 Views
Preview:
TRANSCRIPT
1
Análise Fatorial
1
•Na análise fatorial as variáveis y1, y2,. . . , Yp, são combinações lineares de umas poucas variáveis F1, F2,. . . , Fm (m<p) denominadas fatores. •Os fatores são constituintes subjacentes ou variáveis latentes que originam as y’i. •Assim como as variáveis originais, os fatores variam de indivíduo para indivíduo, mas ao contrário das variáveis, os fatores não podem ser medidos ou observados. •A existência destas variáveis hipotéticas é, portanto, uma questão em aberto. 2
3
00.190.90.05.05.
90.00.190.05.05.
90.90.00.105.5.0
05.05.05.00.190.
05.05.05.90.00.1
Matriz R de coeficientes de correlação: Variáveis 1 e 2 correspondem a um fator. Variáveis 3, 4 e 5 correspondem a outro fator.
Não confundir análise de componentes principais com análise fatorial!
As componentes principais são definidas como combinações lineares das variáveis originais. Na análise fatorial, as variáveis originais são expressas como combinações lineares dos fatores.
A análise de componentes principais, procura explicar a maior parte da variância total existente nas das variáveis. Na análise fatorial, procura-se explicar as covariâncias e/ou ou correlações entre as variáveis
4
5
Outras diferenças: •Análise de componentes principais não requer essencialmente nenhuma suposição, enquanto que a análise fatorial faz várias suposições-chave •As componentes principais são únicas, assumindo distintos autovalores, enquanto a análise fatorial esta sujeita a uma rotação arbitrária •Se for alterado o número de fatores, os fatores estimados podem mudar. •A capacidade de rotação melhorar a facilidade de interpretação é uma das vantagens da análise fatorial sobre a análise a análise de componentes principais.
Diferentemente da análise de componentes principais, que é uma manipulação matemática, a análise fatorial pode ser considerada como uma técnica estatística.
Quando o método foi estabelecido por psicólogos, interessados em testes de inteligência, a condição fundamental era que o número de fatores "p" a se determinar, deveria ser conhecido "a priori" antes de se efetuar a análise.
Dificilmente essa condição é preenchida, pois geralmente os "fatores " são estabelecidos em função dos resultados obtidos, o que torna os resultados questionáveis.
6
2
As variáveis, expressas em termos de vetores num sistema de coordenadas ortogonais, em que o comprimento representa a magnitude, agrupar-se-ão conforme o relacionamento entre si.
Por esses agrupamentos de vetores poderão passar eixos, denominados fatores, que acusarão, pelo valor da projeção dos vetores sobre os eixos, a carga fatorial (factor loading) das variáveis sobre si. Esses fatores representam o número mínimo de causas que condicionam um máximo de variabilidade existente.
A comunalidade (communallity), h², isto é, a soma dos quadrados das cargas fatoriais das variáveis sobre cada fator indica a eficiência dos mesmos na explicação da variabilidade total.
7
Os fatores são encontrados fazendo com que o primeiro eixo esteja em tal posição que a soma dos quadrados dos pesos fatoriais em relação a ele seja maximizada, o que equivale a colocá-lo paralelamente ao principal agrupamento de vetores.
O segundo eixo é colocado ortogonalmente, de modo que também seja maximizada a soma de quadrados dos pesos fatoriais para este segundo eixo, e assim por diante quanto aos demais fatores.
8
9
Três métodos de extração de fatores latentes são os mais comuns: Componentes principais: É a mesmo método usado na análise de componentes principais. Fatores principais: É provavelmente o mais usado. É um método iterativo que permite que as comunalidades sejam gradualmente convergentse. Os cálculos são interrompidos quando a variação máxima nas comunalidades está abaixo de um determinado limiar ou quando o número máximo de iterações é alcançado. Probabilidade máxima: Este método assume que as variáveis de entrada obedecem a uma distribuição normal. Como parte deste método, um teste de ajuste é calculado. A estatística utilizada para o teste segue uma distribuição de Chi2 com (p-k)2/2 - (p + k) /2 graus de liberdade, onde p é o número de variáveis e k o número de fatores.
Seqüência de cálculos (modo R)
• O cálculo dos autovalores e autovetores é feito a partir de uma matriz padronizada de variâncias-covariância (matriz de coeficientes de correlação) entre variáveis padronizadas.
• Os autovetores são calculados de tal modo a definirem vetores com tamanho unitário. Isso é conseguido multiplicando cada elemento do autovetor normalizado pela raiz quadrada do correspondente autovalor. O resultado é um fator, vetor constituído por cargas fatoriais.
• A matriz de variâncias e covariâncias observadas, [S2], é igual ao produto da matriz de carregamentos fatoriais (factor loading) [AR], de dimensões m x p, multiplicada pelo seu transposto, mais uma matriz diagonal de variâncias únicas, [var Ejj]
• [S2]=[AR][AR]´+[varEjj]
10
Na análise fatorial, p < m. A variância nas m variáveis é derivada dos p fatores, porém a contribuição é feita por fontes únicas que afetam independentemente as m variáveis originais. Esses p fatores subjacentes são conhecidos como fatores comuns e resumem a contribuição independente como um único fator.
Os autovalores e, consequentemente, os fatores, representam a proporção da variância total explicada pelo respectivo autovetor e cada carga fatorial é proporcional à raiz quadrada da quantia de variância atribuída pela respectiva variável ao fator.
11
As comunalidades (h2j) indicam quanto da
variabilidade total está sendo explicada pelo conjunto de fatores.
Para que os "p" fatores ortogonais situados no espaço "m" dimensional sejam mais facilmente entendidos é necessário que estejam em posição tal que as projeções de cada variável sobre o eixo fatorial, situem-se o melhor possível, seja junto à extremidade, seja junto à origem.
12
3
Haverá necessidade de um critério de maximização da variância dos carregamentos sobre os fatores, o que é conseguido pela rotação dos eixos fatoriais.
s2j= variância das cargas fatoriais
p= número de fatores
m= número de variáveis originais
ajp= carregamento da variável j no fator p
h2j= comunidade da j’ésima variável
A quantidade que se deseja maximizar é:
s
p a h a h
pk
jp j j jj
m
j
m
2
2 2 2 2 2 2
11
2
( / ) ( / )
V skk
p
2
113 14
• Após encontrada a matriz fatorial rotada se a mesma for multiplicada pela matriz inicial de dados obtem-se uma matriz dos "factor score".
• Esses “factor score” representam estimações das contribuições dos vários fatores à cada observação original e podem ser utilizados na classificação de amostras.
15
matriz fatorial inicial
A orientação dos autovetores no espaço multivariado é determinada pela direção da máxima variância.
A contribuição da variância para cada autovetor deve ser maximizada. Necessidade de rotação da matriz fatorial inicial
F1 F2
X1 0.966 -0,259
X2 0,940 0,340
X3 -0,997 0,070
16
rotação dos fatores (pelo critério varimax)
rotação ortogonal de uma matriz de carregamentos [X], em um novo conjunto de coordenadas [X’], requer uma matriz operacional [T]
[X’] = [T] [X]
X
X
x
x1
2
1
2
'
'
cos sen
sen cos
ângulo de rotação = ?, para variavel “j” e fatores “p” e “q”
17
j j j j
2xqxp
22jq
2jp
2jqjp
22jq
2jp
j j jjqjp
2jq
2jp
2jq
2jpjqjp
n/)xx2()xx()xx2()xx(
n/xx)xx(4)xx(xx24
Θ4tan
Uj=x2jp-x2
jq
Vj=2xjpxjq
A =ΣUj= 2,6222; A2 = 6,8789
B =ΣVj= -0,0001; B2 = 0,0000
C =Σ(U2j-V
2j) = 1,6365
D =2Σ(UjVj) = -0,0797
tan4θ = (D-2AB/n)/(C-(A2-B2)/n)
= - 0,1592/- 0,6555 = 0,2429
arctan 0,2429 = -166 21’ = 4; = 41 17’
sen = - 0,6598
cos = 0,7515 18
4
7515,06598,0
6598,07515,0T
2590,0
9656,0
7515,06598,0
065987515,0
x
x'2j
'1j
X’11=T11X11+T12X12 = (0,715*0,9656)+ (- 0,6598*- 0,2590) = 0,894
19
matriz fatorial rotacionada
F’1 F’2
X1 0,894 0,447
X2 0,477 0,879
X3 - 0,792 0,609
20
= 41 17’
21 22
23 24
Análise fatorial exploratória: busca encontrar os fatores subjacentes às variáveis originais amostradas. Análise fatorial confirmatória: já se tem noção de quantos fatores estão presentes ; modelo fatorial pre-estabelecido e se deseja verificar se o mesmo é aplicável ou consistente com os dados amostrais.
5
AFatorial com enfoque espacial
(Bernardi, Fowler & Landim, 1997)
Amostras coletadas no rio Paraíba do Sul, Pindamonhangaba/SP.
Área amostrada: 2900 m de comprimento por 100 m de largura; 90 pontos numa malha regular
Variáveis: riqueza de gêneros do plâncton, pH, temperatura, oxigênio dissolvido, transparência da água, cor e turbidez da água.
25
“Fator” I: abiótico (variáveis físico-químicas) “Fator” II: biológico (riqueza de gêneros do plâncton
Componentes I II III
N0 Gêneros 0.531 0.845 -0.020
pH 0.951 0.083 -0.073
Temperatura -0.833 -0.077 0.546
OD 0.970 0.085 0.090
Profundidade da luz 0.987 -0.033 0.021
DBO5 -0.987 -0.051 -0.046
Cor -0.997 0.021 0.018
Turbidez -0.981 0.014 -0.124
% de variação 83.589 9.240 4.122
26
27
Scores da primeira componente não variam na margem esquerda, direita e meio do rio antes da entrada do efluente; após a entrada começam a variar decaindo a partir da coordenada NS 1100m, assumindo valores negativos e voltando a crescer a partir da coordenada NS 2000 m; comportamento pode ser explicado pelo aumento de DBO5, cor e turbidez com a entrada do efluente e a diminuição do OD e da transparência.
Scores da segunda componente variam pouco na margem esquerda decaindo na região do meio do rio; a margem direita começa com cargas positivas, decaindo a partir dos ponto de coordenada 1100m, voltando a crescer depois do ponto de coordenada 2000m.
28
Dados
estratigráficos
29
total arenito folhelho nclástico carbonato evaporito
845 266 350 229 24 205
906 337 432 137 60 77
844 451 311 82 42 40
447 293 116 38 12 26
1001 348 450 203 17 186
933 275 435 223 41 182
374 240 110 24 24 0,0001
608 365 148 95 20 75
640 224 304 112 14 98
614 255 272 87 28 59
915 265 355 265 43 222
1139 179 643 317 20 297
702 237 341 124 39 85
464 104 242 118 18 100
1118 180 568 370 0,0001 370
1224 207 758 259 11 248
1204 277 610 317 10 307
1144 310 520 314 12 302
1048 362 510 176 12 164
1162 130 659 373 13 360
1003 224 542 237 21 216
721 229 400 92 12 80
775 223 477 75 28 47
1023 295 501 227 18 209
1114 246 528 340 32 308
955 267 502 186 24 162
532 157 238 137 0,0001 137
562 120 316 126 0,0001 126
1005 271 637 97 8 89
530 30 461 39 0,0001 39
1126 270 558 298 68 230
F1 F2 F3 F4
Autovalores 3,462 1,527 0,573 0,426
variância % 57,703 25,452 9,554 7,103
v. acumulada % 57,703 83,155 92,709 99,812
30
6
Matriz fatorial
Matriz fatorial rotacionada
F1 F2 F3 F4
total 0,953 0,226 -0,131 0,155
arenito -0,006 0,866 -0,491 -0,093
folhelho 0,872 -0,097 -0,029 0,467
nclástico 0,950 -0,010 0,115 -0,290
carbonato 0,021 0,834 0,548 0,055
evaporito 0,943 -0,142 0,028 -0,297
F1 F2 F3 F4
total 0,640 0,247 0,088 0,722
arenito -0,032 0,972 0,233 0,000
folhelho 0,412 -0,100 -0,035 0,899
nclástico 0,939 -0,030 0,066 0,337
carbonato 0,000 0,228 0,973 0,004
evaporito 0,935 -0,066 -0,089 0,336
31
Fator 1: Circulação restrita; alta taxa de evaporação; rápida subsidência
Fator 2: Rápida introdução de clásticos grosseiros
Fator 3: Níveis normais de circulação e evaporação; taxas lentas de deposição; falta de aporte de clásticos
Fator 4: Rápida subsidência; valores intermediários de circulação e evaporação; aporte de detritos de granulação fina.
F1 F2 F3 F4
total 0,640 0,247 0,088 0,722
arenito -0,032 0,972 0,233 0,000
folhelho 0,412 -0,100 -0,035 0,899
nclástico 0,939 -0,030 0,066 0,337
carbonato 0,000 0,228 0,973 0,004
evaporito 0,935 -0,066 -0,089 0,336
32
Distribuição espacial dos pontos
33 34
35
Exercício 03: Análise de componentes principais
Usando a matriz de dados do exercício 02, para este exercício é solicitado: Aplicar a análise de componentes principais para verificar se ocorrem relações entre a classificação de solos e presença de metais pesados e também entre o uso da terra e presença de metais pesados. Comparar, também, com os resultados do exercício 02.
36
7
37 38
39
top related