carlos a. a. varella anÁlise multivariada aplicada as ciÊncias agrÁrias pÓs-graduaÇÃo em...

28
Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Upload: internet

Post on 17-Apr-2015

129 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Carlos A. A. Varella

ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIASPÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Page 2: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Segundo KHATTREE & NAIK (2000) é uma técnica da estatística multivariada que estuda a separação de objetos de uma população em duas ou mais classes.

Page 3: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

A discriminação ou separação é a primeira etapa, sendo a parte exploratória da análise e consiste em se procurar características capazes de serem utilizadas para alocar objetos em diferentes grupos previamente definidos.

Page 4: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

A classificação ou alocação pode ser definida como um conjunto de regras que serão usadas para alocar novos objetos (JOHNSON & WICHERN, 1999).

Page 5: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

A função que separa objetos pode também servir para alocar, e, o inverso, regras que alocam objetos podem ser usadas para separar.

Normalmente, discriminação e classificação se sobrepõem na análise, e a distinção entre separação e alocação é confusa.

Page 6: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Segundo REGAZZI (2000) o problema da discriminação entre dois ou mais grupos, visando posterior classificação, foi inicialmente abordado por Fisher (1936).

Funções matemáticas capazes de classificar um indivíduo X em uma de várias populações i;

Com base em medidas de um número p de características, buscando minimizar a probabilidade de má classificação, isto é, minimizar a probabilidade de classificar erroneamente um indivíduo em uma população i, quando realmente pertence a população j.

Page 7: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Regiões de alocação são conjunto de valores separados por uma fronteira definida por uma função discriminante qualquer.

Função LinearFunção Quadrática

Page 8: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Funções discriminantes podem ser modelos estatísticos, de redes neurais ou lógica fuzzy.

Os parâmetros são ajustados a partir de amostras de treinamento.

O modelo de Fisher é estatístico.

Page 9: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Uma boa regra de classificação deve resultar em pequenos erros;

Deve haver pouca probabilidade de má classificação;

Segundo JOHNSON & WICHERN (1999) para que isso ocorra a regra de classificação deve considerar as probabilidades a priori e os custos de má classificação.

Page 10: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

As regras de classificação devem considerar se as variâncias das populações são iguais ou não;

variâncias de populações iguais gera funções discriminantes lineares;

variâncias de populações diferentes gera funções discriminantes quadráticas;

Redes e Fuzzy geram planos não-lineares de separação.

Page 11: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

É uma combinação linear de características originais que se caracteriza por produzir separação máxima entre duas populações

Page 12: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Demonstra-se que a função linear do vetor aleatório X que produz separação máxima entre duas populações é dada por:

XXLXD 1

21

''

L = vetor discriminante;

X = vetor aleatório de características das populações; = vetor de médias p-variado;

= matriz comum de covariâncias das populações 1 e 2;

Page 13: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

O valor da função discriminante de Fisher para uma dada observação é:

oo xxD 1

21

'

O ponto médio entre as duas médias populacionais univariadas µ1 e µ1 é:

21

1

21

'2

1 m

212

1 DDm

Page 14: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

A regra de classificação baseada na função discriminante de Fisher é:

Alocar ox em 1 se mxxD oo 1

21'

Alocar ox em 2 se mxxD oo 1

21'

Page 15: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Assumimos que as populações 1 e 2 têm a mesma matriz de covariâncias .

2

21

21

21

1

11

1

11

1S

nn

nS

nn

nSc

cS1n2n1S2S

cS = estimativa da matriz comum de covariâncias ;

1n = número de observações da população 1;

2n = número de observações da população 2;

1S = estimativa matriz de covariâncias da população 1;

2S = estimativa matriz de covariâncias da população 2;

Page 16: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

É obtida substituindo-se os parâmetros µ1, µ2 e pelas respectivas quantidades amostrais:

1x 2x cS

xSxxxLxD c 1

21

'ˆ '

xD = função discriminante linear amostral de Fisher;

'L̂ = estimativa do vetor disriminante;

1x = média amostral da população 1;

2x = média amostral da população 2.

Page 17: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Vamos considerar os dados de duas raças de insetos (Quadro 1), apresentados por HOEL (1966) e citado por REGAZZI (2000).

Page 18: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Raça A Raça B

X1 X2 X1 X2

6,36 5,24 6,00 4,88

5,92 5,12 5,60 4,64

5,92 5,36 5,64 4,96

6,44 5,64 5,76 4,80

6,40 5,16 5,96 5,08

6,56 5,56 5,72 5,04

6,64 5,36 5,64 4,96

6,68 4,96 5,44 4,88

6,72 5,48 5,04 4,44

6,76 5,60 4,56 4,04

6,72 5,08 5,48 4,20

5,76 4,80

Número médio de cerdas primordiais (X1) e número médio de cerdas distais (X2)

em duas raças de insetos

Page 19: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Raça A

32364,5

46545,6

2

1

A

A

A x

x

Raça B

72667,4

55000,5

2

1

B

B

B x

x

Page 20: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Raça A

Raça B

052625,0011258,0

011258,0091287,0AS

111661,0107418,0

107418,0160327,0BS

Page 21: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Assumindo-se que:

BA

2

21

1 11

112

112111

111S

nnSSc

08354,006162,0

06162,012745,0cS

Page 22: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

A matriz inversa é calculada com MATLAB Função: inv(sc)

604583,18995464,8

995964,81960015,121

cS

Page 23: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

A função discriminante linear amostral de Fisher é:

21 871023,2794819,5 xxxD

Page 24: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Ponto médio da Raça A

BA xDxDm 2

32364,5

46545,6871023,2794819,5ˆ '

AA xLxD

750405,52AxD

Page 25: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Ponto médio da Raça B

72667,4

55000,5871023,2794819,5ˆ '

BB xLxD

731624,45BxD

Page 26: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Ponto médio das populações

241,49731624,45750405,522

1ˆ m

241,49ˆ m

Page 27: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Tendo-se um novo indivíduo Xo. Alocar em Raça A se

241,49oxD

Alocar em Raça B se

241,49oxD

241,49ˆ m

Page 28: Carlos A. A. Varella ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Usando o programa computacional MATLAB, classificar um novo indivíduo que apresenta número médio de cerdas primordiais e distais de 6,21 e 5,31, respectivamente.