análise em componentes e escalonamento multidimensional

131
UFRJ Universidade Federal do Rio de Janeiro An ´ alise de componentes principais e escalonamento multidimensional: duas classes de m ´ etodos multivariados de reduc ¸ ˜ ao de dimensionalidade abio Luiz Machry Rodrigues Garcia 2015

Upload: phamkien

Post on 10-Jan-2017

244 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: análise em componentes e escalonamento multidimensional

UFRJ

Universidade Federal do Rio de Janeiro

Analise de componentes principais eescalonamento multidimensional:

duas classes de metodos multivariados dereducao de dimensionalidade

Fabio Luiz Machry Rodrigues Garcia

2015

Page 2: análise em componentes e escalonamento multidimensional

UFRJ

Analise de componentes principais eescalonamento multidimensional:

duas classes de metodos multivariados dereducao de dimensionalidade

Fabio Luiz Machry Rodrigues Garcia

Projeto Final de Conclusao de Curso apresentado ao

Departamento de Metodos Estatısticos do Instituto

de Matematica da Universidade Federal do Rio de

Janeiro como parte dos requisitos necessarios para

obtencao do tıtulo de Bacharel em Estatstica.

Orientador: Ralph dos Santos Silva

Rio de Janeiro, 25 de setembro de 2015.

Page 3: análise em componentes e escalonamento multidimensional

Analise de componentes principais eescalonamento multidimensional:

duas classes de metodos multivariados de reducaode dimensionalidade

Fabio Luiz Machry Rodrigues Garcia

Orientador: Ralph dos Santos Silva

Projeto Final de Conclusao de Curso apresentado ao Departamento de Metodos

Estatısticos do Instituto de Matematica da Universidade Federal do Rio de Janeiro

como parte dos requisitos necessarios para obtencao do tıtulo de Bacharel em Es-

tatıstica.

Prof. Ralph dos Santos Silva

IM-UFRJ

Profa. Flavia Maria Pinto Ferreira Landim

IM-UFRJ

Profa. Mariane Branco Alves

IM-UFRJ

Rio de Janeiro, 25 de setembro de 2015.

Page 4: análise em componentes e escalonamento multidimensional

Garcia, Fabio L. M. Rodrigues

Analise de componentes principais e escalonamento multidimen-

sional: duas classes de metodos multivariados de reducao de dimen-

sionalidade. Fabio Luiz Machry Rodrigues Garcia - Rio de Janeiro:

UFRJ/IM, 2015.

viii, 131f.: il.; 31cm.

Orientador: Ralph dos Santos Silva

Projeto Final - UFRJ/IM/ Graduacao em Estatıstica, 2015.

Referencias Bibliograficas: f.113-116.

1. Analise estatıstica multivariada. 2. Analise de componentes

principais. 3. Escalonamento multidimensional. I. Silva, Ralph dos

Santos. II. Universidade Federal do Rio de Janeiro, Instituto de

Matematica. III. Analise de componentes principais e escalonamento

multidimensional: duas classes de metodos multivariados de reducao

de dimensionalidade.

Page 5: análise em componentes e escalonamento multidimensional

RESUMO

Analise de componentes principais eEscalonamento multidimensional:

duas classes de metodos multivariados dereducao de dimensionalidade

Fabio Luiz Machry Rodrigues Garcia

Orientador: Ralph dos Santos Silva

Em analise multivariada, ordenacao e o processo de reducao de dimensionalidade.

O conjunto de dados reduzido e muito util para investigar estruturas nos dados.

Dois metodos de ordenacao muito importantes sao analise de componentes principais

(ACP) e escalonamento multidimensional (MDS). ACP e o metodo de ordenacao

mais utilizado por nao estar atrelado a modelos e distribuicoes de probabilidade e

pela possibilidade de seus resultados serem utilizados em analises posteriores, como

por exemplo analise de regressao. Quando os objetos de estudo sao dados por pro-

ximidades, especialmente em casos onde as distancias euclidianas nao fazem sentido,

ACP nao e recomendada. Outra situacao onde ACP nao e recomendada surge quando

a prioridade do pesquisador nao e preservar exatamente as distancias entre os objetos,

mas representar da melhor forma as relacoes de ordem entre os objetos em poucos

eixos. Nas situacoes citadas, uma classe de metodos adequados e o MDS. Abordare-

mos as classes de MDS mais utilizadas, MDS classico e MDS nao-metrico. Ao fim da

explanacao de cada metodo, citamos e comentamos brevemente sobre metodos relaci-

onados tanto com ACP quanto com MDS, e depois faremos varias analises envolvendo

ACP e MDS.

Palavras-chave: Analise de componentes principais; Biplot; Escalonamento multidimensional

classico e nao-metrico; Metodos de ordenacao.

Page 6: análise em componentes e escalonamento multidimensional

Para

Ana Carla

e

Isadora

Pelo amor gratuito e puro!

Page 7: análise em componentes e escalonamento multidimensional

AGRADECIMENTOS

A Deus, por ter me dado capacidade intelectual juntamente com um alto

nıvel de obstinacao para que eu pudesse superar minhas limitacoes e as

dificuldades da vida, desde a mais tenra idade, e concluir o curso de Ba-

charelado em Estatıstica da UFRJ;

A meu pai, Gastao, que mesmo tendo pouco estudo, sempre me apoiou, e

apoia ainda hoje, mesmo estando bem distante de mim. Saiba que sem voce,

meu pai, eu jamais teria conseguido... obrigado por ser pai e mae e cuidar

de mim desde a morte prematura da minha mae. Voce sempre estara em

meu coracao;

Ao meu orientador Ralph dos Santos Silva, pela paciencia, otimos conse-

lhos e ensinamentos e pelo excelente curso de Analise multivariada, de

onde cresceu meu interesse por esta area tao interessante da Estatıstica;

Aos professores do IM Mauro Rincon, Mariane Branco e Carlos Abanto,

pelos otimos cursos de Metodos numericos, Estatıstica nao parametrica

e Estatıstica computacional, respectivamente;

Aos autores dos meu livros de Estatıstica favoritos: B. Everitt, T. Hothorn,

M. Crawley, J. Albert, M. Rizzo, J. Maindonald, J. Braun, M. Greenacre,

P. Dalgaard, J. Verzani, I. Borg, J. Gentle, P. Murrell, D. Montgomery,

M. Trosset, S. Weisberg e especialmente a James, Hastie e Tibshirani pelo

livro muito inspirador ”Introduction to Statistical Learning”

A Tuomas Holopainen, tecladista da banda Nightwish, pelas lindas e

poeticas musicas que me fazem sonhar.

Page 8: análise em componentes e escalonamento multidimensional

SUMARIO

Lista de tabelas iv

Lista de figuras vii

Capıtulo 1: Introducao: dados multivariados e analise multivariada 1

1.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Uma breve historia do desenvolvimento da analise multivariada . . . . . . . . . . 4

1.3 Tipos de variaveis e o possıvel problema dos valores faltantes . . . . . . . . . . 4

1.3.1 Valores faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4 Alguns conjuntos de dados multivariados . . . . . . . . . . . . . . . . . . . . . 8

1.5 Covariancias, correlacoes e distancias . . . . . . . . . . . . . . . . . . . . . . . 12

1.5.1 Covariancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.5.2 Correlacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5.3 Distancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.6 A funcao de densidade normal multivariada . . . . . . . . . . . . . . . . . . . . 15

Capıtulo 2: Analise de componentes principais: o metodo-chave de ordenacao

em analise multivariada 23

2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2 Analise de componentes principais - ACP . . . . . . . . . . . . . . . . . . . . . 23

2.3 Encontrando as componentes principais amostrais . . . . . . . . . . . . . . . . 25

2.4 As componentes principais devem ser extraıdas da matriz de covariancias ou da

matriz de correlacoes? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.5 Componentes principais de dados bivariados com coeficiente de correlacao r . . . 31

2.6 Re-escalonando as componentes principais . . . . . . . . . . . . . . . . . . . . 33

2.7 Como as componentes principais predizem a matriz de covariancias observada . . 33

2.8 Escolhendo o numero de componentes . . . . . . . . . . . . . . . . . . . . . . 34

2.9 Calculando escores de componentes principais . . . . . . . . . . . . . . . . . . . 37

i

Page 9: análise em componentes e escalonamento multidimensional

2.10 Biplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.11 Tamanho de amostra para ACP . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.12 Exemplos de aplicacao da ACP . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.12.1 Comprimentos de cabeca do primeiro e segundo filhos . . . . . . . . . . 39

2.12.2 Consumo de proteınas em paıses da europa . . . . . . . . . . . . . . . . 44

2.13 Metodos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

Capıtulo 3: Escalonamento multidimensional 53

3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

3.2 Modelos para dados de proximidade . . . . . . . . . . . . . . . . . . . . . . . . 53

3.3 Modelos espaciais para proximidades: escalonamento multidimensional (MDS) . 54

3.4 Outras medidas de distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.5 Escalonamento multidimensional classico (cMDS ou ACoP) . . . . . . . . . . . 59

3.5.1 cMDS: detalhes tecnicos . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.6 Exemplo de aplicacao de cMDS . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.6.1 cMDS em um pequeno conjunto multivariado do R5 . . . . . . . . . . . 63

3.7 Escalonamento multidimensional nao-metrico (nMDS) . . . . . . . . . . . . . . 68

3.7.1 Exemplo de aplicacao de nMDS . . . . . . . . . . . . . . . . . . . . . . 69

3.8 Arvore de cobertura mınima . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.9 Diagrama de Shepard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

3.10 Metodos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

Capıtulo 4: Analises de dados 75

4.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2 Analises de dados utilizando ACP . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.2.1 Esportes: Analisando a estrutura de escores do heptatlo olımpico . . . . 75

4.2.2 Climatologia: Poluicao atmosferica em cidades dos EUA . . . . . . . . . 87

4.3 Analises de dados utilizando MDS . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.3.1 Um “mapa” do Brasil: solucao cMDS de distancias entre as 26 capitais

brasileiras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.3.2 Zoologia: Aplicando cMDS para comparar populacoes de ratazanas d’agua

britanicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

ii

Page 10: análise em componentes e escalonamento multidimensional

4.3.3 Polıtica: Aplicando nMDS para analisar o padrao de votacao de congres-

sistas norte-americanos . . . . . . . . . . . . . . . . . . . . . . . . . . 106

Capıtulo 5: Conclusao 109

Referencias Bibliograficas 113

iii

Page 11: análise em componentes e escalonamento multidimensional

LISTA DE TABELAS

1.1 Um formato tabular muito utilizado para dados multivariados. . . . . . . . . . . 2

1.2 Dados hipoteticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Dados biometricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4 Notas de exames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.5 Dados de poluicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.6 Matriz de distancias euclidianas dos dados biometricos. . . . . . . . . . . . . . . 15

2.1 Desvios-padrao de variaveis quımicas sanguıneas. . . . . . . . . . . . . . . . . . 29

2.2 Matriz de correlacoes de variaveis quımicas sanguıneas. . . . . . . . . . . . . . . 29

2.3 Resultados da ACP na matriz de covariancias dos dados de quımica do sangue -

parte 1: variancias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.4 Resultados da ACP na matriz de covariancias dos dados de quımica do sangue -

parte 2: cargas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.5 Resultados da ACP na matriz de correlacoes dos dados de quımica do sangue -

parte 1: variancias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.6 Resultados da ACP na matriz de correlacoes dos dados de quımica do sangue -

parte 2: cargas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.7 Tamanhos de cabeca de irmaos . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.8 Descricao das variaveis - consumo de proteınas. . . . . . . . . . . . . . . . . . . 45

2.9 Consumo de proteınas em paıses europeus . . . . . . . . . . . . . . . . . . . . 45

2.10 Variancias das variaveis de consumo de proteınas. . . . . . . . . . . . . . . . . . 46

2.11 Desvios-padrao e proporcao de variancias acumuladas da ACP dos dados de con-

sumo de proteınas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

3.1 Matriz de ausencia-presenca sıtio × especies. . . . . . . . . . . . . . . . . . . . 55

3.2 Matriz de distancias euclidianas entre os sıtios ecologicos. . . . . . . . . . . . . 55

3.3 Matriz de distancias de Jaccard entre os sıtios ecologicos. . . . . . . . . . . . . 56

3.4 Algumas medidas comuns de proximidade. . . . . . . . . . . . . . . . . . . . . 58

iv

Page 12: análise em componentes e escalonamento multidimensional

3.5 Matriz de dados X 10× 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.6 Matriz de distancias euclidianas. . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.7 Coordenadas da solucao cMDS da matriz de dados X. . . . . . . . . . . . . . . 64

3.8 Adequacao de dimensionalidade segundo os criterios P(1)m e P

(2)m . . . . . . . . . 65

3.9 Matriz de distancias de Manhattan. . . . . . . . . . . . . . . . . . . . . . . . . 66

3.10 Coordenadas da solucao cMDS da matriz de dados de exemplo X utilizando

distancia de Manhattan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.11 Adeq. de dimensionalidade com dist. de Manhattan - criterios P(1)m e P

(2)m . . . . 67

3.12 Regra de ouro de classificacao do ajuste segundo o Stress. . . . . . . . . . . . . 69

3.13 Julgamentos (subjetivos) de (dis)similaridade entre 12 lıderes mundiais da epoca

da II guerra mundial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.14 Coordenadas da solucao nMDS das similaridades de lıderes da 2a guerra. . . . . 71

4.1 Resultados do heptatlo feminino, Seul, 1988. . . . . . . . . . . . . . . . . . . . 76

4.2 Variaveis transformadas - resultados do heptatlo. . . . . . . . . . . . . . . . . . 77

4.3 Matriz de correlacoes do heptatlo feminino. . . . . . . . . . . . . . . . . . . . . 78

4.4 Matriz de correlacoes do heptatlo feminino apos remocao de outlier (atleta de PNG). 79

4.5 ACP do heptatlo - matriz de cargas . . . . . . . . . . . . . . . . . . . . . . . . 81

4.6 ACP do heptatlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4.7 Escores da CP1 do heptatlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.8 Matriz de correlacoes das 6 variaveis (exceto SO2) dos dados de poluicao. . . . . 90

4.9 Desvios-padrao e variancias acumuladas da ACP dos dados de poluicao. . . . . . 90

4.10 Matriz de cargas da ACP dos dados de poluicao. . . . . . . . . . . . . . . . . . 90

4.11 Resultados da regressao dos dados de poluicao (variavel resposta SO2) sobre as

componentes principais obtidas de antemao. . . . . . . . . . . . . . . . . . . . 95

4.12 Matriz de distancias (euclidianas) entre 26 capitais brasileiras + DF. . . . . . . 97

4.13 Explanacao das siglas das cidades utilizadas no mapa MDS. . . . . . . . . . . . 98

4.14 Coordenadas cMDS dos dados de distancias entre capitais . . . . . . . . . . . . 100

4.15 Autovalores da solucao cMDS dos dados de distancias entre capitais. . . . . . . 101

4.16 Adequacao de dimensionalidade segundo os criterios P(1)m e P

(2)m . . . . . . . . . 101

4.17 Matriz de dissimilaridades das ratazanas d’agua. . . . . . . . . . . . . . . . . . 102

4.18 Coordenadas (correspondentes aos autovalores positivos) da solucao cMDS da

matriz de dissimilaridades das ratazanas d’agua. . . . . . . . . . . . . . . . . . 103

v

Page 13: análise em componentes e escalonamento multidimensional

4.19 Autovalores da solucao cMDS da matriz de dissimilaridades das ratazanas d’agua. 103

4.20 Adequacao de dimensionalidade segundo os criterios P(1)m e P

(2)m - ratazanas d’agua.103

4.21 Dados de votacao na camara de deputados norte-americana; (R) para republicanos

e (D) para democratas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

4.22 Coordenadas da solucao nMDS dos dados de votacao. . . . . . . . . . . . . . . 108

vi

Page 14: análise em componentes e escalonamento multidimensional

LISTA DE FIGURAS

1.1 Funcao de densidade normal bivariada . . . . . . . . . . . . . . . . . . . . . . . 17

1.2 Relacao entre a funcao de distribuicao acumulada e os quantis . . . . . . . . . . 18

1.3 Graficos de probabilidades normais das medidas de torax, cintura e quadril. . . . 19

1.4 Grafico χ2 de distancias generalizadas dos dados biometricos. . . . . . . . . . . 20

1.5 Graficos de probabilidades normais para os dados de poluicao do ar. . . . . . . . 21

1.6 Grafico χ2 de distancias generalizadas para os dados de poluicao do ar. . . . . . 22

2.1 Scree diagram de ACP da quımica do sangue . . . . . . . . . . . . . . . . . . . 36

2.2 Grafico Log-autovalores de ACP da quımica do sangue . . . . . . . . . . . . . . 37

2.3 Antropometria de cabecas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.4 Comprimento de cabecas com eixos principais . . . . . . . . . . . . . . . . . . . 42

2.5 Comprimento de cabecas com eixos principais . . . . . . . . . . . . . . . . . . . 43

2.6 Matriz de correlacoes-diagramas de dispersao - consumo de proteınas. . . . . . . 46

2.7 Escolhendo o numero de CP - consumo de proteınas . . . . . . . . . . . . . . . 47

3.1 Diagrama de dispersao da solucao cMDS (com distancias euclidianas) dos dados

da Matriz X de dimensao 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.2 Diagrama de dispersao da solucao cMDS (com distancias de Manhattan) dos dados

da Matriz X de dimensao 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.3 nMDS de julgamentos de similaridade de lıderes da II guerra mundial. . . . . . . 71

4.1 Correlacoes do heptatlo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

4.2 Matriz de diagramas de dispersao das sete provas do heptatlo apos transformacao

de 3 variaveis de sorte que, para todas as provas, pontuacao alta e indicativa de

melhor performance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

4.3 Correlacoes do heptatlo - sem a atleta de PNG. . . . . . . . . . . . . . . . . . . 81

4.4 Matriz de diagramas de dispersao das sete provas do heptatlo apos transformacao

e com a retirada do outlier representado pela atleta de Papua Nova Guine (PNG). 82

4.5 Variancias explicadas pelas CP . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

vii

Page 15: análise em componentes e escalonamento multidimensional

4.6 Escolhendo o numero de CP - heptatlo . . . . . . . . . . . . . . . . . . . . . . 85

4.7 Diagrama de dispersao dos escores da CP1 versus escores do sistema oficial de

pontuacao da prova do heptatlo . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.8 Biplot das duas componentes principais do heptatlo. . . . . . . . . . . . . . . . 88

4.9 Matriz de diagramas de dispersao dos dados de poluicao do ar. . . . . . . . . . 89

4.10 Correlacoes das 6 variaveis (exceto SO2) dos dados de poluicao. . . . . . . . . . 91

4.11 Boxplots bivariados das 3 primeiras componentes principais. . . . . . . . . . . . 93

4.12 Concentracao de SO2 dependendo das componentes principais. . . . . . . . . . 95

4.13 Mapa MDS das distancias (geodesicas) entre as 27 capitais brasileiras. . . . . . 99

4.14 Mapa geografico do Brasil junto com as 27 capitais brasileiras . . . . . . . . . . 99

4.15 Ratazana d’agua - Arvicola terrestris. . . . . . . . . . . . . . . . . . . . . . . . 102

4.16 mapa cMDS da solucao dos dados de ratazanas d’agua. . . . . . . . . . . . . . 104

4.17 Arvore de cobertura mınima para os dados das ratazanas plotadas juntamente com

a solucao cMDS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

4.18 Representacao nMDS dos dados de votacao. . . . . . . . . . . . . . . . . . . . 107

4.19 Diagrama de Shepard para os dados de votacao . . . . . . . . . . . . . . . . . 108

viii

Page 16: análise em componentes e escalonamento multidimensional

1

Capıtulo 1

INTRODUCAO: DADOS MULTIVARIADOS E ANALISE

MULTIVARIADA

1.1 Introducao

Dados multivariados aparecem quando pesquisadores registram os valores de varias variaveis em

um numero de indivıduos ou objetos, ou uma variedade de outras coisas (usaremos aqui o termo

geral “unidades”) nos quais estao interessados, levando a uma observacao multidimensional (ou

vetorizada) para cada unidade. Tais dados sao coletados em uma vasta gama de disciplinas, e

de fato e razoavel afirmar que a maioria dos conjuntos de dados encontrados na pratica sao mul-

tivariados. Em alguns estudos, as variaveis sao escolhidas por planejamento porque se sabe que

elas sao preditoras essenciais do sistema sob investigacao. Em outros estudos, particularmente

aqueles que tenham sido difıceis ou dispendiosos de organizar, muitas variaveis podem ser medi-

das simplesmente para coletar tanta informacao quanto possıvel, como questao de expediente ou

economia.

Dados multivariados sao ubıquos conforme ilustrados pelos seguintes exemplos:

• Psicologos e outros cientistas do comportamento frequentemente registram os valores de

varias variaveis cognitivas diferentes, de varios indivıduos;

• Pesquisadores em educacao podem estar interessados em marcos de exames obtidos por

estudantes, em varias disciplinas diferentes;

• Arqueologos podem fazer um conjunto de medicoes em artefatos de interesse;

• Ambientalistas podem avaliar nıveis de poluicao em um conjunto de cidades, juntamente

com a observacao de outras caracterısticas destas cidades ao clima e a ecologia humana.

A maioria dos conjuntos multivariados de dados pode ser representada da mesma forma, ou

seja, num formato de tabela (retangular), tıpico das planilhas eletronicas, onde os elementos de

Page 17: análise em componentes e escalonamento multidimensional

2

cada linha correspondem as realizacoes das variaveis para uma particular unidade no conjunto

de dados, e os elementos das colunas correspondem as realizacoes de uma particular variavel

(distribuicao marginal unidimensional).

Podemos escrever os dados em tal formato retangular como

Tabela 1.1: Um formato tabular muito utilizado para dados multivariados.

Unidade Variavel 1 · · · Variavel q1 x11 · · · x1q...

......

...n xn1 · · · xnq

onde n e o numero de unidades, q e o numero de variaveis registradas em cada unidade, e xij

denota o valor da j-esima variavel para a i-esima unidade.

A tabela acima e geralmente representada por uma matriz de dados, X n× q. Em contraste

com os dados observados, as entidades teoricas que descrevem as distribuicoes univariadas de

cada uma das q variaveis e sua distribuicao conjunta sao denotadas pelas variaveis aleatorias

X1, X2, · · · , Xq.

Embora em alguns casos onde dados multivariados tenham sido coletados possa fazer sentido

isolar cada variavel e estuda-la separadamente, em geral isto nao faz sentido. Como o conjunto

completo de variaveis e medido em cada unidade, as variaveis estarao relacionadas, em maior ou

menor grau. Consequentemente, se cada variavel for analisada isoladamente, a estrutura completa

dos dados pode nao ser revelada.

Analise estatıstica multivariada, doravante denominada simplesmente analise multivariada, e

a analise estatıstica simultanea de uma colecao de variaveis, que melhora a analise univariada

separada de cada variavel utilizando informacao acerca das relacoes entre as variaveis. A analise

de cada variavel em separado vai perder, muito provavelmente, alguma estrutura-chave nao des-

coberta, e quaisquer “padroes” nos dados multivariados.

As unidades em um conjunto multivariado de dados sao, as vezes, amostradas de uma po-

pulacao de interesse do investigador, uma populacao acerca da qual ele deseja fazer alguma

inferencia. Talvez com mais frequencia, nao se pode dizer de fato que as unidades foram amos-

Page 18: análise em componentes e escalonamento multidimensional

3

tradas de alguma populacao em qualquer sentido razoavel, e as perguntas feitas sobre os dados

sao, em grande parte, exploratorias por natureza, com o ubıquo p-valor, muitıssimo utilizado na

analise univariada, como ausencia notoria. Consequentemente, existem metodos de analise mul-

tivariada que sao essencialmente exploratorios, e outros que podem ser usados para inferencia

estatıstica. Os metodos de que trata este trabalho se enquadram nesta classe: sao metodos

essencialmente exploratorios, conforme veremos 1.

Para a exploracao de dados multivariados, modelos formais planejados para gerar respostas

especıficas a questoes rigidamente definidas nao sao necessarios. Ao inves disso, sao utilizados

metodos que permitem a deteccao de padroes possivelmente nao antecipados nos dados, abrindo

um amplo leque de explicacoes concorrentes. Tais metodos sao caraterizados em geral por uma

enfase na importancia de metodos graficos e visualizacao dos dados ao mesmo tempo em que

falta qualquer modelo probabilıstico associado que permita inferencias formais.

Uma analise mais formal se torna possıvel em situacoes onde e realıstico assumir que os in-

divıduos nos conjuntos multivariados de dados tenham sido amostrados de alguma populacao e o

investigador deseja testar hipoteses bem definidas sobre os parametros da densidade da populacao.

Agora, o foco principal nao sera nos dados amostrais em si: indo alem, sera usar a informacao

obtida da amostra para fazer inferencias sobre a populacao. E a funcao de densidade de proba-

bilidade quase universalmente assumida como base de inferencias para dados multivariados e a

normal multivariada (na secao 1.6 faremos uma breve descricao da funcao de densidade normal

multivariada e modos de avaliar se um conjunto multivariado de dados esta de acordo com essa

distribuicao). Porem, em muitos casos quando se lida com dados multivariados, essa dicotomia

entre o exploratorio e o inferencial pode nao ser mais nıtida. Na verdade nem importa muito, pois

o alvo em geral da maioria da analise multivariada, seja implicitamente exploratoria ou inferencial,

e descobrir, exibir ou extrair “sinal” nos dados na presenca de ruıdo e descobrir o que os dados

tem a nos dizer.

1Apesar de se enquadrarem como “analise multivariada exploratoria”, podem ser utilizados para inferencia,em especial analise de componentes principais. Um de muitos exemplos de utilizacao desta ferramenta eminferencia e dada pelo que se chama regressao de componentes principais. Consultar Maindonald and Braun(2010); Izenman (2008) para estudo do tema. Vamos comentar sobre isso na secao sobre “metodos relacionados”adiante.

Page 19: análise em componentes e escalonamento multidimensional

4

1.2 Uma breve historia do desenvolvimento da analise multivariada

A genese da analise multivariada e, provavelmente, o estudo conduzido por Francis Galton e Karl

Pearson no fim do seculo XIX sobre a quantificacao da relacao entre caracterısticas herdadas de

pais para filhos e o desenvolvimento do coeficiente de correlacao. Daı, no inıcio do seculo XX,

Charles Spearman assentou as fundacoes da analise fatorial (falaremos brevemente sobre analise

fatorial ao fim do capıtulo sobre analise de componentes principais) enquanto investigava testes

de QI correlacionados. Nas duas decadas posteriores, o trabalho de Spearman foi estendido por

Hotelling e Thurstone. Metodos multivariados tambem foram motivados por problemas de outras

areas cientıficas alem da Psicologia, e nos anos 1930 Fisher desenvolveu a analise discriminante

linear para resolver um problema taxonomico utilizando medidas botanicas multiplas. E a anterior

introducao da analise de variancia (ANOVA) por Fisher, nos anos 1920, foi seguida rapidamente

pela sua generalizacao multivariada, analise de variancia multivariada (MANOVA), baseada nos

trabalhos de Bartlett e Roy.

Nesses anos iniciais, auxılio computacional para lidar com a pesada carga aritmetico-algebrica

envolvida na aplicacao dos metodos multivariados era muito limitado e, consequentemente, de-

senvolvimentos eram primariamente matematicos (teoricos); destarte, pesquisa multivariada, a

epoca, era mais um ramo da algebra linear. Contudo, com a evolucao tecnologica que entrou em

curso a partir da segunda metade XX, que nos levou, a partir dos anos 1980, a utilizar computa-

dores com softwares estatısticos a disposicao e a um custo mais acessivel, todos os metodos de

analise multivariada podem ser aplicados rotineiramente mesmo para conjuntos de dados muito

grandes, tais como aqueles gerados, por exemplo, em Genetica, Processamento de Imagens e

Astronomia. E a aplicacao das tecnicas multivariadas para tais grandes conjuntos de dados agora

tem seu proprio nome, data mining. Referencias sobre data mining sao (Fayyad et al., 1996; Hand

et al., 2001).

1.3 Tipos de variaveis e o possıvel problema dos valores faltantes

Um exemplo hipotetico de dados multivariados e dado na tabela 1.2. O sımbolo especial NA (do

ingles Not Available) denota valores nao disponıveis; o valor desta variavel para um indivıduo e

“perdido”. Aqui, o numero de unidades (pessoas neste caso) e n = 10, com o numero de variaveis

sendo q = 7 e, por exemplo, x34 = 135. Esses dados ilustram que as variaveis que compoem

um conjunto multivariado de dados nao necessariamente serao do mesmo tipo. Quatro nıveis de

medicao sao frequentemente distinguidos:

Page 20: análise em componentes e escalonamento multidimensional

5

Tabela 1.2: Conjunto multivariado de dados hipoteticos.

Indivıduo Sexo Idade QI Depressao Saude Peso(lb)1 M 21 120 S Muito Boa 1502 M 43 NA N Muito Boa 1603 M 22 135 N Media 1354 M 86 150 N Muito Ruim 1405 M 60 92 S Boa 1106 F 16 130 S Boa 1107 F NA 150 S Muito Boa 1208 F 43 NA S Media 1209 F 22 84 N Media 105

10 F 80 70 N Boa 100

• Nominal: Variaveis categoricas nao-ordenadas. Exemplos incluem alocacao de tratamento,

sexo do respondente, cor do cabelo, presenca ou ausencia de depressao, e daı por diante;

• Ordinal: onde ha ordenacao porem sem implicar equidistancia entre os diferentes pontos da

escala. Exemplos incluem classe social, auto-percepcao da saude (por exemplo, codificada

de I ate IV), e nıvel educacional (sem escolaridade, fundamental, medio ou superior);

• Intervalar: onde ha diferencas iguais entre pontos sucessivos na escala, porem a posicao do

zero e arbitraria. O exemplo classico e a medida de temperatura usando as escalas Celsius

ou Fahrenheit;

• Razao: O maior nıvel de medicao, onde se pode investigar as magnitudes relativas dos

escores bem como suas diferencas. A posicao do zero esta fixa. O exemplo classico e a

medida absoluta de temperatura (em Kelvin, por exemplo), porem outros exemplos comuns

incluem idade (ou qualquer outro tempo de um evento fixo), peso e comprimento.

Em muitos textos de Estatıstica, a discussao de tipos diferentes de medicao e seguida por

recomendacoes acerca de quais tecnicas estatısticas sao adequadas para cada tipo; por exemplo,

analise de dados nominais devem ser limitados a estatısticas-resumo tais como o numero de casos,

a moda, etc. E, para dados ordinais, medias e desvios-padrao nao sao adequados. Porem Velleman

and Wilkinson (1993) lembram de um ponto importante: a restricao da escolha dos metodos

estatısticos desta forma pode ser uma pratica perigosa para analise de dados - em essencia a

taxonomia das escalas de medicao descrita e frequentemente muito restrita para ser aplicada aos

dados do mundo real. Aqui nao e o lugar para uma discussao detalhada das escalas de medicao,

porem nos assumiremos uma abordagem levemente pragmatica para tais problemas. Por exemplo,

Page 21: análise em componentes e escalonamento multidimensional

6

nao vamos agonizar em tratar variaveis tais como depressao, ansiedade ou inteligencia como se

elas fossem de escala intervalar, embora estritamente tais variaveis se ajustem na categoria ordinal

descrita acima.

1.3.1 Valores faltantes

A tabela 1.2 tambem ilustra um dos problemas frequentemente encarados pelos estatısticos que

realizam analise estatistica em geral e analise multivariada em particular: a presenca de valores

faltantes nos dados, isto e, observacoes e medidas que deveriam ter sido registradas mas por

um motivo ou outro nao o foram. Valores faltantes em dados multivariados podem aparecer

por varios motivos; como exemplos, nao-respostas em levantamentos amostrais, desistencias em

dados longitudinais ou recusas a responder certas questoes de um questionario.

A abordagem mais importante para lidar com valores faltantes e tentar evita-los durante o

estadio de coleta de dados de um estudo. Contudo, apesar de todos os esforcos que um pesquisador

possa fazer, ele ainda tera que encarar um conjunto de dados repleto de valores faltantes. Entao

o que pode ser feito? Uma resposta a esta questao e tomar a analise de casos completos2 porque

e dessa forma que a maioria dos pacotes estatısticos trabalha automaticamente. Usar analise

de casos completos em dados multivariados significa omitir qualquer caso com um valor faltante

em qualquer variavel (toda linha que contenha algum NA e excluıda). Com isso, e facil ver que,

se o numero de variaveis e grande, entao mesmo um padrao esparso de valores faltantes pode

resultar em um numero substancial de casos incompletos (linhas a excluir). Uma possibilidade para

minimizar esse problema e simplesmente excluir qualquer variavel que contenha muitos valores

faltantes. Porem, analise de casos completos nao e recomendada por duas razoes:

• Omitir um numero substancial de indivıduos vai resultar em uma grande quantidade de

informacao a ser descartada e diminuir o tamanho efetivo da amostra dos dados, tornando

qualquer analise menos efetiva do que seria se a amostra original estivesse disponıvel;

• Mais preocupante e que excluindo os casos com valores faltantes em uma ou mais variaveis

pode levar a serios vıcios na estimacao e inferencia, a menos que os casos descartados

sejam essencialmente uma subamostra aleatoria dos dados observados (o termo missing

completely at random e frequentemente usado; ver capıtulo 8 de Little and Rubin (1987)

para mais detalhes).

2Do ingles complete case analysis.

Page 22: análise em componentes e escalonamento multidimensional

7

Assim, analise de casos completos leva a uma perda, talvez substancial, em poder ao des-

cartar dados, e pior: analises baseadas apenas em casos completos podem levar a inferencias e

conclusoes erroneas.

Uma alternativa relativamente simples a analise de casos completos que frequentemente e

usada e analise de casos disponıveis. Esta e uma tentativa simples de explorar a informacao in-

completa utilizando todos os casos disponıveis para estimar quantidades de interesse. Por exem-

plo, se o pesquisador esta interessado em estimar a matriz de correlacoes (ver subsecao 1.5.2) de

um conjunto multivariado de dados, entao analise de casos disponıveis usa todos os casos com

variaveis Xi e Xj presentes para estimar a correlacao entre as duas variaveis. Esta abordagem

aparentemente faz melhor uso dos dados do que analise de casos completos, mas infelizmente

analise de casos disponıveis tambem tem os seus problemas. A amostra dos indivıduos utilizada

muda de correlacao para correlacao, criando dificuldades potenciais quando os valores faltantes

nao sao faltantes completamente ao acaso. Nao ha garantia de que a matriz de correlacoes es-

timada seja pelo menos positiva definida, o que pode criar problemas para alguns dos metodos,

tais como analise fatorial e modelagem em equacoes estruturais, que o pesquisador pode desejar

aplicar a matriz.

Tanto a analise de casos completos quanto a analise em casos disponıveis nao sao atrativas

a menos que o numero de valores faltantes no conjunto de dados seja “pequeno”. Uma resposta

alternativa ao problema dos valores faltantes e considerar alguma forma de imputacao, a pratica

de “preencher” valores faltantes com valores plausıveis. Metodos que imputam os valores faltantes

tem a vantagem de, ao contrario da analise de casos completos, os valores observados dos casos

incompletos serem retidos. Superficialmente, parece que imputacao resolvera o problema dos

valores faltantes e permitira aos investigador prosseguir normalmente. Porem, do ponto de vista

estatıstico, consideracoes cuidadosas precisam ser dadas para o metodo utilizado para imputacao,

ou de outra forma ela pode causar mais problemas do que resolver; por exemplo, imputar a media

de uma variavel observada no dado faltante de uma variavel preserva as medias observadas da

amostra porem distorce a matriz de covariancias (ver subsecao 1.5.1), viesando covariancias na

direcao do zero. Por outro lado, imputar valores preditos de modelos de regressao tende a inflar

correlacoes observadas, viesando-as para longe de zero. E tratar dados imputados como se eles

fossem “reais” na estimacao e inferencia pode levar a erros-padrao e p-valores erroneos, pois eles

falham ao refletir a incerteza oriunda dos dados faltantes.

Page 23: análise em componentes e escalonamento multidimensional

8

O modo mais apropriado para lidar com dados faltantes e um procedimento sugerido por

Rubin (1976) conhecido como imputacao multipla. E uma tecnica Monte Carlo na qual os valores

faltantes sao subtituıdos por m > 1 versoes simuladas, onde m e tipicamente pequeno (entre,

digamos, 3 e 10). Cada um dos conjunto de dados simulados completos e analisado utilizando

o metodo apropriado para a investigacao em voga, e os resultados depois sao combinados para

produzir, digamos, estimativas e intervalos de confianca que incorporam a incerteza dos valores

faltantes. Detalhes sao dados em (Rubin, 1987) e mais concisamente em (Schaffer, 1999). A

grande virtude de imputacao multipla e sua simplicidade e generalidade. O usuario pode analisar

os dados utilizando virtualmente qualquer tecnica que seria apropriada se os dados fossem com-

pletos. Contudo, sempre devemos manter em mente que os valores imputados nao sao medicoes

reais. E, se houver uma proporcao substancial de dados faltantes, temos de nos perguntar se

qualquer forma de analise estatıstica supera as dificuldades de se utilizar um conjunto de dados

tao incompleto.

Para uma amordagem pratica do problema de valores faltantes na analise estatıstica, consultar

o capıtulo 15 de Kabacoff (2011).

1.4 Alguns conjuntos de dados multivariados

Vamos agora observar alguns conjuntos de dados multivariados e brevemente ponderar sobre o

tipo de pergunta que pode ser de interesse em cada caso. Aqui estamos ainda no espırito de

comentarios gerais sobre analise multivariada, de forma que os conjuntos de dados nao necessa-

riamente serao foco das tecnicas abordadas por este trabalho.

Nesta secao, vamos ilustrar nossos comentarios iniciais com alguns pequenos conjuntos de

dados multivariados. Deixaremos os maiores conjuntos de dados para serem analisados de forma

completa no capıtulo 4 (analises de dados).

O primeiro conjunto de dados consiste de medidas de torax, cintura e quadril em uma amostra

de homens e mulheres; as medicoes para 20 indivıduos sao apresentados na tabela 1.3.

Duas perguntas podem ser dirigidas para esses dados:

• Poderiam tamanho e forma do corpo serem resumidos, de alguma forma, combinando as

tres medidas em um unico numero?

Page 24: análise em componentes e escalonamento multidimensional

9

Tabela 1.3: Dados biometricos. Medidas de torax, cintura e quadril em 20 indivıduos (em pole-gadas).

chest waist hips sexo chest waist hips sexo34 30 32 masculino 36 24 35 feminino34 30 32 masculino 36 24 35 feminino37 32 37 masculino 36 25 37 feminino38 30 36 masculino 34 24 37 feminino36 33 39 masculino 33 22 34 feminino38 29 33 masculino 36 26 38 feminino43 32 38 masculino 37 26 37 feminino40 33 42 masculino 34 25 38 feminino38 30 40 masculino 36 26 37 feminino40 30 37 masculino 38 28 40 feminino41 32 39 masculino 35 23 35 feminino

• Existem subtipos (subgrupos) de formas do corpo entre os homens e mulheres dentro dos

quais indivıduos tem formas semelhantes e fora dos mesmos (olhando-se dois indivıduos,

cada um em um subgrupo distinto) as formas do corpo diferem?

A primeira pergunta pode ser respondida por analise de componentes principais (que e um

dos temas deste trabalho, e e abordado no capıtulo 2), e a segunda questao pode ser investigada

usando analise de cluster3.

(Na pratica, parece sensato intuir que seria necessario registrar as tres medidas de muito mais

do que 20 indivıduos para ter alguma chance de ser capaz de obter respostas convincentes a partir

destas tecnicas para as questoes de interesse. A questao de quantas unidades sao necessarias para

alcancar uma sensata analise ao usar as varias tecnicas de analise multivariada sera retomada para

o caso da analise de componentes principais.)

O segundo conjunto multivariado de dados envolve os resultados dos exames de um grande

3Analise de cluster nao e o tema do trabalho, mas cabe aqui ressaltar que analise de cluster e uma tecnicade classificacao, que segundo B. Everitt and Hothorn (2011) “objetiva descobrir grupos ou aglomerados (osclusters) que sao homogeneos e separados de outros grupos”. Portanto, esta em uma classe distinta dosmetodos que sao o tema deste trabalho, que aborda duas tecnicas de ordenacao (ACP e MDS), cujo objetivoe “extrair as tendencias dos dados na forma de eixos contınuos” Borcard et al. (2011). Mas aqui ressaltamosque, em geral, quase todos os metodos multivariados sao altamente inter-relacionados. Em particular, analisede cluster e analise de componentes principais sao, muitas vezes, metodos que se complementam: pode-sefazer uma analise de componentes principais aos resultados de uma analise de cluster, como faz Borcard et al.(2011); inversamente, e muito comum utilizar fazer analise de cluster nao em relacao aos dados originais, massim em relacao a algumas das primeiras componente principais dos dados; ainda em relacao a analise de cluster,podemos citar que se baseia totalmente em distancias e matrizes de proximidade, da mesma forma que o MDS,o outro tema deste trabalho.

Page 25: análise em componentes e escalonamento multidimensional

10

numero de estudantes universitarios em seis disciplinas; as pontuacoes para cinco indivıduos sao

mostrados na tabela 1.4. Aqui, a principal questao de interesse pode ser se as notas dos exames

refletem algum traco subjacente em um estudante que nao pode ser medido diretamente, talvez

“inteligencia geral”. A questao pode ser investigada por meio da analise fatorial exploratoria4.

Tabela 1.4: Dados de exame. Notas dos exames para cinco estudantes de psicologia.

Indivıduo matematica ingles historia geografia quımica fısica1 60 70 75 58 53 422 80 65 66 75 70 763 53 60 50 48 45 434 85 79 71 77 68 795 45 80 80 84 44 46

O ultimo conjunto de dados que usaremos para ilustrar esta secao e o de poluicao atmosferica:

foram coletados dados de um estudo da poluicao do ar em 41 cidades nos EUA. Os dados constam

em Hand et al. (1994).

As seguintes variaveis foram obtidas para 41 cidades dos Estados Unidos:

• SO2: teor de SO2 de ar em microgramas por metro cubico;

• temp: temperatura media anual em graus centıgrados;

• manu: numero de empresas industriais que empreguem 20 ou mais trabalhadores;

• popul: tamanho da populacao (censo de 1970) em milhares;

• vento: velocidade do vento media anual em milhas por hora;

• precip: precipitacao media anual em polegadas;

• predays: numero medio de dias com precipitacao por ano.

Os dados estao apresentados na tabela 1.5.

4Analise fatorial nao e tema deste trabalho, mas por ser um metodo importante, muito utilizado e mormentepela sua estreita relacao com analise em componente principais, na secao 2.13 faremos breves comentarios sobreeste metodo.

Page 26: análise em componentes e escalonamento multidimensional

11

Tabela 1.5: Dados de poluicao do ar em 41 cidades dos EUA.

Cidade SO2 temp manu popul wind precip predays Cidade SO2 temp manu popul wind precip predaysAlbany 46 47,6 44 116 8,8 33,36 135 Louisville 30 55,6 291 593 8,3 43,11 123

Albuquerque 11 56,8 46 244 8,9 7,77 58 Memphis 10 61,6 337 624 9,2 49,10 105Atlanta 24 61,5 368 497 9,1 48,34 115 Miami 10 75,5 207 335 9,0 59,80 128

Baltimore 47 55,0 625 905 9,6 41,31 111 Milwaukee 16 45,7 569 717 11,8 29,07 123Buffalo 11 47,1 391 463 12,4 36,11 166 Minneapolis 29 43,5 699 744 10,6 25,94 137

Charleston 31 55,2 35 71 6,5 40,75 148 Nashville 18 59,4 275 448 7,9 46,00 119Chicago 110 50,6 3344 3369 10,4 34,44 122 NewOrleans 9 68,3 204 361 8,4 56,77 113

Cincinnati 23 54,0 462 453 7,1 39,04 132 Norfolk 31 59,3 96 308 10,6 44,68 116Cleveland 65 49,7 1007 751 10,9 34,99 155 Omaha 14 51,5 181 347 10,9 30,18 98Columbus 26 51,5 266 540 8,6 37,01 134 Philadelphia 69 54,6 1692 1950 9,6 39,93 15

Dallas 9 66,2 641 844 10,9 35,94 78 Phoenix 10 70,3 213 582 6,0 7,05 36Denver 17 51,9 454 515 9,0 12,95 86 Pittsburgh 61 50,4 347 520 9,4 36,22 147

DesMoines 17 49,0 104 201 11,2 30,85 103 Providence 94 50,0 343 179 10,6 42,75 125Detroit 35 49,9 1064 1513 10,1 30,96 129 Richmond 26 57,8 197 299 7,6 42,59 115

Hartford 56 49,1 412 158 9,0 43,37 127 SaltLake 28 51,0 137 176 8,7 15,17 89Houston 10 68,9 721 1233 10,8 48,19 103 S,Francisco 12 56,7 453 716 8,7 20,66 67

Indianapolis 28 52,3 361 746 9,7 38,74 121 Seattle 29 51,1 379 531 9,4 38,79 164Jacksonville 14 68,4 136 529 8,8 54,47 116 St,Louis 56 55,9 775 622 9,5 35,89 105KansasCity 14 54,5 381 507 10,0 37,00 99 Washington 29 57,3 434 757 9,3 38,89 111Little Rock 13 61,0 91 132 8,2 48,52 100 Wichita 8 56,6 125 277 12,7 30,58 82

Wilmington 36 54,0 80 80 9,0 40,25 114

Qual pode ser a questao de maior interesse sobre esses dados? Muito provavelmente e “como o

nıvel de poluicao, medido pela concentracao de dioxido de enxofre, se relaciona com as seis outras

variaveis?” Em primeiro lugar, pelo menos, esta questao sugere a aplicacao de regressao linear

multipla, com concentracao de dioxido de enxofre como a variavel resposta e as seis variaveis res-

tantes, sendo as variaveis independentes ou explicativas. Mas no modelo subjacente de regressao

multipla, apenas a resposta e considerada uma variavel aleatoria; as variaveis explicativas sao

estritamente fixas, nao aleatorias. Na pratica, evidentemente, isto e raramente o caso, e assim

os resultados de uma regressao precisam ser interpretados como sendo condicionais aos valores

observados das variaveis explicativas.

Voltaremos a tratar deste conjunto de dados no capıtulo 4, onde vamos analisa-los usando a

tecnica de analise em componente principais.

Os tres conjuntos de dados acima nao esgotam nem as perguntas que dados multivariados

recolhidos suscitam nem os metodos de analise multivariada que tem sido desenvolvidos para

responde-las, conforme veremos a medida que progredirmos no trabalho.

Page 27: análise em componentes e escalonamento multidimensional

12

1.5 Covariancias, correlacoes e distancias

A principal razao pela qual devemos analisar um conjunto multivariado de dados utilizando

metodos multivariados, em vez de olhar para cada variavel separadamente usando um ou ou-

tro metodo univariado familiar e que qualquer estrutura ou padrao nos dados e tao suscetıvel de

ser consequencia tanto de “relacoes” entre as variaveis ou pela “proximidade” relativa de unida-

des diferentes, quanto pelos diferentes valores das variaveis; em algumas situacoes, por ambos

os casos. No primeiro caso, qualquer estrutura ou padrao descoberto sera tal que ela “liga” de

alguma forma as colunas da matriz de dados, X, e no segundo caso, uma possıvel estrutura que

pode ser descoberta e o que envolve subconjuntos interessantes das unidades. A questao que

surge agora e como quantificar as relacoes entre as variaveis e como medimos as distancias entre

as diferentes unidades. Esta perguntas sao respondidas nas subsecoes que se seguem.

1.5.1 Covariancias

A covariancia de duas variaveis aleatorias e uma medida da sua dependencia linear. A covariancia

populacional (teorica) de duas variaveis aleatorias, Xi e Xj, e definida por

Cov(Xi, Xj) = E ((Xi − µi)(Xj − µj))

onde µi = E(xi) e µj = E(Xj); E(·) denota esperanca.

Se i = j, a covariancia da variavel com si mesma e simplesmente sua variancia, e, portanto,

nao ha necessidade de definir variancias e covariancias independentemente, no caso multivariado.

Se Xi e Xj sao independentes, a sua covariancia e necessariamente igual a zero, mas o inverso nao

e verdade. A covariancia de Xi e Xj geralmente e denotada por σij. A variancia da variavel Xi

e σ2i = E ((xi − µi)2). Valores maiores da covariancia implicam um maior grau de dependencia

linear entre duas variaveis.

Num conjunto multivariado de dados com q variaveis observadas, ha q variancias e Cq,2 =q(q − 1)

2covariancias. Estas quantidades podem ser convenientemente organizadas em uma

matriz simetrica Σ q × q, onde

Σ =

σ21 σ12 · · · σ1q

σ21 σ22 · · · σ2q

......

. . ....

σq1 σq2 · · · σ2q .

Page 28: análise em componentes e escalonamento multidimensional

13

Notemos que σij = σji. Esta matriz e geralmente conhecida como matriz de variancias-covariancias

ou simplesmente matriz de covariancias dos dados.

Para um conjunto multivariado de observacoes, talvez amostrados a partir de alguma po-

pulacao, a matriz Σ e estimada por

S =1

n− 1

n∑i=1

(xi − x)(xi − x)T ,

onde xTi = (xi1, xi2, · · · , xiq) e o vetor de observacoes (numericos) para o i-esimo indivıduo e x

e o vetor de medias das observacoes. A diagonal de S contem as variancias amostrais de cada

variavel, o que vamos denotar por s2i .

A matriz de covariancias para os dados na tabela 1.3 pode ser obtida utilizando a funcao var

no R; No entanto, temos que “remover” a variavel categorica gender do data frame measure

fazendo um subsetting sobre as variaveis numericas primeiro:

R>cov(measure[,c(’’chest’’,’’waist’’,’’hips’’)])chest waist hipschest6.632 6.3683.000waist6.36812.5263.579hips 3.000 3.5795.945

Se quisermos fazer matrizes de covariancia separadas para homens e mulheres, podemos fazer

R>cov(subset(measure,gender==’’female’’)[,+ c(’’chest’’,’’waist’’,’’hips’’)])chestwaist hipschest2.2782.1671.556waist2.1672.9892.756hips 1.5562.7563.067

R>cov(subset(measure,gender==’’male’’)[,+ c(’’chest’’,’’waist’’,’’hips’’)])chest waist hipschest6.72220.94443.944waist0.94442.10003.078hips 3.94443.07789.344

onde subset retorna todas as observacoes correspondente ao sexo feminino (primeira de-

claracao) ou masculino (segunda declaracao).

Page 29: análise em componentes e escalonamento multidimensional

14

1.5.2 Correlacoes

A covariancia e muitas vezes difıcil de interpretar, porque ela depende das escalas em que as

duas variaveis sao medidas; Por conseguinte, e muitas vezes padronizada dividindo-a pelo produto

dos desvios-padrao das duas variaveis para se obter uma quantidade chamada coeficiente de

correlacao, ρij,

ρij =σijσiσj

,

onde σi =√σ2i .

A vantagem da correlacao e que ela e independente das escalas das duas variaveis. O coefi-

ciente de correlacao situa-se entre −1 e +1 e da uma medida da relacao linear das variaveis Xi

e Xj. E positiva se valores altos de Xi estao associados com valores altos de Xj e negativo se

valores altos de Xi estao associados a valores baixos de Xj. Se a relacao entre duas variaveis nao

e linear, o seu coeficiente de correlacao pode ser enganoso.

Da mesma forma que ocorre com as variancias, com q variaveis ha q(q − 1)/2 correlacoes

distintas, que podem ser dispostas em uma matriz de correlacao q × q, cujos elementos da

diagonal sao unitarios. Para dados observados, a matriz de correlacao contem as estimativas

usuais dos ρs, ou seja, coeficientes de correlacao de Pearson, e denotada por R. A matriz pode

ser escrita em termos da matriz de covariancia amostral S

R = D−1/2SD−1/2,

onde D−1/2 = diag{1/s1, · · · , 1/sq} e si =√s2i e o desvio-padrao da amostra da variavel i.

(Em todas as situacoes consideradas neste trabalho, lidaremos com matrizes de covariancia e de

correlacao de posto completo, q, de modo que ambas as matrizes serao nao-singulares, isto e,

inversıveis, gerando matrizes S−1 ou R−1.)

Podemos obter a matriz de correlacoes para as tres variaveis do exemplo constante da tabela

1.3 e obtida usando a funcao cor do R:

R>cor(measure[,c(’’chest’’,’’waist’’,’’hips’’)])chest 1.00000.69870.4778waist 0.69871.00000.4147hips 0.47780.41471.0000

Page 30: análise em componentes e escalonamento multidimensional

15

1.5.3 Distancias

Para algumas tecnicas de analise multivariada, como escalonamento multidimensional (um dos

temas deste trabalho) e analise de cluster, o conceito de distancia entre as unidades nos dados

e muitas vezes de interesse e importancia consideravel. Assim, tendo em conta os valores de

variaveis para duas unidades, sejam unidade i e unidade j, o que serve como medida da distancia

entre eles? A medida mais comum utilizada e a distancia euclidiana, que e definida como

dij =

√√√√ q∑k=1

(xik − xjk)2 (1.1)

onde xik e xjk, k = 1, · · · , q sao os valores das variaveis para as unidades i e j, respectivamente.

No capıtulo 3, que trata de escalonamento multidimensional, vamos definir outros tipos de

distancia, alem da distancia euclidiana aqui definida.

Quando as variaveis em um conjunto multivariado de dados estao em diferentes escalas, faz

mais sentido calcular as distancias apos alguma forma de padronizacao. Podemos fazer isto com

os dados biometricos. Dividindo cada variavel por seu desvio padrao, obtemos os resultados das

primeiras 12 observacoes, exibidos na tabela 1.6.

Tabela 1.6: Matriz de distancias euclidianas dos dados biometricos.

1 2 3 4 5 6 7 8 9 10 112 0,173 0,15 0,084 0,22 0,07 0,145 0,11 0,15 0,09 0,226 0,29 0,16 0,16 0,19 0,217 0,32 0,16 0,20 0,13 0,28 0,148 0,23 0,11 0,11 0,12 0,19 0,16 0,139 0,21 0,10 0,06 0,16 0,12 0,11 0,17 0,09

10 0,27 0,12 0,13 0,14 0,20 0,06 0,09 0,11 0,0911 0,23 0,28 0,22 0,33 0,19 0,34 0,38 0,25 0,24 0,3212 0,22 0,24 0,18 0,28 0,18 0,30 0,32 0,20 0,20 0,28 0,06· · ·

1.6 A funcao de densidade normal multivariada

Assim como a distribuicao normal e ubıqua em tecnicas univariadas, a distribuicao normal multi-

variada desempenha um papel importante em alguns procedimentos multivariados, embora, como

Page 31: análise em componentes e escalonamento multidimensional

16

mencionado anteriormente, muitas analises multivariadas sao realizadas no espırito da exploracao

de dados, onde as questoes de significancia estatıstica sao de importancia relativamente menor

ou mesmo nenhuma importancia. No entanto, os investigadores que lidam com as complexidades

de dados multivariados podem, ocasionalmente, precisar conhecer um pouco sobre a funcao de

densidade multivariada e, em especial, a forma de avaliar se pode-se ou nao assumir que um

conjunto multivariado de dados tem essa funcao de densidade. Entao, vamos brevemente definir

a densidade normal multivariada e descrever algumas de suas propriedades.

Para um vetor de q variaveis, xT = (x1, x2, · · · , xq), a funcao de densidade normal multivari-

ada assume a forma

f(x;µ,Σ) = (2π)−q/2det(Σ)−1/2exp

{−1

2(x− µ)TΣ−1(x− µ)

},

onde Σ e a matriz de covariancias populacional das variaveis e µ e o vetor de medias populaci-

onal das variaveis. O exemplo mais simples de funcao de densidade normal multivariada e a de

densidade normal bivariada com q = 2; isto pode ser escrito explicitamente

f((x1, x2); (µ1, µ2), σ1, σ2, ρ) =(2πσ1σ2(1− ρ2)

)−1/2(1.2)

× exp

{− 1

2(1− ρ2)×

[(x1 − µ1

σ1

)2

+

(x2 − µ2

σ2

)2

(1.3)

− 2ρx1 − µ1

σ1

x2 − µ2

σ2

]}, (1.4)

onde µ1 e µ2 sao as medias populacionais das duas variaveis, σ21 e σ2

2 sao as variancias populacio-

nais, e ρ e o coeficiente de correlacao populacional entre as duas variaveis X1 e X2. A figura 1.1

mostra um exemplo de uma funcao de densidade normal bivariada com ambas as medias iguais a

zero, ambas as variancias iguais a um, e correlacao igual a 0.5.

O vetor de medias populacionais e a matriz de covariancias populacionais de uma funcao de

densidade multivariada sao estimados a partir de uma amostra de observacoes multivariadas con-

forme descrito nas subsecoes anteriores.

Uma propriedade da funcao de densidade normal multivariada que vale a pena mencionar e que

combinacoes lineares das variaveis (ou seja, y = a1X1 +a2X2 + · · ·+aqXq, onde a1, a2, · · · , aq e

um conjunto de escalares) sao normalmente distribuıdas com media aTµ e variancia aTΣa, onde

aT = (a1, a2, · · · , aq). Combinacoes lineares de variaveis terao muita importancia neste trabalho,

Page 32: análise em componentes e escalonamento multidimensional

17

x1

x2

f(x)

Figura 1.1: Funcao de densidade normal bivariada com (µ1, µ2, σ1, σ2, ρ) = (0, 0, 1, 1, 0.5).

particularmente em Analise de componentes principais.

Para muitos metodos multivariados, o pressuposto de normalidade multivariada nao e crıtico

para os resultados da analise, mas pode haver ocasioes em que o teste de normalidade multi-

variada pode ser de interesse. Pode-se iniciar por meio da avaliacao de normalidade univariada

separada para cada variavel usando um grafico de probabilidade. Tais graficos sao comumente

aplicados na analise univariada e envolvem ordenar as observacoes e, em seguida, traca-los contra

os valores apropriados de uma funcao de distribuicao acumulada assumido. Existem dois tipos

basicos de graficos para comparar duas distribuicoes de probabilidade: o grafico P-P e o grafico

Q-Q. O diagrama na figura 1.2 pode ser utilizado para descrever cada tipo.

Um grafico de pontos cujas coordenadas sao as probabilidades acumuladas p1(q) e p2(q) para

diferentes valores de q com

p1(q) = P (X1 ≤ q),

p2(q) = P (X2 ≤ q),

para variaveis aleatorias X1 e X2 e um grafico probabilidade-probabilidade, enquanto que um

grafico dos pontos cujas coordenadas sao os quantis (q1(p), q2(p)) para diferentes valores de p

Page 33: análise em componentes e escalonamento multidimensional

18

Fun

ção

de d

istr

ibui

ção

acum

ulad

a

q q2(p) q1(p)

0p 1

(q)

p 2(q

)p

1

Figura 1.2: Relacao entre a funcao de distribuicao acumulada e os quantis (funcao quantil) - umae a inversa da outra.

com

q1(p) = p−11 (p),

q2(p) = p−12 (p),

e um grafico quantil-quantil. Por exemplo, um grafico quantil-quantil para investigar o pressuposto

de que um conjunto de dados e oriundo de uma distribuicao normal e feito plotando os valores

amostrais ordenados da variavel 1 (ou seja, x(1)1, x(2)1, · · · , x(n)1) contra os quantis de uma

distribuicao normal padrao, Φ−1(p(i)) , onde geralmente

pi =i− 1

2

ne Φ(x) =

∫ x

−∞

1√2πe−

12u2du.

Isto e conhecido como grafico de probabilidades normais.

Para dados multivariados, graficos de probabilidades normais podem ser usados para examinar

cada variavel separadamente, embora normalidade marginal nao implique normalidade multivari-

ada. Alternativamente (ou adicionalmente), cada observacao multivariada pode de alguma forma

ser convertida em um unico numero antes da plotagem. Por exemplo, no caso especıfico de avaliar

normalidade multivariada para um conjunto de dados, cada observacao q-dimensional, xi, pode

ser convertida em uma distancia generalizada, d2i , fornecendo uma medida da distancia entre a

Page 34: análise em componentes e escalonamento multidimensional

19

particular observacao e o vetor de medias da amostra, x; d2i e calculada como

d2i = (xi − x)TS−1(xi − x),

onde S e a matriz de covariancias amostrais. Esta medida de distancia leva em conta as diferentes

variancias das variaveis e as covariancias de pares de variaveis. Se as observacoes surgem de uma

distribuicao normal multivariada, entao essas distancias tem aproximadamente uma distribuicao

qui-quadrado com q graus de liberdade, tambem representada pelo sımbolo χ2q. Entao, tracando

as distancias ordenadas contra os quantis correspondentes da adequada distribuicao qui-quadrado

deve levar a uma linha reta que passa pela origem.

Vamos agora avaliar a normalidade dos dados de medidas corporais da tabela 1.3, embora o

pequeno tamanho da amostra (20 observacoes) nos impeca de tirar uma conclusao convincente.

A figura 1.3 mostra graficos de probabilidade (do tipo Q-Q) separados para cada medida; parece

nao haver nenhuma evidencia de eventuais desvios de linearidade. O grafico qui-quadrado das 20

distancias generalizadas da figura 1.4 parece desviar-se um pouco da linearidade, mas com poucas

observacoes e difıcil ter certeza.

●●

−2 −1 0 1 2

3436

3840

42

Tórax

Theoretical Quantiles

Samp

le Qua

ntiles

● ●

●●

−2 −1 0 1 2

2224

2628

3032

Cintura

Theoretical Quantiles

Samp

le Qua

ntiles

●●

−2 −1 0 1 2

3234

3638

4042

Ancas

Theoretical Quantiles

Samp

le Qua

ntiles

Figura 1.3: Graficos de probabilidades normais das medidas de torax, cintura e quadril.

Vamos agora utilizar o grafico qui-quadrado em um conjunto de dados de poluicao atmosferica

introduzido no inıcio do capıtulo, (ver tabela 1.5). Os graficos de probabilidade normais para cada

variavel separada sao apresentados na figura 1.5.

Page 35: análise em componentes e escalonamento multidimensional

20

●● ● ●

●● ● ● ●

●●

● ●

● ●

● ●

0 2 4 6 8

24

68

Quantil χ32

Dis

tânc

ias

orde

nada

s

Figura 1.4: Grafico χ2 de distancias generalizadas dos dados biometricos.

Ambos os graficos para a concentracao de SO2 e precipitacao desviam-se consideravelmente

da linearidade, e os graficos de manufatura e de populacao mostram evidencias de outliers. Mas

de maior importancia e o grafico qui-quadrado dos dados, o qual e mostrado na figura 1.6 (Os

dois pontos mais extremos no grafico foram rotulados com os nomes das cidades que lhes corres-

pondem).

Este exemplo ilustra que o grafico qui-quadrado pode tambem ser util para a deteccao de

possıveis outliers em dados multivariados, onde outliers sao informalmente valores “anormais”, no

sentido de se desviarem da variabilidade natural dos dados. Identificacao de outliers e importante

em muitas aplicacoes de analise multivariada ou porque ha algum interesse especıfico em encontrar

observacoes anomalas ou como uma tarefa de pre-processamento antes da aplicacao de algum

metodo multivariado a fim de preservar os resultados enganosos de possıveis efeitos produzidos

por estas observacoes. Varios metodos para a identificacao de outliers multivariados ja foram

propostos (ver, por exemplo, (Rocke & Woodruff, 1996; C. Becker & Gather, 2001).

Page 36: análise em componentes e escalonamento multidimensional

21

●●

●●●

●●●●

● ● ●●

●●

● ●●

−2 −1 0 1 2

2080

SO2

Theoretical Quantiles

Sam

ple

Qua

ntile

s

●●

●●

●● ●

●● ●●

●●

●●

●●

●● ●●

−2 −1 0 1 2

4560

75

temp

Theoretical Quantiles

Sam

ple

Qua

ntile

s

● ●●

●●

●●

●●●

●●

●●

●● ●●●

● ●●●● ●

● ●●●●●●

●●

●●

−2 −1 0 1 2

020

00

manu

Theoretical Quantiles

Sam

ple

Qua

ntile

s

● ●●

●●

●●●

●●

●●●●

●● ●

●●●

●●● ●

●●● ●●

●● ● ●●●

−2 −1 0 1 2

020

00

popul

Theoretical Quantiles

Sam

ple

Qua

ntile

s

● ● ●●

●●

●●

●●●●

●●

● ●

●●●

●●●

−2 −1 0 1 2

69

12

wind

Theoretical Quantiles

Sam

ple

Qua

ntile

s

●●

●●

●●

● ●●

●●

●●

●●

●●

●●●

●●

●● ●●

−2 −1 0 1 2

1040

precip

Theoretical Quantiles

Sam

ple

Qua

ntile

s

●●

●●

●●

●●

● ●●

●●

●●●

●●

●●

●●●

●● ●●

●●

● ●

−2 −1 0 1 2

4012

0

predays

Theoretical Quantiles

Sam

ple

Qua

ntile

s

Figura 1.5: Graficos de probabilidades normais para os dados de poluicao do ar.

Page 37: análise em componentes e escalonamento multidimensional

22

● ●

●● ●

●●●●●●●

●●●●●●●

●●●●

●●●●● ●

● ● ● ●

●●

5 10 15 20

510

1520

25

Quantil χ72

Dis

tânc

ias

orde

nada

s

Providence

Phoenix

Chicago

Figura 1.6: Grafico χ2 de distancias generalizadas para os dados de poluicao do ar.

Page 38: análise em componentes e escalonamento multidimensional

23

Capıtulo 2

ANALISE DE COMPONENTES PRINCIPAIS: O METODO-CHAVE

DE ORDENACAO EM ANALISE MULTIVARIADA

2.1 Introducao

Um dos problemas com muitos conjuntos de dados multivariados e que simplesmente ha “muitas”

variaveis, e com isso tecnicas graficas exploratorias nao surtirao efeito para o entendimento dos

dados. Alem disso, ter muitas variaveis tambem pode ser um problema para outras tecnicas mul-

tivariadas que podem ser necessarias aplicar aos dados. Tal problema e conhecido na literatura

como maldicao da dimensionalidade - ver Bellman (1961); B. Everitt and Skrondal (2010). Cla-

ramente, diagramas de dispersao, matrizes de diagramas de dispersao e outras tecnicas graficas

sao muito mais uteis quando o numero de variaveis dos dados, a dimensionalidade dos dados, e

relativamente pequena (usualmente dimensao 2 ou 3). Isso nos leva a analise de componentes

principais (doravante ACP), uma tecnica multivariada cujo principal objetivo e reduzir a dimensio-

nalidade de um conjunto de dados, preservando tanto quanto possıvel a variacao original presente

nos dados. Isso e feito fazendo-se uma transformacao nos dados para se obter um novo conjunto

de variaveis, as componentes principais, que sao combinacoes lineares das variaveis originais, nao

correlacionadas e ordenadas de forma que as primeiras poucas componentes principais carregam

a maior parte da variacao de todas as variaveis originais. No melhor dos mundos, o resultado de

uma ACP seria a criacao de um pequeno numero de novas variaveis que podem ser usadas como

substitutas do grande numero de variaveis originais, e consequentemente fornecer uma base mais

simples para, por exemplo, resumir ou visualizar graficamente os dados. Ou, ainda, fazer analises

estatısticas subsequentes.

2.2 Analise de componentes principais - ACP

O objetivo basico da ACP e descrever a variacao em um conjunto de variaveis correlaciona-

das, xT = (x1, · · · , xq), em termos de um novo conjunto de variaveis nao-correlacionadas,

yT = (y1, · · · , yq), cada uma das quais e uma combinacao linear das variaveis x. As novas

variaveis sao obtidas em ordem decrescente de “importancia” no sentido que y1 tem tanta va-

Page 39: análise em componentes e escalonamento multidimensional

24

riacao quanto possıvel dos dados originais entre todas as combinacoes lineares de x. Entao y2 e

escolhida para ter a maior variacao possıvel restante, com a restricao de ser nao-correlacionada

com y1, e assim por diante. As novas variaveis definidas por esse processo, y1, · · · , yq, sao as

componentes principais.

A esperanca geral da ACP e que as primeiras poucas componentes vao carregar uma proporcao

substancial da variacao das variaveis originais x1, · · · , xq e possa, consequentemente, ser usada

para fornecer um conveniente resumo de baixa dimensao destas variaveis que possa se provar util,

por uma variedade de motivos. Consideremos, por exemplo, um conjunto de dados pedagogico

com notas de alunos em varias disciplinas diferentes. Uma questao de interesse pode ser a melhor

forma de construir um ındice informativo global da performance nas provas. Uma possibilidade

obvia seria o escore medio de cada estudante, embora se a amplitude possıvel ou observada dos

escores variar de disciplina para disciplina, seja mais sensato ponderar os escores de alguma forma

antes de calcular a media, ou alternativamente, padronizar os resultados dos exames individuais

antes de tentar combina-los. Desta forma, seria possıvel dispersar mais os estudantes e obter

assim um melhor ranking. O mesmo resultado poderia ser conseguido aplicando componentes

principais ao resultados observados do exame e usar os escores dos estudantes das primeiras com-

ponentes principais para fornecer uma medida do sucesso do exame que discrimine ao maximo

entre os estudantes.

Um outro exemplo de aplicacao de ACP aparece em Economia, onde dados complexos sao

frequentemente resumidos em algum numero-ındice; por exemplo, ındices de preco, custo de vida

etc. Ao olhar as mudancas de preco no tempo, o economista vai levar em consideracao que

os precos de algumas commodities variam mais que outras, ou que os precos de algumas delas

sao mais importantes que os precos de outras; em cada caso, o ındice necessitara ser ponderado

de acordo. Em tais exemplos, a primeira componente principal frequentemente vai satisfazer as

necessidades do investigador.

Mas nem sempre o interesse maior do pesquisador estara na primeira componente principal.

Um taxonomista, por exemplo, ao investigar variacao em medidas morfologicas de animais cujas

correlacoes sejam provavelmente positivas, frequentemente estara mais interessado na segunda e

subsequentes componentes principais, que podem fornecer uma descricao conveniente de aspec-

tos da “forma” de um animal. Esta ultima frequentemente sera de mais interesse ao pesquisador

do que aspectos do “tamanho” de um animal, os quais serao refletidos na primeira componente

Page 40: análise em componentes e escalonamento multidimensional

25

principal, devido as correlacoes positivas. Essencialmente pelas mesmas razoes, a primeira compo-

nente principal derivada de escores psiquiatricos de pacientes pode tao somente fornecer um ındice

de severidade dos sintomas, e as componentes remanescentes darao ao psiquiatra informacoes im-

portantes acerca do “padrao” dos sintomas.

Componentes principais sao mais comumente (e propriamente) usadas como meio de construir

uma representacao grafica informativa dos dados, ou como passo inicial para outras analises. Um

exemplo desta ultima utilizacao da ACP e fornecida por analise de regressao. Neste contexto de

analise de regressao, componentes principais podem ser uteis quando:

• Ha muitas variaveis explicativas em relacao ao numero de observacoes;

• As variaveis explicativas sao altamente correlacionadas.

Ambas as situacoes levam a problemas ao aplicar-se tecnicas de analise de regressao. Es-

ses problemas podem ser solucionados substituindo as variaveis originais pelas primeiras poucas

componentes principais delas derivadas. Aplicacoes da tecnica estao descritas em (Rencher, 2002).

Em algumas disciplinas, em particular Psicologia e outras ciencias do comportamento, ACP

pode ser considerada um fim em si mesma, e os pesquisadores vao tentar interpreta-la de forma

similar aos fatores em analise fatorial exploratoria.

2.3 Encontrando as componentes principais amostrais

Componentes principais sao, acima de tudo, uma tecnica exploratoria para dados multivariados.

Apesar de haver metodos de inferencia para utilizar componentes principais amostrais deriva-

das de uma amostra aleatoria de indivıduos de alguma populacao para testar hipoteses sobre as

componentes principais populacionais - como descrito em Jolliffe (2002), tais metodos raramente

aparecem na literatura. Em essencia, ACP ajuda a entender os dados observados, independente

de ser ou nao uma “amostra” em qualquer sentido real. Destarte, doravante serao trabalhadas

componentes principais amostrais neste trabalho.

A primeira componente principal das observacoes e a combinacao linear das variaveis originais

cuja variancia amostral e maxima entre todas as possıveis combinacoes lineares. A segunda com-

ponente principal e definida como sendo a combinacao linear das variaveis originais que conta

para uma proporcao maxima da variancia remanescente, sujeita a ser nao correlacionada com a

Page 41: análise em componentes e escalonamento multidimensional

26

primeira componente principal. Componentes subsequentes sao definidas similarmente. A questao

que aparece agora e como os coeficientes da combinacao linear que define cada componente sao

encontrados.

A primeira componente principal das observacoes, y1, e a combinacao linear

y1 = a11x1 + a12x2 + · · ·+ a1qxq,

cuja variancia amostral e a maior entre todas as possıveis combinacoes lineares. Como a variancia

de y1 pode ser aumentada sem limite apenas aumentando os coeficientes aT1 = (a11, · · · , a1q),

uma restricao deve ser colocada sobre os coeficientes. Como veremos mais tarde, uma restricao

sensata e impor que a soma dos quadrados dos coeficientes seja um, conquanto outras restricoes

sejam possıveis e qualquer multiplo do vetor a1 produza basicamente a mesma componente.

Para encontrar os coeficientes que definem a primeira componente principal, precisamos esco-

lher os elementos de a1 que maximizem a variancia de y1, com a restricao da soma dos quadrados,

a qual pode ser escrita aT1 a1 = 1. A variancia amostral de y1 que e funcao linear das variaveis

x e dada por aT1Sa1, onde S e a matriz q × q de covariancias amostrais das variaveis x. Para

maximizar uma funcao de varias variaveis sujeitas a uma ou mais restricoes, o metodo dos multi-

plicadores de Lagrange e utilizado. Para detalhes completos, consultar Jolliffe (2002), (a algebra

de um exemplo com q = 2 e dada na Secao 2.5). Apenas afirmamos que o metodo dos multipli-

cadores de Lagrange leva a solucao que a1 e o autovetor (ou vetor caracterıstico) da matriz de

covariancias, S, correspondente ao maior autovalor (ou raiz caracterıstica) de S. Os autovalores

λ e autovetores γ de uma matriz A q × q sao tais que Aγ = λγ ; para mais detalhes, consultar

Mardia et al. (1979).

A segunda componente principal, y2, e definida como a combinacao linear

y2 = a21x1 + a22x2 + · · ·+ a2qxq

(isto e, y2 = aT2 x, onde aT2 = (a21, a22, · · · , a2q) e xT = (x1, x2, · · · , xq)) que tem a maior

variancia sujeita as seguintes duas condicoes:

aT2 a2 = 1,

aT2 a1 = 0.

Page 42: análise em componentes e escalonamento multidimensional

27

(A segunda restricao garante que y1 e y2 sejam nao-correlacionados; i.e., que a correlacao amos-

tral seja zero).

Analogamente, a j-esima componente principal e a combinacao linear yj = aTj x que tem

maior variancia sujeita as condicoes

aTj aj = 1

aTj ai = 0(i < j).

A aplicacao do metodo dos multiplicadores de Lagrange demonstra que o vetor de coeficientes

definindo a j-esima componente principal, aj, e o autovetor de S associado com o seu j-esimo

maior autovalor. Denotando os q autovalores de S por λ1, λ2, · · · , λq, entao impondo aTi ai = 1,

pode-se mostrar que a variancia da i-esima componente principal e dada por λi. A variancia total

das q componentes principais sera igual a variancia total das variaveis originais, de sorte que

q∑i=1

λi = s21 + s22 + · · ·+ s2q,

onde s2i e a variancia amostral de xi. Podemos escrever isso mais concisamente como∑q

i=1 λi =

tr(S).

Consequentemente, a j-esima componente principal conta para uma proporcao Pj da variacao

dos dados originais, onde

Pj =λj

tr(S).

As primeiras m componentes principais, onde m < q, contam para uma proporcao P (m) da

variacao nos dados originais, onde

P (m) =

∑mj=1 λj

tr(S)

Em termos geometricos, e facil mostrar que a primeira componente principal define a reta de me-

lhor ajuste (no sentido de minimizar os resıduos ortogonais a reta) as observacoes q-dimensionais

na amostra. Essas observacoes podem entao ser representadas em uma dimensao tomando sua

projecao sobre esta reta, ou seja, encontrando seu escore da primeira componente principal. Se

as observacoes calharem de ser colineares nas q dimensoes, esta representacao contaria comple-

tamente para a variacao nos dados e a matriz de covariancias amostral teria apenas um autovalor

nao-nulo. Na pratica, e claro, tal colinearidade e extremamente improvavel, e uma representacao

melhorada seria dada projetando as observacoes q-dimensionais no espaco de melhor ajuste, defi-

nido pelas duas primeiras componentes principais. Similarmente, as primeiras m componentes dao

Page 43: análise em componentes e escalonamento multidimensional

28

o melhor ajuste em m dimensoes. Se as observacoes se ajustam perfeitamente num espaco de m

dimensoes, isso seria indicado pela presenca de q−m autovalores nulos da matriz de covariancias.

Isso implicaria na presenca de q − m relacoes lineares entre as variaveis. Tais restricoes sao as

vezes referidas como relacoes estruturais. Na pratica, na vasta maioria das aplicacoes de ACP,

todos os autovalores da matriz de covariancias serao nao-nulos.

2.4 As componentes principais devem ser extraıdas da matriz de covariancias ou da

matriz de correlacoes?

Um problema da ACP e que ela nao e invariante a escala. O que isso significa pode ser explicado

usando um exemplo dado em Mardia et al. (1979). Suponha que tres variaveis num conjunto mul-

tivariado de dados sejam peso (em libras), altura (em pes) e idade (em anos), mas por algum

motivo gostarıamos que nossas componentes principais fossem expressas em oncas, polegadas e

decadas, respectivamente. Intuitivamente, duas abordagens parecem razoaveis:

1. Multiplicar as variaveis por 16, 12 e 0.1, respectivamente, e entao fazer ACP na matriz de

covariancias das tres variaveis;

2. Fazer ACP na matriz de covariancias das variaveis originais e entao multiplicar os elementos

das componentes relevantes por 16, 12 e 0.1.

Infelizmente, essas duas abordagens em geral nao levam ao mesmo resultado. Entao, se puder-

mos imaginar um conjunto multivariado de dados com variaveis de tipos completamente distintos,

por exemplo comprimento, temperatura, pressao sanguınea ou taxa de ansiedade, entao a estru-

tura das componentes principais obtidas da matriz de covariancias dependera essencialmente da

escolha arbitraria das unidades de medida; por exemplo, mudando o comprimento de centımetros

para polegadas ira alterar as componentes derivadas. Adicionalmente, se ha grandes diferencas

entre as variancias das variaveis originais, entao aquelas cujas variancias sao maiores tenderao a

dominar as primeiras componentes. Componentes principais devem ser extraıdas da matriz de co-

variancias amostrais apenas quando todas as variaveis originais tem, em geral, escalas parecidas.

Contudo, isso e raro na pratica, e consequentemente, as componentes principais sao extraıdas da

matriz de correlacoes, R. Extrair as componentes como autovetores de R e equivalente a calcular

as componentes principais das variaveis originais apos cada uma ser padronizada de forma a terem

variancia unitaria. Deve se notar, contudo, que raramente ha uma correspondencia simples entre

Page 44: análise em componentes e escalonamento multidimensional

29

as componentes derivadas de S e as derivadas de R. E escolher trabalhar com R ao inves de S

envolve uma decisao definida, conquanto arbitraria, de fazer variaveis “igualmente importantes”.

Para demonstrar como as componentes principais da matriz de covariancias de um conjunto de

dados podem variar das componentes extraıdas da matriz de correlacoes dos dados, vamos usar o

exemplo contido em Jolliffe (2002). Os dados nesse exemplo consistem de oito variaveis quımicas

do sangue, medidas em 72 pacientes num ensaio clınico. A matriz de correlacoes, juntamente

com os desvios-padrao de cada uma das variaveis, sao dados nas tabelas 2.1 e 2.2:

Tabela 2.1: Desvios-padrao de variaveis quımicas sanguıneas.

Variavel DPrblood 0,37

plate 41,25wblood 1,94

neut 0,08lymph 0,07

bilir 4,04sodium 2,73potass 0,30

Tabela 2.2: Matriz de correlacoes de variaveis quımicas sanguıneas.

1 2 3 4 5 6 7 81 1,00 0,29 0,20 -0,06 -0,10 -0,25 -0,23 0,062 0,29 1,00 0,41 0,28 -0,38 -0,35 -0,16 -0,133 0,20 0,41 1,00 0,42 -0,52 -0,44 -0,14 -0,084 -0,06 0,28 0,42 1,00 -0,88 -0,08 0,02 -0,135 -0,10 -0,38 -0,52 -0,88 1,00 0,21 0,03 0,156 -0,25 -0,35 -0,44 -0,08 0,21 1,00 0,19 0,087 -0,23 -0,16 -0,14 0,02 0,03 0,19 1,00 0,428 0,06 -0,13 -0,08 -0,13 0,15 0,08 0,42 1,00

Ha diferencas consideraveis entre os desvios-padrao. Podemos aplicar ACP tanto na matriz

de covariancias quanto na de correlacoes dos dados. Vamos comecar com ACP na matriz de

covariancias. Os resultados estao nas tabelas 2.3 e 2.4.

Agora vamos fazer ACP na matriz de correlacoes. Os resultados estao nas tabelas 2.5 e 2.6.

(Espacos em branco representam valores muito pequenos). Cada uma das componentes prin-

cipais da matriz de covariancias e largamente dominada por uma unica variavel, enquanto as

Page 45: análise em componentes e escalonamento multidimensional

30

Tabela 2.3: Resultados da ACP na matriz de covariancias dos dados de quımica do sangue - parte1: variancias.

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8DP 41,29 3,88 2,64 1,62 0,35 0,256 0,085 0,024

Prop. da variancia 0,99 0,0087 0,0040 0,002 0,00 0,00 0,00 0,00Prop. acumulada 0,986 0,994 0,998 0,999 1,00 1,00 1,00 1,00

Tabela 2.4: Resultados da ACP na matriz de covariancias dos dados de quımica do sangue - parte2: cargas.

Variavel Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8rblood 0,943 0,329

plate -0,999wblood -0,192 -0,981

neut 0,758 0,650lymph -0,649 0,760

bilir 0,961 0,195 -0,191sodium 0,193 -0,979potass 0,329 -0,942

Tabela 2.5: Resultados da ACP na matriz de correlacoes dos dados de quımica do sangue - parte1: variancias.

Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8DP 1,67 1,24 1,12 0,88 0,79 0,70 0,66 0,32

Prop. da variancia 0,349 0,191 0,156 0,097 0,078 0,06 0,05 0,01Prop. acumulada 0,349 0,540 0,697 0,794 0,872 0,933 0,987 1,00

Tabela 2.6: Resultados da ACP na matriz de correlacoes dos dados de quımica do sangue - parte2: cargas.

Variavel Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 Comp.8rblood -0,194 0,417 0,400 0,652 0,175 -0,363 0,176 0,102

plate -0,400 0,154 0,168 -0,848 0,230 -0,110wblood -0,459 0,168 -0,274 0,251 0,403 0,677

neut -0,430 -0,472 -0,171 0,169 0,118 -0,237 0,678lymph 0,494 0,360 -0,180 -0,139 0,136 0,157 0,724

bilir 0,319 -0,320 -0,277 0,633 -0,162 0,384 0,377sodium 0,177 -0,535 0,410 -0,163 -0,299 -0,513 0,367potass 0,171 -0,245 0,709 0,198 0,469 -0,376

Page 46: análise em componentes e escalonamento multidimensional

31

componentes da matriz de correlacoes tem coeficientes de tamanho moderado em varias das

variaveis. E a primeira componente da matriz de covariancias carrega quase 99% da variancia

total das variaveis observadas.

As componentes da matriz de covariancias sao completamente dominadas devido ao fato de

a variancia da variavel plate ser cerca de 400 vezes maior do que a variancia do que todas

as outras 7 variaveis. Consequentemente, as componentes principais da matriz de covariancias

simplesmente refletem a ordem das magnitudes das variancias das variaveis observadas. Os re-

sultados da matriz de correlacoes nos dizem, em particular, que um contraste ponderado das

primeiras quatro e das ultimas quatro variaveis e a funcao linear com maior variancia.

Este exemplo ilustra que, quando as variaveis estao em escalas muito distintas ou tem

variancias muito diferentes, uma ACP dos dados deve ser feita apenas na matriz de correlacoes,

e nao na matriz de covariancias.

2.5 Componentes principais de dados bivariados com coeficiente de correlacao r

Antes de irmos diretamente para alguns exemplos praticos de aplicacao de ACP, sera salutar olhar

um pouco mais em detalhes a matematica do metodo num caso bem simples. Faremos isso nesta

secao para dados bivariados onde as duas variaveis, x1 e x2, tem coeficiente de correlacao r. A

matriz de correlacoes nesse caso e simplesmente

R =

[1 r

r 1

].

Para obter as componentes principais dos dados, necessitamos encontrar os autovalores e auto-

vetores de R. Os autovalores sao encontrados resolvendo a equacao

det(R− λI) = 0.

Isso leva a equacao quadratica em λ

(1− λ)2 − r2 = 0,

e resolvendo esta equacao obtemos os autovalores λ1 = 1 + r, λ2 = 1 − r. Reparemos que∑2i=1 λi = tr(R). O autovetor correspondente a λ1 e obtido resolvendo a equacao

Ra1 = λ1a1.

Page 47: análise em componentes e escalonamento multidimensional

32

Isso leva as equacoes

a11 + ra12 = (1 + r)a11,

ra11 + a12 = (1 + r)a12.

As duas equacoes sao identicas, e ambas se reduzem a a11 = a12. Introduzindo agora a restricao

normalizante aT1 a1 = 1, encontramos

a11 = a12 =1√2.

Similarmente, encontramos o segundo autovetor dado por a21 = 1√2

e a22 = − 1√2.

As duas componentes principais sao dadas, entao, por

y1 =1√2

(x1 + x2) , y2 =1√2

(x1 − x2).

Podemos calcular a variancia amostral da primeira componente como

V ar(y1) = V ar

[1√2

(x1 + x2)

]=

1

2V ar(x1 + x2)

=1

2[V ar(x1) + V ar(x2) + 2Cov(x1, x2)]

=1

2(1 + 1 + 2r) = 1 + r.

Analogamente, a variancia da segunda componente e 1− r.

Reparemos que, se r < 0, a ordem dos autovalores e, por conseguinte, das componentes

principais e invertida; se r = 0, os autovalores sao ambos iguais a 1 a quaisquer duas solucoes

em angulos retos poderia ser escolhida para representar as duas componentes.

Dois pontos devem ser notados:

1. Ha um sinal arbitrario na escolha dos elementos de ai. E uma convencao escolher ai1 como

sendo positivo;

2. Os coeficientes que definem as duas componentes nao dependem de r, embora a proporcao

da variancia explicada por cada uma mude com r. Quando r tende a 1, a proporcao da

variancia que y1 carrega, (1 + r)/2, tambem tende a 1. Quando r = 1, todos os pontos

estao alinhados em uma linha reta e a variacao nos dados e unidimensional.

Page 48: análise em componentes e escalonamento multidimensional

33

2.6 Re-escalonando as componentes principais

Os coeficientes que definem as componentes principais encontradas (conforme descrito na secao

anterior) sao frequentemente re-escalonados de forma a serem correlacoes ou covariancias entre as

variaveis originais e as componentes obtidas. Os coeficientes re-escalonados sao frequentemente

uteis em interpretar uma ACP. A covariancia da variavel i com componente j e dada por

Cov(xi, yj) = λjaji.

A correlacao da variavel xi com componente yj e, entao,

rxi,yj =λjaji√

V ar(xi)V ar(yj)=

λjaji

si√λj

=aji√λj

si.

Se as componentes sao extraıdas da matriz de correlacoes ao inves da matriz de covariancias, a

correlacao entre variavel e componente torna-se

rxi,yj = aji√λj,

porque, nesse caso, o desvio-padrao, si, e unitario (embora, por conveniencia, usamos a mesma

nomenclatura para autovalores e autovetores extraıdos da matriz de covariancias ou da matriz

de correlacoes, obviamente eles nao serao iguais). Os coeficientes re-escalonados de uma ACP

de uma matriz de correlacoes sao analogos as cargas fatoriais utilizadas em analise fatorial. Fre-

quentemente esses coeficientes sao apresentados como os resultados de uma ACP e usados na

interpretacao.

2.7 Como as componentes principais predizem a matriz de covariancias observada

Nesta secao, vamos olhar como as componentes principais reproduzem a matriz de covariancias

(ou de correlacoes) observada da qual foram extraıdas. Para comecar, sejam os vetores iniciais

a1,a2, · · · ,aq, que definem as componentes principais usadas para formar uma matriz q × q,

A = (a1,a2, · · · ,aq); vamos assumir que esses sao os vetores extraıdos da matriz de covariancias,

S, e escalonados tais que aTi ai = 1. Aloque os autovalores λ1, λ2, · · · , λq ao longo da diagonal

principal de uma matriz diagonal, Λ. Entao pode-se mostrar que a matriz de covariancias dos

variaveis observadas x1, x2, · · · , xq e dada por

S = AΛAT .

Page 49: análise em componentes e escalonamento multidimensional

34

Isso e conhecido como a decomposicao espectral de S. Re-escalonando os vetores a1,a2, · · · ,aqde sorte que a soma dos quadrados dos seus elementos seja igual ao autovalor correspondente

(i.e., calculando a∗i = λ1/2i ai) permite que S seja escrita de forma mais simples como

S = A∗A∗T ,

, onde A∗ = (a∗1 · · ·a∗q).

Se a matriz A∗m e formada, por exemplo, pelas primeiras m componentes ao inves de todas

as q componentes, entao A∗mA∗Tm fornece o valor predito de S baseado nessas m componentes.

Frequentemente e util calcular tal valor predito baseado no numero de componentes considerados

adequados para descrever os dados para informalmente avaliar o “ajuste” da ACP. Como esse

numero de componentes pode ser escolhido e o assunto da proxima secao.

2.8 Escolhendo o numero de componentes

Conforme descrito antes, ACP e entendida como uma tecnica para transformar um conjunto de

variaveis observadas em um novo conjunto de variaveis nao correlacionadas. A variacao nas q

variaveis originais e apenas completamente abarcada por todas as q componentes principais. En-

tretanto, a utilidade dessas variaveis transformadas encontra-se exatamente em sua propriedade-

chave de abarcar a variancia em proporcoes decrescentes. A primeira componente, por exemplo,

abarca a quantidade maxima de variacao possıvel para qualquer combinacao linear das variaveis

originais. Porem, o quao util e essa variacao artificial construıda a partir das variaveis originais?

Para responder essa questao, primeiro precisarıamos conhecer a proporcao da variancia total das

variaveis originais que ela abarcou. Por exemplo, se 80% da variacao em um conjunto multiva-

riado de dados envolvendo 6 variaveis pudesse ser abarcada por uma media ponderada simples

dos valores das variaveis, entao quase toda a variacao pode ser expressa ao longo da reta real,

ao inves do espaco de dimensao seis, R6. A ACP proveria um sumario altamente parcimonioso 1

(reduzindo a dimensionalidade dos dados de 6 para 1), que poderia ser util em analises posteriores.

Entao, a questao que agora precisamos responder e: Quantas componentes sao necessarias

para prover um sumario adequado de um dado conjunto de dados? Ha varias tecnicas disponıveis,

formais e informais. Aqui, iremos nos focar nas tecnicas informais; exemplos do uso de metodos

1Princıpio da parcimonia - ver B. Everitt and Skrondal (2010), entrada “parsimony principle” e “Occam’srazor”.

Page 50: análise em componentes e escalonamento multidimensional

35

inferenciais formais sao dados em Jolliffe (2002); Rencher (2002).

Os mais comuns dos procedimentos relativamente ad hoc ja sugeridos para se decidir pelo

numero de componentes a reter sao os seguintes:

• Reter apenas as componentes suficientes que expliquem um percentual especıfico (pre-

definido) da variacao total das variaveis originais. Valores entre 70% e 90% sao usualmente

sugeridos, embora valores menores tambem possam ser apropriados, a medida que q ou n

(tamanho da amostra) aumentem;

• Excluir as componentes principais cujos autovalores sejam menores que a media,∑q

i=1λiq

.

Como∑q

i=1 λi = tr(S), o autovalor medio e tambem a variancia media das variaveis

originais. Este metodo, entao, retem as componentes que abarcam mais variancia que a

media para as variancias observadas;

• Quando as componentes sao extraıdas da matriz de correlacoes, tr(R) = q, logo a variancia

media e unitaria, entao aplicando a regra anterior, componentes com autovalores menores

que 1 sao excluıdos. Esta regra foi originalmente sugerida por Kaiser (1958) e e conhecida

na literatura como criterio de Kaiser B. Everitt and Skrondal (2010) ou de Kaiser-Harris,

segundo Kabacoff (2011); Jolliffe (1972), com base em varios estudos de simulacao, propos

que um procedimento mais apropriado seria excluir componentes extraıdas da matriz de

correlacoes cujos autovalores associados sejam menores que 0.7 (Vamos chamar este me-

lhoramento de criterio de Jolliffe);

• Cattell (1966) sugere examinar o grafico de λi contra i, o chamado scree diagram. O

numero de componentes selecionados e o valor de i correspondente a um “cotovelo” na

curva, isto e, uma mudanca na inclinacao de “muito inclinada” para “pouco inclinada”. De

fato, Cattell foi mais especıfico do que isso, recomendando procurar um ponto no grafico

alem do qual o scree diagram define uma linha “mais ou menos reta”, nao necessariamente

horizontal. O primeiro ponto nessa linha e entao tomado como a ultima componente a ser

retida. E valido mencionar que Cattell sugeriu o scree diagram mais fortemente no contexto

da analise fatorial do que no contexto da ACP. Vamos chamar esta metodologia de criterio

de Cattell;

• Uma modificacao do scree diagram descrito por Farmer (1971) e o diagrama log-autovalores,

que consiste no grafico de log(λi) contra i;

Page 51: análise em componentes e escalonamento multidimensional

36

• Kabacoff (2011) cita um metodo chamado analise paralela, que resumidamente consiste em

fazer simulacoes de matrizes aleatorias de mesma dimensao da matriz de dados, e obter os

autovalores. Entao, as componentes cujos autovalores sejam maiores que os correspondentes

autovalores medios das matrizes aleatorias sao retidas.

Retornando aos resultados da ACP dos dados quımicos do sangue mencionados da secao 2.4,

0

1

2

2 4 6 8Número da componente

Var

iânc

ia d

a co

mpo

nent

e

Figura 2.1: Scree diagram para ACP da matriz de correlacoes dos dados de quımica do sangue.

vemos que as primeiras 4 componentes abarcam quase 80% da variancia total, porem necessi-

tamos de mais 2 componentes principais para chegarmos a 90% da variancia total. Um ponto de

corte de 1 para os autovalores nos leva a reter 3 componentes, e com um ponto de corte de 0.7

4 componentes sao retidas. As figuras 2.8 e 2.2 mostram o scree diagram e grafico log-autovalor

para os dados. O primeiro sugere 4 componentes, embora seja um pouco subjetivo, e o ultimo

parece ser pouco elucidativo nesse caso, pois aparentemente indica reter 7 componentes, o que

e demais para os propositos de reducao de dimensionalidade2. Este exemplo ilustra bem que os

metodos propostos para escolha do numero de componentes podem - e frequentemente levam -

a diferentes conclusoes.

2Lembramos que o conjunto de dados original contem 8 variaveis. Destarte, reduzir de 8 para 7 variaveisprovavelmente nao e um ganho que compense o esforco de se fazer a ACP.

Page 52: análise em componentes e escalonamento multidimensional

37

−2

−1

0

1

2 4 6 8Número da componente

log(

Var

iânc

ia d

a co

mpo

nent

e)

Figura 2.2: Grafico Log-autovalores para ACP da matriz de correlacoes dos dados de quımica dosangue.

2.9 Calculando escores de componentes principais

Tendo entao decidido que precisamos de m componentes principais para representar adequada-

mente nossos dados, utilizando algum(ns) (dos) metodo(s) descrito(s) na secao anterior, geral-

mente o proximo passo e calcular os escores em cada uma das componentes para cada indivıduo

na amostra. Se, por exemplo, tivermos obtido as componentes da matriz de covariancias, S,

entao os escores das m componentes principais para o indivıduo i com vetor q × 1 de variaveis

original xi sao obtidos assim:

yi1 = aT1 xi

yi2 = aT2 xi

...

yim = aTmxi.

Se as componentes sao extraıdas da matriz de correlacoes, entao xi conteria os escores padroni-

zados de cada indivıduo i, para cada variavel.

Page 53: análise em componentes e escalonamento multidimensional

38

Os escores das componentes principais calculados como acima tem variancias iguais a λj, j =

1, 2 · · · ,m. Muitos analistas preferem ter escores com media 0 e variancia 1. Tais escores podem

ser encontrados usando

z = Λ−1m ATmx,

onde Λm = diag{λ1, λ2, · · · , λm}, Am = (a1 · · ·am), e x e o vetor q×1 de escores padronizados.

E importante ressaltar que as componentes principais sao as mesmas, independente de retermos

todas as q componentes possıveis ou apenas as m primeiras3.

2.10 Biplot

Um biplot e uma representacao grafica da informacao de uma matriz de dados n × p. O “bi”

significa que a tecnica exibe em um unico diagrama as variancias e covariancias das variaveis

como distancias entre as unidades. A tecnica e baseada na decomposicao em valores singulares

de uma matriz.

Um biplot e uma representacao bidimensional de uma matriz de dados obtida dos autovalores

e autovetores da matriz de covariancias, e obtida da seguinte forma:

X2 =[p1 p2

] [√λ1 0

0√λ2

][qT1

qT2

],

onde X2 e a aproximacao de “posto 2” da matriz de dados X, λ1 e λ2 sao os primeiros dois

autovalores da matriz nS, e q1 e q2 sao os autovetores correspondentes. Os vetores p1 e p2 sao

obtidos da seguinte forma:

pi =1√λiXqi; i = 1, 2.

O biplot e o grafico das n linhas de√n(p1,p2) e das q colunas de n−1/2(

√λ1q1,

√λ2q2) repre-

sentada como vetores. A distancia entre os pontos que representam as unidades reflete a distancia

generalizada entre as unidades; o comprimento do vetor, partindo da origem das coordenadas,

que representa uma dada variavel representa a magnitude da variancia daquela variavel; a cor-

relacao de duas variaveis e representada pelo angulo entre os dois respectivos vetores: quanto

menor o angulo, maior a correlacao. Para detalhes tecnicos completos, consultar (Gabriel, 1981;

J. C. Gower & Hand, 1996). No capıtulo 4 faremos uma ACP para dados do heptatlo olımpico

feminino. Ao fim da analise, construiremos um biplot para os referidos dados (ver figura 4.8), e

faremos a interpretacao do biplot para aqueles dados.

3Em analise fatorial, isto nao e verdade no calculo dos escores fatoriais.

Page 54: análise em componentes e escalonamento multidimensional

39

2.11 Tamanho de amostra para ACP

Muitas sugestoes ja foram propostas acerca do numero de unidades necessarias ao aplicar ACP.

Intuitivamente, n grande deveria levar a resultados mais convincentes e faze-los mais genera-

lizaveis. Contudo, infelizmente muitas das sugestoes feitas - por exemplo a de que n > 100 ou

n > 5q, onde q e o numero de variaveis - tem muito pouco suporte empırico.

Entretanto, Guadagnoli and Velicer (1988) revisaram varios estudos que concluıram que o

mais relevante e o valor mınimo de n, e nao a razao entre n e q, embora a amplitude dos valores

mınimos de n sugeridos nesses artigos, de 50 a 400, gere duvidas quanto a um valor mınimo

consensual. Outros autores, como Gorsuch (1983), indicaram a a razao entre n e q como sendo

mais relevante, indicando min{n : q} = 5 : 1

Talvez a investigacao mais detalhada desta questao esta em Osborne and Costello (2004),

que concluıram que os “melhores” resultados da ACP provem quando tanto n quanto n : q

sao grandes. Porem, os valores verdadeiros necessarios dependem fortemente da separacao dos

autovalores que definem a estrutura das componentes principais. Se estes autovalores estiverem

“proximos”, entao o n necessario devera ser maior do que deveria caso os autovalores estivessem

mais “separados”.

2.12 Exemplos de aplicacao da ACP

2.12.1 Comprimentos de cabeca do primeiro e segundo filhos

Como primeiro exemplo, vamos analisar um conjunto de dados bem simples, envolvendo apenas

duas variaveis. A vantagem, alem da simplicidade, e que vamos poder ilustrar graficamente um

ponto importante acerca deste tipo de analise.

A tabela 2.7 fornece as medidas de comprimento e amplitude de cabecas (em mm) para cada

um dos dois filhos adultos de 25 famılias. A tıtulo de curiosidade e cultura geral, a figura 2.3

explana visualmente o que e comprimento de cabeca (head length) e amplitude de cabeca (head

breadth).

Aqui vamos analisar apenas os comprimentos das cabecas.

Poderıamos fazer a analise univariada individual, mas este nao e o nosso objetivo aqui. Em

Page 55: análise em componentes e escalonamento multidimensional

40

Figura 2.3: O numero 2 da direita equivale ao comprimento da cabeca, e o numero 1 da esquerdaequivale a amplitude da cabeca.

Tabela 2.7: Dados de tamanhos de cabeca de primeiro e segundo filhos.

Amostra head1 breadth1 head2 breadth2 head1 breadth1 head2 breadth21 191 155 179 145 14 190 159 195 1572 195 149 201 152 15 188 151 187 1583 181 148 185 149 16 163 137 161 1304 183 153 188 149 17 195 155 183 1585 176 144 171 142 18 186 153 173 1486 208 157 192 152 19 181 145 182 1467 189 150 190 149 20 175 140 165 1378 197 159 189 152 21 192 154 185 1529 188 152 197 159 22 174 143 178 147

10 192 150 187 151 23 176 139 176 14311 179 158 186 148 24 197 167 200 15812 183 147 174 147 25 190 163 187 15013 174 150 185 152

Page 56: análise em componentes e escalonamento multidimensional

41

conjuntos de dados multivariados (a partir de q = 2), o primeiro passo e obter o vetor de medias

e a matriz de covariancias (ou de correlacoes). Obtemos x = (186184)T e

S =

[95 70

70 101

]Neste exemplo, como as duas variaveis estao em escalas muito parecidas, podemos fazer a

ACP tambem na matriz de covariancias. E o que vamos fazer a seguir:

Importancia das componentes:Comp.1 Comp.2

Desvio-padrao 12.69 5.22Prop. da variancia 0.86 0.14Prop. acumulada 0.86 1.00Cargas:

Comp.1 Comp.2head1 0.69 -0.72head2 0.72 0.69

Destarte, as componentes principais sao da forma

y1 = 0.69x1 + 0.72x2

y2 = −0.72x1 + 0.69x2,

com variancias 167.77 e 28.33. A primeira componente principal abarca 167.77/(167.77+28.33) =

86% da variancia total das variaveis originais. Notemos que a variancia total das componentes

principais e 167.77+28.33 = 196.1, o que como esperado e igual a variancia total das variaveis ori-

ginais, encontrada obtendo-se o traco da matriz de covariancias, tr(S) = 95.29 + 100.81 = 196.1

Como devemos interpretar as duas componentes principais? A primeira e, essencialmente, a

soma dos comprimentos das cabecas dos dois filhos, e a segunda e a diferenca no comprimento das

cabecas. Talvez possamos rotular a primeira componente “tamanho” e a segunda “forma”, porem

mais tarde faremos alguns comentarios sobre as tentativas de se rotular as componentes principais.

Para calcular o escore de um indivıduo em uma componente, simplesmente multiplicamos o

valor (centrado) da variavel pela respectiva carga, conforme visto na secao 2.9. Vamos ilustrar este

calculo utilizando os dados da primeira linha da tabela (primeira famılia), onde o comprimento da

cabeca do primeiro filho e 191mm, e do segundo filho e 179mm. O escore da primeira componente

principal para esta famılia e calculado como segue:

0.69 · (191− 185.72) + 0.72 · (179− 183.84) = 0.169,

Page 57: análise em componentes e escalonamento multidimensional

42

e na segunda componente e

−0.72 · (191− 185.72) + 0.69 · (179− 183.84) = −7.61.

A variancia dos escores da primeira componente principal sera 167.77, e a dos escores da segunda

componente principal sera 28.33

Podemos fazer um grafico mostrando os eixos correspondentes as duas componentes princi-

pais. O primeiro eixo passa pela media dos dados e tem coeficiente angular 0.721/0.693, e o

segundo eixo tambem passa pela media e tem coeficiente angular −0.693/0.721. O grafico esta

mostrado na figura 2.4. Este exemplo ilustra que uma ACP e essencialmente uma rotacao dos

eixos na nuvem multivariada de pontos. E tambem podemos plotar os escores das componentes

principais conforme exibido na figura 2.5 (notemos no grafico que a escala do eixo y esta igual a

do eixo x para termos um efeito visual da maior variancia da primeira componente principal).

●●

●●

2º eixo

principal

1º eixo

principal

160

170

180

190

200

170 180 190 200 210Tam. da cabeça do 1º. filho(mm)

Tam

. da

cabe

ça d

o 2º

. filh

o(m

m)

Figura 2.4: Comprimento de cabecas do primeiro e segundo filhos, mostrando os eixos correspon-dentes as componentes principais da matriz de covariancias amostrais dos dados.

Conforme vimos na secao 2.6 e 2.7, vamos utilizar a ACP para uma aplicacao interessante:

predizer a matriz de covariancias observada. Primeiro precisamos re-escalonar (ver secao 2.6) as

Page 58: análise em componentes e escalonamento multidimensional

43

−20

0

20

−20 0 20Componente 1

Com

pone

nte

2

Figura 2.5: Diagrama de dispersao das duas primeiras CP para os dados de tamanhos de cabeca.

componentes principais pelos seus respectivos desvios-padrao para fornecer as novas componentes

y1 = 12.95 · (0.69x1 + 0.72x2)⇒ y1 = 8.976x1 + 9.338x2 e

y2 = 5.32 · (−0.72x1 + 0.69x2)⇒ y2 = −3.837x1 + 3.668x2,

levando a matriz A∗2:

A∗2 =

[8.976 −3.837

9.338 3.688

].

Multiplicando esta matriz por sua transposta, obtemos a predicao da matriz de covariancias dos

dados; fazendo a multiplicacao matricial, recriamos S:

A∗2 (A∗2)T =

[95.29 69.66

69.66 100.81

].

A matriz de covariancias predita recriou exatamente a matriz de covariancias observada porque

utilizamos todas as componentes principais. Fizemos isto aqui apenas para ilustrar a tecnica ACP.

Mas normalmente nao utilizaremos todas as componentes principais, pois desta forma nao havera

reducao de dimensionalidade. Para terminar o exemplo, vamos verificar o que ocorre quando

predizemos a matriz de covariancias utilizando apenas a primeira componente principal. Teremos:

y1 = 8.976x1 + 9.338x2,

Page 59: análise em componentes e escalonamento multidimensional

44

gerando

A∗1 =

[8.976

9.338

].

Assim,

A∗1 (A∗1)T =

[80.57 83.82

83.82 87.20

]= S.

Percebemos que a matriz predita utilizando somente a primeira componente principal se distancia

um pouco da matriz observada. Esta e de fato uma predicao.

Este exemplo de tamanhos de cabeca de irmaos foi bem util para ilustrarmos a tecnica de

ACP; entretanto, nao e o tıpico exemplo de conjunto multivariado de dados que encontraremos

na pratica; no capıtulo 4, faremos analises de conjuntos de dados maiores e mais interessantes.

2.12.2 Consumo de proteınas em paıses da europa

Vamos fazer uma analise de um conjunto de dados que consiste no consumo de proteınas em 25

paıses europeus no inıcio dos anos 1970. 4

As variaveis deste conjunto de dados sao 9 grupos de alimentos, descritos na tabela 2.8.

Os dados estao mostrados na tabela 2.9

Antes de fazer a ACP, devemos verificar as correlacoes e as variancias. Tambem e uma boa

pratica vermos o comportamento das variaveis atraves de uma matriz de diagramas de dispersao.

Para uma analise rapida, como a deste exemplo, um otimo dispositivo e o exibido pela figura 2.65.

A figura mostra que algumas variaveis tem correlacao moderada, outras tem correlacao baixa (em

ambos os sentidos, positivo e negativo). Indica que sera interessante fazer a ACP para investigar

a estrutura dessas variaveis um pouco mais a fundo.

4Ressaltamos que esse e um famoso conjunto de dados, presente em Hand et al. (1994). E um conhecidoexemplo de aplicacao tanto de ACP quanto de analise de cluster, dado que duas perguntas naturais surgem apartir deste conjunto de dados:

1. Existem grupos (clusters) identificaveis de paıses segundo o consumo alimentar?

2. Qual e a estrutura deste conjunto de dados, e sera que o consumo de carne tem relacao com o consumode outros grupos alimentares?

A primeira pergunta remete a analise de cluster (da qual nao trataremos neste trabalho, embora para um amploentendimento dos dados esta analise seja indispensavel); atacaremos parte da segunda pergunta (para uma analisemais ampla da segunda questao, uma ferramenta indicada e a regressao multivariada, que tambem esta fora doescopo do nosso trabalho) utilizando ACP.

5Comando ggpairs do pacote GGally do R Schloerke et al. (2014).

Page 60: análise em componentes e escalonamento multidimensional

45

Tabela 2.8: Descricao das variaveis - consumo de proteınas.

Variavel DescricaoRMeat Consumo de carne vermelha

WMeat Consumo de carne brancaEgg Consumo de ovos

Milk Consumo de leiteFish Consumo de pescadoCer Consumo de cereaisSth Consumo de alimentos ricos em amidoNut Consumo de nozes e assemelhadas

FrVeg Consumo de frutas e vegetais

Tabela 2.9: Consumo de proteınas em 25 paıses europeus no inıcio dos anos 1970, segundo 9grupos de alimentos.

RMeat WMeat Egg Milk Fish Cer Sth Nut FrVegAlb 10,10 1,40 0,50 8,90 0,20 42,30 0,60 5,50 1,70Aus 8,90 14,00 4,30 19,90 2,10 28,00 3,60 1,30 4,30Bel 13,50 9,30 4,10 17,50 4,50 26,60 5,70 2,10 4,00Bul 7,80 6,00 1,60 8,30 1,20 56,70 1,10 3,70 4,20Cze 9,70 11,40 2,80 12,50 2,00 34,30 5,00 1,10 4,00Din 10,60 10,80 3,70 25,00 9,90 21,90 4,80 0,70 2,40Aor 8,40 11,60 3,70 11,10 5,40 24,60 6,50 0,80 3,60Fin 9,50 4,90 2,70 33,70 5,80 26,30 5,10 1,00 1,40Fra 18,00 9,90 3,30 19,50 5,70 28,10 4,80 2,40 6,50Gre 10,20 3,00 2,80 17,60 5,90 41,70 2,20 7,80 6,50

Hun 5,30 12,40 2,90 9,70 0,30 40,10 4,00 5,40 4,20Ire 13,90 10,00 4,70 25,80 2,20 24,00 6,20 1,60 2,90Ita 9,00 5,10 2,90 13,70 3,40 36,80 2,10 4,30 6,70

Net 9,50 13,60 3,60 23,40 2,50 22,40 4,20 1,80 3,70Nor 9,40 4,70 2,70 23,30 9,70 23,00 4,60 1,60 2,70Pol 6,90 10,20 2,70 19,30 3,00 36,10 5,90 2,00 6,60Por 6,20 3,70 1,10 4,90 14,20 27,00 5,90 4,70 7,90

Rom 6,20 6,30 1,50 11,10 1,00 49,60 3,10 5,30 2,80Spa 7,10 3,40 3,10 8,60 7,00 29,20 5,70 5,90 7,20Swe 9,90 7,80 3,50 24,70 7,50 19,50 3,70 1,40 2,00Swi 13,10 10,10 3,10 23,80 2,30 25,60 2,80 2,40 4,90UK 17,40 5,70 4,70 20,60 4,30 24,30 4,70 3,40 3,30

RUS 9,30 4,60 2,10 16,60 3,00 43,60 6,40 3,40 2,90Aoc 11,40 12,50 4,10 18,80 3,40 18,60 5,20 1,50 3,80Yug 4,40 5,00 1,20 9,50 0,60 55,90 3,00 5,70 3,20

Page 61: análise em componentes e escalonamento multidimensional

46

Diag. de dispersão/correlações − Cons. de Proteínas

RM

eat

WM

eat

Egg

Milk

Fis

hC

erS

thN

utF

rVeg

RMeat WMeat Egg Milk Fish Cer Sth Nut FrVeg

5

10

15 Corr:

0.153

Corr:

0.586

Corr:

0.503

Corr:

0.061

Corr:

−0.5

Corr:

0.135

Corr:

−0.349

Corr:

−0.0742

5

10

●●●

●●

Corr:

0.62

Corr:

0.281

Corr:

−0.234

Corr:

−0.414

Corr:

0.314

Corr:

−0.635

Corr:

−0.0613

12345

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

Corr:

0.576

Corr:

0.0656

Corr:

−0.712

Corr:

0.452

Corr:

−0.56

Corr:

−0.0455

10

20

30

●●

●●

●●

●●●

●●

● ●●

●●

● ●

●●

●●

●●

●●●

●●

● ●●

●●

● ●

●●

●●

●●

●●●

●●

●●●

●●

Corr:

0.138

Corr:

−0.593

Corr:

0.222

Corr:

−0.621

Corr:

−0.408

0

5

10

●●

● ●

●● ●●

●●

●●

● ●

●●

● ●

● ●●

● ●

●● ●●

●●

●●

● ●

●●

● ●

● ●●

● ●

●● ●●

●●

●●

●●

●●

● ●

● ●●

● ●

● ●●●

●●

●●

● ●

●●

●●

Corr:

−0.524

Corr:

0.404

Corr:

−0.147

Corr:

0.266

1020304050

● ●

●●● ●

●●

●●

●● ●

●●

●●● ●

● ●

●●

●●●

●●

●●● ●

●●

●●

●● ●

●●

●● ●●

●●

●●

●●●

● ●

●●●●

●●

● ●

●● ●

Corr:

−0.533

Corr:

0.651

Corr:

0.0465

2

4

6

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

Corr:

−0.474

Corr:

0.0844

02468

●●

●●●●

●●●

●●●

●●

●●

● ●

●●

●●●●

●● ●

●●

●●

●●

● ●

●●

● ●●●

●●●

●●

●●

●●

● ●

●●

● ●● ●●

●●●

●●

●●

●●

● ●

●●

● ●●●

● ●●

●●

●●

●●

● ●

●●

●●●●

●● ●

●●

●●● ●

● ●

●●

●● ●●

●● ●

●●

●●

● ●

● Corr:

0.375

2468

4 8 12 16

● ●● ●

●●

●●

●●●

5 10

●●● ●

●●

●●

●●●

1 2 3 4

●●● ●

●●

●●

●●●

10 20 30

●●● ●

●●

●●

●●●

0 5 10

● ●●●

●●

●●

●●●

20304050

●● ●●

● ●

●●

● ●●

2 4 6

● ●● ●

●●

●●

● ●●

2 4 6 8

●● ●●

● ●

●●

●●●

2 4 6 8

Figura 2.6: Matriz de correlacoes-diagramas de dispersao - consumo de proteınas.

Tabela 2.10: Variancias das variaveis de consumo de proteınas.

Variavel VarianciaRMeat 11,20

WMeat 13,65Egg 1,25Milk 50,49Fish 11,58Cer 120,45Sth 2,67Nut 3,94

FrVeg 3,25

Page 62: análise em componentes e escalonamento multidimensional

47

A tabela 2.10 mostra as variancias das variaveis. Vemos que, pela tabela, as variancias estao

em diferentes escalas (por exemplo, Cereal tem variancia muito alta, enquanto Egg tem uma

variancia baixa, indicando um consumo mais homogeneo entre os paıses). Destarte, como na

maioria dos casos, vamos fazer a ACP na matriz de correlacoes dos dados. Na tabela, temos o

resultado abreviado da ACP, com os desvios-padrao das componentes principais e as proporcoes

acumuladas das variancias. Pela tabela, vemos que as 3 primeiras componentes principais acu-

mulam cerca de 75% da variancia dos dados.

Tabela 2.11: Desvios-padrao e proporcao de variancias acumuladas da ACP dos dados de consumode proteınas.

PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9Desvio-padrao 2,002 1,279 1,062 0,977 0,681 0,570 0,521 0,341 0,315

Prop. da variancia 0,445 0,182 0,125 0,106 0,052 0,036 0,030 0,013 0,011Prop. acumulada 0,445 0,627 0,752 0,858 0,910 0,946 0,976 0,989 1,000

2 4 6 8

01

23

4

Component Number

eige

n va

lues

of p

rinci

pal c

ompo

nent

s

KaiserCattellAn. Paralela

Figura 2.7: 3 testes para auxiliar na escolha do numero de componentes no mesmo grafico.

Na figura 2.7, temos embutidos no mesmo grafico 3 testes para escolha do numero de com-

ponentes. Conforme mencionado na secao 2.8, desta vez os tres criterios discordam quanto ao

Page 63: análise em componentes e escalonamento multidimensional

48

numero de componentes a reter: Pelo criterio de Kaiser, reterıamos as 3 primeiras componentes

principais, que tem variancia maior do que 1; pela analise paralela, reterıamos apenas a primeira

componente principal, cujo autovalor e o unico acima da media de valores simnulados; finalmente,

pelo popular scree plot de Catell, visualmente parece que reterıamos as 4 primeiras componen-

tes principais (embora este criterio seja altamente subjetivo; outra pessoa poderia enxergar um

“cotovelo” a partir da quarta componente principal, ou seja, esta pessoa reteria as 3 primeiras

componentes principais).

Com base na tabela 2.11 e na figura 2.7, concluımos que reter as 3 primeiras componentes

principais fornece uma boa reducao de dimensionalidade aos dados. O proximo passo agora,

entao, e obter uma visualizacao dos escores destas componentes principais.

Para concluir a analise, naturalmente deverıamos construir o biplot dos escores nas 3 compo-

nentes principais. Contudo, tal visualizacao em 3 dimensoes e difıcil, mesmo para o analista de

dados (e mais ainda para o publico em geral). Desta forma, neste exemplo abreviado vamos fazer

o biplot somente para as duas primeiras componentes principais:

2.13 Metodos relacionados

Nesta secao, vamos comentar brevemente sobre outros metodos relacionados com ACP. Obvi-

amente nao comentaremos sobre MDS, que tem um capıtulo proprio e e um dos temas deste

trabalho. Os metodos relacionados a ACP existem a flux6, destarte aqui vamos comentar apenas

alguns poucos:

Regressao de componentes principais - RCP

Segundo B. Everitt and Skrondal (2010), regressao de componentes principais7 e um procedimento

frequentemente utilizado para superar o problema da multicolinearidade na regressao, quando a

simples exclusao de algumas variaveis explicativas nao e considerada apropriada. Essencialmente,

faz-se a regressao da variavel resposta em um pequeno numero de escores de componentes prin-

cipais resultantes de uma analise de componentes principais das variaveis explicativas originais.

Neste trabalho, vamos chegar a fazer uma RCP ao fim de uma ACP. Ver subsecao 4.2.2. O livro

Maindonald and Braun (2010) dedica um capıtulo inteiro a este assunto (RCP).

6Segundo Cegalla (2009), a flux significa “a jorros, em abundancia”. Exemplo: “As lagrimas brotaram-lhe dosolhos a flux”.

7do ingles principal components regression.

Page 64: análise em componentes e escalonamento multidimensional

49

Analise fatorial

Segundo B. Everitt and Skrondal (2010), analise fatorial e um metodo multivariado que postula

que as correlacoes ou covariancias entre um conjunto de variaveis observadas, xT = [x1, x2, · · · , xq]surgem da relacao destas variaveis com um pequeno numero de variaveis implıcitas, nao-observaveis,

chamadas variaveis latentes, usualmente conhecidas como fatores comuns, fT = [f1, f2, · · · , fk],onde k < q. Explicitamente, o modelo usado e da forma

x = Λf + e,

onde

Λ =

λ11 λ12 · · · λ1k

λ21 λ22 · · · λ2k...

......

...

λq1 λq2 · · · λqk

.contem os coeficientes da regressao (usualmente conhecidas neste contexto como cargas fatoriais)

das variaveis observadas sobre os fatores comuns. A matriz Λ e conhecida como matriz de

cargas. Os elementos do vetor e sao conhecidos como variacoes especıficas. Assumindo que os

fatores comuns sao nao-correlacionados entre si e tambem nao-correlacionados com as variacoes

especıficas e estao em forma padronizada, o modelo implica que a matriz de covariancias das

variaveis observadas, Σ, e da forma

Σ = ΛΛT + Ψ,

onde Ψ e uma matriz diagonal contendo as variancias das variacoes especıficas. Varias abordagens

sao usadas para estimar os parametros do modelo, isto e, os elementos de Λ e Ψ, incluindo analise

de fatores principais e estimacao por maxima verossimilhanca. Apos a fase inicial de estimacao,

em geral e feita uma tentativa de simplificar a tarefa (frequentemente difıcil) de interpretar os

fatores obtidos utilizando um processo conhecido por rotacao dos fatores. O objetivo em geral e

produzir uma solucao que tenha o que se chama de estrutura simples, isto e, que cada fator comum

afete apenas um pequeno numero de variaveis observadas. Embora seja baseado em um modelo

bem definido, o metodo e, pelo menos em seus estadios iniciais, essencialmente exploratorio, e

tal analise fatorial exploratoria precisa ser cuidadosamente diferenciada da analise fatorial confir-

matoria, na qual um conjunto pre-especificado de fatores comuns, com algumas variaveis restritas

a terem cargas nulas, e testado quanto a consistencia com as correlacoes das variaveis observadas.

Page 65: análise em componentes e escalonamento multidimensional

50

Analise fatorial tem muitas semelhancas com ACP, tanto que muitas pessoas confundem um

metodo com o outro. Nas palavras de Jolliffe (2002),

Ha muita confusao entre ACP e analise fatorial, em parte porque alguns softwares

largamente utilizados tratam ACP como um caso especial de analise fatorial, o que

nao e verdade. Ha varias diferencas tecnicas entre ACP e analise fatorial, porem a

diferenca mais fundamental e que analise fatorial explicitamente especifica um modelo

relacionando as variaveis observadas com um conjunto menor de fatores implıcitos,

nao observaveis. Embora alguns autores expressem ACP no contexto de um mo-

delo, sua principal aplicacao e como tecnica descritiva, exploratoria, sem um modelo

implıcito. Esta natureza descritiva implica que assuncoes de distribuicao nao sao ne-

cessarias para se aplicar ACP em sua forma usual. ACP pode ser usada em dados

discretos e mesmo binarios, embora desta forma seja necessario muito cuidado na

interpretacao dos resultados.

Uma caracterıstica notavel da analise fatorial e que ela e geralmente um procedi-

mento de dois estagios: tendo encontrado uma solucao inicial, ela e rotacionada para

uma estrutura mais simples. Esta ideia pode ser aplicada em ACP; tendo decidido

manter q componentes principais, podemos rotacionar o suespaco q-dimensional de-

finido pelas componentes de sorte que os eixos sejam tao faceis quanto possıvel de

interpretar.

Analise de fatores principais

Segundo B. Everitt and Skrondal (2010), Analise de fatores principais e um metodo de analise

fatorial que e essencialmente equivalente a ACP executada na matriz de covariancias reduzida,

obtida substituindo os elementos da diagonal da matriz de covariancias amostral (ou seja, as

variancias amostrais) pelas comunalidades estimadas. Duas estimativas frequentemente usadas

para as comunalidades sao:

1. O quadrado do coeficiente de correlacao multipla da i-esima variavel com todas as outras;

2. O maior dos modulos dos coeficientes de correlacao entre a i-esima variavel e uma das

outras variaveis.

Page 66: análise em componentes e escalonamento multidimensional

51

Analise de correlacao canonica - ACC

Segundo B. Everitt and Skrondal (2010), Analise de correlacao canonica8 e um metodo de analise

para investigar a relacao entre dois grupos de variaveis, encontrando-se funcoes lineares de um

dos conjuntos de variaveis que se correlacionem ao maximo com funcoes lineares das variaveis no

outro conjunto. Em muitos aspectos, o metodo pode ser visto como uma extensao de regressao

multipla a situacoes envolvendo mais de uma unica variavel resposta. Alternativamente, ACC

pode ser considerada analoga a ACP, exceto que uma correlacao, e nao uma variancia, e maximi-

zada.

Um exemplo simples de onde este tipo de tecnica pode ser de interesse e quando os resultados

de testes de velocidades de leitura (x1), poder de leitura (x2), velocidade artimetica (y1) e poder

aritmetico (y2) estao disponıveis de uma amostra de uma turma escolar infantil, e a questao de

interesse e se habilidade em leitura (medida por x1 e x2) tem relacao com habilidade aritmetica

(medida por y1 e y2).

Para uma abordagem aplicada simplificada de ACC, ver (B. Everitt & Hothorn, 2011); para

uma referencia de estudo, ver (Johnson & Wichern, 2007) (cap. 10).

Perseguicao da projecao e analise de componentes independentes (ACI)

Segundo B. Everitt and Skrondal (2010), Perseguicao da projecao9 e um procedimento para

obter uma representacao de baixa dimensao (usualmente 2) de dados multivariados, que sera

particularmente util em revelar estruturas interessantes tais como a presenca de grupos distintos

de observacoes (clusters). A representacao em baixa dimensao e encontrada otimizando algum

criterio numerico pre-definido planejado para revelar padroes “interessantes”.

Segundo B. Everitt and Skrondal (2010), Analise de componentes independentes - ACI10 e

um metodo para analisar quantidades medidas complexas, imaginadas como sendo misturas de

outras quantidades mais fundamentais, em suas componentes subjacentes. Exemplos tıpicos de

dados onde ACI pode ser aplicada sao:

• Sinal de eletroencefalograma (EEG), que contem contribuicoes de muitas regioes do cerebro;

8Do ingles canonical correlation analysis.

9Do ingles projection pursuit.

10Do ingles independent component analysis.

Page 67: análise em componentes e escalonamento multidimensional

52

• Altura de uma pessoa, que e determinada por contribuicoes de muitos fatores geneticos e

ambientais.

Vamos agora tecer comentarios concernentes a relacao entre ACP e perseguicao da projecao

(baseado em Wehrens (2011)).

Variacao em muitos casos se iguala a informacao, uma das razoes da abrangencia da ACP.

Contudo, ha muitos exemplos onde a informacao relevante esta escondida em pequenas dife-

rencas, e e facilmente sobrecarregada por outras origens de variacao que nao sao de interesse. A

perseguicao da projecao e uma generalizacao da ACP, onde varios criterios diferentes podem ser

otimizados. Podemos, por exemplo, escolher uma vista que maximize algum agrupamento nos

dados. Em geral, contudo, nao ha solucao analıtica para nenhum destes criterios, exceto para o

criterio da variancia utilizado em ACP. Um caso especial de perseguicao da projecao e analise de

componentes independentes (ACI), onde a vista e tomada de sorte a maximizar o desvio da nor-

malidade multivariada, dada pela neg-entropia J . Esta e a diferenca da entropia de uma variavel

aleatoria normalmente distribuıda H(xG) e entropia da variavel sob consideracao H(x):

J(x) = H(xG)−H(x),

onde a entropia em si e dada por

H(x) = −∫f(x)log(f(x))dx.

Infelizmente, esta quantidade e difıcil de calcular, e na pratica aproximacoes sao usadas.11

Analise de componentes principais generalizada

Segundo B. Everitt and Skrondal (2010), Analise de componentes principais generalizada e uma

versao nao linear da ACP na qual o objetivo e determinar o sistema de coordenadas nao linear que

esta em maxima concordancia com a configuracao dos dados. Por exemplo, para dados bivariados

(y1, y2), se um sistema de coordenadas quadraticas e procurado, entao como um primeiro passo,

a variavel z e definida como segue:

z = ay1 + by2 + cy1y2 + dy21 + ey22,

com os coeficientes determinados de sorte que a variancia de z seja o maximo entre todas tais

funcoes quadraticas de y1 e y2.

11No R, o pacote fastICA Marchini, Heaton, and Ripley (2013) implementa algoritmos rapidos e robustosfornecidos no artigo de Hyv’arinen and Oja (2000).

Page 68: análise em componentes e escalonamento multidimensional

53

Capıtulo 3

ESCALONAMENTO MULTIDIMENSIONAL

3.1 Introducao

No capıtulo anterior, notamos que uma das maiores utilidades da ACP e obter um “mapa”

de baixa dimensao que preserve, na medida do possıvel, as distancias euclidianas entre as ob-

servacoes no espaco das q variaveis originais. Neste capıtulo, faremos essa caracteristica da ACP

mais explıcita. Introduziremos uma classe de outros metodos sob denominacao geral de Escalo-

namento multidimensional (doravante MDS), cujo objetivo precıpuo e produzir mapas similares

aos dados, entretanto sem operar diretamente na matriz de dados X: ao inves vez disso, o MDS

e aplicado as matrizes de distancia (ver introducao), que sao derivadas da matriz X (um exemplo

de matriz de distancias derivada de um pequeno conjunto multivariado de dados e mostrado na

subsecao 3.5.1) e tambem aplicado as chamadas matrizes de similaridade-dissimilaridade, que

surgem naturalmente de varias formas, particularmente em julgamentos humanos (psicologicos)

de similaridade entre objetos, comportamentos, estımulos etc. Ao longo deste capıtulo, dare-

mos exemplos de matrizes de distancia bem como de matrizes de similaridade-dissimilaridade. O

termo proximidade e frequentemente utilizado para abarcar tanto similaridades quanto dissimilari-

dades; destarte, podemos doravante simplesmente denotar matrizes de proximidade, especificando

quando se tera o caso de similaridade ou o oposto (dissimilaridade), quando houver risco de con-

fusao.

3.2 Modelos para dados de proximidade

Modelos sao ajustados a proximidades de modo a tornar mais claro, exibir, ajudar a entender e pos-

sivelmente explicar qualquer estrutura ou padrao entre as proximidades observadas ou calculadas

nao prontamente aparentes na colecao de valores numericos. Em algumas areas, particularmente

Psicologia, o objetivo final na analise de um conjunto de proximidades e mais especıfico, qual

seja, o desenvolvimento de teorias para explicar julgamentos de similaridade; em outras palavras,

tentar responder a pergunta “o que faz as coisas serem parecidas ou diferentes?”

De acordo com Carroll et al. (1984), modelos para analise de dados de proximidade podem ser

Page 69: análise em componentes e escalonamento multidimensional

54

categorizados em uma de tres grandes classes: modelos espaciais, modelos em arvore e modelos

hıbridos. Neste capıtulo (e neste trabalho), apenas lidaremos com a primeira dessas classes. Para

detalhes de modelos em arvore e modelos hıbridos, ver, por exemplo, (B. Everitt & Rabe-Hesketh,

1997).

3.3 Modelos espaciais para proximidades: escalonamento multidimensional (MDS)

Uma representacao espacial de uma matriz de proximidades consiste de um conjunto de n coor-

denadas m-dimensionais, cada uma das quais representa uma das n unidades (observacoes) nos

dados. As coordenadas requeridas sao geralmente encontradas minimizando-se alguma medida

de “ajuste” entre as distancias implicadas pelas coordenadas e as proximidades observadas. Em

termos simples, um modelo geometrico e procurado, onde quanto maior a distancia observada ou

dissimilaridade entre duas observacoes (ou menor a similaridade), mais afastados devem estar os

pontos que as representam no modelo espacial. Em geral (mas nao exclusivamente), assume-se

que as distancias entre os pontos no modelo espacial sao euclidianas. Encontrar o conjunto de

coordenadas de melhor ajuste e o valor apropriado de m que represente adequadamente as pro-

ximidades observadas e o objetivo de muitos metodos de MDS propostos. A esperanca e que

m, a dimensionalidade, seja pequena, idealmente 2 ou 3, de sorte que a configuracao espacial

possa ser facilmente representada graficamente. MDS e essencialmente uma tecnica de reducao

de dimensionalidade, pois o objetivo e encontrar um conjunto de pontos em baixa dimensao que

aproxime a configuracao de provavel alta dimensao representada pela matriz de proximidades ori-

ginal. A variedade de metodos ja propostos diferem em como a concordancia entre distancias

ajustadas e proximidades observadas e avaliada. Neste capıtulo, vamos considerar principalmente

dois metodos, Escalonamento multidimensional classico (doravante cMDS) e Escalonamento mul-

tidimensional nao-metrico (doravante nMDS).

3.4 Outras medidas de distancia

Na secao 1.5.3, fizemos comentarios gerais sobre distancias, em particular sobre distancias eu-

clidianas. Agora vamos nos aprofundar um pouco mais neste assunto, e discorrer tambem sobre

outras medidas de distancia.

A distancia euclidiana e a medida de distancia mais comumente usada. Contudo, nem sempre

e a melhor medida para medir a distancia multivariada entre objetos. Por exemplo, uma questao

Page 70: análise em componentes e escalonamento multidimensional

55

comum na area da Ecologia e: “Quao diferentes sao dois sıtios (ecologicos) baseados na ocorrencia

(ou abundancia) de especies encontradas nesses dois sıtios?” Em Gotelli and Elisson (2013), ha

um interessante exemplo: em um conjunto de dados hipoteticos, tem-se 3 sıtios ecologicos, x1,

x2 e x3 e 3 especies, y1, y2 e y3, e a tabela 3.1 nos informa o numero de cada especie yi pre-

sente no sıtio xj. A partir desta tabela, a tabela 3.2 exibe as distancias euclidianas destes dados.

Neste exemplo muito simples, os sıtios x1 e x2 nao tem especies em comum, e a distancia euclidi-

ana entre eles e aproximadamente 1,732 especies (ver equacao ou a primeira coluna da tabela 3.4).

Tabela 3.1: Matriz de ausencia-presenca sıtio × especies.

EspeciesSıtio y1 y2 y3x1 0 1 1x2 1 0 0x3 0 4 4

Tabela 3.2: Matriz de distancias euclidianas entre os sıtios ecologicos.

SıtioSıtio x1 x2 x3x1 0x2 1,732 0x3 4,243 5,745 0

Em contraste, x1 e x3 tem todas as suas especies em comum (tanto y2 quanto y3 ocorrem

nestes dois sıtios), contudo a distancia euclidiana entre x1 e x3 e 4,243 especies. Isso com certeza

configura-se um paradoxo, pois quanto maior a dissimilaridade (menos especies em comum) entre

dois sıtios ecologicos, maior deveria ser sua distancia euclidiana.

Devido a paradoxos como o visto no exemplo acima, estatısticos, ecologistas e outros pesqui-

sadores desenvolveram outras medidas de proximidade. Na tabela 3.4, temos algumas destas me-

didas. Estas medidas de distancia dividem-se em duas categorias: distancias metricas e distancias

semi-metricas.

Para ilustrar o uso destas distancias, temos na tabela 3.3 as distancias de Jaccard aplicada aos

dados de ausencia-presenca das especies por sıtio ecologico. Notamos que, ao contrario da matriz

Page 71: análise em componentes e escalonamento multidimensional

56

de distancias euclidianas, a matriz de distancias de Jaccard reflete adequadamente os dados de

ausencia-presenca em questao.

Tabela 3.3: Matriz de distancias de Jaccard entre os sıtios ecologicos.

SıtioSıtio x1 x2 x3x1 0,67x2 1 0,67x3 0,67 1 0,67

A distancia de Mahalanobis aplica-se somente a grupos de amostras yi e yj, cada uma das

quais contem, respectivamente, mi e mj amostras. Na equacao da distancia de Mahalanobis, d

e o vetor de diferencas entre as medias das m amostras em cada grupo, e

V =1

mi +mj − 2[(mi − 1)Ci + (mj − 1)Cj]

e a matriz de covariancias amostrais combinada dentro dos grupos, onde Ci e a matriz de co-

variancias amostrais para yi.

Segundo B. Everitt and Skrondal (2010), o coeficiente de similaridade de Jaccard e um co-

eficiente de similaridade para uso em dados que consistem em uma serie de variaveis binarias

frequentemente usada em analise de cluster. O coeficiente e dado por si,j =c

a+ b+ c, onde

a e a frequencia que ocorre somente em i, b e a frequencia que ocorre somente em j, e c e a

frequencia que ocorre somente em ambos. Devido ao fato de medidas de similaridade atingirem

o maximo quando os “objetos” forem mais similares, e medidas de dissimilaridade (ou distancia)

assumirem o maximo quando os objetos forem mais “diferentes”, toda medida de similaridade

pode ser convertida em medidas de distancia (dissimilaridade). Se uma medida de similaridade s

e definida no intervalo [0, 1] (como e o caso do coeficiente de Jaccard), ela pode facilmente ser

transformada em medida de distancia utilizando-se uma das tres equacoes:

d = 1− s

d =√

1− s

d =√

1− s2

Destarte, na tabela 3.4, a distancia de Jaccard e igual a 1 - o coeficiente de similaridade de Jaccard.

Distancias metricas tem as seguintes propriedades:

Page 72: análise em componentes e escalonamento multidimensional

57

1. A distancia mınima e 0, e se 2 “objetos”1 (ou amostras) x1 e x2 sao identicos, entao a

distancia d entre eles tambem e 0: x1 = x2 ⇒ d(x1,x2) = 0;

2. A medida de distancia d e sempre positiva se dois objetos x1 e x2 nao sao identicos:

x1 6= x2 ⇒ d(x1,x2) > 0;

3. A medida de distancia e simetrica: d(x1,x2) = d(x2,x1);

4. A medida de distancia satisfaz a desigualdade triangular: para tres objetos x1, x2 e x3,

d(x1,x2) + d(x2,x3) ≥ d(x1,x3).

As distancias de Minkowski (que generaliza as distancias euclidiana e de Manhattan), Chord,

Mahalanobis, Qui-quadrado e de Jaccard sao exemplos de distancias metricas.

Distancias semi-metricas satisfazem apenas as tres primeiras das propriedades acima, e po-

dem violar a desigualdade triangular. As distancias de Bray-Curtis e Sørensen sao exemplos de

distancias semi-metricas.2

Na secao 3.6, vamos fazer um exemplo em que vamos utilizar, alem da distancia euclidiana,

a distancia de Manhattan, para exemplificar o uso de uma distancia nao euclidiana.

A tabela 3.4 nao e exaustiva: Borg and Groenen (2010) dedica um capıtulo inteiro a distancias

e similaridades e como obte-las: podemos citar, alem das distancias contidas na tabela 3.4, as

distancias do maximo, de Canberra, da separacao angular, da correlacao e a do coeficiente de

monotonicidade. Alem destas, existem outras distancias baseadas em coeficientes de similaridade

de dados de co-ocorrencia (da mesma natureza que as distancias de Jaccard e Sørensen) que nao

cosntam na tabela 3.4. Podemos citar algumas, como as similaridades s2, o coeficiente de corres-

pondencia simples4, a similaridade de Hamman e a similaridade de Yule. Todas estas distancias

constam em Borg and Groenen (2010), e recomendamos o capıtulo 6 desta referencia para um

estudo completo sobre proximidades (distancias e similaridades). Para aplicacoes de distancias

nao-euclidianas a analise de dados ecologicos, em especial metodos baseados em matrizes de

1Um elemento do espaco multivariado com o qual estamos lidando; sem um rigor matematico excessivo,podemos considerar nosso espaco multivariado os elementos do Rp, para uma matriz de dados com p variaveis(colunas).

2Ha um terceiro tipo de medida de distancia, nao-metrica, que viola a segunda propriedade listada, dado quepode assumir valores negativos.

4Do ingles simple matching coefficient.

Page 73: análise em componentes e escalonamento multidimensional

58

Tabela 3.4: Algumas medidas comuns de proximidade.

Nome Formula Categoria

Euclidiana di,j =

√n∑k=1

(yi,k − yj,k)2 Metrica

Manhattan3 di,j =n∑k=1

| yi,k − yj,k | Metrica

Minkowski di,j =

(n∑k=1

(yi,k − yj,k)2)1/p

, p ≥ 1 Metrica

Chord di,j =

√√√√√√√√√2×

1−

n∑k=1

yi,kyj,k√n∑k=1

y2i,kn∑k=1

y2j,k

Metrica

Mahalanobis dyi,yj= di,jV

−1dTi,j Metrica

Qui-quadrado di,j =

√m∑i=1

m∑j=1

yij ×

√√√√√√√ n∑k=1

1n∑k=1

yjk

×

yikn∑k=1

yik

− yjkn∑k=1

yjk

2 Metrica

Bray-Curtis di,j =

n∑k=1

| yi,k − yj,k |n∑k=1

(yi,k + yj,k)Semi-metrica

Jaccard di,j =a+ b

a+ b+ cMetrica

Sørensen di,j =a+ b

a+ b+ 2cSemi-metrica

Page 74: análise em componentes e escalonamento multidimensional

59

ausencia-presenca, ver Gotelli and Elisson (2013) e Borcard et al. (2011).

3.5 Escalonamento multidimensional classico (cMDS ou ACoP)

Em primeiro lugar, assim como todas as tecnicas da classe MDS, cMDS busca representar uma

matriz de proximidades por um modelo geometrico simples ou mapa. Tal modelo e caracterizado

por um conjunto de pontos x1,x2, · · · ,xn, em m dimensoes, cada ponto representando uma

das unidades (observacoes) de interesse, e uma medida de distancia entre pares de pontos. O

Objetivo do MDS e determinar tanto m, a dimensionalidade do modelo, quanto as n coordenadas

m-dimensionais, x1,x2, · · · ,xn, de sorte que o modelo forneca um “bom” ajuste para as proxi-

midades observadas. O ajuste frequentemente sera julgado por algum ındice numerico que meca o

quao bem as proximidades e as distancias no modelo geometrico se combinem. Em essencia, isto

significa tao somente que, quanto maior e uma dissimilaridade entre dois “estımulos”5 (ou menor

e a similaridade), mais afastados devem estar os pontos que os representa no modelo geometrico

final.

As questoes com que agora nos defrontamos sao: como estimar m, e como obter as coordena-

das x1,x2, · · · ,xn partindo da matriz de proximidades observada. cMDS nos fornece respostas a

estas questoes com base nos trabalhos de Young and Householder (1938). Para iniciar, devemos

notar que nao ha unicidade nas coordenadas que geram um conjunto de distancias, dado que as

distancias sao invariantes a transformacoes lineares tais como translacoes, rotacoes e reflexoes.

Noutras palavras, nao podemos, de forma unica e simultanea, determinar a locacao e a orientacao

da configuracao. O problema da locacao e usualmente resolvido alocando o vetor de medias da

configuracao na origem. O problema da orientacao significa que qualquer configuracao derivada

esta sujeita a uma transformacao ortogonal arbitraria. Tais transformacoes sao frequentemente

utilizadas para facilitar a interpretacao das solucoes, como sera visto posteriormente.

5Um estımulo, neste contexto, pode ser entendido como um questionamento a um indivıduo num teste psi-cologico. Uma das principais - e de mais longa data - aplicacoes de MDS e exatamente como um modelopsicologico de julgamentos de similaridade. Nas palavras de Borg and Groenen (2010): “(...)A matematica doMDS pode servir como um modelo de julgamentos de similaridade. A abordagem mais comum e hipotetizarque uma pessoa, quando inquirida acerca da dissimilaridade de pares de objetos tomados de um conjunto deobjetos, aja como se ela calculasse uma distancia no seu “espaco psicologico” destes objetos”.

Page 75: análise em componentes e escalonamento multidimensional

60

3.5.1 cMDS: detalhes tecnicos

Para iniciar o metodo, assumiremos que a matriz de proximidades com a qual estamos lidando

e uma matriz de distancias euclidianas, D, obtida de uma matriz de dados brutos X, n x q.

Na introducao deste trabalho, vimos como calcular distancias euclidianas a partir de X; cMDS

preocupa-se essencialmente com o problema inverso: dadas as distancias, como obter X?

Primeiro, vamos assumir X conhecida e consideremos B a matriz n x n de produto interno,

B = XXT . (3.1)

Os elementos de B sao dados por

bij =

q∑k=1

xikxjk. (3.2)

E facil ver que os quadrados das distancias euclidianas entre as linhas de X podem ser escritas

em termos dos elementos de B como

d2ij = bii + bjj − 2bij (3.3)

Se os b’s pudessem ser encontrados em termos dos d’s na equacao 3.3, entao os valores das

coordenadas desejadas poderiam ser determinados fatorando B como em 3.1. Como ja foi dito,

nao existe solucao unica a nao ser que uma restricao de locacao seja introduzida; usualmente, o

centro dos pontos x e definido na origem, de sorte que∑n

i=1 xik = 0 ∀k = 1, 2, . . . ,m. Estas

restricoes e a relacao 3.2 implicam que a soma dos termos em qualquer linha de B deve ser zero.

Consequentemente, fazendo o somatorio de 3.2 em i, em j e finalmente em i e em j nos leva a

sequencia de equacoes

n∑i=1

d2ij = T + nbjj,

n∑j=1

d2ij = T + nbii,

n∑i=1

n∑j=1

d2ij = 2nT,

onde T =∑n

i=1 bii = tr(B). Os elementos de B agora podem ser encontrados em termos de

distancias euclidianas quadraticas

bij = −1

2(d2ij − d2i· − d2·j + d2··),

Page 76: análise em componentes e escalonamento multidimensional

61

onde

d2i· =1

n

n∑j=1

d2ij,

d2·j =1

n

n∑i=1

d2ij,

d2·· =1

n2

n∑i=1

n∑j=1

d2ij.

Tendo encontrado os elementos de B em termos das distancias euclidianas, basta fatora-la para

encontrar as coordenadas. Em termos da Decomposicao Espectral (Ver Apendice de Algebra

Linear), B pode ser escrita como

B = V ΛV T

onde Λ = diag{λ1, λ2, . . . , λn} e a matriz diagonal dos autovalores deB e V = (V 1,V 2, . . . ,V n)

a correspondente matriz dos autovetores, normalizados de sorte que V iVTi = 1. Assumimos a

nomenclatura dos autovalores de forma a termos λ1 ≥ λ2 ≥ · · · ≥ λn. Quando D provem de

uma matriz n x q de posto completo, entao o posto de B e q, de sorte que os seus outros n− qautovalores sao nulos. Daı, B pode ser escrita como

B = V 1Λ1VT1 ,

onde V 1 contem os primeiros q autovetores e Λ1 os q autovalores nao-nulos. As coordenadas

que buscamos sao, entao,

X = V 1Λ121 ,

onde Λ121 = diag{λ

121 , · · · , λ

12q }.

Utilizando todas as q dimensoes ira levar a recomposicao completa da matriz de distancias

euclidianas. A representacao de melhor ajuste m-dimensional e dada pelos m autovetores de B

correspondentes aos m maiores autovalores. A adequacao da representacao m-dimensional pode

ser julgada pelo tamanho do criterio

Pm =

∑mi=1 λi∑ni=1 λi

Valores de Pm da ordem de 0.8 sugerem um ajuste razoavel.

Devemos mencionar que, onde a matriz de proximidades contem distancias euclidianas cal-

culadas de uma matriz de dados X n x q, pode se mostrar que o cMDS e equivalente a ACP,

Page 77: análise em componentes e escalonamento multidimensional

62

com as coordenadas requeridas correspondendo aos escores das componentes principais extraıdas

da matriz de covariancias dos dados. Uma consequencia desta dualidade e que cMDS tambem e

referido na literatura estatıstica como Analise em coordenadas principais (doravante ACoP) - ver

J. Gower (1966). E a solucao de componentes principais m-dimensional (m < q) e “melhor” no

sentido de minimizar a medida de ajuste

S =n∑i=1

n∑i=1

(d2ij − (d(m)ij )2)

onde dij e a distancia euclidiana entre os indivıduos i e j baseado nas suas q variaveis originais e

d(m)ij e a distancia correspondente calculada dos escores das m componentes principais.

Quando a matriz de proximidades observada nao e euclidiana, a matriz B nao e definida

positiva. Em tais casos, alguns dos autovalores de B serao negativos; consequentemente, alguns

valores de coordenadas serao numeros complexos. Se, contudo, B tiver somente um pequeno

numero de autovalores negativos de baixa magnitude, uma representacao util da matriz de proxi-

midades ainda pode ser possıvel usando os autovetores associados com os m maiores autovalores

positivos. A adequacao da solucao resultante pode ser avaliada usando um dos dois criterios

sugeridos por Mardia et al. (1979):

P (1)m =

∑mi=1 |λi|∑ni=1 |λi|

,

P (2)m =

∑mi=1 λ

2i∑n

i=1 λ2i

Novamente procurarıamos por valores acima de 0.8 e julgarıamos por um “bom” ajuste. Alterna-

tivamente, Sibson (1979) recomenda um dos seguintes dois criterios para decidir sobre o numero

de dimensoes para o modelo espacial representar adequadamente as proximidades observadas:

• Criterio do Traco: Escolha o numero de coordenadas de forma que a soma dos autovalores

positivos seja aproximadamente igual a soma de todos os autovalores;

• Criterio da Magnitude: Aceite como genuinamente positivos somente os autovalores cuja

magnitude exceda substancialmente a dos maiores autovalores negativos.

Se, contudo, a matriz B tiver um consideravel numero de autovalores negativos de grande

magnitude, cMDS da matriz de proximidades pode ser desaconselhavel e alguns outros metodos

de MDS, por exemplo escalonamento nao-metrico (que abordaremos na proxima secao), sao mais

indicados.

Page 78: análise em componentes e escalonamento multidimensional

63

3.6 Exemplo de aplicacao de cMDS

3.6.1 cMDS em um pequeno conjunto multivariado do R5

Vamos usar um pequeno conjunto multivariado de dados X, exibido na tabela 3.5.

Tabela 3.5: Matriz de dados X 10× 1.

3 4 4 6 15 1 1 7 36 2 0 2 61 1 1 0 34 7 3 6 22 2 5 1 00 4 1 1 10 6 4 3 57 6 5 1 42 1 4 3 1

Tendo X, podemos calcular a matriz de distancias D utilizando a equacao 1.1. Vamos obter

a matriz de proximidades exibida na tabela 3.6.

Tabela 3.6: Matriz de distancias euclidianas.

1 2 3 4 5 6 7 8 9 102 5,203 8,37 6,084 7,87 8,06 6,335 3,46 6,56 8,37 9,276 5,66 8,43 8,83 5,29 7,877 6,56 8,60 8,19 3,87 7,42 5,008 6,16 8,89 8,37 6,93 6,00 7,07 5,759 7,42 9,05 6,86 8,89 6,56 7,55 8,83 7,4210 4,36 6,16 7,68 4,80 7,14 2,65 5,10 6,71 8,00

Vamos aplicar cMDS a matriz D. Obtemos, como resultado, as seguintes coordenadas,

exibidas na tabela 3.7.

Os autovalores obtidos sao λ = (75, 1958, 8149, 6130, 4310, 370, 000, 000, 000, 000, 00)T

Notemos que como q = 5 neste exemplo, os valores dos autovalores 6 a 9 sao essencialmente

zero6 e somente as primeiras cinco colunas da tabela 3.7 representam a matriz de distancias eu-

clidianas.

6Numericamente o software R fornece valores nao nulos, mas valores realmente desprezıveis, da ordem de 10−15.

Page 79: análise em componentes e escalonamento multidimensional

64

Tabela 3.7: Coordenadas da solucao cMDS da matriz de dados X.

1 2 3 4 5 6 7 8 91 -1,60 2,38 -2,23 -0,37 0,12 0,00 0,00 NaN NaN2 -2,82 -2,31 -3,95 0,34 0,33 -0,00 0,00 NaN NaN3 -1,69 -5,14 1,29 0,65 -0,05 0,00 0,00 NaN NaN4 3,95 -2,43 0,38 0,69 -0,03 0,00 0,00 NaN NaN5 -3,60 2,76 -0,26 1,08 -1,26 -0,00 0,00 NaN NaN6 2,95 1,35 -0,19 -2,82 0,12 -0,00 0,00 NaN NaN7 3,47 0,76 0,30 1,64 -1,94 0,00 0,00 NaN NaN8 0,35 2,31 2,22 2,92 2,00 -0,00 0,00 NaN NaN9 -2,94 -0,01 4,31 -2,51 -0,19 0,00 0,00 NaN NaN

10 1,93 0,33 -1,87 -1,62 0,90 0,00 0,00 NaN NaN

Vamos agora confirmar que a solucao cMDS de dimensao 5 “recupera” completamente a

matriz de distancias observadas. Podemos fazer isso simplesmente comparando as distancias

originais com as calculadas a partir da solucao cMDS de dimensao 5 recem-obtidas. Ou seja,

vamos achar o maximo da diferenca absoluta, elemento a elemento, entre a matriz D e a matriz

de coordenadas exibida na tabela 3.7. Computacionalmente, Isso e feito da seguinte forma no

software:

max(abs(dist(X) - dist(cmdscale(D, k = 5))))# [1] 1.065814e-14

Isto confirma que todas as diferencas sao essencialmente nulas, e portanto a matriz de

distancias observadas D pode ser “reconstruıda” pela solucao cMDS de dimensao 5.

Podemos agora usar os criterios P(1)m e P

(2)m , vistos na equacao 3.4, para nos auxiliar a esco-

lher uma dimensao adequada para reproduzir as distancias observadas. Vimos que a dimensao

5 praticamente reproduz exatamente a matriz D. Mas sera que uma dimensao menor que 5 ja

serviria como uma representacao espacial satisfatoria de D?

Na tabela 3.8, temos os valores dos criterios P(1)m e P

(2)m para as dimensoes de 1 a 5:

Segundo a tabela 3.8, ambos os criterios P(1)m e P

(2)m indicam na dimensao 3 uma adequacao

satisfatoria para representar a matriz D. A figura 3.1 e uma representacao grafica em tres

dimensoes desta solucao cMDS.

Agora, vamos verificar neste exemplo a veracidade da observacao feita sobre a dualidade entre

ACP e cMDS quando as distancias euclidianas sao utilizadas: vamos determinar o maximo da

diferenca absoluta, elemento a elemento, entre as coordenadas da solucao cMDS de dimensao 5 e

Page 80: análise em componentes e escalonamento multidimensional

65

Tabela 3.8: Adequacao de dimensionalidade segundo os criterios P(1)m e P

(2)m .

Dimensao Criterio P(1)m Criterio P

(2)m

1 0,34 0,452 0,60 0,723 0,82 0,924 0,95 0,995 1,00 1,00

−4 −2 0 2 4

−4

−2

0 2

4 6

−6

−4

−2

0

2

4

Dim. 1

Dim

. 2

Dim

. 3

● ●

Figura 3.1: Diagrama de dispersao da solucao cMDS (com distancias euclidianas) dos dados daMatriz X de dimensao 3.

Page 81: análise em componentes e escalonamento multidimensional

66

os escores das 5 primeiras componentes principais obtidas aplicando ACP a matriz de covariancias

dos dados originais (exibidos na tabela 3.5):

max(abs(prcomp(X)$x) - abs(cmdscale(D, k = 5)))# [1] 2.663494e-14 ; praticamente 0

Logo, verificamos em nosso exemplo a dualidade entre ACP e cMDS quando a distancia eu-

clidiana e utilizada.

Agora vamos aplicar outro tipo de distancia a matriz de dados X: a distancia de Manhattan

(conforme visto na secao 3.4). A matriz de distancias de Manhattan esta na tabela 3.9

Tabela 3.9: Matriz de distancias de Manhattan.

1 2 3 4 5 6 7 8 9 101 0,00 11,00 18,00 16,00 6,00 10,00 11,00 12,00 15,00 7,002 11,00 0,00 11,00 11,00 11,00 17,00 16,00 19,00 18,00 12,003 18,00 11,00 0,00 12,00 18,00 16,00 15,00 16,00 13,00 15,004 16,00 11,00 12,00 0,00 18,00 10,00 7,00 14,00 17,00 9,005 6,00 11,00 18,00 18,00 0,00 16,00 15,00 12,00 13,00 13,006 10,00 17,00 16,00 10,00 16,00 0,00 9,00 14,00 13,00 5,007 11,00 16,00 15,00 7,00 15,00 9,00 0,00 11,00 16,00 10,008 12,00 19,00 16,00 14,00 12,00 14,00 11,00 0,00 11,00 11,009 15,00 18,00 13,00 17,00 13,00 13,00 16,00 11,00 0,00 16,00

10 7,00 12,00 15,00 9,00 13,00 5,00 10,00 11,00 16,00 0,00

Aplicando agora cMDS a matriz de distancias de Manhattan, obtemos a matriz de coordena-

das, os autovalores e os criterios P(1)m e P

(2)m . Estes resultados estao nas tabelas 3.10 e 3.11, e os

autovalores sao: λ = (280, 68249, 42228, 8592, 5142, 5121, 970, 00− 15, 07− 28, 05− 56, 83)T

Logo, aplicando-se a distancia de Manhattan, os criterios P(1)m e P

(2)m tambem indicam na

dimensao 3 uma adequacao satisfatoria para representar a matriz de distancias. A figura 3.2 e

uma representacao grafica em tres dimensoes desta solucao cMDS.

Para finalizar, vamos verificar se a solucao cMDS utilizando-se as distancias de Manhattan

equivalem aos escores das componentes principais:

max(abs(prcomp(X)$x) - abs(cmdscale(D_m, k = 5)))# [1] 2.306541

Comparando o resultado acima com o calculado utilizando-se as distancias euclidianas, vemos

a absurda mudanca de magnitude (da ordem de 2.31/2.66e − 14 = 8.66e + 13, cerca de 10

trilhoes). Esse exemplo mostra que a grande utilidade do cMDS esta nas situacoes em que,

Page 82: análise em componentes e escalonamento multidimensional

67

Tabela 3.10: Coordenadas da solucao cMDS da matriz de dados de exemploX utilizando distanciade Manhattan.

1 2 3 4 5 61 -5,83 1,53 -5,28 -1,31 -0,45 -1,842 4,01 9,76 -3,47 0,00 -0,05 0,693 7,48 4,15 6,88 -0,17 0,71 -2,504 8,18 -2,63 -1,57 1,98 -0,21 2,655 -7,99 5,83 -1,16 1,47 -1,10 1,176 0,65 -6,26 -1,93 -5,82 -0,47 0,217 1,89 -5,47 -2,20 3,31 -4,01 -1,348 -4,90 -4,39 3,82 5,22 2,71 -0,079 -3,98 -0,21 9,62 -3,27 -1,09 1,26

10 0,50 -2,31 -4,70 -1,41 3,96 -0,22

Tabela 3.11: Adeq. de dimensionalidade com dist. de Manhattan - criterios P(1)m e P

(2)m .

Dimensao Criterio P(1)m Criterio P

(2)m

1 0,28 0,382 0,52 0,683 0,75 0,934 0,84 0,975 0,88 0,986 0,90 0,98

−10 −5 0 5 10

−10

−5

0 5

10

−10

−5

0

5

10

Dim. 1

Dim

. 2

Dim

. 3

●●

●●

Figura 3.2: Diagrama de dispersao da solucao cMDS (com distancias de Manhattan) dos dadosda Matriz X de dimensao 3.

Page 83: análise em componentes e escalonamento multidimensional

68

por algum motivo, as distancias euclidianas nao se adequam bem ao problema que esta sendo

estudado. Como vimos na secao 3.4, isto ocorre com frequencia no campo da Ecologia, para citar

apenas um.

3.7 Escalonamento multidimensional nao-metrico (nMDS)

Em alguns trabalhos psicologicos e em pesquisa de mercado, matrizes de proximidades surgem

pedindo a pessoas que facam julgamentos acerca da similaridade (ou dissimilaridade) de objetos ou

estımulos de interesse. Ao coletar tais dados, o investigador pode perceber que, realisticamente, os

indivıduos estao aptos tao somente a fazer julgamentos “ordinais”; por exemplo, ao comparar uma

gama de cores, os indivıduos estao aptos a especificar, com alguma confianca, que uma cor e mais

brilhante que outra, porem estaria muito menos confiante em dar um valor numerico a pergunta

“quao brilhante?”. Tais consideracoes levaram, nos anos 1960, a pesquisa de um metodo de MDS

que use somente a ordem dos postos das proximidades para produzir a sua representacao espacial.

Em outras palavras, procurava-se um metodo que fosse invariante sob transformacoes monotonicas

da matriz de proximidades observadas, isto e, que as coordenadas obtidas permanecam as mesmas

se valores numericos das proximidades forem modificados, porem sem modificar a ordem dos

postos. Tal metodo foi proposto nos marcantes artigos de Shepard (1962a, 1962b); Kruskal

(1964a, 1964b). A ideia-chave do metodo proposto nestes artigos e que as coordenadas na

representacao espacial das proximidades observadas dao origem a distancias ajustadas, dij, e que

estas distancias estao relacionadas a um conjunto de numeros que chamaremos disparidades,

dij, pela formula dij = dij + εij, onde os εij sao os termos de erro que representam os erros

de medida mais os erros de distorcao que surgem devido as distancias nao corresponderem a

configuracao do particular numero de dimensoes escolhido. As disparidades sao monotonicas com

as proximidades observadas e, sujeitas a esta restricao, assemelham-se, tanto quanto possıvel, as

distancias ajustadas. Em geral, somente uma fraca restricao de monotonicidade e aplicada, de

forma que, se as dissimilaridaes δij sao ordenadas da menor para a maior de sorte que

δi1j1 < δi2j2 < · · · < δiN jN ,

onde N = n(n− 1)/2, entao

di1j1 ≤ di2j2 ≤ · · · ≤ diN jN .

Regressao monotonica Barlow et al. (1972) e empregada para encontrar as disparidades, e entao

as coordenadas desejadas na representacao espacial das dissimilaridades observadas, as quais

denotaremos por X(n × m), sao encontradas minimizando-se um criterio, S, conhecido como

Page 84: análise em componentes e escalonamento multidimensional

69

Stress7, que e uma funcao de X(n×m) e e definido como

S(X) = min

∑i<j(dij − dij)2∑

i<j d2ij

, (3.4)

onde o mınimo e tomado sobre dij tal que dij e monotonica com as dissimilaridades observadas.

Em essencia, o stress representa a extensao em que a ordem dos postos das distancias ajustadas

discorda da ordem dos postos das dissimilaridades observadas. O denominador na formula do

stress 3.4 e escolhido de forma a fazer a representacao final invariante sob mudancas na escala,

isto e, expansao ou contracao uniforme. Um algoritmo para minimizar o stress e desta forma

encontrar as coordenadas da representacao espacial desejada e descrito em um segundo artigo

de Kruskal(1964b). Para cada valor de m (o numero de dimensoes) na configuracao espacial,

a configuracao que tem o menor stress e chamada de configuracao de melhor ajuste em m

dimensoes, Sm; na tabela 3.12, temos uma “regra de ouro” para julgar o ajuste segundo Kruskal.

Tabela 3.12: Regra de ouro de classificacao do ajuste segundo o Stress.

Stress Qualidade do ajusteSm >= 20% FracoSm = 10% RazoavelSm <= 5% BomSm = 0 Perfeito

(este ultimo somente ocorrera se a ordem dos postos das distancias ajustadas combinar exa-

tamente com a ordem dos postos das dissimilaridades observadas. Isto e muito raro na pratica).

A seguir, vamos ver um exemplo de aplicacao de nMDS. Outras serao vistas nas analises de

dados do capıtulo 4.

3.7.1 Exemplo de aplicacao de nMDS

Como exemplo de aplicacao do nMDS, vamos usar o metodo para obter uma representacao

espacial dos julgamentos de dissimilaridades ideologicas de varios lideres mundiais e importantes

polıticos do tempo da II guerra mundial. A tabela 3.13 mostra as similaridades obtidas. Os

indivıduos fizeram julgamentos baseados em uma escala discreta de 1 a 9, onde 1 indica “muito

similar” e 9 indica “muito dissimilar”. Apenas isto foi dito para os indivıduos, que fizeram seus

julgamentos.

7Achamos melhor nao traduzir este termo. Segundo Paulino et al. (2011) podemos manter este termo emingles.

Page 85: análise em componentes e escalonamento multidimensional

70

Tabela 3.13: Julgamentos (subjetivos) de (dis)similaridade entre 12 lıderes mundiais da epoca daII guerra mundial.

Htl Mss Chr Esn Stl Att Frn DGl MT-T Trm Chm TitHitler 0

Mussolini 3 0Churchill 4 6 0

Eisenhower 7 8 4 0Stalin 3 5 6 8 0Attlee 8 9 3 9 8 0

Franco 3 2 5 7 6 7 0De Gaulle 4 4 3 5 6 5 4 0Tse-Tung 8 9 8 9 6 9 8 7 0

Truman 9 9 5 4 7 8 8 4 4 0Chamberlain 4 5 5 4 7 2 2 5 9 5 0

Tito 7 8 2 4 7 8 3 2 4 5 7 0

As coordenadas do resultado do nMDS estao na tabela 3.14. A solucao nMDS fornece

Stress = 15.21%, levemente razoavel. A solucao bidimensional aparece na figura 3.3. Clara-

mente, podemos ver agrupados os 3 ditadores (Hitler, Mussolini e Franco), bem como aparecem

agrupados tres primeiros-ministros britanicos da epoca (em sequencia de sucessao, Chamberlain,

Churchill e Attlee). Stalin e Mao Tse-Tung estao mais isolados em comparacao com outros

lıderes. Eisenhower parece estar mais relacionado com o governo britanico do que com seu

proprio presidente (Truman). E interessante notar que de Gaulle esta localizado no centro da

solucao, indicando que as pessoas o julgaram em uma posicao de “equidistancia” no conflito

da segunda guerra (segundo o registro historico, seria natural esperar que o comandante militar

frances durante a guerra fosse localizado bem mais proximo a lıderes aliados do que de lıderes

como Mussolini).

3.8 Arvore de cobertura mınima

Vamos aqui introduzir uma ferramenta interessante e muito util para complementar as analises

MDS: a ferramenta chama-se Arvore de cobertura mınima8.

A arvore de cobertura mınima e definida da seguinte forma: suponha que n pontos sejam

dados (possivelmente em varias dimensoes). Entao uma arvore de cobertura destes pontos e

qualquer conjunto de segmentos de reta que unem pares destes pontos tais que:

8Do ingles minimum spanning tree

Page 86: análise em componentes e escalonamento multidimensional

71

Tabela 3.14: Coordenadas da solucao nMDS das similaridades de lıderes da 2a guerra.

Dimensao 1 Dimensao 2Hitler -2,58 -1,76

Mussolini -3,88 -1,25Churchill 0,31 1,47

Eisenhower 2,99 2,88Stalin -1,43 -3,76Attlee -2,11 5,07

Franco -2,86 0,08De Gaulle 0,66 -0,21Tse-Tung 4,16 -4,58

Truman 4,50 0,29Chamberlain -2,14 2,76

Tito 2,39 -1,00

−4 −2 0 2 4 6

−4

−2

02

46

Coordenada 1

Coo

rden

ada

2

HitlerMussolini

Churchill

Eisenhower

Stalin

Attlee

FrancoDe Gaulle

Tse−Tung

Truman

Chamberlain

Tito

Figura 3.3: nMDS de julgamentos de similaridade de lıderes da II guerra mundial.

• Nao ocorra ciclos fechados;

• Todo ponto seja visitado pelo menos uma vez;

• A arvore seja conectada (ou seja, sempre haja um caminho entre dois pontos quaisquer)

Page 87: análise em componentes e escalonamento multidimensional

72

O comprimento da arvore e definido pela soma dos comprimentos dos seus segmentos, e

quando um conjunto de n pontos e os comprimentos de todos os Cn,2 segmentos sao dados,

entao a arvore de cobertura mınima e definida como a arvore de cobertura com o menor compri-

mento. Algoritmos para determinar a arvore de cobertura mınima de um conjunto de n pontos,

dadas as distancias entre eles, ja foram fornecidos pela literatura - ver, por exemplo, Prim (1957)

e J. Gower and Ross (1969).

3.9 Diagrama de Shepard

Nossa ferramenta fundamental para calcular a qualidade do ajuste ao utilizarmos nMDS e o Stress,

mas tambem podemos lancar mao de um interessante metodo grafico para avaliar (informalmente)

a qualidade da solucao MDS. Consiste em plotar um diagrama de dispersao das dissimilaridades

contra as distancias obtidas. Este metodo grafico e chamado Diagrama de Shepard.

Na subsecao 4.3.3, na figura 4.19, temos um exemplo de diagrama de Shepard relativo aos

dados de votacao no congresso norte-americano.

3.10 Metodos relacionados

Nesta secao, vamos comentar brevemente sobre outros metodos relacionados com MDS. Obvi-

amente nao comentaremos sobre ACP, que tem um capıtulo proprio e e um dos temas deste

trabalho.

Analise de correspondencia

Segundo B. Everitt and Skrondal (2010), a analise de correspondencia e um metodo para exibir

as relacoes entre variaveis categoricas num tipo de diagrama de dispersao (equivalente a um

mapa cMDS). para tais duas variaveis dispostas na forma de uma tabela de contingencia, por

exemplo, obtendo um conjunto de coordenadas representando as categorias linha e coluna. Um

pequeno numero destas coordenadas (usualmente dois) sao entao usadas para que a tabela possa

ser exibida graficamente. No grafico resultante, as distancias euclidianas aproximam as distancias

qui-quadrado entre as categorias linha e coluna. As coordenadas sao analogas as resultantes

de uma ACP de variaveis contınuas, exceto que elas envolvem uma particao da estatıstica qui-

quadrado e nao a variancia total. Tal analise de uma tabela de contingencia permite um exame

visual de estruturas ou padroes nos dados, e frequentemente age como um suplemento util a

inferencias mais formais. Para um estudo sobre analise de correspondencia, ver Greenacre (2007).

Page 88: análise em componentes e escalonamento multidimensional

73

Desdobramento multidimensional

Segundo B. Everitt and Skrondal (2010), Desdobramento multidimensional9 e uma forma de MDS

aplicavel tanto a matrizes de proximidade retangulares, onde as linhas e colunas correspondem a

diferentes conjuntos de estımulos (por exemplo, julgamentos de refrigerantes), quanto a matrizes

de proximidade assimetricas (por exemplo, citacoes do jornal A por um jornal B e vice-versa).

Desdobramento foi introduzido como uma forma de representar os juızes e os estımulos em uma

unica dimensao para que a ordem dos postos dos estımulos conforme determinado por cada juiz

seja refletida pela ordem dos postos da distancia do estımulo a esse juiz.

Analise de Procrustes

Segundo B. Everitt and Skrondal (2010), analise de Procrustes10 e um metodo de comparacao

das representacoes geometricas alternativas de um conjunto multivariado de dados ou de uma

matriz de proximidade, por exemplo, duas solucoes MDS concorrentes. As duas solucoes sao

comparadas utilizando um criterio de soma dos quadrados residual que e minimizada permitindo

que as coordenadas correspondentes para uma solucao sejam rotacionadas, refletidas e translada-

das em relacao a outra. A analise de Procrustes generalizada permite a comparacao de mais de

duas solucoes alternativas fazendo as transformacoes lineares indicadas acima (rotacao, reflexao

e translacao) para varias solucoes simultaneamente, de forma a otimizar uma medida de bondade

de ajuste pre-definida.

Escalonamento de diferencas individuais - INDSCAL

Segundo B. Everitt and Skrondal (2010), escalonamento de diferencas individuais11 e uma forma

de MDS aplicavel aos dados consistindo de varias matrizes de proximidade de origens diferentes,

ou seja, indivıduos diferentes. O metodo permite estabelecer diferencas individuais da percepcao

9Do ingles Multidimensional unfolding.

10O nome deste tipo de analise tem origem em Procrustes, ’O esticador”, que, segundo Historia de Procrustes(n.d.) era um bandido que vivia na serra de Eleusis. Em sua casa, ele tinha uma cama de ferro, que tinha seuexato tamanho, para a qual convidava todos os viajantes a se deitar. Se o hospede fosse demasiado alto, eleamputava o excesso de comprimento para ajusta-lo a cama, e os que tinham pequena estatura eram esticadosate atingirem o comprimento suficiente. Uma vıtima nunca se ajustava exatamente ao tamanho da cama porqueProcrustes, secretamente, tinha duas camas de tamanhos diferentes.Procrustes continuou seu reinado de terror ate que foi capturado pelo heroi ateniense Teseu que, em sua ultimaaventura, prendeu Procrustes lateralmente em sua propria cama e cortou-lhe a cabeca e os pes, aplicando-lhe omesmo suplıcio que infligia aos seus hospedes.

11Do ingles Individual differences scaling.

Page 89: análise em componentes e escalonamento multidimensional

74

de estımulos, aplicando pesos para cada indivıduo, que pode ser utilizado para esticar ou encolher

as dimensoes da solucao geometrica recuperada.

Page 90: análise em componentes e escalonamento multidimensional

75

Capıtulo 4

ANALISES DE DADOS

4.1 Introducao

Neste capıtulo vamos fazer varias analises de dados referentes as tecnicas que sao o tema deste

trabalho: Analise de componentes principais e escalonamento multidimensional. O capıtulo esta

dividido em duas secoes, cada uma concernente a cada tecnica-tema do trabalho.

4.2 Analises de dados utilizando ACP

4.2.1 Esportes: Analisando a estrutura de escores do heptatlo olımpico

O pentatlo feminino foi realizado pela primeira vez na Alemanha em 1928. A prova consistia inici-

almente de arremesso de peso, salto em distancia, corrida de 100m, salto em altura e arremesso de

dardo, e era realizada em dois dias. Nos jogos olımpicos de 1964, o pentatlo se tornou o primeiro

evento olımpico feminino combinado, passando a consistir em corrida de 80m com barreiras, tiro,

salto em altura, salto em distancia e corrida de 200m. Em 1977 a corrida de 200m foi substituıda

por corrida de 800m, e em 1981 a IAAF1 substituiu o pentatlo pelo heptatlo: agora, no 1o dia

de competicoes, tinha-se corrida 100m com barreiras, tiro, salto em altura e corrida de 200m; no

2o dia, salto em distancia, arremesso de dardo e corrida de 800m. Um sistema de pontuacao e

utilizado para atribuir pontos aos resultados de cada prova e a vencedora e a atleta que acumula

mais pontos durante os dois dias de prova. O heptatlo feminino estreou em olimpıadas em 1984,

em Los Angeles (EUA).

Nos jogos olımpicos de 1988, em Seul (Coreia do Sul), o heptatlo foi vencido por uma grande

atleta norte-americana, Jackie Joyner-Kersee. Os resultados de todas as 25 competidoras em

todas as sete provas e dada na tabela 4.1 (os dados constam em Hand et al. (1994) e estao

incluıdos no pacote HSAUR3 do R B. S. Everitt and Hothorn (2015)).

1International Association of Athletics Federation - em portugues, Associacao Internacional de Federacoes deAtletismo.

Page 91: análise em componentes e escalonamento multidimensional

76

Tabela 4.1: Resultados do heptatlo feminino, Seul, 1988.

hurdles highjump shot run200m longjump javelin run800m scoreJoyner-Kersee (USA) 12,69 1,86 15,80 22,56 7,27 45,66 128,51 7291

John (GDR) 12,85 1,80 16,23 23,65 6,71 42,56 126,12 6897Behmer (GDR) 13,20 1,83 14,20 23,10 6,68 44,54 124,20 6858

Sablovskaite (URS) 13,61 1,80 15,23 23,92 6,25 42,78 132,24 6540Choubenkova (URS) 13,51 1,74 14,76 23,93 6,32 47,46 127,90 6540

Schulz (GDR) 13,75 1,83 13,50 24,65 6,33 42,82 125,79 6411Fleming (AUS) 13,38 1,80 12,88 23,59 6,37 40,28 132,54 6351Greiner (USA) 13,55 1,80 14,13 24,48 6,47 38,00 133,65 6297

Lajbnerova (CZE) 13,63 1,83 14,28 24,86 6,11 42,20 136,05 6252Bouraga (URS) 13,25 1,77 12,62 23,59 6,28 39,06 134,74 6252Wijnsma (HOL) 13,75 1,86 13,01 25,03 6,34 37,86 131,49 6205

Dimitrova (BUL) 13,24 1,80 12,88 23,59 6,37 40,28 132,54 6171Scheider (SWI) 13,85 1,86 11,58 24,87 6,05 47,50 134,93 6137

Braun (FRG) 13,71 1,83 13,16 24,78 6,12 44,58 142,82 6109Ruotsalainen (FIN) 13,79 1,80 12,32 24,61 6,08 45,44 137,06 6101

Yuping (CHN) 13,93 1,86 14,21 25,00 6,40 38,60 146,67 6087Hagger (GB) 13,47 1,80 12,75 25,47 6,34 35,76 138,48 5975

Brown (USA) 14,07 1,83 12,69 24,83 6,13 44,34 146,43 5972Mulliner (GB) 14,39 1,71 12,68 24,92 6,10 37,76 138,02 5746

Hautenauve (BEL) 14,04 1,77 11,81 25,61 5,99 35,68 133,90 5734Kytola (FIN) 14,31 1,77 11,66 25,69 5,75 39,48 133,35 5686

Geremias (BRA) 14,23 1,71 12,95 25,50 5,50 39,64 144,02 5508Hui-Ing (TAI) 14,85 1,68 10,00 25,23 5,47 39,14 137,30 5290

Jeong-Mi (KOR) 14,53 1,71 10,83 26,61 5,50 39,26 139,17 5289Launa (PNG) 16,42 1,50 11,78 26,16 4,88 46,38 163,43 4566

Vamos analisar estes dados usando ACP com vistas a explorar a estrutura dos dados e avaliar

como os escores das componentes principais se relacionam a pontuacao atribuıda pelo sistema de

pontuacao oficial da IAAF.

Antes de fazermos a ACP nos dados, e uma boa pratica procedermos a uma avaliacao inicial dos

dados usando alguns metodos graficos apropriados. Alguns resumos numericos tambem podem

ser uteis antes de se fazer a analise principal. Antes de tudo, sera muito util executarmos um

passo de pre-processamento: vamos transformar a pontuacao das variaveis hurdles, run200m e

run800m de forma que valores altos sejam indicativos de melhor performance: a transformacao

sera da forma max(Xi) − xi. As transformacoes nessas variaveis nos auxiliarao a identificar um

outlier. Apenas para ilustrar na pratica, vamos aqui indicar como fazer esta transformacao para

a variavel hurdles usando o R:

heptathlon$hurdles <- with(heptathlon, max(hurdles) - hurdles)

Apos a transformacao, a tabela 4.2 exibe as pontuacoes transformadas.

Page 92: análise em componentes e escalonamento multidimensional

77

Tabela 4.2: Variaveis transformadas - resultados do heptatlo.

hurdles highjump shot run200m longjump javelin run800m scoreJoyner-Kersee (USA) 3,73 1,86 15,80 4,05 7,27 45,66 34,92 7291

John (GDR) 3,57 1,80 16,23 2,96 6,71 42,56 37,31 6897Behmer (GDR) 3,22 1,83 14,20 3,51 6,68 44,54 39,23 6858

Sablovskaite (URS) 2,81 1,80 15,23 2,69 6,25 42,78 31,19 6540Choubenkova (URS) 2,91 1,74 14,76 2,68 6,32 47,46 35,53 6540

Schulz (GDR) 2,67 1,83 13,50 1,96 6,33 42,82 37,64 6411Fleming (AUS) 3,04 1,80 12,88 3,02 6,37 40,28 30,89 6351Greiner (USA) 2,87 1,80 14,13 2,13 6,47 38,00 29,78 6297

Lajbnerova (CZE) 2,79 1,83 14,28 1,75 6,11 42,20 27,38 6252Bouraga (URS) 3,17 1,77 12,62 3,02 6,28 39,06 28,69 6252Wijnsma (HOL) 2,67 1,86 13,01 1,58 6,34 37,86 31,94 6205

Dimitrova (BUL) 3,18 1,80 12,88 3,02 6,37 40,28 30,89 6171Scheider (SWI) 2,57 1,86 11,58 1,74 6,05 47,50 28,50 6137

Braun (FRG) 2,71 1,83 13,16 1,83 6,12 44,58 20,61 6109Ruotsalainen (FIN) 2,63 1,80 12,32 2,00 6,08 45,44 26,37 6101

Yuping (CHN) 2,49 1,86 14,21 1,61 6,40 38,60 16,76 6087Hagger (GB) 2,95 1,80 12,75 1,14 6,34 35,76 24,95 5975

Brown (USA) 2,35 1,83 12,69 1,78 6,13 44,34 17,00 5972Mulliner (GB) 2,03 1,71 12,68 1,69 6,10 37,76 25,41 5746

Hautenauve (BEL) 2,38 1,77 11,81 1,00 5,99 35,68 29,53 5734Kytola (FIN) 2,11 1,77 11,66 0,92 5,75 39,48 30,08 5686

Geremias (BRA) 2,19 1,71 12,95 1,11 5,50 39,64 19,41 5508Hui-Ing (TAI) 1,57 1,68 10,00 1,38 5,47 39,14 26,13 5290

Jeong-Mi (KOR) 1,89 1,71 10,83 0,00 5,50 39,26 24,26 5289Launa (PNG) 0,00 1,50 11,78 0,45 4,88 46,38 0,00 4566

Page 93: análise em componentes e escalonamento multidimensional

78

Depois de fazer a transformacao nas variaveis, vamos construir uma matriz de diagramas de

dispersao e obter a matriz de correlacoes (tabela 4.3):

Tabela 4.3: Matriz de correlacoes do heptatlo feminino.

hurdles highjump shot run200m longjump javelin run800mhurdles 1,00 0,81 0,65 0,77 0,91 0,01 0,78

highjump 0,81 1,00 0,44 0,49 0,78 0,00 0,59shot 0,65 0,44 1,00 0,68 0,74 0,27 0,42

run200m 0,77 0,49 0,68 1,00 0,82 0,33 0,62longjump 0,91 0,78 0,74 0,82 1,00 0,07 0,70

javelin 0,01 0,00 0,27 0,33 0,07 1,00 -0,02run800m 0,78 0,59 0,42 0,62 0,70 -0,02 1,00

Agora vamos introduzir nas nossas analises um novo metodo grafico que nos permite visualizar

de uma maneira interessante a matriz de correlacoes2: junto as magnitudes das correlacoes, insere-

se um gradiente de cores, com cores agrupadas de acordo com a magnitude da correlacao. Alem

disso, neste grafico das correlacoes, podemos agrupar as variaveis mais correlacionadas de acordo

com algum criterio3.O grafico das correlacoes esta na figura 4.14.

O exame da matriz (e grafico) de correlacoes mostra que a maioria das provas sao positi-

vamente correlacionadas, algumas moderadamente (por exemplo, salto em altura e tiro) e

outras mais altas (por exemplo, salto em altura e corrida com obstaculos). As excecoes

a essa observacao geral sao as relacoes entre a prova de dardo (javelin) e as outras, onde quase

todas as correlacoes sao proximas de zero. Uma explicacao pode ser que arremesso de dardo e

uma prova muito “tecnica” e talvez o treinamento para as outras provas nao ajudem as atletas

nos dardos. Contudo, antes de nos aprofundarmos nas explicacoes, vamos observar atentamente

a matriz de diagramas de dispersao das sete provas mostrada na figura 4.2.

Uma observacao que nos chama fortemente a atencao neste grafico e que para todos os

eventos, exceto dardos, ha um outlier bem afastado dos outros valores, ou seja, alguma atleta

que foi muito mal em relacao as outras em seis das provas. Observando a tabela de dados, vemos

que esse outlier corresponde a atleta de Papua Nova Guine (PNG), que terminou a competicao

2A ideia consta no livro Chang (2013) e e baseada no comando do R corrplot do pacote de mesmo nomeWei (2013).

3Entre outros criterios - ver (Wei, 2013), existe o criterio de ordenacao das variaveis no grafico de correlacoespela primeira componente principal. E este o criterio que vamos utilizar em todos os graficos de correlacaodeste trabalho. Vamos voltar a fazer referencia a esta nota de rodape depois de fazermos a ACP dos dados doheptatlo.

4Neste capıtulo de analises de dados, vamos colocar o grafico de correlacoes junto a todas as matrizes decorrelacoes

Page 94: análise em componentes e escalonamento multidimensional

79

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1lon

gjum

p

hurd

les

run2

00m

highju

mp

run8

00m

shot

javeli

n

longjump

hurdles

run200m

highjump

run800m

shot

javelin

1

0.91

0.82

0.78

0.7

0.74

0.07

0.91

1

0.77

0.81

0.78

0.65

0.01

0.82

0.77

1

0.49

0.62

0.68

0.33

0.78

0.81

0.49

1

0.59

0.44

0

0.7

0.78

0.62

0.59

1

0.42

−0.02

0.74

0.65

0.68

0.44

0.42

1

0.27

0.07

0.01

0.33

0

−0.02

0.27

1

Figura 4.1: Correlacoes do heptatlo.

em ultimo lugar segundo o escore oficial. Mas surpreendentemente, nos diagramas de dispersao

envolvendo os dardos, e esta mesma atleta que se destaca das demais, mas agora ela se destaca

por ter a terceira pontuacao mais alta nesta prova. Destarte, podemos utilizar um expediente ao

qual ja estamos bem acostumados em analise de dados: vamos refazer a matriz de correlacoes e

a matriz de diagramas de dispersao, apos removermos a competidora de PNG:

Tabela 4.4: Matriz de correlacoes do heptatlo feminino apos remocao de outlier (atleta de PNG).

hurdles highjump shot run200m longjump javelin run800mhurdles 1,00 0,58 0,77 0,83 0,89 0,33 0,56

highjump 0,58 1,00 0,46 0,39 0,66 0,35 0,15shot 0,77 0,46 1,00 0,67 0,78 0,34 0,41

run200m 0,83 0,39 0,67 1,00 0,81 0,47 0,57longjump 0,89 0,66 0,78 0,81 1,00 0,29 0,52

javelin 0,33 0,35 0,34 0,47 0,29 1,00 0,26run800m 0,56 0,15 0,41 0,57 0,52 0,26 1,00

A nova matriz de diagramas de dispersao e exibida na figura 4.4. Varias das correlacoes

mudaram, em especial aquelas envolvendo a prova de dardos, onde correlacoes antes muito pe-

Page 95: análise em componentes e escalonamento multidimensional

80

hurdles

1.50 1.70

●●●

●●●

●●●

●●● ●

●●

●●●

●●

●●●

●●●

●●●

● ●● ●

●●

●● ●

●●

0 1 2 3 4

●●●

●●●●

●●●

●●●●

●●

●●●

●●

●●●

●●●●●●

●●● ●

●●

●●●

●●

36 40 44

●●●

● ●●

●● ●

●●●●

●●

●●●

●●

● 01

23

●●●

● ●●

●●●

●● ●●

●●

●●●

●●

1.50

1.70

●●

●●●

●●●

●●

●●

●●

highjump

●●

●● ●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

● ●

●●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●●

●●

●●

●●

●●

●●

●●●

●●●

●●

shot

●●

●●

●●

●●

●● ●

● ●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

● ●

●● ●

● ●●

● ●

1013

16●●

●●

●●

●●

●●●

●● ●

●●

01

23

4 ●

●●

●●

●●●

●●

●●●

●●

●●

●●

●●●●

●●

●●●

●●

●●

●●

● ●●●

●●

●●●

●●

run200m

●●

●●

●●●

●●

●●●●

●●

● ●

●●

●●●●

●●

● ●●

●●

● ●

●●

●● ●●

● ●

●●●

●●

●●

●●● ●●

●●● ●

●●●

● ●●●●

●●●●

●●

●● ●●●

●● ●●

●●●

●●●●

●●

●●●

●●

●●●● ●

●●●●

● ●●

●●●●

●●

●● ●

● ●

●●● ●●

●●● ●

●●●

●●●●

●●●●●

longjump

● ●

● ●●●●

●●● ●

●●●

●●●●

●●●●●

● 5.0

6.0

7.0●

●●

● ●●●●

●●●●

●● ●

● ●● ●

●●

● ●●

3640

44

●●

●●

●●●●

●●

●●

●●

●●●●

●●

●●

●●

● ●● ●

●●

●●

●●

●●●●

●●

●●

●●

●●●●

javelin

●●

●●

●● ●●

0 1 2 3

●●

●●

●●● ●

● ●●

●●●

●●

●●

●●

●●●●

●●●

●●●

●●

10 13 16

●●

●●

● ●●●

●●●

●●●

●●

●●

●●

●●● ●

● ●●

●●●

●●

5.0 6.0 7.0

●●●

●●●

●●●●

●●●

●●●

●●

●●

●●

●●●●

● ●●

●● ●

●●

0 20 40

020

40

run800m

Figura 4.2: Matriz de diagramas de dispersao das sete provas do heptatlo apos transformacao de3 variaveis de sorte que, para todas as provas, pontuacao alta e indicativa de melhor performance.

Page 96: análise em componentes e escalonamento multidimensional

81

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1hurd

les

longju

mp

run2

00m

shot

highju

mp

run8

00m

javeli

n

hurdles

longjump

run200m

shot

highjump

run800m

javelin

1

0.89

0.83

0.77

0.58

0.56

0.33

0.89

1

0.81

0.78

0.66

0.52

0.29

0.83

0.81

1

0.67

0.39

0.57

0.47

0.77

0.78

0.67

1

0.46

0.41

0.34

0.58

0.66

0.39

0.46

1

0.15

0.35

0.56

0.52

0.57

0.41

0.15

1

0.26

0.33

0.29

0.47

0.34

0.35

0.26

1

Figura 4.3: Correlacoes do heptatlo - sem a atleta de PNG.

quenas aumentaram consideravelmente. Dada a mudanca geral consideravel na matriz(e grafico)

de correlacoes omitindo-se a atleta de PNG, vamos extrair as componentes principais dos dados da

matriz de correlacoes apos essa omissao. Os resultados da ACP (cargas e proporcao cumulativa

das variancias explicadas) estao nas tabelas 4.5 e 4.65.

Tabela 4.5: Matriz de cargas da ACP do heptatlo feminino, com a atleta de PNG retirada epadronizacao das variaveis.

CP1 CP2 CP3 CP4 CP5 CP6 CP7hurdles -0,4504 0,0577 -0,1739 0,0484 -0,1989 0,8467 -0,0696

highjump -0,3145 -0,6513 -0,2088 -0,5569 0,0708 -0,0901 0,3316shot -0,4025 -0,0220 -0,1535 0,5483 0,6717 -0,0989 0,2290

run200m -0,4271 0,1850 0,1301 0,2310 -0,6178 -0,3328 0,4697longjump -0,4510 -0,0249 -0,2698 -0,0147 -0,1215 -0,3829 -0,7494

javelin -0,2423 -0,3257 0,8807 0,0602 0,0787 0,0719 -0,2111run800m -0,3029 0,6565 0,1930 -0,5742 0,3188 -0,0522 0,0772

5Observe como a ordem das variaveis no grafico de correlacoes das figuras 4.1 e 4.3 se ordenam de acordo comos pesos das cargas da primeira componente principal.

Page 97: análise em componentes e escalonamento multidimensional

82

hurdles

1.70 1.80

●●

●●

●● ●

●●●

●●

●●

●●

●●●

●●●

● ●

0 1 2 3 4

●●

●●

●●●

●●●

●●

●●

●●

●●●

●●●

●●

36 40 44

●●

●●

●● ●

●●●

●●

1.5

2.5

3.5●

●●

●●●

●● ●

●●

1.70

1.80

●●

●●

highjump

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●● ●

●●●

●●

●●

●●

● ●

●●●

● ●●

●●

shot

●●

●●

●●

●● ●

● ●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

● ●

●● ●

● ●●

● ●

1013

16●●

●●

●●

●●●

●● ●

●●

01

23

4 ●

●●

●●

●●●

●●

●●●

●●

●●

●●●

●●

●●●

●●

●●

● ●●

●●

●●●

run200m

●●

●●

●●●

●●

●●●●

● ●

●●

●●●

●●

● ●●

● ●

●●

●●●

● ●

●●●

●●

●●● ●●

●●● ●

●●●

● ●

●●●

●● ●

● ●

●● ●●●

●● ●●

●●●

●●

●●●

●● ●

●●

●●●●●

●●●●

● ●●

●●

●●●

●● ●

● ●

●●● ●●

●●● ●

●●●

●●

●●●

●●●

longjump

● ●

● ●●●●

●●● ●

●●●

●●

●●●

●●● 5.5

6.5

● ●

● ● ●●●

●● ●●

●● ●

● ●

● ●●

● ●●

3640

44

●●

●●● ●

●●

●●● ●

●●

● ●● ●

●●

●●●●

●●

●●●●

javelin

●●

●●●●

1.5 2.5 3.5

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

10 13 16

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

5.5 6.5

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

20 30 40

2030

40

run800m

Figura 4.4: Matriz de diagramas de dispersao das sete provas do heptatlo apos transformacao ecom a retirada do outlier representado pela atleta de Papua Nova Guine (PNG).

Tabela 4.6: ACP do heptatlo feminino, com a atleta de PNG retirada e padronizacao das variaveis.

PC1 PC2 PC3 PC4 PC5 PC6 PC7DP 2,0793 0,9482 0,9109 0,6832 0,5462 0,3375 0,2620

Prop. da variancia 0,6177 0,1284 0,1185 0,0667 0,0426 0,0163 0,0098Prop. acumulada 0,6177 0,7461 0,8646 0,9313 0,9739 0,9902 1,0000

Page 98: análise em componentes e escalonamento multidimensional

83

Analisando a tabela de cargas, temos que na primeira coluna (referente a primeira compo-

nente principal), os maiores coeficientes (pesos) da combinacao linear sao dados para corrida de

obstaculos (hurdles) e salto em distancia (longjump). Vemos que a prova de dardos possui menor

peso. Isso e sem duvida uma descoberta interessante, e ja aprendemos algo sobre a estrutura da

pontuacao utilizando a tecnica ACP.

Prosseguindo na analise, agora voltamos nosso interesse para os escores das componentes

principais, que afinal podem ser um substituto (ou uma alternativa) ao sistema oficial de pon-

tuacao geral da prova do heptatlo. Vimos, na secao 2.9, que o escore da componente principal

k, 1 ≤ k ≤ q, considerando os vetores de cargas com dimensao q× 1 e o valor xi de um indivıduo

tambem um vetor com dimensao q × 1, e dado por yik = aTkxi. Logo, o escore da k-esima

componente principal e dado por yk = aTkX, ou entao como faz o R, colocando o escore em

vetor-coluna, yk = XTak.

Dito isto, enfim temos os escores da CP1 (1a componente pricipal) na tabela 4.7:

Tabela 4.7: Escores da primeira CP do heptatlo feminino, com a atleta de PNG retirada epadronizacao das variaveis.

Atleta Escore PC1 Atleta Escore PC1Joyner-Kersee (USA) -4,76 Scheider (SWI) 0,00

John (GDR) -3,15 Braun (FRG) 0,11Behmer (GDR) -2,93 Ruotsalainen (FIN) 0,21

Sablovskaite (URS) -1,29 Yuping (CHN) 0,23Choubenkova (URS) -1,50 Hagger (GB) 0,66

Schulz (GDR) -0,96 Brown (USA) 0,76Fleming (AUS) -0,95 Mulliner (GB) 1,88Greiner (USA) -0,63 Hautenauve (BEL) 1,83

Lajbnerova (CZE) -0,38 Kytola (FIN) 2,12Bouraga (URS) -0,52 Geremias (BRA) 2,77Wijnsma (HOL) -0,22 Hui-Ing (TAI) 3,90

Dimitrova (BUL) -1,08 Jeong-Mi (KOR) 3,90

As primeiras duas componentes abarcam 75% da variancia. Um grafico de colunas (mostrado

na figura 4.5) da variancia de cada componente mostra como as primeiras duas componentes

principais “dominam” grande parte da variacao dos dados. Na figura 4.5, inserimos duas linhas

que correspondem aos criterios de Kaiser e Jolliffe (vistos na secao 2.8). Pelo criterio de Kaiser,

apenas a primeira componente principal seria retida; pelo criterio de Jolliffe, as tres primeiras

componentes principais seriam retidas.

Page 99: análise em componentes e escalonamento multidimensional

84

Var

ianc

es

01

23

45

0.7

1

KaiserJolliffe

Figura 4.5: Variancias explicadas pelas CP (com as observacoes da atleta de PNG removidas).

Uma outra representacao grafica interessante quanto a decisao de quantas componentes reter

esta na figura 4.6. Temos, no mesmo grafico, o criterio de Kaiser, o criterio de Cattell (scree

plot) e o criterio da analise paralela. Os tres criterios indicam reter apenas a primeira componente

principal.

Apenas uma componente principal explica cerca de 62% da variancia dos dados; 2 componen-

tes principais explicam cerca de 75% da variancia, e com 3 componentes principais temos mais

de 86% da variancia dos dados.

Podemos finalmente verificar se os escores da primeira componente principal sao bons substi-

tutos para o sistema oficial de pontuacao da prova olımpica. Basta simplesmente calcularmos a

correlacao entre estes dois vetores. O resultado e -0,99 o que indica uma associacao linear quase

perfeita.

Isto implica que a primeira componente principal esta em enorme concordancia com o sistema

Page 100: análise em componentes e escalonamento multidimensional

85

1 2 3 4 5 6 7 8

01

23

45

Component Number

eige

n va

lues

of p

rinci

pal c

ompo

nent

s

KaiserCattellAn. Paralela

Figura 4.6: Escolhendo o numero de comp. principais dos dados do heptatlo - os criterios deKaiser, Cattell e analise paralela ajudam a determinar o numero de componentes a reter. Nocaso, os 3 criterios indicam reter apenas a primeira CP.

Page 101: análise em componentes e escalonamento multidimensional

86

oficial de pontuacao; um diagrama de dispersao da pontuacao oficial e dos escores da primeira

componente principal e exibido na figura 4.7 (o fato de que a correlacao e negativa nao importa,

de acordo com o que comentamos na parte teorica: os sinais das cargas - e consequentemente

dos escores - sao arbitrarios. A magnitude da correlacao e o mais importante aqui).

●●

●●

●●●●

●●

●●

●●

5500 6000 6500 7000

−4

−2

02

4

Pontuação oficial

Esc

ore

da 1

ª C

P

Figura 4.7: Diagrama de dispersao dos escores da primeira componente principal versus escoresdo sistema oficial de pontuacao da prova do heptatlo.

Vamos agora fazer o biplot para os dados do heptatlo. Conforme explicado na secao 2.10, o bi-

plot e uma ferramenta muito util para se visualizar, no mesmo grafico, variancias e covariancias das

variaveis num conjunto de eixos rotacionados (no caso, as duas primeiras componentes principais)

juntamente com a representacao espacial em baixa dimensao do conjunto de pontos multivariados

(basicamente representando a distancia generalizada entre as unidades - atletas nesta analise).

Na figura 4.8, temos o biplot para os dados do heptatlo olımpico feminino (retirando-se a atleta

PNG que representa um outlier do conjunto de dados). Podemos ver, no biplot, que a vencedora

da competicao, Jackie-Joyner Kersee, acumula a maioria de seus pontos nos tres eventos: salto

em altura(long jump), corrida de obstaculos (hurdles) e corrida de 200m. Talvez a explicacao para

este fato venha de outra informacao muito interessante que podemos obter tambem a partir do

biplot: estas tres provas citadas sao variaveis altamente correlacionadas. Com isso, especialistas

em atletismo (especificamente em heptatlo feminino) podem investigar o que os dados sugerem:

o treinamento em uma destas tres modalidades pode influenciar no treinamento das duas outras,

Page 102: análise em componentes e escalonamento multidimensional

87

e o exemplo vivo desta sugestao esta na vencedora da prova.

Podemos observar mais a partir do biplot: o resultado da corrida de 800m tem correlacao

relativamente baixa com todas as outras provas, sendo praticamente nao correlacionada com as

provas de salto em altura e arremesso de dardo.

Quanto a interpretacao das componentes, podemos observar claramente que a primeira com-

ponente ordena as competidoras pelo seu resultado global do heptatlo; a segunda componente

(embora nao seja tao simples de interpretar quanto a primeira componente principal) pode ser

vista como a ordenante dos melhores eventos de cada atleta. Por exemplo, John, Choubenkova

e Behmer estao posicionadas perto do fim do vetor que representa a corrida de 800m, pois foi

nesta prova em que elas foram relativamente melhor. Analogamente, pelo que vemos no biplot,

Yuping, Scheider e Braun tiveram (relativo) bom desempenho no salto em altura.

4.2.2 Climatologia: Poluicao atmosferica em cidades dos EUA

Nesta subsecao, vamos retornar aos dados de poluicao do ar introduzidos no capıtulo 1 (os dados

estao na tabela 1.5). Os dados originalmente foram coletados para se investigar os determinantes

da poluicao atmosferica, provavelmente modelando uma regressao da variavel SO2 segundo as

outras seis, tomadas como regressoras. Contudo, aqui neste trabalho vamos examinar como a

ACP pode ser aplicada para explorar varios aspectos dos dados, e entao aprendermos como tal

analise tambem pode ser usada para atacar a questao dos determinantes da poluicao atmosferica.

Inicialmente, vamos ignorar a variavel S02 e nos concentrar nas demais, duas das quais rela-

cionadas a ecologia humana (popul, manu) e quatro ao clima (temp, Wind, precip, predays).

Podemos fazer uma transformacao que nos sera util posteriormente. Consiste em usar valores

negativos de temperatura de sorte que valores altos representam um ambiente menos atrativo.

Antes de procedermos a ACP dos dados de poluicao, vamos construir a matriz de diagramas

de dispersao, incluindo os histogramas para cada variavel na diagonal principal. O grafico esta na

figura 4.9.

Observando a matriz de diagramas de dispersao, percebemos que ha pelo menos uma cidade

- provavelmente mais de uma - que deve ser considerada um outlier. Na variavel manu, por exem-

Page 103: análise em componentes e escalonamento multidimensional

88

−0.4 −0.2 0.0 0.2 0.4 0.6

−0.

4−

0.3

−0.

2−

0.1

0.0

0.1

0.2

1ª Comp.

2ª C

omp.

Jy−K

John

Bhmr

Sblv

Chbn

Schl

FlmnGrnr

Ljbn

Borg

Wjns

Dmtr

Schd

Bran

Rtsl

Ypng

Hggr

Brwn

Mlln

Htnv

Kytl

Grms

H−In

Jn−M

−6 −4 −2 0 2 4 6 8

−4

−2

02

hurdles

highjump

shot

run200m

longjump

javelin

run800m

Figura 4.8: Biplot das duas componentes principais (escalonadas e sem a atleta de PNG) doheptatlo.

Page 104: análise em componentes e escalonamento multidimensional

89

manu

0 1500 3000

●●

●●

●●

●●

●●●●

●●

●●●●

●●●

●●

●●

●● ●●

●●

●●

●●

●● ●

●●

● ●●●

●● ●

● ●

● ●

●●

10 30 50

●●

●●

●●

●●

●● ●

●●

● ●●●

●● ●

●●

● ●

● ● ●●

●●

●●

●●

●●●

●●

●●●●

●●●

●●

● ●

● ●

−75 −60 −45

015

0030

00

●●

●●

●●

●●

●●●

●●

●●● ●

●●●

● ●

● ●

● ●

015

0030

00

●●

●●

●● ●

●●

●●

●●●●

●●

●●

●● ●●

●●

popul

●●

●●

●● ●

● ●

●●

● ● ●●

● ●

●●

●●●●

●● ●

●●

●●●

● ●

●●

● ●●●

● ●

●●

●●●●

●● ●

●●

●●●

●●

● ●

●●●●

● ●

●●

●●●

●● ●

●●

●● ●

●●

● ●

●● ● ●

● ●

●●

●●●

●●

●●●

● ●

●●

●●

● ●

● ●●

●●●

● ●

●●

●●

● ●

●●●

wind

●●●

●●

●●

●●

● ●

●●●

●●●

● ●

●●

●●

●●

●●●

68

1012

●●●

● ●

●●

●●

●●

●●●

1030

50

●● ●

● ●

●●

●●

●●

●● ●

● ●

●●

●●

●●

●● ●

●●

●●

●●

●●

precip●

●●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

● ●

●●

● ●

●●

●●●

●●

predays

4080

140

●●

●●

●●

●●

●●

●●

●● ●

●●

0 1500 3000

−75

−60

−45

●●

● ●●

●●

●●

●●●

●●

● ●●

●●

●●

●●●

6 8 10 12

●●

●●●

●●

● ●

●● ●

●●

●● ●

●●

● ●

●●●

40 80 140

●●

● ●●

●●

●●

●●●

negtemp

Figura 4.9: Matriz de diagramas de dispersao de 6 variaveis dos dados de poluicao do ar.

Page 105: análise em componentes e escalonamento multidimensional

90

plo, Chicago, com um valor de 3344, tem por volta de duas vezes mais industrias que empregam

pelo menos 20 trabalhadores do que a cidade em segundo lugar (Filadelfia). Retornaremos a este

problema em potencial mais tarde, mas no momento vamos fazer a ACP dos dados para todas

as 41 cidades.

Observando os dados que estao na tabela 1.5, parece necessario extrair as componentes da

matriz de correlacoes e nao da matriz de covariancias, pois as 6 variaveis que serao usadas estao

em escalas muito diferentes. A matriz de correlacoes e os resultados da ACP estao nas tabelas

4.8, 4.9 e 4.10. O grafico de correlacoes esta na figura 4.10.

Tabela 4.8: Matriz de correlacoes das 6 variaveis (exceto SO2) dos dados de poluicao.

manu popul wind precip predays negtempmanu 1,00 1,00 0,00 -0,00 0,00 0,00popul 1,00 1,00 0,00 -0,00 0,00 0,00wind 0,00 0,00 1,00 -0,00 0,00 0,00

precip -0,00 -0,00 -0,00 1,00 0,00 -0,00predays 0,00 0,00 0,00 0,00 1,00 0,00

negtemp 0,00 0,00 0,00 -0,00 0,00 1,00

Tabela 4.9: Desvios-padrao e variancias acumuladas da ACP dos dados de poluicao.

CP1 CP2 CP3 CP4 CP5 CP6D,padrao 1,48 1,22 1,18 0,87 0,34 0,19Prop. var 0,37 0,25 0,23 0,13 0,02 0,01

Var. acumulada 0,37 0,62 0,85 0,98 0,99 1,00

Tabela 4.10: Matriz de cargas da ACP dos dados de poluicao.

CP1 CP2 CP3 CP4 CP5 CP6manu -0,61 0,17 -0,27 -0,14 0,10 0,70popul -0,58 0,22 -0,35 -0,69wind -0,35 -0,13 0,30 0,87 -0,11

precip -0,62 -0,50 0,17 0,57predays -0,24 -0,71 -0,31 -0,58

negtemp -0,33 -0,13 0,67 -0,31 0,56 -0,14

Um ponto que tem de ser comentado sobre as correlacoes sao os valores muito altos para manu

e popul, descoberta essa que voltaremos a comentar um pouco mais a frente. Vemos que as

Page 106: análise em componentes e escalonamento multidimensional

91

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1m

anu

popu

l

wind negt

emp

pred

ays

prec

ip

manu

popul

wind

negtemp

predays

precip

1

0.96

0.24

0.19

0.13

−0.03

0.96

1

0.21

0.06

0.04

−0.03

0.24

0.21

1

0.35

0.16

−0.01

0.19

0.06

0.35

1

0.43

−0.39

0.13

0.04

0.16

0.43

1

0.5

−0.03

−0.03

−0.01

−0.39

0.5

1

Figura 4.10: Correlacoes das 6 variaveis (exceto SO2) dos dados de poluicao.

primeiras tres componentes tem variancias (autovalores) maiores que 1, e juntas agregam quase

85% da variancia das variaveis originais. Os escores destas tres componentes podem ser usados

para fazer o grafico dos dados com pouca perda de informacao. Iremos ilustrar esta possibilidade

um pouco mais a frente.

Mas antes, vamos aproveitar esta analise para fazermos um breve comentario sobre a inter-

pretacao das componentes principais. Nao o fizemos antes pois estavamos justamente esperando

uma analise de dados interessante para contextualizar tais comentarios.

E comum procurarmos interpretar as componentes principais que nos permitam “rotula-las”

em algum sentido. Isto requer examinar as cargas (na saıda exibida na tabela 4.10, as cargas

estao escalonadas de forma que a soma de quadrados e unitaria, e valores nulos indicam valores

muito proximos de zero). Vemos que a primeira componente pode ser considerada como algum

ındice de “qualidade de vida”, com valores altos indicando um ambiente relativamente pobre. A

segunda componente e muito focada com a quantidade de chuva de uma cidade, com altos valo-

res para precip e predays e pode ser rotulada como a componente “clima umido”. A terceira

Page 107: análise em componentes e escalonamento multidimensional

92

componente e essencialmente um contraste entre precip e negtemp e separa cidades com altas

temperaturas e alto ındice pluviometrico daquelas mais frias e secas. Um rotulo adequado pode

ser simplesmente “tipo de clima”.

Tentar rotular as componentes neste sentido e comum, mas talvez devesse ser um pouco

menos. A seguinte citacao de Marriot (1974) deveria ser um aviso salutar sobre os perigos da

“interpretacao excessiva”:

Deve ser enfatizado que nenhum metodo matematico e, ou pode ser, planejado

para fornecer resultados fisicamente significativos. Se uma expressao matematica

deste tipo tiver um significado fısico obvio, isto deve ser atribuıdo a um lance de sorte,

ou ao fato de que os dados tem uma estrutura fortemente marcada que apareca na

analise. Mesmo neste ultimo caso, ate mesmo flutuacoes aleatorias bem pequenas

podem frustrar a interpretacao; por exemplo, as primeiras duas componentes principais

podem aparecer em ordem invertida, ou podem ser confundidas uma com a outra.

Interpretacacao requer consideravel habilidade e experiencia, se se deseja obter um

verdadeiro cenario do significado fısico dos dados.

Mesmo que nao nos importemos em rotular as tres componentes, elas ainda podem ser usa-

das como base de varias exibicoes graficas das cidades. De fato, este e frequentemente um dos

aspectos mais uteis de uma ACP, pois considerando-a como meio de fornecer uma visualizacao

informativa de dados multivariados, tem-se a vantagem de tornar menos urgente tentar inter-

pretar e rotular as componentes. Os escores das primeiras poucas componentes fornecem um

“mapa” de baixa dimensao das observacoes nas quais as distancias euclidianas entre os pontos

que representam os indivıduos melhor aproximam, em algum sentido, as distancias euclidianas

entre os indivıduos baseadas nas observacoes originais. Neste sentido, ACP se iguala ao cMDS,

como vimos.

Continuando a analise, vamos olhar para a matriz de diagramas de dispersao das 3 primeiras

componentes principais, e em cada painel mostramos o respectivo boxplot bivariado; os pontos

sao rotulados pelos nomes abreviados das cidades. O grafico e mostrado na figura 4.11.

O grafico demonstra claramente que Chicago e um outlier e sugere que Phoenix e Filadelfia

tambem sao suspeitos de o serem. Phoenix parece oferecer a melhor qualidade de vida, e Buffalo

Page 108: análise em componentes e escalonamento multidimensional

93

Comp.1

−6 −4 −2 0 2 4

Albn

Albq

Atln

Bltm

Bffl

Chrl

Chcg

Cncn

Clvl

Clmb DllsDnvrDsMn

Dtrt

Hrtf

HstnIndn

Jcks

KnsC

LttR

LsvlMmph

Miam

MlwkMnnp

NshvNwOr

NrflOmah

Phld

Phnx

PttsPrvd

RchmSlLC

SnFr

Sttl St.LWshnWcht

Wlmn●

● ●●●

●●

●●

●●

●●

●●

●●

●●

● ●

−6

−4

−2

02

4

Albn

Albq

Atln

Bltm

Bffl

Chrl

Chcg

Cncn

Clvl

ClmbDlls DnvrDsMn

Dtrt

Hrtf

Hstn Indn

Jcks

KnsC

LttR

LsvlMmph

Miam

MlwkMnnp

NshvNwOr

NrflOmah

Phld

Phnx

PttsPrvd

RchmSlLC

SnFr

SttlSt.LWshn Wcht

Wlmn●

●●● ●

●●

●●

●●

●●

●●

●●

●●

● ●

−6

−4

−2

02

4

Albn

Albq

AtlnBltm

Bffl

Chrl

Chcg

CncnClvl

Clmb

Dlls

Dnvr

DsMnDtrt

Hrtf

HstnIndn

Jcks

KnsC

LttRLsvlMmph

Miam

MlwkMnnpNshv

NwOrNrfl

OmahPhld

Phnx

PttsPrvd

Rchm

SlLC

SnFr

Sttl

St.LWshn

Wcht

Wlmn●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

● Comp.2 Albn

Albq

AtlnBltm

Bffl

Chrl

Chcg

CncnClvl

Clmb

Dlls

Dnvr

DsMnDtrt

Hrtf

HstnIndn

Jcks

KnsC

LttRLsvlMmph

Miam

MlwkMnnpNshv

NwOr Nrfl

OmahPhld

Phnx

PttsPrvd

Rchm

SlLC

SnFr

Sttl

St.LWshn

Wcht

Wlmn●

●●

●●

●●

●●

●●●

● ●

●●

●●

●●

−6 −4 −2 0 2 4

Albn Albq

Atln

Bltm

Bffl

Chrl

Chcg

Cncn

ClvlClmb

Dlls

DnvrDsMn

DtrtHrtf

Hstn

Indn

Jcks

KnsC

LttRLsvl

Mmph

Miam

MlwkMnnp

Nshv

NwOr

Nrfl

Omah

PhldPhnx

PttsPrvd

Rchm

SlLC

SnFrSttl

St.LWshn

Wcht

Wlmn

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

Albn Albq

Atln

Bltm

Bffl

Chrl

Chcg

Cncn

ClvlClmb

Dlls

DnvrDsMn

DtrtHrtf

Hstn

Indn

Jcks

KnsC

LttRLsvl

Mmph

Miam

MlwkMnnp

Nshv

NwOr

Nrfl

Omah

PhldPhnx

PttsPrvd

Rchm

SlLC

SnFrSttl

St.LWshn

Wcht

Wlmn

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

−6 −4 −2 0 2 4

−6

−4

−2

02

4

Comp.3

Figura 4.11: Boxplots bivariados das 3 primeiras componentes principais.

Page 109: análise em componentes e escalonamento multidimensional

94

e uma cidade a se evitar caso se prefira um ambiente pouco umido.

Vamos agora considerar o principal objetivo que o pesquisador tinha em mente ao coletar dados

de poluicao atmosferica: determinar quais das variaveis climaticas e eutroficas6 sao as melhores

preditoras do grau de poluicao atmosferica em uma cidade, grau este medido pelo conteudo de

dioxido de enxofre (SO2) no ar. Como ja comentamos, normalmente esta questao seria atacada

por regressao multipla. Contudo, ha um problema potencial em aplicar regressao aos dados

de poluicao: multicolinearidade. Podemos ver, no grafico e tabela de correlacoes, que ha uma

alta correlacao entre as variaveis manu e popul. Podemos, e claro, lidar com este problema

simplesmente excluindo uma das duas variaveis, mas aqui iremos considerar uma interessante

abordagem alternativa: fazer a regressao dos nıveis de S02 nas componentes principais obtidas

das seis outras variaveis (ver figura 4.12).

Utilizar componentes principais em analise de regressao e discutida em detalhes em, por exem-

plo, Jolliffe (2002); aqui estamos fazendo um exemplo bem simples. A primeira questao que preci-

samos responder e “quantas componentes principais devem ser usadas como variaveis explicativas

na regressao?” A resposta obvia a esta questao e usar o numero de componentes principais que

identificamos como importantes na analise original; por exemplo, aquelas com autovalores maiores

que 1. Mas devemos ter cuidado: Jolliffe (2002) da um exemplo com 13 variaveis regressoras,

logo 13 componentes principais a considerar, das quais somente as 4 primeiras tem variancia

maior que 1. Contudo, ao usar todas as componentes principais como regressoras, observa-se que

a componente principal 12, com variancia 0.04 e uma preditora significativa da variavel resposta.

Destarte, tendo em mente este exemplo, vamos fazer a regressao da variavel SO2 em todas as 6

componentes principais. Vamos colocar a saıda da regressao feita no R:

Claramente, o escore da primeira componente principal e a mais preditiva da concentracao de

SO2, porem claramente vemos que as componentes principais com menor variancia nao necessa-

riamente terao menor correlacao com a resposta. Por exemplo, as componentes 4 e 6 sao sao

significativas para a regressao, ao passo que as componentes 2 e 3 nao o sao

6Grosso modo, “de influencia humana”.

Page 110: análise em componentes e escalonamento multidimensional

95

●● ●●

● ●

●●

● ●

●●

●●

●●

●●

● ●●●

20 40 60 80 100

−6

−4

−2

02

PC1

Con

cent

raçã

o de

SO

2

●●

●●

● ●●

● ●

●●

● ●

●●

20 40 60 80 100

−2

01

23

4

PC2

Con

cent

raçã

o de

SO

2

●●

● ●

●●

●●

20 40 60 80 100

−2

−1

01

PC3

Con

cent

raçã

o de

SO

2

●●

●●

●●

● ●

●●

●●

20 40 60 80 100−

2−

10

12

PC4

Con

cent

raçã

o de

SO

2

● ●

●●

● ●

●●

20 40 60 80 100

−0.

60.

00.

4

PC5

Con

cent

raçã

o de

SO

2

●●

●●

● ●

●●

●●

●●

●●

20 40 60 80 100

−0.

40.

00.

4

PC6

Con

cent

raçã

o de

SO

2

Figura 4.12: Concentracao de SO2 dependendo das componentes principais.

Tabela 4.11: Resultados da regressao dos dados de poluicao (variavel resposta SO2) sobre ascomponentes principais obtidas de antemao.

Coeficiente Estimativa DP valor t SignificanciaIntercepto 30,05 2,29 13,15 6,91e-15

CP1 -9,94 1,54 -6,45 2,28e-07CP2 -2,24 1,87 -1,20 0,24CP3 -0,38 1,94 -0,19 0,85CP4 -8,55 2,62 -3,26 0,002CP5 15,18 6,75 2,25 0,031CP6 39,27 12,32 3,19 0,003

Page 111: análise em componentes e escalonamento multidimensional

96

4.3 Analises de dados utilizando MDS

4.3.1 Um “mapa” do Brasil: solucao cMDS de distancias entre as 26 capitais brasi-

leiras

Vamos aqui utlizar cMDS para fazer uma “reconstrucao” de um mapa geografico. Sabemos que,

dado um mapa geografico, junto a escala do mapa podemos, com uma regua, obter facilmente

qualquer distancia entre duas localidades (“pontos”) neste mapa; agora vamos considerar o pro-

blema inverso: suponhamos que tenhamos a distancia (em linha “reta”7) entre alguns pontos;

desejamos, a partir destas distancias dadas, obter um mapa, ou seja, uma configuracao espacial

que represente estas distancias.

Esta e a ideia da analise desta subsecao: vamos utilizar cMDS para obter uma representacao

espacial de baixa dimensao (2 para termos uma representacao espacial usual de um mapa). As

distancias que temos sao as distancias geodesicas (em linha “reta”) entre as 26 capitais brasileiras

mais o distrito federal. Assim, estas distancias nao sao euclidianas. Temos, entao, na tabela 4.12,

as C27,2 = 351 distancias calculadas8.

7Colocamos o termo reta entre aspas pois tecnicamente as distancias entre dois pontos medidas da terradefinem-se como geodesicas. Segundo Gowers (2008), pag. 47, geodesica e

(...) o analogo, para a geometria Riemanniana, da linha reta da geometria euclidiana. Uma curvaC e uma geodesica se, dados dois pontos P e Q suficientemente proximos, o menor caminho de Pate Q e parte de C. Na esfera, as geodesicas sao os cırculos maximos (para uma definicao de cırculomaximo, ver, por exemplo (Weisstein, n.d.))

.

8Calculamos tais distancias no website http://distanciacidades.com/

Page 112: análise em componentes e escalonamento multidimensional

97

Tab

ela

4.12

:M

atri

zde

dist

anci

as(e

uclid

iana

s)en

tre

26ca

pita

isbr

asile

iras

+D

F.

RIO

SP

OB

HZ

VIT

CT

BF

LN

PO

AC

BA

CG

RG

OIB

RA

SA

LA

JUM

CO

RE

CJP

AN

TL

FO

RT

SN

SL

SP

MS

BE

LM

AN

PV

HB

VS

MC

PR

BR

RIO

0S

PO

361

0B

HZ

342

491

0V

IT41

674

838

30

CT

B68

033

982

210

830

FL

N75

249

097

511

6825

20

PO

A11

2785

313

4415

4354

837

60

CB

A15

8213

2913

7517

5213

0515

4616

820

CG

R12

1489

312

0714

9477

810

0511

1856

40

GO

I94

181

266

810

2897

312

1714

9974

170

50

BR

A93

387

362

194

610

8213

1516

2174

188

217

80

SA

L12

1114

5796

683

717

8819

3423

0719

2019

0812

2910

590

AJU

1481

1457

1240

1097

2061

2208

2581

2124

2156

1464

1289

274

0M

CO

1676

1935

1445

1284

2267

2409

2783

2310

2359

1664

1488

479

208

0R

EC

1875

2132

1641

1481

2463

2608

2981

2457

2534

1834

1656

675

402

199

0JP

A19

7122

2117

3015

8025

5026

0830

7225

0225

9818

9617

1876

549

129

710

50

NT

L20

9023

2718

3617

0726

5228

0931

8025

3126

6019

5617

7887

961

143

425

615

40

FO

R21

9223

7218

9518

5426

7528

6232

1923

3425

5218

5916

8910

2981

972

962

855

643

40

TS

N19

8420

9516

5517

1423

6725

7829

1418

6621

3614

7113

1499

690

793

393

690

990

949

80

SL

S22

7023

5319

3520

2426

0328

2631

4719

4822

9016

6715

2713

2512

2912

3512

0911

6411

6465

332

80

PM

S15

1214

9211

7514

1116

9319

3122

2310

3213

2372

461

911

1312

3313

8514

9715

2315

2313

0383

796

80

BE

L24

5624

6821

1422

7926

7029

1031

9417

8222

1916

9815

9816

9016

4616

8316

7816

4016

4011

3775

048

397

90

MA

N28

5526

9225

5928

7027

3729

8531

3714

5520

1819

1519

3926

1026

7927

8528

3828

2628

2623

8919

2417

5115

1712

960

PV

H27

1524

6824

8228

4424

1726

4627

1211

4016

4118

1619

0928

1429

5130

9931

9632

0832

0828

6223

6622

8017

1818

9176

10

BV

S34

3724

6831

2334

0333

7736

2737

9421

1226

7625

0825

0630

1630

3130

9731

0930

7630

7625

7021

7419

1919

9814

3766

613

380

MC

P26

9326

6923

5325

5028

4130

8833

4718

2623

1518

7217

9720

0519

7320

1520

0919

7030

7614

5710

8280

811

8533

210

5617

2711

130

RB

R29

9227

1127

9331

6726

0728

1528

2114

1818

3521

4322

5732

1433

6735

2236

2736

4336

4333

1028

1327

3121

3723

4011

5245

216

3021

650

Page 113: análise em componentes e escalonamento multidimensional

98

Na tabela 4.13, identificamos cada sigla com o respectivo nome da cidade. Agora vamos

Tabela 4.13: Explanacao das siglas das cidades utilizadas no mapa MDS.

Sigla Cidade Sigla CidadeRIO Rio de Janeiro REC Recife

SPO Sao Paulo JPA Joao PessoaBHZ Belo Horizonte NTL NatalVIT Vitoria FOR Fortaleza

CTB Curitiba TSN TeresinaFLN Florianopolis SLS Sao LuısPOA Porto Alegre PMS PalmasCBA Cuiaba BEL BelemCGR Campo Grande MAN ManausGOI Goiania PVH Porto Velho

BRA Brasılia BVS Boa VistaSAL Salvador MCP MacapaAJU Aracaju RBR Rio Branco

MCO Maceio

aplicar cMDS a esta matriz de distancias. As coordenadas obtidas estao na tabela 4.14 (como 13

autovalores sao negativos, exibiremos somente as colunas referente aos autovalores positivos), e

os autovalores estao na tabela 4.15.

Como esperado (dado que aplicamos uma solucao cMDS com distancias euclidianas a distancias

reais geodesicas), alguns autovalores sao negativos. Vamos agora utilizar os criterios P(1)m e

P(2)m para avaliar quantas coordenadas precisaremos para representar adequadamente a matriz de

distancias observadas. Os valores dos dois criterios calculados a partir dos autovalores estao na

tabela 4.16.

os valores da tabela 4.16 sugerem que as primeiras 2 coordenadas fornecerao uma repre-

sentacao adequada as distancias observadas. Na figura 4.13, temos o diagrama de dispersao dos

valores das coordenadas bidimensionais da solucao cMDS obtida a partir das distancias dadas na

tabela 4.12.

Para efeito de comparacao, na figura 4.14 exibimos um mapa do Brasil9 juntamente com as

27 capitais.

Page 114: análise em componentes e escalonamento multidimensional

99

−2000 −1000 0 1000

−20

00−

1000

010

00

Coordenada 1

Coo

rden

ada

2

RIOSPO

BHZVIT

CTB

FLN

POA

CBA

CGR

GOIBRA

SAL

AJU

MCO

RECJPANTL

FOR

TSN

SLS

PMS

BEL

MAN

PVH

BVSMCP

RBR

Figura 4.13: Mapa MDS das distancias (geodesicas) entre as 27 capitais brasileiras.

●●

Aracaju

Belem

Belo Horizonte

Boa Vista

Campo Grande

Cuiaba

Curitiba

Florianopolis

Fortaleza

Goiania

Joao Pessoa

Macapa

Maceio

Manaus

Natal

Palmas

Porto Alegre

Porto Velho Recife

Rio Branco

Rio de Janeiro

Salvador

Sao Luis

Sao Paulo

Teresina

Vitoria

Figura 4.14: Mapa geografico do Brasil junto com as 27 capitais brasileiras.

Page 115: análise em componentes e escalonamento multidimensional

100

Tabela 4.14: Coordenadas cMDS com distancias euclidianas dos dados de distancias entre capitaisbrasileiras.

1 2 3 4 5 6 7 8 9 10 11 12 13RIO 781,84 -953,62 -99,64 -18,59 49,69 34,55 -11,87 -1,24 -8,19 -2,14 1,55 0,43 -0,20

SPO 304,98 -1032,91 212,76 982,47 5,22 -2,49 0,02 1,37 -0,01 -0,00 0,00 -0,00 -0,00BHZ 603,01 -655,21 -79,54 -31,09 43,83 -39,30 210,68 16,30 0,03 0,01 -0,00 0,00 -0,00VIT 975,56 -581,03 -115,81 -5,11 50,69 29,19 -21,43 -4,37 -7,92 0,25 -1,69 -0,27 0,18

CTB 286,64 -1427,97 -54,76 -51,18 43,48 45,12 16,40 10,64 1,00 1,17 1,61 -1,51 0,06FLN 446,96 -1621,50 -80,41 -37,22 -297,08 -36,90 -4,21 5,28 -0,02 0,00 -0,00 -0,00 -0,00POA 283,74 -1979,94 -57,36 -41,62 31,38 81,33 41,93 -56,40 5,41 -0,12 -1,01 0,59 -0,05CBA -771,96 -656,43 58,21 -154,89 72,78 -198,88 -28,14 -22,43 -0,02 0,00 0,00 0,00 0,00CGR -428,17 -1103,42 20,72 -109,90 16,36 61,96 -204,42 4,35 -0,01 -0,00 -0,00 -0,00 -0,00GOI -48,66 -505,62 -11,03 -93,53 45,85 4,58 -1,23 85,14 3,82 0,30 -0,66 1,20 0,51

BRA 52,35 -363,42 -16,80 -95,43 84,88 -203,41 -39,22 -23,89 -0,03 -0,01 0,00 0,00 -0,00SAL 905,84 265,56 -97,57 -15,65 45,82 17,50 -17,41 10,70 2,94 1,13 -1,84 0,48 -0,41AJU 987,59 512,92 -66,27 195,46 51,55 12,83 -12,99 17,48 0,02 0,27 1,01 0,08 0,70

MCO 1078,76 715,58 -108,35 0,56 36,73 29,84 -8,71 -28,14 5,82 1,50 1,38 -0,18 -0,63REC 1109,03 914,78 -107,86 3,69 31,70 35,59 -2,42 -45,38 6,59 0,75 -0,43 -0,51 0,34JPA 1083,93 1001,99 -109,94 -3,59 -302,35 -43,87 -9,34 3,12 0,00 0,00 0,00 0,00 0,00NTL 1149,96 998,84 1076,85 -225,36 -1,42 0,75 0,17 -0,24 -0,00 0,00 -0,00 0,00 0,00FOR 571,38 1259,14 -40,95 -53,78 20,44 27,98 8,94 -31,00 -4,29 -3,38 -0,10 1,31 -0,20TSN 172,77 960,23 -27,33 -86,89 25,56 9,15 -0,80 18,76 -1,83 -2,34 0,28 -0,63 0,22SLS -79,92 1176,96 -14,04 -109,76 13,76 12,69 4,17 0,27 -6,54 -0,02 -1,09 -1,64 0,10

PMS -199,98 211,37 21,63 -120,09 35,49 -4,30 -6,29 79,01 3,40 -0,68 0,60 -0,18 -0,70BEL -561,61 1133,04 22,91 -154,34 1,61 10,74 2,30 -1,91 -4,65 4,90 0,57 1,01 0,04

MAN -1689,83 493,06 117,34 -244,18 -31,10 25,44 6,21 -22,09 11,24 -1,81 0,84 0,14 0,38PVH -1846,01 -267,18 145,97 -240,62 -24,57 35,96 28,54 10,98 1,77 -0,46 -1,68 -0,70 -0,23BVS -1971,56 995,19 322,02 852,28 -13,15 -3,96 2,30 -3,33 -0,00 -0,05 -0,18 -0,02 -0,13

MCP -1010,54 1079,19 -1086,27 115,00 5,28 -2,86 -2,30 1,24 0,04 -0,09 0,00 0,02 -0,02RBR -2186,12 -569,61 175,53 -256,65 -42,42 60,79 49,14 -24,24 -8,60 0,80 0,82 0,36 0,05

4.3.2 Zoologia: Aplicando cMDS para comparar populacoes de ratazanas d’agua

britanicas

Nesta subsecao vamos analisar um conjunto de dados obtidos e estudados por Corbet et al. (1970),

que reportam um estudo de ratazanas d’agua (genero Arvicola), cujo objetivo era comparar po-

pulacoes britanicas destes animais com aqueles presentes na Europa continental para investigar se

mais de uma especie pode estar presente na ilha da Gra-bretanha. Os dados originais consistiam de

observacoes de presenca ou ausencia de 13 caracterısticas em cerca de 300 esqueletos de ratazanas

d’agua oriundas de 6 populacoes britanicas e 8 populacoes do resto da Europa. a tabela 4.17 for-

nece uma matriz de dissimilaridades obtidas dos dados, conforme descrito em Corbet et al. (1970).

Nas tabelas 4.18, 4.19 e 4.20, temos a solucao cMDS desta matriz de distancias e os criterios

9construıdo no R utilizando o pacote maps R. A. Becker et al. (2014).

Page 116: análise em componentes e escalonamento multidimensional

101

Tabela 4.15: Autovalores da solucao cMDS dos dados de distancias entre capitais.

Autovalor Magnitude Autovalor Magnitude1 26522046,36 15 -0,072 25067153,68 16 -1,723 2654065,95 17 -4,904 2099240,41 18 -17,565 217617,22 19 -32,976 109771,24 20 -54,717 95213,14 21 -29829,088 24001,78 22 -81716,419 561,64 23 -92648,16

10 55,82 24 -113302,2511 22,00 25 -217006,2112 11,33 26 -1907774,8013 2,31 27 -2464264,8014 -0,00

Tabela 4.16: Adequacao de dimensionalidade segundo os criterios P(1)m e P

(2)m - distancia entre

capitais brasileiras.

Dim. Crit. P(1)m Crit. P

(2)m Dim. Crit. P

(1)m Crit. P

(2)m

1 0,43 0,52 15 0,92 0,992 0,84 0,98 16 0,92 0,993 0,88 0,99 17 0,92 0,994 0,91 0,99 18 0,92 0,995 0,92 0,99 19 0,92 0,996 0,92 0,99 20 0,92 0,997 0,92 0,99 21 0,92 0,998 0,92 0,99 22 0,92 0,999 0,92 0,99 23 0,92 0,99

10 0,92 0,99 24 0,93 0,9911 0,92 0,99 25 0,93 0,9912 0,92 0,99 26 0,96 1,0013 0,92 0,99 27 1,00 1,0014 0,92 0,99

P(1)m e P

(2)m para avaliarmos a dimensionalidade adequada, conforme ja fizemos antes.

Notemos que alguns autovalores sao negativos. Observando a tabela 4.20, notamos que os

dois criterios P(1)m e P

(2)m dao resultados bem distintos: enquanto o criterio P

(2)m indica a dimensao

dois como adequada, o criterio P(1)m sugere tres ou talvez quatro dimensoes como necessarias para

um bom ajuste. Aqui, vamos seguir a indicacao do criterio P(2)m , de forma que podemos plotar

a solucao bidimensional extraindo as duas primeiras coordenadas da solucao cMDS (2 primeiras

colunas da tabela 4.18). O grafico esta na figura 4.16.

Page 117: análise em componentes e escalonamento multidimensional

102

Figura 4.15: Ratazana d’agua - Arvicola terrestris.

Tabela 4.17: Matriz de dissimilaridades das ratazanas d’agua.

Srry Shrp Yrks Prth Abrd ElnG Alps Igsl Ale Nor PirI PirII N.Esp S.EspSurrey 0,00 0,10 0,03 0,18 0,15 0,20 0,46 0,63 0,11 0,17 0,43 0,76 0,53 0,59

Shropshire 0,10 0,00 0,02 0,11 0,22 0,04 0,27 0,44 0,07 0,12 0,42 0,63 0,39 0,43Yorkshire 0,03 0,02 0,00 0,04 0,06 0,05 0,32 0,44 0,05 0,16 0,34 0,78 0,48 0,55

Perthshire 0,18 0,11 0,04 0,00 0,07 0,08 0,43 0,41 0,05 0,33 0,50 0,70 0,58 0,53Aberdeen 0,15 0,22 0,06 0,07 0,00 0,05 0,27 0,24 0,03 0,18 0,47 0,76 0,60 0,55

Elean Gamhna 0,20 0,04 0,05 0,08 0,05 0,00 0,02 0,13 0,00 0,04 0,39 0,62 0,50 0,51Alpes 0,46 0,27 0,32 0,43 0,27 0,02 0,00 0,01 0,11 0,09 0,32 0,47 0,37 0,37

Iugoslavia 0,63 0,44 0,44 0,41 0,24 0,13 0,01 0,00 0,13 0,24 0,35 0,62 0,56 0,47Alemanha 0,11 0,07 0,05 0,05 0,03 0,00 0,11 0,13 0,00 0,07 0,15 0,44 0,25 0,23

Noruega 0,17 0,12 0,16 0,33 0,18 0,04 0,09 0,24 0,07 0,00 0,43 0,54 0,38 0,35Pireneus I 0,43 0,42 0,34 0,50 0,47 0,39 0,32 0,35 0,15 0,43 0,00 0,61 0,39 0,46

Pireneus II 0,76 0,63 0,78 0,70 0,76 0,62 0,47 0,62 0,44 0,54 0,61 0,00 0,08 0,09N, Espanha 0,53 0,39 0,48 0,58 0,60 0,50 0,37 0,56 0,25 0,38 0,39 0,08 0,00 0,04S, Espanha 0,59 0,43 0,55 0,53 0,55 0,51 0,37 0,47 0,23 0,35 0,46 0,09 0,04 0,00

Page 118: análise em componentes e escalonamento multidimensional

103

Tabela 4.18: Coordenadas (correspondentes aos autovalores positivos) da solucao cMDS da matrizde dissimilaridades das ratazanas d’agua.

1 2 3 4 5 6 7Surrey -0,24 0,23 -0,02 -0,03 0,02 0,07 0,00

Shropshire -0,11 0,12 0,04 -0,04 -0,05 -0,06 0,00Yorkshire -0,24 0,08 -0,08 -0,02 0,00 -0,06 0,00

Perthshire -0,21 0,06 0,11 0,16 -0,04 -0,01 0,00Aberdeen -0,25 -0,07 0,07 0,02 0,07 0,02 0,00

Elean Gamhna -0,15 -0,08 0,05 -0,03 -0,08 0,03 0,00Alps 0,05 -0,16 -0,00 -0,11 -0,03 -0,00 0,00

Yugoslavia -0,01 -0,34 0,01 0,03 0,01 -0,01 0,00Germany 0,00 0,01 -0,03 0,07 0,02 0,02 0,00

Norway -0,04 -0,01 0,08 -0,13 0,06 0,01 0,00Pyrenees I 0,04 -0,06 -0,31 0,04 -0,00 0,02 0,00

Pyrenees II 0,52 0,03 0,09 0,02 -0,04 0,05 0,00North Spain 0,32 0,15 -0,07 -0,04 -0,02 -0,03 0,00South Spain 0,32 0,05 0,05 0,05 0,08 -0,04 0,00

Tabela 4.19: Autovalores da solucao cMDS da matriz de dissimilaridades das ratazanas d’agua.

Dimensao 1 2 3 4 5 6 7 8 9 10 11 12 13 14Autovalor 0,74 0,26 0,15 0,07 0,03 0,02 0,00 -0,01 -0,01 -0,03 -0,04 -0,05 -0,07 -0,11

Tabela 4.20: Adequacao de dimensionalidade segundo os criterios P(1)m e P

(2)m - ratazanas d’agua.

Dimensao 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Criterio P(1)m 0,46 0,62 0,72 0,76 0,78 0,79 0,79 0,80 0,81 0,83 0,85 0,88 0,93 1,00

Criterio P(2)m 0,82 0,92 0,96 0,96 0,96 0,96 0,96 0,97 0,97 0,97 0,97 0,97 0,98 1,00

Page 119: análise em componentes e escalonamento multidimensional

104

−0.2 0.0 0.2 0.4 0.6

−0.

3−

0.2

−0.

10.

00.

10.

2

Coordenada 1

Coo

rden

ada

2

Surrey

Shropshire

YorkshirePerthshire

AberdeenElean Gamhna

Alpes

Iugoslavia

AlemanhaNoruega

Pireneus I

Pireneus II

N. Espanha

S. Espanha

Figura 4.16: mapa cMDS da solucao dos dados de ratazanas d’agua.

Interpretando, parece que as seis populacoes britanicas estao proximas as populacoes que

vivem nos Alpes, Iugoslavia, Alemanha, Noruega e Pireneus I (a especie que vive neste grupo

geografico e Arvicola terrestris), e parecem bem distantes das populacoes dos Pireneus II, Norte

da Espanha e Sul da Espanha (a especie deste grupo geografico e Arvicola sapidus). Este re-

sultado parece implicar que Arvicola terrestris pode estar presente na Gra-bretanha, e e menos

provavel que a especie Arvicola sapidus o esteja. Mas aqui, como a solucao bidimensional pode

nao ser totalmente suficiente para representar as distancias observadas, vamos utilizar a arvore

de cobertura mınima, introduzida na secao 3.8.

As ligacoes da arvore de cobertura mınima da matriz de proximidades de interesse podem

ser plotadas junto a representacao bidimensional da solucao cMDS para que possamos identificar

possıveis distorcoes produzidas pelas solucoes escalonadas. Tais distorcoes sao indicadas quando

pontos proximos no grafico nao estao ligados por uma aresta da arvore.

Page 120: análise em componentes e escalonamento multidimensional

105

−0.2 0.0 0.2 0.4 0.6

−0.

3−

0.2

−0.

10.

00.

10.

2

Coordenada 1

Coo

rden

ada

2

Surrey

Shropshire

YorkshirePerthshire

AberdeenElean Gamhna

Alpes

Iugoslavia

AlemanhaNoruega

Pireneus I

Pireneus II

N. Espanha

S. Espanha

Figura 4.17: Arvore de cobertura mınima para os dados das ratazanas plotadas juntamente coma solucao cMDS.

Page 121: análise em componentes e escalonamento multidimensional

106

Na figura 4.17, temos10 a arvore de cobertura mınima da solucao cMDS bidimensional. O

grafico indica, por exemplo, que a aparente proximidade das populacoes na Alemanha e Noruega,

sugerida pelos pontos que as representam na solucao cMDS, nao refletem com acuracia sua

dissimilaridade calculada: as ligacoes da arvore de cobertura mınima mostram que as populacoes

de Aberdeen e Elean Gamhna na verdade sao mais simliares as populacoes de ratazanas da

Alemanha do que as populacoes da Noruega. Entao, a arvore de cobertura mınima sugere que a

solucao bidimensional pode nao representar adequadamente toda a matriz de distancias

4.3.3 Polıtica: Aplicando nMDS para analisar o padrao de votacao de congressistas

norte-americanos

Romesburg (1984) fornece um conjunto de dados que mostra o numero de vezes em que 15 con-

gressistas de Nova Jersey (EUA) votaram diferentemente na Camara (House of representatives)

em 19 contas ambientais. Abstencoes nao foram registradas, porem 2 congressistas se abstiveram

mais frequentemente do que outros: Sandman (9 abstencoes) e Thompson (6 abstencoes). Os

dados estao disponıveis na tabela 4.21 e o interesse aqui em nossa analise e se podemos detectar

se um padrao partidario nas votacoes pode ser detectado nos dados.

Tabela 4.21: Dados de votacao na camara de deputados norte-americana; (R) para republicanose (D) para democratas.

Hnt Snd Hwr Thm Fry Frs Wdn Roe Hlt Rdn Mns Rnl Mrz Dnl PttHunt(R) 0

Sandman(R) 8 0Howard(D) 15 17 0

Thompson(D) 15 12 9 0Freylinghuysen(R) 10 13 16 14 0

Forsythe(R) 9 13 12 12 8 0Widnall(R) 7 12 15 13 9 7 0

Roe(D) 15 16 5 10 13 12 17 0Heltoski(D) 16 17 5 8 14 11 16 4 0Rodino(D) 14 15 6 8 12 10 15 5 3 0Minish(D) 15 16 5 8 12 9 14 5 2 1 0

Rinaldo(R) 16 17 4 6 12 10 15 3 1 2 1 0Maraziti(R) 7 13 11 15 10 6 10 12 13 11 12 12 0Daniels(D) 11 12 10 10 11 6 11 7 7 4 5 6 9 0Patten(D) 13 16 7 7 11 10 13 6 5 6 5 4 13 9 0

10A arvore de cobertura mınima pode ser construıda no R utiizando-se o pacote ape Paradis, Claude, andStrimmer (2004).

Page 122: análise em componentes e escalonamento multidimensional

107

Vamos agora aplicar nMDS ao comportamento dos votos mostrados na tabela 4.21.11. O

resultado esta na tabela 4.22. O grafico da solucao bidimensional esta na figura 4.18.

−10 −5 0 5

−6

−4

−2

02

46

8

Coordenada 1

Coo

rden

ada

2

Hunt(R)

Sandman(R)

Howard(D)

Thompson(D)

Freylinghuysen(R)

Forsythe(R)

Widnall(R)

Roe(D)

Heltoski(D)

Rodino(D)Minish(D)

Rinaldo(R)

Maraziti(R)

Daniels(D)

Patten(D)

Figura 4.18: Representacao nMDS dos dados de votacao.

O grafico sugere que o comportamento dos votos e essencialmente guiado por ideologias par-

tidarias (propositalmente colocamos cada afiliado de um partido com uma cor), e ha mais variacao

entre os republicanos. O comportamento de um dos republicanos (Rinaldo) parece estar mais ali-

nhado com os democratas do que com o padrao de votacao de seus outros colegas republicanos.

O Stress calculado e menor do que 10%, o que, pela regra de ouro de Kruskal, indica um

ajuste de razoavel para bom. O Diagrama de Shepard (introduzido na secao 3.9), exibido na

figura 4.19, nos auxilia a verificar graficamente a adequacao do ajuste dado pelo valor do Stress.

Observamos alguns desvios entre as dissimilaridades e a solucao nMDS. De qualquer forma, nao

existem serios desvios, o que confirma o razoavel ajuste indicado pelo valor 9,88% do Stress.

11nMDS esta disponıvel, por exemplo, na funcao isoMDS() do pacote MASS Venables and Ripley (2002).

Page 123: análise em componentes e escalonamento multidimensional

108

Tabela 4.22: Coordenadas da solucao nMDS dos dados de votacao.

Congressista Coord.1 Coord.2 Congressista Coord.1 Coord.2Hunt(R) -8,44 0,91 Heltoski(D) 6,30 0,27

Sandman(R) -7,41 7,88 Rodino(D) 4,28 -0,92Howard(D) 6,09 -1,50 Minish(D) 4,26 -0,39

Thompson(D) 3,52 5,25 Rinaldo(R) 5,03 0,27Freylinghuysen(R) -7,25 -4,18 Maraziti(R) -4,46 -6,22

Forsythe(R) -3,28 -2,57 Daniels(D) 0,81 -0,94Widnall(R) -9,71 -1,12 Patten(D) 3,89 2,23

Roe(D) 6,34 1,04

●●

●●

●●

●●

●●

●●

●●

● ●

5 10 15

510

15

Dissimilaridade

Dis

tânc

ia

Figura 4.19: O diagrama de Shepard para os dados de votacao mostra algumas discrepanciasentre as dissimilaridades originais e a solucao nMDS.

Page 124: análise em componentes e escalonamento multidimensional

109

Capıtulo 5

CONCLUSAO

Neste trabalho, discorremos sobre dois metodos multivariados de reducao de dimensionalidade:

analise de componentes principais (ACP) e escalonamento multidimensional (MDS).

A ACP tem por proposito encontrar um pequeno numero de combinacoes lineares das variaveis

originais que pode ser usado para resumir um conjunto de dados, de sorte que durante o processo

se perca tao pouca informacao quanto possıvel - e no contexto de ACP, informacao significa

basicamente “variancia”.

A ACP e essencialmente um metodo multivariado exploratorio - seu objetivo precıpuo e per-

mitir visualizar, em dimensao reduzida (usualmente, dimensao 2 ou 3) a estrutura de um conjunto

multivariado de dados. Alem disso, esta visualizacao facilita em muito o processo de se aventar

hipoteses sobre os dados em questao. Isto ficou muito claro quando fizemos a analise dos dados

do heptatlo olımpico.

Considerando a ACP como metodo exploratorio, um dispositivo grafico intrınseco a ACP que

ajuda muito a entender a estrutura dos dados e o chamado biplot, que a grosso modo pode ser

entendido como o analogo multivariado dos diagramas de dispersao, que aproxima a distribuicao

multivariada de uma amostra em poucas dimensoes, de preferencia duas (embora seja possıvel

construir um biplot em 3 dimensoes, junto aos escores de 3 componente principais, a visualizacao

requer muito mais experiencia e conhecimento dos dados do que nos casos em que o biplot e feito

em duas dimensoes), e sobrepoe ao diagrama de dispersao dos escores das componente principais

as variaveis do conjunto multivariado de dados. Desta forma, podemos ver, de forma resumida,

o maximo da estrutura de um conjunto multivariado de dados: ao mesmo tempo em que temos

o comportamento dos escores das componentes principais, vemos seu comportamento relativa-

mente as variaveis: quanto mais proximas de cada variavel (representado no biplot por um vetor),

maior e o peso (que vimos que neste contexto chamamos de carga) daquela variavel no respectivo

escore. Alem disso, podemos visualizar as variancias de cada variavel (olhando para o “tamanho”

de cada vetor que a representa no biplot) e a covariancia entre quaisquer par delas (por meio

Page 125: análise em componentes e escalonamento multidimensional

110

do angulo entre os vetores que as representa: quanto menor o angulo, maior a covariancia (ou

correlacao)). Embora biplots sejam ferramentas matematicas independentes de qualquer metodo

especıfico (em Johnson and Wichern (2007), temos exemplos de aplicacao de biplots em analise

de Procrustes; ja em Greenacre (2007), biplots sao utilizados para facilitar a interpretacao de uma

analise de correspondencia), consideramos que, para o entendimento da estrutura de um conjunto

multivariado de dados e dos resultados de uma ACP onde se considere sensato reter mais de uma

componente, a utilizacao de biplots e indispensavel.

Conquanto seja um metodo precipuamente exploratorio, permitindo que se visualize em baixa

dimensao a estrutura de um conjunto multivariado de dados - o que por si so ja representa um

ganho consideravel -, pode-se utilizar ACP tendo em mente analises subsequentes, como, por

exemplo, analise de regressao (dando origem ao metodo chamado regressao de componentes

principais. O uso da regressao de componentes principais torna-se muito importante na presenca

da chamada multicolinearidade em regressao, onde um subconjunto das variaveis regressoras e al-

tamente correlacionado) e analise de cluster. Alem disso, como vimos na secao 2.7, componentes

principais sao uma interessante aplicacao em predizer a matriz de covariancias observada.

A ACP e utilizada quando analisamos dados multivariados e desejamos preservar a distancia

euclidiana entre as observacoes. Em muitos casos, contudo, em alguns metodos (em ’areas

como a Ecologia), como os baseados em matrizes binarias de ausencia-presenca (parecidas com

as do exemplo que vimos no capıtulo 3, mas podendo assumir apenas valores 0 ou 1), tal tipo

de distancia faz pouco sentido. Neste contexto, um metodo mais apropriado e o MDS classico

(cMDS). Tambem chamado de analise em cordenadas principais, (ACoP), e a generalizacao da

ACP, pois quaisquer tipo de distancia pode ser utilizada em cMDS; em particular, se utilizarmos

distancias euclidianas, a solucao cMDS em q dimensoes obtida nada mais sera do que os escores

das q primeiras componentes principais. Com isso, a grande vantagem da utilizacao de cMDS

(ACoP) esta em analises cuja natureza exige aplicacao de distancias nao-euclidianas, como por

exemplo distancias baseadas em dados de co-ocorrencia, como as de Jaccard e Sørensen (vistas

na secao 3.4)

Ilustramos a aplicacao de cMDS obtendo um mapa do Brasil, onde tınhamos como dados

as distancias (geodesicas) entre as 26 capitais mais o Distrito Federal. Utilizamos as distancias

euclidianas por serem as mais adequadas ao contexto desta analise. Fizemos tambem um exemplo

de cMDS aplicado a um pequeno conjunto multivariado, e comparamos as solucoes utilizando,

Page 126: análise em componentes e escalonamento multidimensional

111

alem das distancias euclidianas, as distancias de Manhattan. Pudemos, com isso, verificar que a

dualidade entre ACP e ACoP so se verifica no caso de utilizacao das distancias euclidianas. Por

fim, fizemos uma comparacao entre populacoes de ratazanas d’agua europeias, com o objetivo

de comparar se o padrao de populacoes britanicas eram “proximas” (parecidas) do padrao pre-

sente na europa continental. Fizemos o mapa cMDS de dimensao 2 da solucao, e utilizamos a

ferramenta adicional da arvore de cobertura mınima que nos auxiliou a verificar que a solucao

cMDS encontrada nao refletia muito bem as proximidades dadas. Isso provavelmente se deu como

consequencia da divergencia dos criterios P(1)m e P

(2)m quanto ao numero de solucoes.

Quando o objetivo e obter um mapa de baixa dimensao no qual objetos dissimilares sejam

alocados separados geometricamente, de forma a representar espacialmente sua dissimilaridade,

ao passo que objetos similares sejam alocados espacialmente proximos, o metodo mais apropriado

e o MDS nao-metrico (nMDS). A caracterıstica principal desta classe MDS e que ela preserva

apenas os postos das distancias originais. O ajuste da solucao nMDS e avaliado por uma medida

de bondade de ajuste conhecida como Stress. Varios algoritmos tem sido desenvolvidos para a

obtencao de solucoes nMDS, desde os trabalhos pioneiros de Shepard e Kruskal Shepard (1962a,

1962b); Kruskal (1964a, 1964b) nos anos 1960.

Ilustramos a aplicacao do nMDS analisando o comportamento de votacao de congressistas

norte-americanos: o objetivo era detectar se o padrao de votacao seguia “orientacoes partidarias”.

O mapa nMDS de dimensao 2 em grande parte confirmou um nıtido padrao partidario, com Re-

publicanos e Democratas visivelmente separados no mapa nMDS. De quebra, ainda pudemos

visualizar um republicano com “alma democrata”, que estava muito mais proximo do padrao de

votacao dos democratas do que do padrao dos seus colegas republicanos.

Analise de componente principais e o mais importante metodo para se realizar a tarefa de

reduzir a dimensionalidade de um conjunto multivariado de dados. Quando, pela natureza dos

dados e\ou do estudo as distancias euclidianas tornam-se nao recomendaveis, podemos utilizar

analise de coordenadas principais (cMDS). Quando o objetivo e obter uma solucao de baixa di-

mensao que reflita espacialmente as proximidades (similaridades-distancias) observadas, podemos

utilizar nMDS.

Segundo B. Everitt and Skrondal (2010), reducao de dimensionalidade e “um termo generico

para o objetivo de metodos de analise que tentam simplificar os dados multivariados complexos

Page 127: análise em componentes e escalonamento multidimensional

112

para auxiliar a compreensao e interpretacao”, e ordenacao e “O processo de reduzir a dimensionali-

dade (isto e, o numero de variaveis) de dados multivariados obtendo-se de um pequeno numero de

novas variaveis que contem a maior parte da informacao contida nos dados originais. O conjunto

de dados reduzido muitas vezes e mais util para investigar uma possıvel estrutura nas observacoes”.

Destarte, concluımos este trabalho afirmando que analise em componente principais e es-

calonamento multidimensional sao dois metodos de ordenacao muito poderosos e abrangentes.

Dentro de suas caracaterısticas e nuancas, ambos se prestam muito bem a tarefa de reducao de

dimensionalidade.

Page 128: análise em componentes e escalonamento multidimensional

113

REFERENCIAS BIBLIOGRAFICAS

Barlow, R. E., et al. (1972). Statistical inference under order restrictions. Wiley.

Becker, C., & Gather, U. (2001). The largest nonidentifiable outlier: A comparison of multivariate

simultaneous outlier identification rules. Computational Statistics and Data Analysis, 36 ,

119-127.

Becker, R. A., et al. (2014). maps: Draw geographical maps [Computer software manual].

Retrieved from http://CRAN.R-project.org/package=maps (R package version 2.3-

9)

Bellman, R. (1961). Adaptative control processes. Princeton.

Borcard, D., et al. (2011). Numerical ecology with R. Springer.

Borg, I., & Groenen, P. J. F. (2010). Modern multidimensional scaling - theory and applications

(2nd ed.). Springer.

Carroll, J., et al. (1984). The representation of three-way proximity data by single and multiple

tree structure models. Journal of Classification, 1 , 25-74.

Cattell, R. B. (1966). The scree test for the number of factors. Multivariate Behavioural Research,

1 , 245-276.

Cegalla, D. P. (2009). Dicionario de dificuldades da lıngua portuguesa (3rd ed.). Lexikon.

Chang, W. (2013). R graphics cookbook. O’Reilly.

Corbet, G. B., et al. (1970). The taxonomic structure of british watervoles, genus arvicola. Journal

of Zoology , 61 , 301-316.

Everitt, B., & Hothorn, T. (2011). An introduction to applied multivariate analysis with R.

Springer.

Everitt, B., & Rabe-Hesketh, S. (1997). The analysis of proximity data. Arnold.

Everitt, B., & Skrondal, A. (2010). The cambridge diciotnary of statistics (4th ed.). Cambridge.

Everitt, B. S., & Hothorn, T. (2015). HSAUR3: A handbook of statisti-

cal analyses using R (3rd edition) [Computer software manual]. Retrieved from

http://CRAN.R-project.org/package=HSAUR3 (R package version 1.0-4)

Farmer, S. A. (1971). An investigation into the results of principal components analysis of data

derived from random numbers. Journal of the Royal Statistical Society , 20(4), 63-72.

Retrieved from http://www.jstor.org/stable/2986986

Fayyad, U. M., et al. (1996). Advances in knowledge discovery and data mining. MIT Press.

Page 129: análise em componentes e escalonamento multidimensional

114

Gabriel, K. R. (1981). Biplot display of multivariate matrices for inspection of data and diagnosis.

Wiley.

Gorsuch, R. L. (1983). Factor analysis (2nd ed.). Lawrence Erlbaum Associates.

Gotelli, N. J., & Elisson, A. M. (2013). A primer of ecological statistics (2nd ed.). Sinauer.

Gower, J. (1966). Some distance properties of latent root and vector methods

used in multivariate analysis. Biometrika, 53(4), 325-338. Retrieved from

http://www.jstor.org/stable/2333639

Gower, J., & Ross, G. (1969). Minimum spanning trees and single linkage cluster

analysis. Journal of the Royal Statistical Society , 18(1), 54-64. Retrieved from

http://www.jstor.org/stable/2346439

Gower, J. C., & Hand, D. J. (1996). Biplots. CRC.

Gowers, T. (2008). The Princeton companion to mathematics. Princeton University Press.

Greenacre, M. (2007). Correspondence analysis in practice (2nd ed.). CRC.

Guadagnoli, E., & Velicer, W. F. (1988). Relation of sample size to the stability of component

patterns. Psychological Bulletin, 103 , 265-275.

Hand, D. J., et al. (1994). A handbook of small data sets. Chapman & Hall.

Hand, D. J., et al. (2001). Principles of data mining. MIT Press.

Historia de Procrustes. (n.d.). https://pt.wikipedia.org/wiki/Procusto. (Accessado em

16-Set-2015)

Hyv’arinen, A., & Oja, E. (2000). Independent component analysis: algorithms and applications.

Neural networks(13), 4111-430.

Izenman, A. J. (2008). Modern multivariate statistical techniques. Springer.

Johnson, R., & Wichern, D. (2007). Applied multivariate statistical analysis (6th ed.). Pearson.

Jolliffe, I. (1972). Discarding variables in a principal component analysis. I: Artificial data. Journal

of the Royal Statistical Society , 21(2), 160-173.

Jolliffe, I. (2002). Principal component analysis. Springer.

Kabacoff, R. (2011). R in action. Manning.

Kaiser, H. (1958). The varimax criterion for analytic rotation in factor analysis. Psychometrika,

29 , 187-200.

Kruskal, J. B. (1964a). Multidimensional scaling by optimizing goodness-of-fit to a nonmetric

hypothesis. Psychometrika, 29(1).

Kruskal, J. B. (1964b). Nonmetric multidimensional scaling: a numerical method. Psychometrika,

29(2).

Little, R., & Rubin, D. (1987). Statistical analysis with missing data. Wiley.

Maindonald, J., & Braun, W. J. (2010). Data analysis and graphics using R (3rd ed.). Cambridge.

Page 130: análise em componentes e escalonamento multidimensional

115

Marchini, J. L., Heaton, C., & Ripley, B. D. (2013). fastICA: FastICA algorithms

to perform ICA and projection pursuit [Computer software manual]. Retrieved from

http://CRAN.R-project.org/package=fastICA (R package version 1.2-0)

Mardia, K. V., et al. (1979). Multivariate analysis. Academic Press.

Marriot, F. (1974). The interpretation of multiple observations. Academic Press.

Osborne, J. W., & Costello, A. B. (2004). Sample size and subject to item ratio in principal

components analysis. Journal of the Royal Statistical Society . Retrieved from Practical

Assessment, Research and Evaluation

Paradis, E., Claude, J., & Strimmer, K. (2004). APE: analyses of phylogenetics and evolution in

R language. Bioinformatics, 20 , 289-290.

Paulino, C. D., et al. (2011). Glossario ingles-portugues de estatıstica (2nd ed.). Sociedade

Portuguesa de Estatıstica e Associacao Brasileira de Estatıstica.

Prim, R. C. (1957). Shortest connection networks and some generalizations. Bell System Technical

Journal , 36 .

Rencher, A. (2002). Methods of multivariate analysis. Wiley.

Rocke, D., & Woodruff, D. (1996). Identification of outliers in multivariate

data. Journal of the American Statistical Association, 91(435). Retrieved from

http://www.jstor.org/stable/2291724

Romesburg, H. (1984). Cluster analysis for researches. Lifetime Learning.

Rubin, D. (1976, 12). Inference and missing data. Biometrika, 63(3), 581-592.

Rubin, D. (1987). Multiple imputation for survey nonresponse. Wiley.

Schaffer, J. (1999, 02). Multiple imputation: A primer. Statistical Methods in Medical Research,

8(1), 3-15.

Schloerke, B., et al. (2014). Ggally: Extension to ggplot2 [Computer software manual]. Retrieved

from http://CRAN.R-project.org/package=GGally (R package version 0.5.0)

Shepard, R. N. (1962a). The analysis of proximities: Multidimensional scaling with unknown

distance function, part I. Psychometrika, 27(2), 125-140.

Shepard, R. N. (1962b). The analysis of proximities: Multidimensional scaling with unknown

distance function, part II. Psychometrika, 27(3), 219-246.

Sibson, R. (1979). Studies in the robustness of multidimensional scaling. perturbational analysis

of classical scaling. Journal of the Royal Statistical Society , 41(2), 217-229.

Velleman, P. F., & Wilkinson, L. (1993, 02). Nominal, ordinal, interval, and ratio typologies are

misleading. The American Statistician, 47(1), 65-72.

Venables, W. N., & Ripley, B. D. (2002). Modern applied statistics with S (4th ed.). Springer.

Wehrens, R. (2011). Chemometrics with R: Multivariate data analysis in the natural sciences and

Page 131: análise em componentes e escalonamento multidimensional

116

life sciences. Heidelberg: Springer. doi: 10.1007/978-3-642-17841-2

Wei, T. (2013). corrplot: Visualization of a correlation matrix [Computer software manual].

Retrieved from http://CRAN.R-project.org/package=corrplot (R package version

0.73)

Weisstein, E. W. (n.d.). Great circle. from Mathworld - a Wolfram web resource.

Young, G., & Householder, A. S. (1938, 3). Discussion of a set of points in terms of their mutual

distances. Psychometrika, 3(1), 19-22.