convexasdosprópriosdados. …jaguar.fcav.unesp.br/rme/fasciculos/v33/v33_n2/a3_josem... · 2015....

14
A ANÁLISE DE ARQUÉTIPOS: UMA REVISÃO BIBLIOGRÁFICA José Márcio Martins Júnior 1 Elcio do Nascimento Chagas 2 Eric Batista Ferreira 3 Denismar Alves Nogueira 4 Daniel Furtado Ferreira 5 RESUMO: Existem diversas técnicas que auxiliam na interpretação e análise de dados multivariados. A Análise de Arquétipos é uma técnica multivariada relativamente recente, que busca reduzir a dimensionalidade dos dados por meio de combinações convexas dos próprios dados. Os arquétipos são selecionados pela minimização da soma de quadrados de resíduos que representa o erro cometido ao se reconstruir os dados originais. Este trabalho tem como objetivo fazer reflexões sobre a Análise de Arquétipos e traçar a sua história. Além de mostrar e discutir um pouco sobre as mudanças que aconteceram com a técnica. PALAVRAS-CHAVE: Análise multivariada, Estatística multivariada, Soma de quadrados de resíduos. 1 Introdução Na prática experimentos coletam várias variáveis que se estudadas de forma simultânea, levam a resultados mais otimizados do que quando são analisadas de forma individual ou univariada. Porém, é comum experimentos multivariados serem analisados de forma univariada pela complexidade das análises envolvidas. Existem 1 Universidade Federal de Alfenas, Instituto de Ciências Exatas - ICEx, CEP: 37130-000, Alfenas, Minas Gerais, Brasil. E-mail: [email protected] 2 Instituto Federal do Espirito Santo, Campus de Alegre, Caixa Postal 47, CEP: 29520-000, Alegre, Espirito Santo, Brasil. E-mail: [email protected] 3 ICEx/UNIFAL-MG, E-mail: [email protected] 4 ICEx/UNIFAL-MG, E-mail: [email protected] 5 Universidade Federal de Lavras, Departamento de Ciências Exatas - DEX, CEP: 37200-000, Lavras, Minas Gerais, Brasil. E-mail: danielff@dex.ufla.br 156 Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015

Upload: others

Post on 31-Dec-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

A ANÁLISE DE ARQUÉTIPOS: UMA REVISÃO BIBLIOGRÁFICA

José Márcio Martins Júnior1Elcio do Nascimento Chagas2

Eric Batista Ferreira3

Denismar Alves Nogueira4

Daniel Furtado Ferreira5

RESUMO: Existem diversas técnicas que auxiliam na interpretação e análise de dadosmultivariados. A Análise de Arquétipos é uma técnica multivariada relativamenterecente, que busca reduzir a dimensionalidade dos dados por meio de combinaçõesconvexas dos próprios dados. Os arquétipos são selecionados pela minimização da somade quadrados de resíduos que representa o erro cometido ao se reconstruir os dadosoriginais. Este trabalho tem como objetivo fazer reflexões sobre a Análise de Arquétipose traçar a sua história. Além de mostrar e discutir um pouco sobre as mudanças queaconteceram com a técnica.

PALAVRAS-CHAVE: Análise multivariada, Estatística multivariada, Soma dequadrados de resíduos.

1 Introdução

Na prática experimentos coletam várias variáveis que se estudadas de formasimultânea, levam a resultados mais otimizados do que quando são analisadas deforma individual ou univariada. Porém, é comum experimentos multivariados seremanalisados de forma univariada pela complexidade das análises envolvidas. Existem

1Universidade Federal de Alfenas, Instituto de Ciências Exatas - ICEx, CEP: 37130-000, Alfenas,Minas Gerais, Brasil. E-mail: [email protected]

2Instituto Federal do Espirito Santo, Campus de Alegre, Caixa Postal 47, CEP: 29520-000, Alegre,Espirito Santo, Brasil. E-mail: [email protected]

3ICEx/UNIFAL-MG, E-mail: [email protected]/UNIFAL-MG, E-mail: [email protected] Federal de Lavras, Departamento de Ciências Exatas - DEX, CEP: 37200-000,Lavras, Minas Gerais, Brasil. E-mail: [email protected]

156 Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015

Page 2: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

diversos métodos estatísticos para analisar, descrever e inferir sobre experimentosmensurados em mais de uma variável.

A Análise de Arquétipos é uma técnica multivariada que busca reduzir adimensão de dados por meio de combinações convexas dos arquétipos, que sãogeralmente valores extremos dos dados. Os arquétipos são selecionados pelaminimização da soma de quadrados de resíduos, que é o erro cometido ao sereconstruir os dados originais utilizando as combinações convexas. A Análise deArquétipos não é uma técnica difundida como a Análise de Componentes Principaispor exemplo, e é uma técnica relativamente nova e pouco estudada. Não foramencontrados trabalhos em português que aborde o tema.

2 A Análise de Arquétipos

(Merriam-Webster online dictionary, 2015) define um arquétipo como: padrãoou modelo no qual todas as coisas do mesmo tipo são representações ou cópias.

A Análise de Arquétipos (AA) é uma técnica multivariada introduzidapor Cutler e Breiman (1994) e tem como propósito simplificar a estrutura decovariâncias, sendo utilizada para reduzir a dimensão de dados por meio decombinações convexas dos seus elementos mais representativos facilitando assima interpretação. Uma combinação convexa é um caso particular da combinaçãolinear e ocorre quando os coeficientes da combinação são valores positivos ou nulose o somatório dos coeficientes resulta em um.

Os arquétipos são selecionados pela minimização da soma de quadrados deresíduos (SQR) ao representar cada observação dos dados originais como umacombinação convexa. Se uma determinada observação for um dos arquétipos, nestecaso, será denominado arquétipo puro, e está geralmente na fronteira do fechoconvexo dos dados. Um fecho convexo é obtido quando dado dois pontos dentrode um conjunto, o menor caminho entre os dois pontos também reside dentro doconjunto. Portanto, os arquétipos são valores extremos que melhor representam osdados.

Sabe-se que quanto maior o número de arquétipos selecionados menor é a SQR,pois menos informação é perdida, e melhor é a captura da forma dos dados. Mascomo consequência, menor é a redução da dimensão dos dados. Então, fica a cargodo pesquisador decidir quantos arquétipos (K) deve-se utilizar em um determinadoconjunto de dados, desde que 1 ≤ K ≤ N , em que N é o número de elementosna fronteira do fecho convexo. Recomenda-se o uso de um gráfico Screeplot paraajudar na decisão de quantos arquétipos usar (CUTLER; BREIMAN, 1994).

3 O modelo matemático

Cada elemento pertencente aos dados é reescrito como uma combinaçãoconvexa dos arquétipos zk ∈ Z em que Z é a matriz k × p de todos os arquétipos,

Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015 157

Page 3: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

para recompor as informações originais, da forma

K∑k=1

αikzk

em que αik ∈ R é um escalar, zk ∈ Rp é um vetor denominado arquétipo.Usando a soma de quadrados dos resíduos (SQR) para selecionar qual será o

melhor conjunto de arquétipos, a minimização da seguinte equação é que gera esteconjunto de arquétipos.

n∑i=1

||Xi −K∑k=1

αikzk||2 (1)

em que Xi são as observações e n o número de observações.Para dados multivariados (Xi, i = 1, . . . , n) em que cada Xi é um vetor p-

dimensional Xi = (Xi1, . . . ,Xip)′, o padrão arquétipo de uma massa de dados

caracteriza o problema de encontrar vetores p-dimensionais z1, . . . ,zk com 1 ≤ K ≤N , sendo N o número de elementos na fronteira do fecho convexo (BAUCKHAGE;THURAU, 2009)

Z =

n∑i=1

K∑k=1

βikXi

em que k = 1, . . . ,K e os coeficientes βik ∈ R, com βik ≥ 0 en∑i=1

βik = 1. Essas

duas restrições dos coeficientes caracterizam a combinação convexa.Segundo Stone e Olson (1999), os próprios arquétipos aparecem como pontos

no conjunto dos dados (em alguns casos podem ser alguns dos pontos dos dados),e os pontos reconstruídos nunca estarão fora do fecho convexo do conjunto originaldos dados.

A fim de selecionar qual será o conjunto de arquétipos, a minimização

SQR =

n∑i=1

||Xi −K∑k=1

αikzk||2 =

n∑i=1

||Xi −K∑k=1

αik

n∑l=1

βlkXl||2 (2)

é que gera este conjunto.A resolução desta equação é feita por meio de um algoritmo descrito na

equação 4, de forma iterativa e alternada em minimizar a SQR alterando oconjunto de coeficientes (α) de um dado conjunto de arquétipos fixos (Z), e emseguida minimizar a SQR alterando o conjunto de arquétipos fixados anteriormente.Estes coeficientes podem ser encontrados utilizando algum algoritmo que resolvaproblemas de quadrados mínimos não-negativos. Desta forma a SQR semprediminui a cada iteração, porém o resultado deste algoritmo pode “convergir” paraum mínimo local. Cutler e Breiman (1994) recomendam inicializar diversas vezeso algoritmo, utilizando diferentes arquétipos iniciais. O critério de parada ocorre

158 Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015

Page 4: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

quando a SQR for um valor suficientemente pequeno, que é definido de maneirasubjetiva pelo pesquisador.

O problema de encontrar o conjunto de arquétipos e seus respectivoscoeficientes (α e β) é de ordem quadrática (O(n2)), por isso muitas vezes é inviávelutilizar a Análise de Arquétipos dependendo do tamanho da massa de dados aser analisada. Bauckhage e Thurau (2009) propuseram uma restrição que diminuiconsideravelmente o tempo de execução deste algoritmo. A proposta é não incluiros pontos que estão fora da fronteira do fecho convexo dos dados para seleção dosarquétipos. Como os arquétipos são usualmente valores extremos, estes valoresestão geralmente localizados na fronteira do fecho convexo.

O melhor número de arquétipos para um conjunto de dados é desconhecidona prática, por isso deve ser empiricamente computado para ser encontrado(CORSARO; MARINO, 2010). Quando se retém apenas um arquétipo (K = 1),este será o valor médio dos dados, pois é fácil notar que o valor que minimiza aSQR para encontrar o arquétipo será o valor médio. Para K = 2, os dados serãoreescritos em forma de uma reta que terá cada um dos arquétipos em uma dasextremidades. Para K = 3, obtém-se as novas coordenadas dos dados como umtriangulo, para K = 4 um quadrilátero e assim sucessivamente até o limite dosnúmeros de arquétipos que são o número de elementos no fecho convexo dos dados.

De acordo com o aumento do número de arquétipos, as estruturas geométricastornam-se cada vez mais difíceis de serem interpretadas (PORZIO; RAGOZINI;VISTOCCO, 2008).

Bauckhage e Thurau (2009) descrevem a Equação (2) em forma matricial.Assim, o conjunto de dados Xi ∈ Rp compõe uma matriz X(p×n) e os arquétiposzk ∈ Rp compõem uma matriz Z(p×k).

SQR = ||X −ZA||2 = ||X −XBA||2 (3)

em que A ∈ RK×n e B ∈ Rn×K .A Equação (3) utiliza a métrica quadrática para sumariar o erro. Outros

autores como por exemplo Corsaro e Marino (2010), utilizam a Norma de Frobenius.Corsaro e Marino (2010) afirmam ainda que a utilização desta métrica é motivadapelo fato de que esta permite manter sob controle tanto a distância entre os centrosquanto a localização, visando controlar a acurácia.

Bauckhage e Thurau (2009) também afirmam que dentre os métodos deredução de dimensionalidade, ou técnicas de agrupamento, a AA produz resultadosfacilmente interpretáveis por especialistas. E além disso, permite uma leveclassificação e agrupamento dos dados, pois os coeficientes αik dos pontosXi podemser interpretados como probabilidades p(Xi|zk) indicando qual a classe (arquétipozk) mais provável de representar o ponto.

4 O algoritmo

Para realizar a AA os dados devem estar na mesma escala de medida dentrode cada variável. É importante salientar que a Análise de Arquétipos é sensível a

Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015 159

Page 5: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

outliers (CHAN; MITCHELL; CRAM, 2003), por isso deve-se certificar que nãohaja outliers nos dados ou o resultado pode ser prejudicado. O algoritmo consistedos seguintes passos:

(i) Sortear os coeficientes β de forma arbitrária seguindo as restrições dacombinação convexa, βi > 0 e

∑ni=1 βi = 1;

(ii) Encontrar o melhor conjunto de coeficientes α para reescrever X com osarquétipos Z por meio de resolver n problemas de quadrados mínimos não-negativos; (i = 1, . . . , n)

min(||Xi −Zαi||2)

com a restrição de combinação convexa, αi > 0 e∑ni=1 αi = 1;

(iii) Recalcular os novos arquétipos (Z̃) por meio de resolver o sistema linear deequações X = Z̃α

(iv) Encontrar o melhor conjunto α para os arquétipos (Z̃): resolver K problemasde quadrados mínimos não-negativos (k = 1, . . . ,K);

minβ ||Z̃k −Xβk||2

(v) Calcular a SQR;

(vi) Repetir os passos de (i) a (v) até que a SQR seja pequena o suficiente;

Os passos (ii) e (iv) são os mais custosos computacionalmente por conta dasrestrições da combinação convexa, por isso deve-se optar por um algoritmo eficientepara tal cálculo. Na literatura é comum utilizar Quadrados Mínimos Não-Negativospara encontrar os coeficientes.

O passo (iii) exige a resolução de um conjunto de equações lineares. Talmétodo pode ser implementado utilizando a técnica de inversa generalizada deMoore-Penrose. Z̃ = α+X ou utilizando decomposição QR, em que Q é umamatriz ortogonal e R uma matriz triangular superior. Z̃ = QTXR−1

5 Interpretação geométrica

Com o objetivo de ilustrar geometricamente os arquétipos, uma simulaçãoproposta por Cutler e Breiman (1994), foi reproduzida da seguinte forma:

• Foi gerada uma amostra de tamanho 1000 de uma distribuição Normal

bivariada com vetor de médias µ =

[11

]e Matriz de correlação

Σ =

[1 0, 8

0, 8 1

].

160 Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015

Page 6: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

• Foram descartados todos os pontos com distância de Mahalanobis ≥ χ22(0, 95),

que representa uma elipse de confiança de 95%.

• Foram ajustados quatro arquétipos e armazenados. O processo foi repetidocem vezes.

(a) (b)

Figura 1 - (a) Elipse de confiança com 95% dos dados sorteados. (b) Arquétiposselecionados em 100 iterações da simulação.

Pode-se observar pelo resultado representado nas Figura 1 (a) e Figura 1 (b)que os arquétipos se agruparam no fim dos eixos. O que era esperado, pois osarquétipos são geralmente valores extremos.

Na Figura 1 (a) está representado uma iteração do processo do sorteio edescarte dos pontos fora da elipse de confiança de 95%. Pontos sólidos forammantidos, enquanto pontos vazios foram descartados.

Observa-se na Figura 1 (b) que para uma amostra normal bivariada comcorrelação, conclui-se que os arquétipos estão localizados na fronteira do fechoconvexo.

6 Compreensão do resultado da Análise de Arquétipos

A Análise de Arquétipos permite reduzir a dimensionalidade dos dadosutilizando combinações convexas dos elementos mais representativos, quegeralmente são valores extremos (grandes ou pequenos). Por isso deixa de sernecessário conhecer todas as observações, bastando conhecer os mais representativosda base de dados, que são os arquétipos. Então, após realizar a Análise deArquétipos, basta conhecer as matrizes de coeficientes (α e β), lembrando que α éa matriz que contém os coeficientes que descrevem a combinação de cada arquétipo(zi) para reconstrução dos dados originais (X) com, geralmente, um pequeno erro

Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015 161

Page 7: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

associado, e β é a matriz que contém os coeficientes utilizados para construir amatriz dos arquétipos Z, a partir dos dados originais. Isto possibilita uma novaabordagem na interpretação dos dados, pois observando os coeficientes α é possívelavaliar com quais arquétipos as observações são mais semelhantes, possibilitandoassim a interpretação, comparação e até agrupamento dos dados.

Um bom exemplo da aplicação prática de arquétipos é quando utiliza-se osistema vermelho verde azul, mas conhecido pela sigla em inglês para red, green,blue, RGB, que pode ser visto na Figura 2 (a). Nota-se que utilizando apenas trêscores, é possível representar todas as outras cores do sistema. Ou seja, basta saberquais são as cores capazes de reescrever as outras, as cores “arquétipicas” das demais,e seus respectivos coeficientes na combinação da formação de uma determinada cor.Existe também o sistema Ciano (Cyan), Magenta (Magenta), Amarelo (Yellow) ePreto (Black), chamado de sistema CMYK de cores. Este ultimo é mais usado paraimpressões e na indústria gráfica. Vale notar que não existe apenas os sistemas RGBe CMYK para este tipo de problema, exemplo RYB (red, yellow, blue - vermelho,amarelo e azul), assim como não existe um número exato de combinações possíveisde arquétipos, pois várias combinações podem chegar a resultados similares.

Outro exemplo prático do uso de arquétipos pode ser visto na Figura 2 (b),o diagrama conhecido como diagrama de Shepard. Utilizando os elementos básicos(arquétipos) areia, silte e à argila é possível descrever as possíveis composições datextura do solo (DIAS, 2004).

(a) (b)

Figura 2 - (a) Exemplo do sistema vermelho verde azul, mas conhecido pela sigla eminglês para red, green, blue, RGB. (b) Diagrama de Shepard na texturado solo.

Fonte: (a) Adaptado de (GRAVE, 2014). (b) Adaptado de (DIAS, 2004).

162 Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015

Page 8: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

7 Cronologia

O estado da arte da Análise de Arquétipos será resumido neste tópico em umaordem cronológica de como diferentes autores adaptaram a ideia original propostapor Cutler e Breiman (1994).

Stone e Cutler (1997) estudaram o comportamento da técnica para analisardados de estruturas móveis, como dados sobre propagação de ondas e sólitons dafísica. A técnica mostrou-se hábil em separar os pontos estacionários dos pontosque representam movimento, separando os dados em três estruturas: tempo, espaçoe diferença de espaço. Porém os autores advertiram que está técnica é descritiva eexistem ferramentas que utilizam fundamentos matemáticos mais elegantes, comoa Análise de Componentes Principais.

A ideia da AA foi reformulada por D’Esposito, Palumbo e Ragozini (2006)que estenderam o método para utilizar dados intervalares ao invés de valores reais.Utilizaram simulações para comprovar que o método é tão bom quanto o original,pois mantém a mesma precisão e acurácia. Neste mesmo segmento de trabalho,mas com diferentes aplicações, pode-se citar também Corsaro e Marino (2010) eD’Esposito, Palumbo e Ragozini (2011, 2012).

Bauckhage e Thurau (2009) propuseram uma restrição que diminuiconsideravelmente o tempo de execução do algoritmo. A intensão é não incluiros pontos que estão fora da fronteira do fecho convexo dos dados para seleção dosarquétipos. Como os arquétipos são geralmente valores extremos, estes valores estãoquase sempre na fronteira do fecho convexo. Desta forma o número de restrições doalgoritmo diminui consideravelmente e a convergência é atingida de forma bem maisrápida, permitindo o uso de bases de dados bem mais extensas do que a abordagemoriginal. O problema de encontrar o conjunto de arquétipos deixa de ser O(n2) epassa a ser O(n

′2), em que n′é tão menor que n quanto o número de elementos

fora da fronteira do fecho convexo.Eugster e Leisch (2011) desenvolveram uma modificação que denominaram

Arquétipos Ponderados e Arquétipos Robustos. Arquétipos Ponderados é autilização de pesos dentro da Equação (1) em que a SQR é calculada, dando maiore menor importância a algumas observações de acordo com o contexto da pesquisa.Arquétipos Robustos é o termo utilizado para selecionar os arquétipos utilizandouma métrica visando não punir outliers tão severamente como a Norma Quadráticapor exemplo, utilizando uma função com crescimento menor em paralelo com amétrica estabelecida.

Seth e Eugster (2014) cunham o termo Arquétipos Probabilísticos, que utilizama AA observando que as matrizes α e β são matrizes estocásticas, e então osarquétipos passam a descrever os dados como probabilidades de serem gerados apartir de cada arquétipo. Os autores afirmam que os dados não são reduzidos apartir do espaço de observações, mas sim do espaço paramétrico dos arquétipos.

Sifa, Bauckhage e Drachen (2014a) utilizam a AA para um sistema derecomendação de jogos para jogadores, similares aos jogos que o jogador geralmentejoga, com base no tempo jogado em horas e nas características dos jogos. A diferença

Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015 163

Page 9: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

de aplicação da AA convencional foi que os arquétipos foram selecionados de umsubconjunto dos dados, os jogos que um certo jogador possui. E então os arquétiposselecionados deste conjunto foram utilizados para reconstruir o conjunto completo detodos os jogos da loja, de forma que os jogos que fossem melhor reconstruídos, eramrecomendados para o jogador. Foram considerados quinhentos mil jogadores e trêsmil jogos. Esta abordagem obteve a maior taxa de aceitação em suas recomendaçõesno estudo.

Vinue, Epifanio e Alemany (2014) propuseram e implementaram no pacoteAnthropometry do R (R CORE TEAM, 2014), uma mudança no algoritmo originalda AA para encontrar apenas arquétipos puros, ou seja, os arquétipos selecionadosdevem ser valores que foram realmente observados. O que foi uma solução elegantepara o problema da AA selecionar arquétipos fora do espaço possível de observações.O método foi denominado de Arquetipóides e será descrito de forma detalhada naseção (8.1).

8 Aplicações da Análise de Arquétipos

A Análise de Arquétipos vem sendo utilizada em diversas áreas do conhe-cimento, como marketing, economia, aprendizado de máquinas, reconhecimento depadrões, astrofísica e análises esportivas. Alguns estudos são destacados nesta seção.

Stone e Cutler (1996) fizeram uma comparação entre a Análise de Arquétipose a Análise de Componentes Principais, apontando características, vantagens edesvantagens de cada uma dessas técnicas.

Stone e Olson (1999) propuseram um método híbrido de Arquétipos eComponentes Principais para análise de sistemas dinâmicos, que foi testado comdados originados de espaços de dimensões acima de 500. Primeiro utilizaram ACPpara reduzir a dimensão, e com o resultado obtido, aplicaram a AA. Os autoresafirmaram que o processo conseguiu diferenciar situações de movimentação parasituações de inércia. Este método foi chamado de Arquétipos Móveis.

Em astrofísica pode-se citar Chan, Mitchell e Cram (2003), que utilizarama AA para estudar as formações de estrelas em galáxias e demonstraram que ométodo pode ser uma forma eficaz e eficiente para classificar os espectros dasgaláxias. Os autores mostraram que o método é robusto na presença de váriostipos de observações discrepantes. Neste trabalho os autores estudaram como a AAse comporta quando ruídos estão presentes nos dados, visto que a AA é altamentesensível a outliers. Foi utilizada AA em conjunto com ACP para uma melhorinterpretação dos dados. Este foi um dos primeiros trabalhos a utilizar AA e ACPem conjunto.

Em marketing, D’Esposito, Palumbo e Ragozini (2006) utilizaram AA parasegmentação de mercado ao invés da Análise de Agrupamentos pois esta técnicaconsiste em identificar em médias, e para o problema de segmentação de mercadoespera-se conhecer os consumidores extremos e consumidores médios isolados.

Ainda no contexto de segmentação de mercado, Riedesel (2014) tambémaplicou a AA ao invés da Análise de Clusters que é comumente utilizado para

164 Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015

Page 10: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

este fim, advertindo que a AA não foi utilizada como uma alternativa ao outrométodo, e sim para dar uma nova perspectiva de segmentação e heterogeneidadede consumidores. O autor destacou as vantagens de se conhecer os arquétipospuros principalmente para a área de comunicação e propaganda, enfatizando queo consumidor alvo deve “existir”, não podendo ser uma combinação “teórica” deconsumidores. Os autores Li et al. (2003) descreveram as vantagens em utilizara AA para segmentação de mercado. E afirmaram que o fato da AA utilizarvalores extremos facilita a interpretação dos resultados, possibilitando estudos paraprodução de novos produtos e renovação de produtos que já estão no mercado, bemcomo a mudança de contextos dos produtos.

Porzio, Ragozini e Vistocco (2008) utilizaram os arquétipos para benchmark.Como exemplo utilizaram uma base de dados formada por variáveis sobre odesempenho das 200 melhores universidades do mundo.

D’Esposito, Palumbo e Ragozini (2011) expandiram o uso da AA parautilização em dados intervalares, a técnica foi aplicada em um experimento sensorialde queijos e concluíram que foi possível destacar as características sensoriais dosqueijos analisados. D’Esposito, Palumbo e Ragozini (2012) utilizaram a mesmatécnica para provar a utilidade em análises exploratórias, com um conjunto dedados sobre medidas de partes de morcegos, a fim de identificar as espécies. Comoos dados já haviam sido estudados por outro autor utilizando ACP, foi possível fazeruma breve comparação entre os métodos e os autores concluíram que a AA foi capazde identificar as espécies de morcegos que podem representar as outras.

Eugster (2011) sugere em seu artigo uma nova abordagem para analisar osdados sobre atletas esportivos, e exemplifica com dados sobre jogadores de basquetee de futebol. O autor destaca que como os arquétipos são geralmente valoresextremos, pode-se identificar as características dos arquétipos e assim descobrirqual o “melhor” em determinado aspecto, e comparar os coeficientes α de cadaobservação (no caso jogadores). Assim, o jogador que tiver o maior coeficiente parao arquétipo, é possivelmente o melhor jogador deste aspecto.

Em Matemática, pode-se citar Costantini et al. (2012), que utilizaram a AApara encontrar funções básicas que melhor descrevessem as funções de uma base dedados sobre funções matemáticas.

Recentemente, Thogersen et al. (2013) aplicaram a AA na análise de dadosde expressão de genes. Os resultados mostraram que AA foi promissora emagrupamentos de dados de grupos biologicamente significativos. Os arquétiposselecionados foram capazes de extrair as características principais do conjunto dedados.

Seiler e Wohlrabe (2013) aplicaram a AA para encontrar arquétipos decientistas da área de economia em uma base de dados com quase trinta mileconomistas. As variáveis entre outras eram: número de artigos (ponderadospela qualidade dos artigos), número de citações, downloads dos trabalhos etc.Concluíram que a AA foi capaz de identificar os arquétipos dos cientistas, e emseguida os autores analisaram cada arquétipo de forma individual.

Há também aplicações em Inteligência artificial e aprendizado de máquinas,

Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015 165

Page 11: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

como Sifa e Bauckhage (2013), que utilizaram a AA em dados sobre a movimentaçãode jogadores profissionais de um jogo de tiro em primeira pessoa, para utilizar omesmo padrão de movimentação em um Bot, que é um jogador controlado pelocomputador. Os resultados mostraram que o novo Bot foi capaz de movimentar-se como um humano e com custo computacional mais baixo que outras técnicasanteriores.

Sifa, Bauckhage e Drachen (2014b) ainda no contexto de jogos eletrônicos,apresentam um modelo utilizando a AA para descrever o interesse de jogadorespor jogos eletrônicos em função do tipo de jogo e do tempo jogado. Os resultadosmostram que a maioria dos jogadores, geralmente, perdem o interesse em um jogoapós 10 horas e pouquíssimos jogadores jogam o mesmo jogo por mais de 35 horas.

Morup e Hansen (2012) mostraram a utilidade da AA principalmente paraData Mining e Aprendizado de Máquinas ao utilizarem cinco aplicações, que são:Visão Computacional, NeuroImaging, Química, Mineração de Texto e CollaborativeFiltering (sugerir produtos a clientes com base em suas preferências).

Epifanio, Vinue e Alemany (2013) utilizaram a AA em um conjunto de dadosantropométricos sobre tamanhos de roupas, e evidenciaram as vantagens em utilizarAA ao invés de ACP para este tipo de análise. Os autores propuseram como trabalhofuturo a mesma aplicação porém ao invés de dados sobre o tamanho de roupas,utilizar medidas 3D das mesmas.

Bauckhage (2014) fez uma revisão sobre a AA e estudou o uso de heurísticaseficientes para a aproximação dos dados aos arquétipos, além de ter apresentadopropriedades geométricas dos resultados obtidos.

8.1 A Análise de Arquetipóides

Nesta seção é feita a apresentação de uma proposta recente de um trabalhocom o tema Arquétipos, em que os autores sugerem somente o uso de arquétipospuros.

Vinue, Epifanio e Alemany (2014) introduziram um novo conceito sobre aAnálise de Arquétipos que visa representar cada objeto do conjunto de dadoscomo apenas misturas de observações reais. Estes dados que serão utilizadospara realizar tal mistura são denominados arquetipóides. Diferente da AAconvencional, a Análise de Arquetipóides sempre encontra valores reais observados,e não combinações das observações. A importância deste método é reforçadaquando os arquétipos são necessariamente reais, e não permitem arquétipos teóricos(combinações de observações para construir um arquétipo). Os autores propõeum algoritmo capaz de encontrar de maneira eficiente tal resultado, e fazem umacomparação com a abordagem original. O método foi exemplificado utilizando dadossobre jogadores de basquete, formas de cockpits de aeronaves e tamanhos de roupasfemininas.

166 Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015

Page 12: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

9 Arquétipos versus arquetipóides

Num contexto geral, a AA busca reescrever cada observação do conjuntode dados, como uma combinação convexa dos arquétipos que são os dados maisextremos e característicos de um conjunto de dados, mas não necessariamentevalores observados. Na prática nem sempre isso é possível ou faz sentido para ainterpretabilidade. Por exemplo, ao se analisar dados sobre jogadores profissionaisde futebol cujas variáveis em estudo são velocidade, potência do chute, força física,peso, altura etc., informar que os arquétipos destes dados são combinações de váriosjogadores, não faz sentido prático pois implicaria em ter que encontrar um jogadorcom exatamente as mesmas características combinadas desses jogadores, o que seriaimpossível. Assim, nota-se neste caso a necessidade de utilizar somente arquétipospuros, ou seja, a Análise de Arquetipóides.

Porém, a grande desvantagem da Análise de Arquetipóides é observada quandoa reconstrução dos dados originais se faz necessária, pois espera-se que a SQR doresultado seja no mínimo igual mas geralmente será maior que ao utilizar arquétiposteóricos, que são menos restritos. Como o método utiliza o critério da SQR paraselecionar os arquétipos, neste caso deve-se abster um pouco da qualidade deajuste dos dados reconstruídos por uma melhor interpretação. Com base nessasinformações conclui-se que se o domínio do problema permitir, deve-se utilizar aAA comum, e caso não faça sentido a possibilidade de encontrar arquétipos teóricos,deve-se utilizar os arquetipóides.

10 Considerações finais

Portanto, a Análise de Arquétipos se apresenta como técnica multivariadarelativamente recente e bastante promissora. Suas aplicações se estendem pelasdiversas áreas do conhecimento. Ainda não é tão estudada quanto outras técnicasmultivariadas como a Análise de Componentes Principais, mas tem potencial paramudar esse cenário no futuro.

Referências

BAUCKHAGE, C. A note on archetypal analysis and the approximation of convexhulls. arXiv preprint arXiv:1410.0642, 2014.

BAUCKHAGE, C.; THURAU, C. Making archetypal analysis practical. In: PatternRecognition. Springer, 2009. p. 272–281. Disponível em: <http://dx.doi.org/10.1007/978-3-642-03798-6\_28>. Acesso em: 21 ago. 2014.

CHAN, B. H. P.; MITCHELL, D. A.; CRAM, L. E. Archetypal analysis of galaxyspectra. Monthly Notice of the Royal Astronomical Society, v. 338, n. 3, p. 790–795,2003.

CORSARO, S.; MARINO, M. Archetypal analysis of interval data. ReliableComputing, v. 14, p. 105–116, 2010.

Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015 167

Page 13: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

COSTANTINI, P.; PORZIO, G. C.; RAGOZINI, G.; ROMO, J. Archetypalfunctions. In: Analysis and Modeling of Complex Data in Behavioural and SocialSciences. Anacapri, Italy: Springer, 2012. p. 4.

CUTLER, A.; BREIMAN, L. Archetypal analysis. Technometrics, v. 36, n. 4, p.338–347, 1994.

D’ESPOSITO, M. R.; PALUMBO, F.; RAGOZINI, G. Archetypal analysis forinterval data in marketing research. Statistica Applicata, v. 18, n. 2, p. 343–358,2006.

D’ESPOSITO, M. R.; PALUMBO, F.; RAGOZINI, G. On the use of archetypesand interval coding in sensory analysis. In: FICHET, B.; PICCOLO, D.; VERDE,R.; VICHI, M. (Ed.). Classification and Multivariate Analysis for Complex DataStructures. Italy: Springer Berlin Heidelberg, 2011, (Studies in Classification, DataAnalysis, and Knowledg Organization). p. 353–361.

D’ESPOSITO, M. R.; PALUMBO, F.; RAGOZINI, G. Interval archetypes: a newtool for interval data analysis. Statistical Analysis and Data Mining, Wiley OnlineLibrary, v. 5, n. 4, p. 322–335, 2012.

DIAS, J. M. A. A análise sedimentar e o conhecimento dos sistemas marinhos.Universidade do Algarve, Faro, Portugal, 2004. v. 28, n. 01. Disponível em: <http://w3.ualg.pt/~jdias/JAD/eb\_Sediment.html>. Acesso em: 22 jan. 2015.

EPIFANIO, I.; VINUE, G.; ALEMANY, S. Archetypal analysis: contributions forestimating boundary cases in multivariate accommodation problem. Computers andIndustrial Engineering, Elsevier, v. 64, n. 3, p. 757–765, 2013.

EUGSTER, M. J. A. Archetypal athletes. arXiv preprint arXiv:1110.1972, 2011.

EUGSTER, M. J. A.; LEISCH, F. Weighted and robust archetypal analysis.Computational Statistics and Data Analysis, Elsevier, v. 55, n. 3, p. 1215–1225,2011.

GRAVE, G. Les cartes graphiques. 2014. Disponível em: <http://guy-grave.developpez.com/tutoriels/hardware/les-cartes-graphiques/>. Acesso em: 22 jan.2015.

LI, S.; WANG, P.; LOUVIERE, J.; CARSON, R. Archetypal analysis: a newway to segment markets based on extreme individuals. ANZMAC 2003 ConferenceProceedings, p. 1674–1679, 2003.

Merriam-Webster online dictionary. “archetype”. 2015. Disponível em: <http://www.merriam-webster.com>. Acesso em: 22 jan. 2015.

MORUP, M.; HANSEN, L. K. Archetypal analysis for machine learning anddata mining. Neurocomputing, p. 54–63, 2012. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0925231211006060>. Acesso em: 24 fev.2014.

168 Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015

Page 14: convexasdosprópriosdados. …jaguar.fcav.unesp.br/RME/fasciculos/v33/v33_n2/A3_JoseM... · 2015. 6. 25. · diversos métodos estatísticos para analisar, descrever e inferir sobre

PORZIO, G. C.; RAGOZINI, G.; VISTOCCO, D. On the use of archetypes asbenchmarks. Wiley Online Library, v. 24, n. 5, p. 419–437, 2008.

R CORE TEAM. R: A Language and Environment for Statistical Computing.Vienna, Austria, 2014. Disponível em: <http://www.R-project.org/>. Acesso em:18 jun. 2014.

RIEDESEL, P. Archetypal analysis in marketing research: a new way ofunderstanding consumer heterogeneity. Action Marketing Research, v. 24, 2014.

SEILER, C.; WOHLRABE, K. Archetypal scientists. Journal of Informetrics,Elsevier, v. 7, n. 2, p. 345–356, 2013.

SETH, S.; EUGSTER, M. J. A. Probabilistic archetypal analysis. ArXiv e-prints,2014.

SIFA, R.; BAUCKHAGE, C. Archetypical motion: Supervised game behaviorlearning with archetypal analysis. In: IEEE Conference on ComputationalIntelligence in Games (CIG). Dortmund: IEEE, 2013. p. 1–8.

SIFA, R.; BAUCKHAGE, C.; DRACHEN, A. Archetypal game recommendersystems. In: T. Seidl, M. Hassani, C. Beecks (Eds.): Proceedings of the LWA2014 Workshops. Aachen, Germany: KDML, IR, FGWM, 2014. Disponível em:<http://ceur-ws.org>. Acesso em: 18 out. 2014.

SIFA, R.; BAUCKHAGE, C.; DRACHEN, A. The playtime principle: Large-scalecross-games interest modeling. In: IEEE Conference on Computational Intelligenceand Games (CIG). Dortmund: IEEE, 2014. p. 1–8.

STONE, E.; CUTLER, A. Archetypal analysis of spatio-temporal dynamics. PhysicaD, v. 90, p. 209–224, 1996.

STONE, E.; CUTLER, A. Moving archetypes. Physica D, v. 107, p. 1–16, 1997.

STONE, E.; OLSON, B. Archetypal Analysis of Cellular Flame Data. Utah StateUniversity, 1999.

THOGERSEN, J. C.; MORUP, M.; DAMKIAER, S.; MOLIN, S.; JELSBAK,L. Archetypal analysis of diverse pseudomonas aeruginosa transcriptomes revealsadaptation in cystic fibrosis airways. BMC Bioinformatics, v. 279, n. 14, p. 1–15,2013.

VINUE, G.; EPIFANIO, I.; ALEMANY, S. Archetypoids: a new approach to definerepresentative archetypal data. Computational Statistics and Data Analysis, v. 87,p. 102–115, 2014.

Recebido em 22.01.2015.

Aprovado após revisão em 04.05.2015.

Rev. Bras. Biom., São Paulo, v.33, n.2, p.156-169, 2015 169