exeutive master em applied usiness analytis...3 os clientes estão distribuídos por 3 classes...

15
Esta informação é restrita ou confidencial, não podendo ser duplicada, publicada ou fornecida total ou parcialmente a terceiros sem o prévio consentimento do INDEG-IUL. UNIDADE CURRICULAR: TRABALHO DE GRUPO Elisabeth Fernandes, Miguel Silveira, Nuno Pinho da Silva e Rui Pedro Silva Professora Margarida G.M.S.Cardoso Ano Letivo 2015/2016 EXECUTIVE MASTER EM APPLIED BUSINESS ANALYTICS Métodos de Classificação, Perfis e Propensões 2.1-2.2-3.1-3.2

Upload: others

Post on 19-Nov-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

Esta informação é restrita ou confidencial, não podendo ser duplicada, publicada ou fornecida total ou

parcialmente a terceiros sem o prévio consentimento do INDEG-IUL.

UNIDADE CURRICULAR:

Questionário Multistore

TRABALHO DE GRUPO

Elisabeth Fernandes, Miguel Silveira, Nuno Pinho da Silva e Rui Pedro Silva

Professora Margarida G.M.S.Cardoso

Ano Letivo 2015/2016

EXECUTIVE MASTER EM APPLIED BUSINESS ANALYTICS

Métodos de Classificação, Perfis e Propensões

2.1-2.2-3.1-3.2

Page 2: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

2

1. Introdução Classificação é uma técnica de aprendizagem supervisionada, cujo objetivo é aprender a distribuição de uma variável nominal (as classes) em função das características dos exemplos apresentados ao sistema. Os sistemas de classificação encontram um largo espectro de aplicações, desde o marketing (e.g. perfis de segmentos) até à medicina (e.g. identificação de tumores em imagens de ressonância magnética), passando pelas finanças (e.g. avaliação de risco de crédito ou deteção de fraude), logística (e.g. avaliação de fornecedores) ou economia (e.g. previasão de categorias de gastos). Este trabalho integra o estudo dos seguintes aspetos e técnicas de classificação:

i. Avaliação de resultados de classificação ii. Árvores de classificação (C5) iii. Classificação com regressão logística iv. Classificação com redes neuronais

A avaliação de classificadores, bem como a aplicação do algoritmo C5, exploram um conjunto de dados relativos ao mercado grossista do setor hotelaria e restauração para, respetivamente, avaliar a classificação de uma combinação de classificadores e para fazer uma classificação binária dos clientes nos respectivos canais de distribuição. Os classificadores desenvolvidos com regressão loagística e redes neuronais são aplicados num conjunto de dados do mercado financeiro, nomeadamente para prever a direção da evolução da cotação do índice S&P 500. No que resta do documento serão descritos os procedimentos e analisados os resultados obtidos nas aplicações supracitadas.

2. Avaliação de resultados de classificação Esta aplicação avalia o resultado de classificar os clientes em duas classes através da agregação dos resultados de classificação de 4 classificadores, nomeadamente C5, logístico, C&R Tree e Redes Neuronais. Esta agregação é realizada atribuindo ao exemplo a classe target (“Retail”) se a média das propensões do exemplo pertencer ao target, dadas pelos classificadores, for superior a 0.5 (i.e. “Average raw propensity” no Modeler 17.0). O classificador resultante da agregação é avaliado segundo o índice de concordância percentual (ICP), o índice de Huberty (H), a sensibilidade e especificidade do método, bem como a curva ROC.

2.1. Análise preliminar dos dados Uma breve análise descritiva dos dados (Figura 1) mostra que existem dois tipos de canais de distribuição HORECA e RETAIL, sendo o canal HORECA representado por 67.73% da amostra, correspondente a 298 casos num total de 440. Não existem missings. É possível verificar que as distribuições das variáveis quantitativas são assimétricas positivas e com coeficientes de variação altos, implicando grande dispersão em relação à média.

Page 3: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

3

Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto de treino como o de teste contêm 220 indíviduos e têm estatísticas semelhantes (Figura 2).

Region Total

Lisbon Oporto Other Region

Retail Contagem 18 19 105 142

% em Region

23.4% 40.4% 33.2% 32.3%

Horeca Contagem 59 28 211 298

% em Region

76.6% 59.6% 66.8% 67.7%

Total Contagem 77 47 316 440

Figura 1. Análise descritiva dos dados.

Page 4: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

4

Figura 2. Estatísticas do conjunto de treino (imagem superior) e de teste (imagem inferior).

2.2. Avaliação dos resultados da classificação Os classificadores são avaliados segundo o índice de concordância percentual (ICP), o índice de Huberty (H), a sensibilidade e especificidade do método. O objeto básico para esta análise é a matriz de confusão de classificação, descrita nos resultados da classificação na Figura 3. Pode-se observar que a combinação de classificadores obteve um ICP=91.36%, tanto no conjunto de teste como no conjunto de treino.

Page 5: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

5

Figura 3. Resultados da classificação

Considerando a classe “Retail” como target, a sensibilidade (S) e especificidade (E) (no conjunto de teste) são

𝑆 = 86.25%; 𝐸 = 94.28% No conjunto de treino, estas medidas têm o valor:

𝑆 = 90.32%; 𝐸 = 91.77%

Figura 4. Curvas ROC.

As curvas ROC (i.e 1-Especificidade vs Sensibilidade), que examinam o compromisso entre a Sensibilidade e a Especificidade, estão descritas na Figura 4. As curvas ROC dominam a diagonal, o que significa que a classificação é melhor do que “atirar a moeda ao ar”. A ROC da classificação sobre o conjunto de teste atinge um total de verdadeiros postitivos para uma fração de falsos positivos ligeiramente superior a 0.4. A ROC dos resultados no conjunto de treino cresce mais rapidamente até à taxa de falsos positivos de 0.4. No entanto, apenas atinge uma taxa unitária de verdadeiros positivos quando a taxa de falsos positivos é também um. O classificador comporta-se melhor no conjunto de treino que no de teste. O índice de Huberty compara a capacidade perditiva do classificador com a capacidade perditiva de uma classificador hipotético que considera-se atribuir a qualquer exemplo sempre a classe modal. Um classificador é tanto melhor quanto maior é este valor (sendo sempre menor ou igual que 1). O classificador em análise apresenta seguintes valores

Page 6: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

6

𝐻𝑇𝑒𝑠𝑡 =0.9136 −

140220

1 −140220

= 0.763, 𝐻𝑇𝑟𝑎𝑖𝑛 =0.9136 −

158220

1 −158220

= 0.694,

continuando a apresentar melhores resultados nos dados de teste do que nos dados de treino. Isto significa que o classificador não está sobre ajustado aos dados de treino. Dado que o valor de H é positivo, o classificador tem melhor desempenho que um classificador que escolhe-se sempre a classe modal.

3. Classificação com a árvore C.5 A construção de uma árvore de decisão é um processo de dividir (ramificar nós, reduzindo a dispersão dos dados em cada nó) para conquistar (maior capacidade preditiva em cada nó). O algoritmo C.5 permite classificação n-aria e utiliza como regra de ramificação a maximização do rácio de “ganho de Informação” (i.e. o decréscimo da entropia). A partições consideradas para uma variável nominal são as suas categorias, sendo que o algoritmo tenta juntar categorias em super-categorias, sob o critério de que a agregação deverá reduzir a entropia. As variáveis ordinais são particionadas nas possíveis partições binárias de valores de um atributo com ordem. O C5 permite que uma observação que tenha um missing em determinado atributo seja dividida de acordo com a distribuição de frequências desse atributo. Assim, é possível calcular um rácio de ganho de informação corrigido que permite determinar, por comparação entre rácios de ganho de informação, o atributo utilizado na ramificação. O modelo obtido com este algoritmo para classificar os clientes segundo o canal de distribuição nos dados Wholesale (descritos anteriormente) está descrito na Figura 5 (‘0’=”Retail”, ‘1’=”HORECA”). Nota-se que o preditor mais importante é o atributo “detergente and paper products”. Foi realizado um modelo de Regras Proposacionais com o algoritmo C5. A Figura 6 mostra o conjunto de regras obtido, bem como a importância dos preditores, onde se verifica que o atributo “detergente and paper products” é ainda o mais importante, mas com menor influência do que no modelo da árvore de decisão.

Figura 5. Árvore de Decisão C5.

Page 7: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

7

Figura 6. Conjunto de regras C5.

3.1. Avaliação da classificação com o C5

Figura 7. Matriz de confusão do classificador obtido com a Árvore de Decisão.

Figura 8. Matriz de confusão do classificador ontido com o conjunto de Regras.

A Figura 7 e a Figura 8 mostram as matrizes de confusão dos classificadores obtidos pela Árvore de Decisão e pelo Conjunot de Regras. Note-se que as matrizes de confusão são iguais e por isso os índices de avaliação dos resultados de classificação também são iguais. O ICP (índice de concordância percentual) é de 99.09% no conjunto de treino e de 90% no conjunto de teste. Considerando o target como a classe ‘0’, i.e. “Retail”, a sensibilidade (S) e especifídade (E) no conjunto de teste e no conjunto de treino são as seguintes:

𝑆𝑇𝑟𝑎𝑖𝑛 = 98.38%, 𝑆𝑇𝑒𝑠𝑡 = 81.25%, 𝐸𝑇𝑟𝑎𝑖𝑛 = 99.37% 𝑒 𝐸𝑇𝑟𝑎𝑖𝑛 = 95.00%. O índice de Huberty (H) é dado por

𝐻𝑇𝑟𝑎𝑖𝑛 = 96.77%, 𝐻𝑇𝑟𝑎𝑖𝑛 = 72.50%. Este classificador apresenta uma melhoria em relação ao classificador baseado na distribuição modal superior ao classificador construído com a agregação dos classificadores apresentado na Secção 2.2. As curvas ROC dos classificadores são ilustradas na

Page 8: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

8

Figura 9. Curva ROC do classificador obtido com a Árvore de Decisão.

Figura 10. Curva ROC do classificador obtido com as Regras Proposacionais.

Das curvas ROC nota-se que os classificadores são diferentes, apesar de as matrizes de confusão serem iguais. Ou seja, no ponto de funcionamento onde as matrizes de confusão foram calculadas os classificadores têm a mesma performance, mas quando se varia o seu ponto de funcionamento, os processos de classificação apresentam características distintas. Em particular, comparando as ROC no conjunto de teste, concluí-se que o classificador obtido com a Árvore de Decisão é ligeiramente superior ao classificador obtido pelas regras Proposacionais, pois atinge 100% de verdadeiros positivos admitindo uma taxa de falsos positivos ligeiramente inferior ao classificador obtido pelas Regras Proposacionais. Isto é espectável pois o processo de geração de regras é greeedy e não garante a minimização da estimativa pessimista do erro.

4. Classificação com regressão logística O modelo de regressão logística estabelece uma relação não linear entre os exemplos e a probabilidade de pertença a uma classe alvo. Este modelo acomoda variáveis qualitativas, indiretamente, através da codificação com dummys.

Page 9: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

9

Este trabalho aplica a regressão logística para prever a direção da evolução do S&P500 (Smarket.csv). A Figura 11 mostra as séries temporais que serão usadas na classificação e a Figura 12 mostra as estatísticas das variáveis.

Figura 11. Séries temporais do volume e atrasos de 1ª ordem até 5ª ordem do índice S&P500, desde 2001 até 2005.

O modelo foi treino no conjunto de observações de 2001 a 2004. A seguinte tabela mostra que os preditores têm um efeito não significativo no modelo (sig>5% no teste de Wald).

Tabela 1. Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step

1a

Lag1 -,054 ,052 1,095 1 ,295 ,947

Lag2 -,046 ,052 ,782 1 ,377 ,955

Lag3 ,007 ,052 ,019 1 ,889 1,007

Lag4 ,006 ,052 ,016 1 ,901 1,006

Lag5 -,004 ,051 ,007 1 ,934 ,996

Volume -,116 ,240 ,235 1 ,628 ,890

Constant ,191 ,334 ,328 1 ,567 1,211

a. Variable(s) entered on step 1: clem_var1_, clem_var2_, clem_var3_, clem_var4_, clem_var5_,

clem_var6_.

Page 10: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

10

Figura 12. Análise descritiva dados (Smarket).

Dependent Variable Encoding

Original Value Internal Value

Down 0

Up 1

A última coluna da Tabela 1 mostra o odds ratio da respectiva variável. Com a identificação da classe 1 com a direção ascendente do índice (tabela em cima) podemos interpretar este valor. Um número inferior à unidade significa que, por cada unidade acrescida na variável, a probabilidade do índice subir decresce. Por outro lado, se o odds ratio for superior à unidade, significa que, por cada unidade acrescida na respectiva variável, a probabilidade do indíce subir aumenta. A não significância das variáveis é notória nos resultados da matriz de confusão do conjunto de treino, cujo o ICP Iíndice de concordância percentual) é perto de 50% como se pode verificar na tabela seguinte.

Classification Table

Observed

Predicted

Direction Percentage

Correct

Down Up

Step 1 Direction Down 175 316 35,6

Up 156 351 69,2

Overall Percentage 52,7

Desta tabela é possível calcular a sensibilidade (s) e especificidade (E), considerando como target a classe “Up”, bem como o ínidice de Huberty (H):

𝑆 = 69.23%, 𝐸 = 35.64% 𝑒 𝐻 = 3.8% Das tabelas seguintes podemos calcular a qualidade do modelo pelo R2 de McFadden.

Page 11: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

11

Omnibus Tests of Model Coefficients

Chi-square df Sig.

Step 1 Step 2,160 6 ,904

Block 2,160 6 ,904

Model 2,160 6 ,904

Model Summary

Step -2 Log likelihood

Cox & Snell R

Square

Nagelkerke R

Square

1 1381,105a ,002 ,003

a. Estimation terminated at iteration number 2 because

parameter estimates changed by less than ,001.

Assim, o R2 de McFadden é

𝑅𝑀𝐹2 ≅ 1 −

1381.105

1381.105 + 2,16= 0.16%,

isto é, o modelo tem uma qualidade muito baixa. A Figura 13. Matriz de confusão da classificação do modelo regressão logística no conjunto de teste. mostra que, no conjunto teste, contruído com os dados de 2005, a capacidade preditiva do modelo é muito baixa.

Figura 13. Matriz de confusão da classificação do modelo regressão logística no conjunto de teste.

Em particular, o ICP=48.02% e a sensibilidade (S), a especificidade (E) (considerando como classe target a “Up”, i.e. subida do índice S&P 500) e o índice de Huberty (H) têm os seguintes valores

𝑆 = 31.21%, 𝐸 = 69.36% 𝑒 𝐻 = −0.18018. Pelo valor negativo do índice de Huberty, concluí-se que o classificador tem pior desempenho do que classificar qualquer caso na classe modal, neste caso com o sentido “Up”.

5. Classificação com rede neuronal As redes neuronais são um modelo simplificado da forma como funciona o processamento de informação no cérebro humano. Uma rede neuronal artificial é composta por várias unidades de processamento, essas unidades são conectadas por canais de comunicação que estão associados a determinado peso. As unidades fazem operações sobre os dados locais, que são as

Page 12: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

12

entradas recebidas pelas suas conexões. Existem três camadas numa rede neuronal: uma camada de entrada, uma camada intermediária e uma camada de saída. Neste exemplo, é utilizada a rede neuronal “perceptron” multicamadas, que é um tipo rede que mapeia os dados de entrada, possui várias camadas de nós (com funções de ativação) que aprendem a informação e calculam um conjunto de saída. A rede neuronal “perceptron” utiliza uma técnica supervisionada de retropropagação para treinar a rede. Objectivo: Prever o sentido da variação das ações S&P 500 a partir dos atributos Lag1 a Lag5 e Volume. Pretende-se a construção de uma rede com uma camada intermédia e a aplicação da variante do algoritmo retropopagação implementada no IBM SPSS Modeler para a aprendizagem. a) usando a parametrização por defeito do IBM SPSS Modeler; b) Usando um modelo alternativo variando o número de neurónios escondidos. Nos resultados seguintes, a classe target para calcular a sensibilidade e especificidade é a “Down”, i.e. descida do valor do S&P500. Resultados obtidos para as amostras de treino e teste usando a parametrização por defeito do IBM SPPS Modeler O modelo obtido para amostra de treino apresenta uma precisão de 52,8%. As variáveis mais importantes para classificar os indivíduos são Lag 2 e Lag1.

Capacidade preditiva na amostra de treino: - Indíce de concordância percentual: 52,8% - Sensibilidade: 49,3% - Especificidade: 56,2% - Índice de Huberty:

𝐻𝑇𝑟𝑎𝑖𝑛 =0.528 − 0,508

1 − 0.508= 0,041

Page 13: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

13

Capacidade preditiva na amostra de teste: - Indíce de concordância percentual: 52,8% - Sensibilidade: 20,7% - Especificidade: 78% - Índice de Huberty:

𝐻𝑇𝑒𝑠𝑡𝑒 =0.528 − 0,559

1 − 0.559= −0,072

Teste

Resultados obtidos para as amostras de treino e teste variando o número de nós escondidos Amostar de Treino Para um modelo com 10 nós nas 2 camadas escondidas a precisão obtida foi de 74,3%, este valor mostra que o aumento da complexidade da rede melhora a aprendizagem no entanto o aumento da complexidade origina uma maior dificuldade de interpretação de resultados. As variáveis mais importantes para a classificação são Lag 5 e Volume.

Page 14: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

14

Verifica-se uma diminuição das taxas de falsos positivos e falsos negativos. A rede neuronal obtida é, conforme mostra a figura, muito complexa.

Amostra de Teste Quanto à amostra de treino verifica-se uma precisão de 74,3%, sendo as variáveis Lag5, Volume e Lag3 as que apresentam maior importância preditora.

Quanto à capacidade preditiva na amostra de treino: - Indíce de concordância percentual: 74,4% - Sensibilidade: 68,4% - Especificidade: 80,1% - Índice de Huberty:

𝐻𝑇𝑟𝑎𝑖𝑛 =0,744 − 0,508

1 − 0.508= 0.48

Capacidade preditiva na amostra de teste: - Indíce de concordância percentual: 41,7% - Sensibilidade: 41,4% - Especificidade: 41,8% - Índice de Huberty:

𝐻𝑇𝑒𝑠𝑡𝑒 =0.417 − 0,559

1 − 0.559= −0,32

Page 15: EXEUTIVE MASTER EM APPLIED USINESS ANALYTIS...3 Os clientes estão distribuídos por 3 classes regionais: Lisboa, Porto e outras regiões conforme a tabela seguinte. Tanto o conjunto

15

Rede Neuronal parametrização por defeito do IBM SPPS Modeler

Rede Neuronal mais complexa com 2 camadas com 10 nós cada

Treino Teste Treino Teste

Indíce de concordância percentual

52,80% 52,80% 74,40% 41,70%

Sensibilidade 49,30% 20,70% 68,40% 41,40%

Especificidade 56,20% 78,00% 80,10% 41,80%

Índice de Huberty 4,10% -7,20% 48,00% -32,00%

6. Conclusões Neste trabalho exploramos a construção de classificadores através da agregação de resultados de vários classificadores, da construção árvores de decisão e regras proposicionais (algoritmo C5), da aplicação do modelo de regressão logística e da construção de resdes neuronais. Verificou-se que a minimização o erro de re-substituição nem sempre é otimista quanto à avaliação capacidade preditiva dos classificadores. No entanto, na maioria dos casos é. Portanto, existe a necessidade de separar a amostra em, pelo menos, amostra de treino e de teste, por forma a utilizar-se o conjunto de teste para avaliar corretamente a capacidade preditiva do classificador. Verificou-se também que a matriz de confusão expressa um ponto de funcionamento do classificador e que uma avaliação mais completa é possível utilizando as curvas ROC. A avaliação dos resultados de classificação deve ainda ter em conta a comparação com um classificador aleatório, que atribua todos os casos à classe modal, para avaliar se existe um ganho na capacidade perditiva de um classificador mais complexo. Neste trabalho, utilizou-se o índice de Huberty para fazer esta avaliação. Desta avaliação pode resultar uma revisão do processo de classificação, que pode passar por considerar outros modelos ou por uma redefinição dos preditores escolhidos.

7. Bibliografia Hair J.(2009). Multivariate Data Analysis (7th ed.)

Haykin, S. (2009). Neural Networks and Learning Machines (3th ed.)

IBM SPSS Modeler 16 Modeling Nodes