Bruna Conde Perez Brum
Estimação da Taxa de Churn para Clientes de uma Seguradora baseado em Técnicas de Reconhecimento de Padrões
Monografia de Final de Curso
19/08/2016
Monografia apresentada ao Departamento de Engenharia Elétrica da PUC/Rio como parte dos requisitos para a obtenção do título de
Especialização em Business Intelligence.
Orientador: Adriano Soares Koshiyama
2
DEDICAÇÃO
Dedico este trabalho aos meus familiares e amigos que estiveram sempre ao
meu lado me dando apoio.
3
AGRADECIMENTOS
Agradeço, primeiramente, á minha família pelo imenso apoio prestado para a
conclusão deste curso, e finalização com êxito de mais uma etapa da minha vida.
Agradeço a todos que acreditaram em mim, em especial, ao professor
Adriano Soares, por ter aceitado contribuir com todo o seu conhecimento para a
realização desta monografia, parte fundamental para a execução do projeto.
4
RESUMO
Este trabalho tem como principal objetivo principal analisar a propensão de
renovação (ou opostamente de churn) dos clientes de uma seguradora brasileira. O
principal objetivo é de aprimorar o método atualmente usado pela empresa, cuja
tarefa é auxiliar no planejamento orçamentário e de ações táticas da empresa.
Nesse sentido, utilizou-se como base de dados 255.966 segurados durante o
ano de 2014-2015. Foram testados diversos classificadores, utilizando desde
técnicas estatísticas, assim como de aprendizado de máquina. Esses métodos foram
validados a partir de um esquema de validação cruzada de k-pastas, computando
para cada pasta critérios de desempenho, como: acurácia, taxa de falsos positivos,
área debaixo da curva ROC, etc.
Os resultados obtidos demonstram que, dentre as abordagens mencionadas,
a que foi capaz de predizer com maior qualidade foi a Random Forest, sendo desta
forma, o modelo que poderá oferecer uma contribuição significativa à empresa.
5
ABSTRACT
This work is aimed to analyse the renewal propensity (or churn, in opposite) of
clients from a Brazilian insurance company. The main objective is to improve the
current method applied by the company, which its duty is to support in the budget
planning as well as others tactics actions employed by it.
In this sense, we used a dataset of 255,966 insured during the 2014-2015
year. We tested several classifiers, ranging from statistical techniques, to machine
learning models. These methods were validated through a k-fold cross-validation
scheme, calculating from each folder a plethora of performance criteria, such as:
accuracy, false positive rate, area under the ROC curve, etc.
The results suggest that Random Forest, among the mentioned approaches,
was the one able to obtain the highest predictive quality, and therefore, this model
can offer a substantial contribution to the company.
6
LISTA DE ILUSTRAÇÕES
Figure 1 - O perfil dos brasileiros que buscam seguro, segundo dados do Serasa Experian.....................................................................................................................12
Figure 2 - Arquitetura do perceptron.....................................................................................21 Figure 3 - Exemplo de problema linearmente separável......................................................22 Figure 4 - Arquitetura de uma rede MLP com duas camadas intermediárias.......................23 Figure 5 - A figura apresenta o funcionamento do método de validação cruzada para 4
subconjuntos..............................................................................................................24 Figure 6 - Exemplo de curva ROC........................................................................................27 Figure 7 - Passo-a-Passso do procedimento........................................................................30 Figure 8 - Análise da variação pela variável Zero KM..........................................................33 Figure 9 - Análise da variação pela variável Tipo de Renovação.........................................34 Figure 10 - Análise da variação pela variável Bônus............................................................35 Figure 11 - Análise da variação pela variável Região...........................................................36 Figure 12 - Análise da variação pela variável Período..........................................................37 Figure 13 - Análise da variação pelas variáveis Contrato com Tipo de Renovação.............37 Figure 14 - Resultado da acurácia e AUC............................................................................39 Figure 15 - Resultado Taxas de Falsos Positivos e Negativos.............................................40 Figure 16 - Resultado da Curva ROC...................................................................................41 Figure 17 - Resultado da AUC e acurácia............................................................................42 Figure 18 - Resultado da Curva ROC...................................................................................43 Tabela 1 - Matriz confusão....................................................................................................26 Tabela 2 - Descrição das variáveis.......................................................................................29 Tabela 3 - Resultado para os Classificadores......................................................................38 Tabela 4 - Resultado dos Classificadores utilizando o método de seleção de
variáveis.....................................................................................................................41 Equação 1 - Estimativa KAPPA............................................................................................25 Equação 2 - Cálculo das métricas........................................................................................26
7
SUMÁRIO
1. INTRODUÇÃO .................................................................................................. 8 1.1. Motivação .................................................................................................................... 9 1.2. Objetivos do Trabalho ................................................................................................. 9 1.3. Descrição do Trabalho .............................................................................................. 10 1.4. Organização do Trabalho .......................................................................................... 11 2. DESCRIÇÃO DO PROBLEMA ........................................................................ 11 2.1. Contratação do Serviço de Seguro e Renovação ...................................................... 11 2.2. Principais Entraves e Determinantes para a Renovação ........................................... 13 2.3. Impacto da Melhora na Avaliação do Churn para a Empresa .................................... 14 3. METODOLOGIAS EMPREGADAS ................................................................. 14 3.1. Naive Bayes .............................................................................................................. 14 3.2. Regressão Logística.................................................................................................. 15 3.3. Árvore de Classificação ............................................................................................. 16 3.4. Random Forest ......................................................................................................... 20 3.5. Multi-Layer Perceptron .............................................................................................. 21 3.6. Validação Cruzada de k-pastas Estratificada ............................................................ 23 3.7. Métricas para Avaliação dos Modelos ....................................................................... 24 3.8. Resumo ..................................................................................................................... 28 4. Arquitetura da Solução Proposta .......................................................................... 28 4.1. Variáveis Disponíveis para a Modelagem ..................................................................... 28 4.2. Passo-a-Passo da Solução Proposta ............................................................................ 30 4.3. Resumo ........................................................................................................................ 32 5. Resultados e Discussões ...................................................................................... 32 5.1. Análise Exploratória e de Seleção de Variáveis ........................................................... 32 5.2. Comparação dos Modelos de Classificação .................................................................. 38 5.3. Resumo ........................................................................................................................ 44 6. CONCLUSÃO ........................................................................................................ 45
7. Referências Bibliográficas ..................................................................................... 46
1. INTRODUÇÃO
O setor de seguros é um dos atores mais relevantes na indústria financeira.
Este é responsável pela venda de serviços de proteção dos mais diversos:
automóveis, vida, patrimônio, intangíveis, etc. (MACEDO et al., 2006; CARVALHO,
2006). Estes serviços são de extrema relevância, principalmente servindo para
mitigar os riscos que estão expostos os demais agentes de uma economia.
Similarmente, as seguradoras são expostas aos riscos dos clientes e, portanto,
devem se valer de procedimentos e instrumentos para calcular e precificar esses
riscos.
Um dos serviços mais comuns prestados pelos segurados é o seguro
veicular. No Brasil, estima-se que em torno de 25% da frota de veículos no Brasil é
segurado, assim (DELLOITE, 2011). Em linhas gerais, o cliente recorre a seguradora
para a elaboração de um contrato que, dada a ocorrência de um sinistro quaisquer
no veículo do cliente, a seguradora caso acionada deve cobrir os danos assim
causados. A seguradora aceita esse contrato se, e somente se, o cliente pagar um
prêmio pelo risco enfrentado.
O cálculo do prêmio pelo risco em si é um problema no qual diversas
soluções já foram apresentadas (FERREIRA, 2005). Essa quantidade é de
demasiada importância, pois afeta a principal fonte de receita da empresa. Uma
outra variável relevante para o planejamento estratégico-financeiro da companhia é
a taxa de Churn (ou o inverso, a taxa de retenção) de uma carteira de clientes. Esta
pode ser definida como o número de clientes que deixaram o seu portfólio, em
relação ao número de clientes atual (MICHAEL e GORDON, 2000). Uma taxa de
Churn elevada implica em uma perda significativa de receita, assim como a
necessidade de se empenhar grandes esforços para preenche-la novamente; por
outro lado, um Churn baixo em um mercado competitivo implica em sucesso das
atividades de retenção de clientes.
Para calcular tal taxa é necessário acessar o número de clientes que deverão
evadir a carteira. Obviamente, não se sabe de antemão quais clientes não deverão
renovar o seguro até o final do contrato e, portanto, tal quantidade é a princípio
desconhecida. Uma forma de se estimar essa taxa é a partir da elaboração de
modelos matemáticos que, dada informações do usuário (idade, sexo, bônus, etc.),
calcule um escore ou probabilidade de renovação. Esse modelo é elaborado e
9
avaliado a partir de informação histórica, sendo assim conhecido antecipadamente
se o mesmo é confiável ou não para a tarefa de estimação da taxa de Churn.
1.1. Motivação
Atualmente é usado como modelo matemático para a estimação da taxa de
Churn da companhia o modelo de regressão logística com seleção de variáveis a
partir da significância de cada variável. Contudo, é necessário aprimorar os
resultados obtidos, principalmente na fase atual de modernização da companhia. A
minimização de discrepâncias entre o Churn predito e observado é de vital
relevância, principalmente para a antecipação de riscos estruturais no negócio.
Nesse sentido, a partir da revisão de diversos trabalhos existentes na
literatura de estimação de Churn (HADDEN et al., 2007; PUREZ e VAN DEN POEL,
2009; OWCZARCZUK, 2010), assim como da literatura atual de métodos
computacionais e estatísticos para reconhecimento de padrões (HASTIE et al.,
2011), verifica-se como técnicas viáveis passíveis de avaliação:
Redes Neurais, com foco em arquiteturas do tipo Multilayer Perceptron
(HAYKIN, 2000);
Regressão logística (HOSMER e LEMESHOW, 2000) e Naive Bayes
(HASTIE et al., 2011);
Árvore de classificação, principalmente a do tipo Conditional Inference
Tree (HOTHORN et al., 2006);
Random Forest (BREIMAN et al., 1984), técnica que tem mostrado
resultados empíricos bastante satisfatórios quando comparado a
demais métodos mais recentes (FERNÁNDEZ-DELGADO et al., 2014).
Ainda, busca-se avaliar outros procedimentos de seleção de variáveis, os de
seleção iterativa (backward e forward selection) e os baseados em métricas de
informação (HASTIE et al., 2011), podem auxiliar no aprimoramento dos resultados
obtidos pelo atual modelo base.
1.2. Objetivos do Trabalho
O objetivo do presente trabalho é elaborar e validar um classificador que
determine a propensão/probabilidade de renovação dos clientes, baseado nas
seguintes métricas:
10
Acurácia, Alarmes falsos e Defeituosos, Curva ROC
Custo computacional X Celeridade no Resultado
Facilidade de implementação no dia-a-dia
Buscando obter melhores resultados ao modelo utilizado atualmente: regressão
logística com seleção de variáveis manual por significância da variável e por
algumas analises estatísticas.
1.3. Descrição do Trabalho
Os passos envolvem o pré-processamento, a Inferência e o Pós-
Processamento. No pré- processamento, iremos analisar as variáveis visando a
verificação possíveis inconsistências em termos de níveis em uma variável do tipo
fator, correção de informações faltantes e ajuste de algumas variáveis. Exclusão ou
criação de novas variáveis para o modelo procurando analisar as variáveis,
desdobrando uma variável com duas informações e categorizar variáveis contínuas.
No K-fold cross-validation, a amostra original é aleatoriamente dividida em k
sub-amostras. Dessas k sub-amostras, uma sub-amostra única é mantida como
dado de validação para testar o modelo, e as k−1 sub-amostras restantes são
usadas como dados de treinamento. Os K resultados, em seguida, são usados para
gerar uma média (ou outra métrica) para produzir uma estimativa única. A vantagem
deste método ser repetido sobre sub-amostragem aleatórias, é que todas as sub-
amostras são utilizadas tanto para treinamento e validação e cada qual é usada para
a validação exatamente uma vez. O método 10-fold cross-validation é comumente
utilizado, mas em geral k continua a ser um parâmetro. Iremos Adotar k=10.
Classificadores Baselines, tais como: Naive Bayes e Regressão Logística com
StepWise ou StepAIC são estimados, e com isso busca se criar os classificadores
concorrentes, tais como: Árvore de Classificação, Randon Forest e MLP. Com isso
podemos fazer a comparação do modelo usado atualmente. Após todo o processo
de análise exploratória e inferência nos dados são analisados os relatórios gerados
com os resultados descrevendo a melhor abordagem encontrada em termos de
métricas, utilizando assim a acurácia, curva ROC e a matriz confusão para chegar
no melhor resultado.
11
1.4. Organização do Trabalho
O trabalho está organizado da seguinte forma:
Capítulo 2 trata da descrição do problema, expondo as nuances para a
operação e ganho financeiro que um sistema que possa reconhecer os
potenciais clientes que possuem uma tendência de deixar a carteira (churn).
Capítulo 3 descreve as metodologias empregadas nesse trabalho, sendo
compostas por diversos modelos de classificação, metodologias para
validação e cálculo do erro de generalização dos modelos citados e as
métricas usadas para a comparação de modelos.
Capítulo 4 exibe as variáveis usadas para compor os modelos e técnicas
descritas no capítulo 3, assim como o passo-a-passo para: pré-
processamento, inferência e pós-processamento dos resultados elaborados.
Capítulo 5 dispõe os resultados e discussões: o primeiro estágio é a
exposição de uma análise exploratória a partir de cruzamentos das variáveis
apresentadas no capítulo 4; após isso são apresentados os resultados dos
classificadores e é debatido os prós e contras das opções consideradas,
assim como as performances obtidas por cada um desses.
Capítulo 6 encerra o trabalho, expondo as considerações finais e principais
diretrizes que esse trabalho irá ensejar no ambiente empresarial.
2. DESCRIÇÃO DO PROBLEMA
2.1. Contratação do Serviço de Seguro e Renovação
Conforme descrito na introdução, o seguro é um contrato onde o segurado
paga um prêmio a seguradora para que, em caso de acidentes ou necessitar de
algum serviço, os custos sejam arcados pela seguradora contratada.
A concepção do seguro de automóvel no Brasil, apesar de recheado de pontos
positivos, não recebeu inicialmente uma boa aceitação da população, em parte do
desconhecimento das pessoas sobre os benefícios podem ser adquiridos com o
seguro e em outra parte a questão financeira.
Um estudo realizado pela Serasa Experian traçou o perfil do brasileiro que
busca por qualquer tipo de seguro. Dentre esses, a maioria é constituída por adultos
12
que moram em cidade grande e possuem situação financeira estável (26%), sendo
que as elites brasileiras vêm em segundo lugar (19%), como mostra a Figura 1.
Figura 1 - O perfil dos brasileiros que buscam seguro, segundo dados do Serasa Experian.
Atualmente o Brasil possui dezenas de seguradoras credenciadas junto à
SUSEP (Superintendência de Seguros Privados), com isso a dificuldade de escolha
de uma seguradora em que atenda todas as suas necessidades aumenta, pois
existem muitas opções.
Com a melhora recente das condições econômicas e educacionais no país,
fica evidente outro fator decisivo na hora da contratação de um seguro: o
conhecimento, já que muitas pessoas ainda não se preocupam com o investimento
nos bens que já dispõem, achando que a contratação de um seguro é muito mais
um gasto desnecessário do que uma garantia de proteção e segurança.
No momento de contratação de um seguro os fatores chaves são, a partir de
informações de especialistas: o valor à pagar, Serviços prestados, atendimento ao
cliente e no caso de sinistro como é o proceder caso aconteça. Essas são das
algumas variáveis que o cliente analisa antes de fechar um seguro.
13
As seguradoras, ao avaliarem o perfil de segurado utilização do veículo,
região de circulação, custo de reparo do veículo, se o veículo é alvo de furto e
roubos, coberturas e limites, levam em consideração alguns fatores que vão além do
carro que será protegido. Alguns desses fatores podem ser complexos de serem
alterados – como seu local de residência ou região por onde você costuma trafegar
com seu veículo. Outros, por exemplo, são simples de serem aplicados e fazem uma
boa diferença na hora de fechar o valor da sua apólice.
Os principais motivos que levam uma seguradora a recusar uma proposta de
seguro são veículos que apresentam algum problema na vistoria prévia ou
irregularidade na documentação. Motoristas com histórico de sinistros,
inadimplência, carteira de habilitação suspensa, processados por dirigir embriagados
ou por outras irregularidades são sérios candidatos à rejeição por parte das
seguradoras.
2.2. Principais Entraves e Determinantes para a Renovação
O tempo de permanência de um cliente acarreta em vantagens na hora da
renovação, mas caso o gasto que a companhia teve com o cliente no anterior
tenham sido elevados, usualmente o preço é maior. O cliente tem a escolha de
querer ou não renovar com a seguradora que estava para isso pode-se consultar um
corretor de seguro para gerar cotações em outras seguradoras.
No momento em que o corretor recebe o valor que deve ser repassado ao
segurado adiciona-se o valor da comissão dele, nem sempre o valor que é cotado
com um corretor vai ser o mesmo por conta da comissão adicionada, isso é um dos
fatores mais influentes para o segurado renovar, o preço. No entanto existem outros
motivos para o cliente não renovar com a seguradora, por exemplo: uma má
assistência quando o segurado necessitou dos serviços da seguradora, atraso e
atendimento, são outros fatores que influenciam consideravelmente.
No contexto do atendimento ao cliente, isto é, no momento em que envolve o
pagamento em caso de sinistro, informações ao cliente e a alteração na apólice -- o
endosso – outras questões também devem ser ressaltadas. O Endosso é calculado
em função das condições e dos prêmios vigentes à data de alteração do contrato de
seguro. Alguns endossos podem gerar alterações nas condições do seguro e/ou no
valor da franquia e/ou no prêmio do seguro, que poderá promover restituição ou
cobrança adicional de prêmio ao segurado.
14
Com isso a variação do preço pode ocorrer e o segurado não ficar satisfeito
com as alterações. As variações de preço podem ocorrer por alguma alteração na
apólice como, por exemplo, ao trocar o carro, endereço, condutor ou perfil, se é
casado, solteiro ou divorciado.
2.3. Impacto da Melhora na Avaliação do Churn para a Empresa
Qualquer empresa necessita de boas projeções e estimativas de resultado para
um bom andamento. Um bom modelo de propensão a renovar ajuda nesse aspecto,
já que ele nos permite saber a retenção das apólices cuja vigência se encerra, o que
é crucial para a estimativa de resultado.
Uma prática consensual no mercado segurador é a chamada “otimização”. Tal
prática simula diversos cenários de modo que maximize o resultado da empresa,
para isso o modelo de propensão a renovar assume papel crucial já que a tomada
de decisão sobre a melhor escolha é inferida sobre ele. A “otimização” age como
elemento de indução e motivação dos gestores no processo decisório. Além de
induzir a eficácia, permite a melhor escolha após analisar todos os cenários segundo
sua contribuição para a geração do resultado global da organização.
3. METODOLOGIAS EMPREGADAS
3.1. Naive Bayes
O algoritmo de classificação Bayesiana recebe este nome por ser baseado no
teorema de probabilidade de Bayes que tem como objetivo calcular a probabilidade
de uma amostra desconhecida pertença a cada uma das classes possíveis, ou seja,
predizer a classe mais provável. Esse tipo de predição é chamado de classificação
estatística, esta classificação é chamada simples, pois ela considera que o efeito do
valor de um atribuído sobre uma determinada classe de independente dos valores
dos outros atributos, o que simplifica os cálculos envolvidos.
Este algoritmo é computacionalmente menos intenso de que outros algoritmos
e, portanto, é útil para gerar modelos de mineração rapidamente para descobrir as
relações entre as colunas de entrada e as colunas previsíveis. Uma característica
atraente desse classificador é a sua capacidade de produzir estimativas de
15
probabilidade ao invés de simples classificações. Isto significa que, para cada rótulo
de classe, o classificador pode gerar uma estimativa de o novo objeto pertencer à
mesma. Pode-se usar esse algoritmo para realizar exploração de dados iniciais, e
em seguida, aplicar os resultados para criar modelos de mineração adicionais com
outros algoritmos que são computacionalmente mais intensos e mais precisos.
O algoritmo calcula a probabilidade do estado de cada colina de entrada, uma
vez proporcionado cada possível estado da coluna previsível. Uma característica do
algoritmo é que ele requer um conjunto de dados prévio que esteja classificado e
baseado neste conjunto de dados prévio o algoritmo recebe com entrada uma nova
amostra desconhecida, que não possui classificação, e retorna como saída a classe
mais provável para esta amostra de acordo com os cálculos probabilísticos.
A classificação Bayesiana obtém os melhores resultados quanto os valões de
atributos são discretos ao invés de contínuos.
3.2. Regressão Logística
A regressão logística é uma técnica estatística que tem como objetivo
produzir, a partir de um conjunto de observações, um modelo que permita a predição
de valores tomados por uma variável categórica, frequentemente binária, a partir de
uma série de variáveis explicativas contínuas e/ou binárias. O modelo de regressão
logístico pode ser utilizado para analisar dados observacionais ou experimentais no
delineamento inteiramente casualizado.
Indivíduos e empresas estão a todo momento em uma situação onde devem
escolher uma entre várias alternativas, por exemplo, quando um indivíduo escolhe
entre utilizar um veículo próprio, o metrô ou uma linha de ônibus para se deslocar
até o local de trabalho ou de uma forma de análise mais simples, a de sobrevivência
de enxertos de ameixeiras (sobrevive ou não sobrevive). Em muitas situações as
alternativas se resumem a duas, por exemplo, comprar ou não um bem de consumo
durável, alugar ou vender um imóvel, ou ainda, empregar ou não mais
trabalhadores.
Problemas deste tipo são tratados pela teoria do consumidor em
microeconomia que supõe a racionalidade do consumidor no sentido de que sua
escolha é a que maximiza sua função utilidade sujeita a uma restrição orçamentária.
Entretanto, a informação acerca da função utilidade individual é imprecisa ou a
16
função utilidade não é observável, mas apenas os resultados das escolhas do
indivíduo, supostamente guiadas por essa função.
Uma abordagem alternativa, para contornar os problemas inerentes à função
utilidade, consiste em construir um modelo comportamental que procura explicar as
escolhas feitas pelos indivíduos como uma função das suas características. Através
dos modelos comportamentais é possível estimar a probabilidade dos indivíduos
tomarem uma decisão a partir do conhecimento das suas características. Tais
modelos também permitem avaliar a importância relativa dessas características no
processo da tomada de decisão e predizer a escolha do indivíduo.
No caso mais simples quando o indivíduo deve escolher uma entre duas
alternativas mutuamente exclusivas, denotadas aqui por A1 e A2, a decisão do
indivíduo é representada por uma variável aleatória binária Y que assume o valor 1
se a alternativa A1 é escolhida e 0 se a escolha recair sobre a alternativa A2. Neste
caso os modelos que relacionam a escolha dos indivíduos com as respectivas
características são conhecidos como modelos de escolha binária.
A seguir faz-se uma breve apresentação de duas formulações para os
modelos de escolha binária: o modelo de probabilidade linear e o modelo de
regressão logística. Nas duas abordagens a variável binária Y é tratada como uma
variável dependente explicada pelas k variáveis independentes (Xi, i=1,2,...,k) que
representam o perfil dos indivíduos.
A partir das variáveis que representam o perfil de um assinante do Jornal X,
pode-se construir um modelo de escolha binária que permita predizer se o assinante
comprará ou não um colecionável, considerando a variável dependente Y como
sendo 1 se a compra for verificada ou 0, caso contrário.
Num estudo sobre a participação das esposas no mercado de trabalho, como
função da idade da esposa, número de filhos e rendimento do marido, a variável
resposta Y foi definida do seguinte modo: a mulher participa no mercado de trabalho
ou não. Novamente, estas respostas podem ser codificadas como 1 e 0,
respectivamente.
3.3. Árvore de Classificação
O algoritmo Árvores de Decisão é um algoritmo de classificação e regressão
para uso em modelagens de previsão de atributos discretos e contínuos.
17
O algoritmo Árvores de Decisão usa a seleção de recurso para guiar a
seleção dos atributos mais úteis. A seleção de recurso é usada por todos os
algoritmos de mineração de dados para melhorar o desempenho e a qualidade da
análise. A seleção de recurso é importante para impedir que atributos sem-
importância usem tempo do processador. Se usar muitas entradas ou atributos
previsíveis ao criar um modelo de mineração de dados, o modelo poderá demorar
muito tempo para processar ou ainda esgotar a memória. Os métodos usados para
determinar a divisão da árvore incluem medidas padrão da indústria para entropia e
redes Bayesianas.
O algoritmo gera um modelo de mineração de dados criando uma série de
divisões na árvore. Essas divisões são representadas como nós, onde adiciona um
nó ao modelo toda vez que uma coluna de entrada é considerada significativamente
correlacionada a uma coluna previsível. A forma que o algoritmo determina uma
divisão depende do fato de ele estar prevendo uma coluna contínua ou discreta.
No caso dos atributos discretos, o algoritmo faz previsões fundadas nas
relações entre colunas de entrada em um conjunto de dados. Ele usa os valores,
conhecidos como estados, dessas colunas para prever os estados de uma coluna
que define como previsível. Especificamente, o algoritmo identifica as colunas de
entrada que são correlacionadas com a coluna previsível. Por exemplo, em um
cenário em que se deseja prever a tendência dos clientes em adquirir uma bicicleta,
se 9 de 10 clientes jovens comprarem uma bicicleta, mas apenas 2 de 10 clientes
mais velhos fizerem o mesmo, o algoritmo infere que idade é um bom indicador para
a compra de bicicletas. A árvore de decisão faz previsões com base nesta tendência
para obter um resultado específico.
No caso de atributos contínuos, o algoritmo usa a regressão linear para
determinar onde uma árvore de decisão se divide, se mais de uma coluna for
definida como previsível, ou se os dados de entrada tiverem uma tabela aninhada
configurada como previsível, o algoritmo criará uma árvore de decisão separada
para cada coluna previsível.
18
Prevendo variáveis discretas
A forma como o algoritmo da cria uma árvore para uma coluna previsível
discreta pode ser mostrada usando um histograma. O diagrama a seguir mostra um
histograma que esboça uma coluna previsível, Compradores de bicicleta, em
comparação com uma coluna de entrada, Idade. O histograma mostra que a idade
de uma pessoa ajuda a distinguir se ela comprará uma bicicleta.
A correlação que é mostrada no diagrama faz com que crie um novo nó no
modelo.
À medida que o algoritmo acrescenta novos nós em um modelo, uma
estrutura de árvore é formada. O nó superior da árvore indica a divisão da coluna
previsível para a média da população de clientes. Como o modelo continua
crescendo, o algoritmo considera todas as colunas.
19
Prevendo variáveis contínuas
Quando o algoritmo cria uma árvore com base em uma coluna previsível
contínua, cada nó contém uma fórmula de regressão. Uma divisão ocorre em um
ponto de não linearidade na fórmula de regressão. Por exemplo, considere o
seguinte diagrama:
O diagrama contém dados que podem ser modelados usando uma única linha
ou usando duas linhas conectadas. Porém, uma única linha não representaria os
dados de forma satisfatória. Mas, se você usar duas linhas, o modelo terá um
desempenho muito melhor ao aproximar dados. O ponto onde duas linhas se
encontram é o ponto de não linearidade e é onde o nó de um modelo de árvore de
decisão se dividiria. Por exemplo, o nó que corresponde ao ponto de não linearidade
no gráfico anterior poderia ser representado pelo diagrama a seguir. As duas
equações representam as equações de regressão para as duas linhas.
Um problema muito comum nos modelos de mineração de dados é que eles
se tornam muito sensíveis a diferenças pequenas nos dados de treinamento. Nesse
caso, nos referimos a eles como sobrecarregados ou muito treinados. Um modelo
sobrecarregado não pode ser generalizado para outros conjuntos de dados. Para
evitar a superajuste de um determinado conjunto de dados, o algoritmo usa técnicas
para controlar o crescimento da árvore.
20
3.4. Random Forest
O algoritmo Random Forest é uma combinação de predições de diversas
árvores em que cada árvore depende dos valores de um vetor independente,
amostrados aleatoriamente e com a mesma distribuição para todas as árvores da
floresta. Floresta é o que se denomina para uma série de árvores de decisão. Após
a geração de um grande número de árvores, são eleitas as classes com maior
número de votos (BREIMAN, 2001).
Vantagens:
É um dos algoritmos de aprendizagem mais precisos e para um
conjunto grande o suficiente que produz um classificador muito
precisos dados.
Funciona eficientemente em grandes bancos de dados.
Ele pode lidar com centenas de variáveis de entrada sem excluir
nenhuma.
Fornece estimativas de quais variáveis são importantes na
classificação.
Tem uma eficaz para estimar os dados em falta e manter a precisão
quando uma grande proporção dos dados é perdida método.
Calcula protótipos que dão informação sobre a relação entre as
variáveis e classificação.
Calcula proximidade entre pares de casos que podem ser usados em
grupos, valores extremos de localização, ou (ascendente) dando
excelentes vistas sobre os dados.
Ele fornece um método experimental para a detecção de interações de
variáveis.
Desvantagens:
Ao contrário de árvores de decisão, a classificação feita por Random
Forest é difícil de interpretar.
Para os dados, incluindo as variáveis categóricas com diferente
número de níveis, o modelo Random Forest é tendencioso em favor
dos atributos com mais níveis.
21
Se os dados contêm grupos de atributos correlacionados com
importância semelhante para o desempenho, grupos, em seguida,
menores são favorecidos em detrimento de grupos maiores.
3.5. Multi-Layer Perceptron
O perceptron, proposto por Frank Rosenblatt em 1958 (ROSENBLATT, Frank,
1958), é o modelo mais simples de uma RNA. Ele é formado por várias unidades de
processamento que são interligadas através de conexões, que são os pesos
sinápticos. O perceptron utiliza a formulação do neurônio de MCP e, portanto a sua
saída obedece a Lei do Tudo ou Nada. Dessa maneira a saída do perceptron é
determinada por uma função degrau que define quando o neurônio está ativo (saída
1) ou em repouso (saída 0). A Figura 2 apresenta uma arquitetura genérica para o
perceptron. Com a sua simplicidade o perceptron carrega uma grande limitação: ele
só é capaz de resolver problemas que sejam linearmente separáveis. Entende-se
por problemas linearmente separáveis, os problemas cuja solução pode ser obtida
pela separação de duas regiões por meio de uma reta (Figura 3). Como a maioria
dos problemas reais não são linearmente separáveis, é justificável uma melhoria
sobre o perceptron.
Figura 2 - Arquitetura do perceptron
22
Além disso, é importante frisar que o número de camadas intermediárias, a
quantidade de neurônios em cada camada, a função de ativação utilizada, a
semente para inicialização aleatória dos pesos, entre outros, são fatores importantes
para a arquitetura da rede, e que influenciarão no resultado final (BRAGA, Antônio,
CARVALHO, André e LUDEMIR, Teresa, 2000). Existe ainda uma grande
dificuldade neste tipo de rede: o treinamento. Efetuar a correção dos pesos dos
neurônios que se encontram na camada de entrada e na camada intermediária não
é uma tarefa trivial (BRAGA, Antônio, CARVALHO, André e LUDEMIR, Teresa,
2000). Neste contexto, existem vários algoritmos para treinar uma rede neural
(FAHLMAN, Scott, 1988; RIEDMILLER, Martin, 1994; HAGAN, Martin e MENHAJ,
Mohammad, 1994). Neste trabalho, além do algoritmo baseado em SIA que é
proposto, foi utilizado também o algoritmo backpropagation.
Uma rede perceptron de múltiplas camadas (MLP), com uma função de
ativação não linear na camada escondida, representa uma generalização do
perceptron, ou seja, é formada por múltiplas camadas de neurônios perceptron. Uma
Classe 1 = Classe 2 = Y1 = f(net1) Ys = f(nets) ws0 ws1 ws2 wsn w1n 27 ESCOLA
POLITÉCNICA DE PERNAMBUCO rede MLP é formada por uma camada de
entrada, uma ou mais camadas intermediárias (também chamadas de camadas
escondidas/ocultas) e uma camada de saída. A utilização de uma camada
Figura 3 - Exemplo de problema linearmente separável
23
intermediária, com função de ativação não linear, tal qual a sigmóide logística
(Figura 4), aumenta o poder computacional das redes MLP (BRAGA, Antônio,
CARVALHO, André e LUDEMIR, Teresa, 2000) e torna possível para a rede a
aproximação de qualquer função contínua (CYBENKO, George, 1989). Já a
utilização de duas camadas intermediárias permite a aproximação de qualquer
função matemática (CYBENKO, George, 1988). Por essa razão, as redes MLP são
conhecidas como uma técnica aproximadora universal de funções. A Figura 4 ilustra
a arquitetura de uma rede MLP com duas camadas intermediárias (HAYKIN, Simon,
2001).
Figura 4 - Arquitetura de uma rede MLP com duas camadas intermediárias
3.6. Validação Cruzada de k-pastas Estratificada
A tarefa de validação é um processo de determinação do grau de
confiabilidade do modelo construído em relação aos dados apresentados, onde a
metodologia adotada neste projeto foi a validação cruzada com k-folds.
No método de validação cruzada é uma técnica para avaliar a capacidade de
generalização de um modelo, a partir de um conjunto de dados. Esta técnica é
amplamente empregada em problemas onde o objetivo da modelagem é a predição.
Busca-se então estimar o quão preciso é este modelo na prática, ou seja, o seu
desempenho para um novo conjunto de dados.
O conceito central das técnicas de validação cruzada é o particionamento do
conjunto de dados em subconjuntos mutualmente exclusivos, e posteriormente,
utiliza-se alguns destes subconjuntos para a estimação dos parâmetros
24
do modelo (dados de treinamento) e o restante dos subconjuntos (dados de
validação ou de teste) são empregados na validação do modelo.
O método de validação cruzada denominado k-fold consiste em dividir o
conjunto total de dados em k subconjuntos mutuamente exclusivos do mesmo
tamanho e, a partir disto, um subconjunto é utilizado para teste e os k-1 restantes
são utilizados para estimação dos parâmetros e calcula-se a acurácia do modelo.
Este processo é realizado k vezes alternando de forma circular o subconjunto de
teste. A figura 5 mostra o esquema realizado pelo k-fold.
Figura 5 - A figura apresenta o funcionamento do método de validação cruzada para 4 subconjuntos
Ao final das k iterações calcula-se a acurácia sobre os erros encontrados,
através da equação descrita anteriormente, obtendo assim uma medida mais
confiável sobre a capacidade do modelo de representar o processo gerador dos
dados.
3.7. Métricas para Avaliação dos Modelos
Acurácia e matriz de confusão
A avaliação da acurácia e precisão de mapas possibilitam aumentar a
qualidade das informações do mesmo, identificando e corrigindo as fontes de erro,
possibilitando comprar técnicas distintas, algoritmos, análises ou classificadores e
testar qual é o melhor. É fundamental e necessário que medidas de qualidade sejam
conhecidas em informações obtidas a partir, por exemplo, do sensoriamento remoto.
25
Segundo Congalton (1991) uma das técnicas mais utilizadas na realização de
avaliação de acurácia da classificação de dados de sensoriamento remoto é o
emprego da matriz de erro, também conhecida como matriz de confusão. A matriz
de confusão pode ser usada como ponto de partida para uma série de técnicas
estatísticas descritivas e analíticas, é uma matriz quadrada de números definidos em
linhas e colunas que expressam o número de unidades da amostra (pixels, grupos
de pixels ou polígonos) atribuído a uma categoria particular relativo à categoria atual,
conforme foi verificado em campo. Geralmente, as colunas representam os dados de
referência, enquanto as linhas representam a classificação gerada a partir dos dados
de sensoriamento remoto
A matriz de erro permite o uso de técnicas de estatística analítica como as
técnicas discretas multivariadas e tem sido utilizada na realização de testes
estatísticos sobre a classificação da acurácia de dados digitais e de sensoriamento
remoto. Técnicas discretas multivariadas são apropriadas, porque os dados de
sensoriamento remoto são discretos ao invés de contínuos. Os dados também não
são distribuídos de forma binomial ou polinomial ao invés de distribuídos de forma
normal. Uma técnica discreta multivariada de uso em avaliação de acurácia, que é
uma estimativa KAPPA e uma medida de concordância ou acurácia é de acordo com
a Equação 1:
Equação 1 - Estimativa KAPPA
Onde, r é o número de linhas na matriz Xii é o número de observações na
linha i coluna i, respectivamente e N é o número total de observações (BISHOP et al.
1975 apud CONGALTON, 1991).
A avaliação dos resultados do modelo de classificação é obtida por meio de
contagem das classificações corretas e incorretas do conjunto de teste. As
contagens são estruturadas na forma de uma tabela chamada matriz confusão. É
possível medir a acurácia e a taxa de erros diante dos dados da matriz.
26
Tabela 1 - Matriz confusão
A matriz confusão, conforme apresentada na Tabela 1, indica o número de
instancias classificadas corretamente pela diagonal principal. As linhas
compreendem os rótulos com suas classificações isenta de erros possui f10 e f01
igual a zero. As equações podem ser deduzidas da matriz confusão. A acurácia
pode ser entendida como o quão perto de uma classificação isenta de erros o
aprendizado foi. A taxa de erro contabiliza os erros de classificação e o número real
de instancias dado um rótulo escolhido. O recaal pode ser entendido como a razão
entre o número de casos avaliados como corretamente classificados e o número
total de casos previstos dado um certo rotulo, conforme a equação 2.
Equação 2 - Cálculo das métricas
Curva ROC
Receiver Operating Characteristic (ROC) Para técnicas que produzem saídas
contínuas, a decisão binária é tomada a partir de um limiar, abaixo do qual a decisão
é feita para uma classe ou outra. Porém, a definição deste limiar é influenciada de
acordo com o objetivo do problema, levando-se em consideração, geralmente, que
os custos dos erros são diferentes para cada classe (Adeodato & Monteiro, 2004).
27
Para o estudo foi utilizada uma métrica que é independente deste limiar. A métrica
escolhida foi a área sobre a curva ROC. Esta métrica tem sido utilizada em
importantes competições internacionais como a Pacific-Asia Knowledge Discovery
and Data Mining Conference (PKDD) 2007. A curva ROC é uma ferramenta
poderosa para avaliação de modelos. A análise é feita por meio de um método
gráfico simples e robusto, o qual permite estudar a variação da sensibilidade e
especificidade do modelo, para diferentes valores de ponto de corte (Provost &
Fawcett, 1998) e (Fawcett, 2003). As curvas ROC mostram a relação das taxas de
falsos positivos (FP) e verdadeiros positivos (VP) através da variação de um limiar.
Esta relação prediz o comportamento dos classificadores, independentemente dos
custos e da distribuição das classes. Numa curva ROC, o eixo das ordenadas (y)
representa VP e o eixo das abscissas (x) representa FP.
Para cada ponto de corte, a sensibilidade e o complemento da especificidade
(1 – especificidade) são calculados e colocados um em cada eixo de um gráfico
bidimensional, produzindo a curva ROC. A sensibilidade de um sistema de
classificação é calculada a partir da razão entre os verdadeiros positivos sobre a
soma dos verdadeiros 8 positivos e falsos negativos, e a especificidade é calculada
a partir da razão entre os verdadeiros negativos sobre a soma dos verdadeiros
negativos e falsos positivos. A figura 6 representa um exemplo da curva ROC.
Figura 6 - Exemplo de curva ROC
28
3.8. Resumo
A acurácia é a proporção de predições corretas, sem levar em consideração o
que é positivo e o que é negativo. Esta medida é altamente suscetível a
desbalanceamentos do conjunto de dados e pode facilmente induzir a uma
conclusão errada sobre o desempenho do sistema. A matriz confusão é uma
ferramenta padrão para avaliação de modelos estatísticos. A curva ROC são para
técnicas que produzem saídas contínuas, do qual a decisão é feita para uma classe
ou outra.
4. Arquitetura da Solução Proposta
4.1. Variáveis Disponíveis para a Modelagem
Na tabela 2 são apresentadas todas as variáveis, assim como uma descrição sucinta do seu significado.
Descrição das variáveis Ano de
Fabricação Ano de Fabricação do Veiculo
Bônus do Veiculo É um desconto concedido ao segurado na renovação do
seguro que aumenta progressivamente caso não haja sinistro na vigência da apólice anterior.
Zero KM Se o carro é Zero ou não
Tipo de Renovação
BARE Se o segurado já é
nosso
NOVO Se é um novo
segurado
CONG
Se é uma renovação vinda de outra
seguradora
Tipo de Corretor Banco
Corretor que fica no banco
Extra Banco Corretor que não fica
no Banco Descrição do tipo
de veiculo
Classificação do Veículo Configuração do
veiculo
Marca do Veiculo
Tipo de Veiculo
Tipo de Seguro Tipo de renovação
29
Descrição UF
Multicalculo Se o segurado utilizou a plataforma de multicalculo,
onde se pesquisa preços de todas as seguradoras Score Rating interno do perfil do segurado
Canal
Mercado Renovação dos
Segurados de fora
Funcionário Renovação de Funcionários
Rede Renovação dos
segurados da Bradesco Perfil estado civil Estado Civil
Perfil Idade Idade Idade do veiculo Idade do veiculo Faixa da idade do
veiculo Faixa da Idade
Tipo de Sistema Tele/Contrato
Alguns casos onde ganha desconto
Individual O segurado faz de
forma convencional Idade do veículo
Mod Cluster de idade do veiculo Perfil idade Mod Cluster de Idade Bônus Mod Cluster de Bônus Região Mod Cluster da Região Score Corretor Rating interno do perfil do corretor Renova Variável resposta Variação do
preço
Quanto variou ano passado com esse ano. Está em porcentagem.
Perfil do segurado Estado civil + Sexo
Período
Período de análise
A renovar Variável que colocamos para começar a fazer as analises, todos estão propensos a renovação
Tabela 2 - Descrição das variáveis
30
O estudo foi realizado na base de dados que contém 255.966 mil segurados
no período de janeiro a dezembro de 2015.
Definição da taxa de churn para uma empresa é obter uma boa projeção e
estimativas de resultados para o andamento saudável empresarial. Com essa
definição forte nos permite saber a importância do estudo.
A taxa de Churn é uma métrica fundamental para alguns segmentos de
negócio acompanharem o percentual de clientes que cancelaram o serviço, trata-se
de um indicador chave para qualquer organização. Quando se refere a empresas
com esse tipo de organização o Churn é um aliado especialmente quando há um
mercado competitivo com outros concorrentes locais e globais.
4.2. Passo-a-Passo da Solução Proposta
A figura 7 ilustra os passos necessários para as análises expressas no
próximo capítulo. A seguir são explicitados o passo-a-passo realizado.
Figura 7 - Passo-a-Passso do procedimento
31
Pré-Processamento
Analisar as variáveis visando à verificação possíveis inconsistências em
termos de níveis em uma variável do tipo fator, correção de informações faltantes e
ajuste de algumas variáveis. Exclusão ou criação de novas variáveis para o modelo
procurando analisar as variáveis e possíveis Desdobrando tornando uma variável
com duas informações e categorizar variáveis contínuas.
Inferência
A inferência inicia com a formação de k-pastas para a validação cruzada (o K-
fold cross-validation estratificado pela variável renova).
No K-fold cross-validation, a amostra original é aleatoriamente dividida em k
sub-amostras. Dessas k sub-amostras, uma sub-amostra única é mantida como
dado de validação para testar o modelo, e as k−1 sub-amostras restantes são
usadas como dados de treinamento. O processo de validação cruzada é então
repetido k vezes (os folds), com cada uma das k sub-amostras utilizadas exatamente
uma vez como dado de validação. Os K resultados, em seguida, são usados para
gerar uma média (ou outra métrica) para produzir uma estimativa única. A vantagem
deste método ser repetido sobre sub-amostragem aleatórias, é que todas as sub-
amostras são utilizadas tanto para treinamento e validação e cada qual é usada para
a validação exatamente uma vez. O método 5-fold cross-validation é comumente
utilizado, mas em geral k continua a ser um parâmetro. Iremos Adotar k=10.
Classificadores Baselines, tais como: Naive Bayes e Regressão Logística com
StepWise (Backward and Forward) são usados, e comparados com os
classificadores concorrentes, tais como: Árvore de Classificação, Randon Forest e
MLP. Com isso podemos fazer a comparação do modelo de como é feito hoje e se
podemos desenvolver.
Pós-Processamento
Após todo o processo de análise exploratória e inferência nos dados iremos
analisar os relatórios gerados com os resultados descrevendo a melhor abordagem
encontrada em termos de métricas:
Acurácia, Alarmes Falsos e Defeituosos, Curva ROC
Custo computacional x Celeridade no Resultado
Facilidade de implementação no dia-a-dia
32
Com as métricas em mãos iremos gerar a análise de estresse no portfólio de
clientes via simulação Monte Carlo assumindo uma distribuição Poisson Binomial,
cujo parâmetro p de cada cliente é dado pelo output do melhor classificados
encontrado.
4.3. Resumo
Dado as variáveis selecionadas o primeiro passo é as análises exploratórias,
terá exclusão ou criação de novas variáveis, com isso iremos aplicar a validação
cruzada k-fold-cv. Ao elaborar os classificadores e comparara-los o próximo passo
para ter certeza da escolha será aplicar algumas métricas para a decisão final do
melhor modelo.
5. Resultados e Discussões
5.1. Análise Exploratória e de Seleção de Variáveis
Analise das principais variáveis que iremos utilizar no modelo. A interpretação
desse gráfico vem da densidade com a variável variação final, representando a cor
azul como segurados que renovaram e rosa como segurados que não renovaram.
33
ZERO KM
Figura 8 - Análise da variação pela variável Zero KM
Podemos interpretar, a Figura 8, da seguinte forma, para os segurados que
Renovaram (Cor azul), entendemos que a maioria dos casos estão alocados na
variação zero, onde não teve muita alteração no valor final e varia relativamente
pouco para mais, já os que não Renovaram sua variação é maior para mais, tanto
para carro sendo Zero KM ou não.
A mesma interpretação do gráfico serve para as outras variáveis que estamos
analisando.
34
TIPO DE RENOVAÇÃO
Figura 9 - Análise da variação pela variável Tipo de Renovação
Podemos interpretar, a Figura 9, que para o tipo de renovação BARE o
segurado tem uma variação do preço mais para mais, já para o tipo de renovação
CONG e NOVO podemos visualizar que como teve uma variação para mais, pode
ter sido um dos motivos para o segurado desistir de ficar na seguradora, não sendo
o principal motivo.
Para o tipo de renovação, temos as variáveis BARE, CONG e NOVO, que
significa:
BARE – São veículos que iniciaram na seguradora e passa por uma
renovação.
CONG – São veículos que são renovação mas vem com histórico de
outra seguradora.
NOVO – São veículos novos e pela primeira vez entram na seguradora.
35
BÔNUS
Figura 10 - Análise da variação pela variável Bônus
Classe de bônus é um desconto progressivo oferecido
pelas seguradoras para os segurados que renovam o seguro sem ter sofrido
nenhum sinistro na vigência anterior.
É um indicador de experiência do seguro, que é considerado na composição
do preço da renovação da apólice. Anualmente, o bônus aumenta na renovação da
apólice.
Bônus progressivo para renovações sem sinistros.
Vinculado ao segurado e não ao veículo ou à seguradora.
Você só perde se tiver sinistro (parcial, total ou terceiros) ou se renovar
fora do prazo.
Não perde se usar coberturas adicionais e assistências.
Como na explicação, Bônus 0 é um cliente que fez o seguro pela primeira
vez, a cada renovação o bônus aumenta. Podemos interpretar esse gráfico que
clientes de bônus zero para não renovar, além de outros motivos, se influenciam
pelo preço, mas há uma tendência de quanto maior seu bônus mais confortável fica
o segurado em continuar com a mesma seguradora (Figura 10).
36
REGIÃO
Figura 11 - Análise da variação pela variável Região
A análise do gráfico para a variável Região é que em alguns lugares as
variações podem agravar mais que em outros, vemos isso, na figura 11, na região
Sul, onde os que não renovaram o seguro se encontram com uma variação do preço
acima.
A região foi agrupada da seguinte forma:
CONO – Centro Oeste e Norte
DFGO – Distrito Federal e Goiás
NORD – Nordeste
SPC – São Paulo Capital
SPI – São Paulo Interior
SUDE – Sudeste
SUL - Sul
37
PERÍODO
Figura 12 - Análise da variação pela variável Período
O período é feito com o final de vigência da apólice, onde acontece a
renovação do segurado. Em alguns períodos podem ocorrer algumas campanhas
ocasionando descontos ou agravos como podemos ver na figura 12.
TIPO CONTRATO COM TIPO DE RENOVAÇÃO
Figura 13 - Análise da variação pelas variáveis Contrato com Tipo de Renovação
38
Foi feito uma variável cruzada utilizando tipo de sistema e tipo de renovação
figura 13.
Individual – São seguros de pessoas avulsas.
Tele/Contrato – São seguros feitos com parâmetros especiais. Contratos
acordados com empresas ou funcionários que recebem uma atenção diferenciada.
5.2. Comparação dos Modelos de Classificação
Resultados para os classificadores, média de 5-fold-cv, com os modelos
usando todas as variáveis disponíveis (Tabela 3).
Classificador Acurácia AUC Falsos
Positivos Falsos
Negativos Tempo para Treinar (s)
Árvore de Classificação 0.6704 0.6582 0.7614 0.0945 2.8
Naive Bayes 0.6406 0.6495 0.5625 0.2488 0.86
Random Forest 0.6895 0.6987 0.67936 0.1096 2964
Regressão Logística 0.6740 0.6658 0.7535 0.0932 1.62
MLP 0.6805 0.6774 0.7740 0.0720 64.96 Tabela 3 - Resultado para os Classificadores
39
O primeiro gráfico acima (Figura 14) representa como cada classificador está
referente a acurácia, o classificador Random Forest obteve a melhor acurácia que os
outros modelos, em segundo fica o MLP e em terceiro a Regressão Logística.
O segundo gráfico (Figura 14) demonstra como os classificadores se
comportam com o AUC (Área sob a curva ROC), com o mesmo resultado da
acurácia, com o Random Forest em primeiro e MLP e Regressão Logística em
segundo e terceiro lugar.
Figura 14 - Resultado da acurácia e AUC
40
Na figura 15 apresentam dois gráficos que representam as taxas de falsos
positivos e faltos negativos, nesse momento temos que ter consciência de qual será
o que menos afeta no negócio, nesse ponto pode-se dizer que seria melhor ter a
taxa do falso negativo maior do que o inverso.
Figura 15 - Resultado Taxas de Falsos Positivos e Negativos
41
O gráfico acima apresenta a curva ROC (Figura 16), Sensibilidade e
Especificidade, pode-se ter a mesma interpretação com os resultados anteriores,
visto que Random Forest, MLP e Regressão logística obtém as maiores curvas,
representando as melhores opções de escolha.
Resultados abaixo utilizando método de seleção de variáveis Forward (FS) e
Backward Selection (BS)
Classificador Acurácia AUC Falsos
Positivos Falsos
Negativos Tempo para Treinar (s)
Naive Bayes (FS) 0.6538 0.5289 0.9233 0.0322 213 Regressão Logística (FS) 0.6497 0.5159 0.9751 0.0103 510 MLP (FS) 0.6476 0.5000 1.0000 0.0000 39
Naive Bayes (BS) 0.6698 0.6371 0.8066 0.0710 2,317 Regressão Logística (BS) 0.6798 0.6766 0.7828 0.0684 10,619 MLP (BS) 0.6713 0.6553 0.7848 0.0804 568
Tabela 4 - Resultado para os Classificadores com método de seleção de variáveis
Na tabela 4 apresenta que foram feitos a seleção de variáveis dos
classificadores Naive Bayes. Regressão Logística e MLP, os classificadores Randon
Figura 16 - Resultado da Curva ROC
42
Forest e Árvore de Classificação não estão acima pois internamente fazem a
seleção das variáveis automaticamente enquanto os outros necessitam desse
passo.
Na figura 17 mostram os gráficos onde foi utilizado o método de seleção de
variáveis Backward Selection, mostram que os classificadores melhoram seus
resultados, tanto com o valor da acurácia quanto do AUC.
Esta análise indica que após a seleção de variáveis em primeiro lugar ficaria
MLP, em segundo Regressão Logística e em terceiro o Naive Bayes.
Figura 17 - Resultado da AUC e acurácia
43
Apos o método de seleção de variaveis foi feito o gráfico da curva ROC, como
mostra na figura 18, pode-se analisar que com o méotodo Forward todos os
resultados estão classificados como uma escolha aleatória, visto que estão todos
com a curva em volta dos 50%.
Figura 18 - Resultado da Curva ROC
44
O método de seleção Backward apresentou melhor forma de seleção do que
o Forward, onde podemos analisar que as curvas estão mais abertas entorno de
60%.
Com esse resultado pode-se descartar a possibilidade de utilizar o método
Forward, a melhor escolha seria o classificador MLP com o método de seleção
Backward.
5.3. Resumo
Dado as análises dos resultados, os estudos apontam que após a seleção de
variáveis pelo método Baseline melhora os resultados, comparando com o estudo
anterior, sem o método de seleção de variáveis.
Mas mesmo com a aplicação do método de seleção das variáveis concluímos
que o classificador Random Forest apresentou melhores resultados superando nos
testes de acurácia e curva ROC.
No momento atual o classificador utilizado é a Regressão logística que dentre
os resultados ficou na terceira posição na classificação.
45
6. CONCLUSÃO
A partir do conjunto de dados estudado, foram testados cinco modelos,
Regressão Logística binária, Random Forest, Árvore de Classificação, MLP e Naive
Bayes pelas métricas de acurácia, AUC, Curva ROC e matriz confusão
A decisão de qual método a ser aplicado foi utilizada uma base de janeiro a
dezembro de 2015 no total de 255.966 mil segurados. Após os testes utilizando o
método de k-fold-cv com todos os modelos, usando todas as variáveis e utilizando o
método de seleção de variáveis Forward (FS) e Backward Selection (BS) somente
para os modelos que não possuem internamente a seleção das variáveis
automaticamente, os que possuem são Randon Forest e Árvore de Classificação.
Após todos os resultados da acurácia, Curva ROC e AUC dos resultados, o
melhor classificador foi o Random Forest.
46
7. Referências Bibliográficas
Breiman L, Friedman JH, Olshen RA, Stone CJ (1984). Classification and Regression Trees. Wadsworth, California.
Carvalho, J. L. (2006). Regulamentação na indústria de seguros: reservas técnicas, derivativos e seguro apólice. Revista Brasileira de Risco e Seguro, 1(2), 1-25.
Deloitte. (2011) A indústria de seguros no Brasil: transformação e crescimento em um país de oportunidades. Deloitte: São Paulo.
Fernández-Delgado, M., Cernadas, E., Barro, S., & Amorim, D. (2014). Do we need hundreds of classifiers to solve real world classification problems. J. Mach. Learn. Res, 15(1), 3133-3181.
Ferreira, P. P. (2005). Modelos de precificação e ruína para seguros de curto prazo. Funenseg.
Hastie, T.J. Tibshirani, R. J., & Friedman, J. H. (2011). The elements of statistical learning: data mining, inference, and prediction. Springer.
Hothorn T, Hornik K, Zeileis A (2006). “Unbiased Recursive Partitioning: A Conditional Inference Framework.” Journal of Computational and Graphical Statistics, 15(3), 651–674.
Hosmer DW, Lemeshow S (2000). Applied Logistic Regression. 2nd edition. John Wiley & Sons, New York.
Haykin, S. S. (2000). Redes neurais artificiais: princípio e prática. 2ª Edição, Bookman, São Paulo, Brasil.
J. Burez, D. Van den Poel, Handling class imbalance in customer churn prediction, Expert Systems with Applications, Volume 36, Issue 3, Part 1, April 2009, Pages 4626-4636.
John Hadden, Ashutosh Tiwari, Rajkumar Roy, Dymitr Ruta, Computer assisted customer churn management: State-of-the-art and future trends, Computers & Operations Research, Volume 34, Issue 10, October 2007, Pages 2902-2917.
47
Macedo, M. D. S., FARIAS DA SILVA, F., & MELO SANTOS, R. (2006). Análise do mercado de seguros no Brasil: uma visão do desempenho organizacional das seguradoras no ano de 2003. Revista Contabilidade & Finanças. Edição Especial–Atuária, 88-100.
Marcin Owczarczuk, Churn models for prepaid customers in the cellular telecommunication industry using large data marts, Expert Systems with Applications, Volume 37, Issue 6, June 2010, Pages 4710-4712.
Michael, B., & Gordon, L. (2000). Mastering data mining: The art and science of customer relationship management. New York: John Wiley & Sons.