Download - Bruna Conde Perez Brum - BRUNA C...Bruna Conde Perez Brum Estimação da Taxa de Churn para Clientes de uma Seguradora baseado em Técnicas de Reconhecimento de Padrões Monografia

Bruna Conde Perez Brum

Estimação da Taxa de Churn para Clientes de uma Seguradora baseado em Técnicas de Reconhecimento de Padrões

Monografia de Final de Curso

19/08/2016

Monografia apresentada ao Departamento de Engenharia Elétrica da PUC/Rio como parte dos requisitos para a obtenção do título de

Especialização em Business Intelligence.

Orientador: Adriano Soares Koshiyama

2

DEDICAÇÃO

Dedico este trabalho aos meus familiares e amigos que estiveram sempre ao

meu lado me dando apoio.

3

AGRADECIMENTOS

Agradeço, primeiramente, á minha família pelo imenso apoio prestado para a

conclusão deste curso, e finalização com êxito de mais uma etapa da minha vida.

Agradeço a todos que acreditaram em mim, em especial, ao professor

Adriano Soares, por ter aceitado contribuir com todo o seu conhecimento para a

realização desta monografia, parte fundamental para a execução do projeto.

4

RESUMO

Este trabalho tem como principal objetivo principal analisar a propensão de

renovação (ou opostamente de churn) dos clientes de uma seguradora brasileira. O

principal objetivo é de aprimorar o método atualmente usado pela empresa, cuja

tarefa é auxiliar no planejamento orçamentário e de ações táticas da empresa.

Nesse sentido, utilizou-se como base de dados 255.966 segurados durante o

ano de 2014-2015. Foram testados diversos classificadores, utilizando desde

técnicas estatísticas, assim como de aprendizado de máquina. Esses métodos foram

validados a partir de um esquema de validação cruzada de k-pastas, computando

para cada pasta critérios de desempenho, como: acurácia, taxa de falsos positivos,

área debaixo da curva ROC, etc.

Os resultados obtidos demonstram que, dentre as abordagens mencionadas,

a que foi capaz de predizer com maior qualidade foi a Random Forest, sendo desta

forma, o modelo que poderá oferecer uma contribuição significativa à empresa.

5

ABSTRACT

This work is aimed to analyse the renewal propensity (or churn, in opposite) of

clients from a Brazilian insurance company. The main objective is to improve the

current method applied by the company, which its duty is to support in the budget

planning as well as others tactics actions employed by it.

In this sense, we used a dataset of 255,966 insured during the 2014-2015

year. We tested several classifiers, ranging from statistical techniques, to machine

learning models. These methods were validated through a k-fold cross-validation

scheme, calculating from each folder a plethora of performance criteria, such as:

accuracy, false positive rate, area under the ROC curve, etc.

The results suggest that Random Forest, among the mentioned approaches,

was the one able to obtain the highest predictive quality, and therefore, this model

can offer a substantial contribution to the company.

6

LISTA DE ILUSTRAÇÕES

Figure 1 - O perfil dos brasileiros que buscam seguro, segundo dados do Serasa Experian.....................................................................................................................12

Figure 2 - Arquitetura do perceptron.....................................................................................21 Figure 3 - Exemplo de problema linearmente separável......................................................22 Figure 4 - Arquitetura de uma rede MLP com duas camadas intermediárias.......................23 Figure 5 - A figura apresenta o funcionamento do método de validação cruzada para 4

subconjuntos..............................................................................................................24 Figure 6 - Exemplo de curva ROC........................................................................................27 Figure 7 - Passo-a-Passso do procedimento........................................................................30 Figure 8 - Análise da variação pela variável Zero KM..........................................................33 Figure 9 - Análise da variação pela variável Tipo de Renovação.........................................34 Figure 10 - Análise da variação pela variável Bônus............................................................35 Figure 11 - Análise da variação pela variável Região...........................................................36 Figure 12 - Análise da variação pela variável Período..........................................................37 Figure 13 - Análise da variação pelas variáveis Contrato com Tipo de Renovação.............37 Figure 14 - Resultado da acurácia e AUC............................................................................39 Figure 15 - Resultado Taxas de Falsos Positivos e Negativos.............................................40 Figure 16 - Resultado da Curva ROC...................................................................................41 Figure 17 - Resultado da AUC e acurácia............................................................................42 Figure 18 - Resultado da Curva ROC...................................................................................43 Tabela 1 - Matriz confusão....................................................................................................26 Tabela 2 - Descrição das variáveis.......................................................................................29 Tabela 3 - Resultado para os Classificadores......................................................................38 Tabela 4 - Resultado dos Classificadores utilizando o método de seleção de

variáveis.....................................................................................................................41 Equação 1 - Estimativa KAPPA............................................................................................25 Equação 2 - Cálculo das métricas........................................................................................26

7

SUMÁRIO

1. INTRODUÇÃO .................................................................................................. 8 1.1. Motivação .................................................................................................................... 9 1.2. Objetivos do Trabalho ................................................................................................. 9 1.3. Descrição do Trabalho .............................................................................................. 10 1.4. Organização do Trabalho .......................................................................................... 11 2. DESCRIÇÃO DO PROBLEMA ........................................................................ 11 2.1. Contratação do Serviço de Seguro e Renovação ...................................................... 11 2.2. Principais Entraves e Determinantes para a Renovação ........................................... 13 2.3. Impacto da Melhora na Avaliação do Churn para a Empresa .................................... 14 3. METODOLOGIAS EMPREGADAS ................................................................. 14 3.1. Naive Bayes .............................................................................................................. 14 3.2. Regressão Logística.................................................................................................. 15 3.3. Árvore de Classificação ............................................................................................. 16 3.4. Random Forest ......................................................................................................... 20 3.5. Multi-Layer Perceptron .............................................................................................. 21 3.6. Validação Cruzada de k-pastas Estratificada ............................................................ 23 3.7. Métricas para Avaliação dos Modelos ....................................................................... 24 3.8. Resumo ..................................................................................................................... 28 4. Arquitetura da Solução Proposta .......................................................................... 28 4.1. Variáveis Disponíveis para a Modelagem ..................................................................... 28 4.2. Passo-a-Passo da Solução Proposta ............................................................................ 30 4.3. Resumo ........................................................................................................................ 32 5. Resultados e Discussões ...................................................................................... 32 5.1. Análise Exploratória e de Seleção de Variáveis ........................................................... 32 5.2. Comparação dos Modelos de Classificação .................................................................. 38 5.3. Resumo ........................................................................................................................ 44 6. CONCLUSÃO ........................................................................................................ 45

7. Referências Bibliográficas ..................................................................................... 46

1. INTRODUÇÃO

O setor de seguros é um dos atores mais relevantes na indústria financeira.

Este é responsável pela venda de serviços de proteção dos mais diversos:

automóveis, vida, patrimônio, intangíveis, etc. (MACEDO et al., 2006; CARVALHO,

2006). Estes serviços são de extrema relevância, principalmente servindo para

mitigar os riscos que estão expostos os demais agentes de uma economia.

Similarmente, as seguradoras são expostas aos riscos dos clientes e, portanto,

devem se valer de procedimentos e instrumentos para calcular e precificar esses

riscos.

Um dos serviços mais comuns prestados pelos segurados é o seguro

veicular. No Brasil, estima-se que em torno de 25% da frota de veículos no Brasil é

segurado, assim (DELLOITE, 2011). Em linhas gerais, o cliente recorre a seguradora

para a elaboração de um contrato que, dada a ocorrência de um sinistro quaisquer

no veículo do cliente, a seguradora caso acionada deve cobrir os danos assim

causados. A seguradora aceita esse contrato se, e somente se, o cliente pagar um

prêmio pelo risco enfrentado.

O cálculo do prêmio pelo risco em si é um problema no qual diversas

soluções já foram apresentadas (FERREIRA, 2005). Essa quantidade é de

demasiada importância, pois afeta a principal fonte de receita da empresa. Uma

outra variável relevante para o planejamento estratégico-financeiro da companhia é

a taxa de Churn (ou o inverso, a taxa de retenção) de uma carteira de clientes. Esta

pode ser definida como o número de clientes que deixaram o seu portfólio, em

relação ao número de clientes atual (MICHAEL e GORDON, 2000). Uma taxa de

Churn elevada implica em uma perda significativa de receita, assim como a

necessidade de se empenhar grandes esforços para preenche-la novamente; por

outro lado, um Churn baixo em um mercado competitivo implica em sucesso das

atividades de retenção de clientes.

Para calcular tal taxa é necessário acessar o número de clientes que deverão

evadir a carteira. Obviamente, não se sabe de antemão quais clientes não deverão

renovar o seguro até o final do contrato e, portanto, tal quantidade é a princípio

desconhecida. Uma forma de se estimar essa taxa é a partir da elaboração de

modelos matemáticos que, dada informações do usuário (idade, sexo, bônus, etc.),

calcule um escore ou probabilidade de renovação. Esse modelo é elaborado e

9

avaliado a partir de informação histórica, sendo assim conhecido antecipadamente

se o mesmo é confiável ou não para a tarefa de estimação da taxa de Churn.

1.1. Motivação

Atualmente é usado como modelo matemático para a estimação da taxa de

Churn da companhia o modelo de regressão logística com seleção de variáveis a

partir da significância de cada variável. Contudo, é necessário aprimorar os

resultados obtidos, principalmente na fase atual de modernização da companhia. A

minimização de discrepâncias entre o Churn predito e observado é de vital

relevância, principalmente para a antecipação de riscos estruturais no negócio.

Nesse sentido, a partir da revisão de diversos trabalhos existentes na

literatura de estimação de Churn (HADDEN et al., 2007; PUREZ e VAN DEN POEL,

2009; OWCZARCZUK, 2010), assim como da literatura atual de métodos

computacionais e estatísticos para reconhecimento de padrões (HASTIE et al.,

2011), verifica-se como técnicas viáveis passíveis de avaliação:

Redes Neurais, com foco em arquiteturas do tipo Multilayer Perceptron

(HAYKIN, 2000);

Regressão logística (HOSMER e LEMESHOW, 2000) e Naive Bayes

(HASTIE et al., 2011);

Árvore de classificação, principalmente a do tipo Conditional Inference

Tree (HOTHORN et al., 2006);

Random Forest (BREIMAN et al., 1984), técnica que tem mostrado

resultados empíricos bastante satisfatórios quando comparado a

demais métodos mais recentes (FERNÁNDEZ-DELGADO et al., 2014).

Ainda, busca-se avaliar outros procedimentos de seleção de variáveis, os de

seleção iterativa (backward e forward selection) e os baseados em métricas de

informação (HASTIE et al., 2011), podem auxiliar no aprimoramento dos resultados

obtidos pelo atual modelo base.

1.2. Objetivos do Trabalho

O objetivo do presente trabalho é elaborar e validar um classificador que

determine a propensão/probabilidade de renovação dos clientes, baseado nas

seguintes métricas:

10

Acurácia, Alarmes falsos e Defeituosos, Curva ROC

Custo computacional X Celeridade no Resultado

Facilidade de implementação no dia-a-dia

Buscando obter melhores resultados ao modelo utilizado atualmente: regressão

logística com seleção de variáveis manual por significância da variável e por

algumas analises estatísticas.

1.3. Descrição do Trabalho

Os passos envolvem o pré-processamento, a Inferência e o Pós-

Processamento. No pré- processamento, iremos analisar as variáveis visando a

verificação possíveis inconsistências em termos de níveis em uma variável do tipo

fator, correção de informações faltantes e ajuste de algumas variáveis. Exclusão ou

criação de novas variáveis para o modelo procurando analisar as variáveis,

desdobrando uma variável com duas informações e categorizar variáveis contínuas.

No K-fold cross-validation, a amostra original é aleatoriamente dividida em k

sub-amostras. Dessas k sub-amostras, uma sub-amostra única é mantida como

dado de validação para testar o modelo, e as k−1 sub-amostras restantes são

usadas como dados de treinamento. Os K resultados, em seguida, são usados para

gerar uma média (ou outra métrica) para produzir uma estimativa única. A vantagem

deste método ser repetido sobre sub-amostragem aleatórias, é que todas as sub-

amostras são utilizadas tanto para treinamento e validação e cada qual é usada para

a validação exatamente uma vez. O método 10-fold cross-validation é comumente

utilizado, mas em geral k continua a ser um parâmetro. Iremos Adotar k=10.

Classificadores Baselines, tais como: Naive Bayes e Regressão Logística com

StepWise ou StepAIC são estimados, e com isso busca se criar os classificadores

concorrentes, tais como: Árvore de Classificação, Randon Forest e MLP. Com isso

podemos fazer a comparação do modelo usado atualmente. Após todo o processo

de análise exploratória e inferência nos dados são analisados os relatórios gerados

com os resultados descrevendo a melhor abordagem encontrada em termos de

métricas, utilizando assim a acurácia, curva ROC e a matriz confusão para chegar

no melhor resultado.

11

1.4. Organização do Trabalho

O trabalho está organizado da seguinte forma:

Capítulo 2 trata da descrição do problema, expondo as nuances para a

operação e ganho financeiro que um sistema que possa reconhecer os

potenciais clientes que possuem uma tendência de deixar a carteira (churn).

Capítulo 3 descreve as metodologias empregadas nesse trabalho, sendo

compostas por diversos modelos de classificação, metodologias para

validação e cálculo do erro de generalização dos modelos citados e as

métricas usadas para a comparação de modelos.

Capítulo 4 exibe as variáveis usadas para compor os modelos e técnicas

descritas no capítulo 3, assim como o passo-a-passo para: pré-

processamento, inferência e pós-processamento dos resultados elaborados.

Capítulo 5 dispõe os resultados e discussões: o primeiro estágio é a

exposição de uma análise exploratória a partir de cruzamentos das variáveis

apresentadas no capítulo 4; após isso são apresentados os resultados dos

classificadores e é debatido os prós e contras das opções consideradas,

assim como as performances obtidas por cada um desses.

Capítulo 6 encerra o trabalho, expondo as considerações finais e principais

diretrizes que esse trabalho irá ensejar no ambiente empresarial.

2. DESCRIÇÃO DO PROBLEMA

2.1. Contratação do Serviço de Seguro e Renovação

Conforme descrito na introdução, o seguro é um contrato onde o segurado

paga um prêmio a seguradora para que, em caso de acidentes ou necessitar de

algum serviço, os custos sejam arcados pela seguradora contratada.

A concepção do seguro de automóvel no Brasil, apesar de recheado de pontos

positivos, não recebeu inicialmente uma boa aceitação da população, em parte do

desconhecimento das pessoas sobre os benefícios podem ser adquiridos com o

seguro e em outra parte a questão financeira.

Um estudo realizado pela Serasa Experian traçou o perfil do brasileiro que

busca por qualquer tipo de seguro. Dentre esses, a maioria é constituída por adultos

http://www.consumidormoderno.com.br/index.php/component/k2/item/29649-estudo-aponta-perfil-dos-brasileiros-que-contratam-seguros?catid=71:hot-news

12

que moram em cidade grande e possuem situação financeira estável (26%), sendo

que as elites brasileiras vêm em segundo lugar (19%), como mostra a Figura 1.

Figura 1 - O perfil dos brasileiros que buscam seguro, segundo dados do Serasa Experian.

Atualmente o Brasil possui dezenas de seguradoras credenciadas junto à

SUSEP (Superintendência de Seguros Privados), com isso a dificuldade de escolha

de uma seguradora em que atenda todas as suas necessidades aumenta, pois

existem muitas opções.

Com a melhora recente das condições econômicas e educacionais no país,

fica evidente outro fator decisivo na hora da contratação de um seguro: o

conhecimento, já que muitas pessoas ainda não se preocupam com o investimento

nos bens que já dispõem, achando que a contratação de um seguro é muito mais

um gasto desnecessário do que uma garantia de proteção e segurança.

No momento de contratação de um seguro os fatores chaves são, a partir de

informações de especialistas: o valor à pagar, Serviços prestados, atendimento ao

cliente e no caso de sinistro como é o proceder caso aconteça. Essas são das

algumas variáveis que o cliente analisa antes de fechar um seguro.

13

As seguradoras, ao avaliarem o perfil de segurado utilização do veículo,

região de circulação, custo de reparo do veículo, se o veículo é alvo de furto e

roubos, coberturas e limites, levam em consideração alguns fatores que vão além do

carro que será protegido. Alguns desses fatores podem ser complexos de serem

alterados – como seu local de residência ou região por onde você costuma trafegar

com seu veículo. Outros, por exemplo, são simples de serem aplicados e fazem uma

boa diferença na hora de fechar o valor da sua apólice.

Os principais motivos que levam uma seguradora a recusar uma proposta de

seguro são veículos que apresentam algum problema na vistoria prévia ou

irregularidade na documentação. Motoristas com histórico de sinistros,

inadimplência, carteira de habilitação suspensa, processados por dirigir embriagados

ou por outras irregularidades são sérios candidatos à rejeição por parte das

seguradoras.

2.2. Principais Entraves e Determinantes para a Renovação

O tempo de permanência de um cliente acarreta em vantagens na hora da

renovação, mas caso o gasto que a companhia teve com o cliente no anterior

tenham sido elevados, usualmente o preço é maior. O cliente tem a escolha de

querer ou não renovar com a seguradora que estava para isso pode-se consultar um

corretor de seguro para gerar cotações em outras seguradoras.

No momento em que o corretor recebe o valor que deve ser repassado ao

segurado adiciona-se o valor da comissão dele, nem sempre o valor que é cotado

com um corretor vai ser o mesmo por conta da comissão adicionada, isso é um dos

fatores mais influentes para o segurado renovar, o preço. No entanto existem outros

motivos para o cliente não renovar com a seguradora, por exemplo: uma má

assistência quando o segurado necessitou dos serviços da seguradora, atraso e

atendimento, são outros fatores que influenciam consideravelmente.

No contexto do atendimento ao cliente, isto é, no momento em que envolve o

pagamento em caso de sinistro, informações ao cliente e a alteração na apólice -- o

endosso – outras questões também devem ser ressaltadas. O Endosso é calculado

em função das condições e dos prêmios vigentes à data de alteração do contrato de

seguro. Alguns endossos podem gerar alterações nas condições do seguro e/ou no

valor da franquia e/ou no prêmio do seguro, que poderá promover restituição ou

cobrança adicional de prêmio ao segurado.

14

Com isso a variação do preço pode ocorrer e o segurado não ficar satisfeito

com as alterações. As variações de preço podem ocorrer por alguma alteração na

apólice como, por exemplo, ao trocar o carro, endereço, condutor ou perfil, se é

casado, solteiro ou divorciado.

2.3. Impacto da Melhora na Avaliação do Churn para a Empresa

Qualquer empresa necessita de boas projeções e estimativas de resultado para

um bom andamento. Um bom modelo de propensão a renovar ajuda nesse aspecto,

já que ele nos permite saber a retenção das apólices cuja vigência se encerra, o que

é crucial para a estimativa de resultado.

Uma prática consensual no mercado segurador é a chamada “otimização”. Tal

prática simula diversos cenários de modo que maximize o resultado da empresa,

para isso o modelo de propensão a renovar assume papel crucial já que a tomada

de decisão sobre a melhor escolha é inferida sobre ele. A “otimização” age como

elemento de indução e motivação dos gestores no processo decisório. Além de

induzir a eficácia, permite a melhor escolha após analisar todos os cenários segundo

sua contribuição para a geração do resultado global da organização.

3. METODOLOGIAS EMPREGADAS

3.1. Naive Bayes

O algoritmo de classificação Bayesiana recebe este nome por ser baseado no

teorema de probabilidade de Bayes que tem como objetivo calcular a probabilidade

de uma amostra desconhecida pertença a cada uma das classes possíveis, ou seja,

predizer a classe mais provável. Esse tipo de predição é chamado de classificação

estatística, esta classificação é chamada simples, pois ela considera que o efeito do

valor de um atribuído sobre uma determinada classe de independente dos valores

dos outros atributos, o que simplifica os cálculos envolvidos.

Este algoritmo é computacionalmente menos intenso de que outros algoritmos

e, portanto, é útil para gerar modelos de mineração rapidamente para descobrir as

relações entre as colunas de entrada e as colunas previsíveis. Uma característica

atraente desse classificador é a sua capacidade de produzir estimativas de

15

probabilidade ao invés de simples classificações. Isto significa que, para cada rótulo

de classe, o classificador pode gerar uma estimativa de o novo objeto pertencer à

mesma. Pode-se usar esse algoritmo para realizar exploração de dados iniciais, e

em seguida, aplicar os resultados para criar modelos de mineração adicionais com

outros algoritmos que são computacionalmente mais intensos e mais precisos.

O algoritmo calcula a probabilidade do estado de cada colina de entrada, uma

vez proporcionado cada possível estado da coluna previsível. Uma característica do

algoritmo é que ele requer um conjunto de dados prévio que esteja classificado e

baseado neste conjunto de dados prévio o algoritmo recebe com entrada uma nova

amostra desconhecida, que não possui classificação, e retorna como saída a classe

mais provável para esta amostra de acordo com os cálculos probabilísticos.

A classificação Bayesiana obtém os melhores resultados quanto os valões de

atributos são discretos ao invés de contínuos.

3.2. Regressão Logística

A regressão logística é uma técnica estatística que tem como objetivo

produzir, a partir de um conjunto de observações, um modelo que permita a predição

de valores tomados por uma variável categórica, frequentemente binária, a partir de

uma série de variáveis explicativas contínuas e/ou binárias. O modelo de regressão

logístico pode ser utilizado para analisar dados observacionais ou experimentais no

delineamento inteiramente casualizado.

Indivíduos e empresas estão a todo momento em uma situação onde devem

escolher uma entre várias alternativas, por exemplo, quando um indivíduo escolhe

entre utilizar um veículo próprio, o metrô ou uma linha de ônibus para se deslocar

até o local de trabalho ou de uma forma de análise mais simples, a de sobrevivência

de enxertos de ameixeiras (sobrevive ou não sobrevive). Em muitas situações as

alternativas se resumem a duas, por exemplo, comprar ou não um bem de consumo

durável, alugar ou vender um imóvel, ou ainda, empregar ou não mais

trabalhadores.

Problemas deste tipo são tratados pela teoria do consumidor em

microeconomia que supõe a racionalidade do consumidor no sentido de que sua

escolha é a que maximiza sua função utilidade sujeita a uma restrição orçamentária.

Entretanto, a informação acerca da função utilidade individual é imprecisa ou a

16

função utilidade não é observável, mas apenas os resultados das escolhas do

indivíduo, supostamente guiadas por essa função.

Uma abordagem alternativa, para contornar os problemas inerentes à função

utilidade, consiste em construir um modelo comportamental que procura explicar as

escolhas feitas pelos indivíduos como uma função das suas características. Através

dos modelos comportamentais é possível estimar a probabilidade dos indivíduos

tomarem uma decisão a partir do conhecimento das suas características. Tais

modelos também permitem avaliar a importância relativa dessas características no

processo da tomada de decisão e predizer a escolha do indivíduo.

No caso mais simples quando o indivíduo deve escolher uma entre duas

alternativas mutuamente exclusivas, denotadas aqui por A1 e A2, a decisão do

indivíduo é representada por uma variável aleatória binária Y que assume o valor 1

se a alternativa A1 é escolhida e 0 se a escolha recair sobre a alternativa A2. Neste

caso os modelos que relacionam a escolha dos indivíduos com as respectivas

características são conhecidos como modelos de escolha binária.

A seguir faz-se uma breve apresentação de duas formulações para os

modelos de escolha binária: o modelo de probabilidade linear e o modelo de

regressão logística. Nas duas abordagens a variável binária Y é tratada como uma

variável dependente explicada pelas k variáveis independentes (Xi, i=1,2,...,k) que

representam o perfil dos indivíduos.

A partir das variáveis que representam o perfil de um assinante do Jornal X,

pode-se construir um modelo de escolha binária que permita predizer se o assinante

comprará ou não um colecionável, considerando a variável dependente Y como

sendo 1 se a compra for verificada ou 0, caso contrário.

Num estudo sobre a participação das esposas no mercado de trabalho, como

função da idade da esposa, número de filhos e rendimento do marido, a variável

resposta Y foi definida do seguinte modo: a mulher participa no mercado de trabalho

ou não. Novamente, estas respostas podem ser codificadas como 1 e 0,

respectivamente.

3.3. Árvore de Classificação

O algoritmo Árvores de Decisão é um algoritmo de classificação e regressão

para uso em modelagens de previsão de atributos discretos e contínuos.

17

O algoritmo Árvores de Decisão usa a seleção de recurso para guiar a

seleção dos atributos mais úteis. A seleção de recurso é usada por todos os

algoritmos de mineração de dados para melhorar o desempenho e a qualidade da

análise. A seleção de recurso é importante para impedir que atributos sem-

importância usem tempo do processador. Se usar muitas entradas ou atributos

previsíveis ao criar um modelo de mineração de dados, o modelo poderá demorar

muito tempo para processar ou ainda esgotar a memória. Os métodos usados para

determinar a divisão da árvore incluem medidas padrão da indústria para entropia e

redes Bayesianas.

O algoritmo gera um modelo de mineração de dados criando uma série de

divisões na árvore. Essas divisões são representadas como nós, onde adiciona um

nó ao modelo toda vez que uma coluna de entrada é considerada significativamente

correlacionada a uma coluna previsível. A forma que o algoritmo determina uma

divisão depende do fato de ele estar prevendo uma coluna contínua ou discreta.

No caso dos atributos discretos, o algoritmo faz previsões fundadas nas

relações entre colunas de entrada em um conjunto de dados. Ele usa os valores,

conhecidos como estados, dessas colunas para prever os estados de uma coluna

que define como previsível. Especificamente, o algoritmo identifica as colunas de

entrada que são correlacionadas com a coluna previsível. Por exemplo, em um

cenário em que se deseja prever a tendência dos clientes em adquirir uma bicicleta,

se 9 de 10 clientes jovens comprarem uma bicicleta, mas apenas 2 de 10 clientes

mais velhos fizerem o mesmo, o algoritmo infere que idade é um bom indicador para

a compra de bicicletas. A árvore de decisão faz previsões com base nesta tendência

para obter um resultado específico.

No caso de atributos contínuos, o algoritmo usa a regressão linear para

determinar onde uma árvore de decisão se divide, se mais de uma coluna for

definida como previsível, ou se os dados de entrada tiverem uma tabela aninhada

configurada como previsível, o algoritmo criará uma árvore de decisão separada

para cada coluna previsível.

18

Prevendo variáveis discretas

A forma como o algoritmo da cria uma árvore para uma coluna previsível

discreta pode ser mostrada usando um histograma. O diagrama a seguir mostra um

histograma que esboça uma coluna previsível, Compradores de bicicleta, em

comparação com uma coluna de entrada, Idade. O histograma mostra que a idade

de uma pessoa ajuda a distinguir se ela comprará uma bicicleta.

A correlação que é mostrada no diagrama faz com que crie um novo nó no

modelo.

À medida que o algoritmo acrescenta novos nós em um modelo, uma

estrutura de árvore é formada. O nó superior da árvore indica a divisão da coluna

previsível para a média da população de clientes. Como o modelo continua

crescendo, o algoritmo considera todas as colunas.

19

Prevendo variáveis contínuas

Quando o algoritmo cria uma árvore com base em uma coluna previsível

contínua, cada nó contém uma fórmula de regressão. Uma divisão ocorre em um

ponto de não linearidade na fórmula de regressão. Por exemplo, considere o

seguinte diagrama:

O diagrama contém dados que podem ser modelados usando uma única linha

ou usando duas linhas conectadas. Porém, uma única linha não representaria os

dados de forma satisfatória. Mas, se você usar duas linhas, o modelo terá um

desempenho muito melhor ao aproximar dados. O ponto onde duas linhas se

encontram é o ponto de não linearidade e é onde o nó de um modelo de árvore de

decisão se dividiria. Por exemplo, o nó que corresponde ao ponto de não linearidade

no gráfico anterior poderia ser representado pelo diagrama a seguir. As duas

equações representam as equações de regressão para as duas linhas.

Um problema muito comum nos modelos de mineração de dados é que eles

se tornam muito sensíveis a diferenças pequenas nos dados de treinamento. Nesse

caso, nos referimos a eles como sobrecarregados ou muito treinados. Um modelo

sobrecarregado não pode ser generalizado para outros conjuntos de dados. Para

evitar a superajuste de um determinado conjunto de dados, o algoritmo usa técnicas

para controlar o crescimento da árvore.

20

3.4. Random Forest

O algoritmo Random Forest é uma combinação de predições de diversas

árvores em que cada árvore depende dos valores de um vetor independente,

amostrados aleatoriamente e com a mesma distribuição para todas as árvores da

floresta. Floresta é o que se denomina para uma série de árvores de decisão. Após

a geração de um grande número de árvores, são eleitas as classes com maior

número de votos (BREIMAN, 2001).

Vantagens:

É um dos algoritmos de aprendizagem mais precisos e para um

conjunto grande o suficiente que produz um classificador muito

precisos dados.

Funciona eficientemente em grandes bancos de dados.

Ele pode lidar com centenas de variáveis de entrada sem excluir

nenhuma.

Fornece estimativas de quais variáveis são importantes na

classificação.

Tem uma eficaz para estimar os dados em falta e manter a precisão

quando uma grande proporção dos dados é perdida método.

Calcula protótipos que dão informação sobre a relação entre as

variáveis e classificação.

Calcula proximidade entre pares de casos que podem ser usados em

grupos, valores extremos de localização, ou (ascendente) dando

excelentes vistas sobre os dados.

Ele fornece um método experimental para a detecção de interações de

variáveis.

Desvantagens:

Ao contrário de árvores de decisão, a classificação feita por Random

Forest é difícil de interpretar.

Para os dados, incluindo as variáveis categóricas com diferente

número de níveis, o modelo Random Forest é tendencioso em favor

dos atributos com mais níveis.

21

Se os dados contêm grupos de atributos correlacionados com

importância semelhante para o desempenho, grupos, em seguida,

menores são favorecidos em detrimento de grupos maiores.

3.5. Multi-Layer Perceptron

O perceptron, proposto por Frank Rosenblatt em 1958 (ROSENBLATT, Frank,

1958), é o modelo mais simples de uma RNA. Ele é formado por várias unidades de

processamento que são interligadas através de conexões, que são os pesos

sinápticos. O perceptron utiliza a formulação do neurônio de MCP e, portanto a sua

saída obedece a Lei do Tudo ou Nada. Dessa maneira a saída do perceptron é

determinada por uma função degrau que define quando o neurônio está ativo (saída

1) ou em repouso (saída 0). A Figura 2 apresenta uma arquitetura genérica para o

perceptron. Com a sua simplicidade o perceptron carrega uma grande limitação: ele

só é capaz de resolver problemas que sejam linearmente separáveis. Entende-se

por problemas linearmente separáveis, os problemas cuja solução pode ser obtida

pela separação de duas regiões por meio de uma reta (Figura 3). Como a maioria

dos problemas reais não são linearmente separáveis, é justificável uma melhoria

sobre o perceptron.

Figura 2 - Arquitetura do perceptron

22

Além disso, é importante frisar que o número de camadas intermediárias, a

quantidade de neurônios em cada camada, a função de ativação utilizada, a

semente para inicialização aleatória dos pesos, entre outros, são fatores importantes

para a arquitetura da rede, e que influenciarão no resultado final (BRAGA, Antônio,

CARVALHO, André e LUDEMIR, Teresa, 2000). Existe ainda uma grande

dificuldade neste tipo de rede: o treinamento. Efetuar a correção dos pesos dos

neurônios que se encontram na camada de entrada e na camada intermediária não

é uma tarefa trivial (BRAGA, Antônio, CARVALHO, André e LUDEMIR, Teresa,

2000). Neste contexto, existem vários algoritmos para treinar uma rede neural

(FAHLMAN, Scott, 1988; RIEDMILLER, Martin, 1994; HAGAN, Martin e MENHAJ,

Mohammad, 1994). Neste trabalho, além do algoritmo baseado em SIA que é

proposto, foi utilizado também o algoritmo backpropagation.

Uma rede perceptron de múltiplas camadas (MLP), com uma função de

ativação não linear na camada escondida, representa uma generalização do

perceptron, ou seja, é formada por múltiplas camadas de neurônios perceptron. Uma

Classe 1 = Classe 2 = Y1 = f(net1) Ys = f(nets) ws0 ws1 ws2 wsn w1n 27 ESCOLA

POLITÉCNICA DE PERNAMBUCO rede MLP é formada por uma camada de

entrada, uma ou mais camadas intermediárias (também chamadas de camadas

escondidas/ocultas) e uma camada de saída. A utilização de uma camada

Figura 3 - Exemplo de problema linearmente separável

23

intermediária, com função de ativação não linear, tal qual a sigmóide logística

(Figura 4), aumenta o poder computacional das redes MLP (BRAGA, Antônio,

CARVALHO, André e LUDEMIR, Teresa, 2000) e torna possível para a rede a

aproximação de qualquer função contínua (CYBENKO, George, 1989). Já a

utilização de duas camadas intermediárias permite a aproximação de qualquer

função matemática (CYBENKO, George, 1988). Por essa razão, as redes MLP são

conhecidas como uma técnica aproximadora universal de funções. A Figura 4 ilustra

a arquitetura de uma rede MLP com duas camadas intermediárias (HAYKIN, Simon,

2001).

Figura 4 - Arquitetura de uma rede MLP com duas camadas intermediárias

3.6. Validação Cruzada de k-pastas Estratificada

A tarefa de validação é um processo de determinação do grau de

confiabilidade do modelo construído em relação aos dados apresentados, onde a

metodologia adotada neste projeto foi a validação cruzada com k-folds.

No método de validação cruzada é uma técnica para avaliar a capacidade de

generalização de um modelo, a partir de um conjunto de dados. Esta técnica é

amplamente empregada em problemas onde o objetivo da modelagem é a predição.

Busca-se então estimar o quão preciso é este modelo na prática, ou seja, o seu

desempenho para um novo conjunto de dados.

O conceito central das técnicas de validação cruzada é o particionamento do

conjunto de dados em subconjuntos mutualmente exclusivos, e posteriormente,

utiliza-se alguns destes subconjuntos para a estimação dos parâmetros

https://pt.wikipedia.org/wiki/Modelo_(matem%C3%A1tica)


24

do modelo (dados de treinamento) e o restante dos subconjuntos (dados de

validação ou de teste) são empregados na validação do modelo.

O método de validação cruzada denominado k-fold consiste em dividir o

conjunto total de dados em k subconjuntos mutuamente exclusivos do mesmo

tamanho e, a partir disto, um subconjunto é utilizado para teste e os k-1 restantes

são utilizados para estimação dos parâmetros e calcula-se a acurácia do modelo.

Este processo é realizado k vezes alternando de forma circular o subconjunto de

teste. A figura 5 mostra o esquema realizado pelo k-fold.

Figura 5 - A figura apresenta o funcionamento do método de validação cruzada para 4 subconjuntos

Ao final das k iterações calcula-se a acurácia sobre os erros encontrados,

através da equação descrita anteriormente, obtendo assim uma medida mais

confiável sobre a capacidade do modelo de representar o processo gerador dos

dados.

3.7. Métricas para Avaliação dos Modelos

Acurácia e matriz de confusão

A avaliação da acurácia e precisão de mapas possibilitam aumentar a

qualidade das informações do mesmo, identificando e corrigindo as fontes de erro,

possibilitando comprar técnicas distintas, algoritmos, análises ou classificadores e

testar qual é o melhor. É fundamental e necessário que medidas de qualidade sejam

conhecidas em informações obtidas a partir, por exemplo, do sensoriamento remoto.





25

Segundo Congalton (1991) uma das técnicas mais utilizadas na realização de

avaliação de acurácia da classificação de dados de sensoriamento remoto é o

emprego da matriz de erro, também conhecida como matriz de confusão. A matriz

de confusão pode ser usada como ponto de partida para uma série de técnicas

estatísticas descritivas e analíticas, é uma matriz quadrada de números definidos em

linhas e colunas que expressam o número de unidades da amostra (pixels, grupos

de pixels ou polígonos) atribuído a uma categoria particular relativo à categoria atual,

conforme foi verificado em campo. Geralmente, as colunas representam os dados de

referência, enquanto as linhas representam a classificação gerada a partir dos dados

de sensoriamento remoto

A matriz de erro permite o uso de técnicas de estatística analítica como as

técnicas discretas multivariadas e tem sido utilizada na realização de testes

estatísticos sobre a classificação da acurácia de dados digitais e de sensoriamento

remoto. Técnicas discretas multivariadas são apropriadas, porque os dados de

sensoriamento remoto são discretos ao invés de contínuos. Os dados também não

são distribuídos de forma binomial ou polinomial ao invés de distribuídos de forma

normal. Uma técnica discreta multivariada de uso em avaliação de acurácia, que é

uma estimativa KAPPA e uma medida de concordância ou acurácia é de acordo com

a Equação 1:

Equação 1 - Estimativa KAPPA

Onde, r é o número de linhas na matriz Xii é o número de observações na

linha i coluna i, respectivamente e N é o número total de observações (BISHOP et al.

1975 apud CONGALTON, 1991).

A avaliação dos resultados do modelo de classificação é obtida por meio de

contagem das classificações corretas e incorretas do conjunto de teste. As

contagens são estruturadas na forma de uma tabela chamada matriz confusão. É

possível medir a acurácia e a taxa de erros diante dos dados da matriz.

26

Tabela 1 - Matriz confusão

A matriz confusão, conforme apresentada na Tabela 1, indica o número de

instancias classificadas corretamente pela diagonal principal. As linhas

compreendem os rótulos com suas classificações isenta de erros possui f10 e f01

igual a zero. As equações podem ser deduzidas da matriz confusão. A acurácia

pode ser entendida como o quão perto de uma classificação isenta de erros o

aprendizado foi. A taxa de erro contabiliza os erros de classificação e o número real

de instancias dado um rótulo escolhido. O recaal pode ser entendido como a razão

entre o número de casos avaliados como corretamente classificados e o número

total de casos previstos dado um certo rotulo, conforme a equação 2.

Equação 2 - Cálculo das métricas

Curva ROC

Receiver Operating Characteristic (ROC) Para técnicas que produzem saídas

contínuas, a decisão binária é tomada a partir de um limiar, abaixo do qual a decisão

é feita para uma classe ou outra. Porém, a definição deste limiar é influenciada de

acordo com o objetivo do problema, levando-se em consideração, geralmente, que

os custos dos erros são diferentes para cada classe (Adeodato & Monteiro, 2004).

27

Para o estudo foi utilizada uma métrica que é independente deste limiar. A métrica

escolhida foi a área sobre a curva ROC. Esta métrica tem sido utilizada em

importantes competições internacionais como a Pacific-Asia Knowledge Discovery

and Data Mining Conference (PKDD) 2007. A curva ROC é uma ferramenta

poderosa para avaliação de modelos. A análise é feita por meio de um método

gráfico simples e robusto, o qual permite estudar a variação da sensibilidade e

especificidade do modelo, para diferentes valores de ponto de corte (Provost &

Fawcett, 1998) e (Fawcett, 2003). As curvas ROC mostram a relação das taxas de

falsos positivos (FP) e verdadeiros positivos (VP) através da variação de um limiar.

Esta relação prediz o comportamento dos classificadores, independentemente dos

custos e da distribuição das classes. Numa curva ROC, o eixo das ordenadas (y)

representa VP e o eixo das abscissas (x) representa FP.

Para cada ponto de corte, a sensibilidade e o complemento da especificidade

(1 – especificidade) são calculados e colocados um em cada eixo de um gráfico

bidimensional, produzindo a curva ROC. A sensibilidade de um sistema de

classificação é calculada a partir da razão entre os verdadeiros positivos sobre a

soma dos verdadeiros 8 positivos e falsos negativos, e a especificidade é calculada

a partir da razão entre os verdadeiros negativos sobre a soma dos verdadeiros

negativos e falsos positivos. A figura 6 representa um exemplo da curva ROC.

Figura 6 - Exemplo de curva ROC

28

3.8. Resumo

A acurácia é a proporção de predições corretas, sem levar em consideração o

que é positivo e o que é negativo. Esta medida é altamente suscetível a

desbalanceamentos do conjunto de dados e pode facilmente induzir a uma

conclusão errada sobre o desempenho do sistema. A matriz confusão é uma

ferramenta padrão para avaliação de modelos estatísticos. A curva ROC são para

técnicas que produzem saídas contínuas, do qual a decisão é feita para uma classe

ou outra.

4. Arquitetura da Solução Proposta

4.1. Variáveis Disponíveis para a Modelagem

Na tabela 2 são apresentadas todas as variáveis, assim como uma descrição sucinta do seu significado.

Descrição das variáveis Ano de

Fabricação Ano de Fabricação do Veiculo

Bônus do Veiculo É um desconto concedido ao segurado na renovação do

seguro que aumenta progressivamente caso não haja sinistro na vigência da apólice anterior.

Zero KM Se o carro é Zero ou não

Tipo de Renovação

BARE Se o segurado já é

nosso

NOVO Se é um novo

segurado

CONG

Se é uma renovação vinda de outra

seguradora

Tipo de Corretor Banco

Corretor que fica no banco

Extra Banco Corretor que não fica

no Banco Descrição do tipo

de veiculo

Classificação do Veículo Configuração do

veiculo

Marca do Veiculo

Tipo de Veiculo

Tipo de Seguro Tipo de renovação

29

Descrição UF

Multicalculo Se o segurado utilizou a plataforma de multicalculo,

onde se pesquisa preços de todas as seguradoras Score Rating interno do perfil do segurado

Canal

Mercado Renovação dos

Segurados de fora

Funcionário Renovação de Funcionários

Rede Renovação dos

segurados da Bradesco Perfil estado civil Estado Civil

Perfil Idade Idade Idade do veiculo Idade do veiculo Faixa da idade do

veiculo Faixa da Idade

Tipo de Sistema Tele/Contrato

Alguns casos onde ganha desconto

Individual O segurado faz de

forma convencional Idade do veículo

Mod Cluster de idade do veiculo Perfil idade Mod Cluster de Idade Bônus Mod Cluster de Bônus Região Mod Cluster da Região Score Corretor Rating interno do perfil do corretor Renova Variável resposta Variação do

preço

Quanto variou ano passado com esse ano. Está em porcentagem.

Perfil do segurado Estado civil + Sexo

Período

Período de análise

A renovar Variável que colocamos para começar a fazer as analises, todos estão propensos a renovação

Tabela 2 - Descrição das variáveis

30

O estudo foi realizado na base de dados que contém 255.966 mil segurados

no período de janeiro a dezembro de 2015.

Definição da taxa de churn para uma empresa é obter uma boa projeção e

estimativas de resultados para o andamento saudável empresarial. Com essa

definição forte nos permite saber a importância do estudo.

A taxa de Churn é uma métrica fundamental para alguns segmentos de

negócio acompanharem o percentual de clientes que cancelaram o serviço, trata-se

de um indicador chave para qualquer organização. Quando se refere a empresas

com esse tipo de organização o Churn é um aliado especialmente quando há um

mercado competitivo com outros concorrentes locais e globais.

4.2. Passo-a-Passo da Solução Proposta

A figura 7 ilustra os passos necessários para as análises expressas no

próximo capítulo. A seguir são explicitados o passo-a-passo realizado.

Figura 7 - Passo-a-Passso do procedimento

31

Pré-Processamento

Analisar as variáveis visando à verificação possíveis inconsistências em

termos de níveis em uma variável do tipo fator, correção de informações faltantes e

ajuste de algumas variáveis. Exclusão ou criação de novas variáveis para o modelo

procurando analisar as variáveis e possíveis Desdobrando tornando uma variável

com duas informações e categorizar variáveis contínuas.

Inferência

A inferência inicia com a formação de k-pastas para a validação cruzada (o K-

fold cross-validation estratificado pela variável renova).

No K-fold cross-validation, a amostra original é aleatoriamente dividida em k

sub-amostras. Dessas k sub-amostras, uma sub-amostra única é mantida como

dado de validação para testar o modelo, e as k−1 sub-amostras restantes são

usadas como dados de treinamento. O processo de validação cruzada é então

repetido k vezes (os folds), com cada uma das k sub-amostras utilizadas exatamente

uma vez como dado de validação. Os K resultados, em seguida, são usados para

gerar uma média (ou outra métrica) para produzir uma estimativa única. A vantagem

deste método ser repetido sobre sub-amostragem aleatórias, é que todas as sub-

amostras são utilizadas tanto para treinamento e validação e cada qual é usada para

a validação exatamente uma vez. O método 5-fold cross-validation é comumente

utilizado, mas em geral k continua a ser um parâmetro. Iremos Adotar k=10.

Classificadores Baselines, tais como: Naive Bayes e Regressão Logística com

StepWise (Backward and Forward) são usados, e comparados com os

classificadores concorrentes, tais como: Árvore de Classificação, Randon Forest e

MLP. Com isso podemos fazer a comparação do modelo de como é feito hoje e se

podemos desenvolver.

Pós-Processamento

Após todo o processo de análise exploratória e inferência nos dados iremos

analisar os relatórios gerados com os resultados descrevendo a melhor abordagem

encontrada em termos de métricas:

Acurácia, Alarmes Falsos e Defeituosos, Curva ROC

Custo computacional x Celeridade no Resultado

Facilidade de implementação no dia-a-dia

32

Com as métricas em mãos iremos gerar a análise de estresse no portfólio de

clientes via simulação Monte Carlo assumindo uma distribuição Poisson Binomial,

cujo parâmetro p de cada cliente é dado pelo output do melhor classificados

encontrado.

4.3. Resumo

Dado as variáveis selecionadas o primeiro passo é as análises exploratórias,

terá exclusão ou criação de novas variáveis, com isso iremos aplicar a validação

cruzada k-fold-cv. Ao elaborar os classificadores e comparara-los o próximo passo

para ter certeza da escolha será aplicar algumas métricas para a decisão final do

melhor modelo.

5. Resultados e Discussões

5.1. Análise Exploratória e de Seleção de Variáveis

Analise das principais variáveis que iremos utilizar no modelo. A interpretação

desse gráfico vem da densidade com a variável variação final, representando a cor

azul como segurados que renovaram e rosa como segurados que não renovaram.

33

ZERO KM

Figura 8 - Análise da variação pela variável Zero KM

Podemos interpretar, a Figura 8, da seguinte forma, para os segurados que

Renovaram (Cor azul), entendemos que a maioria dos casos estão alocados na

variação zero, onde não teve muita alteração no valor final e varia relativamente

pouco para mais, já os que não Renovaram sua variação é maior para mais, tanto

para carro sendo Zero KM ou não.

A mesma interpretação do gráfico serve para as outras variáveis que estamos

analisando.

34

TIPO DE RENOVAÇÃO

Figura 9 - Análise da variação pela variável Tipo de Renovação

Podemos interpretar, a Figura 9, que para o tipo de renovação BARE o

segurado tem uma variação do preço mais para mais, já para o tipo de renovação

CONG e NOVO podemos visualizar que como teve uma variação para mais, pode

ter sido um dos motivos para o segurado desistir de ficar na seguradora, não sendo

o principal motivo.

Para o tipo de renovação, temos as variáveis BARE, CONG e NOVO, que

significa:

BARE – São veículos que iniciaram na seguradora e passa por uma

renovação.

CONG – São veículos que são renovação mas vem com histórico de

outra seguradora.

NOVO – São veículos novos e pela primeira vez entram na seguradora.

35

BÔNUS

Figura 10 - Análise da variação pela variável Bônus

Classe de bônus é um desconto progressivo oferecido

pelas seguradoras para os segurados que renovam o seguro sem ter sofrido

nenhum sinistro na vigência anterior.

É um indicador de experiência do seguro, que é considerado na composição

do preço da renovação da apólice. Anualmente, o bônus aumenta na renovação da

apólice.

Bônus progressivo para renovações sem sinistros.

Vinculado ao segurado e não ao veículo ou à seguradora.

Você só perde se tiver sinistro (parcial, total ou terceiros) ou se renovar

fora do prazo.

Não perde se usar coberturas adicionais e assistências.

Como na explicação, Bônus 0 é um cliente que fez o seguro pela primeira

vez, a cada renovação o bônus aumenta. Podemos interpretar esse gráfico que

clientes de bônus zero para não renovar, além de outros motivos, se influenciam

pelo preço, mas há uma tendência de quanto maior seu bônus mais confortável fica

o segurado em continuar com a mesma seguradora (Figura 10).

https://www.bidu.com.br/seguradoras/

36

REGIÃO

Figura 11 - Análise da variação pela variável Região

A análise do gráfico para a variável Região é que em alguns lugares as

variações podem agravar mais que em outros, vemos isso, na figura 11, na região

Sul, onde os que não renovaram o seguro se encontram com uma variação do preço

acima.

A região foi agrupada da seguinte forma:

CONO – Centro Oeste e Norte

DFGO – Distrito Federal e Goiás

NORD – Nordeste

SPC – São Paulo Capital

SPI – São Paulo Interior

SUDE – Sudeste

SUL - Sul

37

PERÍODO

Figura 12 - Análise da variação pela variável Período

O período é feito com o final de vigência da apólice, onde acontece a

renovação do segurado. Em alguns períodos podem ocorrer algumas campanhas

ocasionando descontos ou agravos como podemos ver na figura 12.

TIPO CONTRATO COM TIPO DE RENOVAÇÃO

Figura 13 - Análise da variação pelas variáveis Contrato com Tipo de Renovação

38

Foi feito uma variável cruzada utilizando tipo de sistema e tipo de renovação

figura 13.

Individual – São seguros de pessoas avulsas.

Tele/Contrato – São seguros feitos com parâmetros especiais. Contratos

acordados com empresas ou funcionários que recebem uma atenção diferenciada.

5.2. Comparação dos Modelos de Classificação

Resultados para os classificadores, média de 5-fold-cv, com os modelos

usando todas as variáveis disponíveis (Tabela 3).

Classificador Acurácia AUC Falsos

Positivos Falsos

Negativos Tempo para Treinar (s)

Árvore de Classificação 0.6704 0.6582 0.7614 0.0945 2.8

Naive Bayes 0.6406 0.6495 0.5625 0.2488 0.86

Random Forest 0.6895 0.6987 0.67936 0.1096 2964

Regressão Logística 0.6740 0.6658 0.7535 0.0932 1.62

MLP 0.6805 0.6774 0.7740 0.0720 64.96 Tabela 3 - Resultado para os Classificadores

39

O primeiro gráfico acima (Figura 14) representa como cada classificador está

referente a acurácia, o classificador Random Forest obteve a melhor acurácia que os

outros modelos, em segundo fica o MLP e em terceiro a Regressão Logística.

O segundo gráfico (Figura 14) demonstra como os classificadores se

comportam com o AUC (Área sob a curva ROC), com o mesmo resultado da

acurácia, com o Random Forest em primeiro e MLP e Regressão Logística em

segundo e terceiro lugar.

Figura 14 - Resultado da acurácia e AUC

40

Na figura 15 apresentam dois gráficos que representam as taxas de falsos

positivos e faltos negativos, nesse momento temos que ter consciência de qual será

o que menos afeta no negócio, nesse ponto pode-se dizer que seria melhor ter a

taxa do falso negativo maior do que o inverso.

Figura 15 - Resultado Taxas de Falsos Positivos e Negativos

41

O gráfico acima apresenta a curva ROC (Figura 16), Sensibilidade e

Especificidade, pode-se ter a mesma interpretação com os resultados anteriores,

visto que Random Forest, MLP e Regressão logística obtém as maiores curvas,

representando as melhores opções de escolha.

Resultados abaixo utilizando método de seleção de variáveis Forward (FS) e

Backward Selection (BS)

Classificador Acurácia AUC Falsos

Positivos Falsos

Negativos Tempo para Treinar (s)

Naive Bayes (FS) 0.6538 0.5289 0.9233 0.0322 213 Regressão Logística (FS) 0.6497 0.5159 0.9751 0.0103 510 MLP (FS) 0.6476 0.5000 1.0000 0.0000 39

Naive Bayes (BS) 0.6698 0.6371 0.8066 0.0710 2,317 Regressão Logística (BS) 0.6798 0.6766 0.7828 0.0684 10,619 MLP (BS) 0.6713 0.6553 0.7848 0.0804 568

Tabela 4 - Resultado para os Classificadores com método de seleção de variáveis

Na tabela 4 apresenta que foram feitos a seleção de variáveis dos

classificadores Naive Bayes. Regressão Logística e MLP, os classificadores Randon

Figura 16 - Resultado da Curva ROC

42

Forest e Árvore de Classificação não estão acima pois internamente fazem a

seleção das variáveis automaticamente enquanto os outros necessitam desse

passo.

Na figura 17 mostram os gráficos onde foi utilizado o método de seleção de

variáveis Backward Selection, mostram que os classificadores melhoram seus

resultados, tanto com o valor da acurácia quanto do AUC.

Esta análise indica que após a seleção de variáveis em primeiro lugar ficaria

MLP, em segundo Regressão Logística e em terceiro o Naive Bayes.

Figura 17 - Resultado da AUC e acurácia

43

Apos o método de seleção de variaveis foi feito o gráfico da curva ROC, como

mostra na figura 18, pode-se analisar que com o méotodo Forward todos os

resultados estão classificados como uma escolha aleatória, visto que estão todos

com a curva em volta dos 50%.

Figura 18 - Resultado da Curva ROC

44

O método de seleção Backward apresentou melhor forma de seleção do que

o Forward, onde podemos analisar que as curvas estão mais abertas entorno de

60%.

Com esse resultado pode-se descartar a possibilidade de utilizar o método

Forward, a melhor escolha seria o classificador MLP com o método de seleção

Backward.

5.3. Resumo

Dado as análises dos resultados, os estudos apontam que após a seleção de

variáveis pelo método Baseline melhora os resultados, comparando com o estudo

anterior, sem o método de seleção de variáveis.

Mas mesmo com a aplicação do método de seleção das variáveis concluímos

que o classificador Random Forest apresentou melhores resultados superando nos

testes de acurácia e curva ROC.

No momento atual o classificador utilizado é a Regressão logística que dentre

os resultados ficou na terceira posição na classificação.

45

6. CONCLUSÃO

A partir do conjunto de dados estudado, foram testados cinco modelos,

Regressão Logística binária, Random Forest, Árvore de Classificação, MLP e Naive

Bayes pelas métricas de acurácia, AUC, Curva ROC e matriz confusão

A decisão de qual método a ser aplicado foi utilizada uma base de janeiro a

dezembro de 2015 no total de 255.966 mil segurados. Após os testes utilizando o

método de k-fold-cv com todos os modelos, usando todas as variáveis e utilizando o

método de seleção de variáveis Forward (FS) e Backward Selection (BS) somente

para os modelos que não possuem internamente a seleção das variáveis

automaticamente, os que possuem são Randon Forest e Árvore de Classificação.

Após todos os resultados da acurácia, Curva ROC e AUC dos resultados, o

melhor classificador foi o Random Forest.

46

7. Referências Bibliográficas

Breiman L, Friedman JH, Olshen RA, Stone CJ (1984). Classification and Regression Trees. Wadsworth, California.

Carvalho, J. L. (2006). Regulamentação na indústria de seguros: reservas técnicas, derivativos e seguro apólice. Revista Brasileira de Risco e Seguro, 1(2), 1-25.

Deloitte. (2011) A indústria de seguros no Brasil: transformação e crescimento em um país de oportunidades. Deloitte: São Paulo.

Fernández-Delgado, M., Cernadas, E., Barro, S., & Amorim, D. (2014). Do we need hundreds of classifiers to solve real world classification problems. J. Mach. Learn. Res, 15(1), 3133-3181.

Ferreira, P. P. (2005). Modelos de precificação e ruína para seguros de curto prazo. Funenseg.

Hastie, T.J. Tibshirani, R. J., & Friedman, J. H. (2011). The elements of statistical learning: data mining, inference, and prediction. Springer.

Hothorn T, Hornik K, Zeileis A (2006). “Unbiased Recursive Partitioning: A Conditional Inference Framework.” Journal of Computational and Graphical Statistics, 15(3), 651–674.

Hosmer DW, Lemeshow S (2000). Applied Logistic Regression. 2nd edition. John Wiley & Sons, New York.

Haykin, S. S. (2000). Redes neurais artificiais: princípio e prática. 2ª Edição, Bookman, São Paulo, Brasil.

J. Burez, D. Van den Poel, Handling class imbalance in customer churn prediction, Expert Systems with Applications, Volume 36, Issue 3, Part 1, April 2009, Pages 4626-4636.

John Hadden, Ashutosh Tiwari, Rajkumar Roy, Dymitr Ruta, Computer assisted customer churn management: State-of-the-art and future trends, Computers & Operations Research, Volume 34, Issue 10, October 2007, Pages 2902-2917.

47

Macedo, M. D. S., FARIAS DA SILVA, F., & MELO SANTOS, R. (2006). Análise do mercado de seguros no Brasil: uma visão do desempenho organizacional das seguradoras no ano de 2003. Revista Contabilidade & Finanças. Edição Especial–Atuária, 88-100.

Marcin Owczarczuk, Churn models for prepaid customers in the cellular telecommunication industry using large data marts, Expert Systems with Applications, Volume 37, Issue 6, June 2010, Pages 4710-4712.

Michael, B., & Gordon, L. (2000). Mastering data mining: The art and science of customer relationship management. New York: John Wiley & Sons.

Download - Bruna Conde Perez Brum - BRUNA C...Bruna Conde Perez Brum Estimação da Taxa de Churn para Clientes de uma Seguradora baseado em Técnicas de Reconhecimento de Padrões Monografia

Top Related