pontifÍcia universidade catÓlica de sÃo paulo – puc -sp ... lacerda d… · de redes neurais,...

71
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC-SP Mestrado em Tecnologias da Inteligência e Design Digital Valter Lacerda de Andrade Junior Utilização de Técnicas de Dados Não Estruturados para Desenvolvimento de Modelos Aplicados ao Ciclo de Crédito São Paulo 2014

Upload: others

Post on 12-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP

Mestrado em Tecnologias da Inteligência e Design Di gital

Valter Lacerda de Andrade Junior

Utilização de Técnicas de Dados Não Estruturados pa ra Desenvolvimento de Modelos Aplicados ao Ciclo de Crédito

São Paulo 2014

Page 2: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

VALTER LACERDA DE ANDRADE JUNIOR

Utilização de Técnicas de Dados Não Estruturados pa ra Desenvolvimento de Modelos Aplicados ao Ciclo de Crédito

Mestrado em Tecnologias da Inteligência e Design Di gital

Dissertação apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo – PUC-SP como exigência parcial para obtenção do título de Mestre em Comunicação e Semiótica. Orientador: Prof.-Dr. Nelson Peixoto Brissac

São Paulo 2014

Page 3: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO

A dissertação “Utilização de Técnicas de Dados Não Estruturados para

Desenvolvimento de Modelos Aplicados ao Ciclo de Crédito” apresentada à Banca

Examinadora da Pontifícia Universidade Católica de São Paulo, como exigência parcial

para obtenção do título de Mestre em Comunicação e Semiótica

De autoria de Valter Lacerda de Andrade Junior

Foi ____________________ (aprovada/reprovada)

BANCA EXAMINADORA

________________________________________________

Prof.-Dr.

________________________________________________

Prof.-Dr.

________________________________________________

Prof.-Dr.

São Paulo, ____ de __________________ de 2014.

Page 4: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

Para Milena, meu verdadeiro e único amor.

Page 5: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

AGRADECIMENTOS

Agradeço a meu orientador, Professor Nelson Peixoto Brissac, que me ajudou

no desenvolvimento deste trabalho e esteve sempre à disposição para conversar e

discutir pontos sobre o projeto.

Por último, e não menos importante, agradeço a minha mãe, irmãs e noiva, que

sempre estiveram a meu lado, apoiando, incentivando e dando forças para realizar este

trabalho, o qual sem essa ajuda não teria sido possível.

Page 6: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

RESUMO A necessidade de análise especializada de Mineração de Dados (Data Mining) em campos textuais e em outras informações não estruturadas estão, cada vez mais, presente nas instituições dos setores públicos e privados. Por meio de modelos probabilísticos e estudos analíticos, torna-se possível ampliar o entendimento sobre determinada fonte de informação. Nos últimos anos, devido ao avanço tecnológico, observa-se um crescimento exponencial na quantidade de informação produzida e acessada nas mídias virtuais (web e privada). Até 2003, a humanidade havia gerado, historicamente, um total de 5 exabytes de conteúdo; hoje estima-se que esse volume possa ser produzido em poucos dias. Assim, a partir desta crescente demanda identificada, este projeto visa trabalhar com modelos probabilísticos relacionados ao mercado financeiro com o intuito de analisar se os campos textuais e ilustrativos, ou informações não estruturadas, contidas dentro do ambiente de negócio, podem prever certos comportamentos de clientes. Parte-se do pressuposto que, no ambiente corporativo e na web, existem informações de grande valor e que, devido à complexidade e falta de estrutura, não são consideradas em estudos probabilísticos. Isso pode representar vantagem competitiva e estratégica para o negócio, pois, por meio da análise da informação não estruturada, podem-se conhecer comportamentos e modos de interação do usuário nestes ambientes, proporcionando obter dados como perfil psicográfico e grau de satisfação. O corpus deste estudo constitui-se de resultados de experimentos efetuados no ambiente negocial de uma empresa do setor financeiro. Para as análises, foram aplicados conceitos estatísticos com viés semiótico. Entre as informações obtidas por esta pesquisa, verifica-se a compreensão crítica e aprofundada dos processos de análise textual.

Palavras-chave: Dados não estruturados; Mineração de Dados; Mineração de Textos; Cartão de Crédito.

Page 7: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

ABSTRACT

The need for expert assessment of Data Mining in textual data fields and other unstructured information is increasingly present in the public and private sector. Through probabilistic models and analytical studies, it is possible to broaden the understanding of a particular information source. In recent years, technology progress caused exponential growth of the information produced and accessed in the virtual media (web and private). It is estimated that by 2003 humanity had historically generated a total of 5 exabytes of content; today that asset volume can be produced in a few days. With the increasing demand, this project aims to work with probabilistic models related to the financial market in order to check whether the textual data fields, or unstructured information, contained within the business environment, can predict certain customers’ behaviors. It is assumed that in the corporate environment and on the web, there is great valuable information that, due to the complexity and lack of structure, they are barely considered in probabilistic studies. This material may represent competitive and strategic advantage for business, so analyzing unstructured information one can acquire important data on behaviors and mode of user interaction in the environment in which it operates, providing data as to obtain psychographic profile and satisfaction degree. The corpus of this study consists of the results of experiments made in negotiating environment of a financial company in São Paulo. On the foregoing analysis, it was applied statistical bias semiotic concepts. Among the findings of this study, it is possible to get a critical review and thorough understanding of the processes of textual data assessment.

Keywords: Unstructured data; Data Mining; Text Mining; Credit Card.

Page 8: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

LISTA DE FIGURAS

Figura 1 – Modelo de ciclo de crédito ............................................................................. 19

Figura 2 – Consumo das famílias (2º trim./2013) ........................................................... 22

Figura 3 – Participação regional do faturamento (2º trim./2013) .................................... 22

Figura 4 – Políticas de Crédito e Ações de Cobrança .................................................... 26

Figura 5 – Processo de Data Mining .............................................................................. 28

Figura 6 – Modelo CRISP-DM ........................................................................................ 34

Figura 7 – Fluxo de processamento do cartão de crédito .............................................. 37

Figura 8 – Teste K-S amostra treinamento .................................................................... 58

Figura 9 – Distribuição teste K-S .................................................................................... 58

Figura 10 – Teste de K-S amostra teste ......................................................................... 59

Figura 11 - Distribuição teste de K-S amostra teste ....................................................... 60

Figura 12 – Programa de implantação ........................................................................... 62

Page 9: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

LISTA DE TABELAS

Tabela 1 – Registros disponíveis para estudo................................................................ 39

Tabela 2 – Informações disponíveis no banco de dados ............................................... 40

Tabela 3 – Distribuição dos clientes por unidade federativa .......................................... 41

Tabela 4 – Frequência de palavras no documento ........................................................ 43

Tabela 5 – Distribuição relativa dos 100 trigramas mais frequentes na amostra ........... 48

Tabela 6 – Agrupamento de trigramas odds ratio .......................................................... 50

Tabela 7 – Parâmetros do algoritmo pós-regressão ...................................................... 56

Tabela 8 – Modelo aplicado a todas as observações ..................................................... 61

LISTA DE QUADROS

Quadro 1 – Exemplo de trigramas .................................................................................. 47

Page 10: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

LISTA DE SIGLAS

BI Business Intelligence

POS Point of Sale

CRM Customer Relationship Management

MD Mineração de Dados

PLN Processamento de Linguagem Natural

SQL Structured Query Language

UF Unidade Federativa

Nltk Natural language toolkit

Python Linguagem de programação Open Source

K-S Teste de Kolmogorov-Smirnov

SMS Short Message Service

C# Linguagem de Programação Microsoft

Page 11: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

SUMÁRIO

1 INTRODUÇÃO .................................................................................................. 11

1.1 JUSTIFICATIVA ................................................................................................ 13

1.2 OBJETIVOS ...................................................................................................... 14

1.3 METODOLOGIA ............................................................................................... 15

1.4 ESTRUTURA .................................................................................................... 16

2 SISTEMA FINANCEIRO NO BRASIL ...................... ........................................ 17

2.1 MERCADO DE CRÉDITO NO BRASIL ............................................................. 18

2.2 CARTÕES DE CRÉDITO NO BRASIL .............................................................. 20

2.2.1 Funcionamento do cartão de crédito ................ ............................................ 23

2.3 PROCESSOS DE COBRANÇA NO BRASIL .................................................... 25

3 DATA MINING ....................................... ........................................................... 27

3.1 TEXT MINING ................................................................................................... 29

4 METODOLOGIA CRISP-DM .............................. .............................................. 33

4.1 ENTENDIMENTO DO NEGÓCIO ..................................................................... 34

4.1.1 Cenário atual ..................................... .............................................................. 35

4.1.2 Definição do mercado-alvo do projeto .............. ............................................ 37

4.2 ENTENDIMENTO DOS DADOS ....................................................................... 38

4.2.1 Coleta dos dados disponíveis ...................... .................................................. 39

4.2.2 Informações disponíveis no banco de dados ......... ...................................... 40

4.3 PREPARAÇÃO DOS DADOS ........................................................................... 42

4.3.1 Stemming .......................................... ............................................................... 44

4.3.2 Stopwords ......................................... ............................................................... 44

4.3.3 N-gramas? ......................................... .............................................................. 45

4.3.4 Transformação dos dados ........................... .................................................. 51

4.4 MODELAGEM DE DADOS ............................................................................... 52

4.4.1 Regressão logística ............................... ......................................................... 53

4.5 AVALIAÇÃO E RESULTADOS ......................................................................... 57

4.5.1 Kolmogorov-Smirnov ................................ ...................................................... 57

4.6 IMPLANTAÇÃO ................................................................................................ 60

5 CONCLUSÃO ......................................... .......................................................... 63

REFERÊNCIAS .............................................................................................................. 65

APÊNDICE A – Lista de stopwords (“palavras de parad a”) ..................................... 69

Page 12: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

11

1 INTRODUÇÃO

A detecção de padrões comportamentais do consumidor é preocupação cada

vez mais importante em diversos setores da economia, especialmente com relação à

vantagem competitiva, pois permite aos gestores de negócio conhecer melhor o

público-alvo e entender os fatores que levam os clientes a tomar decisões perante um

serviço ou produto.

O processo de extração de conhecimento em banco de dados, conhecido como

Knowledge Discovery in Database (KDD), surgiu com o objetivo de oferecer suporte a

diversas áreas de conhecimento (HAND; MANINILA; SMYTH, 2001). Trata-se de um

tipo de análise normalmente efetuada com base em informações que procuram

determinar as características do público obtidas no início de algum relacionamento do

cliente-empresa, como dados qualitativos e quantitativos que definem o perfil do cliente

dentro do negócio. Esses dados normalmente são obtidos quando da aquisição de um

produto ou serviço que o cliente fornece ao iniciar o relacionamento comercial com o

setor privado empresas ou mesmo com órgãos oficiais. Essas informações uma vez

adquiridas e armazenadas permitem responder a perguntas ligadas à identificação do

perfil de consumo de cliente, evolução de produtos e serviços, construção de algoritmos

para predição de eventos entre outras possibilidades (KURGAN; MUSILEK, 2006).

Para realizar este tipo de estudo, existem algoritmos que envolvem conceitos

de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem

distinguir a diferença entre os clientes de acordo com as características de cada um

(HAN; KAMBER, 2006, p. 285). Embora a compreensão dos resultados desses

algoritmos seja importante e nos últimos anos venha sendo utilizada continuamente em

Page 13: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

12

diversos setores da economia com resultados positivos, observa-se com a

disseminação da internet e redes sociais a necessidade de considerar o momento de

vida ou perfil comportamental dos clientes para distinguir e entender com mais

eficiência as necessidades de cada cliente perante o negócio. Este tipo de estudo

demanda informações que permitam extrair indícios comportamentais relativos ao

gerenciamento de clientes dentro de empresas, especificamente neste estudo, do setor

financeiro. Os dados obtidos no início do relacionamento do cliente não permitem

encontrar padrões específicos do contato do cliente, pois não possuem as

características que levam o cliente a efetuar algum tipo de ação.

A partir dessa premissa, pretendem-se efetuar análises em campos de texto,

conhecidos como dados não estruturados, que por definição são quaisquer

documentos, arquivos, gráficos ou textos que não tenha sido estruturado em linhas e

colunas ou registros.

Para este estudo, busca-se um tipo de informação que pode ser encontrada em

sistemas de informações gerenciais (privado) e na internet (público) e permite visualizar

padrões comportamentais relativos a interações sociais entre os usuários do sistema

(HAN; KAMBER, 2006, p. 614) com clientes que sofrem a ação direta dos responsáveis

por efetuar a manutenção do risco do negócio dentro do ambiente de crédito e

cobrança.

As análises de informações não estruturadas constituem um conjunto de tarefas

complexas, pois exigem a extração do conhecimento cognitivo de um indivíduo para

cada registro deixado na internet ou em um sistema de informações gerenciais, além de

o volume de informações registradas para cada indivíduo ser extremamente grande, o

que pode ocasionar alto custo de processamento.

Page 14: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

13

Neste trabalho, o ponto enfático é a análise individual de todos os documentos

não estruturados contidos em uma central de atendimento de clientes que estão

inadimplentes com o cartão de crédito, possibilitando a visualização de efeitos e

projeção, fornecendo um parecer natural sobre a decisão do cliente em efetuar uma

ação de pagamento em relação ao credor com quem se mantém inadimplente.

A análise de uma série de documentos, conectando a propensão do indivíduo

em efetuar o pagamento com a análise de dados relacionados a seu perfil cadastral,

permite entender como as técnicas de processamento de texto em conjunto com o perfil

dos devedores podem verificar os indícios que levam ou levariam os clientes a interagir

com o ambiente de cobrança e a possibilidade de efetuar ou não o pagamento do

débito.

1.1 JUSTIFICATIVA

Atualmente, acredita-se que grande parte das informações contidas nas

empresas (85%) é “não estruturada”, ou seja, dentro do mundo de negócios existem

diversos documentos, arquivos e mídias digitais que trazem grande volume de

informações, armazenadas em sistemas gerenciadores de informação, que

normalmente não são utilizadas em estudos devido à complexidade de processamento

e padronização (BESS et al., 2003). Com esse tipo de informação em mãos, é possível

entender e buscar padrões mais específicos sobre os clientes de determinada

organização. Identificar padrões em campos textuais possibilita verificar com alguma

certeza quais ações levaram o indivíduo a interagir com o negócio e com isso entender

Page 15: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

14

o perfil do cliente do ponto de vista do contato, visando desenvolver algoritmos para

avaliação que, no momento, só pode ser feita por meio da interpretação humana.

Com base nos avanços tecnológicos, propõem-se utilizar trabalhos já efetuados

por outros pesquisadores no campos de Knowledge Discovery in Databases (KDD),

Técnicas de Pré-Processamento Textual (Text Mining), Identificação de Tokens e

Colocações, Remoção de Stopwords, Seleção de Unigrams e Multigrams relevantes,

Transformação de Dados e Data Mining Esses campos de pesquisa serão então

utilizados para resolver o problema de interpretação de termos e busca de padrões em

campos textuais de clientes inadimplentes com o cartão de crédito.

Por fim, a necessidade de executar esse tipo de aplicação se faz necessário

para propor uma forma automatizada de analisar os campos textuais relevantes dentro

de um ambiente virtual e utilizar o conhecimento gerado para prover inteligência e

conhecimento por meio de modelos utilizados em empresas que gerenciam processos

financeiros relacionados ao ciclo de crédito.

1.2 OBJETIVOS

O objetivo principal deste projeto é buscar desenvolver um algoritmo que

consiga distinguir clientes que possuem a propensão de efetuar pagamento de dívida

com determinada empresa do setor privado, com base em análise de informações

“estruturadas” e “não estruturadas” contidas no ambiente de negócio de uma empresa

da região central da cidade de São Paulo que atua no ramo há cinco anos.

Entre os objetivos secundários, que auxiliarão a realizar o objetivo principal,

buscam-se compreender os motivos que levaram o cliente a ter a ação de pagar e quais

Page 16: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

15

fatores foram possivelmente determinantes do ponto de vista comportamental para a

tomada dessa decisão. Também será analisado o sistema financeiro brasileiro, as

opções de crédito e especificamente o cartão de crédito, além do estudo de

metodologias de Mineração de Dados e mineração de textos, utilização de técnicas

estatísticas entre outras questões concernentes.

1.3 METODOLOGIA

A partir da revisão da literatura sobre o tema, com base em artigos, livros,

trabalhos acadêmicos de autores como Bess et al. (2003), Cornfield (1951), Lawrence

(1987), Lovins (1996), Rypley (1996), Sicsú (2009), entre outros, além de portais de

associações de crédito, instituições financeiras e outras, foi possível analisar o sistema

financeiro brasileiro, as ferramentas de análise de crédito, técnicas estatísticas como

Lógica Regressa e teste de Kolmogorov-Smirnov, além de processos de Data Mining e

Text Mining, com vista à implantação de um algoritmo que possa auxiliar as empresas

na correta avaliação do perfil do cliente usuário de cartão de crédito.

Uma instituição financeira da região central da cidade de São Paulo, no ramo

de cartão de crédito há cinco anos, foi utilizada para estudo de caso, sendo os dados

de cadastro de clientes disponibilizados ao pesquisador de modo a permitir elaborar um

plano para criação e execução do algoritmo proposto como objetivo do estudo.

O projeto busca uma solução de Data Mining capaz de categorizar tanto

consumidores com baixo como alto poder de quitar débitos. Tais clientes serão

agrupados de acordo com a semelhança do perfil dentro de classes de escore para

otimizar a interpretação dos resultados obtidos.

Page 17: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

16

Este projeto visa atender tanto empresas recuperadoras de crédito como atuar

no contato com o cliente pelas várias mídias e formas de comunicação atuais com o

objetivo de reduzir custos e aumentar receitas.

1.4 ESTRUTURA

O trabalho se inicia com a Introdução (Capítulo 1), que contextualiza e apresenta

o problema, os objetivos, a justificativa e a metodologia. No Capítulo 2, analisa-se o

sistema financeiros brasileiro, as opções de crédito e especificamente o cartão de

crédito. O Capítulo 3 estuda as técnicas de Data Mining e Text Mining. No Capítulo 4,

parte-se para o entendimento do negócio da empresa objeto deste estudo, em que se

expõe a metodologia utilizada, com a preparação e modelagem dos dados, avaliação

dos resultados e implantação do algoritmo. O trabalho encerra-se com a conclusão e a

lista de referências com as obras utilizadas para a fundamentação teórica do estudo.

Page 18: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

17

2 SISTEMA FINANCEIRO NO BRASIL

Segundo o Banco Central do Brasil (BCB, 2011), o sistema financeiro brasileiro

é constituído por um conjunto de instituições normativas, supervisoras e operacionais,

que possuem o foco na gestão da política monetária do governo federal com a função

de regular as entidades ligadas à atividade econômica. Essa composição possui

entidades supervisoras e operadoras que atuam no mercado nacional. De acordo com

o art. 192 da Constituição da República Federativa do Brasil (CRFB/1988):

O sistema financeiro nacional é estruturado para promover o desenvolvimento estruturado do País e a servir os interesses da coletividade, em todas as partes que o compõem, será regulado por leis complementares que disporão, inclusive, sobre a participação do capital estrangeiro nas instituições que o integram.

O sistema financeiro brasileiro teve início com a vinda da Família Real

portuguesa ao país, em 1808, quando foram criadas várias instituições culturais e

financeiras, entre elas o Banco do Brasil. A partir da CRFB/1988, o sistema sofreu

regulamentações e teve por força de lei como principais metas servir aos interesses da

coletividade e garantir a estabilidade econômica do país.

Com o crescimento e desenvolvimento do país ocorridos nas recentes décadas,

tanto os mercados, como a previdência privada, o crédito, o financiamento,

investimentos entre outros sistemas e ferramentas de gestão da economia passaram a

ganhar maior relevância e a exigir mais atenção por parte dos órgãos reguladores no

país, devido à importância quanto à estabilidade política e social.

Page 19: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

18

Em 2011, segundo dados do Relatório de Estabilidade Financeira do Banco

Central (BCB, 2012, p. 49), havia em atividade no país 2.218 instituições financeiras

autorizadas, com um total de 21.276 agências bancárias em todo o território.

Essa atenção em razão do crescimento do mercado financeiro em especial é

controlada por meio da virtualização e mutação da identidade do sistema a fim de

manter o próprio sistema financeiro do país.

O processo de virtualização do sistema financeiro é importante para o

desenvolvimento das políticas financeiras do país, pois possibilita controlar e

regulamentar os setores econômicos e desenvolver políticas governamentais para

acesso a crédito e financiamentos por diversas classes econômicas do país.

2.1 MERCADO DE CRÉDITO NO BRASIL

Dentro do Sistema Financeiro, a palavra “crédito” significa a capacidade

prevista que uma pessoa possui de retornar um investimento (empréstimo,

financiamento) sobre ele (PORTAL EDUCAÇÃO, 2013). A obtenção de crédito no Brasil

é geralmente concedida a uma pessoa por meio da análise de seu histórico dentro do

mercado e perfil socioeconômico. Na análise de crédito, verificam-se os registros

positivos (compras) e o comportamento do consumidor dentro do ambiente financeiro

para avaliar o risco associado ao perfil e tentar predizer o nível de risco e o valor a lhe

ser disponibilizado como crédito para consumo.

Segundo Lawrence (1987, p. 22), foi proposto pelo CitiGroup em 1982 um

modelo conceitual pelo qual foi possível entender o ciclo de crédito no Brasil e os

Page 20: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

19

elementos que estão envolvidos dentro desse processo. O ciclo é composto por sete

fases – planejamento do produto, iniciação ao crédito, manutenção de contas,

cobrança, perdas, informações gerenciais e gerenciamento de risco, que por si só

permitem entender a composição do modelo de ciclo de crédito praticado na economia,

conforme a Figura 1.

Figura 1 – Modelo de ciclo de crédito

Fonte: LAWRENCE (1987, p. 22)

De acordo com o modelo de ciclo de crédito exibido na Figura 1, observam-se

as principais fases encontradas em empresas gestoras de crédito, como segue.

• Planejamento do produto – nesta etapa do ciclo, tem-se tem como foco

entender em qual ambiente ou mercado o produto será lançado, observa-se o

ambiente legal e as concorrências possíveis do produto.

• Iniciação ao crédito – avalia-se o risco e observa-se o perfil dos clientes que

serão prospectados como target para garantir a sustentabilidade do negócio.

Page 21: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

20

• Manutenção de contas – esta fase do ciclo se ocupa dos passos de contratos

cujo crédito efetivamente o credor contraiu desde a realização do cadastro até a

quitação ou inadimplência do cliente.

• Cobrança – partindo de uma visão de negócios, esta etapa busca dimensionar a

capacidade mínima necessária para efetuar o ato de cobrar de acordo com a

quantidade de contratos inadimplentes dentro do negócio.

• Perda de crédito – o processo e o gerenciamento de perdas têm como principal

objetivo entender os motivos pelos quais os clientes estão gerando perdas para o

negócio.

No mercado de crédito e cobrança, é importante que a instituição financeira

saiba dimensionar a quantidade de capital que será disponibilizado e para que

público os recursos disponibilizados; o modelo proposto visa gerar recursos e etapas

que orientem e minimizem o risco operacional da instituição que oferta o crédito.

Do ponto de vista do usuário que solicita o recurso da instituição, é preciso

agir de forma orientada e consciente, precedendo a uma análise profunda da própria

situação visando entender os impactos da aquisição desse recurso dentro do

orçamento familiar (SME ToolKit, 2014).

2.2 CARTÕES DE CRÉDITO NO BRASIL

O empresário checo Hanus Tauber (precursor da implantação de cartões de

crédito no Brasil), em 1954, comprou nos Estados Unidos uma franquia da Diners Club,

Page 22: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

21

companhia de crédito, propondo sociedade na empresa de cartão de crédito com o

empresário Horácio Klabin. Assim, em 1956, o Diners chegou ao Brasil, sendo

inicialmente um cartão de compras e não exatamente um cartão de crédito, segundo a

Associação Brasileira das Empresas de Cartões de Crédito e Serviços (ABECS, 2012).

Em 1968, o Bradesco seria responsável pela emissão do primeiro cartão de crédito

brasileiro, o Elo, que funcionava apenas como representante da Visa no Brasil,

atendendo aos turistas estrangeiros portadores de cartões BankAmericard que

visitavam o país. Em 1971 foi fundada no Rio de Janeiro a Abecs.

Posteriormente, em 1974, a sede da Abecs foi transferida para São Paulo. Em

1984, a Credicard comprou a Diners Club do Brasil, sendo na década de 1990 lançado

do cartão de crédito internacional; em 1994, com a chegada do Plano Real, houve

grande aumento do crescimento do produto. Ao final de 2006, os cartões no Brasil

apresentavam ampla adoção de quase toda a população bancaria, somando 80 milhões

de cartões de crédito e 190 milhões de cartões de débito.

Segundo informações da Abecs, observa-se na Figura 2 que o consumo de

clientes que utilizam a modalidade crédito no Brasil continua em ascensão, ou seja, o

número de pessoas e o faturamento estão cada vez mais expressivos na economia, o

que permite pensar sobre os principais anseios desse público em relação ao produto e

serviços e qual o impacto desses clientes no mercado quando entram em situação de

inadimplentes.

Page 23: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

22

Figura 2 – Consumo das famílias (2º trim./2013)

Fonte: MONITOR ABECS (2014)

Figura 3 – Participação regional do faturamento (2º trim./2013)

Fonte: MONITOR ABECS (2014)

Observa-se na Figura 3, acima, a distribuição de faturamento por região dentro

do território nacional com a segmentação de consumo pelas modalidades de crédito e

débito, sendo possível constatar que a Região Sudeste representa grande parte do

faturamento nacional.

Page 24: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

23

2.2.1 Funcionamento do cartão de crédito

As operações de funcionamento de cartões de crédito envolvem cinco

participantes, como se descreve a seguir.

• Portador – interessado em adquirir bens ou contratar serviços pagando por meio

de cartão de crédito. Pode ser o titular da conta de cartão de crédito ou portador

do cartão adicional.

• Estabelecimento – interessado em vender ou prestar serviço recebendo o

pagamento feito pelos clientes por meio do cartão de crédito.

• Adquirente – responsável pela comunicação da transação entre o

estabelecimento e a bandeira. Para isso, aluga e mantém os equipamentos

usados pelos estabelecimentos como, por exemplo, o POS (point of sale). As

maiores adquirentes no Brasil são Redecard, Cielo (antiga Visanet Brasil),

Hipercard e Getnet.

• Bandeira – responsável pela comunicação da transação entre o adquirente e o

emissor do cartão de crédito. As maiores bandeiras no Brasil são Visa, Mastrear

e Hipercard. Para identificar qual é o emissor do cartão, as bandeiras usam os

seis primeiros números do cartão, chamados de bin-number.

• Emissor – instituição financeira, principalmente bancos, que emitem o cartão de

crédito, definem limite de compras, decidem se as transações são aprovadas,

emitem fatura para pagamento, cobram os titulares em caso de inadimplência e

oferecem produtos atrelados ao cartão como seguro, cartões adicionais e planos

de recompensas.

Page 25: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

24

Em uma transação, o estabelecimento passa ou insere o cartão em um

equipamento eletrônico que pode ser um POS (comum em pequenas lojas,

restaurantes e postos de gasolina) ou um equipamento integrado com o sistema do

estabelecimento (usado em supermercados e lojas de departamentos). Nesse momento

um funcionário do estabelecimento digita a opção de crédito ou débito, o número de

parcelas e o tipo de parcelamento (com ou sem juros). O equipamento se comunica

com o adquirente, que envia a transação para a bandeira, que, por sua vez, direciona

ao emissor. O emissor decide se aprova ou não a transação e informa a decisão à

bandeira, que envia para o adquirente e, então, para o equipamento do

estabelecimento.

No caso de transação aprovada, o equipamento do estabelecimento emite duas

vias de comprovante. Uma delas fica com o portador, devendo a outra via ser assinada

pelo portador e entregue ao estabelecimento. Os estabelecimentos são instruídos a

verificar se a assinatura no comprovante confere com a assinatura no verso do cartão

ou com algum documento de identidade do portador.

As transações com cartões que possuem chip funcionam de forma semelhante,

mas com mais segurança contra fraude. Nas transações com senha o portador deve

digitar a senha no equipamento do estabelecimento, não sendo necessário assinar o

comprovante. A maioria dos emissores brasileiros, ao implantar os chips nos cartões,

também exigem que o portador digite uma senha de segurança pessoal e intransferível.

Por essa razão algumas pessoas relacionam o chip com a senha, mas podem ser

funcionalidades separadas.

A opção de parcelamento sem juros (ou “parcelamento loja”) significa que o valor

da transação é dividido pelo número de parcelas. Neste tipo de transação, o

Page 26: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

25

estabelecimento recebe o valor da venda de forma parcelada. A opção de parcelamento

com juros (ou “parcelamento emissor”) significa que o titular do cartão pagará, além do

valor combinado, uma taxa de juros definida pelo emissor do cartão. Nesta operação, o

estabelecimento recebe o valor da venda de uma vez, e o emissor recebe os juros a ser

pagos pelo titular.

Esse sistema possibilita a utilização de crédito por parte do cliente dentro dos

emissores de cartão de crédito e permite entender o processo em que o cliente está

inserido dentro do ciclo de crédito do produto cartão. A utilização de crédito em excesso

e sem controle muitas vezes coloca o utilizador em situação de cobrança ou

inadimplência, que inclui o cliente em um processo ou régua que irá gerenciar a perda

ocasionada pelo cliente dentro do ambiente do emissor. Esta perda será gerenciada

internamente na instituição bancária ou por meio de escritórios de cobrança que se

especializam em efetuar cobranças amigáveis em nome dos credores com o objetivo de

reduzir as perdas operacionais para os concessores de crédito.

2.3 PROCESSOS DE COBRANÇA NO BRASIL

Cobrança é uma parte muito importante do ciclo operacional e financeiro de

uma empresa e tem assumido cada vez mais um papel relevante dentro das

organizações. A gestão do ativo “devedor” possui um direcionamento para a

maximização de receitas visando melhorar o fluxo de caixa e minimizar perdas de

negócios futuros (LAWRENCE, 1987). Assim, as políticas de crédito e cobrança devem

andar em harmonia com as atividades e estratégias definidas pela empresa. Essas

Page 27: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

26

políticas são relevantes e precisam ser definidas de forma clara, além de dispor de

mecanismos eficientes para operacionalizar o processo de forma estruturada e eficaz,

considerando a perspectiva de risco conforme demonstra a Figura 4.

Figura 4 – Políticas de Crédito e Ações de Cobrança

Fonte: LAWRENCE (1987, p. 41)

O processo de cobrança pode ocorrer de inúmeras formas; sendo as mais

usuais no mercado brasileiro baseadas em contatos telefônicos e envio de mala direta

(correio) para clientes que não conseguiram cumprir com o pagamento do débito até a

data de vencimento (ARGENTA, 2007).

A gestão do débito é efetuada pelo sistema de Customer Relationship

Management (CRM), desenvolvido por empresas privadas e especializadas em

softwares com essas características. O manuseio do software é feito fisicamente por

operadores de cobrança (pessoas) habilitados a contatar os clientes e registrar o

contato ou tentativa de contato dentro desse ambiente. Esse processo é constituído de

diversas variáveis ou informações complexas que garantem o funcionamento e o

entendimento da ação de cobrar e receber uma pendencia dentro do processo de

cobrança.

Page 28: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

27

3 DATA MINING

Mineração de Dados (também conhecida pela expressão em inglês Data

Mining) é o processo de explorar grandes quantidades de dados à procura de padrões

consistentes, como regras de associação ou sequências temporais, para detectar

relacionamentos sistemáticos entre variáveis, identificando assim novos subconjuntos

de dados (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

A Mineração de Dados é formada por um conjunto de ferramentas e técnicas

que por meio do uso de algoritmos de aprendizagem ou classificação baseados em

redes neurais e estatísticas são capazes de explorar um conjunto de dados, extraindo

ou ajudando a evidenciar a descoberta de novos padrões. As ferramentas apresentam

esses resultados de diversas formas, tais como: agrupamentos, hipóteses, regras,

árvores de decisão, grafos, dendrogramas (FAYYAD; PIATETSKY-SHAPIRO; SMYTH,

1996). Segundo Han e Kamber (2006), o processo de mineração consiste em uma

sequência de etapas interativas que permitem extrair o conhecimento de bancos de

dados, conforme a Figura 5, a seguir.

Page 29: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

28

Figura 5 – Processo de Data Mining

Fonte: HAN & KAMBER (2006, p. 6)

O ser humano sempre aprendeu observando padrões (BANDURA, 1977),

formulando hipóteses e testando-as para descobrir regras. A novidade da era do

computador é o volume enorme de dados que não pode mais ser examinado à procura

de padrões em um prazo razoável em análise direta pelo ser humano. A solução é

instrumentalizar o próprio computador para detectar relações que sejam úteis. A

Mineração de Dados (MD) surgiu para essa finalidade e pode ser aplicada tanto na

pesquisa científica como para impulsionar a lucratividade de empresas.

Diariamente, as organizações acumulam grande volume de informações em

bancos de dados e sistemas gerenciadores de informações. São informações brutas

relacionadas ao perfil transacional e de consumo, como quem comprou o quê e onde

Page 30: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

29

determinado produto foi adquirido, ou seja, são vitais para o dia a dia da empresa.

Também se utilizam padrões estatísticos ao final do dia para repor estoques e detectar

tendências de compra, sendo usado o Business Intelligence (BI) (KIMBALL; MERZ,

2000). Para analisar os dados com estatísticas de modo mais refinado, à procura de

padrões de vinculações entre as variáveis registradas, então se utiliza a Mineração de

Dados. Buscam-se conhecer melhor os clientes, os padrões de consumo e motivações

de cada um ou de grupos de consumidores. Assim, resgata-se o papel do dono

atendendo no balcão e conhecendo a clientela por meio do estudo das informações

contidas em seu ambiente de negócio. Tais dados podem agregar valor às decisões

das empresas, sugerir tendências, desvendar particularidades do ambiente e permitir

decisões baseadas em informações descobertas pelo método de mineração de dados

(CRISP-DM, 2011).

3.1 TEXT MINING

Mineração de texto, também conhecido como Mineração de Dados de texto, é

relativamente parecido com a análise/intelecção de textos, processo de obtenção de

informações relativas ao perfil de usuários em campos textuais, também conhecido

como KDT (Knowledge Discovery in Texts), ou seja, é o processo de extrair

informações relevantes de algum domínio especifico dentro de documentos não

estruturados (TAN, 1999). Informações de alta qualidade normalmente são obtidas pela

elaboração de padrões e tendências por meios como a aprendizagem de padrões

estatísticos. Text Mining geralmente envolve o processo de estruturação do texto de

entrada (normalmente a análise junto à adição de algumas características linguísticas e

Page 31: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

30

remoção de outras – stopwords – e a subsequente inserção numa base de dados),

derivando dentro dos padrões de dados estruturados e, finalmente, a avaliação e na

interpretação da saída. Geralmente bons estudos em mineração de texto referem-se a

uma combinação de relevância, novidade e descobertas interessantes. Tarefas de

mineração de texto típicas incluem categorização de texto, agrupamento de

documentos, conceito, extração de entidade, produção de taxonomias granulares,

análise de sentimento e sumarização de documentos (COHEN; HUNTER, 2008).

A análise de texto envolve a recuperação de informações, análise lexical para

estudar as distribuições de frequência de palavras, reconhecimento de padrões,

marcação, anotação, extração de informações, técnicas de Mineração de Dados,

incluindo link e análise de associação, visualização e análise preditiva. O objetivo

primordial é, essencialmente, transformar texto em dados para análise, por meio da

aplicação de processamento de processamento de linguagem natural (PLN) junto com

métodos analíticos (HOBBS; WALKER; AMSLER, 1982).

A análise de texto ou termos descreve um conjunto de técnicas linguísticas,

estatísticas e de aprendizado de máquina em que o modelo possibilita estruturar o

conteúdo ou informações de fontes textuais para alavancar áreas relacionadas à

inteligência de negócios, análise exploratória de dados, pesquisa e inovação.

Mineração de texto é um campo interdisciplinar que se baseia em recuperação de

informação, Mineração de Dados, aprendizado de máquina, estatística e linguística

computacional (ZANASI, 2009).

Como a maior parte da informação – estimativas chegam a 85% (BESS et al.,

2003, p. 610) – é atualmente armazenada como texto, acredita-se na mineração de

texto como de alto valor potencial comercial. O interesse crescente está voltado para a

Page 32: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

31

Mineração de Dados multilíngue, ou seja, a capacidade de obter informações por meio

de línguas e de grupos de itens semelhantes de diferentes fontes linguísticas de acordo

com seu significado.

A tecnologia já é amplamente aplicada a uma ampla variedade de públicos,

pesquisas e necessidades de negócios. Os aplicativos podem ser classificados em

várias categorias por tipo de análise ou por função de negócio. Dentre as diversas

abordagens possíveis podem-se citar as que seguem (CALVO; D’MELLO, 2010).

1) Inteligência competitiva – o conceito de inteligência competitiva vem da

atividade de coletar, aplicar informações relativas às capacidades,

vulnerabilidades e intenções de concorrentes, ou seja, com a análise

automatizada desse tipo de cenário se pode trabalhar uma quantidade superior

de informações e as utilizar eticamente para gerar inteligência competitiva dentro

do ambiente privado.

2) Segurança nacional – por meio de análise especializada de documentos,

governos e instituições públicas e privadas podem monitorar os anseios de uma

população e identificar pontos críticos em setores essenciais da economia.

3) Análises de sentimento – os textos escritos por usuários em uma rede social

determinam muitas vezes o sentimento sobre algo ou alguém, com esse tipo de

premissa por meio de técnicas de Text Mining é possível observar esses

comportamentos.

Page 33: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

32

4) Semântica de Idiomas – a análises de idioma pode variar dentre as diversas

aplicações; as mais populares são tradutores e análise especializadas de

documentos que permitem a tradução de um texto de um idioma A para o idioma

B.

5) Monitoramento de mídias sociais – com o crescimento das mídias sociais,

tornou-se parte estratégia das grandes empresas de diversos setores entender o

comportamento e as necessidades dos clientes perante marcas e serviços dentro

desses ambientes sociais.

Page 34: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

33

4 METODOLOGIA CRISP-DM

Com o intuito de promover a padronização de conceitos e técnicas na busca de

informações específicas para a tomada de decisões, foi criado em 1996 o grupo de

trabalho chamado Cross Industry Standard Processing for Data Mining (CRISP-DM,

2011), que propôs a criação de uma metodologia que auxiliaria os administradores e

responsáveis no processo geral de planejar e executar a Mineração de Dados

(SHEARER, 2000). A essa metodologia se deu o nome do grupo, que ficou conhecido

por CRISP-DM (2011).

Em 1997, a CRISP-DM foi incorporada num projeto da União Europeia no

âmbito da iniciativa de financiamento ESPRIT. O projeto foi liderado por cinco

empresas: SPSS, Teradata, Daimler AG, NCR Corporation e OHRA, uma companhia de

seguros. A primeira versão da metodologia foi apresentada na IV CRISP-DM SIG, um

Workshop realizado em Bruxelas, em março de 1999, sendo publicado como um guia

passo-a-passo de Mineração de Dados no final daquele ano (ESPRIT, 2009).

Entre 2006 e 2008, a CRISP-DM 2.0 SIG foi forjada, e havia discussões sobre a

atualização do modelo de processo CRISP-DM. A situação atual desses esforços não é

conhecida. O site www.crisp-dm.org original e o site da tecnologia CRISP-DM SIG 2.0

não estão mais ativos. Atualmente, a IBM é a empresa que engloba o modelo da

tecnologia CRISP-DM, sendo incorporada em seu produto SPSS Modeler.1 Antigos

documentos da CRISP-DM estão disponíveis para download (SPSS, 2013).

1 SPSS é marca registrada e comerciais da SPSS Inc. Todos os outros nomes são marcas comerciais dos respectivos proprietários. © 2000 SPSS Inc. CRISPMWP-1104. Disponível em <ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserManual/CRISP-DM.pdf>. Acesso em 15 fev. 2014.

Page 35: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

34

Definiu-se então um conjunto de fases e processos padrões para desenvolver

projetos de Data Mining, independentemente da área de negócio e das ferramentas

utilizadas, de forma estruturada e metódica. Os objetivos principais são: transformar

necessidades de negócio em tarefas de Data Mining, sugerir transformações nos dados

com técnicas adequadas, utilizar métricas para avaliar a qualidade dos resultados

obtidos e documentar o projeto. As seis (6) fases são: compreensão do negócio,

compreensão dos dados, preparação dos dados, modelagem, avaliação e implantação

(Figura 6).

Figura 6 – Modelo CRISP-DM

Fonte: OVERBACK ANALITICA (2013)

4.1 ENTENDIMENTO DO NEGÓCIO

Esta etapa se concentra-se em entender os objetivos do projeto e quais os

requisitos fundamentais para atender às necessidades da empresa quanto às análises

que serão efetuadas no experimento proposto, com isso é possível converter esse

conhecimento adquirido em uma definição de problema para a Mineração de Dados. O

Page 36: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

35

principal objetivo deste processo é entender quais os objetivos do negócio de forma

simples, a partir das necessidades de negócio, e realizar o que é proposto utilizando

técnicas de análise de dados. Muitas vezes ao concluir essa etapa é possível obter

diversos objetivos que podem concorrer entre si; sendo extremamente importante

definir quais deles são os principais ou escolher o mais importante visando evitar

retrabalhos no futuro (SHEARER, 2000).

O projeto pode ser concebido por meio de avaliações e conclusões obtidas em

conjunto com as áreas de negócio, que como detentoras do conhecimento técnico

sobre o mercado orientam quais problemas necessitam ser solucionados. É necessário

descobrir quais fatores podem ser importantes no decorrer do desenvolvimento do

projeto, uma vez que podem existir pontos críticos que podem influenciar no andamento

do trabalho. Esta etapa define os critérios de sucesso ou fracasso do projeto de

Mineração de Dados, pois é determinante entender e verificar se a solução

desenvolvida reflete as necessidades do negócio.

4.1.1 Cenário atual

A empresa objeto deste estudo tem sede na região central da cidade de São

Paulo e atua no ramo há cinco anos.

Existem aproximadamente 200 funcionários trabalhando no processo de

gerenciamento de risco do segmento cartão. Para gerir a carteira de cobrança, a

empresa conta com profissionais com experiência adquirida em bancos e financeiras e

que atuem preferencialmente no mercado brasileiro. Os dados produzidos no processo

de cobrança encontram-se armazenados no banco de dados relacional (SQL Server); e

Page 37: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

36

com a utilização da Mineração de Dados espera-se buscar novos conhecimentos para

apoiar o processo de gestão da carteira de clientes inadimplentes.

O projeto deste estudo foca no desenvolvimento de um modelo de recuperação

de crédito para apoiar a equipe de cobrança na otimização do negócio. Por meio da

Mineração de Dados, os clientes com atraso superior a sessenta dias são classificados

entre “bons” e “maus” pagadores, conforme demonstra a Figura 6.

O cartão de crédito é uma forma de efetuar pagamentos eletronicamente. É um

cartão de plástico que possui informações confidenciais protegidas pelo emissor que o

disponibilizou. A concessão do crédito acontece por meio de uma análise minuciosa da

vida do cliente, em que são avaliadas informações cadastrais, monetárias e de

comprometimento de pagamento perante o mercado. Após essa análise é concedido o

crédito de acordo com o perfil e condições específicas do cliente solicitante.

Alguns clientes, por motivos pessoais ou financeiros, não cumprem com o

pagamento das respectivas faturas e acabam entrando em inadimplência. Um modelo

de escore de crédito combina os fatores mais importantes associados à possibilidade

de inadimplência, determina o inter-relacionamento entre eles e atribui um escore para

avaliação dos clientes. Para negociar a inadimplência, existem recursos como

parcelamento de fatura para clientes com atraso entre seis e sessenta dias, e um

acordo de cobrança para clientes com atraso superior a sessenta dias.

O parcelamento da fatura é utilizado pelos clientes devedores para prolongar o

pagamento do débito vencido, refinanciando a pendência da fatura atual com taxa

diferenciada. Em acordos de cobrança, o cliente já está com o cartão cancelado, e

resta-lhe negociar todo o saldo devedor incluindo as parcelas a vencer. Esse processo

de negociação acontece por intermédio de assessorias de cobrança, que entram em

Page 38: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

37

contato com os clientes oferecendo descontos e ofertas de refinanciamento do saldo

devedor.

Com isso, pode-se verificar que o processo de cobrança de devedores e

inadimplentes de saldos de cartões de crédito é amplo. Neste trabalho será abordado

um estudo de clientes com atraso superior a sessenta dias; o processamento da

inadimplência pode ser visto na Figura 7.

Figura 7 – Fluxo de processamento do cartão de crédito

Fonte: Autor (2013)

4.1.2 Definição do mercado-alvo do projeto

Ao avaliar o negócio de cartões bancários e sua complexidade, fica claro que

segmentar as áreas de atuação é a melhor forma de alcançar os objetivos desta

pesquisa. Para o negócio, entende-se que um cliente que efetua alguma negociação de

pagamento e se propõe a pagar deve ser considerado um cliente em potencial e

devem-se estruturar campanhas que visem acionar esses clientes com menor custo de

cobrança e maior assertividade. Inicialmente, antes de selecionar qualquer amostra, é

Page 39: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

38

importante definir a que tipo de resposta o modelo de escore será aplicado. Essa

resposta irá definir o mercado-alvo do modelo.

O mercado-alvo inclui os indivíduos do tipo pessoa física, clientes que

possuíram pelo menos uma inadimplência nos últimos 360 dias, encontram-se com

faixa de atraso superior a sessenta dias e negociaram o débito pelo menos uma vez no

período amostrado. Para definir o sucesso deste trabalho, será verificado no ambiente

de produção se os resultados obtidos pelo modelo convergem com os clientes com

maior potencial de retorno para o negócio.

4.2 ENTENDIMENTO DOS DADOS

Esta fase de compreensão dos dados tem como objetivo buscar quais dados

definem a necessidade do negócio no processo de Data Mining. Para isso é necessário

avaliar quais recursos estarão disponíveis para o processo de desenvolvimento, e as

restrições e os riscos de desenvolver um resultado para o negócio. Para definir o

sucesso da aplicação de Data Mining que será desenvolvida, é necessário

compreender o negócio de um ponto de vista técnico e abstrair por meio das

informações disponíveis as reais necessidades contidas dentro da organização a fim de

avaliar o sucesso da solução.

Nesta etapa, define-se o plano de desenvolvimento do projeto, em que é

efetuada a avaliação inicial, e quais técnicas serão utilizadas para desenvolver a

aplicação (SHEARER, 2000).

Page 40: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

39

Uma das fases mais importantes da metodologia CRISP-DM (2011) é a coleta e

descrição dos dados iniciais, pois os dados contidos no ambiente de negócio podem ou

não ser relevantes para atingir o objetivo, e torna-se necessário identificar e conhecer

muito bem as informações com as quais serão desenvolvidos os modelos. A construção

de um relatório dos dados disponíveis irá exemplificar os dados contidos na base para

uma análise posterior e servirá como suporte no processo de desenvolvimento para

eventuais necessidades no decorrer do desenvolvimento dos estudos analíticos.

4.2.1 Coleta dos dados disponíveis

As informações estão disponíveis em um servidor de banco de dados SQL

Server dentro do ambiente de produção do cliente, este por sua vez está ligado

diretamente ao sistema de cobrança (Sistema Relacionamento Cobrança Cartão)

desenvolvido pela equipe de desenvolvimento de sistemas da área de Tecnologia da

Informação da empresa fornecedora das informações para o estudo. Com a

necessidade do negócio e definição do alvo, foi possível encontrar 174.875 registros

que atendiam às condições definidas como alvo, ou seja, clientes com perfil de bons

pagadores conforme a Tabela 1 (abaixo). Os dados disponíveis foram divididos em dois

grupos: qualitativos e quantitativos.

Tabela 1 – Registros disponíveis para estudo

Total de registros na base 174.875 - Clientes pagantes (bons) 2.081 1,2% Clientes não pagantes (maus) 172.794 98,8%

Fonte: Dados da pesquisa

Page 41: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

40

4.2.2 Informações disponíveis no banco de dados

Conforme especificado na Tabela 2 (abaixo), verificam-se os dados disponíveis

no banco de dados analisado, sendo proposta a análise das informações classificando-

as em: a) dados qualitativos, ou seja, dados expressos por meio de atributos

categóricos textos que qualificam o perfil do cliente; e b) dados quantitativos, expressos

em quantidades e valores, exemplo, salário do cliente, idade, saldo devedor etc.

Teoricamente, uma variável quantitativa pode assumir qualquer valor entre dois limites

e recebe o nome de variável contínua.

Tabela 2 – Informações disponíveis no banco de dados

Tipo Campo Descrição

Qualitativa Contrato Contrato que identifica o título no qual o crédito do cliente foi aceito

Qualitativa Cadastro Pessoa Física – CPF Cadastro de pessoa física Qualitativa UF Unidade federativa Qualitativa Sexo Sexo do cliente Qualitativa Tipo do cliente Tipo de cliente – PF ou PJ Qualitativa Data Entrada Assessoria Data em que o cliente entrou na assessoria Qualitativa Vencimento do Débito Data em que o cliente ficou em atraso Qualitativa Nome do Funcionário Responsável Nome do funcionário responsável pela cobrança Qualitativa Data virou cliente credor Data em que o devedor virou cliente do banco Qualitativa Status do Débito Status do débito na assessoria Qualitativa Data envio última mala direta Data do último envio de mala direta Qualitativa Tipo do titulo Tipo do título do cliente Qualitativa Vencimento do título Data de vencimento do título Qualitativa Data do acordo Data em que o cliente efetuou o acordo de cobrança Qualitativa Data de cancelamento Data de cancelamento do acordo

Qualitativa Data Pagamento Data de pagamento, para os clientes que efetuaram pagamento

Qualitativa Forma de Pagamento do débito Forma de pagamento do débito

Quantitativa Previsão de devolução Tempo a partir da data de entrada que a conta tem como previsão de que será devolvida

Quantitativa Valor do Título Valor devedor do titulo Quantitativa Número do acordo Número do acordo do cliente Quantitativa Valor do Acordo Valor do acordo do cliente Quantitativa Valor Pagamento Valor do pagamento do acordo do cliente Textual Ocorrências Cobrança Registro da ocorrência de cobrança Textual Data da oc orrência Data da ocorrência de cobrança

Fonte: Dados da pesquisa

Page 42: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

41

Com base nas informações obtidas, observa-se na amostra a distribuição

populacional da variável Unidade Federativa (UF) abaixo na Tabela 3, em que se

verifica concentração de 50% dos registros no Estado de São Paulo e Rio de Janeiro.

Tabela 3 – Distribuição dos clientes por unidade federativa

UF Mau Bom Total Mau Bom Odds SP 16.616 234 16.850 32,00% 39,30% 1,23 RJ 9.538 96 9.634 18,40% 16,10% 0,88 MG 5.277 58 5.335 10,20% 9,70% 0,96 NU 3.524 19 3.543 6,80% 3,20% 0,47 PR 3.487 37 3.524 6,70% 6,20% 0,92 RS 2.348 15 2.363 4,50% 2,50% 0,56 BA 1.794 27 1.821 3,50% 4,50% 1,31 GO 1.773 22 1.795 3,40% 3,70% 1,08 PE 1.244 15 1.259 2,40% 2,50% 1,05 SC 1.052 8 1.060 2,00% 1,30% 0,66 CE 636 7 643 1,20% 1,20% 0,96 DF 599 12 611 1,20% 2,00% 1,74 PA 549 7 556 1,10% 1,20% 1,11 ES 509 6 515 1,00% 1,00% 1,03 AM 473 4 477 0,90% 0,70% 0,74 MT 342 5 347 0,70% 0,80% 1,27 RN 319 4 323 0,60% 0,70% 1,09 MS 309 3 312 0,60% 0,50% 0,84 PB 285 1 286 0,50% 0,20% 0,31 MA 281 4 285 0,50% 0,70% 1,24 AL 242 3 245 0,50% 0,50% 1,08 SE 142 2 144 0,30% 0,30% 1,23 PI 120 1 121 0,20% 0,20% 0,73 RO 102 2 104 0,20% 0,30% 1,71 TO 82 2 84 0,20% 0,30% 2,12 ND 77 1 78 0,10% 0,20% 1,13 AP 69 0 69 0,10% 0,00% 0,01 RR 38 1 39 0,10% 0,20% 2,29 AC 36 0 36 0,10% 0,00% 0,01 TOTAL 51.863 596 52.459 100,00% 100,00% 1

Fonte: Dados da pesquisa

Page 43: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

42

4.3 PREPARAÇÃO DOS DADOS

A fase de preparação dos dados abrange todas as atividades necessárias para

construir o conjunto de dados final, que será utilizado nas ferramentas de modelagem

estatística. Para iniciar o processo de preparação dos dados é necessário efetuar uma

reanálise das informações. Nesta etapa, é necessário avaliar a integridade das

informações e verificar se existem dados que necessitem de tratamento, caso haja essa

necessidade é possível criar atributos derivados para melhorar a análise e desempenho

do processo de modelagem (SHEARER, 2000).

Assim, torna-se essencial entender os atributos que foram criados, pois com

este trabalho será possível efetuar validações e críticas no processo de implantação do

modelo. Nesta etapa, é proposta a utilização de técnicas de processamento de textos

para criação das variáveis necessárias para explicar a necessidade do negócio.

Com base nos dados disponibilizados pela empresa piloto, foi separado o pré-

processamento das informações em duas etapas, ou seja, o grupo de informações

estruturadas e o grupo de informações não estruturadas (campos textuais). Para o

grupo de informações estruturadas, utilizou-se a razão de chances (odds ratio) para

agrupar e classificar os melhores grupos de informações de cada variável

(CORNFIELD, 1951), o que no término do processo possibilitará o processo de

tratamento e compreensão dos dados por meio da utilização dos algoritmos estatísticos.

Com as informações textuais empregou-se a linguagem de programação

Python (versão 2.7), com suporte da biblioteca Nltk 3.0 (NLTK, 2014), para transformar

as informações textuais em um conjunto de vetores no qual é possível aplicar as

Page 44: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

43

técnicas de processamento de linguagem natural. A Tabela 4, a seguir, demonstra a

análise de frequência dos cinquenta termos mais relevantes após a análise.

Tabela 4 – Frequência de palavras no documento

Termo Qtde Freq. Rel. Freq. Abs. Recado 13.940 9,6% 9,6% Telefone 13.360 9,2% 18,8% Desconhecido 12.374 8,5% 27,3% Nao 11.152 7,7% 34,9% Cliente 9.503 6,5% 41,5% Ligacao 5.216 3,6% 45,1% Atende 5.138 3,5% 48,6% Contato 4.733 3,3% 51,8% Muda 4.688 3,2% 55,1% Informado 4.359 3,0% 58,1% Manual 4.349 3,0% 61,0% Att 4.342 3,0% 64,0% Celular 3.642 2,5% 66,5% Caixa 3.584 2,5% 69,0% Postal 3.562 2,4% 71,4% Devedor 3.390 2,3% 73,8% Cli 3.255 2,2% 76,0% Desc 3.178 2,2% 78,2% Desconhece 2.652 1,8% 80,0% Anota 2.501 1,7% 81,7% Informa 2.454 1,7% 83,4% Acordo 1.707 1,2% 84,6% Condicoes 1.614 1,1% 85,7% Pede 1.519 1,0% 86,8% Retorno 1.304 0,9% 87,6% Diz 1.229 0,8% 88,5% Anotou 1.214 0,8% 89,3% Valor 1.037 0,7% 90,0% Tel 1.016 0,7% 90,7% Sra 1.002 0,7% 91,4% Vai 940 0,6% 92,1% Mae 937 0,6% 92,7% Conhece 876 0,6% 93,3% Existe 844 0,6% 93,9% Pois 810 0,6% 94,5% Brretorno 788 0,5% 95,0% Preacordo 774 0,5% 95,5% Inf. 741 0,5% 96,0% Momento 735 0,5% 96,5% Atendente 734 0,5% 97,0% Ciente 648 0,4% 97,5% Pagamento 640 0,4% 97,9% Banco 639 0,4% 98,4% Esposa 606 0,4% 98,8% Encerra 590 0,4% 99,2% Dia 588 0,4% 99,6% Local 581 0,4% 100,0% Total 145.485 100,0%

Page 45: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

44

4.3.1 Stemming

Em morfologia linguística e recuperação de informação, stemming é o processo

de redução flexionada (ou às vezes derivada) de palavras ao seu tronco, base

ou raiz de uma forma escrita. O resultado não precisa ser idêntico à raiz morfológica da

palavra, o que é geralmente suficiente para que as palavras relacionadas possam

mapear o mesmo assunto, mesmo que o tronco não seja um assunto

válido. Algoritmos para trabalhar com este tipo de processo vêm sendo estudados

em ciência da computação desde os anos 1960 (LOVINS, 1968).

A ideia de aplicar stemmer no conjunto de informações recolhido para este

experimento visa trazer a palavra ao tronco ou radical e eliminar as variações para

tratá-las em seu contexto puro dentro da linguagem (SAVOY, 2006), onde foi possível

avaliar cada termo contido em cada registro, dentro de cada documento contido nos

textos, com o objetivo de melhorar as análises de cada documento e o conjunto de

palavras.

4.3.2 Stopwords

Em computação, palavras de parada – stopwords – são filtradas antes, ou

depois do processamento de linguagem natural dados (texto). Não há uma lista

definitiva de palavras de parada comum a todos os instrumentos, e esse filtro não é

usado sempre. Algumas ferramentas buscam evitar especificamente removê-los para

apoiar a pesquisa.

Page 46: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

45

Qualquer grupo de palavras pode ser escolhido como palavras de parada, pois

a definição deste grupo de palavras é feita de acordo com determinado propósito. Para

algumas pesquisa, são alguns dos mais comuns as palavras que não representam

significado na língua e são usadas como conectores, como “o”, ”é”, “na”, “qual”, “em”.

Neste caso, conforme especificado no conceito (frequência), observa-se em

documentos analisados que palavras de parada podem causar problemas de

interpretação na busca de frases que ajudem a discriminar o resultado esperado,

particularmente termos como “ATT”, “PEDE”, ou “AS”. Segundo Fox (1992), a utilização

de técnicas para remoção de palavras de parada (stopwords) permite remover os ruídos

contidos no texto e aumentar o poder discriminatório aumentando a capacidade de

distinguir o assunto no documento em análise, isso ocorre, pois essas palavras

funcionam como suporte dos termos significantes contidos no documento. A remoção

das palavras de parada permite distinguir as informações contidas no texto

considerando apenas termos que reflitam o significado do documento, possibilitando

analisar somente termos que sejam relevantes à análise. Assim, conforme proposto,

foram excluídas do documento todas as palavras definidas como palavras de parada.

No Apêndice A consta a lista que foi utilizada neste processo.

4.3.3 N-gramas

Um n-grama é uma sequência de “n” termos de determinado documento. Esses

termos podem ser compostos por um conjunto de sílabas, letras, palavras ou pares

palavras de acordo com a necessidade da aplicação que está sendo desenvolvida. Os

Page 47: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

46

n-gramas normalmente são extraídos de campos textuais que podem estar contidos em

diversas mídias digitais na web, gravações de voz, vídeos, imagens dentre outros.

Um n-grama de tamanho 1 é referido como um “unigrama”; tamanho 2 é um

“bigrama”; tamanho 3 é um “trigrama”. Tamanhos maiores são, por vezes, referidos pelo

o valor de “n”, como, por exemplo, “quatro-gramas”, “cinco-gramas”, e assim por diante.

Um modelo baseado em n-gramas vem da área de processamento de

linguagem natural (PLN), em que a ideia principal é desenvolver uma sequência na

forma de uma expressão tipo (n – 1), que permita identificar padrões dentro do texto ou

do documento que está sendo analisado. As principais vantagens de utilizar este tipo de

estrutura de modelos n-gramas referem-se à capacidade de escalar o contexto contido

dentro do texto simplesmente aumentando o número de “n” termos que compõem o

grama? que está sendo utilizado na análise, permitindo que as pequenas experiências

contidas nos documentos sejam extraídas para ampliar os resultados de forma

eficiente.

Para a análise, as palavras são modeladas de modo que cada n-grama seja

composto por “n” palavras. Para identificar a melhor composição de grupos para o

documento em análise (por exemplo, letras do alfabeto), sequências de grafemas são

modeladas e organizadas de acordo com a língua-raiz e o objetivo do estudo. Para as

sequências de caracteres, os 3-gramas (por vezes referido como “trigramas”) podem

ser gerados a partir de frases como “bom dia companheiro trabalhador, como está seu

dia hoje?”, virando, por exemplo, “bom_dia_companheiro”.

O Quadro 1 demonstra quais os conjuntos de trigramas foram criados.

Page 48: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

47

Quadro 1 – Exemplo de trigramas

bom_dia_companheiro

dia_companheiro_trabalhador

trabalhador_como_esta

como_esta_seu

esta_seu_dia

seu_dia_hoje

Fonte: autor (2013)

Para sequências de palavras, os trigramas que podem ser gerados a partir de

textos podem permitir a identificação de padrões dentro de um sistema. Alguns práticas

interessantes ao trabalhar com este tipo de estrutura é efetuar uma limpeza nas

informações e organizar o texto retirando caracteres especiais e palavras de parada,

além de aplicar critérios para remover qualquer tipo de ruído que possa prejudicar a

análise. Pontuação também é reduzida ou removida por pré-processamento. de n-

gramas, pois, ao criar o conjunto de n-gramas, o algoritmo de acumulação irá

considerar pontos, virgulas, acentos. Com o intuito de retirar e melhorar a acurácia da

fórmula desenvolvida retira-se esses caracteres especiais. Com base na necessidade

de transformar o texto analisado em vetores para a pesquisa em estudo, utilizou-se a

linguagem Python, para avaliar todos os bigramas e trigramas contidos nos 174.875

documentos analisados; com isso se percebeu por meio da análise Odds ratio

(CORNFIELD, 1951) que com a acumulação de gramas pela métrica de odds se

poderia obter um conjunto que representa o grupo de bons e maus pagadores,

facilitando a análise dos termos e ficando claro quais dos trigramas representam melhor

o documento analisado.

A Tabela 5, abaixo, demonstra o conjunto dos 100 trigramas mais relevantes

para todos os registros analisados na amostra deste estudo.

Page 49: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

48

Tabela 5 – Distribuição relativa dos 100 trigramas mais frequentes na amostra

Gramas Total Bom Mau Bom Mau Odds

via_emailbrretorn_man 406 80 326 4,3% 0,3% 16,12

atend_recep_nao 283 55 228 3,0% 0,2% 15,84

recep_nao_atend 283 55 228 3,0% 0,2% 15,84

client_entr_contat 295 56 239 3,0% 0,2% 15,39

emailbrretorn_man_inform 629 105 524 5,6% 0,4% 13,16

client_formaliz_acord 448 70 378 3,8% 0,3% 12,16

promess_client_formaliz 437 68 369 3,7% 0,3% 12,10

dia_brretorn_man 613 41 572 2,2% 0,5% 4,71

brretorn_man_inform 2.815 169 2.646 9,1% 2,2% 4,20

contat_dev_cli 1.531 60 1.471 3,2% 1,2% 2,68

encaminh_contrat_client 388 13 375 0,7% 0,3% 2,28

dev_client_inform 1.284 43 1.241 2,3% 1,0% 2,28

contat_dev_client 7.231 238 6.993 12,8% 5,7% 2,24

anot_telefon_client 385 11 374 0,6% 0,3% 1,93

client_inform_nao 683 15 668 0,8% 0,5% 1,47

dev_client_nao 414 9 405 0,5% 0,3% 1,46

ped_retorn_amanh 262 5 257 0,3% 0,2% 1,28

retornobrretorn_man_inform 786 15 771 0,8% 0,6% 1,28

sra_anot_rec 269 5 264 0,3% 0,2% 1,24

ped_retorn_apo 325 6 319 0,3% 0,3% 1,24

dev_client_diz 599 11 588 0,6% 0,5% 1,23

rec_sra_anot 436 8 428 0,4% 0,4% 1,23

rec_deix_rec 315 5 310 0,3% 0,3% 1,06

dev_client_ped 1.421 22 1.399 1,2% 1,1% 1,03

ped_retornobrretorn_man 518 8 510 0,4% 0,4% 1,03

tardebrretorn_man_inform 352 5 347 0,3% 0,3% 0,95

preacord_client_ped 353 5 348 0,3% 0,3% 0,94

acord_client_diz 358 5 353 0,3% 0,3% 0,93

mae_anot_rec 576 8 568 0,4% 0,5% 0,93

rec_att_anot 1.153 16 1.137 0,9% 0,9% 0,92

att_anot_rec 872 12 860 0,6% 0,7% 0,92

ped_retorn_poi 370 5 365 0,3% 0,3% 0,90

sra_desconhec_client 448 6 442 0,3% 0,4% 0,89

telefon_sra_desconhec 455 6 449 0,3% 0,4% 0,88

desconhec_telefon_sra 646 8 638 0,4% 0,5% 0,82

esp_anot_rec 337 4 333 0,2% 0,3% 0,79

nao_pod_fal 340 4 336 0,2% 0,3% 0,78

rec_att_inform 767 9 758 0,5% 0,6% 0,78

att_inform_client 517 6 511 0,3% 0,4% 0,77

caix_postal_celul 17.132 186 16.946 10,0% 13,9% 0,72

client_ped_retorn 1.396 15 1.381 0,8% 1,1% 0,71

Page 50: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

49

anot_tel_pretorn 470 5 465 0,3% 0,4% 0,71

rec_secret_eletron 566 6 560 0,3% 0,5% 0,70

contat_dev_ligaca 497 5 492 0,3% 0,4% 0,67

client_diz_nao 429 4 425 0,2% 0,3% 0,62

desconhec_telefon_sr 343 3 340 0,2% 0,3% 0,58

inform_client_nao 743 6 737 0,3% 0,6% 0,53

telefon_att_nao 779 6 773 0,3% 0,6% 0,51

telefon_desc_local 261 2 259 0,1% 0,2% 0,51

terc_desconhec_client 404 3 401 0,2% 0,3% 0,49

att_nao_conhec 674 5 669 0,3% 0,5% 0,49

telefon_nao_exist 3.596 25 3.571 1,3% 2,9% 0,46

client_inf_nao 298 2 296 0,1% 0,2% 0,44

att_desconhec_cli 1.669 11 1.658 0,6% 1,4% 0,44

nao_conhec_cli 320 2 318 0,1% 0,3% 0,41

att_desc_cli 3.297 20 3.277 1,1% 2,7% 0,40

acord_client_inform 667 4 663 0,2% 0,5% 0,40

condico_acord_cli 669 4 665 0,2% 0,5% 0,40

telefon_nao_conhec 1.182 7 1.175 0,4% 1,0% 0,39

nao_anot_rec 855 5 850 0,3% 0,7% 0,39

desconhec_telefon_desconhec 6.518 38 6.480 2,0% 5,3% 0,39

telefon_desconhec_local 1.030 6 1.024 0,3% 0,8% 0,38

filh_anot_rec 345 2 343 0,1% 0,3% 0,38

nao_conhec_client 1.731 10 1.721 0,5% 1,4% 0,38

att_nao_anot 348 2 346 0,1% 0,3% 0,38

telefon_terc_desconhec 349 2 347 0,1% 0,3% 0,38

rec_mae_anot 350 2 348 0,1% 0,3% 0,38

condico_acord_client 2.226 12 2.214 0,6% 1,8% 0,36

desconhec_telefon_nao 1.328 7 1.321 0,4% 1,1% 0,35

desconhec_telefon_terc 380 2 378 0,1% 0,3% 0,35

telefon_att_desc 6.060 31 6.029 1,7% 4,9% 0,34

telefon_desconhec_client 4.133 21 4.112 1,1% 3,4% 0,34

desconhec_telefon_att 10.645 54 10.591 2,9% 8,7% 0,33

telefon_att_desconhec 2.755 13 2.742 0,7% 2,2% 0,31

desconhec_telefon_desc 5.752 26 5.726 1,4% 4,7% 0,30

desconhec_telefon_desccc 447 2 445 0,1% 0,4% 0,30

rec_att_nao 462 2 460 0,1% 0,4% 0,29

contatobrretorn_man_inform 714 3 711 0,2% 0,6% 0,28

desempreg_client_inform 259 1 258 0,1% 0,2% 0,25

client_encerr_contat 260 1 259 0,1% 0,2% 0,25

att_ped_retorn 260 1 259 0,1% 0,2% 0,25

negas_pag_client 276 1 275 0,1% 0,2% 0,24

ped_retorn_tard 284 1 283 0,1% 0,2% 0,23

acord_client_inf 294 1 293 0,1% 0,2% 0,22

Page 51: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

50

dev_client_deslig 313 1 312 0,1% 0,3% 0,21

nao_contat_client 325 1 324 0,1% 0,3% 0,20

atend_nao_conhec 989 3 986 0,2% 0,8% 0,20

telefon_atend_nao 1.010 3 1.007 0,2% 0,8% 0,20

rec_att_ped 346 1 345 0,1% 0,3% 0,19

rec_sra_inform 351 1 350 0,1% 0,3% 0,19

desconhec_telefon_cliendesc 354 1 353 0,1% 0,3% 0,19

desconhec_telefon_atend 1.912 5 1.907 0,3% 1,6% 0,17

encerr_contatobrretorn_man 458 1 457 0,1% 0,4% 0,14

att_desconhec_client 1.080 2 1.078 0,1% 0,9% 0,12

atend_desconhec_client 775 1 774 0,1% 0,6% 0,08

telefon_atend_desconhec 783 1 782 0,1% 0,6% 0,08

desconhec_telefon_engan 369 0 369 0,0% 0,3% 0,00

rec_dex_rec 338 0 338 0,0% 0,3% 0,00

acord_client_nao 297 0 297 0,0% 0,2% 0,00

dev_client_encerr 279 0 279 0,0% 0,2% 0,00

TOTAL 124.032 1.860 122.172

Com base na observação e utilização da odds ratio, podem-se agrupar os

gramas de acordo com a semelhança com trigramas que possuíam a mesma taxa de

risco relativo, conforme a Tabela 6 (abaixo).

Esse agrupamento permitiu diminuir a instabilidade do modelo que estava sendo

desenvolvido, uma vez que o evento raro de um trigrama aparecer em um texto foi

sobreposto por diversos trigramas semelhantes que representam o mesmo risco

associado em relação aos documentos analisados.

Tabela 6 – Agrupamento de trigramas odds ratio

Grupo Trigramas Odds ratio

Contato positivo > 2.0

Contato 1.5 a 2.0

Recado contato 1.1 a 1.5

Recado sem contato 0.9 a 1.1

Contato negativo 0.6 a 0.9

Não localizado < 0.6

Fonte: Dados da pesquisa

Page 52: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

51

4.3.4 Transformação dos dados

Para extração de conhecimento por meio de técnicas de Mineração de Dados, é

necessário transformar as informações obtidas em valores que representem a força que

a informação tem para o conjunto de dados. Para extrair tal conhecimento em um

conjunto textual, faz-se necessária a aplicação de técnicas de mineração de textos que

consigam extrair o conhecimento gerado nas etapas anteriores e permitam aos

algoritmos classificadores extrair o conhecimento esperado.

De acordo a técnica de modelagem escolhida, pode-se utilizar a técnica de

representação dicotômica (binária), em que a representação positiva dessa utilização

constitua a “presença” da resposta, e a representação negativa constitua a “ausência”.

Segundo Missio e Jacobi (2007), a variável dependente (dicotômica) pode ser

influenciada por variáveis qualitativas e quantitativas (independentes). As variáveis

quantitativas baseadas em escalas podem ser facilmente ajustadas por técnicas de

balanceamento, o que não é possível fazer para as variáveis quantitativas, uma vez que

indicam a presença ou ausência da qualidade do atributo. Dessa forma se faz

necessária a utilização de variáveis artificiais que assumam o valor dicotômico

(indicando ausência ou presença do atributo), num tipo de técnica conhecido na

literatura como variável dummy.

A rigor, não é essencial que a variável dummy assumam o valor de 0 e 1. O par

(0,1) pode ser transformado em qualquer outro par por uma função linear tal que Z = a

+ bD (b¹ 0), em que a e b são constantes e em que D = 1 ou 0. Quando D = 1, tem-se Z

= a + b; e quando D = 0, tem-se Z = a. Assim, o par (0,1) se torna (a,a + b). Observa-se

Page 53: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

52

que a atribuição de valores é puramente arbitrária, exigindo cuidado na hora de

interpretar os resultados.

Este processo de transformação dos dados tem como objetivo finalizar a matriz

de vetores que será inserida nas ferramentas de modelagem estatística.

4.4 MODELAGEM DE DADOS

Segundo (SHEARER, 2000), é possível utilizar diversas técnicas de

modelagem de dados em busca de resolver problemas de análise de informações.

As técnicas estatísticas permitem entender e desenvolver fórmulas matemáticas

cujos parâmetros de saída serão calibrados para buscar o melhor valor que irá

procurar distinguir o objetivo que foi definido nas etapas anteriores, na definição do

perfil que espera-se distinguir, neste caso, clientes com perfil de bons pagadores de

débito. Existem várias técnicas que possibilitam resolver um problema de Mineração

de Dados, tais como, redes neurais, regressão logística, árvores de decisões, dentre

outras contida na área de estatística. Para iniciar o processo e validar a acurácia do

modelo que será desenvolvido, é necessário dentro dos dados selecionados nas

etapas de pré-processamento separar uma amostra aleatória de 30% da amostra

para treinamento e 70% para teste e validação do modelo (PICARD; BERK, 1990).

Em algoritmos supervisionados com a regressão logística (STEHMAN,

1997), a variável-alvo é um label dicotômico em que, no experimento em questão,

um (1) representa clientes que efetuaram pagamentos e zero (0) clientes que não

pagaram o débito. Um modelo preditivo tem como finalidade estimar a probabilidade

de os eventos raros acontecerem utilizando informações históricas que representam

Page 54: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

53

o comportamento do ambiente no qual os dados foram coletados. Para buscar o

melhor conjunto de variáveis, foi necessário verificar o acumulado de respostas

positivas e negativas contidas no conjunto de dados que saiu do estágio de

transformação, que visou melhorar a classificação do conjunto de classes de cada

variável e de cada cliente a ser utilizado no processo.

A utilização de algoritmos classificadores visa ordenar os clientes com a

finalidade de relacionar os padrões algébricos das características de cada vetor

individual para obter uma probabilidade de acontecimento do fato em relação à

necessidade de resposta do negócio.

4.4.1 Regressão logística

A regressão logística de Hosmer e Lemeshow (1989) é uma técnica

estatística que tem como objetivo produzir, a partir de um conjunto de observações,

um modelo que permita a predição de valores tomados por uma variável categórica,

frequentemente binária, a partir de uma série de variáveis explicativas contínuas

e/ou binárias. A regressão logística é amplamente utilizada em ciências médicas e

sociais e tem outras denominações, como modelo logístico, modelo logit, e

classificador de máxima entropia (HOSMER; LEMESHOW, 1989). A regressão

logística pode ser utilizada, de forma exemplificada, nas áreas descritas a seguir.

Em medicina, permite determinar os fatores que caracterizam um grupo de

indivíduos doentes em relação a indivíduos sãos.

No domínio dos seguros, permite encontrar frações de clientes que sejam

sensíveis a determinada política securitária em relação a dado risco particular.

Page 55: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

54

Em instituições financeiras, pode detectar os grupos de risco para a

subscrição de um crédito.

Em econometria, permite explicar uma variável discreta, como, por exemplo,

as intenções de voto em atos eleitorais.

O êxito da regressão logística assenta-se, sobretudo, nas numerosas

ferramentas que permitem interpretar de modo aprofundado os resultados obtidos.

Em comparação com as técnicas conhecidas de regressão, em especial a linear, a

regressão logística distingue-se essencialmente pelo fato de a variável resposta ser

categórica. Enquanto método de predição para variáveis categóricas, a regressão

logística é comparável às técnicas supervisionadas propostas em aprendizagem

automática (árvores de decisão, redes neuronais etc.), ou ainda a análise

discriminante preditiva em estatística exploratória. É possível compará-las para

escolha do modelo mais adaptado de certo problema preditivo a resolver.

Trata-se de um modelo de regressão para variáveis dependentes ou de

respostas binomialmente distribuídas. É útil para modelar a probabilidade de um

evento ocorrer como função de outros fatores. É um modelo linear generalizado que

usa como função de ligação a função logit. A regressão logística analisa dados

distribuídos binomialmente da forma em que os números de ensaios de Bernoulli ni

são conhecidos e as probabilidades de êxito pi são desconhecidas. Um exemplo

dessa distribuição é a percentagem de sementes (pi) que germinam depois de ni ser

plantadas. O modelo é então obtido na base de que cada ensaio (valor de i), e o

conjunto de variáveis explicativas (independentes) pode informar acerca da

Page 56: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

55

probabilidade final. As variáveis explicativas podem-se ver como um vector Xik-

dimensional, e o modelo toma então a forma .

Os logits das probabilidades binomiais desconhecidas são modelados como

uma função linear dos Xi que pode ser definida por pela fórmula

.

Note-se que um elemento particular de Xi pode ser ajustado a 1 para todo i,

obtendo-se um intercepto no modelo. Os parâmetros desconhecidos βj são

habitualmente estimados por meio de máxima verossimilhança. A interpretação dos

valores estimados do parâmetro βj é similar aos efeitos aditivos em log odds ratio

(CORNFIELD, 1951) para uma unidade de mudança na enésima variável

explicativa. No caso de uma variável explicativa dicotômica, por exemplo, o gênero

eβ é o estimador de odds ratio para obter o resultado para, por exemplo, homens

comparados com mulheres.

O modelo tem uma formulação equivalente dada pela equação de

a qual após o resultado dos cálculos logísticos pode-se

utilizar para obter a probabilidade de o evento acontecer.

Essa forma funcional é habitualmente identificada como um perceptron (ou

perceptrão) de uma camada simples ou rede neuronal artificial de uma só camada,

que calcula uma saída contínua em vez de uma função (RYPLEY, 1996; SARLE,

1995). A derivada de pi em relação a X = x1...xk é calculada na forma geral

; onde f(X) é uma função analítica em X.

Page 57: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

56

Com essa escolha, a rede de camada simples é idêntica ao modelo de

regressão logística. Essa função tem uma derivada contínua, que pode ser usada

em uma propagação posterior. Essa função também é preferida, pois sua derivada é

facilmente calculável pela fórmula .

Após a inclusão dos vetores pré-processados no software SAS com apoio

da biblioteca SAS Statistics, foi possível obter a fórmula específica na Tabela 7, a

seguir.

Tabela 7 – Parâmetros do algoritmo pós-regressão

Parameter DF Estimate Standard error Wald Chi -Square Pr > ChiSq Intercept 1 -4.9396 0.0657 5655.9386 <.0001 brretorn_man_inform 1 0.8192 0.0983 69.4377 <.0001 emailbrretorn_man_in 1 1.2694 0.1451 76.5901 <.0001 atend_recep_contat 1 1.8098 0.4204 18.5340 <.0001 telbrretorn_man_info 1 1.9946 0.4954 16.2079 <.0001 comp rovantebrretorn_ 1 1.8183 0.2840 41.0007 <.0001 dev_client_entr 1 2.1163 0.2958 51.1769 <.0001 ja_efetu_pag 1 2.8704 0.4810 35.6131 <.0001 ira_efetu_pag 1 2.0383 0.4596 19.6698 <.0001 boletobrretorn_man_i 1 1.3205 0.2570 26.4108 <.0001 formaliz_acord_ vist 1 1.4352 0.2922 24.1328 <.0001 aleg_pag_client 1 3.9339 0.3068 164.3868 <.0001 aleg_pag_pagt 1 4.2753 0.4664 84.0328 <.0001 formaliz_acord_val 1 1.7754 0.4046 19.2532 <.0001

Fonte: Dados da pesquisa

Com os dados processados e ajustados para os clientes-alvo foi possível obter

os parâmetros (eβ) que melhor explicam o alvo dicotômico, definido como “target” no

processo de definição do alvo do projeto, e para conseguir classificar tais clientes pela

propensão de efetuar o pagamento.

Page 58: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

57

4.5 AVALIAÇÃO E RESULTADOS

Essa fase consistiu na avaliação do algoritmo, ou modelo, desenvolvido na

etapa de modelagem de dados com o intuito de entender se os resultados vão ao

encontro dos objetivos do negócio, definidos inicialmente na etapa de definição do alvo

do projeto.

A partir daí, é possível verificar se o processo de modelagem das informações

se encerará, devendo-se então passar para a fase de levantamento de requisitos para

implantação ou, se necessário, efetuar correções no processo, voltando para as fases

anteriores e verificando oportunidades de melhoria em alguma das fases

desenvolvidas.

Para entender se o algoritmo desenvolvido possui acurácia e estabilidade, foi

proposto utilizar o teste não paramétrico de Kolmogorov-Smirnov, que possibilita avaliar

a qualidade do ajuste do modelo desenvolvido.

4.5.1 Kolmogorov-Smirnov

Em estatística, o teste Kolmogorov-Smirnov é usado para determinar se duas

distribuições de probabilidade subjacentes diferem uma da outra ou se uma dessas

distribuições difere da distribuição em hipótese, em qualquer dos casos com base em

amostras finitas. O nome é uma referência aos matemáticos russos Andrey Kolmogorov

e Vladimir Ivanovich Smirnov (EADIE et al., 1971).

O teste de duas amostras de K-S é um dos métodos mais úteis e não

paramétricos gerais para a comparação de duas amostras, dado que é sensível a

Page 59: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

58

diferenças tanto à localização quanto à forma das funções de distribuição cumulativas

empíricas das duas amostras em análise.

Para gerar os resultados do teste de K-S, com que trabalhos já realizados com

mineração de texto obtiveram bons resultados e a acurácia da fórmula foi validada

(MONTANERET al., 2006; MINGUEZ al., 2007), utilizou-se o software SAS e os

conjuntos de treinamento e teste utilizados no processo de modelagem. Depois de

aplicado o teste de K-S, na base de treinamento observou-se o resultado de 0.495,

conforme demonstrado na Figura 8, a seguir.

Figura 8 – Teste K-S amostra treinamento

Fonte: Elaborado pelo autor (2013)

Com base no resultado para a amostra de treinamento, observou-se a

distribuição das populações em teste conforme Figura 9, abaixo.

Figura 9 – Distribuição teste K-S

Fonte: Elaborado pelo autor (2013)

Page 60: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

59

Conforme proposto na metodologia, é necessário aplicar o teste de K-S na

amostra de teste, a qual representa a distribuição populacional real da base e que

permitirá entender se o algoritmo quando aplicado em uma amostra real será capaz de

distinguir o alvo definido. A Figura 10 demonstra o resultado de K-S 0.488.

Figura 10 – Teste de K-S amostra teste

Fonte: Elaborado pelo autor (2013)

Os resultados obtidos pelos testes efetuados no conjunto de treinamento

possibilitam identificar que o modelo desenvolvido possui aderência ao objetivo do

negócio, pois quando se analisam os resultados de K-S é perceptível que existe pouca

variação entre as amostras de treinamento e de teste, ou seja, demonstram ser

parecidos e não apresentam diferenças significativas quando aplicado o teste de K-S

em amostras populacionais distintas, o que segundo Sicsú (2010) pode levar à

conclusão dos trabalhos em relação ao algoritmo desenvolvido.

A Figura 11 demonstra a aplicação do teste de K-S na amostra de teste.

Page 61: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

60

Figura 11 - Distribuição teste de K-S amostra teste

Fonte: Elaborado pelo autor (2013)

4.6 IMPLANTAÇÃO

A implantação do modelo geralmente não é o fim de um projeto de Data Mining.

Mesmo que a finalidade do modelo seja aumentar o conhecimento dos dados, os

conhecimentos adquiridos ao longo do processo terão de ser organizados e

apresentados de maneira que o cliente possa usá-lo. Dependendo das exigências, a

fase de implantação pode ser tão simples como gerar um relatório ou tão complexo

como a implantação/alteração de um sistema de alta plataforma. Em muitos casos, não

é o analista de sistemas quem realiza a implantação, e sim o usuário. De qualquer

forma, caso o analista realize o esforço de implantação, é importante para o cliente

entender as ações que devem ser realizadas, de modo a realmente fazer uso dos

modelos criados (SHEARER, 2000).

O presente projeto apresenta uma solução de Mineração de Dados que

classifica desde os clientes que possuem baixo potencial de pagamento até os que

possuem alto potencial de efetuar o pagamento do débito. Segundo as práticas

utilizadas no mercado brasileiro, a forma de utilizar o escore desenvolvido é agrupar

Page 62: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

61

clientes com perfis semelhantes dentro de classes de escore para melhorar a

interpretação dos resultados obtidos (CREDIT..., 2014).

A Tabela 9, abaixo, exemplifica esse conceito.

Tabela 8 – Modelo aplicado a todas as observações

Faixa escore Mau Bom Total % mau % bom Odds ratio Classe pagto

0.73 a 1.00 15.345 1357 16.702 8,99% 65,23% 7,26 Alta

0.58 a 0.72 14.549 292 14.841 8,52% 14,02% 1,64 Média

0.38 a 0.57 17.600 175 17.774 10,31% 8,39% 0,81 Média-Baixa

0.00 a 0.37 123.220 257 123.477 72,18% 12,36% 0,17 Baixa

TOTAL 170.713 2.081 172.794 100,00% 100,00%

Fonte: Dados da pesquisa

Para utilização do escore foi gerado um protótipo de interface que visa auxiliar a

atualização do processo periodicamente, a cada trinta dias corridos. O escore não será

apresentado diretamente aos recuperadores de crédito, pois os números pouco

representam na operação de cobrança se não estiverem alocados em categorias.

Propõe-se aos gestores utilizar a classificação de probabilidade de pagamento

da Tabela 8, acima, facilitando o processo de compreensão do modelo desenvolvido

aos recuperadores de crédito. O propósito desta aplicação não é atender somente os

recuperadores de crédito, mas também pode ser parte de uma estratégia maior, por

exemplo, atuando no envio de SMS, e-mail e malas direta, focando a redução de custos

e aumento de receitas.

Para otimizar o processo de atualização da fórmula desenvolvida no processo

de modelagem, foi criada uma aplicação utilizando a linguagem de programação C#

para aplicar o modelo desenvolvido. Esta ferramenta trabalha com layout específico das

variáveis utilizadas para desenvolver este estudo. Para a utilização, é necessário

Page 63: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

62

acessar a aplicação, conforme a Figura 13, e selecionar a opção desejada para

importar os arquivo necessários para a execução do processo. O programa se

encarrega de efetuar toda a preparação dos dados, pré-processamento dos textos e

aplicação do algoritmo de classificação desenvolvido no estudo.

Figura 12 – Programa de implantação

Fonte: Elaborado pelo autor (2013)

A utilização da ferramenta desenvolvida possibilita a implantação do algoritmo pela área

de negócio de forma simples e sistematizada possibilitando velocidade na tomada de

decisão por parte dos gestores que possivelmente irão utilizar este recurso.

Page 64: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

63

5 CONCLUSÃO

O presente projeto teve como objetivo desenvolver uma aplicação de apoio à

tomada decisões com Mineração de Dados para auxiliar as equipes de cobrança que

atuam no segmento de cartões de crédito. Também foi objetivo mapear o conhecimento

existente somente no processo operacional e identificar padrões válidos que estavam

ocultos nas informações contidas dentro do ambiente de dados. Tecnicamente, a

solução de Mineração de Dados atende a todos esses objetivos e transforma os dados

textuais que não são utilizados em um algoritmo que possibilita à operação do negócio

desenvolver estratégias baseadas no perfil de pagamento dos clientes no ambiente de

negócio.

Após a conclusão de todas as etapas, a aplicação projetada é capaz de

classificar os clientes pelo potencial de retorno ao negócio, com base em informações

coletadas entre junho/2012 e fevereiro/2013. Com essas informações, espera-se que os

gestores de cobrança e executivos da empresa no qual o teste foi executado consigam

elaborar planos estratégicos para abordar cada cliente de acordo com o potencial de

pagamento, minimizando o custo com telefonia, despesas operacionais e melhorias nos

resultados de cobrança.

Observa-se na avaliação do projeto que os resultados em relação ao modelo

desenvolvido utilizando técnicas de processamento textual foram satisfatórios do ponto

de vista da qualidade do algoritmo desenvolvido e em relação à praticidade na

aplicação. Ao revisitar o objetivo principal deste trabalho, fica claro que a validação do

conceito sobre a possibilidade de aplicação de técnicas de Mineração de Textos para

Page 65: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

64

desenvolver modelos no ciclo de crédito é promissora e possibilita grande oportunidade

de estudos futuros, pois o universo financeiro oferece diversos cenários e objetos de

estudo onde esse tipo de tecnologia pode ser aplicado e testado. São diversos

segmentos econômicos brasileiros, tais como industrial, financeiro, securitário e demais

empresas, que realizam operações de recuperação de crédito dentro do ambiente de

negócio, possibilitando a oportunidade de avaliar o quanto a metodologia proposta

neste estudo pode ser aplicada e qual sua aderência em ambientes adversos de outros

segmentos.

Page 66: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

65

REFERÊNCIAS

ABECS, Associação Brasileira das Empresas de Cartões de Crédito e Serviços. Disponível em <http://www.abecs.org.br/novo_site/origem_cartao.html>. Acesso em 04 nov. 2013.

______. Disponível em <http://www.abecs.org.br/media/c:fullcentered/w:872/h:472/f/8/9/2d84985ce1b7d5e5e7e470bcb6e12.jpg>. Acesso em 18 mar. 2014

ARGENTA, José Leonor. Cobrança e recuperação de créditos na agência do Banco do Brasil de São Jerônimo (RS). Disponível em <http://www.lume.ufrgs.br/bitstream/handle/10183/14090/000649438.pdf?sequence=1>. Acesso em 22 out. 2014.

BANDURA, A. Social Learning Theory. New York: General Learning Press, 1977.

BESS, C. et al. The grand challenges of information technology. In: ENGINEERING MANAGEMENT CONFERENCE, 2003. IEMC’03. Managing technologically driven organizations: the human side of innovation and change; 2003, p. 610-5.

BCB. Sistema financeiro Brasil. Banco Central do Brasil. Disponível em <http://www.bcb.gov.br/?sfn>. Acesso em 10 set. 2013.

______. Organização do Sistema Financeiro Nacional. Disponível em <http://www.bcb.gov.br/htms/estabilidade/2012_03/refc4p.pdf>. Março, 2012. Acesso em 10 set. 2013.

BRASIL. Constituição da República Federativa do Brasil de 1 998. Disponível em <http://www.planalto.gov.br/ccivil_03/constituicao/constituicao.htm>. Acesso em 19/10/2013.

CALVO, Rafael A; D’MELLO, Sidney. Affect detection: an interdisciplinary review of models, methods, and their applications. IEEE Transactions on Affective Computing 1 (1): 18-37, 2010.

Page 67: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

66

COHEN, K. Bretonnel; HUNTER, Lawrence. Getting started in Text Mining. PLoS Computational Biology 4 (1): e20, 2008. doi:10.1371/journal.pcbi.0040020. PMC 2217579. PMID 18225946

COMPRA com cartão de crédito lidera inadimplência. Estadão.com.br. Economia & Negócios. 31/01/2013. Disponível em: <http://economia.estadao.com.br/noticias/economia-geral,compra-com-cartao-de-credito-lidera-inadimplencia,142562,0.htm>. Acesso em 22/01/2014.

CORNFIELD, J. A method for estimating comparative rates from clinical data. Applications to cancer of the lung, breast, and cervix. Journal of the National Cancer Institute, 1951,11:1269-75.

CREDIT Rating 101. DebtCanada. Disponível em <http://www.debtcanada.ca/library/credit-rating-101>. Acesso em 21 abr. 2014.

EADIE, W.T. et al. Statistical methods in experimental physics. Amsterdam: North-Holland, 1971, pp. 269-71. ISBN 0444101179.

ESPRIT. Welcome to Esprit, the EU information technologies programme. Arquivado em 06/11/2009. Disponível em <http://cordis.europa.eu/esprit/home.html>. Acesso em 15 fev. 2014.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to knowledge discovery: an overview. Advances in Knowledge Discovery and Data Mining. Cambridge, Mass.: MIT Press, 1996, pp. 1-36.

FOX, C. Lexical analysis and stoplists. Upper Saddle River, NJ: Prentice-Hall, 1992.

HAN, J.; KAMBER, M. Data mining concepts and techniques. EUA: Elsevier Press, 2006.

HAND, D.J.; MANINILA, H.; SMYTH, P. Principles of Data Mining. Massachusetts, EUA: MIT Press, 2001.

HOBBS, Jerry R.; WALKER, Donald E.; AMSLER, Robert A. Natural language access to structured text. Proceedings… of the 9th conference on Computational linguistics 1. pp. 127–32, 1982.

Page 68: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

67

HOSMER, W.D.; LEMESHOW, S. Applied logistic regression. New York: John Wiley Sons, 2005.

KIMBALL, Ralph; MERZ, Richard. The data webhouse toolkit: building the web-enabled data warehouse. New York: Wiley, 2000. ISBN 0-471-37680-9.

KURGAN, L.; MUSILEK, P. A survey of knowledge discovery and Data Mining process models. The Knowledge Engineering Review. Reino Unido: Cambridge University Press, 2006, v. 21, p. 1-24.1.

LAWRENCE, B.D. Risco e recompensa: o negócio de crédito ao consumidor. São Paulo: Bandeirante, 1987, p. 188.

LOVINS, J. Development of a stemming algorithm. Mechanical Translation and Computational Linguistics, 1968 11: 22–31.

______. Desenvolvimento de um algoritmo de stemming. Mecânica e Linguística Computacional , 1968, 11: 22-31.

MINGUEZ, P. et al. Functional profiling of microarray experiments using text-mining derived bioentities: Bioinformatic . Gene expression, vol. 23 no. 22, 2007, pp. 3098-9.

MISSIO, F.; JACOBI, L. Variáveis dummy: especificações de modelos com parâmetros variáveis, Departamento de Estatística – CCNE/UFSM, 2007. Disponível em <http://www.researchgate.net/publication/252322545_Variveis_dummy_especifies_de_modelos_com_parmetros_variveis/file/72e7e51f2f8cee4a3b.pdf>. Acesso em 18 abr. 2014.

MONTANER,D. et al. Next station in microarray data analysis: GEPAS. Nucleic Acids Res., 34, W486–W491, 2006.

NLTK, N. Nltk documentation. Disponível em: <http://www.nltk.org/news.html>>. Acesso em 22 jan. 2014.

OVERBACK ANALITICA. CRISP-DM Data Mining technology. Disponível em <http://www.abecs.org.br/media/c:fullcentered/w:872/h:472/f/8/9/2d84985ce1b7d5e5e7e470bcb6e12.jp>. Acesso em 201.

Page 69: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

68

PICARD, R.; BERK, K. Data splitting. American Statistician , 1990 44:140-7.

PORTAL EDUCAÇÃO, P. Definição de crédito. Disponível em <http://www.portaleducacao.com.br/financas/artigos/21494/definicao-de-credito>. Acesso em 04 nov. 2013.

RYPLEY, B.D. Pattern recognition and neural networks. Cambridge: Cambridge University Press, 1996.

SARLE, W.S. Neural networks and statistical models. Proceedings… 19th Annual SUGI, Cary, NC: SAS Institute Inc., 1995.

SAVOY, J. Light stemming approaches for the French, Portuguese, German and Hungarian languages. ACM SYMPOSIUM ON APPLIED COMPUTING, SAC 2006, ISBN 1-59593-108-2.

SHEARER C. The CRISP-DM model: the new blueprint for Data Mining J Data Warehousing , 2000. Ed. 5.

SICSÚ, L.A. Credit scoring – desenvolvimento, implantação e acompanhamento. São Paulo: Blucher, 2010.

SME ToolKit. Disponível em <http://brasil.smetoolkit.org/brasil/pt_br>. Acesso em 18 fev. 2014

SPSS Inc. CRISPMWP-1104. Disponível em <ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserManual/CRISP-DM.pdf>. Acesso em 15 fev. 2014

STEHMAN, S.V. Selecting and interpreting measures of thematic classification accuracy. Remote Sensing of Environment , 1997 62 (1):77-89.

TAN, Ah-Hwee Tan. Text mining: the state of the art and the challenges. 1999. Pacific-Asia Workshop on Knowledge Discovery from Advanced Databases – PAKDD’99.

ZANASI, Alessandro. Virtual weapons for real wars: Text Mining for national security. Proceedings… of the International Workshop on Computational Intelligence in Security for Information Systems CISIS'08. Advances in Soft Computing 53, 2009. p. 53.

Page 70: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

69

APÊNDICE A – Lista de stopwords (“palavras de parad a”)

' a ' ' contigo ' ' e ' ' haverá ' ' nem ' ' pequenos ' ' ser '

' à ' ' contra ' ' eia ' ' havia ' ' nenhum ' ' per ' ' será '

' agora ' ' contudo ' ' ela ' ' hem ' ' nenhuma ' ' perante ' ' serão '

' ah ' ' convosco ' ' elas ' ' hum ' ' nenhumas ' ' pode ' ' sereis '

' ai ' ' cuja ' ' ele ' ' ih ' ' nenhuns ' ' pôde ' ' seremos '

' ainda ' ' cujas ' ' eles ' ' ir ' ' nessa ' ' podendo ' ' seria '

' algo ' ' cujo ' ' em ' ' irei ' ' nessas ' ' poder ' ' seriam '

' alguém ' ' cujos ' ' embora ' ' iremos ' ' nesse ' ' poderia ' ' seu '

' algum ' ' da ' ' enquanto ' ' isso ' ' nesses ' ' poderiam ' ' seus '

' alguma ' ' daquele ' ' entre ' ' isto ' ' nesta ' ' podia ' ' si '

' algumas ' ' daqueles ' ' era ' ' já ' ' nestas ' ' podiam ' ' sido '

' alguns ' ' das ' ' eram ' ' la ' ' ninguém ' ' pois ' ' só '

' alô ' ' de ' ' éramos ' ' lá ' ' nisso ' ' por ' ' sob '

' ambos ' ' dela ' ' essa ' ' lhe ' ' no ' ' porém ' ' sobre '

' ampla ' ' delas ' ' essas ' ' lhes ' ' nos ' ' porque ' ' sou '

' amplas ' ' dele ' ' esse ' ' lo ' ' nós ' ' portanto ' ' sua '

' amplo ' ' deles ' ' esses ' ' logo ' ' nossa ' ' posso ' ' suas '

' amplos ' ' depois ' ' esta ' ' mais ' ' nossas ' ' pouca ' ' talvez '

' ante ' ' desde ' ' está ' ' mas ' ' nosso ' ' poucas ' ' também '

' antes ' ' dessa ' ' estamos ' ' me ' ' nossos ' ' pouco ' ' tampouco '

' ao ' ' dessas ' ' estão ' ' menos ' ' num ' ' poucos ' ' tanta '

' aos ' ' desse ' ' estar ' ' mesma ' ' numa ' ' primeiro ' ' tantas '

' após ' ' desses ' ' estariam ' ' mesmas ' ' nunca ' ' primeiros ' ' tanto '

' aquela ' ' desta ' ' estas ' ' mesmo ' ' o ' ' própria ' ' tantos '

' aquelas ' ' destas ' ' estava ' ' mesmos ' ' ó ' ' próprias ' ' te '

' aquele ' ' deste ' ' estavam ' ' meu ' ' ô ' ' próprio ' ' tem '

' aqueles ' ' destes ' ' estávamos ' ' meus ' ' oba ' ' próprios ' ' têm '

' aquilo ' ' deve ' ' este ' ' mim ' ' oh ' ' psit ' ' tendo '

' as ' ' devem ' ' estes ' ' minha ' ' olá ' ' psiu ' ' tenha '

' até ' ' devendo ' ' estou ' ' minhas ' ' onde ' ' quais ' ' ter '

' através ' ' dever ' ' eu ' ' muita ' ' opa ' ' quaisquer ' ' terá '

' bis ' ' deverá ' ' fazendo ' ' muitas ' ' ora ' ' qual ' ' teria '

' cada ' ' deverão ' ' fazer ' ' muito ' ' os ' ' qualquer ' ' teriam '

' caso ' ' deveria ' ' feita ' ' muitos ' ' ou ' ' quando ' ' teu '

' certa ' ' deveriam ' ' feitas ' ' na ' ' outra ' ' quanta ' ' teus '

' certas ' ' devia ' ' feito ' ' nada ' ' outras ' ' quantas ' ' ti '

' certo ' ' deviam ' ' feitos ' ' não ' ' outrem ' ' quanto ' ' tido '

' certos ' ' disse ' ' foi ' ' naquela ' ' outro ' ' quantos ' ' tinha '

Page 71: PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO – PUC -SP ... Lacerda d… · de redes neurais, regressões, árvore de decisão e outras ferramentas que permitem distinguir a

70

' chi ' ' disso ' ' for ' ' naquele ' ' outros ' ' que ' ' tinham '

' coisa ' ' disto ' ' foram ' ' naqueles ' ' para ' ' quem ' ' toda '

' coisas ' ' dito ' ' fosse ' ' naquilo ' ' pela ' ' são ' ' todas '

' com ' ' diz ' ' fossem ' ' naquilos ' ' pelas ' ' se ' ' todavia '

' comigo ' ' dizem ' ' fui ' ' nas ' ' pelo ' ' seja ' ' todo '

' como ' ' do ' ' grande ' ' nela ' ' pelos ' ' sejam ' ' todos '

' conforme ' ' dos ' ' grandes ' ' nelas ' ' pequena ' ' sem ' ' trás '

' conosco ' ' e ' ' há ' ' nele ' ' pequenas ' ' sempre ' ' tu '

' consigo ' ' é ' ' haver ' ' neles ' ' pequeno ' ' sendo ' ' tua '