painel 01 02 - felipe fonseca - classificação de clientes bancários com baixa renda

13
Classificação de clientes bancários com baixa renda Felipe Alves Fonseca Brasil 100% Digital Seminário sobre Análise de Dados na Administração Pública Set/2015

Upload: tribunal-de-contas-da-uniao-tcu-oficial

Post on 10-Jan-2017

211 views

Category:

Technology


0 download

TRANSCRIPT

Classificação de clientes bancários com baixa renda

Felipe Alves Fonseca

Brasil 100% DigitalSeminário sobre Análise de Dados na Administração Pública

Set/2015

12

34

Contexto

Problema

Metodologia

Resultados

56

Considerações finais

Bibliografia

Instituições financeiras -> Concessão de crédito

Gestão do Risco de crédito

Modelo único x Segmentação

Contexto

Classes C, D e E com mais acesso aos bancos

Necessidade de modelo específico para esse público

Existência de grupo com inadimplência elevada

Problema

Inadimplência 300% maior!

Identificação feita através do canal de abertura da c/c

Não é desejável segmentação por canal

Necessário criar segmentação que não dependa do canal

Problema

Inadimplência 300% maior!

1 Clientes com renda inferior à R$ 2500 e c/c em out/14

2 Amostra pareada de 40.000 clientes

3 13 variáveis cadastrais

MetodologiaEstado civilNível de instruçãoSexoIndicador União estávelTipo de residênciaIndicador de telefone fixoIndicador de celularRegião geográficaOcupação principalNatureza da ocupaçãoSalário líquidoTempo no empregoIdade

1 Clientes com renda inferior à R$ 2500 e c/c em out/14

2 Amostra pareada de 40.000 clientes

3 13 variáveis cadastrais

4 Amostra para treino de 60% e teste 40%

5 Validação feita através do 10-fold Cross Validation

6 Técnicas de classificação: •Random Forest•Support Vector Machine•Regressão Logística

Metodologia

AUROCTeste estatístico de comparação das médias da área sob a curva ROC das três técnicas testadas

ResultadosResultados obtidos nas 10 amostras de validação

VariáveisCinco variáveis mais importantes nas várias árvores de decisão criadas no Random Forest

ResultadosResultados obtidos nas 10 amostras de validação

Salário líquido

Tempo de ocupação

Idade

Ocupação principal

Tel. Res. cadastrado

Importância

AUROC

VS

ResultadosResultados obtidos na amostra de teste

Sensibilidade

Acurácia

Especificidade

Com apenas 14 variáveis, todas cadastrais, foram obtidos bons resultados

Independente do canal de atendimento, é possível classificar um cliente como pertencente ao grupo de maior risco assim que ele abre sua conta, possibilitando uma melhor gestão do risco e o desenvolvimento de modelos mais especializados.

Random Forest se mostrou a melhor escolha, acertando bem os clientes com baixa e com alta inadimplência.

Considerações finais

• ANDERSON, R. The credit scoring toolkit. Oxford University Press, 2007.

• BREINAN, L. Random forests. Machine Learning, v. 45, p. 5–32, 2011.• MAKUCH, W. M. The basics of a better application score.

GlenlakePublishing Company, 2001. • SIDDIQI, M. Credit risk scorecards: Developing and implementing

intelligent credit scoring. Wiley, 2005. • THOMAS, L. C. Consumer credit models: Pricing, profit, and

portfolios.Oxford University Press, 2009.• VAPNIK, V. N. The nature of statistical learning theory. Springer,

1995.• Imagens:

• “poor” by Nicolas Vicent from the Noun Project• “Bank” by Mark Caron from the Noun Project• “earn money” by TukTuk Design from the Noun Project• “Man by Jennifer” Morrow from the Noun Project

Bibliografia

ContatosFelipe Alves [email protected]+55 61 3493-2117

Obrigado!