uma abordagem de mineração de dados na concessão de crédito

21
Uma abordagem de Mineração de Dados na Concessão de Crédito David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE Recife, 01 de julho de 2009

Upload: maren

Post on 06-Feb-2016

26 views

Category:

Documents


0 download

DESCRIPTION

Uma abordagem de Mineração de Dados na Concessão de Crédito. David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE. Recife, 01 de julho de 2009. Sumário. Introdução Problema Mineração de Dados Modelagem Experimentos e Resultados Conclusões. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Uma abordagem de Mineração de Dados na Concessão de Crédito

Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. RibeiroIcamaan B. V. SilvaVictor C. M. Braz

Renata Souza

Centro de Informática – UFPE

Recife, 01 de julho de 2009

Page 2: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 2

Sumário

• Introdução• Problema • Mineração de Dados• Modelagem• Experimentos e Resultados• Conclusões

01/07/2009

Page 3: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 3

Introdução

• PAKDD 2009– Conferência líder nas áreas de mineração de

dados e descoberta de conhecimento– Robustez contra a degradação causada ao longo

de alguns anos de operação comercial– Conjuntos de dados provêm do cartão de crédito

(2003-2008)

01/07/2009

Page 4: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 4

Problema

• Avaliação de risco de crédito– Grande rede de lojas brasileiras– 8 anos de operação– Taxa de aceitação de 50% para 75% neste período

• Clientes maus– Atraso maior que 60 dias

01/07/2009

Page 5: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 5

Problema

• 31 variáveis afetadas pelas imperfeições típicas dos problemas reais, como o ruído, a falta de dados, outliers

• 9 variáveis numéricas e 22 categóricas

01/07/2009

Modelagem Período Leaderboard Período Prediction

12 meses 12 meses 12 meses 12 meses 12 meses

Page 6: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 6

Objetivo

• Extrair conhecimento dos dados de modelagem para obter o melhor desempenho

01/07/2009

Conjunto de Dados Modelagem Leaderboard Prediction

Número de Padrões 50.000 10.000 10.000

Intervalo de tempo 12 meses 12 meses 12 meses

Variável Alvo Rotulado Não Rotulado Não Rotulado

Prop. do Alvo 20% vs. 80% Não Revelado Não Revelado

Page 7: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 7

Objetivo

01/07/2009

Team Name University, Lab or Company AUC_ROC

TDMS Tiberius Data Mining Solutions 0.6292VladN Suncorp 0.6283LatentView Analytics LatentView 0.6215Victory Victory 0.6190

Leaderboard

Team Name University, Lab or Company AUC_ROC

Equinox ANZ 0.6588Weka1 University of Waikato 0.6569Logit Tel-Aviv University, ISRAEL 0.6550CRC University of Edinburgh 0.6510

Prediction

Page 8: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 8

Mineração de Dados

• Entendimento dos Dados

01/07/2009

ATRIBUTO DESCRIÇÃOAGE Idade do candidato

MARITAL_STATUS Estado civil do candidato

MONTHS_IN_THE_JOB Quantidade de meses trabalhando

FLAG_RESIDENCIAL_PHONE Indica se o candidato possui telefone residencial

ID_SHOP Identificador da loja

PERSONAL_NET_INCOME Renda

SEX Sexo

MONTHS_IN_RESIDENCE Quantidade de meses morando na atual residência

MATE_INCOME Renda do parceiro

Page 9: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 9

Mineração de Dados

• Eliminação de variáveis– 10 variáveis eliminadas

• Missing Values– 2 variáveis transformada para flag– Moda ou mediana

01/07/2009

Page 10: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 10

Mineração de Dados

• Outliers– 99º Percentil

01/07/2009

ATRIBUTO OUTLIERS

AGE 238SHOP_RANK 287MONTHS_IN_RESIDENCE 547MONTHS_IN_THE_JOB 1279PERSONAL_NET_INCOME 1QUANT_ADDITIONAL_CARDS_IN_THE_APPLICATION 885

Page 11: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 11

Mineração de Dados

• Importância das variáveis– KS e ROC

01/07/2009

Atributo KS2 Máx AUC_ROC

AGE 0,1912 0,3734SHOP_RANK 0,0095 0,4998MONTHS_IN_RESIDENCE 0,0489 0,4678MONTHS_IN_THE_JOB 0,1295 0,4329PERSONAL_NET_INCOME 0,0885 0,4482

Page 12: Uma abordagem de Mineração de Dados na Concessão de Crédito

12

Mineração de Dados

• Importância das variáveis– Ganho de informação

01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Ganho Atributo GANHO Atributo

0.0375023 AGE 0.0033416 QUANT_ADDITIONAL_CARDS_IN_THE0.0318123 DISCRETIZED_AGE 0.0019563 PAYMENT_DAY0.0175899 MARITAL_STATUS 0.0013251 RESIDENCE_TYPE0.0167471 MONTHS_IN_THE_JOB 0.0010863 FLAG_FATHERS_NAME0.0132986 FLAG_RESIDENCIAL_PHONE 0.0007554 PERSONAL_REFERENCE_20.0130153 ID_SHOP 0.0005608 SHOP_RANK0.010924 PERSONAL_NET_INCOME 0.0002966 FLAG_MOTHERS_NAME0.0048649 SEX 0.0001462 FLAG_RESIDENCE_TOWN_WORKING_TOWN0.0043717 MONTHS_IN_RESIDENCE 0.0000575 FLAG_RESIDENCIAL_ADDRESS_POSTAL0.0033898 MATE_INCOME 0.0000313 FLAG_RESIDENCE_STATE_WORKING_STATE

Page 13: Uma abordagem de Mineração de Dados na Concessão de Crédito

13

Mineração de Dados

• Correlação de Pearson

01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

RELAÇÃO ATRIBUTO VS. ATRIBUTOPEARSON

CORRELATION

AGE vs. MONTHS_IN_THE_JOB 0,358AGE vs. MONTHS_IN_RESIDENCE 0,253AGE vs. QUANT_ADDITIONAL_CARDS_IN 0,174

Page 14: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 14

Classificador

• Rede Neural MLP– Backpropagation– Sigmóide Logística– Taxa de aprendizagem 0.001– Momento 0.2

01/07/2009

Page 15: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 15

Experimentos

• Monte Carlo com 10 iterações• 4-Fold Cross Validation• Área sob a curva ROC

01/07/2009

Page 16: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 16

Resultados

01/07/2009

• Iteração 1

Page 17: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 17

Resultados

01/07/2009

EXPERIMENTO AUC_ROC

ITERAÇÃO 01 0.675ITERAÇÃO 02 0.671ITERAÇÃO 03 0.663ITERAÇÃO 04 0.655ITERAÇÃO 05 0.662ITERAÇÃO 06 0.670ITERAÇÃO 07 0.660ITERAÇÃO 08 0.665ITERAÇÃO 09 0.670ITERAÇÃO 10 0.672

Desempenho médio 0.666 e desvio padrão 0.0063

Page 18: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 18

Teste t

• A significancia do teste foi estipulada em 1%• 10 iterações resultando em nove graus de liberdade• t0 = 2.821

• t = 7.529• Logo, com 99% de confiança rejeitamos H0

01/07/2009

H0 : µ <= 0.651H1 : µ > 0.651

Page 19: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 19

Conclusões

• Resultados satisfatórios• Pouco tempo para um trabalho mais

detalhado permitindo a criação de novas variáveis

• Avaliar desempenho sobre o Leaderboard• Outros classificadores e a combinação entre

eles

01/07/2009

Page 20: Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 20

Referências

• PAKDD 2009 http://itpe.siit.tu.ac.th/papervue/front/

• C. Shearer, "The CRISP-DM model: the new blueprint for data mining“

• F. Tom, “An introduction to ROC analysis”• M.H. DeGroot, Probability and Statistics.

Addison-Wesley, 1980• W.J. Conover, Practical Nonparametric Statistics.

John Wiley & Sons,1998.

01/07/2009

Page 21: Uma abordagem de Mineração de Dados na Concessão de Crédito

Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. RibeiroIcamaan B. V. SilvaVictor C. M. Braz

Renata Souza

Centro de Informática – UFPE

Recife, 01 de julho de 2009