uma abordagem de mineração de dados na concessão de crédito

Post on 06-Feb-2016

26 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Uma abordagem de Mineração de Dados na Concessão de Crédito. David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE. Recife, 01 de julho de 2009. Sumário. Introdução Problema Mineração de Dados Modelagem Experimentos e Resultados Conclusões. - PowerPoint PPT Presentation

TRANSCRIPT

Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. RibeiroIcamaan B. V. SilvaVictor C. M. Braz

Renata Souza

Centro de Informática – UFPE

Recife, 01 de julho de 2009

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 2

Sumário

• Introdução• Problema • Mineração de Dados• Modelagem• Experimentos e Resultados• Conclusões

01/07/2009

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 3

Introdução

• PAKDD 2009– Conferência líder nas áreas de mineração de

dados e descoberta de conhecimento– Robustez contra a degradação causada ao longo

de alguns anos de operação comercial– Conjuntos de dados provêm do cartão de crédito

(2003-2008)

01/07/2009

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 4

Problema

• Avaliação de risco de crédito– Grande rede de lojas brasileiras– 8 anos de operação– Taxa de aceitação de 50% para 75% neste período

• Clientes maus– Atraso maior que 60 dias

01/07/2009

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 5

Problema

• 31 variáveis afetadas pelas imperfeições típicas dos problemas reais, como o ruído, a falta de dados, outliers

• 9 variáveis numéricas e 22 categóricas

01/07/2009

Modelagem Período Leaderboard Período Prediction

12 meses 12 meses 12 meses 12 meses 12 meses

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 6

Objetivo

• Extrair conhecimento dos dados de modelagem para obter o melhor desempenho

01/07/2009

Conjunto de Dados Modelagem Leaderboard Prediction

Número de Padrões 50.000 10.000 10.000

Intervalo de tempo 12 meses 12 meses 12 meses

Variável Alvo Rotulado Não Rotulado Não Rotulado

Prop. do Alvo 20% vs. 80% Não Revelado Não Revelado

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 7

Objetivo

01/07/2009

Team Name University, Lab or Company AUC_ROC

TDMS Tiberius Data Mining Solutions 0.6292VladN Suncorp 0.6283LatentView Analytics LatentView 0.6215Victory Victory 0.6190

Leaderboard

Team Name University, Lab or Company AUC_ROC

Equinox ANZ 0.6588Weka1 University of Waikato 0.6569Logit Tel-Aviv University, ISRAEL 0.6550CRC University of Edinburgh 0.6510

Prediction

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 8

Mineração de Dados

• Entendimento dos Dados

01/07/2009

ATRIBUTO DESCRIÇÃOAGE Idade do candidato

MARITAL_STATUS Estado civil do candidato

MONTHS_IN_THE_JOB Quantidade de meses trabalhando

FLAG_RESIDENCIAL_PHONE Indica se o candidato possui telefone residencial

ID_SHOP Identificador da loja

PERSONAL_NET_INCOME Renda

SEX Sexo

MONTHS_IN_RESIDENCE Quantidade de meses morando na atual residência

MATE_INCOME Renda do parceiro

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 9

Mineração de Dados

• Eliminação de variáveis– 10 variáveis eliminadas

• Missing Values– 2 variáveis transformada para flag– Moda ou mediana

01/07/2009

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 10

Mineração de Dados

• Outliers– 99º Percentil

01/07/2009

ATRIBUTO OUTLIERS

AGE 238SHOP_RANK 287MONTHS_IN_RESIDENCE 547MONTHS_IN_THE_JOB 1279PERSONAL_NET_INCOME 1QUANT_ADDITIONAL_CARDS_IN_THE_APPLICATION 885

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 11

Mineração de Dados

• Importância das variáveis– KS e ROC

01/07/2009

Atributo KS2 Máx AUC_ROC

AGE 0,1912 0,3734SHOP_RANK 0,0095 0,4998MONTHS_IN_RESIDENCE 0,0489 0,4678MONTHS_IN_THE_JOB 0,1295 0,4329PERSONAL_NET_INCOME 0,0885 0,4482

12

Mineração de Dados

• Importância das variáveis– Ganho de informação

01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

Ganho Atributo GANHO Atributo

0.0375023 AGE 0.0033416 QUANT_ADDITIONAL_CARDS_IN_THE0.0318123 DISCRETIZED_AGE 0.0019563 PAYMENT_DAY0.0175899 MARITAL_STATUS 0.0013251 RESIDENCE_TYPE0.0167471 MONTHS_IN_THE_JOB 0.0010863 FLAG_FATHERS_NAME0.0132986 FLAG_RESIDENCIAL_PHONE 0.0007554 PERSONAL_REFERENCE_20.0130153 ID_SHOP 0.0005608 SHOP_RANK0.010924 PERSONAL_NET_INCOME 0.0002966 FLAG_MOTHERS_NAME0.0048649 SEX 0.0001462 FLAG_RESIDENCE_TOWN_WORKING_TOWN0.0043717 MONTHS_IN_RESIDENCE 0.0000575 FLAG_RESIDENCIAL_ADDRESS_POSTAL0.0033898 MATE_INCOME 0.0000313 FLAG_RESIDENCE_STATE_WORKING_STATE

13

Mineração de Dados

• Correlação de Pearson

01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)

RELAÇÃO ATRIBUTO VS. ATRIBUTOPEARSON

CORRELATION

AGE vs. MONTHS_IN_THE_JOB 0,358AGE vs. MONTHS_IN_RESIDENCE 0,253AGE vs. QUANT_ADDITIONAL_CARDS_IN 0,174

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 14

Classificador

• Rede Neural MLP– Backpropagation– Sigmóide Logística– Taxa de aprendizagem 0.001– Momento 0.2

01/07/2009

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 15

Experimentos

• Monte Carlo com 10 iterações• 4-Fold Cross Validation• Área sob a curva ROC

01/07/2009

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 16

Resultados

01/07/2009

• Iteração 1

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 17

Resultados

01/07/2009

EXPERIMENTO AUC_ROC

ITERAÇÃO 01 0.675ITERAÇÃO 02 0.671ITERAÇÃO 03 0.663ITERAÇÃO 04 0.655ITERAÇÃO 05 0.662ITERAÇÃO 06 0.670ITERAÇÃO 07 0.660ITERAÇÃO 08 0.665ITERAÇÃO 09 0.670ITERAÇÃO 10 0.672

Desempenho médio 0.666 e desvio padrão 0.0063

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 18

Teste t

• A significancia do teste foi estipulada em 1%• 10 iterações resultando em nove graus de liberdade• t0 = 2.821

• t = 7.529• Logo, com 99% de confiança rejeitamos H0

01/07/2009

H0 : µ <= 0.651H1 : µ > 0.651

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 19

Conclusões

• Resultados satisfatórios• Pouco tempo para um trabalho mais

detalhado permitindo a criação de novas variáveis

• Avaliar desempenho sobre o Leaderboard• Outros classificadores e a combinação entre

eles

01/07/2009

David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 20

Referências

• PAKDD 2009 http://itpe.siit.tu.ac.th/papervue/front/

• C. Shearer, "The CRISP-DM model: the new blueprint for data mining“

• F. Tom, “An introduction to ROC analysis”• M.H. DeGroot, Probability and Statistics.

Addison-Wesley, 1980• W.J. Conover, Practical Nonparametric Statistics.

John Wiley & Sons,1998.

01/07/2009

Uma abordagem de Mineração de Dados na Concessão de Crédito

David J. RibeiroIcamaan B. V. SilvaVictor C. M. Braz

Renata Souza

Centro de Informática – UFPE

Recife, 01 de julho de 2009

top related