medidas do valor preditivo de modelos de classificação ... · modelagem, podemos citar a...

41
1 CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico PROJETO DE PESQUISA DE INICIAÇÃO CIENTÍFICA Medidas do Valor Preditivo de Modelos de Classificação Aplicados a Dados de Crédito Paulo Henrique Ferreira da Silva Orientador/PQ-CNPq: Francisco Louzada Neto Centro de Estudos do Risco (CER) Departamento de Estatística Universidade Federal de São Carlos São Carlos, 29 de agosto de 2008

Upload: vuongminh

Post on 01-Dec-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

1

CNPq - Conselho Nacional de Desenvolvimento Científico e

Tecnológico

PROJETO DE PESQUISA DE INICIAÇÃO CIENTÍFICA

Medidas do Valor Preditivo de Modelos de

Classificação Aplicados a Dados de Crédito

Paulo Henrique Ferreira da Silva

Orientador/PQ-CNPq: Francisco Louzada Neto

Centro de Estudos do Risco (CER)

Departamento de Estatística

Universidade Federal de São Carlos

São Carlos, 29 de agosto de 2008

2

Sumário

1. Introdução 3

2. Modelo de Credit Scoring: Etapas de Desenvolvimento 5

2.1. Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2. Planejamento Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2.1. Descrição de um Problema - Credit Scoring . . . . . . . . . . . . . . . . 9

2.3. Determinação do Escore . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.1. Transformação e Seleção de Variáveis . . . . . . . . . . . . . . . . . . . . . 10

2.3.2. Regressão Logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.3. Regressão Logística com Seleção de Amostra State-Dependent . . 14

2.4. Validação do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.4.1. Medidas de Desempenho e Curva ROC . . . . . . . . . . . . . . . . . . . . 17

2.4.2. Capacidade de Acerto dos Modelos . . . . . . . . . . . . . . . . . . . . . . . 22

2.5. Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3. Simulação 24

3.1. Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2. Simulação Computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3. Simulação Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.3.1. Método Bootstrap Não-Paramétrico . . . . . . . . . . . . . . . . . . . . . . . 28

3.3.2. Intervalo de Confiança Bootstrap – Método dos Percentis . . . . . . 28

3.4. Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4. Resultados da Simulação 31

4.1. Descrição das Bases de Dados Geradas e Procedimentos Adotados . . . . . . 31

4.2. Resultados das Simulações – Probabilidades Estimadas . . . . . . . . . . . . . . . 33

4.3. Resultados das Simulações – Medidas de Desempenho . . . . . . . . . . . . . . . .35

5. Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Bibliografia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3

Capítulo 1

Introdução

Historicamente, os modelos de Credit Scoring vêm sendo utilizados por várias empresas

como uma das principais ferramentas de suporte à concessão de crédito. Além disso,

mudanças ocorridas no cenário financeiro mundial, a partir dos anos 90, tais como

desregulamentação das taxas de juros e câmbio, aumento de liquidez e aumento da

competição bancária, fizeram com que as instituições financeiras se preocupassem cada

vez mais com o risco de crédito, ou seja, com o risco que elas estavam correndo ao

aceitar alguém como seu cliente. Assim, a necessidade de controle e gerenciamento

eficaz do risco fez com que as instituições financeiras passassem a utilizar cada vez

mais a modelagem estatística como uma das principais ferramentas de controle de risco,

e por isso passaram a buscar continuamente o aprimoramento dos modelos. A concessão

de crédito ganhou força na rentabilidade de empresas do setor financeiro se tornando

uma das principais fontes de receita de bancos e instituições financeiras em geral, por

isso esse setor percebeu cada vez mais forte a necessidade de se aumentar o volume de

recursos concedidos sem perder a agilidade e a qualidade dos empréstimos, e nesse

ponto a contribuição da modelagem estatística foi essencial.

Os primeiros modelos de Credit Scoring foram desenvolvidos por volta de 1950 e 1960,

e os métodos aplicados nesse tipo de problema se referiam aos métodos de

discriminação sugeridos por Fisher (1936) onde os modelos eram baseados na sua

função discriminante. Conforme assinala Thomas (2000, p.6), David Durand, em 1941,

foi o primeiro a reconhecer que a técnica de análise discriminante, inventada por Fisher

em 1936, poderia ser usada para separar bons e maus empréstimos. De acordo com

Kang e Shin (2000, p.2198), Durand apresentou um modelo que atribuía pesos para

cada uma das variáveis usando análise discriminante. Assim, a abordagem de Fisher

pode ser vista como um ponto inicial para a evolução e modificações das metodologias

utilizadas nesse tipo de problema até os dias atuais, em que técnicas como regressão por

árvores, regressão logística, regressão logística limitada, algoritmos genéticos e redes

neurais dentre outras são utilizadas.

O objetivo principal desse trabalho é, além de descrever e aplicar os procedimentos

estudados em dados de Credit Scoring, o de comparar, por meio de um estudo de

simulação, a capacidade preditiva de modelos de classificação ajustados a partir das

4

técnicas de Regressão Logística usual (Hosmer & Lemeshow, 1989) e Regressão

Logística com seleção de amostra state-dependent (quando apenas uma parcela da

categoria mais freqüente – os bons pagadores, por exemplo - é considerada para o

ajuste). Dentre as medidas comumente utilizadas para avaliar o valor preditivo da

modelagem, podemos citar a sensibilidade, a especificidade, os valores de predição

positivo e negativo, a acurácia, o coeficiente de correlação de Matthews, a correlação

aproximada, a entropia relativa e a medida de informação mútua, as quais serão

consideradas neste trabalho.

O relatório é organizado da seguinte maneira. No Capítulo 2 são descritas as principais

etapas de desenvolvimento de um modelo de Credit Scoring e a metodologia

apresentada é ilustrada em um conjunto de dados reais, considerando o ajuste de um

modelo de Regressão Logística. No Capítulo 3 é discutida a importância da simulação

como ferramenta em inúmeros projetos, sendo também descrito o método de simulação

Bootstrap, que é um dos mais utilizados. No Capítulo 4 são apresentados os principais

resultados do estudo de simulação realizado, quando da comparação das técnicas de

Regressão Logística e Regressão Logística com seleção de amostra state-dependent, por

meio das medidas de desempenho mencionadas anteriormente. Comentários finais e

conclusões, no Capítulo 5, finalizam o relatório.

5

Capítulo 2

Modelo de Credit Scoring: Etapas de Desenvolvimento

2.1. Introdução

O desenvolvimento de um modelo de Credit Scoring consiste, de uma forma geral, em

buscar características dos clientes que estejam relacionadas significativamente com o

seu risco de crédito. Ou seja, esses modelos visam à segregação de características que

permitam distinguir os bons dos maus empréstimos (Lewis, 1992).

Os modelos de classificação são desenvolvidos a partir de bases históricas do

comportamento dos clientes, bem como a partir de bases que contenham informações

pertinentes às características cadastrais dos mesmos, tais como sexo, idade, estado civil,

entre outras. Segundo Sicsu (1999), o desenvolvimento de um modelo de Credit

Scoring compreende as seguintes etapas:

i) Planejamento e definições;

ii) Identificação de variáveis potenciais;

iii) Planejamento Amostral;

iv) Determinação do escore: aplicação da metodologia estatística;

v) Validação e verificação de performance do modelo estatístico;

vi) Determinação do ponto de corte ou faixas de escore;

vii) Determinação de regra de decisão;

Neste trabalho, as etapas iii, iv e v serão apresentadas com mais detalhes por estarem

intimamente relacionadas com o objetivo do mesmo.

A construção de um modelo de Credit Scoring está inserida no contexto de Data

Mining. Segundo Thomas et al (2002), Data Mining tem a base de suas metodologias e

técnicas estatísticas originadas em um problema de Credit Scoring, porém seu conceito

sendo aplicado de forma mais abrangente.

Data Mining é o processo de explorar grandes quantidades de dados à procura de

padrões consistentes, como regras de associação ou sequências temporais, para detectar

6

relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de

dados. O conceito de Data Mining está muito relacionado com a construção de modelos

e, no caso de um problema de Credit Scoring, o interesse é predizer e conhecer os

fatores relacionados ao risco de crédito de indivíduos interessados nos serviços

prestados pelas instituições financeiras.

2.2. Planejamento Amostral

Para a definição do delineamento amostral na construção de um modelo de Credit

Scoring, é importante que o planejamento e as definições iniciais do problema sejam

observados também para a amostra. Dessa maneira, definições como para qual produto

ou família de produtos e para qual ou quais mercados o modelo será desenvolvido,

também devem ser levados em consideração para a obtenção da amostra.

As bases de dados a partir das quais um modelo é construído são formadas por clientes

cujos créditos foram concedidos e seus desempenhos foram observados durante um

período de tempo no passado que deve ser o mais recente possível a fim de que não se

trabalhe com operações de crédito muito antigas que podem ser menos representativas

da realidade atual. Assim, uma premissa fundamental na construção de modelos de

Credit Scoring e preditivos em geral, é que as características e a forma como essas se

relacionaram com o desempenho de crédito, ou seja, com o evento de interesse, no

passado serão parecidos no futuro.

Um fator importante que deve ser considerado na construção do modelo é o horizonte

de previsão, sendo necessário estabelecer um espaço de tempo para a previsão do Credit

Scoring, ou seja, o intervalo entre a solicitação do crédito e a classificação do cliente

como bom ou mau pagador. A regra é de 12 a 18 meses, porém na prática se observa

que um intervalo de 12 meses é o mais utilizado. Thomas (2002) também propõe um

período de 12 meses para modelos de Credit Scoring, sugerindo que a taxa de

inadimplência dos clientes das instituições financeiras em função do tempo aumenta no

início e se estabiliza somente após 12 meses. Assim, qualquer horizonte de previsão

mais breve do que esse pode não refletir de forma real o percentual de maus clientes,

prejudicando uma possível associação entre as características dos indivíduos e o evento

de interesse modelado (inadimplência). Por outro lado, a escolha de um intervalo de

tempo muito longo para o horizonte de previsão também pode não trazer benefícios,

7

fazendo com que a eficácia do modelo diminua, uma vez que pela distância temporal os

eventos se tornam pouco correlacionados com potenciais variáveis explanatórias

normalmente obtidas no momento da solicitação do crédito.

Outro aspecto importante a ser levado em consideração na construção de modelos

preditivos baseados em dados históricos é o fator tempo, onde o objetivo é garantir que

o passado realmente sirva como preditor do futuro. Porém, o fato é que modelos podem

se ajustar bem no passado, possuindo uma boa capacidade preditiva, mas o mesmo não

ocorrendo quando aplicado a dados mais recentes. O desempenho desses modelos pode

ser afetado também pela raridade do evento modelado, onde há dificuldade em

encontrar indivíduos com a característica de interesse, sendo que um exemplo clássico é

o risco de fraude em cartões de crédito, mas no contexto de Credit Scoring isso também

pode ocorrer, principalmente quando a amostra é selecionada pontualmente, em um

único mês ou semana, por exemplo, não havendo número suficiente de indivíduos para

identificar as diferenças de padrões desejadas entre bons e maus pagadores. Assim, o

dimensionamento da amostra é um fator muito relevante no desenvolvimento de

modelos de Credit Scoring e no contexto de Data Mining de uma forma geral. É

interessante que a amostra seja suficientemente grande tal que permita uma possível

divisão da mesma em duas partes – de desenvolvimento (ou treinamento) e teste. Mas

essa divisão jamais deve substituir a validação dos modelos, sempre que possível, em

um conjunto de dados mais recente, o que permite trazer ganhos na metodologia de

desenvolvimento de um Credit Scoring de forma geral, obtendo assim resultados das

avaliações dos modelos mais próximos da realidade atual, verificando assim o real

desempenho dos modelos que servirão de ferramentas para as tomadas de decisões.

Lewis (1992) sugere que, em geral, amostras com menos de 1500 clientes bons e 1500

clientes maus podem inviabilizar a construção de modelos com capacidade preditiva

aceitável para um modelo de Credit Scoring, além de não permitir a sua divisão em

amostra de desenvolvimento (treinamento) e amostra de teste.

É comum na prática, quando se desenvolve um modelo de Credit Scoring, observarmos

um desbalanceamento significativo entre o número de bons e maus pagadores nas bases

de clientes das instituições financeiras, muitas vezes da ordem de 20 bons para 1 mau.

Isso pode prejudicar o desenvolvimento do modelo, visto que o número de maus

pagadores pode ser muito pequeno e insuficiente para estabelecer perfis com relação às

variáveis explanatórias e também para observar possíveis diferenças em relação aos

bons pagadores, além de ocorrer como que se praticamente um único resultado estivesse

8

sendo considerado pelo modelo, no caso os bons clientes, principalmente quanto maior

for esse desbalanceamento entre o número de bons e maus. Assim, uma amostragem

aleatória simples nem sempre é indicada nessa situação, sendo necessário utilizar uma

metodologia conhecida como Oversampling, a qual consiste em aumentar a proporção

do evento raro, ou mesmo não sendo tão raro, da categoria menos frequente na amostra.

Como essa técnica trabalha com proporções diferentes de cada categoria, daí o fato de

ser conhecida também como Amostra Aleatória Estratificada. Berry e Linoff (2000)

expressam, em um problema com variável resposta binária, a idéia de se ter na amostra

de desenvolvimento para a categoria mais rara ou menos freqüente entre 10% e 40% dos

indivíduos - e que valores entre 20% e 30% normalmente produzem bons resultados

para modelos no contexto de Data Mining de uma forma geral. Thomas (2002) sugere

que as amostras em um modelo de Credit Scoring tendem a estar em uma proporção de

1:1, de bons e maus clientes, ou algo em torno desse valor. É comum também na prática

selecionar todos os maus pagadores possíveis juntamente com uma amostra de mesmo

tamanho de bons pagadores para o desenvolvimento do modelo.

A sazonalidade na ocorrência do evento modelado é outro fator importante a ser

considerado no planejamento amostral, visto que a seleção da amostra em momentos

específicos no tempo em que o comportamento do evento é atípico pode acabar

afetando e comprometendo diretamente o desempenho do modelo de classificação.

Outro aspecto também importante é com relação à variabilidade da ocorrência do evento

de interesse, uma vez que ele pode estar sujeito a fatores externos e não-controláveis,

como a conjuntura econômica, por exemplo, que fazem com que a seleção da amostra

pontualmente em algum momento específico do tempo também traga problemas de não-

representatividade da mesma com relação ao evento e assim uma maior instabilidade do

modelo. Um delineamento amostral alternativo e que minimiza o efeito desses fatores

descritos anteriormente (e que podem causar instabilidade nos modelos) consiste em

compor a amostra de forma que os clientes possam ser selecionados em vários pontos

ao longo do tempo, comumente chamado de “safras” de clientes. No contexto de Credit

Scoring, por exemplo, a escolha de 12 safras ao longo de um ano minimiza

consideravelmente a instabilidade do modelo provocada pelos fatores descritos.

Por fim, deve-se destacar que a definição do delineamento amostral está intimamente

relacionada também com o volume de dados históricos e a estrutura de armazenamento

dessas informações encontrada nas empresas e instituições financeiras, os quais podem

9

permitir ou não que a modelagem do evento de interesse se aproxime mais ou menos da

realidade observada.

2.2.1. Descrição de um Problema - Credit Scoring

Geralmente, em problemas de Credit Scoring, as informações disponíveis para

correlacionar com a inadimplência são as próprias características dos clientes. Assim,

um modelo de Credit Scoring consiste em avaliar quais fatores estão associados ao risco

de crédito dos clientes, bem como a intensidade e a direção de cada um desses fatores,

gerando um escore final, através do qual potenciais clientes podem ser ordenados e/ou

classificados segundo uma probabilidade de inadimplência.

O conjunto de dados (estudo de caso) utilizado neste trabalho constitui de informações

de uma instituição financeira (banco) onde os clientes adquiriram um produto de

crédito. Esse banco tem como objetivo, a partir desse conjunto de dados, medir o risco

de inadimplência de potenciais clientes que busquem adquirir o produto. As variáveis

disponíveis no banco de dados correspondem às características cadastrais dos clientes, o

valor referente ao crédito concedido, bem como um “flag” descrevendo seu desempenho

de pagamento nos 12 meses seguintes ao da concessão do crédito. Essas informações

servirão para a construção do modelo preditivo a partir da metodologia estudada, a

Regressão Logística, o qual poderá ser aplicado em futuros potenciais clientes,

permitindo que eles possam ser ordenados segundo uma “probabilidade” de

inadimplência, a partir da qual as políticas de crédito da instituição possam ser

definidas. A figura seguinte (Figura 1) mostra a idéia do desenvolvimento e aplicação

de um modelo de Credit Scoring.

Figura 1: Esquema - Aplicação de um modelo de Credit Scoring.

10

A base total de dados é de 5909 clientes. Para a construção do modelo preditivo

utilizando a metodologia de Regressão Logística, uma amostra de desenvolvimento

correspondente a 70% dessa base de dados foi utilizada para o ajuste de um modelo de

Regressão Logística usual (Hosmer & Lemeshow, 1989) e o restante 30% dos dados foi

utilizado como amostra de teste para verificação da adequabilidade do modelo.

2.3. Determinação do Escore

Determinado o planejamento amostral e obtidas as informações necessárias para o

desenvolvimento do modelo, o passo seguinte é estabelecer a técnica estatística ou

matemática a ser utilizada para a determinação dos escores. Mas, antes disso, uma

análise exploratória (descritiva) dos dados deve sempre ser realizada a fim de que uma

maior familiarização com os dados possa ser obtida, ocorrendo uma melhor definição da

técnica a ser utilizada e, conseqüentemente, o desenvolvimento do modelo podendo

também ser aprimorado. Essa análise inicial tem alguns objetivos, dentre os quais se

destacam: identificação de eventuais inconsistências e presença de outliers; comparação

dos comportamentos das variáveis explanatórias, no caso de um Credit Scoring, entre a

amostra de bons e maus pagadores, identificando assim potenciais variáveis

correlacionadas com o evento modelado (inadimplência) e também para definir

possíveis transformações de variáveis, bem como a criação de novas a serem utilizadas

no modelo.

2.3.1. Transformação e Seleção de Variáveis

Quando se desenvolve modelos de Credit Scoring, é muito comum na prática tratar as

variáveis como categóricas, independente de sua natureza discreta ou contínua,

buscando sempre a simplicidade na interpretação dos resultados obtidos. Segundo

Thomas (2002), essa categorização ou reagrupamento deve ser feito tanto para variáveis

originalmente contínuas como para as categóricas. Para as variáveis de origem

categórica, a idéia é construir categorias com números suficientes de indivíduos para

que se faça uma análise robusta, principalmente quando o número de categorias é

originalmente elevado e, em algumas delas, a freqüência é muito baixa. As variáveis

contínuas, ao serem transformadas em categorias, apresentam ganhos com relação à

11

interpretabilidade dos parâmetros. Gruenstein (1998), assim como Thomas (2002),

afirma que esse tipo de transformação nas variáveis contínuas pode trazer ganhos

também no poder preditivo do modelo de classificação, principalmente quando a

variável explanatória em questão se relaciona de forma não-linear com o evento de

interesse, como pode ocorrer, por exemplo, no caso de um Credit Scoring.

Uma técnica bastante utilizada para realizar a transformação de variáveis contínuas em

categóricas ou a recategorização de uma variável discreta é a técnica CHAID (Chi-

Squared Automatic Interaction Detector), que consiste em dividir a amostra em grupos

menores a partir da associação de uma ou mais variáveis independentes com a variável

resposta (a ocorrência ou não do evento de interesse, por exemplo, a inadimplência).

Essa divisão da amostra, ou seja, a criação de categorias para as variáveis explanatórias

de natureza contínua ou o reagrupamento das discretas, é baseada no teste de associação

Qui-Quadrado, buscando a melhor categorização da amostra com relação a cada uma

dessas variáveis ou conjunto delas, de forma que o valor da estatística desse teste seja

maximizado, tornando assim disponíveis as “novas” variáveis que são potenciais de

fazer parte do modelo, agora em categorias e normalmente tratadas como dummies, que

são variáveis indicadoras que determinam se o cliente está ou não na categoria de

interesse, assumindo valor 1 se pertence a essa categoria e 0 caso contrário. Assim,

essas “novas” variáveis podem ser utilizadas na Regressão Logística, podendo ser

escolhidas para compor o modelo final através de algum método de seleção de

variáveis, como por exemplo, o Stepwise, que é o mais utilizado.

Os níveis de significância de entrada e saída das variáveis utilizadas pelo método

Stepwise podem ser considerados com valores inferiores aos tradicionalmente utilizados

em Estatística, que são de 0,05 (5%), a fim de que a entrada e a permanência de

variáveis “sem efeito prático” sejam minimizadas. Além do critério estatístico, a

experiência de especialistas da área de crédito, juntamente com o bom-senso na

interpretação dos parâmetros, devem ser considerados, sempre que possível, na seleção

de variáveis.

2.3.2. Regressão Logística

Na maioria das vezes, os modelos de regressão estabelecem a relação entre uma variável

resposta e uma ou mais variáveis independentes (explanatórias). No caso da Regressão

12

Logística, a variável resposta é discreta, podendo, dessa forma, ser utilizada para

descrever a relação entre a ocorrência ou não de um evento de interesse e um conjunto

de variáveis explanatórias.

No contexto de Credit Scoring, a variável resposta corresponde ao desempenho

creditício dos clientes durante um determinado período de tempo (geralmente, de 12

meses), e um conjunto de características dos indivíduos (sexo, estado civil, etc.) bem

como informações a respeito do próprio produto de crédito a ser utilizado (número de

parcelas, finalidade, valor do crédito, etc.) são observadas no momento em que eles

solicitam o crédito.

Essa metodologia foi aplicada na amostra de desenvolvimento (70% da base total de

dados) adotando um horizonte de previsão de 12 meses e foi considerada como variável

resposta a ocorrência - “maus clientes: flag = 1” - ou não - “bons clientes: flag = 0” - de

falta de pagamento dentro desse período.

O modelo construído a partir da amostra de desenvolvimento utilizando a Regressão

Logística fornece escores que, quanto maior o valor obtido para os clientes pior o

desempenho de crédito esperado para eles, uma vez que o mau pagador (inadimplência)

foi considerado como o evento de interesse. Os valores utilizados como escore final

foram obtidos através da sua parte linear, ou seja, pelo valor de ^

'x ββββ .

O modelo de Regressão Logística é determinado pela seguinte relação:

0 1 1log ...1 p p

px x

pβ β β

= = + + +

'x ββββ ,

onde p é definido como a probabilidade de um cliente com o perfil definido pelas p

covariáveis, 1 2, ,..., pX X X , ser, por exemplo, um mau pagador. Algumas dessas

covariáveis foram obtidas pelas categorizações sugeridas pela Análise de Agrupamento

(Cluster Analysis) e selecionadas através do seu p-valor considerando um nível de

significância de 0,05 (5%). Sendo assim, variáveis com p-valor inferior a 0,05 foram

mantidas no modelo. O modelo final obtido através da Regressão Logística para a

amostra de desenvolvimento encontra-se na Tabela 1 a seguir.

13

Tabela 1: Resultados do modelo de Regressão Logística obtido para a amostra de desenvolvimento (70%

da base de dados), extraída de uma carteira de um banco (dados financeiros).

Variáveis Descrição das Variáveis Estimativa

Erro-

Padrão 2χ p-valor

Odds-

Ratio

L.I.

(95%)

L.S.

(95%)

Intercepto - -1,1818 0,2331 25,698 <,0001

var1 Tipo de cliente: 1 0,5014 0,0403 154,952 <,0001 2,726 2,328 3,192

var4 Sexo: Feminino -0,1784 0,0403 19,570 <,0001 0,700 0,598 0,820

var5_C Est. Civil: Casado -0,4967 0,0802 38,351 <,0001 0,450 0,318 0,637

var5_D Est. Civil: Divorciado 0,4604 0,1551 8,814 0,0030 1,171 0,715 1,918

var5_S Est. Civil: Solteiro -0,2659 0,0910 8,541 0,0035 0,567 0,392 0,819

var11C_1 T. residência ≤ 8 anos 0,5439 0,2273 5,724 0,0167 1,545 0,765 3,122

var11C_3 8 < T. residência ≤ 20 0,1963 0,2284 0,738 0,3903 1,091 0,539 2,209

var11C_2 20 < T. residência ≤ 35 -0,0068 0,2476 0,001 0,9780 0,891 0,423 1,875

var11C_4 T. residência > 49 anos -0,8421 0,8351 1,017 0,3133 0,386 0,045 3,310

var12C_3 Idade ≤ 22 anos 1,8436 0,1383 177,638 <,0001 8,158 6,078 10,950

var12C_1 22 < Idade ≤ 31 1,3207 0,1172 127,033 <,0001 4,836 3,802 6,152

var12C_2 31 < Idade ≤ 43 0,2452 0,1123 4,767 0,029 1,650 1,314 2,072

var12C_5 55 < Idade ≤ 67 -1,2102 0,1576 58,967 <,0001 0,385 0,269 0,550

var12C_6 67 < Idade ≤ 78 -1,3101 0,2150 37,132 <,0001 0,348 0,212 0,572

var12C_4 Idade > 78 anos -0,6338 0,4470 2,010 0,1562 0,685 0,243 1,929

Analisando o resultado do modelo obtido para a amostra de desenvolvimento e sabendo

que a odds ratio é uma medida que representa o quão mais provável é de se observar o

evento de interesse (no caso, a inadimplência) para um indivíduo classificado em uma

categoria específica da variável explanatória em relação às quais foram deixadas como

referência, pode ser observado o seguinte a respeito de cada variável presente no

modelo final:

TIPO DE CLIENTE: o fato do cliente ser do tipo 1 (cliente há mais de um ano) faz com

que o risco de crédito aumente quase 3 vezes (2,726) em relação àqueles que são do tipo

2 (há menos de um ano na base);

SEXO: o fato do cliente ser do sexo feminino reduz o risco de apresentar algum

problema de crédito com a instituição financeira, onde o valor da odds de 0,7 na

Regressão Logística indica que a “chance de se observar algum problema” para os

14

clientes que são do sexo feminino é aproximadamente 70% do que para os que são do

sexo masculino.

ESTADO CIVIL: a categoria viúvo (referência) contribui para o aumento do risco de

crédito em relação às categorias casado e solteiro, mas não se pode afirmar isso em

relação à categoria divorciado, visto que a odds não é estatisticamente significativa (o

valor 1 está contido no intervalo de 95% de confiança para a odds).

TEMPO DE RESIDÊNCIA: pode-se notar que quanto menor o tempo que o cliente tem

na atual residência maior o seu risco de crédito, embora nenhuma das odds seja

estatisticamente significante para essa variável.

IDADE: para essa variável, fica evidenciado que quanto menor a idade dos clientes

maior o risco de inadimplência.

2.3.3. Regressão Logística com Seleção de Amostra State-Dependent

A Regressão Logística com seleção de amostra state-dependent é uma técnica

empregada em situações em que a amostra utilizada para o desenvolvimento do modelo,

a selected sample, contém apenas uma parcela dos indivíduos que compõem um dos

dois grupos em estudo, em geral o grupo mais freqüente (em Credit Scoring, por

exemplo, espera-se que o grupo predominante seja o de bons pagadores). Em suma, esta

técnica realiza uma correção na probabilidade predita (estimada) de um indivíduo ser,

por exemplo, um mau pagador, segundo o modelo de Regressão Logística.

Considere uma amostra grande de observações com variáveis preditoras xi e variável

resposta Yi binária (0,1), em que o evento 1iY = (o i-ésimo cliente é um mau pagador,

por exemplo) é pouco freqüente, enquanto o complementar 0iY = (o i-ésimo cliente é

um bom pagador) é abundante. O modelo especifica que a probabilidade de que o i-

ésimo cliente seja um mau pagador, como uma função dos xi, é dada por:

( ) ( )* *1 , .i i i i

P Y p pθ= = =x x

Queremos estimar θ a partir de uma selected sample, a qual é obtida descartando parte

das observações de 0 (bons pagadores), por razões de conveniência. Supondo que a full

sample inicial seja uma amostra aleatória com fração amostral α e que somente uma

15

fração γ das observações de 0 é retida (aleatoriamente), então a probabilidade de que o

cliente i seja um mau pagador ( )1iY = e esteja incluído na amostra, é dada por:

*,ipα

enquanto para 0iY = é

( )*1 .i

pγα −

Portanto, pelo Teorema de Bayes, temos que a probabilidade de que um elemento

qualquer da selected sample seja um mau pagador ( )1iY = , é dada por:

( )

*

* *.

1i

i

i i

pp

p pγ=

+ −ɶ

A verossimilhança da amostra observada, em termos de ipɶ , é

( ) ( ) ( )log log , , 1 log , , .i i i i i iL Y p Y pθ γ θ γ= + −∑ ɶ ɶx x

Se γ é conhecido, os parâmetros de qualquer especificação de *ip podem ser estimados

a partir da selected sample por métodos padrões de Máxima Verossimilhança.

Para o caso em que o modelo em estudo é o modelo de Regressão Logística, ipɶ pode

ser calculado por:

( )

( )

( )

( )( )

( )

'' '

' ''

1 .expexp exp ln.

1exp 1 exp ln1 .exp

ii i

i

i ii

pγγ

γ γγ

−= = =

+ + −+ɶ

xx x

x xx

βββββ ββ ββ ββ β

β ββ ββ ββ βββββ

Na expressão acima, vemos que o ipɶ da selected sample também obedece ao modelo de

Regressão Logística e, com exceção do intercepto, os mesmos parâmetros ββββ se aplicam

à full sample. No caso, o intercepto da full sample pode ser obtido adicionando lnγ ao

intercepto da selected sample.

16

2.4. Validação do Modelo

Em suma, um bom modelo é aquele cujo escore produzido consegue distinguir os

eventos, ou seja, os bons e maus pagadores, uma vez que o que se deseja é identificar

previamente esses grupos e tratá-los de maneira distinta através de diferentes políticas

de relacionamento. Uma das idéias envolvidas em medir o desempenho do modelo está

em saber o quão bem ele classifica os clientes. A lógica e a prática sugerem que a

avaliação do modelo na própria amostra de treinamento, utilizada para o seu

desenvolvimento, apresenta resultados melhores do que se avaliado em outra amostra,

uma vez que o modelo incorpora peculiaridades inerentes da amostra utilizada para sua

construção (Abreu, 2004). Desta forma, um procedimento sugerido consiste na

consideração de uma amostra distinta da de seu desenvolvimento na avaliação do

modelo, chamada de holdout ou amostra de teste. Em Credit Scoring, muitas vezes o

tamanho da amostra, na ordem de milhares de registros, permite que uma nova amostra

seja obtida para a validação do modelo, onde a situação ideal para se testar um modelo é

a obtenção de amostras mais recentes, a fim de que uma medida de desempenho mais

próxima da real e atual utilização do modelo seja alcançada.

Em Estatística, existem alguns métodos padrões para descrever o quanto duas

populações são diferentes com relação a alguma característica medida e observada. No

contexto de Credit Scoring, esses métodos medem o quão bem os escores produzidos

por um modelo construído separam os grupos de bons e maus pagadores. Uma medida

de separação muito utilizada para avaliar um modelo de Credit Scoring é a estatística de

Kolmogorov-Smirnov (KS), mas o modelo pode também ser avaliado através da curva

ROC (Receiver Operating Characteristic), a qual permite comparar o desempenho de

modelos através da escolha de critérios de classificação dos clientes em bons e maus

pagadores de acordo com a escolha de diferentes pontos de corte ao longo das

amplitudes dos escores observadas para os modelos obtidos. Porém, muitas vezes, o

interesse está em avaliar o desempenho do modelo em um único ponto de corte

escolhido e, assim, medidas da capacidade preditiva do mesmo podem ser também

consideradas.

No contexto de Data Mining, onde o problema de Credit Scoring está inserido, o

objetivo principal dos modelos construídos é o de produzir escores que estejam

diretamente correlacionados com a probabilidade de se observar o evento de interesse (a

17

inadimplência, por exemplo), a fim de que um maior número possível de classificações

(previsões) corretas tanto de bons quanto de maus clientes possam ser obtidas. Thomas

e Stepanova (2002) afirmam ser duvidoso que a utilização de gráficos de resíduos para

diagnósticos em modelos de Credit Scoring sejam úteis para a identificação de possíveis

problemas dos mesmos, devido ao fato de um grande número de observações estar

geralmente envolvido, o que é bastante comum no contexto de Data Mining.

2.4.1. Medidas de Desempenho e Curva ROC

Os escores obtidos para os modelos de Credit Scoring devem normalmente ser

correlacionados com a ocorrência do evento de interesse (inadimplência), permitindo

assim fazer previsões a respeito da ocorrência desse evento, para que diferentes políticas

de relacionamento possam ser adotadas pelo nível de escore obtido para os indivíduos.

Uma forma de se fazer previsões consiste em estabelecer um ponto de corte no escore

produzido pelo modelo de forma que indivíduos com valores iguais ou maiores a esse

são classificados, por exemplo, como maus e abaixo desse valor, como bons pagadores.

A tabela 2x2 a seguir (Tabela 2), chamada de matriz de confusão, é uma forma simples

de se estabelecer e visualizar o cálculo dessas medidas.

Tabela 2: Medidas utilizadas em um estudo de validação de modelos de classificação que produzem respostas dicotomizadas.

Resultado Real

Do modelo de

classificação

positivo (inadimplente) negativo (adimplente)

positivo verdadeiro-positivo (VP) falso-positivo (FP)

negativo falso-negativo (FN) verdadeiro-negativo (VN)

As medidas muito comuns e bastante utilizadas no contexto de Credit Scoring, sendo,

por exemplo, a categoria de interesse o mau pagador (inadimplência), são: a

sensibilidade, a especificidade, os valores de predição positivo e negativo, a acurácia, o

coeficiente de correlação de Matthews, a correlação aproximada, a entropia relativa e a

medida de informação mútua, que podem ser definidas como:

18

Sensibilidade (S): proporção de maus pagadores, classificados corretamente pelo

modelo. Ou seja, é a probabilidade de um indivíduo ser classificado como mau pagador,

dado que realmente é mau.

.VP

SVP FN

=+

Especificidade (E): proporção de bons pagadores, classificados corretamente pelo

modelo. Ou seja, é a probabilidade de um indivíduo ser classificado como bom pagador,

dado que realmente é bom.

.VN

EVN FP

=+

Valor Preditivo Positivo (VPP): proporção de maus pagadores, dado que o modelo

assim os identificou.

.VP

VPPVP FP

=+

Valor Preditivo Negativo (VPN): proporção de bons pagadores, dado que o modelo

assim os identificou.

.VN

VPNVN FN

=+

Capacidade Total de Acerto ou Acurácia (CTA): proporção de acertos de um modelo.

Ou seja, é a proporção de verdadeiros-positivos e verdadeiros-negativos em relação a

todos os resultados possíveis.

.VP VN

CTAVP FP VN FN

+=

+ + +

Coeficiente de Correlação de Matthews (CCM): este coeficiente proposto por Matthews

(1975) é considerado uma medida balanceada que pode ser usada mesmo quando as

19

classes em estudo (bons e maus pagadores, por exemplo) são de tamanhos muito

desiguais. Assume valores entre -1 e +1, onde um valor igual a +1 corresponde a

predição perfeita (total acordo), 0 corresponde a predição completamente aleatória e -1,

a predição inversa (total desacordo). Tal coeficiente é dado por

( ) ( ) ( ) ( )

.VP VN FP FN

CCMVP FP VP FN VN FP VN FN

× − ×=

+ × + × + × +

Se qualquer uma das quatro somas no denominador for zero, o denominador pode ser

arbitrariamente fixado em 1, resultando em um CCM de zero.

Correlação aproximada (AC): Burset e Guigó (1996) definiram uma medida de

‘correlação aproximada’ para compensar um problema do coeficiente de correlação de

Matthews: ele não está definido quando qualquer das somas VP+FN, VP+FP, VN+FP,

ou VN+FN for zero. Assim, em substituição ao CCM, eles usaram a probabilidade

condicional média (ACP), que é definida por

1

4

VP VP VN VNACP

VP FN VP FP VN FP VN FN

= + + + + + + +

se todas as somas forem não-nulas; caso contrário, será a média apenas das

probabilidades condicionais que estão definidas. A correlação aproximada (AC) é uma

transformação simples do ACP:

( )2 0,5 .AC ACP= × −

Esta medida assume valores entre -1 e +1 e sua interpretação é análoga à do CCM.

Além disso, o valor observado de AC é próximo do valor real da correlação (Burset &

Guigó, 1996).

Informação mútua: Seja D a verdadeira condição do cliente e M a predição do modelo,

ambas binárias (0,1). A informação mútua entre D e M é mensurada por

20

( ) ( ) ( )

( )

( , ) , , , log log (1 ) log (1 )

log (1 )(1 )

VP VN FP FN VP FN FPI D M H dm d m d m

N N N N N N N

VNd m

N

= − − − − − −

− − −

(Wang, 1994), onde N é o tamanho da amostra, NFNVPd /)( += , NFPVPm /)( +=

e

−=

N

FN

N

FN

N

FP

N

FP

N

VN

N

VN

N

VP

N

VP

N

FN

N

FP

N

VN

N

VPH loglogloglog,,,

é a entropia usual, cujas raízes estão em teoria da informação (Kullback, 1959; Kullback

& Leibler, 1986; Baldi & Brunak, 1998).

Note que a informação mútua sempre satisfaz 0 ( , ) ( )I D M H D≤ ≤ , onde

)1log()1(log)( mmmmDH −−−−= . Assim, para a avaliação da performance de um

modelo de classificação, costuma-se usar o coeficiente de informação mútua

normalizada (Rost & Sander, 1993; Rost et al., 1994), dado por

( , )( , ) .

( )

I D MIC D M

H D=

A informação mútua normalizada satisfaz 0 ( , ) 1IC D M≤ ≤ . Se ( , ) 0IC D M = , então

( , ) 0I D M = e a predição é completamente aleatória (D e M são independentes).

Quando ( , ) 1IC D M = , então ( , ) ( ) ( )I D M H D H M= = e a predição é perfeita.

A curva ROC (Zweig e Campbell, 1993) é construída variando os pontos de corte (cut-

off) ao longo da amplitude dos escores fornecidos pelos modelos, a fim de se obter

diferentes classificações para os clientes. Para cada ponto de corte CP obtemos os

respectivos valores para as medidas de sensibilidade e especificidade. Assim, a curva

ROC é construída tendo no seu eixo horizontal os valores de (1-Especificidade), ou seja,

a proporção de bons clientes que são classificados como maus pelo modelo, e no eixo

vertical a Sensibilidade, que é a proporção de maus clientes que são classificados

realmente como maus. Uma curva ROC obtida ao longo da diagonal principal

corresponde a uma classificação obtida sem a utilização de qualquer ferramenta

preditiva, ou seja, sem a utilização de modelos. Consequentemente, a curva ROC deve

ser interpretada de forma que, quanto mais a curva estiver distante da diagonal

21

principal, melhor o desempenho do modelo associado a ela. Esse fato sugere que,

quanto maior for a área entre a curva ROC produzida e a diagonal principal, melhor o

desempenho global do modelo. Uma vantagem da curva ROC está em sua simplicidade.

Consiste em uma representação direta do desempenho de um modelo, de acordo com o

conjunto de suas possíveis respostas.

Os pontos de corte ao longo dos escores fornecidos pelos modelos que apresentam bom

poder discriminatório concentram-se no canto superior esquerdo da curva ROC. A curva

ROC apresenta sempre um contrabalanço entre a Sensibilidade e a Especificidade ao se

variar os pontos de corte ao longo dos escores e pode ser usada para auxiliar a decisão

de onde se localiza o melhor ponto de corte. Em geral, o melhor ponto de corte (cut-off)

ao longo dos escores produz valores para as medidas de Sensibilidade e Especificidade

que se localiza no “ombro” da curva, ou próximo dele, ou seja, no ponto mais à

esquerda e superior possível. Vale ressaltar que, em problemas de Credit Scoring,

normalmente critérios financeiros são utilizados na determinação desse melhor ponto,

onde valores como o quanto se perde em média ao aprovar um cliente que traz

problemas de crédito e também o quanto se deixa de ganhar ao não aprovar o crédito

para um cliente que não traria problemas para a instituição, podem e devem ser

considerados.

Através da curva ROC se tem a idéia do desempenho do modelo ao longo de toda

amplitude dos escores produzidos pelo modelo. A curva ROC para o problema de

Credit Scoring anteriormente descrito, obtida a partir do ajuste do modelo de Regressão

Logística, é mostrada na Figura 2 a seguir, a qual representa um bom desempenho do

modelo de classificação associado a ela. Observe que o melhor ponto de corte (cut-off)

encontrado foi de 0,29.

22

Figura 2: Curva ROC construída a partir da amostra de treinamento de uma carteira de banco.

2.4.2. Capacidade de Acerto dos Modelos

Muitas vezes, o interesse está em avaliar o modelo em um único ponto de corte e não ao

longo de toda a amplitude dos escores produzidos pelo mesmo. Nesse caso, a matriz de

confusão pode ser utilizada, sendo construída para um único ponto de corte. Em um

modelo com variável resposta binária, como ocorre normalmente no caso de um Credit

Scoring, se busca classificar os indivíduos em uma das categorias consideradas, ou seja,

em bons ou maus clientes e obter um bom grau de acerto nessas classificações.

Como geralmente na amostra de validação, onde o modelo é avaliado, se conhece a

resposta dos clientes em relação à sua condição de crédito, e estabelecendo critérios em

que se classifiquem esses clientes em bons e maus, torna-se possível comparar essa

classificação obtida com a verdadeira condição creditícia dos clientes. A forma utilizada

para estabelecer a matriz de confusão consiste em determinar um ponto de corte (cut-

off) no escore final do modelo, onde indivíduos com pontuação acima desse cut-off são

classificados como maus, por exemplo, e abaixo desse valor como bons clientes e

comparando essa classificação com a condição real de cada indivíduo. Essa matriz

descreve, portanto, uma tabulação cruzada entre a classificação predita através de um

único ponto de corte e a situação real e conhecida de cada cliente, onde a diagonal

principal representa as classificações corretas e os valores fora dessa diagonal

correspondem a erros de classificação.

A partir da matriz de confusão determinada por um ponto de corte específico, algumas

medidas da capacidade preditiva do modelo são calculadas, como a sensibilidade, a

23

especificidade, os valores de predição positivo e negativo, a acurácia, o coeficiente de

correlação de Matthews, a correlação aproximada, a entropia relativa e a medida de

informação mútua, as quais foram definidas na seção 2.4.1.

Com o auxílio da curva ROC (Figura 2), escolhemos um ponto de corte igual a 0,29.

Assim, as medidas relacionadas à capacidade preditiva do modelo são: CTA = 0,76; S =

0,75; E = 0,76; V PP = 0,58; V PN = 0,87; CCM = 0,48; IC = 0,19 e AC = 0,48, o que é

indicativo de uma boa capacidade preditiva. Esta conclusão é corroborada pela curva

ROC.

2.5. Considerações Finais

Neste capítulo discutimos as principais etapas de desenvolvimento de um modelo de

Credit Scoring, com enfoque no planejamento amostral, na determinação do escore e na

verificação da performance (validação) do modelo obtido. Também descrevemos duas

técnicas de modelagem estatística que podem ser empregadas quando a característica de

interesse (variável resposta) é dicotômica, a Regressão Logística e a Regressão

Logística com seleção de amostra state-dependent, bem como algumas medidas de

desempenho que são comumente utilizadas para avaliar o valor preditivo da

modelagem. Apresentamos um estudo de caso, com o ajuste de um modelo de

Regressão Logística e o cálculo das medidas de desempenho e curva ROC do mesmo, a

dados financeiros (dados extraídos de uma carteira de um banco). No próximo capítulo

falaremos sobre simulação e da importância (aplicação) de métodos de simulação em

Estatística, com enfoque no método de Bootstrap não-paramétrico.

24

Capítulo 3

Simulação

3.1. Introdução

Os métodos de simulação têm grande importância como ferramenta em inúmeros

projetos, como por exemplo, pode-se simular o vôo de um jato supersônico, um sistema

de comunicação telefônica, uma operação de manutenção (determinar o número ótimo

de reparos a serem feitos), entre outros.

A razão fundamental para o uso de simulação encontra-se na necessidade incessante do

homem prever o futuro. Esta busca pelo saber e o desejo de predizer o futuro são tão

antigos quanto a história da humanidade. No século XVII, a busca do predizer com

poder era limitada quase que inteiramente por métodos puramente dedutivos de cada

filósofo.

A simulação é uma ferramenta poderosa se compreendida e usada corretamente.

Shannon (1975) define simulação como sendo “um processo de planejamento de um

modelo para um sistema real, onde são conduzidos experimentos com este modelo, para

um propósito qualquer de compreensão do comportamento do sistema ou para o

propósito de avaliar várias estratégias para a operação do sistema”. Já Naylor (1966)

define simulação como sendo “uma técnica numérica para a condução de um

experimento sob a ótica computacional, envolvendo tipos matemáticos seguros e

modelos teóricos que descrevem o comportamento de negócios ou sistemas econômicos

sobre um grande período, em tempo reduzido”. Estas definições são extremamente

amplas, porém podem englobar uma aparente relação entre uma grande gama de

projetos específicos.

Quando se deseja planejar um experimento, um computador é freqüentemente utilizado

para apagar, processar e produzir informações que o indivíduo, usualmente

desfavorecido, precisa tomar sobre o sistema operacional. Objetiva-se que cada

indivíduo tenha o melhor desempenho possível. Além disso, cada decisão do indivíduo

afeta a informação que o computador processa e o esquema do progresso durante o

tempo simulado.

25

As análises por simulação podem ser apropriadas pelos seguintes motivos:

1. Permitem estudar e experimentar interações internas complexas de um dado sistema,

sendo possível investigar se este sistema é, por exemplo, de uma empresa, indústria,

economia, ou subconjunto deles.

2. Permitem estudar os efeitos de uma certa informação, organização ou mudança no

meio ambiente sobre operações de um sistema, tomando simplesmente as alterações no

modelo do sistema e observando os efeitos das alterações no comportamento deste

sistema.

3. Observações detalhadas do sistema inicialmente simuladas podem levar a um melhor

entendimento do sistema e a algumas sugestões para melhorá-lo, sugestões estas que, de

outra maneira, não seriam aparentes.

4. Podem ser usadas como um dispositivo pedagógico para o ensino de estudantes e

profissionais técnicos em análises teóricas, análises estatísticas e tomadas de decisões.

A simulação pode ser usada com êxito para este propósito em disciplinas, como

administração de negócios, economia, medicina, entre outras.

5. Planos operacionais é fonte de aprendizado, pois é um excelente meio de estimular o

interesse e entendimento sobre os participantes, e é particularmente útil na orientação de

pessoas que são experimentadas.

6. A experiência de projetar um modelo por simulação computacional pode ser mais

viável do que a simulação de sistemas atuais. O conhecimento obtido no planejamento

de um estudo de simulação freqüentemente sugere modificações no sistema inicialmente

simulado. Os efeitos desta modificação podem ser testados via simulação antes da

implementação sobre o sistema atual.

7. Podem identificar quais variáveis são mais importantes no sistema e quais destas

variáveis se interagem.

8. Podem ser utilizadas para experimentar novas situações sobre o que se tem, para

preparar o que possa acontecer.

9. Servem como “teste conservativo” para tentar novas saídas e regras de decisões para

um sistema de operações.

10. Podem ser utilizadas para fornecer um caminho conveniente de parada em um

complicado sistema de subsistemas, cada qual pode então ser modelado por uma equipe

que é especialista na área.

26

11. Tornam possível o estudo de sistemas dinâmicos em tempo real, tempo estendido ou

tempo reduzido.

12. Quando novos componentes são introduzidos em um sistema, simulações podem ser

utilizadas para ajudar a prever enganos ou outros problemas que podem surgir na

operação do sistema.

De fato, a simulação é uma ferramenta valiosa e versátil em problemas onde técnicas

analíticas são inadequadas. Porém, ela não pode ser uma idéia fixa, pois é uma técnica

imprecisa. Ela provém apenas de estimativas estatísticas do resultado exato e somente

compara alternativas que geram o ótimo. Simulação é um caminho lento e caro para

estudar um problema, pois geralmente requer muito tempo e muita mão-de-obra para

análises e programação.

3.2. Simulação Computacional

A simulação computacional permite replicar um experimento inúmeras vezes.

Replicações recorridas no experimento com mudança de parâmetro ou condições

operacionais iniciais são tomadas pelo investigador. Além disso, a simulação

computacional freqüentemente segue uma correlação entre a seqüência de números

aleatórios e a melhor análise estatística.

Simulação não exige que um modelo seja apresentado em um formato particular. Os

resultados obtidos por simulação são muitos parecidos com os observados ou

mensurados que podem ser tomados do próprio sistema. Muitas linguagens de

programação têm sido desenvolvidas incorporando simulação. Algumas delas são

aplicadas no geral, enquanto outras são desenvolvidas para tipos específicos de

sistemas. Pode-se citar como exemplo de linguagens de programação incorporando

simulação, GPSS, SIMSCRIPT e SIMULA. Linguagens de programação matriciais são

muito úteis na implementação de linguagens que incorporam simulação e como

exemplos, pode-se citar, FORTRAN, ALGOL, C++, R, Proc IML do SAS e Ox. Neste

trabalho, as simulações foram feitas no software SAS versão 9.0, com o objetivo

principal de comparar a Regressão Logística usual (Hosmer & Lemeshow, 1989) com a

Regressão Logística com seleção de amostra state-dependent, em termos de

27

probabilidades de inadimplência estimadas e de capacidade preditiva, esta última por

meio das medidas de desempenho descritas na seção 2.4.1.

3.3. Simulação Bootstrap

O Bootstrap é um método genérico para estimar variabilidade em estatística. Este

método de simulação foi originalmente proposto por Bradley Efron em um influente

artigo publicado no Annals of Statistics, em 1979, e tornou-se tão importante que, na

literatura Estatística, a década de 80 é chamada “a década do Bootstrap”. O método se

baseia na construção de distribuições amostrais por reamostragem, sendo muito

utilizado para estimar intervalos de confiança. O método de Bootstrap também pode ser

utilizado, por exemplo, para estimar o viés e a variância de estimadores ou de testes de

hipóteses calibrados, e tem por base a idéia de que o pesquisador pode tratar sua

amostra como se ela fosse a população que deu origem aos dados e usar amostragem

com reposição da amostra original para gerar pseudo-amostras. Assim, a partir destas

pseudo-amostras, é possível estimar características da população, tais como média,

variância, percentis, etc. Muitos esquemas diferentes de simulação Bootstrap têm sido

propostos na literatura e vários deles apresentam bom desempenho em uma ampla

variedade de situações.

Suponha disponível um conjunto de observações e o interesse em fazer inferências a

respeito do parâmetro µ. Sabe-se que o estimador não-viciado de µ é a média amostral

x , cujo erro-padrão pode ser calculado por:

( )( )

1 2

2

1

1 .

1

n

i

i

Erro padrão da média x xn n =

− = −

− ∑

Por outro lado, suponha que o interesse esteja em fazer inferência para algum outro

parâmetro, como por exemplo, o coeficiente de correlação. Sabe-se que não há nenhuma

fórmula analítica simples que permite calcular o seu erro-padrão. Assim, o método de

Bootstrap foi projetado para fazer simulações para este tipo de problema. A idéia básica

da simulação Bootstrap consiste em amostrar os dados originais com reposição,

obtendo-se dados analíticos, a partir dos quais calcula-se a estatística de interesse. Este

processo é repetido várias vezes até a obtenção de B valores. Em seguida, calcula-se o

erro-padrão destes valores e então, tem-se o erro-padrão da estatística. Dado o custo alto

28

e a escassez conseqüente de dados em muitas aplicações, combinadas com o custo

reduzido e a abundância do poder da computação, o método de Bootstrap se torna uma

técnica muito atraente por extrair informações de dados empíricos (Diaconis, 1983;

Efron, 1991).

A idéia geral de simulação Bootstrap é simular o processo amostral, repetindo e

utilizando as informações da distribuição da estatística apropriada para calcular o

intervalo de confiança necessário. Seja, por exemplo, o parâmetro de interesse θ . Ao se

calcular o intervalo de confiança para θ , ao invés de assumir, por exemplo, que

( ) ( )ˆlog0,1Z N

θ∼ , utiliza-se simulação para estimar a verdadeira distribuição de

( )ˆlogZ

θ.

3.3.1. Método Bootstrap Não-Paramétrico

Uma forma de se obter amostras Bootstrap é o método não-paramétrico. Neste caso,

cada amostra de tamanho n é obtida amostrando, com reposição, os dados originais,

onde a estimação dos parâmetros é realizada para cada amostra, sendo este processo

repetido B vezes. Na simulação não-paramétrica, os dados não são gerados da

distribuição de probabilidade dos dados, como no caso paramétrico.

Seja, por exemplo, ( )1,..., nt t t= uma amostra contendo n observações. Constroem-se,

então, B amostras ( ) ( )* 1 *,..., BT T independentes, onde cada amostra é obtida por

reamostragem da amostra finita inicial ( )1,..., nt t t= . Assim, para cada uma das

( ) ( )* 1 *,..., BT T amostras, estimam-se os parâmetros de interesse.

3.3.2. Intervalo de Confiança Bootstrap – Método dos Percentis

Para se construir o intervalo de confiança utilizando o método de Bootstrap, deve-se

seguir os passos:

• Passo 1: definir como serão calculados os parâmetros do intervalo de confiança

(percentil, básico, padronizado, Bootstrap acelerado (BAC), etc.).

• Passo 2: definir como a população será aproximada (parametricamente, não -

parametricamente, etc.).

29

• Passo 3: definir como será selecionada a amostra Bootstrap (ordinária,

balanceada, etc.).

Há várias aproximações para construir intervalos de confiança Bootstrap. Uma delas é o

chamado intervalo de Bootstrap percentil (método dos percentis), que utiliza os

percentis empíricos *BT para formar o intervalo de confiança para θ , e é dado por:

onde ( ) ( ) ( )* * *1 2, ,...,

BT T T são as estimativas dos parâmetros ordenados em ordem crescente,

[ ]1 2q Bα= e 2 1 1q B q= − + .

Exemplo: Suponha que se tem disponível uma amostra aleatória na forma ( )1,..., .nt t t=

Para construir um intervalo de confiança Bootstrap percentil para o parâmetro µ , por

exemplo, pode-se seguir os passos:

Passo 1: Utilizando um gerador de números aleatórios, selecionam-se aleatoriamente B

amostras com reposição a partir do conjunto t.

Passo 2: Estimar µ para cada uma das B amostras, ( )* *1ˆ ˆ,..., .

Bµ µ

Passo 3: Ordenar as estimativas em ordem crescente, isto é:

( ) ( ) ( )* * *1 2

ˆ ˆ ˆ... .B

µ µ µ≤ ≤ ≤

Passo 4: O intervalo de confiança Bootstrap, com coeficiente de confiança

100(1 )%α− , é dado por:

( ) ( )( )1 2

* *ˆ ˆ; ,q q

µ µ

( ) ( )* *

1 2 ,q q

T Tθ< <

30

onde [ ]1 2q Bα= e 2 1 1q B q= − + . Por exemplo, para 0,05α = e 1000B = , tem-se que

1 25q = e 2 976q = , logo o intervalo de confiança é ( ) ( )( )* *25 976

ˆ ˆ; .µ µ

Embora este estimador não assuma normalidade, os intervalos de confiança percentis

não são muito precisos.

3.4. Considerações Finais

Neste capítulo discutimos a importância da simulação como ferramenta em inúmeros

projetos e também na Estatística, onde métodos de simulação têm sido empregados com

diversas finalidades, dentre as quais estimar viés e variância de estimadores ou testes de

hipóteses e tecer inferências a respeito de algum parâmetro, como é caso do método de

Bootstrap não-paramétrico, discutido com detalhes neste capítulo. Detalhes a respeito

do estudo de simulação realizado neste trabalho, bem como os resultados obtidos do

mesmo, serão apresentados no próximo capítulo.

31

Capítulo 4

Resultados da Simulação

4.1. Descrição das Bases de Dados Geradas e Procedimentos Adotados

Neste capítulo, a metodologia estudada é aplicada em conjuntos de dados gerados

segundo uma variável aleatória dicotômica indicando bons ou maus pagadores. Segundo

Breiman (1998), os valores das covariáveis para os bons pagadores foram gerados de

uma distribuição normal multivariada de dimensão 6 (6 covariáveis) com vetor de

médias igual a ( )' 0,...,0B =µµµµ e matriz de covariâncias 64 I× , onde 6I é a matriz

identidade de ordem 6. Os valores das covariáveis para os maus pagadores foram

gerados de uma distribuição normal multivariada de dimensão 6 com vetor de médias

igual a ' 1 1,...,6 6M

=

µµµµ e matriz de covariâncias 6I . Inicialmente, geramos uma

população de clientes de uma instituição financeira com a seguinte composição: 1 000

000 de bons pagadores e 100 000 maus pagadores. As 6 covariáveis observadas,

originalmente contínuas, foram então categorizadas segundo os quartis estatísticos, ou

seja, foram transformadas em categóricas com 4 níveis cada. Em seguida, retiramos

uma amostra aleatória estratificada (full sample) da população gerada, composta por 100

000 bons pagadores (10% do tamanho deste grupo na população) e 10 000 maus

pagadores (10% do tamanho desta classe na população). As selected sample foram

então obtidas, mantendo os 10 000 maus pagadores da full sample, acrescidos de 10

000*K bons pagadores, retirados aleatoriamente do grupo de bons pagadores da full

sample. Por ora, consideramos apenas as situações de K=1,3 e 9, que correspondem,

respectivamente, a 10 000, 30 000 e 90 000 bons pagadores na selected sample. Para

cada K, foram feitas 100 simulações, isto é, foram obtidas 100 amostras. Em cada uma

delas, os bons pagadores foram selecionados da full sample via Amostragem Aleatória

Simples e sem reposição. O estudo de simulação foi feito no software SAS versão 9.0 e,

para cada simulação (amostra), aplicou-se os procedimentos descritos anteriormente:

um modelo de Regressão Logística usual (Hosmer & Lemeshow, 1989) e um modelo de

Regressão Logística com seleção de amostra state-dependent foram ajustados e sua

32

capacidade preditiva foi verificada na própria amostra, através do cálculo das medidas

de desempenho. Segundo Abreu (2004), a avaliação do modelo na amostra de

treinamento, utilizada para o seu desenvolvimento, apresenta resultados melhores do

que se avaliado na amostra de teste, uma vez que o modelo incorpora peculiaridades

inerentes da amostra utilizada para sua construção. Assim, consideramos também uma

amostra de teste balanceada (10 000 bons e 10 000 maus pagadores) retirada da

população, na avaliação do modelo de Regressão Logística. Ao final das 100

simulações para cada K, obtemos um vetor de tamanho 100, isto é, 100 registros para

cada uma das medidas de desempenho. Assim, construímos intervalos de 95% de

confiança (empíricos) para cada uma das medidas, registrando os percentis 2,5% (limite

inferior do intervalo) e 97,5% (limite superior do intervalo) do vetor ordenado

(observações em ordem crescente). Também encontramos (calculamos) o ponto de corte

ótimo para cada simulação e para cada modelo ajustado (de Regressão Logística e

Regressão Logística com seleção de amostra state-dependent).

Assim, com o objetivo de comparar o comportamento dos modelos obtidos pela

Regressão Logística e pela Regressão Logística com seleção de amostra state-

dependent, em algumas condições que podem surgir, com maior ou menor freqüência,

no desenvolvimento de um modelo de Credit Scoring, envolvendo a quantidade de

clientes presentes na amostra de desenvolvimento e o grau de desbalanceamento das

mesmas, modelos utilizando essas duas técnicas foram construídos a partir de amostras

com diferentes tamanhos e proporções de bons e maus clientes, as quais já foram

descritas anteriormente e são apresentadas novamente a seguir:

(A) K=1: 50% (#10000 bons clientes) e 50% (#10000 maus clientes);

(B) K=3: 75% (#30000 bons clientes) e 25% (#10000 maus clientes);

(C) K=9: 90% (#90000 bons clientes) e 10% (#10000 maus clientes);

No estudo de simulação realizado, comparamos também as probabilidades originais

(preditas a partir do modelo de Regressão Logística) com as probabilidades ajustadas

(probabilidades originais corrigidas pela técnica de Regressão Logística com seleção de

amostra state-dependent). Tal comparação foi realizada da seguinte forma: ao final das

simulações, obtemos 100 vetores (100 colunas) de probabilidades de inadimplência

estimadas, para cada K (K=1,3,9) e para cada uma das duas técnicas estudadas. Em

seguida, ordenamos cada um dos 100 vetores, da menor para a maior probabilidade

33

(ordem crescente). Assim, a primeira linha da planilha resultante corresponde às

menores probabilidades estimadas em cada uma das 100 simulações realizadas,

enquanto a última linha passa a representar as maiores probabilidades estimadas.

Calculados os percentis 5% e 95% de cada linha, obtemos então bandas de 90% de

confiança (empíricas) para a distribuição das probabilidades estimadas (originais ou

ajustadas). Em virtude da limitação do número de observações consideradas para a

construção de um gráfico no software utilizado (Excel), para os maiores tamanhos

amostrais estudados (K=3 ou n=40 000 e K=9 ou n=100 000) ‘plotamos’ apenas 20 000

observações (saltos de tamanho 2 para K=3 e saltos de tamanho 5 para K=9).

4.2. Resultados das Simulações – Probabilidades Estimadas

Nesta seção são apresentados os principais resultados referentes ao estudo de simulação

realizado com amostras balanceadas e desbalanceadas (amostras de A a C, definidas na

seção 4.1), no que tange à distribuição das probabilidades de inadimplência estimadas

segundo as duas técnicas estudadas (Regressão Logística - probabilidades originais - e

Regressão Logística com seleção de amostra state-dependent - probabilidades

ajustadas). Nas Figuras 3 a 5 são apresentadas as bandas de 90% de confiança para as

curvas do modelo original e do modelo ajustado. Observa-se que, independente do valor

de K, as probabilidades estimadas sem o ajuste no termo constante da equação estão

abaixo daquelas ajustadas. Ou seja, o modelo de Regressão Logística subestima a

probabilidade de inadimplência. Note também que a diferença (distância) entre as

curvas diminui à medida que o grau de desbalanceamento da amostra se torna mais

acentuado. Por exemplo, para K=1 (amostra balanceada), a distância entre as curvas é a

maior observada, enquanto para K=9 (90 000 bons pagadores e 10 000 maus pagadores)

as curvas estão muito próximas uma da outra.

34

Figura 3: Distribuição das probabilidades estimadas (K=1).

Figura 4: Distribuição das probabilidades estimadas (K=3).

35

Figura 5: Distribuição das probabilidades estimadas (K=9).

4.3. Resultados das Simulações – Medidas de Desempenho

Nesta seção são apresentados os principais resultados do estudo de simulação realizado

referentes à capacidade preditiva dos modelos ajustados segundo as duas técnicas

estudadas (Regressão Logística e Regressão Logística com seleção de amostra state-

dependent). Nas Tabelas 3 e 5 são apresentados os intervalos de 95% de confiança

(empíricos) para as medidas de desempenho (resultados da Regressão Logística estão na

Tabela 3 e resultados da Regressão Logística com seleção de amostra state-dependent,

na Tabela 5), enquanto na Tabela 4 são apresentados os resultados (intervalos de

confiança empíricos para tais medidas) da validação do modelo de Regressão Logística

numa amostra de teste balanceada.

Os resultados empíricos apresentados na Tabela 3 revelam que a técnica de Regressão

Logística produz bons resultados, com um contrabalanço entre as medidas de

sensibilidade e especificidade, apenas quando a amostra utilizada para o

desenvolvimento do modelo é balanceada (isto é, quando K=1). À medida que o grau de

desbalanceamento aumenta (K=3 e 9), a sensibilidade diminui consideravelmente

(assumindo valores menores que 0,5 quando K=9), ao passo que a especificidade

aumenta, atingindo valores próximos de 1. Note também que os valores de CCM, IC e

AC diminuem à medida que K aumenta.

36

Tabela 3: Intervalos de 95% de confiança (empíricos) para as medidas de desempenho, quando da utilização da técnica de Regressão Logística.

Medidas K=1 K=3 K=9

S [0,8071; 0,8250] [0,5877; 0,6008] [0,3249; 0,3307]

E [0,8187; 0,8334] [0,9331; 0,9366] [0,9768; 0,9777]

CTA [0,8177; 0,8242] [0,8123; 0,8194] [0,8101; 0,8155]

VPP [0,8179; 0,8400] [0,8247; 0,8359] [0,8258; 0,8341]

VPN [0,8004; 0,8250] [0,8047; 0,8170] [0,8075; 0,8145]

CCM [0,6354; 0,6485] [0,5787; 0,5866] [0,4404; 0,4439]

I [0,3149; 0,3294] [0,2419; 0,2475] [0,1206; 0,1214]

H [0,9989; 1,0000] [0,9281; 0,9385] [0,8105; 0,8217]

IC [0,3149; 0,3295] [0,2585; 0,2661] [0,1469; 0,1493]

ACP [0,8177; 0,8243] [0,7908; 0,7945] [0,7359; 0,7371]

AC [0,6354; 0,6485] [0,5815; 0,5891] [0,4718; 0,4742]

Quando considerada uma amostra independente (amostra de teste) balanceada para a

verificação da qualidade do ajuste, observam-se resultados similares (performances

parecidas dos modelos) independente do valor de K (isto é, independente se a amostra

utilizada para o desenvolvimento do modelo é balanceada ou não). Além disso, tais

resultados (vide Tabela 4) são indicativos de uma boa capacidade preditiva.

Tabela 4: Intervalos de 95% de confiança (empíricos) para as medidas de desempenho, quando da verificação da qualidade do ajuste numa amostra de teste balanceada (50% bons pagadores e 50% maus pagadores).

Medida K=1 K=3 K=9

S [0,8255; 0,8499] [0,8332; 0,8456] [0,8343; 0,8431]

E [0,7983; 0,8182] [0,8022; 0,8134] [0,8045; 0,8122]

CTA [0,8219; 0,8243] [0,8226; 0,8242] [0,8232; 0,8239]

VPP [0,8082; 0,8196] [0,8104; 0,8172] [0,8118; 0,8163]

VPN [0,8242; 0,8416] [0,8297; 0,8387] [0,8306; 0,8368]

CCM [0,6438; 0,6493] [0,6453; 0,6490] [0,6466; 0,6482]

I [0,3241; 0,3305] [0,3258; 0,3301] [0,3273; 0,3292]

37

H 1 1 1

IC [0,3241; 0,3305] [0,3258; 0,3301] [0,3273; 0,3292]

ACP [0,8219; 0,8246] [0,8226; 0,8245] [0,8233; 0,8241]

AC [0,6438; 0,6493] [0,6453; 0,6490] [0,6466; 0,6482]

Os comentários acerca dos resultados obtidos para a técnica de Regressão Logística com

seleção de amostra state-dependent (vide Tabela 5) são análogos aos feitos

anteriormente, quando da utilização da técnica de Regressão Logística. Note também

que os resultados apresentados nas Tabelas 3 e 5 são similares, não havendo diferença

estatística significante entre a maioria dos intervalos empíricos correspondentes (quase

todos os intervalos de 95% de confiança empíricos correspondentes apresentam

interseção entre si).

Tabela 5: Intervalos de 95% de confiança (empíricos) para as medidas de desempenho, quando da utilização da técnica de Regressão Logística com seleção de amostra state-dependent.

Medidas K=1 K=3 K=9

S [0,8061; 0,8221] [0,5870; 0,6008] [0,3258; 0,3278]

E [0,8206; 0,8333] [0,9330; 0,9366] [0,9773; 0,9775]

CTA [0,8173; 0,8241] [0,8120; 0,8193] [0,8111; 0,8127]

VPP [0,8225; 0,8392] [0,8237; 0,8365] [0,8306; 0,8321]

VPN [0,7989; 0,8211] [0,8045; 0,8180] [0,8088; 0,8106]

CCM [0,6348; 0,6484] [0,5779; 0,5859] [0,4407; 0,4426]

I [0,3143; 0,3294] [0,2419; 0,2473] [0,1205; 0,1212]

H [0,9990; 1,0000] [0,9271; 0,9389] [0,8168; 0,8195]

IC [0,3143; 0,3295] [0,2578; 0,2655] [0,1471; 0,1484]

ACP [0,8174; 0,8242] [0,7904; 0,7942] [0,7359; 0,7367]

AC [0,6348; 0,6484] [0,5808; 0,5884] [0,4718; 0,4735]

38

Capítulo 5

Conclusão

Neste trabalho de iniciação científica, comparamos duas técnicas estatísticas bastante

empregadas na modelagem de dados financeiros (dados de Credit Scoring), a Regressão

Logística usual (Hosmer & Lemeshow, 1989) e a Regressão Logística com seleção de

amostra state-dependent. Para isso, realizamos um estudo de simulação (dados gerados)

e avaliamos a capacidade preditiva de modelos ajustados segundo as duas técnicas

estudadas, através das chamadas medidas de desempenho (sensibilidade, especificidade,

valores de predição positivo e negativo, acurácia, coeficiente de correlação de

Matthews, correlação aproximada e medida de informação mútua). Comparamos

também as distribuições de probabilidades de inadimplência estimadas segundo tais

modelos. Além disso, realizamos um estudo de caso, no qual ilustramos alguns dos

procedimentos apresentados (ajuste de um modelo de Regressão Logística, cálculo das

medidas de desempenho e curva ROC) em um conjunto de dados reais (dados de crédito

extraídos de uma carteira de um banco).

Com relação ao exemplo real apresentado, fixando um ponto de corte igual a 0,29 (via

curva ROC), o modelo de Regressão Logística ajustado ao conjunto de dados reais

apresentou um bom desempenho, ou seja, uma boa capacidade preditiva, com um

balanceamento entre sensibilidade e especificidade (S=0,75 e E=0,76).

Quanto ao estudo de simulação realizado, pode-se concluir que, embora exista diferença

entre as distribuições de probabilidades de inadimplência estimadas segundo as duas

técnicas estudadas (os modelos de Regressão Logística subestimam tais probabilidades),

não existe diferença estatística no que tange ao desempenho de modelos ajustados a

partir de tais técnicas, quando utilizamos as medidas de sensibilidade, especificidade,

acurácia, valores de predição positivo e negativo, correlação de Matthews, correlação

aproximada e informação mútua corrigida, para avaliar a capacidade preditiva de tais

modelos. O estudo de simulação também revelou que, independente de qual dessas duas

técnicas de modelagem estatística for usada, o ideal é sempre trabalhar com amostras

balanceadas, as quais garantem modelos com boas medidas de sensibilidade e

especificidade e também com alta taxa de acertos (acurácia).

39

Bibliografia

- ABREU, H. J. (2004). Aplicação de análise de sobrevivência em um problema de

credit scoring e comparação com a regressão logística. Dissertação de Mestrado. DEs-

UFSCar.

- BALDI, P., e BRUNAK, S. (1998). Bioinformatics: The Machine Learning Approach.

MIT Press, Cambridge, MA.

- BARROS, E. A. C. Aplicações de Simulação Monte Carlo e Bootstrap. Monografia de

conclusão de curso. DEs – UEM.

- BERRY, M. J. A., e LINOFF, G. S.(2000). Mastering Data Mining. John Wiley &

Sons, Inc. New York.

- BREIMAN, L. (1998). Arcing classifiers. The Annals of Statistics, 26, 801 - 849.

- BURSET, M., e GUIGÓ, R. (1996). Evaluation of gene structure prediction

programs. Genomics, 34, 353-367.

- DIACONIS, P., e EFRON, B. (1983). Computer-intensive methods in statistics.

Scientific American, pages 116–130.

- EFRON, B. (1979). Bootstrap methods: another look at the jackknife. The Annals of

Statistics 7(1): 1–26.

- EFRON, B. (1982). The jackknife, the bootstrap and other resampling plans, volume

38 of CBMSNSF Regional Conference Series in Applied Mathematics. Society for

Industrial and Applied Mathematics (SIAM), Philadelphia, Pa.

- EFRON, B., e TIBSHIRANI, R. J. (1993). An introduction to the bootstrap, volume

57 of Monographs on Statistics and Applied Probability. Chapman and Hall, New York.

- EFRON, B., e TIBSHIRANI, R. (1991). Statistical data analysis in the computer age.

Science, pages 390–395.

- FISHER, R. A. (1936). The use multiple measurements in taxonomic problems. Annals

of Eugenics.7: 179-188.

40

- GRUENSTEIN, J. M. L. (1998). Optimal Use of Statistical Techniques in Model

Building. In: Credit Risk Modeling: Design and Application. Mays E.,81-112, New

York: AMACOM.

- HOSMER, D. W., e LEMESHOW, S. (1989). Applied Logistic Regression.. John

Wiley & Sons, Inc. New York.

- KANG, S., e SHIN, K. Custumer credit scoring model using analytic hierarchy

process. Informs & Korms, Seoul, p.2197-2204. Korea:2000.

- KULLBACK, S. (1959). Information Theory and Statistics. Dover Publications, New

York.

- KULLBACK, S., e LEIBLER, R. A. (1986). On information and sufficiency. Ann.

Math. Stat., 22, 79.

- LEWIS, E. M. (1992). An Introduction to Credit Scoring, Athenas, San Rafael,

California.

- MARTINEZ, E. Z., e LOUZADA-NETO, F. (2000). Metodologia estatística para

testes

diagnósticos e laboratoriais com respostas dicotomizadas. Revista de Matemática e

Estatística, 18, 83-101.

- MATTHEWS, B. W. (1975). Comparison of the predicted and observed secondary

structure of T4 phage lysozyme. Biochim. Biophys. Acta, 405, 442-451.

- MAZUCHELI, J. A., LOUZADA-NETO, F., MATINEZ, E. Z. Algumas medidas do

valor preditivo de um modelo de classificação. Outubro 2006. Nº. 162.

- NAYLOR, T. H. et al. Computer Simulation Techniques. John Wiley & Sons, 1966.

- REVORÊDO, W. C., e TIBÚRCIO-SILVA, C. A. Decisões do Tribunal de Contas do

Estado de Pernambuco para com as Contas Municipais: uma Análise Focada no

Reflexo de Indicadores Sócio-econômicos. Disponível em:

< http://www.congressoeac.locaweb.com.br/artigos52005/137.pdf>. Acesso em: 29 Ago 2008.

41

- ROST, B., e SANDER, C. (1993). Prediction of protein secondary structure at better

than 70% accuracy. J. Mol. Biol., 232, 584-599.

- ROST, B., SANDER, C., e SCHNEIDER, R. (1994). Redefining the goals of protein

secondary structure prediction. J. Mol. Biol., 235, 13-26.

- SHANNON, R. E. Systems Simulation: The Art and the Science. New Jersey: Prentice-

Hall, 1975.

- SICSU, A. L. (1999). Desenvolvimento de um Sistema Credit Scoring Parte I e II, Revista Serasa.

- THOMAS, L. C. A survey of credit and Behavioural Scoring; Forecasting financial

risk of lending to consumers. University of Edinburgh, Edinburgh, U.K, 2000.

- THOMAS, L. C.; EDELMAN, D. B.; CROOK, J. N. (2002). Credit Scoring and Its

Applications, Philadelphia: SIAM.

- THOMAS, L. C., e STEPANOVA, M. (2002). Survival analysis methods for personal

loan data. Operations Research, v.50, 2, p.277-289.

- WANG, Z. X. (1994). Assessing the accuracy of protein secondary structure. Nat.

Struct. Biol, 1, 145-146.

- WIKIPÉDIA. Desenvolvido pela Wikimedia Foundation. Apresenta conteúdo enciclopédico. Disponível em: <http://pt.wikipedia.org/w/index.php?title=Minera%C3%A7%C3%A3o_de_dados&oldid=11556462>. Acesso em: 29 Ago 2008.

- ZWEIG, M. H., e CAMPBELL, G. (1993). Receiver-operating characteristic (ROC)

plots. Clin. Chem.,29, 561-577.