dissertacao_cristiane_karcher_revisada.pdf

Upload: rafael-feitosa

Post on 08-Jan-2016

216 views

Category:

Documents


0 download

TRANSCRIPT

  • CRISTIANE KARCHER

    REDES BAYESIANAS APLICADAS ANLISE DO RISCO DE CRDITO

    So Paulo 2009

  • CRISTIANE KARCHER

    REDES BAYESIANAS APLICADAS ANLISE DO RISCO DE CRDITO

    Dissertao apresentada Escola Politcnica da Universidade de So Paulo para obteno do ttulo de Mestre em Engenharia

    rea de Concentrao: Engenharia Eltrica - Sistemas Eletrnicos

    Orientador: Prof. Livre-Docente Flavio Almeida de Magalhes Cipparrone

    So Paulo 2009

  • Este exemplar foi revisado e alterado em relao verso original, sob responsabilidade nica do autor e com a anuncia de seu orientador.

    So Paulo, 28 de maro de 2009.

    Assinatura do autor ___________________________

    Assinatura do orientador _______________________

    FICHA CATALOGRFICA

    Karcher, Cristiane Redes bayesianas aplicadas anlise do risco de crdito /

    C. Karcher. -- ed.rev. --So Paulo, 2009. 103 p.

    Dissertao (Mestrado) - Escola Politcnica da Universidade de So Paulo. Departamento de Engenharia de Sistemas Eletr-nicos.

    1. Crdito 2. Estatstica para inteligncia artificial 3. Modelos lineares generalizados 4. Inferncia estatstica I. Universidade de So Paulo. Escola Politcnica. Departamento de Engenharia de Sistemas Eletrnicos II. t.

  • DEDICATRIA

    Dedico esse trabalho ao Daniel pelo amor, compreenso e

    incentivo ao longo de anos.

  • AGRADECIMENTOS

    Ao professor Dr. Flvio Almeida de Magalhes s Cipparrone, pela orientao e oportunidade de crescimento acadmico.

    Ao professor Dr. Afonso de Campos Pinto pela orientao, apoio e incentivo durante a preparao deste trabalho.

    minha querida irm Viviane Karcher e aos amigos Paulo do Canto Hubert Jr, Cludio de Nardi Queiroz e Pedro Savadovsky pelas contribuies a este trabalho.

    empresa MAPS Solues & Servios pelo conhecimento, incentivo e compreenso durante a preparao desse trabalho.

    meus pais e minha av Esther pelo incentivo e pelas lies de vida.

  • EPGRAFE

    Se quisermos progredir, no devemos repetir a histria, mas fazer uma histria nova.

    (Mahatma Ghandi)

  • RESUMO

    Modelos de Credit Scoring so utilizados para estimar a probabilidade de um cliente proponente ao crdito se tornar inadimplente, em determinado perodo, baseadas em suas informaes pessoais e financeiras. Neste trabalho, a tcnica proposta em Credit Scoring Redes Bayesianas (RB) e seus resultados foram comparados aos da Regresso Logstica. As RB avaliadas foram as Bayesian Network Classifiers, conhecidas como Classificadores Bayesianos, com seguintes tipos de estrutura: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN). As estruturas das RB foram obtidas por Aprendizado de Estrutura a partir de uma base de dados real. Os desempenhos dos modelos foram avaliados e comparados atravs das taxas de acerto obtidas da Matriz de Confuso, da estatstica Kolmogorov-Smirnov e coeficiente Gini. As amostras de desenvolvimento e de validao foram obtidas por Cross-Validation com 10 parties. A anlise dos modelos ajustados mostrou que as RB e a Regresso Logstica apresentaram desempenho similar, em relao a estatstica Kolmogorov-Smirnov e ao coeficiente Gini. O Classificador TAN foi escolhido como o melhor modelo, pois apresentou o melhor desempenho nas previses dos clientes maus pagadores e permitiu uma anlise dos efeitos de interao entre variveis.

    Palavras-chave: Redes Bayesianas, Risco de Crdito, Regresso Logstica.

  • ABSTRACT

    Credit Scoring Models are used to estimate the insolvency probability of a customer, in a period, based on their personal and financial information. In this text, the proposed model for Credit Scoring is Bayesian Networks (BN) and its results were compared to Logistic Regression. The BN evaluated were the Bayesian Networks Classifiers, with structures of type: Naive Bayes, Tree Augmented Naive Bayes (TAN) and General Bayesian Network (GBN). The RB structures were developed using a Structure Learning technique from a real database. The models performance were evaluated and compared through the hit rates observed in Confusion Matrix, Kolmogorov-Smirnov statistic and Gini coefficient. The development and validation samples were obtained using a Cross-Validation criteria with 10-fold. The analysis showed that the fitted BN models have the same performance as the Logistic Regression Models, evaluating the Kolmogorov-Smirnov statistic and Gini coefficient. The TAN Classifier was selected as the best BN model, because it performed better in prediction of bad customers and allowed an interaction effects analysis between variables.

    Keywords: Bayesian Networks, Credit Risk, Logistic Regression.

  • LISTA DE ILUSTRACES

    Figura 1 - Exemplo de Rede Bayesiana aplicada em diagnstico mdico. _______29 Figura 2 - Conexo Serial: X e Y esto d-separados se V recebeu uma evidncia. 31 Figura 3 - Conexo Divergente: X e Y esto d-separados se V recebeu uma

    evidncia. ______________________________________________________31 Figura 4 - Conexo Convergente: X e Y esto d-separados se nem V nem seus

    descendentes recebeu uma evidncia. _______________________________31 Figura 5 - Outro exemplo de Rede Bayesiana _____________________________32 Figura 6 - Estrutura do Classificador Naive Bayes com 5 atributos e uma classe __39 Figura 7 - Estrutura de um Classificador TAN com seis atributos e uma classe ___41 Figura 8 - Estrutura de um Classificador GBN com quatro atributos e uma classe _42 Figura 9 - Exemplo de curva ROC (Receiver Operating Characteristic). _________49 Figura 10 - Exemplo de clculo da estatstica Kolmogorov-Smirnov.____________50 Figura 11 Esquema das metodologias aplicadas neste trabalho. _____________52 Figura 12 - Estrutura da Rede Bayesiana do Classificador Naive Bayes com seleo

    de variveis pelo mtodo Wrapper com busca Backward Elimination. _______74 Figura 13 - Estrutura da RB do Classificador TAN com aprendizado de estrutura

    utilizando a medida Bayes e seleo de variveis pelo mtodo Wrapper com busca por Backward Elimination. ____________________________________78

    Figura 14 - Estrutura da RB do Classificador GBN com aprendizado de estrutura utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta. ________________________________________________85

  • LISTA DE TABELAS

    Tabela 1 - Probabilidades Condicionais de "Doena" dado "Sintomas" e distribuio de "Idade". _____________________________________________________30

    Tabela 2 Matriz de confuso de um modelo de Credit Scoring. ______________47 Tabela 3 - Valores crticos da estatstica Kolmogorov-Smirnov aplicada em modelos

    de Credit Scoring.________________________________________________51 Tabela 4 - Variveis da base de dados German Credit.______________________54 Tabela 5 - Exemplo de categorizao de uma varivel preditora. ______________56 Tabela 6 - Categorizao das variveis originalmente contnuas da base de dados

    German Credit e clculo do Risco Relativo e Weights of Evidence (WOE) de cada categoria.__________________________________________________58

    Tabela 7 - Risco Relativo e Weights of Evidence (WOE) das variveis originalmente categricas da base de dados German Credit, aps o agrupamento de alguns de seus nveis. ____________________________________________________59

    Tabela 8 - Estatstica KS, coeficiente Gini, taxas de acerto total (TAT), dos clientes bons (TAB), dos clientes maus (TAM) e nmero de variveis dos modelos de Regresso Logstica ajustados. _____________________________________67

    Tabela 9 - Estimativas dos coeficientes (Coef.) do modelo de Regresso Logstica Final, juntamente as medidas descritivas: Risco Relativo, Nmero de Clientes bons (#Bons) e maus (#Maus), Total de clientes (Total) por categoria, Percentual de clientes da categoria em relao ao total de clientes (%Total) e Percentual de Maus por categoria (dummy) (Bad Rate). __________________69

    Tabela 10 - Variveis preditoras ordenadas pela sua contribuio individual para o ganho de informao em relao varivel resposta (Cliente bom ou mau pagador). ______________________________________________________72

    Tabela 11 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes bons (TAB) e dos clientes maus (TAM) e nmero de variveis dos Classificadores Naive Bayes ajustados utilizando Cross-Validation.______________________________________________________________73

    Tabela 12 - Probabilidades dos clientes se tornarem bons e maus pagadores, dado a observao dos nveis das variveis preditoras, sem que haja alterao nas categorias das demais variveis, do Classificador Naive Bayes final._____75

    Tabela 13 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes bons (TAB) e dos clientes maus (TAM) e nmero de variveis dos Classificadores TAN com aprendizado de estrutura utilizando diferentes medidas. ______________________________________________77

    Tabela 14 - Variveis preditoras e respectivos pais do Classificador TAN final. ___78 Tabela 15 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a

    observao de cada varivel preditora isoladamente, no Classificador TAN com aprendizado utilizando a medida Bayes e com seleo com o mtodo Wrapper com busca por Backward Elimination. ________________________________80

  • Tabela 16 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de cada varivel preditora isoladamente, no Classificador TAN Classificador TAN com aprendizado utilizando a medida Bayes e com seleo com o mtodo Wrapper com busca por Backward Elimination. _____________81

    Tabela 17 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes bons (TAB), dos clientes maus (TAM) e nmero de variveis dos Classificadores GBN com aprendizado de estrutura utilizando diferentes medidas. ______________________________________________84

    Tabela 18 - Variveis preditoras (dummies) e respectivos pais do Classificador GBN com aprendizado de estrutura utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta. _____________________86

    Tabela 19 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de cada varivel preditora isoladamente, do Classificador GBN com aprendizado de estrutura utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta._____________________________87

    Tabela 20 - Probabilidades dos clientes se tornarem inadimplentes (ou no), dada a observao de cada varivel preditora isoladamente e dada a observao (ou no) de seus pais, do Classificador GBN com aprendizado de estrutura utilizando a medida Bdeu e com seleo de variveis pelo Markov Blanket da varivel resposta._______________________________________________________87

    Tabela 21 - Probabilidades dos clientes proprietrios de imveis se tornarem inadimplentes (ou no), dada observao (ou no) e seus pais, do Classificador GBN com aprendizado de estrutura utilizando a medida BDeu e com seleo de variveis pelo Markov Blanket da varivel resposta. ________88

    Tabela 22 - Estatstica Kolmogorov-Smirnov, coeficiente Gini, taxas de acerto total (TAT), dos clientes bons (TAB), dos clientes maus (TAM) e nmero de variveis dos modelos de classificao finais. __________________________89

  • 12

    LISTA DE ABREVIATURAS E SIGLAS

    AIC Medida Akaikes Information Criterion BAYES Medida Bayesian Dirichlet

    GBN Classificador Bayesiano General Bayesian Network KS Estatstica Kolmogorov-Smirnov

    MDL Medida Minimal Description Length RB Rede(s) Bayesiana(s)

    ROC Receiver Operating Characteristic TAN Classificador Bayesiano Tree Augmented Naive Bayes

  • 13

    SUMRIO

    1. INTRODUO___________________________________________________ 14 2. REVISO BIBLIOGRFICA_________________________________________ 19

    2.1 Modelos de Credit Scoring_______________________________________ 19 2.2 Redes Bayesianas e Classificadores Bayesianos _____________________ 22 2.3 Redes Bayesianas aplicadas anlise do Risco de Crdito _____________ 25

    3. FUNDAMENTAO TERICA ______________________________________ 27 3.1 Redes Bayesianas_____________________________________________ 27

    3.1.1 Inferncia em Redes Bayesianas _______________________________ 32 3.1.2 Aprendizado em Redes Bayesianas _____________________________ 34

    3.2 Classificao Bayesiana ________________________________________ 39 3.2.1 Classificador Naive Bayes_____________________________________ 39 3.2.2 Classificador Tree Augmented Naive Bayes (TAN)__________________ 41 3.2.3 Classificador General Bayesian Network (GBN) ____________________ 42

    3.3 Regresso Logstica ___________________________________________ 43 3.4 Medidas de Avaliao dos Modelos de Classificao __________________ 46

    3.4.1 Matriz de Confuso __________________________________________ 47 3.4.2 Coeficiente Gini _____________________________________________ 48 3.4.3 Estatstica Kolmogorov-Smirnov ________________________________ 49

    4. METODOLOGIA _________________________________________________ 52 4.1 Base de Dados _______________________________________________ 53 4.2 Categorizao das Variveis _____________________________________ 55 4.3 Seleo das Variveis __________________________________________ 61 4.4 Amostra de Desenvolvimento e Validao __________________________ 64 4.5 Softwares Utilizados ___________________________________________ 65

    5. RESULTADOS___________________________________________________ 66 5.1 Regresso Logstica ___________________________________________ 67 5.2 Classificadores Bayesianos______________________________________ 71

    5.2.1 Classificador Naive Bayes_____________________________________ 73 5.2.2 Classificador TAN ___________________________________________ 76 5.2.3 Classificador GBN ___________________________________________ 83

    5.3 Comparao dos Modelos de Classificao _________________________ 89 6. CONCLUSES E TRABALHOS FUTUROS ____________________________ 91 REFERNCIAS ____________________________________________________ 95 APNDICE DE TABELAS ____________________________________________ 99

  • 14

    1. INTRODUO

    Neste trabalho proposta a aplicao de Redes Bayesianas (RB) na construo de modelos de Credit Scoring e suas aplicaes sero comparadas com a Regresso Logstica, que a tcnica mais aplicada atualmente em Credit Scoring (ROSA, 2000). As RB avaliadas sero as Bayesian Network Classifiers (FRIEDMAN et al., 1997), chamadas de Classificadores Bayesianos, que so RB aplicadas em problemas de classificao de dados.

    Os modelos de Credit Scoring so utilizados para estimar a probabilidade de um cliente proponente ao crdito se tornar inadimplente, em determinado perodo, dadas suas informaes pessoais e financeiras que possam influenciar na capacidade do cliente em pagar a dvida. Esta probabilidade estimada, chamada de score com valores entre 0 e 100, uma estimativa do risco de inadimplncia de um cliente em determinado perodo.

    No processo de concesso de crdito, quando um novo cliente solicita um crdito, o mesmo fornece suas informaes cadastrais e financeiras que, juntamente s variveis da operao, so utilizadas para lhe gerar um score de 0 a 100 pontos. Este score poder, ento, ser utilizado na deciso de conceder ou no o crdito ao cliente, a partir de um ponto de corte, acima do qual o pedido do cliente ser aceito. O ponto de corte definido a partir da anlise dos erros de rejeitar um cliente bom pagador e de aceitar um cliente mau pagador, em determinado perodo (erros do tipo I e II, respectivamente), e tambm a partir da anlise da rentabilidade esperada do cliente. Atualmente so utilizadas entre trs e cinco faixas de score para a classificao dos clientes (entre trs e cinco), principalmente em funo do requerimento imposto pela Resoluo 2682 (BANCO CENTRAL, 1999), exigindo que os clientes tenham uma classificao de crdito com diferentes nveis de proviso.

    Os modelos de Credit Scoring so utilizados no incio do relacionamento com o cliente, perodo em que a Instituio mensura previamente o risco do proponente e atribui a ele ou no linhas diferenciadas em funo do seu perfil. Os modelos de Credit Scoring comearam a ser utilizados principalmente no segmento varejista do

  • 15

    crdito ao consumidor, que tem como caractersticas o grande volume de transaes, o baixo valor unitrio por transao, spread de taxa de juros elevado e a necessidade de velocidade na deciso (LOURENO, 2005).

    Atualmente os Credit Scoring so considerados ferramentas importantes para pr-qualificar os tomadores de crdito e auxiliar os gestores a tomar decises de risco mais adequadas ao negcio. O uso destes modelos permite que a deciso sobre a concesso ou no do crdito seja tomada de forma objetiva, padronizada e imparcial, o que no garantido na anlise julgamental. Isto possibilita que o cliente seja tratado de forma personalizada, independente do canal de atendimento.

    Existem dois tipos de modelos de mensurao utilizados para estimar a probabilidade de um cliente se tornar inadimplente, so eles (SECURATO, 2002):

    Credit Scoring obtido a partir das informaes cadastrais fornecidas pelos clientes tais como: tipo de residncia, nvel de renda, idade, ocupao, grau de instruo, relacionamento com instituies financeiras, consultas aos bureaus1 de crdito.

    Behavioural Scoring um sistema de pontuao com base em anlise comportamental e utiliza as informaes que a empresa j possui sobre o cliente na renovao, manuteno ou concesso de uma nova linha de crdito. Pode incluir informaes relacionadas aos hbitos de consumo, de pagamento, comprometimento de renda etc.

    Neste trabalho sero empregados somente os modelos de Credit Scoring mencionados anteriormente. Nos modelos de Credit Scoring as variveis preditoras so as informaes pessoais e financeiras fornecidas pelos clientes na proposta de crdito e a varivel resposta a classificao do cliente de acordo com seu risco de inadimplncia (cliente bom pagador ou mau pagador). No decorrer do texto, a varivel resposta tambm pode ser chamada de classe e as variveis preditoras ou explicativas tambm podem ser chamadas de atributos.

  • 16

    Na Estatstica e a Inteligncia Artificial existem diversas tcnicas utilizadas em Credit Scoring tais como: rvores de Classificao, Redes Neurais, Anlise do Discriminante Linear, Regresso Logstica. No entanto, o uso das Redes Neurais ainda restrito, apesar de ser uma ferramenta poderosa de reconhecimento de padres, devido a sua natureza de caixa preta, pois no se conhece as relaes de dependncia entre as variveis do modelo e nem a contribuio de cada varivel.

    RB so propostas para modelos de Credit Scoring, pois se tratam de modelos probabilsticos nos quais so conhecidas as relaes entre as variveis do domnio, ao contrrio de Redes Neurais. As RB utilizadas em problemas de classificao de dados so chamadas de Classificadores Bayesianos e tm como objetivo prever a classe de objetos que no foram classificados como, por exemplo, classificar um novo cliente como bom ou mau pagador, de acordo com a observao de suas variveis preditoras.

    A implantao do Plano Real e o fim do perodo inflacionrio contriburam para o reaquecimento da economia e o crescimento da demanda por crdito no Brasil. Nos ltimos anos, as operaes de crdito do sistema financeiro apresentaram crescimento expressivo observado pelo aumento da relao do volume total dos emprstimos privados e o Produto Interno Bruto (PIB), que passou de 26,2% em dezembro de 2003 para 33,7% em novembro de 2006 e para 34,6% em fevereiro de 2007 (BANCO CENTRAL, 2007). Para 2008, a Febraban (Federao Brasileira dos Bancos) espera que a proporo chegue a 38% (MARCHESINI, 2007).

    No Brasil, a concesso de crdito uma atividade financeira que vem crescendo nos ltimos anos no Brasil. Os fatores favorveis para o aumento das concesses so: condio de mercado, maior demanda, crescimento da economia, crescimento de renda e nvel menor de inadimplncia (SIQUEIRA, 2007). Atualmente, o crdito j corresponde metade do lucro dos bancos, sendo superiores aos ganhos com ttulos do governo e tarifas (PAIVA, 2007).

    A avaliao do risco de crdito tem sido bastante debatida em 2007 e 2008 devido crise financeira mundial, iniciada em maro de 2007 nos Estados Unidos

    1 Bureaus de crdito so informaes de mercado a respeito do risco de crdito de um cliente.

  • 17

    com a crise no crdito imobilirio para o segmento de clientes subprime (de segunda linha). O segmento de crdito subprime o dos clientes com renda muito baixa, por vezes com histrico de inadimplncia e com dificuldade de comprovar renda. Como os emprstimos a clientes subprime tm uma qualidade mais baixa, por terem maior risco de no serem pagos, eles oferecem uma taxa de retorno mais alta, a fim de compensar esse risco assumido pelos credores.

    Em busca de rendimentos maiores, gestores de fundos e bancos compravam esses ttulos subprime das instituies que fizeram o primeiro emprstimo, o que permitia que uma nova quantia em dinheiro fosse emprestada, antes mesmo de o primeiro emprstimo ser pago. Tambm interessado em lucrar, um segundo gestor tambm poderia comprar o ttulo adquirido pelo primeiro, e assim por diante, gerando uma cadeia de venda de ttulos. Porm, se a ponta (o tomador) no consegue pagar sua dvida inicial, ele d incio a um ciclo de no-recebimento por parte dos compradores dos ttulos. O resultado: todo o mercado passa a ter medo de emprestar e comprar os subprime, o que termina por gerar uma crise de liquidez (retrao de crdito). Nesta crise financeira mundial, o medo que com menos crdito disponvel, caia o consumo e diminua o crescimento das economias (FOLHA ON LINE, 2007).

    Um dos primeiros reflexos da crise subprime foi, em setembro de 2007, quando trs fundos do banco francs BNP Paribas tiveram suas negociaes suspensas por no ser possvel avali-los com preciso, devido aos problemas no mercado subprime americano. Depois desta medida, o mercado imobilirio passou a reagir em pnico e algumas das principais empresas de financiamento imobilirio passaram a sofrer os efeitos da retrao. A American Home Mortgage (AHM), uma das 10 maiores empresas do setor de crdito imobilirio e hipotecas dos EUA, pediu concordata. Entre as vtimas mais recentes da crise, esto as duas maiores empresas hipotecrias americanas, a Fannie Mae e a Freddie Mac, que possuem quase a metade dos US$ 12 trilhes em emprstimos para a habitao nos EUA e, em setembro de 2008, tiveram uma ajuda de at US$ 200 bilhes. Menos sorte teve o banco Lehman Brothers, que no teve ajuda do governo dos EUA, como a que foi destinada s duas hipotecrias, e pediu concordata. Como medida emergencial para evitar uma desacelerao ainda maior da economia, j que 70% do PIB americano

  • 18

    movido pelo consumo, o presidente americano George W. Bush sancionou em fevereiro de 2008 um pacote de estmulo que incluiu o envio de cheques de restituio de impostos a milhes de norte-americanos. Em setembro de 2008, com o agravamento o governo dos EUA lanou um pacote no valor de 600 bilhes de dlares de estmulo economia e diversos pases da Europa adotaram medidas similares para tentar salvar seus sistemas financeiros (FOLHA ON LINE, 2008).

    Estes fatos observados na economia mundial alertam para a necessidade de uma gesto eficiente e responsvel do risco de crdito pelas Instituies que concedem crdito. Para isso, as Instituies adotam processos de concesso de crdito baseados em modelos estatsticos para mensurao e gesto do risco de inadimplncia de suas carteiras de crdito.

    A deciso sobre a concesso ou no de um produto de crdito a um cliente fundamental para o resultado financeiro da Instituio, j que o lucro dos credores est diretamente associado proporo de clientes aprovados e ao percentual de clientes que pagam as dvidas contradas. Atualmente, na crise financeira mundial, podem-se observar os reflexos de uma gesto do risco de crdito com altos nveis de inadimplncia assumidos por diversas Instituies Financeiras ao redor do mundo.

    Este trabalho organizado em seis captulos: Introduo, Reviso Bibliogrfica, Fundamentao Terica, Metodologia, Resultados e Concluso. No segundo captulo h uma reviso bibliogrfica de modelos de Credit Scoring, RB e Classificadores Bayesianos, alm de serem descritos artigos de aplicaes de RB aplicadas na anlise do Risco de Crdito. No terceiro captulo ser apresentada a fundamentao terica de RB, Classificadores Bayesianos, Regresso Logstica Mltipla e Medidas de Avaliao dos Modelos de Classificao. A Metodologia empregada ser descrita no quarto captulo e est divida em: amostra German Credit, categorizao das variveis preditoras, seleo de variveis, construo das amostras de desenvolvimento e de validao e softwares utilizados. No quinto captulo sero apresentados e comparados os resultados das aplicaes dos Classificadores Bayesianos e da Regresso Logstica em modelos de Credit Scoring. Finalmente, no sexto captulo h a concluso deste estudo e sero propostos trabalhos futuros.

  • 19

    2. REVISO BIBLIOGRFICA

    Neste captulo sero descritos alguns estudos sobre aplicaes de modelos de Credit Scoring. Posteriormente, apresentaremos alguns estudos tericos e de aplicaes de RB em problemas de classificao de dados, que a tcnica proposta para modelos de Credit Scoring.

    2.1 Modelos de Credit Scoring

    Os modelos de Credit Scoring so utilizados para estimar a probabilidade de um cliente proponente ao crdito se tornar inadimplente, em determinado perodo, dadas suas informaes pessoais e financeiras que possam influenciar na capacidade do cliente em pagar a dvida. Esta probabilidade atribuda a cada novo cliente chamada de score, assumindo valores entre 0 e 100, e considerada uma estimativa do risco de inadimplncia do cliente, em determinado perodo. Assim, o score do cliente pode ser utilizado na deciso de conceder ou no o crdito, a partir de um ponto de corte acima do qual o pedido do cliente ser aceito.

    Com isso, do ponto de vista de modelagem estatstica, o problema de concesso de crdito por uma Instituio a um cliente um problema prtico de classificao. Inmeras tcnicas j foram aplicadas em Credit Scoring tais como: Regresso Linear, Anlise Discriminante, Regresso Logstica, Redes Neurais, Algoritmos Genticos, rvores de Deciso. Na literatura cientfica tambm existem diversos estudos comparativos das aplicaes de diferentes tcnicas e alguns sero descritos a seguir.

    A Anlise Discriminante Linear foi um dos primeiros modelos de Credit Scoring. Eisenbeis (1978) discute diversos problemas em aplicar Anlise Discriminante Linear em Credit Scoring. Eisenbeis (1978) discutiu que um ponto desfavorvel ao uso destes modelos est no fato das matrizes de varincias e covarincia das classes bom e mau provavelmente no serem iguais. Alm isso, outro ponto desfavorvel

  • 20

    o fato das variveis explicativas no apresentarem normalidade multivariada, por serem predominantemente categricas.

    A Regresso Linear Mltipla outra tcnica utilizada na formulao de modelos de Credit Scoring com resposta do tipo binria (bom ou mau). Hand (2001) discutiu que em dados de Credit Scoring estes modelos apresentam problemas de heterocedasticidade. Mas, a principal limitao apontada foi a de que os valores estimados para a varivel de resposta no pertencem ao intervalo [0,1], podendo assumir valores negativos e at mesmo maiores que um, o que no uma resposta esperada.

    Rosa (2000) apresentou a uma aplicao de Regresso Logstica no problema de concesso de crdito em um produto de financiamento de veculos, comparada com aplicaes de modelos baseados em rvores de deciso. Em seu trabalho, Rosa (2000) concluiu que as ferramentas baseadas em rvore de deciso classificaram os clientes de forma um pouco mais precisa, em relao s taxas de acerto nas previses dos clientes bons e maus pagadores. No entanto, a Regresso Logstica, que apresentou bons resultados tambm, possui a vantagem de ser um modelo de fcil compreenso e interpretao dos parmetros. A Regresso Logstica tambm tem a vantagem de produzir como resultado uma probabilidade, o que permite a ordenao dos clientes quanto ao risco de inadimplncia.

    Arminger, Enache e Bonne (1997) comparam aplicaes de Regresso Logstica, rvore de Classificao e um tipo de Rede Neural chamada Feedforward Network. Atravs da avaliao da proporo de classificaes corretas, o estudo concluiu que o modelo de Regresso Logstica apresentou desempenho melhor do que os modelos de rvore de Classificao e de Redes Neurais, sendo que os dois ltimos modelos apresentaram resultados equivalentes. Os autores tambm propem um procedimento combinado dos trs modelos utilizando seus valores previstos e observados. Este procedimento apresentou resultados superiores aos obtidos nos modelos de rvore de Classificao e de Redes Neurais, porm inferiores ao modelo de Regresso Logstica.

  • 21

    West (2000) fez um estudo comparativo da aplicao em Credit Scoring de diversos tipos de Redes Neurais e diversas tcnicas como: Regresso Logstica, Anlise Discriminante Linear e rvores de Deciso. O estudo sugeriu que os modelos de Redes Neurais apresentaram acurcia maior se comparados aos demais modelos aplicados, mas necessitam de um conhecimento maior para a construo da topologia e para realizar o treinamento da rede. O estudo tambm sugeriu que a Regresso Logstica uma boa alternativa aos modelos de Redes Neurais. West (2000) tambm mostra que os modelos de Regresso Logstica apresentaram acurcia maior do que os modelos de Anlise Discriminante Linear nos dados analisados e nesta base de dados os modelos de rvore de Deciso no apresentou resultados satisfatrios.

    Modelos de Credit Scoring, quando so aplicados em bases de dados diferentes, podem apresentar resultados distintos devido s caractersticas da base de dados empregada, tais como: a representatividade da amostra em relao populao alvo, o nmero de observaes disponvel, alm de poderem apresentar caractersticas particulares populao alvo. Por isso, recomendvel que os modelos sejam comparados em uma mesma base de dados. No entanto, se os modelos so aplicados em bases de dados diferentes possvel que alguns de seus resultados sejam distintos, como observado nos modelos de rvores de Deciso e de Redes Neurais em West (2000), Arminger, Enache e Bonne (1997) e Rosa (2000).

    Hand e Henley (1997) elucidaram diversos cuidados para a aplicao de modelos de Credit Scoring. Um problema de grande relevncia em Credit Scoring, apontado no estudo, o do vis na amostra utilizada na construo dos modelos. Este problema ocorre, pois somente as propostas de crdito que foram aceitas so utilizadas nos modelos de Credit Scoring, o que torna a amostra de treinamento viesada porque esta no contm toda a populao de clientes.

    Os mtodos que procuram corrigir este vis amostral so conhecidos como Inferncia dos Rejeitados e consistem em inferir qual seria o comportamento dos indivduos rejeitados caso eles tivessem sido aprovados. Hand e Henley (1997) tambm discutiram que a mudana na populao alvo dos modelos degrada o seu

  • 22

    desempenho e ocorre devido a presses econmicas e mudanas no ambiente competitivo. Por isso, periodicamente novos modelos devem ser construdos.

    Rosa (2000) e Hand e Henley (1997) tambm descreveram os cuidados na definio da varivel resposta em modelos de Credit Scoring. A definio de um cliente bom ou mau ou indeterminado depende da Instituio considerar este cliente lucrativo ou no. Por exemplo, um cliente considerado bom se no apresentou atraso em seus pagamentos e com isso ele pode trazer lucro ao credor. Um cliente considerado mau se apresentou, por exemplo, atraso de mais do que trs meses e com isso ele no lucrativo ao credor. Por fim, um cliente indeterminado se puder ou no ser lucrativo ao credor. Apesar de um cliente poder ser classificado em trs classes (bom, mau ou indeterminado), nos modelos de Credit Scoring so utilizadas somente as classes bom e mau da varivel resposta, ou seja, varivel resposta binria.

    2.2 Redes Bayesianas e Classificadores Bayesianos

    Redes Bayesianas (RB) so grafos acclicos e direcionados que permitem a representao da distribuio de probabilidades conjunta de um conjunto de variveis aleatrias. Cada vrtice do grafo representa uma varivel aleatria e as arestas representam as dependncias diretas entre variveis. Uma RB possui a seguinte premissa de independncia condicional: cada varivel independente das variveis que no so suas descendentes no grafo, dada a observao de seus pais.

    Em RB, estas premissas de independncia so exploradas para reduzir o nmero de parmetros necessrios para caracterizar uma distribuio de probabilidades, e para calcular de forma eficiente as probabilidades a posteriori dadas evidncias. Os parmetros de uma RB so armazenados em tabelas de probabilidades condicionais de cada varivel dado seus pais. A distribuio conjunta da RB determinada unicamente pelas distribuies condicionais de cada varivel da RB dado seus pais, pela Regra da Cadeia, que definida posteriormente na Seo 3.1.

  • 23

    A estrutura de uma RB, ou topologia do grafo, pode ser definida manualmente com os relacionamentos entre variveis sendo definidos por especialistas ou pode ser aprendida a partir de bases de dados utilizando algoritmos de aprendizado de estrutura. Os parmetros de uma RB podem ser obtidos a partir do conhecimento de probabilidades por especialistas, do aprendizado a partir de bases de dados ou pela combinao de ambas as abordagens (NEAPOLITAN, 2004).

    O aprendizado em RB tambm tem sido bastante estudado por diversos autores como Neapolitan (2004), Buntine (1996) e Heckerman (1995).

    RB aplicadas em problemas de classificao de dados so chamadas de Classificadores Bayesianos. Estes modelos tm como objetivo descrever e distinguir classes e tambm prever a classe de objetos que no foram classificados.

    Neste trabalho sero descritos os seguintes Classificadores Bayesianos: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN).

    Os Classificadores Bayesianos mais simples so conhecidos como Naive Bayes (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997) e possuem a hiptese que todos os atributos so independentes dado classe. Friedman e Goldszmidt (1996) compararam a aplicao do Classificador Naive Bayes com o Classificador GBN (RB Irrestritas), com aprendizado de estrutura utilizando a medida MDL, descrito Seo 3.1.2. O estudo concluiu que os Classificadores GBN apresentaram desempenho significativamente superior ao Classificador Naive Bayes, mas apresentaram desempenho pobre em bases de dados com mais de 15 atributos. Este fraco desempenho observado nos Classificadores GBN com mais do que 15 atributos deve-se ao grande nmero de parmetros destes Classificadores. Esta baixa assertividade e baixo poder discriminante observados em alguns aprendizados dos Classificadores GBN podem ocorrer devido ao grande nmero de dependncias avaliadas em conjuntos de dados com mais do que 15 atributos.

    Os Classificadores Naive Bayes, na presena de variveis altamente correlacionadas (redundantes), podem ampliar desnecessariamente o peso da evidncia destes atributos sobre a classe, o que pode prejudicar a assertividade das

  • 24

    classificaes. Com isso, Langley e Sage (1994) mostraram que a seleo de variveis preditoras (atributos) atravs dos mtodos forward e backward melhorou a acurcia do Classificador Naive Bayes em muitos casos.

    Friedman, Geiger e Goldszmidt (1997), propuseram o Classificador Tree Augmented Naive Bayes (TAN) como uma extenso ao Classificador Naive Bayes, permitindo a anlise de interaes entre variveis preditoras desde que a estrutura representada por estas variveis seja a estrutura de uma rvore. Portanto, o Classificador TAN proposto encontra a relao entre atributos restrita ao espao de estruturas do tipo rvores e esta busca pode ser feita em tempo polinomial (CHOW; LIU, 1968).

    Um problema que pode ocorrer nas aplicaes dos Classificadores bayesianos, principalmente nos Classificadores BAN e GBN, o overfitting (superajuste) (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997) (CHENG; GREINER, 1999, 2001). Este problema decorrente do grande nmero de parmetros que a rede bayesiana construda pode apresentar e pode degradar o desempenho do Classificador. Para o problema de overfitting.

    Friedman et al (1997) propuseram o uso da medida MDL no aprendizado de estrutura do Classificador Bayesiano GBN, pois a medida MDL capaz de regular a complexidade da rede bayesiana pela penalizao daquelas que contenham muitos parmetros, o que pode ajudar a evitar o problema de overfitting.

    Para contornar o problema de overfitting, Cheng e Greiner (2001) propuseram que no Classificador GBN fossem selecionadas as variveis preditoras do Markov Blanket da varivel resposta (classe). A escolha do subconjunto de variveis do Markov Blanket da varivel resposta, para compor o Classificador GBN, um procedimento natural de seleo de atributos, pois as variveis do Markov Blanket da classe protegem a varivel resposta da influncia de qualquer outra varivel de fora do seu Markov Blanket.

    A construo de Classificadores a partir de bases de dados de instncias (observaes) pr-classificadas um problema muito estudado na rea Aprendizado

  • 25

    de Mquina (Machine Learning) (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997), que a rea que combina Estatstica com Inteligncia Artificial (WITTEN; FRANK, 2005).

    RB tm apresentado inmeras aplicaes acadmicas e na indstria. Na rea financeira, Poku (2005) e Guidici (2004) constroem modelos causais utilizando RB para a mensurao e gesto de Riscos Operacionais Financeiros. Poku (2005) construiu modelos de RB combinando o conhecimento de especialistas com as informaes de sries histricas de perdas operacionais. Para aes de Marketing, Baesens et al. (2004) utilizaram RB para classificar clientes quanto ao seu potencial de gasto e oferece a eles novos produtos ou vantagens. Especificamente neste estudo, foram utilizados Classificadores bayesianos, RB aplicadas em problemas de classificao, para prever o aumento ou diminuio do gasto futuro de um cliente baseado nas em suas informaes iniciais de compras. As aplicaes de RB na anlise de Risco de Crdito so descritas na Seo 2.3, a seguir.

    2.3 Redes Bayesianas aplicadas anlise do Risco de Crdito

    Sero descritos, a seguir, dois estudos de aplicaes dos Classificadores bayesianos em modelos de Credit Scoring, o de Baesens et al. (2002) e o de Chang et al. (2000). Algumas das metodologias de construo dos Classificadores bayesianos empregadas neste trabalho se basearam nas metodologias empregadas nestes dois artigos. As metodologias comuns e as contribuies do presente estudo, em relao aos artigos de Baesens et al. (2002) e Chang et al. (2000), sero descritas a seguir, aps uma breve introduo a estes artigos.

    O artigo de Baesens et al. (2002) descreveu a aplicao dos Classificadores bayesianos Naive Bayes, TAN e GBN em modelos de Credit Scoring. O aprendizado de estrutura empregado na construo dos Classificadores GBN utilizou a simulao Markov Chain Monte Carlo (MCMC) e a seleo de variveis destes Classificadores foi feita utilizando o Markov Blanket da varivel resposta (Cliente bom ou mau). As principais concluses do estudo foram que os Classificadores GBN apresentaram um

  • 26

    bom desempenho em Credit Scoring e que a seleo de variveis pelo Markov Blanket da varivel resposta resultou em modelos mais parcimoniosos e poderosos.

    Chang et.al. (2000) descreveram a teoria de construo de escores a partir de Classificadores Bayesianos. No artigo, foi construda uma RB aplicando aprendizado de estrutura com busca da estrutura pela adio e remoo de arestas at que no haja melhoria na razo de verossimilhanas (log-likelihood ratio). As variveis preditoras originais (todas categricas) foram convertidas em variveis dummy (variveis binrias) e foram selecionadas pelo Markov Blanket da varivel resposta. Alm disso, foram obtidos os cliques da varivel resposta, que so subconjuntos de variveis condicionalmente independentes, dada a observao da varivel resposta dentro do seu Markov Blanket e, que formaram subconjuntos de variveis interpretveis para o processo de concesso de crdito. Alm disso, as RB aplicadas tambm foram comparadas ao modelo de Regresso Logstica Mltipla com seleo de variveis por Forward Stepwise.

    As metodologias em comum entre este trabalho e os trabalhos de Baesens et al. (2002) e Chang et al. (2000) so: construo das amostras de desenvolvimento e de validao por Cross-Validation com 10 parties (10-fold), seleo de variveis nos Classificadores GBN pelo Markov Blanket da varivel resposta, converso das variveis categricas originais em dummies (variveis binrias) e comparao do desempenho dos Classificadores Bayesianos com o da Regresso Logstica.

    A contribuio deste estudo est na aplicao mais abrangente dos Classificadores Bayesianos, incluindo a aplicao de aprendizados de estrutura com diferentes medidas de avaliao da estrutura, tais como: AIC, MDL, Bayes, Bdeu e Entropia. Alm disso, tambm sero avaliados procedimentos de seleo de variveis baseados na filtragem pelo ganho de informao e pelo mtodo Wrapper. Adicionalmente, tambm ser abordada a categorizao de variveis contnuas e agrupamento de nveis das variveis categricas com muitos nveis, baseada na anlise bivariada do risco relativo e da medida WOE (Weights of Evidence).

  • 27

    3. FUNDAMENTAO TERICA

    Neste captulo so descritos os principais conceitos da teoria de Redes Bayesianas (RB) e uma introduo Inferncia e ao Aprendizado em RB. O conhecimento do ferramental terico de RB importante para o entendimento dos Classificadores Bayesianos, que na mais so do que RB aplicadas em problemas de classificao de dados. Os Classificadores Bayesianos empregados sero: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN), descritos na Seo 3.2. Na Seo 3.3 ser apresentada parte da teoria de Regresso Logstica Mltipla, que a tcnica comparada aos Classificadores Bayesianos nas aplicaes em Credit Scoring. Por fim, na Seo 3.4, sero apresentadas as medidas utilizadas para avaliar e comparar os modelos de classificao, que so: as taxas de acerto obtidas da Matriz de Confuso, estatstica Kolmogorov-Smirnov (KS) e coeficiente Gini.

    3.1 Redes Bayesianas

    Por definio, uma Rede Bayesiana (RB) composta dos seguintes elementos (JENSEN, 2001):

    i. Um conjunto de variveis e um conjunto de arestas direcionadas entre as variveis.

    ii. Cada varivel tem estados finitos e mutuamente exclusivos. iii. As variveis e as arestas direcionadas representam um grafo acclico

    direcionado. iv. Cada varivel A, com pais nBBB ,...,, 21 , possui uma tabela de probabilidades

    condicionais, ),...,,( 21 BBBAP , associada.

    Em outras palavras, RB so grafos acclicos e direcionados que permitem a representao da distribuio conjunta de probabilidades de um conjunto de

  • 28

    variveis aleatrias. Cada vrtice do grafo representa uma varivel aleatria e as arestas representam dependncias entre variveis. Em uma RB, se h uma aresta direcionada entre os ns A e B, ento dizemos que A pai de B e B filho de A. Neste trabalho sero tratadas somente as RB com variveis discretas, mas a teoria a respeito do tratamento de variveis contnuas em RB pode ser encontrada em Neapolitan (2004).

    RB com variveis discretas satisfazem a condio de Markov (NEAPOLITAN, 2004), que dada por: cada varivel da RB condicionalmente independente do conjunto de todos os seus no-descendentes dado o conjunto de todos os seus pais. Em uma RB, a distribuio conjunta de probabilidades de um conjunto de variveis discretas{ }nXXX ,...,, 21 dada pela Regra da Cadeia,

    ( )=

    =

    n

    iiin PaXPXXXP

    121 ),...,,( (1)

    Os parmetros de uma RB so definidos como,

    ( )iii PaXP= ni ,...,1= (2) em que, i uma tabela de probabilidades condicionais de iX dado seus pais Pai.

    Com isso, o conjunto de parmetros de uma RB dado por { }ns = ,...,, 21 e so todas as tabelas de probabilidades condicionais da RB com variveis discretas { }nXXX ,...,, 21 .

    Um importante aspecto de uma RB a sua estrutura (topologia do grafo), que permite a representao de complexas relaes entre variveis de forma grfica e intuitiva. A estrutura grfica de uma RB facilita o entendimento das relaes entre variveis do seu domnio, alm de permitir o uso combinado de informaes obtidas do conhecimento de especialistas com dados histricos para obter a distribuio conjunta de probabilidades da rede.

    A estrutura de uma RB pode ser determinada manualmente, com apoio de especialistas, ou pode ser aprendida a partir de bases de dados utilizando algoritmos

  • 29

    de aprendizado de estrutura. Os parmetros de uma RB podem ser obtidos atravs da elucidao2 de probabilidades por especialistas, atravs do aprendizado a partir de bases de dados ou atravs da combinao de ambas as abordagens.

    Na Figura 1 h um exemplo de RB, que utiliza variveis discretas, aplicada no diagnstico de doenas. As variveis desta RB so {Idade (I), Profisso (P), Clima (C), Doena (D), Sintomas (S)}.

    Figura 1 - Exemplo de Rede Bayesiana aplicada em diagnstico mdico.

    Na RB da Figura 1, o n Sintomas tem o n Doena como pai e trs ancestrais Idade, Profisso e Clima. Atravs das premissas de independncia condicional, podemos dizer que Sintomas dependente de Idade, Profisso e Clima indiretamente atravs de sua influncia sobre Doena. Tomando o n Clima, que no possui pai, ento podemos dizer que Clima independente de Profisso e Idade. Aplicando a Regra da Cadeia, equao (1), a distribuio conjunta de probabilidades desta RB dada por,

    P(Idade, Profisso, Clima, Doena, Sintomas) = P(Idade).P(Profisso).P(Clima). P(Doena | Idade, Profisso, Clima).P(Sintomas | Doena) (3)

    Utilizando somente as letras iniciais de cada varivel a equao (3) pode ser reescrita como,

    P(I,P,C,D,S) = P(I) . P(P) . P(C) . P(D |I,P,C) . P(S |D) (4)

    Pela Regra da Cadeia, as tabelas de probabilidades condicionais de cada varivel da RB precisam ser especificadas para que se obtenha a distribuio de

    2 Elucidao o procedimento de obteno de distribuies a partir do conhecimento de

    especialistas.

  • 30

    probabilidades conjunta da RB. Com isso, na RB da Figura 1, necessrio especificar as tabelas P(Idade), P(Profisso), P(Clima), P(Doena|Idade,Profisso,Clima) e P(Sintomas|Doena) para determinarmos a distribuio conjunta de probabilidade P(Idade, Profisso, Clima, Doena, Sintomas).

    Na Tabela 1, temos as tabelas P(Idade) e P(Sintomas|Doena). As probabilidades apresentadas nestas tabelas tambm podem ser chamadas de parmetros, como definimos previamente em (1). Note que a varivel Idade, que uma varivel contnua, foi discretizada (ou categorizada) para criar uma varivel discreta binria.

    Tabela 1 - Probabilidades Condicionais de "Doena" dado "Sintomas" e distribuio de "Idade".

    Idade < 45 0.46 Idade 45 0.54

    Doena Sintomas lcera no Estmago Infarto Nenhuma Dor de Estmago 0.8 0.05 0.05

    Dor no Peito 0.15 0.90 0.10 Nenhuma 0.05 0.05 0.85

    Se no exemplo da Tabela 1, se no fossem utilizadas as suposies de RB e a Regra da Cadeia, ao invs de 5 tabelas seria necessrio definir uma grande tabela de probabilidades para obtermos a distribuio conjunta das 5 variveis. Com isso, a RB fornece uma maneira de simplificar a representao de uma distribuio conjunta de probabilidades.

    RB tambm podem ser utilizadas para calcular novas probabilidades (a posteriori) a partir de informaes (evidncias) sobre uma ou mais variveis da rede. Em uma RB, um subconjunto de variveis E com valores conhecidos, E=e, em uma dada situao, conhecido como conjunto de evidncia, ou simplesmente evidncia, por exemplo, E={X2=x2,X6=x6}. Tambm podemos dizer que uma varivel est instanciada (evidncia forte) se conhecemos o estado desta varivel.

    Um conceito importante em RB o de d-separao. Segundo Jensen (2001), dizemos que dois vrtices distintos X e Y esto d-separados em uma RB se, para

  • 31

    todos os caminhos entre X e Y existe um vrtice intermedirio V (distinto de X e Y) tal que a conexo entre X e Y atravs de V:

    serial ou divergente e V recebeu uma evidncia ou; convergente e nem V nem algum de seus descendentes receberam

    uma evidncia.

    Figura 2 - Conexo Serial: X e Y esto d-separados se V recebeu uma evidncia.

    Figura 3 - Conexo Divergente: X e Y esto d-separados se V recebeu uma evidncia.

    Figura 4 - Conexo Convergente: X e Y esto d-separados se nem V nem seus descendentes recebeu uma evidncia.

    Em RB se dois vrtices quaisquer esto d-separados ento eles so condicionalmente independentes. Atravs do conceito de d-separao possvel identificar a condio de independncia condicional entre variveis em uma RB.

    Outro conceito importante em RB o de Markov Blanket. O Markov Blanket de uma varivel X o conjunto das variveis que so pais de X, filhos de X e as variveis que compartilham um filho com X (JENSEN, 2002). Com isso, se todas as variveis do Markov Blanket de X possuem evidncias, ento X est d-separado de todas as outras variveis da RB e, conseqentemente, X condicionalmente independente de todas as outras variveis da rede, dado seu Markov Blanket. No exemplo da Figura 5, o Markov Blanket de I {C, E, K, L, H}.

  • 32

    Em uma RB, qualquer varivel influenciada diretamente somente pelas variveis que compe o seu Markov Blanket. Com isso, o conceito de Markov Blanket pode ser utilizado para seleo de variveis em RB, como descreveremos na Seo 3.2.4.

    Figura 5 - Outro exemplo de Rede Bayesiana

    3.1.1 Inferncia em Redes Bayesianas

    A Inferncia em RB o processo de atualizao das probabilidades a posteriori de variveis dado uma evidncia fornecida. Em RB, a evidncia pode ser definida para qualquer subconjunto de ns e a probabilidade a posteriori pode ser calculada para qualquer outro subconjunto de ns.

    Como uma RB contm a distribuio de probabilidade conjunta de todas as variveis do seu domnio, ento possvel obter a distribuio de probabilidades de qualquer varivel do seu domnio a partir da Regra da Probabilidade Total (Apndice A). No exemplo de RB da Figura 1, a distribuio da varivel Doena (D), pela Regra da Probabilidade Total, dada (inferida) por,

    =======i p c s

    sSdDcCpPiIPdDP ),,,,()( d (5)

  • 33

    Pela Regra da Cadeia, a equao (5) pode ser escrita como,

    ===========i p c s

    dDsSPcCpPiIdDPcCPpPPiIPdDP )(),,().()().()( d (6)

    em que, i, p, c, d e s representam, respectivamente, cada estado das variveis Idade, Profisso, Clima, Doena, Sintoma.

    Segundo Zhang e Poole (1996), Inferncia em uma RB se refere ao processo de clculo da probabilidade a posteriori )( oYYXP = de um conjunto de variveis X depois de obter algumas observaes (evidncia) Y=Y0. Aqui Y uma lista de variveis observadas e Y0 a lista de valores observados. Pelo Teorema de Bayes,

    )( oYYXP = dada por,

    )(),()(

    o

    oo YYP

    YYXPYYXP=

    =

    == (7)

    Com isso, )( oYYXP = obtida a partir da distribuio marginal ),( YXP , que por

    sua vez calculada a partir da distribuio conjunta ),...,,( 21 nXXXP pela soma de probabilidades de todas as variveis fora do domnio de YX uma por uma. No entanto, isso no vivel, pois esta soma fora do domnio de YX requer um nmero exponencial de adies (ZHANG; POOLE, 1996).

    Para exemplificar o procedimento de Inferncia utilizaremos o exemplo de RB da Figura 1. Dada uma evidncia E=e={Idade=

  • 34

    O denominador da equao (9) pode ser escrito como, ====

  • 35

    Dado uma base de dados de treinamento D com observaes independentes de um conjunto de variveis discretas X e alguma informao a priori (obtida a partir de informaes de especialistas), o problema de aprendizado em RB consiste em encontrar a estrutura Sh e parmetros S que melhor expliquem os dados contidos em D.

    Existe uma variedade de ferramentas de aprendizado em RB, para estruturas conhecidas e desconhecidas, para bases de dados completas e incompletas. O caso em que a estrutura da RB conhecida o mais simples, pois necessrio aprender somente as tabelas de probabilidade condicionais (parmetros) da RB. O caso em que a estrutura da RB desconhecida mais complexo, pois necessrio aprender a estrutura e posteriormente as tabelas de probabilidade condicionais da RB.

    Conhecida a estrutura Sh de uma RB com parmetros independentes

    { }ns = ,....,, 21 , em que i so as tabelas de probabilidades ),,( hiii SPaXP e, dado uma base de dados completa D de exemplos independentes de um conjunto de variveis discretas{ }nXXX ,...,, 21 , o problema de aprendizado de parmetros se resume a calcular a distribuio a posteriori ),( hS SDP que dada por,

    =

    =n

    i

    hi

    hS SDPSDP

    1),(),(

    (12)

    A obteno dos parmetros a partir de bases de dados pode ser feita atravs da simples contagem de freqncias (NEAPOLITAN, 2004) ou a partir da abordagem combinada de dados observados em D com alguma informao a priori de especialistas. Esta abordagem combinada baseada em distribuies de Dirichlet (NEAPOLITAN, 2004). Alm disso, se os dados observados em D estiverem incompletos, so utilizados algoritmos EM (Expectation Maximization) (HECKERMAN, 1995).

    Para o problema de aprendizado de estrutura, consideraremos um conjunto finito S de possveis estruturas de uma RB. Cada estrutura SS h pode representar a distribuio conjunta de probabilidades do conjunto de variveis discretas

    { }nXXXX ,...,, 21= . Dada uma base de dados completa D, a tarefa do aprendizado

  • 36

    de estrutura est em obter a distribuio a posteriori )( DSP h , que pelo teorema de Bayes dada por,

    )()()(

    )(DP

    SDPSPDSP

    hhh

    = (13)

    A distribuio )( hSP chamada a priori de cada possvel estrutura hS , )( hSDP

    chamada verossimilhana marginal e )(DP uma constante de normalizao.

    Para o aprendizado de estrutura em RB sero apresentadas duas abordagens. A primeira abordagem prope algoritmos de aprendizado de estrutura chamados CI-based (Conditional Independence-based) e se baseia na anlise de dependncia entre os ns. Nestes algoritmos as relaes de dependncia entre variveis so avaliadas atravs de testes de independncia condicional, como qui-quadrado ou informao mtua, e so criadas arestas para as dependncias mais relevantes indicadas por estes testes. Estes algoritmos utilizam o conceito de d-separao, ou seja, no conceito de que a estrutura de uma RB armazena todas as relaes de independncia condicional entre ns (CHENG; GREINER, 1999, 2001).

    Os testes realizados nos algoritmos CI-based consistem em avaliar quais dois ns xi e xj so condicionalmente independentes, dado um conjunto de ns c. Isso feito, por exemplo, avaliando se a informao mtua condicional dos ns menor do que um valor e. A informao mtua condicional calculada por (MADDEN, 2003),

    = )()(

    ),(ln),,(),(

    ,,CXPCXP

    CXXPCXXPcxxI

    ji

    ji

    CXXjiji

    ji

    (14)

    A segunda abordagem prope algoritmos de aprendizado de estrutura, chamados Score-based, que consistem em introduzir uma medida (score), para avaliar o quanto cada possvel estrutura Sh explica dos dados D, e um mtodo de busca de uma estrutura, entre as possveis Sh, com o mais alto valor para esta medida (HECKERMAN, 1995).

  • 37

    As medidas utilizadas para avaliar o quanto cada possvel estrutura Sh explica dos dados de D descritas pela literatura so: Entropia, AIC, MDL (FRIEDMAN; GEIGER; GOLDSZMIDT, 1997), Bayes e BDeu (HECKERMAN, 1995).

    Seja Sh uma possvel estrutura de uma Rede Bayesiana. Dada uma base de dados de treinamento D, definiremos Nijk como o nmero de observaes em D tal que Xi=k e Pai =j com i=1,..., n; j=1,...,qi e k=1,..., ri, e N o nmero total de observaes. O valor qi definido como o nmero de pais de Xi e ri definido como o nmero de estados da varivel Xi. As medidas utilizadas nos algoritmos Score-based, que chamaremos de Score(Sh,D), so definidas como,

    Entropia:

    ScoreEntropia (Sh,D) =

    = = = ij

    ijkn

    i

    q

    j

    r

    kijk N

    NN

    i i

    ln.1 1 1

    (15)

    Akaikes Information Criterion (AIC):

    ScoreAIC (Sh,D) =

    = = = ij

    ijkn

    i

    q

    j

    r

    kijk

    h

    NN

    NSi i

    ln1 1 1

    ScoreAIC (Sh,D) = ( )DSScoreS hEntropiah ,+ (16)

    Minimal Description Length (MDL):

    ScoreMDL(Sh,D)=

    = = = ij

    ijkn

    i

    q

    j

    r

    kijk

    h

    NN

    NNSi i

    lnln21

    1 1 1

    ScoreMDL(Sh,D)= ( )DSScoreNS hEntropiah ,ln21

    + (17)

    em que, hS o nmero de parmetros da estrutura Sh.

    Bayesian Dirichlet, que ser chamado Bayes:

    ScoreBayes (Sh,D) ( )DSP h ,=

  • 38

    Pelo Teorema de Bayes,

    ScoreBayes (Sh,D) ),()( hh SDPSP= Heckerman (1995) calcula ),( hSDP utilizando distribuies de Dirichlet e obtm

    o seguinte resultado,

    ScoreBayes (Sh,D) ( )

    ( )( )

    ( )== =

    +

    +

    =

    ii r

    k ijk

    ijkijkn

    i

    q

    j ijij

    ijhN

    NNNN

    NSP

    11 1 '

    '

    '

    ')( (18)

    em que, (.) a funo gamma e ijkN ' so parmetros da distribuio Dirichlet

    que satisfazem =

    =

    ir

    kijkij NN

    1'' .

    Os valores de ijkN ' so obtidos a partir dos parmetros da RB determinados com

    auxlio de especialistas. O valor 1' =ijkN indica que no h informao de

    especialistas (no informativo). )( hSP a distribuio a priori dada a estrutura Sh e tambm obtida com apoio de especialistas ou pode ter distribuio uniforme caso no haja informaes de especialistas.

    Bayesian Dirichlet Equivalent, que ser chamado BDeu: Heckerman (1995) descreve a medida ScoreBDeu(Sh,D) como a aplicao de )./(1' iijki qrN = em ScoreBayes(Sh,D), dado pela equao (18). Sendo que, a expresso )./(1' iijki qrN = resulta em iji qN /1' = .

    O problema de otimizao para busca de uma estrutura Sh que produza um alto valor para uma medida NP-hard (CHICKERING; GEIGER; HECKERMAN, 1994) e o nmero de possveis estruturas de uma RB cresce exponencialmente com o nmero de variveis.

    Ambas as abordagens de aprendizado de estrutura tm suas vantagens e desvantagens, geralmente os algoritmos de busca apresentam resultados mais rpidos, mas o mtodo de busca pode no encontrar a melhor soluo.

  • 39

    3.2 Classificao Bayesiana

    Redes Bayesianas (RB) podem ser utilizadas em problemas de classificao de uma maneira clara e direta e as RB utilizadas em problemas de classificao de dados so chamadas de Classificadores Bayesianos. Nos Classificadores bayesianos com variveis discretas },,...,,{ 21 CAAA n , uma delas, C, a varivel classe (varivel resposta) e as demais, },...,,{ 21 nAAA , so os atributos (variveis preditoras). Neste trabalho sero descritos os seguintes Classificadores bayesianos: Naive Bayes, Tree Augmented Naive Bayes (TAN) e General Bayesian Network (GBN).

    3.2.1 Classificador Naive Bayes

    Os Classificadores bayesianos mais simples conhecidos so os chamados Naive Bayes. Os Classificadores Naive Bayes partem da hiptese que todos os atributos so independentes, dado a varivel classe, e sua representao grfica dada na Figura 6.

    Figura 6 - Estrutura do Classificador Naive Bayes com 5 atributos e uma classe

    Sob a hiptese de independncia condicional entre atributos dada a classe, aplicando a Regra da Cadeia obtida a distribuio conjunta de probabilidades do Classificador Naive Bayes dada por,

    =

    =

    n

    iin CAPCPCAAP

    11 )().(),,....,( (19)

  • 40

    Em um Classificador bayesiano, com atributos discretos e classe C, assumindo valores {0,1}, a probabilidade de classificarmos um novo caso, },...,{ 11 nn aAaA == , em C=1 ,

    ),...,()1|,...,().1(),...,|1(

    11

    1111

    nn

    nnnn

    aAaAPCaAaAPCP

    aAaACP==

    ====

    ==== (20)

    E a probabilidade de classificarmos um novo caso em C=0 ,

    ),...,()0|,...,().0(),...,|0(

    11

    1111

    nn

    nnnn

    aAaAPCaAaAPCP

    aAaACP==

    ====

    ==== (21)

    Com isso, uma nova observao (caso), },...{ 11 nn aAaA == , classificada na classe C=1 segundo o seguinte critrio:

    1),...,|0(),...,|1(

    11

    11 ===

    ===

    nn

    nn

    aAaACPaAaACP

    (22)

    O critrio descrito em (22) que pode ser escrito como,

    1)0|,...,()1|,...,(

    .)0()1(

    11

    11 ===

    ===

    =

    =

    CaAaAPCaAaAP

    CPCP

    nn

    nn (23)

    No caso do Classificador bayesiano Naive Bayes, um novo caso },...{ 11 nn aAaA == classificado em C=1 segundo o seguinte critrio:

    1)0|()1|(

    .)0()1(

    1

    ==

    ==

    =

    = =

    n

    i ii

    ii

    CaAPCaAP

    CPCP

    (24)

    O Classificador Naive Bayes conhecido por sua simplicidade e eficincia, pois apresentam estrutura fixa e parmetros ajustveis. Embora sua suposio de independncia seja problemtica, pois esta hiptese raramente se verifica no mundo real, os Classificadores Naive Bayes tm apresentado um bom desempenho em um grande nmero de aplicaes, especialmente naquelas em que as variveis preditoras no so fortemente correlacionadas (CHENG; GREINER, 2001).

  • 41

    3.2.2 Classificador Tree Augmented Naive Bayes (TAN)

    O Classificador bayesiano TAN uma extenso do Naive Bayes, pois permite o relaxamento da hiptese de independncia condicional entre atributos dado a classe.

    O Classificador TAN foi proposto por Friedman e Goldszmidt (1997) e possibilita representar dependncias entre pares de atributos. No Classificador TAN a dependncia entre atributos deve ser representada pela estrutura de uma rvore, ou seja, cada atributo deve ter no mximo um pai, fora a classe. Como pode ser observado na Figura 7.

    Figura 7 - Estrutura de um Classificador TAN com seis atributos e uma classe

    O Classificador TAN utiliza a propriedade de que a busca da melhor estrutura, restrita ao espao de estruturas do tipo rvore, feita em tempo polinomial (CHOW. LIU, 1968). Nesta busca uma vez que cada atributo pode ter no mximo um "pai", necessrio encontrar atributo com maior dependncia condicional dado classe.

    Como muitas relaes de dependncia entre as variveis no podem ser representadas nem mesmo por estruturas tipo TAN, necessria a construo de modelos mais complexos que permitam que cada n da rede (exceto a classe) tenha um nmero arbitrrio de pais.

  • 42

    3.2.3 Classificador General Bayesian Network (GBN)

    Um Classificador bayesiano GBN uma RB Irrestrita utilizada em problemas de classificao. diferente dos Classificadores bayesianos Naive Bayes, TAN e BAN, que tratam a varivel classe como um n especial pai de todos os atributos, o Classificador GBN trata o n classe como um n que no necessariamente pai de todos os atributos. A Figura 8 mostra um exemplo de Classificador GBN.

    Figura 8 - Estrutura de um Classificador GBN com quatro atributos e uma classe

    A construo dos os Classificadores GBN pode ser feita utilizando o aprendizado de estrutura descritos na Seo 3.1.2.

    Um problema que pode ocorrer em aplicaes dos Classificadores GBN o overfitting (superajuste). Overfitting um fenmeno que ocorre quando um modelo se ajusta demais aos dados de treinamento e no pode ser generalizado para a populao inteira. Normalmente, um modelo com problema de overfitting no apresenta um bom desempenho fora dos dados de treinamento.

    O estudo de Cheng e Greiner (2001) indica que o problema de overfitting no Classificador GBN decorrente do grande nmero de parmetros que a RB construda pode apresentar e pode degradar o desempenho do Classificador. Para contornar esse problema, o estudo sugere a seleo das variveis do Markov Blanket da classe para compor o Classificador GBN.

    Em uma RB, qualquer varivel influenciada somente pelas variveis que compe o seu Markov Blanket. Com isso, nos Classificadores GBN, o subconjunto de atributos contidos no Markov Blanket da varivel classe um procedimento natural de seleo de variveis.

  • 43

    Os estudos de Baesens et al. (2002) (2004) concluem, atravs de aplicaes prticas, que o uso do conceito de Markov Blanket para seleo de variveis no Classificador GBN resulta em modelos parcimoniosos e poderosos.

    Para o problema de overfitting, Friedman, Geiger e Goldszmidt (1997) propem o uso da medida MDL no aprendizado de estrutura do Classificador GBN, pois a medida MDL capaz de regular a complexidade da RB pela penalizao daquelas que contenham muitos parmetros, o que ajuda a evitar o problema de overfitting.

    3.3 Regresso Logstica

    A anlise de Regresso Logstica Mltipla (HOSMER; LEMESHOW, 1989) para uma resposta binria a tcnica mais utilizada no desenvolvimento de modelos de Credit Scoring (ROSA, 2000).

    A Regresso Logstica mltipla pode ser escrita como um caso particular dos Modelos Lineares Generalizados (MCCULLAGH; NELDER, 1989) (PAULA, 2004), com funo de ligao logito e varivel resposta iY com distribuio Bernoulli com

    probabilidade de sucesso (mdia) ipi .

    Seja }1,0{iY a varivel resposta para o cliente i (0 = o i-simo cliente mau pagador, 1= o i-simo cliente bom pagador), o modelo de Regresso Logstica pode ser escrito como,

    pi

    pi Tiippio

    i

    i xxx =+++=

    ....

    1ln 11 ou

    ( )( )

    pi T

    i

    Ti

    ix

    x

    exp1exp+

    = (25)

    em que, ipi a probabilidade do cliente i ser bom pagador, Tipii xxx ),...,,1( 1= o

    vetor de variveis preditoras do cliente i e Tp ),...,,( 10 = o vetor dos parmetros (coeficientes) do modelo.

  • 44

    Como a varivel resposta iY tem distribuio Bernoulli com probabilidade de

    sucesso ipi , ento:

    ipipi xxYPxxYE pi==== ),....,|1(),....,|1( 11 , que a probabilidade de que o cliente seja bom pagador dado as variveis preditoras.

    ipipi xxYPxxYE pi==== 1),....,|0(),....,|0( 11 , que a probabilidade de que o cliente seja mau pagador dado as variveis preditoras.

    A distribuio varivel resposta iY para cada observao da amostra de clientes

    dada por,

    ( ) ii yiyiii yYP == 11)( pipi para i=1,...,n (26)

    O mtodo da Mxima Verossimilhana ser utilizado para estimar os parmetros

    p ,...,, 10 do modelo de Regresso Logstica mltipla. Para isso, inicialmente escreveremos a funo de Verossimilhana (BOLFARINE; SANDOVAL, 2001) da varivel resposta iY em todas as observaes da amostra y=(y1,y2,...,yn) sob o modelo de Regresso Logstica como,

    ( )=

    =

    ===

    n

    i

    yi

    yi

    n

    iiin

    iiyYPyyyL1

    1

    121 1)(),,...,,( pipi (27)

    Por convenincia de clculos, trabalharemos com a log-verossimilhana que dada por,

    ( ) ( )===

    +

    =

    ==

    n

    ii

    n

    i i

    ii

    n

    iiin yyYPyyyL

    11121 1ln1

    ln.)(ln),,...,,(ln pipi

    pi (28)

    Da expresso do modelo de Regresso Logstica dada pela equao (25), temos que ( )[ ]pi Tii xexp11 += e ( ) pipi Tiii x= )1/(ln . Ento, a log-verossimilhana pode ser reescrita como,

    ( ) ( )( )==

    +=n

    i

    Ti

    n

    i

    Tiin xxyyyyL

    1121 exp1ln),,...,,(ln (29)

  • 45

    As estimativas de Mxima Verossimilhana, , so os valores de que maximizam a log-verossimilhana, dada pela equao (29), e so obtidos atravs de mtodos numricos. O mtodo numrico mais utilizado o de Mnimos Quadrados Reponderados (PAULA, 2004).

    Seja a estimativa dos parmetros do modelo de Regresso Logstica mltipla, obtida utilizando mtodos numricos. Se suposies do modelo so corretas, ento podemos mostrar que assintoticamente,

    ( ) =E e ( ) ( ) 11 = XVXVar T (30)

    em que, )}1(),....,1(),1({ 2211 nndiagV pipipipipipi = 3 e TnxxxX ),....,,( 21= .

    Os testes de significncia para cada parmetro do modelo sero feitos e suas hipteses so:

    H0: 0=j H1: 0j j=1,2,...,p

    O teste de Wald (MONTGOMERY; PECK; VINING, 2001) pode ser utilizado para avaliar a significncia de cada parmetro e sua estatstica dada por,

    )(

    j

    jo

    seZ

    =

    (31)

    em que, )( jse o erro padro de j , dado por nVarse jj /)()( = .

    Sob a hiptese nula, H0, a estatstica do teste de Wald, Z0, tem distribuio Normal com 0= e 1= (normal padro).

    O uso de Regresso Logstica tem se consagrado em modelos de Credit Scoring devido a algumas vantagens oferecidas pela tcnica (ROSA, 2000):

    a mais utilizada entre os profissionais da rea (culturalmente difundida); 3 diag{a,b,c} uma matriz diagonal com elementos a, b e c.

  • 46

    No apresenta problemas srios de suposies, como, por exemplo, a Anlise Discriminante Linear, na qual se pressupe uma distribuio Normal Multivariada para as variveis preditoras;

    Facilidade computacional, uma vez que os pacotes estatsticos mais utilizados pelas instituies permitem o seu uso;

    uma ferramenta poderosa para discriminao e aplicvel aos dados de risco de crdito.

    Vasconcellos (2002) tambm aponta que a Regresso Logstica uma tcnica vantajosa devido velocidade no processo de classificao (quanto tempo o cliente que pede um emprstimo precisa esperar para ter uma resposta afirmativa ou negativa sobre a concesso) e devido facilidade de revisar o modelo periodicamente.

    3.4 Medidas de Avaliao dos Modelos de Classificao

    Os modelos de Credit Scoring tm como principal objetivo discriminar os clientes que se tornaro inadimplentes com o tempo dos que se mantero bons pagadores. Existem diversas medidas utilizadas para mensurar e comparar os desempenhos de modelos de classificao na realizao deste propsito. Na Seo 3.4 sero apresentadas duas medidas de avaliao do poder discriminante dos modelos: a estatstica Kolmogorov-Smirnov e o coeficiente Gini (ANDERSON, 2007). Alm disso, tambm sero apresentadas outras trs taxas de acerto, baseadas da Matriz de Confuso, utilizadas para avaliar a acurcia das previses dos modelos de classificao: taxas de acerto totais (TAT), taxas de acerto nas previses dos clientes bons (TAB) e dos clientes maus (TAM) pagadores (ROSA, 2000). Os melhores modelos de classificao sero os com maior poder discriminante e com maiores taxas de acerto nas previses dos clientes bons e, principalmente, dos clientes maus pagadores.

  • 47

    3.4.1 Matriz de Confuso

    A Matriz de Confuso de um modelo de Credit Scoring uma maneira fcil de observar se o modelo est prevendo adequadamente os bons e maus clientes. Para a sua construo deve-se atribuir a cada indivduo i da amostra e validao um score is . A varivel score a probabilidade prevista do cliente se no se tornar

    inadimplente, dada a observao das variveis preditoras do modelo, e assume valores entre 0 e 100. Se i cs P> , ento o cliente classificado como bom pagador

    e, caso contrrio, o cliente classificado como mau pagador. O ponto de corte utilizado, cP , foi de 50. A matriz de confuso (Tabela 2), apresenta as freqncias do cruzamento entre classificaes observadas e previstas por um modelo, dado um determinado ponto de corte (ANDERSON, 2007).

    Tabela 2 Matriz de confuso de um modelo de Credit Scoring.

    Previsto Observado Mau Bom

    Total

    Mau n00 n01 n0. Bom n10 n11 n1. Total n.0 n.1 n..

    em que, noo: Nmero de clientes maus corretamente classificados como maus; no1: Nmero de clientes maus incorretamente classificados como bons; n1o: Nmero de clientes bons corretamente classificados como maus; n11: Nmero de clientes bons incorretamente classificados como bons;

    e, n.0 = n00+n10 ; n.1 = n01+n11 ; n0. = n00+n01 ; n1. = n10+n11 ; n..=n00+n01+n10+n11

    Com isso, os modelos de classificao sero avaliados e comparados a partir das trs taxas de acerto definidas por,

    Taxa de acerto total: TAT = (n00 + n11) / n.. (32) Taxa de acerto dos maus: TAM = (n00) / n0. (33) Taxa de acerto dos bons: TAB = (n11) / n1. (34)

  • 48

    A taxa de acerto dos bons (TAB) tambm pode ser chamada de sensibilidade ou true positive rate, e a taxa de acerto dos maus (TAB) tambm pode ser chamada de especificidade ou false positive rate. Outras medidas de avaliao de modelos de classificao binria so os erros tipo I e do tipo II, definidos como (ANDERSON, 2007)

    Erro tipo I = (n10) / n1. (35) Erro tipo II = (n01) / n0. (36)

    Uma desvantagem do uso das taxas de acerto obtidas da matriz de confuso para avaliar a assertividade das previses dos modelos que estas medidas dependem do ponto de corte escolhido.

    3.4.2 Coeficiente Gini

    Coeficiente Gini duas vezes a rea entre a curva ROC (Receiver Operating Characteristic) e a diagonal da curva (ANDERSON, 2007). O coeficiente Gini utilizado para avaliar se o score previsto discrimina bem os clientes bons e maus pagadores.

    A curva ROC obtida do grfico da sensibilidade versus a especificidade das previses de um modelo de classificao binria (com varivel resposta com 2 nveis), com o ponto de corte cP variando. Quanto maior a sensibilidade e a especificidade melhor o modelo. No entanto, ambas as medidas dependem de cP , e

    quanto cP cresce, a sensibilidade diminui e a especificidade aumenta. Com isso,

    para a construo da curva ROC, obtm-se as matrizes de confuso para diferentes pontos de corte ( cP ) e delas calcula-se a sensibilidade e especificidade. A Figura 9 mostra um exemplo de construo da curva ROC.

    O coeficiente Gini calculado utilizando a seguinte expresso:

    ( ) ( )( ) ( ) ( )( )1 11

    1n

    M i M i B i B ii

    Coeficiente Gini F s F s F s F s

    =

    = (37)

  • 49

    em que, ( )B iF s a distribuio acumulada dos clientes bons na faixa de score i, ( )sFM a distribuio acumulada do scores dos clientes maus na faixa de escore i

    e n o nmero de faixas de score (ser aplicado n=1000).

    Figura 9 - Exemplo de curva ROC (Receiver Operating Characteristic).

    O valor do coeficiente Gini representa o poder de discriminao dos clientes bons e maus por um modelo de classificao binria em todos os intervalos de valores do escore.

    3.4.3 Estatstica Kolmogorov-Smirnov

    A estatstica de Kolmogorov-Smirnov (KS) descrita pela teoria estatstica no-paramtrica e utilizada para testar se as distribuies de dois grupos so iguais (CONOVER, 1999).

    Em modelos de Credit Scoring, a estatstica KS mede a capacidade da varivel escore de distinguir bons e maus clientes, lembrando que a varivel escore o valor da probabilidade prevista do cliente se tornar inadimplente, dada a observao das variveis preditoras, e assume valores entre 0 e 100.

    Para a avaliao da performance de modelos de Credit Scoring, a estatstica KS definida como a mxima diferena entre as distribuies acumuladas dos escores dos bons e maus pagadores (ANDERSON, 2007) e definida como,

  • 50

    ( ) ( ){ }max M Bs

    KS F s F s= (38)

    em que, ( )sFB a distribuio acumulada do escores entre os clientes bons e ( )sFM a distribuio acumulada do escores entre os clientes maus.

    A hiptese da estatstica KS supe que um modelo de classificao com bom desempenho atribui aos clientes bons pagadores escores altos e a clientes maus pagadores escores baixos. Logo, a distribuio dos escores dos clientes bons apresenta maior concentrao em valores altos e a distribuio de escores dos clientes maus possui maior concentrao em valores mais baixos. Alm disso, a distribuio acumulada do escore dos maus pagadores superior distribuio acumulada dos escores dos bons pagadores e portanto, o melhor modelo dever prover a maior separao entre clientes adimplentes e inadimplentes ao longo dos valores de escore.

    Na Figura 10, apresentado um exemplo de clculo da estatstica KS. A maior separao entre as distribuies acumuladas de bons e maus 30% e portanto, o valor da estatstica KS 30%.

    Figura 10 - Exemplo de clculo da estatstica Kolmogorov-Smirnov.

    Lecumberri e Duarte (2003) descrevem uma regra prtica para a verificao da qualidade de modelos de Credit Scoring utilizando estatstica KS (Tabela 3). Esta regra visa auxiliar na interpretao da estatstica KS. Por exemplo, no caso de um modelo de Credit Scoring cuja distncia est abaixo de 20%, h forte indcio de um

  • 51

    baixo nvel de discriminao no modelo, o que sugere a necessidade de alterao do mesmo.

    Tabela 3 - Valores crticos da estatstica Kolmogorov-Smirnov aplicada em modelos de Credit Scoring.

    Estatstica KS Discrimanao Credit Scoring 75% Discriminao Excelente

  • 52

    4. METODOLOGIA

    No Captulo de Metodologia ser descrita a base de dados aplicada, a German Credit, e todos os procedimentos adotados para a construo dos modelos de classificao. Na Seo 4.2, ser descrita a categorizao das variveis preditoras da base de dados German Credit, adotada previamente a aplicao dos modelos. Na Seo 4.3, sero apresentadas as selees de variveis que sero empregadas nos Classificadores Bayesianos e da Regresso Logstica. Na Seo 4.3, ser mostrada a metodologia de construo das amostras de desenvolvimento e de validao obtidas por Cross-Validation com 10 parties (10-fold). Na Seo 4.5, finalmente sero mencionados os softwares empregados na estimao dos modelos de classificao. A Figura 11 apresenta um breve esquema destas metodologias empregadas.

    Base de dados German Credit

    Amostra Balanceada

    Amostras de desenvolvimento

    e de validao

    Cross-Validation com 10 parties

    (10-fold)

    Regresso Logstica Redes Bayesianas

    Amostragem Retrospectiva

    Desenvolvimento dos modelos de classificao

    Seleo por Forward Stepwise Classificador Naive Bayes

    Classificador TAN

    Classificador GBN

    Seleo por Filtragem pelo Ganho de Informao

    Seleo doMarkov Blanket

    da varivel respostaSeleo pelo

    mtodo Wrapper

    Aprendizado de estrutura utilizando as medidas

    MDL, AIC, Bayes, Bdeu, Entropia

    Os trs classificadores passaram por filtragem pelo ganho de informao

    Seleo de variveis empregadas nos classificadores Naive Bayes e TAN

    Seleo de variveis

    Base de dados German Credit

    Amostra Balanceada

    Amostras de desenvolvimento

    e de validao

    Cross-Validation com 10 parties

    (10-fold)

    Regresso Logstica Redes Bayesianas

    Amostragem Retrospectiva

    Desenvolvimento dos modelos de classificao

    Seleo por Forward Stepwise Classificador Naive Bayes

    Classificador TAN

    Classificador GBN

    Seleo por Filtragem pelo Ganho de Informao

    Seleo doMarkov Blanket

    da varivel respostaSeleo pelo

    mtodo Wrapper

    Aprendizado de estrutura utilizando as medidas

    MDL, AIC, Bayes, Bdeu, Entropia

    Os trs classificadores passaram por filtragem pelo ganho de informao

    Seleo de variveis empregadas nos classificadores Naive Bayes e TAN

    Seleo de variveis

    Base de dados German Credit

    Amostra Balanceada

    Amostras de desenvolvimento

    e de validao

    Cross-Validation com 10 parties

    (10-fold)

    Regresso Logstica Redes Bayesianas

    Amostragem Retrospectiva

    Desenvolvimento dos modelos de classificao

    Seleo por Forward Stepwise Classificador Naive Bayes

    Classificador TAN

    Classificador GBN

    Seleo por Filtragem pelo Ganho de Informao

    Seleo doMarkov Blanket

    da varivel respostaSeleo pelo

    mtodo Wrapper

    Aprendizado de estrutura utilizando as medidas

    MDL, AIC, Bayes, Bdeu, Entropia

    Os trs classificadores passaram por filtragem pelo ganho de informao

    Seleo de variveis empregadas nos classificadores Naive Bayes e TAN

    Seleo de variveis

    Figura 11 Esquema das metodologias aplicadas neste trabalho.

  • 53

    4.1 Base de Dados

    A base de dados de emprstimos concedidos utilizada ser a German Credit, disponvel no Repositrio UCI Machine Learning (Blake e Merz, 1998). Nesta base de dados, h informaes pessoais e financeiras de clientes proponentes a um emprstimo e a classificao destes clientes de acordo com sua inadimplncia ou adimplncia (Cliente bom ou mau pagador) no pagamento do emprstimo.

    A classificao dos clientes de acordo com seu risco de inadimplncia ser a varivel resposta, chamada de Cliente, assumindo valor 1, se o cliente foi previamente classificado como um bom pagador (adimplente), e valor 0, se o cliente foi classificado como um mau pagador (inadimplente).

    A base de dados contm 1000 clientes, dos quais 700 foram previamente classificados como bons pagadores e 300 como maus pagadores. Alm de, 20 variveis preditoras categricas ou contnuas (Tabela 4), representando as informaes pessoais e financeiras dos clientes.

    A amostra aplicada nos modelos de classificao apresenta mesmo nmero de clientes bons e maus pagadores, ou seja, amostra balanceada, e foi obtida por Amostragem Retrospectiva (PAULA, 2004). Este esquema de amostragem consistiu em manter a amostra de clientes maus, com 300 clientes, e selecionar aleatoriamente uma amostra de mesmo tamanho (300) de clientes bons.

    A Amostragem Retrospectiva foi adotada a fim de que a diferena entre os tamanhos das amostras de clientes bons e maus no criasse nenhum vis nos modelos de classificao e, com isso, evitar que os modelos sejam adequados para discriminar os clientes bons, porm ineficientes para discriminar os clientes maus (ROSA, 2000).

  • 54

    Tabela 4 - Variveis da base de dados German Credit.

    Varivel Tipo de Varivel Nm. de

    Categorias Categorias Nome original

    (em ingls) Salrio categrica

    ordinal 4 X < $0, 0 =200, Sem remunerao Status of existing checking account

    Durao do Emprstimo Contnua - -

    Duration in months

    Histrico de Crdito

    categrica ordinal 4

    Sem emprstimos tomados, Todos os emprstimos pagos pontualmente, Existem emprstimos pagos pontualmente , Histrico de atraso no pagamento,

    Atraso no pagamento ou com emprstimos tomados em outras Instituies

    Credit history

    Finalidade categrica nominal 11

    Compra de carro novo, Compra de carro usado, Mveis, Rdio e TV, Utenslios domsticos,

    Reforma, Educao, Cursos, Negcios, Outros Purpose

    Valor do Emprstimo Contnua - - Credit amount Poupana do Cliente

    categrica ordinal 5

    < $100, $100

  • 55

    A amostra balanceada ser utilizada na estimao dos modelos de classificao, mas, para a aplicao dos modelos populao original, necessrio que alguns de seus parmetros sejam re-calculados.

    No modelo de Regresso Logstica necessrio que o intercepto seja re-calculado (PAULA, 2004) por:

    =

    2

    1*0 ln

    o (39)

    em que, *0 o intercepto do modelo logstico ajustado e ( )111 === ClienteZP e ( )012 === ClienteZP , sendo Z uma varivel indicadora da seleo amostral em

    relao amostra toda.

    Nas RB necessrio que a distribuio da varivel resposta (e de seus pais, se houverem) seja substituda pela distribuio desta varivel na amostra original.

    4.2 Categorizao das Variveis

    Os modelos de RB avaliados possuem premissa de que todas as suas variveis sejam discretas (ou categricas). Como a base de dados German Credit apresenta variveis contnuas (ou numricas), ento ser adotado o procedimento de categorizao destas variveis.

    Rosa (2000) explica que, se as variveis do modelo puderem ser mostradas em categorias, tornam-se mais simples a implementao dos modelos e a interpretao dos pesos relativos s categorias das variveis. Outro inconveniente de se trabalhar com variveis contnuas a apario de valores discrepantes (outliers), cuja presena costuma afetar consideravelmente os resultados dos modelos.

    A categorizao de cada varivel contnua consiste na criao de nveis (categorias) de uma varivel discreta que correspondam a intervalos de valores da

  • 56

    varivel contnua original. Ao final do procedimento, a varivel discreta resultante usada no lugar da varivel contnua. As variveis originalmente categricas com muitos nveis tambm tiveram alguns de seus nveis reagrupados para evitar a existncia de categorias com nmero muito pequeno de observaes (ou pouco significativo), o que pode prejudicar a estimao dos parmetros dos modelos.

    A categorizao de variveis contnuas adotada consistiu na construo dos nveis das variveis de acordo com a relao da varivel preditora com a varivel resposta (Cliente bom ou mau) (HAND; HENLEY, 1997). Esta anlise bivariada da relao da varivel preditora com a varivel resposta foi feita atravs do clculo do Risco Relativo e do WOE de cada nvel das variveis preditoras.

    Para as variveis contnuas, o procedimento consistiu em inicialmente criar uma categorizao inicial da varivel, a partir dos percentis da distribuio de cada varivel contnua. Assim, foram criados 10 nveis com cada faixa de valores correspondendo aos decis (percentil de ordem 10%) da varivel contnua original, ou seja, criadas faixas de valores da varivel ordenada a cada 10%. A partir desta categorizao inicial, foi verificada a freqncia de clientes bons e maus em cada categoria criada (faixa de valores), a fim de identificar categorias semelhantes com relao a bons e maus clientes (Tabela 5). Para isso, sero calculadas as seguintes medidas:

    Risco Relativo (AGRESTI, 1999): proporo de bons na categoria sobre a proporo de maus na categoria;

    Weights of Evidence (WOE) (HAND; HENLEY, 1997) que o logaritmo natural do Risco Relativo (Razo de bons e maus);

    Tabela 5 - Exemplo de categorizao de uma varivel preditora.

    Categoria Nmero de "bons" Nmero

    de "maus" %bons %maus Risco Relativo WOE

    Categoria 1 b1 m1 b1/b. m1/m. (b1/b.)/(m1/m.) ln[(b1/b.)/(m1/m.)] Categoria 2 b2 m2 b2/b. m2/m. (b2/b.)/(m2/m.) ln[(b2/b.)/(m2/m.)] Categoria 3 b3 m3 b3/b. m3/m. (b3/b.)/(m3/m.) ln[(b3/b.)/(m3/m.)] Categoria 4 b4 m4 b4/b. m4/m. (b4/b.)/(m4/m.) ln[(b4/b.)/(m4/m.)] Categoria 5 b5 m5 b5/b. m5/m. (b5/b.)/(m5/m.) ln[(b5/b.)/(m5/m.)]

    Total b. m. 1 1 1 0

  • 57

    O Risco Relativo e o WOE so medidas descritivas que auxiliam na identificao de categorias das variveis com alto ou baixo poder de discriminao dos clientes bons e maus pagadores, e tambm auxiliam a identificar as categorias que discriminam melhor os clientes bons e as que discriminam melhor os clientes maus. Estas medidas podem ser analisadas da seguinte maneira:

    WOE = 0 (Risco Relativo = 1): indica que a razo entre bons e maus 1 e, portanto, se a varivel assumir o valor correspondente a esta categoria no h nenhum indcio do cliente apresentar maior ou menor risco de inadimplncia, se comparado anlise desconsiderando esta varivel; WOE > 0 (Risco Relativo>1): positivo e quanto mais distante de zero, maiores so as chances de o cliente apresentar menor risco de crdito, indicando que a categoria apresenta algum poder para discriminar clientes bons; WOE < 0 (Risco Relativo

  • 58

    As variveis originalmente categricas, e que tiveram algumas de suas categorias agrupadas, foram: Histrico de Crdito, Bens, Poupana do Cliente, Outros Emprstimos, Tempo de Trabalho, Moradia, Estado Civil e Sexo, Emprego. A categorizao original destas variveis mostrada nas A.2 a A.9, do Apndice.

    A Tabela 7 mostra os valores do risco relativo e do Weights of Evidence (WOE) das variveis categricas da base de dados, que sofreram ou no agrupamento de seus nveis. No houve agrupamento de nveis da varivel Finalidade, pois no faz sentido para o processo de concesso de crdito agrupar caractersticas muito distintas de finalidade do emprstimo. Uma peculiaridade observada na base de dados German Credit a ausncia de clientes do sexo feminino e com estado civil solteira.

    Tabe