modelação estatística para risco de crédito emanuel de jesus ramos correia borges

123
Universidade de Cabo Verde Departamento de Ciˆ encia e Tecnologia Coordena¸c˜ ao do Curso de Estat´ ıstica Ano Lectivo: 2014/2015 Estat´ ıstica e Gest˜ ao de Informa¸ ao Trabalho de Fim de Curso Modela¸c˜ ao Estat´ ıstica Para Risco de Cr´ edito Emanuel De Jesus Ramos Correia Borges Praia, Julho de 2015

Upload: emanuel-de-jesus-ramos-correia-borges-estatistica

Post on 16-Jan-2017

378 views

Category:

Economy & Finance


2 download

TRANSCRIPT

  • Universidade de Cabo VerdeDepartamento de Ciencia e Tecnologia

    Coordenacao do Curso de Estatstica

    Ano Lectivo: 2014/2015

    Estatstica e Gestao de Informacao

    Trabalho de Fim de Curso

    Modelacao Estatstica Para Risco de Credito

    Emanuel De Jesus Ramos Correia Borges

    Praia, Julho de 2015

  • Universidade de Cabo VerdeDepartamento de Ciencia e Tecnologia

    Coordenacao do Curso de Estatstica

    Ano Lectivo: 2014/2015

    Licenciatura em Estatstica e Gestao de Informacao

    Trabalho de Fim de Curso

    Modelacao Estatstica Para Risco de Credito

    Emanuel De Jesus Ramos Correia Borges

    Trabalho de Fim de Curso apresentado a Universidadede Cabo Verde para cumprimento dos requisitos neces-sarios a obtencao do grau de Licenciado em Estatsticae Gestao de Informacao, realizado sob a orientacao ci-entfica:

    Orientador: Prof. Mestre Celso Hermnio Soares Ribeiro

    Co-orientador: Prof. Mestre Carlos Alberto de Rosario Mendes

    Praia, Julho de 2015

  • EMANUEL DE JESUS RAMOS CORREIA BORGES

    Modelacao Estatstica Para Risco de Credito

    BANCA EXAMINADORA

    Orientador: Mestre Celso Hermnio Soares Ribeiro

    Co-orientador: Mestre Carlos Alberto de Rosario Mendes

    Arguente: Mestre Adriano Andrade Moreno - UNICV

    Presidente: PhD Jose Moniz Fernandes - UNICV

    Praia2015

  • Eu nao sei se sei,Sou dos tais a quem pouco caber cabe,

    Mas sei que e saber demais,A gente saber que sabe.

    Jose Santana

  • Dedicatoria

    A minha mae Eduina Ramos e tambemaos mais importantes e dos menos

    valorizados profissionais dassociedades modernas:

    os professores.

    i

  • Agradecimento

    Primeiramente agradeco a Deus pela saude que me tem dado, por me emprestar diari-amente o coracao que pulsa, o solo em que caminho e o oxigenio que respiro. Agradeco aminha mae Eduina Ramos Da Veiga por ter acreditado em mim e me ensinado a pensar,mesmo quando eu o decepcionava na escola. E certo que nao deu tudo que queria mas deutudo que tinha para que hoje meu sonho transforma-se em realidade. Agradeco a minha tiaAnabela Ramos da Veiga por ter me estimulado a nunca desistir do meu sonho, e por meensinar que sem sonhos, a vida nao tem brilho. Agradeco aos meus tios Celestino FerreiraGomes e Januario Correia por sempre me apoiar nos momentos mais difceis.

    Agradeco os meus orientadores, Prof. Celso Hermnio Soares Ribeiro e Prof. CarlosAberto de Rosario Mendes, pelo estmulo, conselhos, conhecimentos, confianca transmitidaneste trabalho, tambem pela preciosa e segura orientacao. Agradecimento profundamenteao Prof. Celso Soares Ribeiro pela enorme paciencia em ler, reler, corrigir, tirar duvidas eindicar caminhos em todas as versoes deste trabalho. Ao Prof. Carlos Aberto de RosarioMendes por sempre que reunimos em INE eu saa cada vez mais motivado e pelo apoio.

    Ao professor, Mestre Nilson Jose Moreira, pelos ensinamentos de Processos Estocasticos,o que despertou em mim a curiosidade pelo um estudo profundo em Cadeia de Markov euma possvel aplicacao futura neste tema. Ao Prof. Mestre Crispiniano Furtado e Prof.Mestre Robert de Sousa por ter disponibilizado o modelo latex.

    Agradeco a minha famlia, especialmente aos meus irmaos Evandro Borges e DanielaRamos Correia, tambem aos meus amigos Gilberto Cabral, Jacinto Borges, Nicia Reis,Nilson Spencer, Odair Borges, Wilson Spencer e Ze Sanches pelo apoio constante e incon-dicional, certamente que valeu a pena, alias lembrando Fernando Pessoa tudo vale a penaquando a alma nao e pequena. Agradeco aos meus professores e colegas de primeiro dia ateo ultimo dia de quarto ano (Eliane, Eurdice, Helio, Izandralina, Jeremias, Nelson, Stefanye outros que encontramos) cujo elevado nvel intelectual e suas grandiosas experiencias,tornaram-me uma pessoa muito mais enriquecida em saber.

    Agradeco a Vania Conceicao Almeida e a Eliane Moreira Cardoso por ter-me ajudadona traducao (ingles) e pela forca transmitida.

    Por fim a todos que me ensinaram de alguma forma, me apoiarem e fazem parte daminha historia, muito obrigada a todos voces.

    ii

  • Resumo

    O presente trabalho tem como objetivo desenvolver modelos de previsao de risco decredito, atraves de tecnicas de Credit Scoring, nomeadamente Arvore de Decisao e/ouRegressao Logstica. Atraves do uso de estas duas tecnicas encontrar a tecnica que preve ediscrimina melhor os clientes entre classe de bom pagador e mau pagador, tendo em conta acurva ROC e a taxa de predicao correta. Assim atraves da melhor tecnica, encontrar perfilde clientes pagadores e maus pagadores, de modo que quando um novo cliente solicitaro pedido de credito, atraves de seu perfil sera classificado como possvel bom pagador oumau pagador.

    A fundamentacao teorica do trabalho foi realizada atraves de pesquisa bibliografica,com informacoes relacionadas ao credito bancario. Abordando-se a importancia de CreditScoring no estudo de risco de inadimplencia como fator chave e vital no controle de risco.Para a realizacao do trabalho foi extrado uma amostra probabilstica da populacao que foidividida em duas subamostras: uma para amostra de desenvolvimento de modelo e a outraamostra validacao do modelo. Atraves da amostra de desenvolvimento foi construdo omodelo final, apenas com as variaveis pertinentes para a explicacao da variavel resposta, ecom a amostra de validacao foi feito a validacao do modelo atraves de construcao de curvaROC e matriz de classificacao.

    A Analise Correspondencia foi utilizada para examinar e concluir se existe relacao entreas categorias da variavel explicada e as categorias das variaveis explicativas. O resultadoda Analise Correspondencia indica que um cliente que tem valor atribudo no intervalode 0,5 milhao a 1 milhao de escudos tem 99,45% de probabilidade de estar associado acliente bom pagador, enquanto um cliente que tiver valor atribudo maior que 1,5 milhoesde escudos esta associado com 99,94% de probabilidade de ser mau pagador.O resultado de Arvore de Decisao e R. Logstica para a validacao de modelo e consideradosatisfatoria, visto que, obteve TPC de 91,2% e 90,6% respetivamente. Apos a comparacaoentre as duas tecnicas concluiu-se que a Arvore de Decisao e melhor que a R. Logstica,sabido que, tem maior TPC e area de Curva ROC, o que mostra maior discriminacao entrecliente pagadores e mau pagador para Arvore de Decisao. Mas nao pode dispensar R.Logstica por ostentar probabilidade de incumprimento.

    Palavras-Chave: Analise de Correspondencia, Arvore de Decisao, CreditScoring, Inadimplencia, Risco de Credito e Regressao Logstica.

    iii

  • Abstract

    This study work aims to create risk predictive models using Credit Scoring techniques,namely Decision Trees and Logistic Regression to find a technique that better predicts theclients between non defaulter and defaulter class, regarding the ROC curve and the correctprediction rate so one may find the non defaulter and defaulter clients profile in order toclassify them as possibly non defaulter or defaulter according to their characteristics asthey order their credit application.

    The scientific theories for this work were based on bibliographic researches with infor-mation related to credit bank. It approaches the importance of credit scoring on the studyof default risk as a key factor on the control of risk.To accomplish this work, a probabilistic sample of the population was divided in two secondsamples, one for the development of the model and one other to test the model (valida-tion). Using the sample for development a final model was built only with the relevantvariables for the explanation of the response variable. The test sample was used for themodel validation using the ROC curve and the classification matrix.

    The Correspondence Analysis technique was used to figure out if there is a relationbetween the category of default variables and explanatory variables. The results showedthat a client with the requested value between 0,5 million and 1 million escudos has 99,45%level of assurance to be associated with an non default client and a client with the requestedvalue over 1,5 million escudos is associated with 99,94% level of assurance of default.The results of the Decision Tree and Logistic Regression for the validation of the model wereconsidered satisfactory with the correct prediction rate of 91,2% and 90,6% respectively.After comparing the techniques, the final conclusion is that the Decision Tree is betterthan logistic regression since it has the best correct prediction rate and ROC curve areafor the validation of the model.

    Keywords: Correspondence Analysis, Decision Trees, Default, Credit RiskModel, Credit Scoring and Logistic Regression.

    iv

  • Conteudo

    Dedicatoria i

    Agradecimento ii

    Resumo iii

    Abstract iv

    Conteudo i

    Lista de Figuras iii

    Lista de Tabelas iv

    Lista de Abreviaturas 1

    Introducao 2

    1 Referencial Teorico 61.1 Conceito de credito e analise de credito . . . . . . . . . . . . . . . . . . . . 61.2 Risco de Credito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.3 Inadimplencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.4 Credit Scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    1.4.1 Etapas de desenvolvimento de Credit Scoring . . . . . . . . . . . . 111.4.2 Revisao bibliografica das aplicacoes de Credit Scoring . . . . . . . . 13

    1.5 Tecnicas de Credit Scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.5.1 Analise de Correspondencia . . . . . . . . . . . . . . . . . . . . . . 161.5.2 Arvore de Decisao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191.5.3 Regressao Logstica . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.5.4 Precisao do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    2 Metodologia 412.1 Metodologia de pesquisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 412.2 Definicao de tipos de clientes . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    i

  • BIBLIOGRAFIA BIBLIOGRAFIA

    2.3 Caraterizacao de base de dados . . . . . . . . . . . . . . . . . . . . . . . . 432.4 Metodo de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.5 Definicao das variaveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    3 Aplicacoes e Resultados 563.1 Analise Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.2 Analise de Correspondencia . . . . . . . . . . . . . . . . . . . . . . . . . . 653.3 Arvore de Decisao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.4 Regressao Logstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    Conclusao 87

    Bibliografia 89

    Anexo 94

    Indice 106

    Emanuel De Jesus Ramos Correia Borges Pag. ii de 106

  • Lista de Figuras

    1.1 Relacao entre banco e cliente . . . . . . . . . . . . . . . . . . . . . . . . . . 91.2 Funcao de distribuicao acumulada . . . . . . . . . . . . . . . . . . . . . . . 251.3 Curva ROC (Fonte: Hosmer e Lemeshow, 2000 . . . . . . . . . . . . . . . . 341.4 Ponto de corte otimo para amostras diferentes . . . . . . . . . . . . . . . . 371.5 Ponto de corte otimo para amostras iguais . . . . . . . . . . . . . . . . . . 37

    3.1 Analise grafica das variaveis qualitativas . . . . . . . . . . . . . . . . . . . 593.2 Frequencias das variaveis quantitativas . . . . . . . . . . . . . . . . . . . . 603.3 Cruzamento das variaveis qualitativa com variavel inadimplencia . . . . . . 613.4 Cruzamento das variaveis qualitativa com variavel inadimplencia (cont.) . . 623.5 Boxplot das variaveis continuas . . . . . . . . . . . . . . . . . . . . . . . . 633.6 Boxplot das variaveis contnuas em relacao ao genero . . . . . . . . . . . . 643.7 Mapa percetual resultante da aplicacao da Analise de Correspondencia . . 683.8 Arvore de Decisao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 713.9 ROC para desenvolvimento . . . . . . . . . . . . . . . . . . . . . . . . . . 723.10 ROC para validacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 723.11 Classificacao prevista para o Modelo 2 . . . . . . . . . . . . . . . . . . . . 813.12 ROC Modelo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.13 ROC Modelo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.14 Classificacao prevista para Modelo 3 (validacao) . . . . . . . . . . . . . . . 853.15 Curva ROC para Modelo 3 (validacao) . . . . . . . . . . . . . . . . . . . . 853.16 Normalidade Modelo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 863.17 Cooks distance Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

    3.18 Sensibilidade e especificidade para o Modelo 1 . . . . . . . . . . . . . . . . 973.19 Sensibilidade e especificidade para o Modelo 3 . . . . . . . . . . . . . . . . 97

    iii

  • Lista de Tabelas

    1.1 Resultados de estudos de comparacao entre modelos . . . . . . . . . . . . . 141.2 Vantagens e desvantagens de tecnicas de Credit Scoring . . . . . . . . . . . 151.3 Tabela de contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.4 Classificacao da curva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . 331.5 Modelos aplicados com Regressao Logstica . . . . . . . . . . . . . . . . . . 351.6 Matriz de classificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    2.1 Classificacao dos clientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.2 Distribuicao da populacao em estudo . . . . . . . . . . . . . . . . . . . . . 432.3 Simulacao em Excel para determinacao da amostra (n) . . . . . . . . . . . 482.4 Divisao de amostra: desenvolvimento e validacao do modelo . . . . . . . . 502.5 Amostra para desenvolvimento do modelo . . . . . . . . . . . . . . . . . . 512.6 Amostra para validacao de modelo . . . . . . . . . . . . . . . . . . . . . . 512.7 Variaveis a ser usadas no modelo . . . . . . . . . . . . . . . . . . . . . . . 522.8 Codificacao dummy para variaveis categoricas . . . . . . . . . . . . . . . . 55

    3.1 Analise descritiva da variavel explicada . . . . . . . . . . . . . . . . . . . . 573.2 Estatstica descritiva das variaveis contnuas . . . . . . . . . . . . . . . . . 573.3 Analise descritivas das variaveis explicativas categoricas . . . . . . . . . . . 583.4 Resultado de teste de 2 e criterio . . . . . . . . . . . . . . . . . . . . . . 653.5 Resduos (probabilidade) da variavel Inadimplencia vs Idade . . . . . . . . 663.6 Resduos (probabilidade) da variavel Inadimplencia vs Estado civil . . . . . 673.7 Resduos (probabilidade) da variavel Inadimplencia vs Rendimento mensal 673.8 Resduos (probabilidade) da variavel Inadimplencia vs Valor atribudo . . . 673.9 Resultado do modelo de desenvolvimento . . . . . . . . . . . . . . . . . . . 693.10 Estatstica para o modelo obtido a partir de Arvore de Decisao . . . . . . . 703.11 Matriz de classificacao para amostra de desenvolvimento . . . . . . . . . . 723.12 Matriz de classificacao para amostra de validacao . . . . . . . . . . . . . . 723.13 Matriz correlacao das variaveis quantitativas a serem usadas no modelo . . 753.14 Modelo 1 com todas a variaveis explicativas . . . . . . . . . . . . . . . . . 763.15 Matriz de classificacao para o Modelo 1 . . . . . . . . . . . . . . . . . . . . 773.16 Modelo 2: so com as variaveis significativas . . . . . . . . . . . . . . . . . . 773.17 Odds Ratio do Modelo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

    iv

  • LISTA DE TABELAS LISTA DE TABELAS

    3.18 Teste bondade de ajuste de Hosmer-Lemeshow para Modelo 2 . . . . . . . 793.19 Pseudo R2 para Modelo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 803.20 Matriz de classificacao para Modelo 2 . . . . . . . . . . . . . . . . . . . . . 803.21 Comparacao entre Modelo 1 e Modelo 2 . . . . . . . . . . . . . . . . . . . 833.22 Matriz de classificacao para o Modelo 3 . . . . . . . . . . . . . . . . . . . . 84

    3.23 Peso atribudos as categorias das variaveis . . . . . . . . . . . . . . . . . . 943.24 Classificacoes observadas vs. classificacoes esperada . . . . . . . . . . . . . 95

    3.25 Variacao da probabilidade iP(1 P) . . . . . . . . . . . . . . . . . . . . . 96

    Emanuel De Jesus Ramos Correia Borges Pag. v de 106

  • Lista de Abreviaturas

    AC Analise CorrespondenciaADM Analise DiscriminanteAF Analise Fatorial

    AD Arvore de DecisaoAIC Criterio de Informacao AkaikeEPC EspecificidadeCART Classification and Regression TreesCHAID Chi Square Automatic InteractionIC Intervalo de ConfiancaIID Independente e Identicamente DistribudaMMV Metodo de Maxima VerosimilhancaMQO Metodo de Mnimos Quadrados OrdinariosNC Nvel de ConfiancaOR Odds RatioPI Probabilidade de InadimplenciaRC Risco de CreditoRL Regressao LogsticaSAS Amostragem Aleatoria SimplesSPSS Statistical Package for the Social ScienceSSB SensibilidadeSTS Amostragem Aleatoria EstratificadaTFP Taxa de Falso PositivoTFN Taxa de Falso NegativoTLC Teorema do Limite CentralTPC Taxa de Predicao CorretaTVN Taxa de Verdadeiro NegativoTVP Taxa de Verdadeiro Positivo

    1

  • Introducao

    Uma das principais instrumentos da atividade das instituicoes de credito consiste emconceder credito a clientes. Sendo assim torna-se fundamental que da parte das instituicoesuma analise cuidada das respostas, adaptando procedimentos cientficos rigorosos que lhespermitam, decidir de forma eficaz e sobretudo eficientemente, aferindo o risco das operacoese a melhor forma de os minimizar.

    A analise do credito, apresenta um papel indispensavel no desenvolvimento economicoe consequente a sobrevivencia dos bancos, tendo em conta o seu papel. Para os bancos eindispensavel e vital uma boa gestao de credito de forma a permitir proporcionar melhorescondicoes de aquisicao para os tomadores e assim minimizar o risco e maximizar os lucros.Afinal, o dinheiro investido deve retornar, acrescido de juros -servico de dvida. Steineret al. (1999) salientam que qualquer erro na decisao de conceder o credito pode significarque, em uma unica operacao, haja a perda do ganho obtido em dezenas de outras bem-sucedidas, ja que o nao recebimento representa a perda total do montante emprestado.Portanto, e essencial prever e reduzir a inadimplencia, pois as perdas com creditos malsucedidos deverao ser cobertas com a cobranca de altas taxas de juros em novas concessoes.

    De modo a evitar problemas com inadimplencia futuramente os bancos tem de adotarcriterios mais seletivos na concessao de credito. Entao torna-se vital o uso dos modelosde Credit Scoring, que baseados em contratos passados dos clientes, geram uma pontuacaopara as caratersticas, levando a criacao de regras de reconhecimento de padroes em relacaoa inadimplencia. Por sua vez, a regra de reconhecimento de padroes facilita a decisao deconcessao de credito, podendo-se entao utilizar argumentos quantitativos em substituicaoa argumentos subjetivos e decidir com maior confianca.

    Este estudo pretende desenvolver modelos de Credit Scoring, dentre as diversas tecni-cas quantitativas, encontrando o que apresenta melhor poder de predicao de inadimplencia.Como uma eventualidade de analise de credito, neste caso uma simulacao. Estudar assimpossibilidade de conceder credito a uma pessoa fsica, avaliando a veracidade das informa-coes prestadas pela mesma, e suas condicoes de honrar os compromissos financeiros.

    As tecnicas estatsticas aplicadas neste trabalho permitem aos bancos, com o manan-cial de informacao disponibilizado, um melhor conhecimento do perfil dos seus clientes,categorizando-os de forma diferenciada de acordo com o seu valor.

    2

  • INTRODUCAO Justificativa e Motivacao

    Motivacao e justificativa do trabalho

    O processo de gestao de risco de credito em instituicoes financeiras vem passando poruma revisao ao longo dos ultimos anos, sendo que o acordo de Basileia II criou espaco paraa atuacao das autoridades de supervisao bem como primar a capacidade de cada institui-cao financeira em mensurar e gerir o risco de credito. As instituicoes financeiras vem seajustando a essa nova realidade, a medida que estao procurando, atraves da concessao decreditos, buscar os ganhos que nao mais se consegue obter em operacoes de tesouraria.

    Nesse sentido diversas tecnicas de mensuracao de risco de credito tem sido desenvol-vidas e implementadas por bancos, sendo uma das principais atividades dar credito aosclientes, esperando o retorno. Porem, nem sempre isso e possvel, levando os clientes ainadimplencia. Assim, o risco passou a ser o principal negocio dos bancos, porque saberse um cliente provavelmente honrara seus compromissos e uma informacao crucial para obanco na hora de atribuir o credito. As instituicoes financeiras que conseguirem gerir bemo risco de credito, serao as mais competitivas e sobreviverao no mercado.

    A justificativa para a realizacao deste trabalho deve-se principalmente ao interesse epretensao de trabalhar no contexto de risco de credito. Alem disso, e importante mencionarque a realizacao deste trabalho se justifica tambem pelas possveis contribuicoes que osseus resultados podem fornecer em sistemas de Credit Scoring com o uso de Analise deCorrespondencia em area de risco credito, visto que nao constam estudos relacionados ouproximos ao proposito desta tecnica na area.

    Objetivo

    Objetivo geral

    Desenvolver modelos de previsao de risco de credito de modo a encontrar o me-lhor modelo que permite distinguir melhor os grupos de clientes e que possibilitaa classificacao de novos clientes atraves do modelo obtido, como evidenciaveisbons pagadores ou maus pagadores;

    Objetivos especficos

    Proceder uma revisao teorica de metodologias e modelos de Credit Scoring ;

    Desenvolver modelos que visam a identificacao de caratersticas que possibilitamdistinguir os clientes pagadores de maus pagadores;

    Encontrar as variaveis mais relevantes na predicao de inadimplencia;

    Avaliar a capacidade preditiva dos modelos atraves de curva ROC e TPC;

    Emanuel De Jesus Ramos Correia Borges Pag. 3 de 106

  • INTRODUCAO Limitacao do tema

    Delimitacao do tema

    A principal limitacao em aplicacao de Credit Scoring esta relacionada a obtencao deuma amostra com vies de selecao, uma vez que a populacao alvo do estudo sao os clientesque foram concedidos creditos. Sendo a suposicao fundamental na modelacao estatstica eque a amostra selecionada usada na construcao de modelo represente a populacao total deinteresse. Porem, em Credit Scoring, geralmente, essa suposicao e violada.

    Os clientes que nao foram atribudos creditos, nao farao parte da amostra em estudo[3]. Dos autores analisados, por exemplo, Vasconcelos (2002) considera ser legtimo o usode amostra constituda apenas com os clientes que foram solicitados credito gera resultadoscom vies, mas a dimensao e direcao desse vies nao pode ser conhecido.

    Segundo estudo de Feelders (2000) para tentar inferir o comportamento dos clientes quenao foram atribudos creditos (rejeitados pela instituicao financeira) e que nao fazem parteda amostra, o autor propos um metodo denominado inferencia dos rejeitados1, este metodoque consiste em inferir o comportamento dos clientes rejeitados, caso fossem aprovados.

    A outra limitacao que podera ocorrer na construcao de modelo Credit Scoring, e amudanca de padroes, sendo que a tecnica baseia-se no princpio que o passado preve ofuturo, assim o modelo nao pode ser usado por um longo perodo de tempo, tornandonecessario a sua atualizacao.

    Tambem outro aspeto a ter em conta e sobre a forma de utilizacao de variaveis expli-cativas. Pode tanto utilizar variaveis em seu formato original ou agrupadas em categorias.Neste trabalho as variaveis como: idade, rendimento mensal e valor atribudo foram usadosnas suas formas originais (contnuas), embora em alguns estudos foram usados de formacategorica, nao e obrigatorio utilizar essas variaveis em forma categoricas.

    No entanto para as variaveis qualitativas (sexo, estado civil, setor de trabalho, etc.)torna-se obrigatorio categoriza-los, uma vez que precisam ser codificadas e representadaspor variaveis dummies.

    1Inferencia dos rejeitados visa inferir o comportamento dos solicitadores rejeitados no procedimento dedecisao de credito, e reduzir o enviesamento da selecao da amostra. De entre as tecnicas de inferencia derejeitados os mais encontrados na literatura sao: classificacao dos rejeitados como incumpridores, metodode parcelamento (parceling) e metodo de dados aumentados

    Emanuel De Jesus Ramos Correia Borges Pag. 4 de 106

  • INTRODUCAO Estrutura do Trabalho

    Estrutura do Trabalho

    O trabalho encontra-se estruturado em tres captulos:

    Captulo 1: O referencial teorico [1], abordando a definicao do conceito de CreditScoring, inadimplencia e risco de credito. Este captulo assalta a importancia deCredit Scoring no estudo de risco de inadimplencia como fator chave no controle derisco. Abordando tambem a fundamentacao teorica que foi realizada atraves de pes-quisa bibliografica, com informacao relacionados a Credit Scoring, risco de credito einadimplencia. Neste captulo tambem foi mencionado as definicoes e os pressupostosdas tecnicas de previsao de risco de credito baseados em padroes de comportamento.Entender as tecnicas estatsticas utilizadas para construcao destes modelos, nomeada-mente Analise Correspondencia, Arvore de Decisao e Regressao Logstica. Tambemsao apresentados aspetos basicos das medidas usualmente empregadas para avaliar acapacidade preditiva do modelo, em termos de sensibilidade e especificidade.

    Captulo 2: Neste captulo [2] apresenta-se a metodologia utilizada no trabalho.A definicao a ser utilizadas para clientes que sao bom pagadores, indeterminados emaus pagadores. O metodo de amostragem empregada e como foi extrada a amostrada populacao alvo, assim tambem como a divisao da amostra em duas sub-amostra:amostra de desenvolvimento e amostra de validacao do modelo. Fez-se uma analiseintrodutoria sobre as variaveis explicada e explicativas a serem utilizadas na constru-cao de modelo e as respetivas categorias dessas variaveis. Apresentou o metodo a serutilizado para a selecao das variaveis explicativas a serem includa no modelo.

    Captulo 3: No captulo [3] temos a aplicacao das tecnicas. Fez-se uma analise des-critiva de cada variavel a ser utilizada na construcao modelo, envolvendo a apresenta-cao e caraterizacao de um conjunto, de dados de modo a descrever apropriadamenteas varias caratersticas desse conjunto. Onde foram utilizados metodos descritivos apartir de tabela e graficos.

    Encontra-se tambem os resultados da aplicacao de tecnicas de Credit Scoring, Analisede Correspondencia e tambem a interpretacao e a discussao dos mesmos.

    No fim encontra-se as conclusoes dos resultados obtidos no trabalho e a consequenteverificacao dos objetivos tracados. Comparou-se os resultados da utilizacao de Arvorede Decisao e Regressao Logstica tendo em conta a curva ROC, a taxa de predicaocorreta e a erro do tipo I.

    Emanuel De Jesus Ramos Correia Borges Pag. 5 de 106

  • 1Referencial Teorico

    1.1 Conceito de credito e analise de credito

    O credito tem origem no latim credere, que significa crer, acreditar, confiar, mas o seusignificado e bem mais amplo. Pode dizer que o credito e uma operacao economica quese realiza no tempo e nao no espaco. O tempo portanto e um dos elementos essencias acredito. O segundo elemento essencial e a confianca, conforme a origem etimologica dapalavra credito [52].

    Definicao 1.1.1. O Credito e o ato de vontade de alguem ceder, temporariamente, aparte de seu patrimonio a uma outra pessoa, com a expetativa que essa parte de patrimoniovolte depois do tempo previamente combinado [Schickel (2000)].

    Outras definicoes de credito segundo os seguintes autores.

    O credito consiste em colocar recursos nas maos dos clientes, mediantea promessa de pagamento futuro, onde a instituicao financeira esperaretorno que compense o risco assumido [Silva (2011)].

    O credito e um ato de troca economica em que alguem (o credor) realizauma prestacao em dinheiro ou em especie, em determinado momento, afavor de outros (o devedor), e aceita o risco de a respetiva contra presta-cao ser referida para um momento ou momentos posteriores, confiandono cumprimento pontual da promessa de reembolso feito peso devedor erecebendo um juro como compensacao[Amaral et al. (1997)].

    6

  • CAPITULO 1. REFERENCIAL TEORICO1.1. Conceito de credito e analise de credito

    Schickel (2000) considera que o credito e um processo presente no dia-a-dia das pessoase empresas. Todos nos estamos continuamente as voltas com o dilema de uma equacaosimples: a constante combinacao de nossos recursos finitos com o conjunto de nossas ima-ginacoes e necessidades infinitas. A sua analise nao e facil, visto que ela envolve cenario deincertezas e constantes mudancas. Ela envolve a juncao de todas as informacoes disponveisde um tomador de credito, com o objetivo de decidir sobre a solicitacao ou nao de credito aum cliente. A analise de credito desempenha uma tarefa fundamental para as instituicoesfinanceiras, na medida que o credito constitui o seu principal produto [59].

    O mesmo autor salienta que em analise de credito nao existe credito mal dado, o queexiste e credito mal julgado, pois o credito exige confianca, garantia e conhecimento. Em-brulhando a habilidade de fazer uma decisao de credito, dentro de um cenario de incertezase constante modificacoes e informacoes incompletas [59].

    A analise de credito e um instrumento para estudar os riscos que as instituicoes finan-ceiras terao por um emprestimo com esse credito liberado e o seu o principal objetivo seconcentra em criar estimativas das probabilidades dos creditos a serem pagos. Pois darcreditos a um cliente significa acreditar que este cliente sabera usar convenientemente essecredito, acertando a capacidade de retribui-la com acrescimo de juros a uma determinadadata combinada. A analise do credito permite chegar a conclusoes sobre o cliente e saberque tipo de emprestimo fazer e tambem conhecer o cliente e aptidao do mesmo em pagar oemprestimo. Para analise de credito as instituicoes financeiras utilizam a analise objetivae analise subjetiva [59].

    Analise subjetiva: baseia-se no julgamento da instituicao financeira para determi-nar se e aceitavel ou nao assumir riscos. As experiencias do passado e conhecimentoteorico sobre o carater do cliente sao fundamentais para esta analise. E feita umaficha cadastral do cliente, levantando-se todos os dados de identificacao do cliente. Olevantamento da ficha cadastral do cliente permite ao instituicao financeira conhecera quem esta a atribuir credito. Nesta analise, toma-se a decisao sobre a concessao decredito, utilizando criterios qualitativos e subjetivos.

    Analise objetiva: utiliza tecnicas estatsticas que permite de melhor forma adminis-trar o risco do que analise subjetiva. Esta analise fundamenta-se em dados numericos,com utilizacao de metodos estatsticos. De entre as tecnicas de analise objetiva dorisco de credito, destacam-se os modelos de Credit Scoring.

    De uma forma resumida a analise objetiva utiliza processos estatsticos e a subjetivaanalisa a pessoa que recebera o credito, utilizando a subjetividade.

    Emanuel De Jesus Ramos Correia Borges Pag. 7 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.2. Risco de Credito

    1.2 Risco de Credito

    Definicao 1.2.1. Risco de Credito (Credit Risk) e a possibilidade do tomador decredito nao honrar o pagamento no prazo estabelecido [Silva (2011)]. Quando o tomadornao cumpre as suas obrigacoes diz-se que este entrou em default1

    Todo credito envolve risco e ha uma possibilidade do tomador nao honrar seus deveres.Os bancos devem garantir seguranca, evitando riscos desnecessario de modo a nao houverperdas ou minimizar as perdas. Normalmente quando maior o investimento, maior sera orisco de credito.

    A necessidade em medir o risco de credito e promover uma correta evolucao dos mesmostem sido esforco de todos os bancos. Contudo, a Comite de Supervisao Bancaria de Ba-sileia2 que regula a medicao integral de riscos e o adequado pro-visionamento de capitais,para sobre valer os possveis riscos ocorridos e evitar a queda das instituicoes financeiras.

    Em 1988 apos longos discussao o Comite de Supervisao Bancaria de Basileia publicouo primeiro acordo de capital (denominado acordo de Basileia I), em que se requer que asinstituicoes financeiras que dispuseram de um nvel mnimo de capital equivalente a 8% deseus ativos ponderados por riscos.

    Apesar do avanco inegavel com Basileia I, surgiram algumas crticas (como nao permitea reducao de risco de credito, nao leva em consideracao o risco de cada operacao individual).Tomando o aprimoramento daquele acordo surgiu assim o Basileia II em Junho de 2004,com intuito de corrigir as falhas no acordo de Basileia I e criar um padrao internacionalpara reguladores bancarios contra risco financeiros e operacionais e garantir a sua liquidez.Esse acordo baseia em tres pilares que sao: capital mnimo, risco de credito e processo desupervisao3.

    Basileia II teve como objetivo esbocar uma metodologia para o tratamento de risco. Seaspira que todos os bancos internacionais ativas apliquem as novas recomendacoes desig-nadas de acordo de capitais (Basileia I - 1988) e o novo acordo de capitais (Basileia II) quedefinem o capital mnimo que devem ter as entidades financeiras para operar, relacionandoo risco de os ativos com o nvel de patrimonio [10].

    O Basileia II trouxe maior maior transparencia de informacao sobre os bancos e maiorliberdade de gestao das instituicoes financeiras.

    1Quer dizer que entrou em incumprimento.2Estabelecido por os bancos centrais, com os seguintes pases Belgica, Canada, Franca, Alemanha,

    Italia, Japao, Luxemburgo, Holanda, Espanha, Suecia, Suca, Reino Unido e Estado Unidos.3As autoridades de supervisao poderao avaliar a mensuracao de risco de credito de cada banco.

    Emanuel De Jesus Ramos Correia Borges Pag. 8 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.3. Inadimplencia

    1.3 Inadimplencia

    Definicao 1.3.1. Inadimplemcia representa o risco de nao pagamento por parte dotomador, sendo a possibilidade do tomador nao honrar seu compromisso de pagamento.Um cliente e dito mau pagador se nao realizar o pagamento na data estabelecida [Blatt(1998)].

    A palavra inadimplencia vem do termo latin adimplere que significa cumprir. Sendoque inadimplencia e o nao cumprimento de algo.

    Segundo Blatt (1998) todas as instituicoes financeiras tem que lidar com clientes com-plicados. Nao somente como pagador lento, para quem todas as tecnicas existentes podemser exigidas para assegurar o pagamento, como tambem com cliente que esta em dificuldadefinanceiras, e que por isso tera obstaculos para efetuar o pagamento. As possveis causasde incumprimento estao relacionadas com as caratersticas do cliente como sexo, idade,numero do agregado familiar, rendimento mensal e tambem com os envolventes externoscomo taxa de desemprego e juros.

    A Figura [1.1] mostra a relacao existente entre banco e o tomador de credito. O bancoatribui credito a um cliente, com a promessa de pagamento por parte de cliente conformecontrato proposto. Caso o cliente nao cumprir a promessa no prazo estabelecido torna-semau pagador.

    Fonte: Adaptado [Silva (2011)]

    Figura 1.1: Relacao entre banco e cliente

    Emanuel De Jesus Ramos Correia Borges Pag. 9 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.4. Credit Scoring

    1.4 Credit Scoring

    Definicao 1.4.1. Credit Scoring sao metodos estatsticos utilizados para classificar osclientes, entre as classes de riscos como bom pagador ou mau pagador. Neste processoestima-se a probabilidade de um cliente que possui certas caratersticas pertencer a umdeterminado grupo (bom pagador ou mau pagador). Sao frequentemente utilizados nasinstituicoes financeiras com o objetivo prever o risco de inadimplencia [26].

    De forma resumida o Credit Scoring4 permite atraves de tecnicas estatsticas calcularas ponderacoes de variaveis de risco (exemplo idade, residencia, renda, etc.), isto e, ainformacao do cliente e convertida em um valor numerico, score5 [26].

    O Credit Scoring surge como uma metodologia aceitada por Comite de Basileia para asupervisao bancaria e por os sistemas financeiros norte-americano e europeus em constru-cao de um sistema de rating interno, em que se classifica os solicitantes de credito segundoa propria classificacao de clientes pagadores e mau pagadores. A sua premissa basica e queo comportamento futuro dos credores pode se basear no comportamento passado, a formacomo as variaveis cadastrais se relacionaram com o desempenho de credito no passado, sejasimilar no futuro.

    Thomas (2000) considera que o principal objetivo de Credit Scoring e possibilitar aidentificacao de fatores chaves que determinam a probabilidade de inadimplencia dos cli-entes, permitindo a sua classificacao em grupos distintos. O mesmo autor remata que asmetodologias mais usadas ao desenvolvimento de Credit Scoring sao: Arvore de Decisao,Analise Discriminante, Regressao Logstica e Redes Neuronais.

    Os modelos de Credit Scoring podem ser divididos dois grupos:

    Modelos comportamentais (Behaviour Scoring): sao modelos que levam em con-sideracao os aspetos comportamentais e as atividades dos clientes da instituicao.Neste modelo estima-se a probabilidade de incumprimento dos clientes que ja foramatribudos creditos, utilizando dados historicos de comportamento dos clientes. Ava-liam a forma como o cliente se comporta, quer perante a empresa, quer na sua vidasocial, e ultrapassa o ambito da gestao do risco de inadimplencia.

    Modelos de concessao (Application Scoring): sao modelos que sao uteis para ainstituicao financeira na concecao de credito a um novo cliente. Estima-se um modeloa partir dos clientes passados e com base nesse modelo e tomada a decisao sobre aatribuicao ou nao a um novo cliente.

    4Scoring significa ato ou efeito de atribui score.5Atribuir pontuacao.

    Emanuel De Jesus Ramos Correia Borges Pag. 10 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.4. Credit Scoring

    1.4.1 Etapas de desenvolvimento de Credit Scoring

    O desenvolvimento de um modelo de Credit Scoring consiste em determinar uma funcaodas variaveis demograficas e economicas dos clientes, de modo a auxiliar na tomada de de-cisao para aprovacao de credito. Normalmente o modelo de Credit Scoring e desenvolvidoa partir de bases historicas de performance de credito dos clientes.

    O desenvolvimento de um modelo de Credit Scoring segundo Saunders e Allen (2002)compreende nas seguintes etapas:

    Planeamento e definicoes: consiste em saber para quais mercados e produtosde credito o modelo sera desenvolvido, qual a sua finalidades de uso, que tipos declientes. O conceito de incumprimento a ser usado e qual a horizonte de previsao6 domodelo;

    Identificacao das variaveis: nessa etapa faz-se a selecao das potencias variaveissignificativas para o modelo, e a analise das restricoes a serem consideradas em relacaoas variaveis. Na selecao das variaveis, alem do criterio estatstico, deve ser levado emconta a experiencia de especialistas da area de credito juntamente com o bom sensona interpretacao dos parametros sejam, sempre que possvel, utilizados.

    Planeamento amostral e coleta de dados: esta etapa compreende a selecao edimensionamento da amostra, coleta dos dados e desenho de base de dados. A basede dados utilizada para a construcao de um modelo e formada por clientes cujoscreditos foram atribudos e seus desempenhos foram observados durante um perodode tempo no passado.

    Determinacao das tecnicas estatsticas: uma vez determinado o planeamentoamostral e obtidas as informacoes necessarias para o desenvolvimento do modelo, oproximo passo e estabelecer qual tecnica estatstica a ser utilizada para a determi-nacao das pontuacoes (score), por exemplo, a Analise Discriminante e/ou RegressaoLogstica;

    Determinacao do ponto de corte: a partir da determinacao de ponto de corteo cliente e classificado como bom pagador ou mau pagador. E a partir do ponto decorte que instituicao financeira decide se aprovar ou nao a concessao do credito a umcliente.

    6Horizonte de Previsao e um espaco de tempo para a previsao do Credit Scoring, ou seja, o intervaloentre a solicitacao do credito e a classificacao como bom pagador ou mau pagador.

    Emanuel De Jesus Ramos Correia Borges Pag. 11 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.4. Credit Scoring

    Vantagens e desvantagens Credit Scoring

    Caouette et. al. (1998) resumem as principais vantagens dos modelos de Credit Scoring :

    Reducao do tempo: os scores sao facilmente calculados e a resposta quanto aconcessao ou rejeicao sao geradas em tempo real e com maior eficiencia.

    Consistencia: os modelos de Credit Scoring sao modelos que utilizam a experien-cia da instituicao e servem para administrar os creditos dos clientes que ja foramsolicitados creditos e dos novos solicitadores de creditos;

    Identificacao das variaveis pertinentes: permite identificar as variaveis maisrelevantes na discriminacao dos clientes pagadores e maus pagadores;

    Facilidade: o processo e facilmente compreendido pelos seus participantes. Os mo-delos tendem a ser simples e de facil interpretacao;

    Reducao de subjetividade: a utilizacao de tecnicas de Credit Scoring com regrasclaras contribui para a diminuicao de subjetividade na avaliacao do risco de credito;

    Apesar de enormes benefcios de Credit Scoring, tambem apresentam desvantagens taiscomo:

    Excesso de confianca nos modelos: as estatsticas podem superestimar a efi-ciencia dos modelos, fazendo com que usuarios menos experientes, considerem taismodelos perfeitos;

    Custo de desenvolvimento: o desenvolvimento dos modelos de Credit Scoringacarreta custos como o suporte para a sua construcao, profissionais capacitados eequipamentos computacionais;

    Falta de informacao: a falta de algumas informacoes necessarias, faz-se necessariotambem a qualidade das informacoes disponveis, uma vez que elas representam oinsumo principal dos modelos;

    Nao ha certeza absoluta: o modelo de Credit Scoring tem a vantagem de osresultados obtidos podem ser expressadas em probabilidade, mas tambem nao existemcertezas absolutas por existirem o erro do tipo I e erro do tipo II na matriz declassificacao.

    Necessidade de atualizacoes constante: os modelos baseiam-se no princpio queo passado preve o futuro, o que pode nao se verificar. Sendo necessario uma rapidaatualizacao e constante do modelo de Credit Scoring.

    Emanuel De Jesus Ramos Correia Borges Pag. 12 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.4. Credit Scoring

    1.4.2 Revisao bibliografica das aplicacoes de Credit Scoring

    A partir de 1933, ano em que foi publicado o primeiro volume da revista Econometrica,intensificou-se o desenvolvimento de metodos estatsticos para testar teorias economicas,estimar relacoes economicas e dar suporte a concessao de credito.

    Os modelos que buscam prever o risco de inadimplencia tem sido estudados ha variasdecadas. Os primeiros modelos de Credit Scoring foram desenvolvidos entre os anos 40 e50 e a metodologia basica aplicada a esse tipo de problema, era orientada por metodos dediscriminacao produzidos por Fisher (1936). Este metodo consiste basicamente em separarum conjunto de objetos em duas classes pre-definidas.

    O trabalho de Durand (1941) ficou conhecido como o primeiro a utilizar Analise Dis-criminante, com objetivo de discriminar clientes pagadores de maus pagadores para umproblema de credito [15]. A ideia basica era de discriminar e classificar.

    Varios outros estudos deram sequencia para a utilizacao desta tecnica em diversasareas. Em 1968 Altman a partir do artigo Financial ratios, discriminant analysis andthe prediction of corporate bankruptcy utilizou a tecnica de Analise de Discriminante paraprevisao de insolvencia de empresas, conseguindo uma taxa de predicao correta de 88%para as empresas boas e 87% para as empresas ruins com uma amostra de 58 empresas.

    Arminger et al. em 1997 usando seis variaveis independentes, com o objetivo de com-parar a tecnica que preve melhor os clientes entre classe de pagadores ou mau pagadores,obteve uma taxa de predicao correta de 67,6 % para Regressao Logstica, 66,4 % paraArvore de Decisao e 65,2% para Rede Reunais. Num esforco adicional os autores buscaramuma previsao combinada utilizando as tres tecnicas, mas o resultado nao foi satisfatorio.

    Guimaraes e Chaves Neto (2002) conseguiram uma taxa de predicao correta de 99,02%para a Regressao Logstica e de 92,16% para a Analise Discriminante, com uma amostrade dados de 707 observacoes, sendo 102 pertencentes ao grupo de clientes mau pagadorese 605 pertencentes ao grupo de clientes bom pagadores.

    Para o caso de Cabo Verde em concreto, existe dois trabalho relacionados a CreditScoring : o dissertacao de mestrado de D. Semedo (2010) que residiu em aplicacao daRegressao Logstica vs. Redes Neuronais Artificiais na avaliacao do risco de credito nomercado cabo-verdiano e o tese de doutoramento de J. Fernandes (2012) estudo de umacarteira de credito ao consumo, onde com base num modelo de Regressao Logstica, e recor-rendo a variaveis socioeconomicos e financeiras de cada cliente, estimou-se a probabilidadede incumprimento a priori para cada cliente.

    Emanuel De Jesus Ramos Correia Borges Pag. 13 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Credit Scoring

    A Tabela [1.1] apresenta alguns autores que usaram tecnicas de Credit Scoring para prevero risco de credito e as respetivas taxas de predicao correta para diferentes tecnicas. Dosresultados ve-se que nao existe uma tecnica que permite ter a maior taxa de predicaocorreta sempre, mas depende de alguns fenomenos como: o objetivo de estudo, de tamanhoda amostra e variaveis explicativas a ser utilizado no modelo.

    Tabela 1.1: Resultados de estudos de comparacao entre modelos

    Autor A. Discriminante R. Logstica A. Decisao

    Arminger et al. (1992) 77,5% - 75%Henley (1995) 73,4% 43,4% 43,8%Arminger et al. (1997) - 67,6% 65,2%Yobas et al. (2000) 68,4% - 62,3%Guimaraes e Neto (2002) 92,16% 99,02% -Mures et al. (2005) 97,14% 97,14% -L. Selau (2008) 73,2% 73,3% -

    Fonte: Autor

    1.5 Tecnicas de Credit Scoring

    Diferentes tipos de tecnicas de Credit Scoring sao utilizados no problema de credito,com o intuito de alcancar melhorias na reducao do risco e/ou no aumento da rentabilidade.Entre os quais, podemos citar, Analise de Sobrevivencia, Arvore de Decisao, RegressaoLinear, Regressao Logstica e Redes Neurais.

    Cada tecnica apresenta vantagens e desvantagens como: o poder predicao, os custos, arapidez e a interpretacao das influencias das diversas variaveis observaveis nos candidatosa credito [Barth (2004)].

    Essas tecnicas de Credit Scoring estao divididas em tecnicas estatsticas, programacaolinear e inteligencia artificial. Como:

    Tecnicas Estatsticas:

    Analise de Discriminante;

    Arvore de Decisao;

    Cadeia de Markov;

    Regressao Logstica;

    Emanuel De Jesus Ramos Correia Borges Pag. 14 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Credit Scoring

    Tecnicas de Investigacao Operacional:

    Programacao Linear;

    Programacao Nao Linear;

    Tecnicas de Inteligencia Artificial:

    Redes Neuronais;

    Cada uma das tecnicas apresenta vantagens e desvantagens em relacao a outras, con-forme pode ser analisado na Tabela [1.2].

    Tabela 1.2: Vantagens e desvantagens de tecnicas de Credit Scoring

    Tecnicas Vantagens Desvantagens

    Analise Bom rendimento em grande amostra Estimadores ineficientesDiscriminante Conveniente em estimacao

    Modelo Prob. Bom rendimento em grande amostra Estimadores ineficientesLinear Facil interpretacao Prob. fora de 0 e 1

    Modelos Mostram probabilidade de impago A probabilidade nao e linear

    Logit Bom rendimento em grande amostra Difcil estimacao

    Modelos Mostram probabilidade de impago Difcil estimacaoProbit Bom rendimento em resultado Difcil interpretacao

    Rede Bom predicao em pequenas amostras Difcil compreensaoNeurais Modelo com grande flexibilidade Nao estima prob. de impago

    Programacao Apto para muitas variaveis Difcil compreensaoLinear Modelo com grande flexibilidade Ineficiencia em predicao

    Arvore de Menos rigorosos em pressupostoDecisao Modelo com grande flexibilidade Nao estima prob. de impago

    Fonte: Adoptado a [Kim (2005)].

    Pode-se ver que a escolha da melhor tecnica depende do objetivo do estudo, tamanhoda amostra, numero de variaveis explicativa e estrutura de dados. As tecnicas parame-tricas (Analise Discriminante, Modelo de probabilidade linear, Logit e Probit) apresentama vantagem de ter bom rendimento para grandes amostras. Mas apresentam a desvan-tagem de difcil estimacao dos parametros (Logit e Probit). Enquanto as tecnicas naoparametricas apresentam grandes predicoes, mas sao de difcil compreensao e nao calculama probabilidade de incumprimento.

    Emanuel De Jesus Ramos Correia Borges Pag. 15 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Analise de Correspondencia

    1.5.1 Analise de Correspondencia

    A Analise de Correspondencia (AC) se popularizou na decada de 60 e 70 atraves doestatstico frances Jean-Paul Benzecri, primeiramente na Franca e se estendendo pela Eu-ropa, porem teve suas origens em trabalhos do incio do seculo XX feitos por Pearson eFisher, dois dos mais importantes nomes da estatstica [Fox, 2015].

    Definicao 1.5.1. Analise Correspondencia e uma tecnica multivariada, desenvolvidapara estudar relacoes entre variaveis categoricas ou variaveis quantitativas que passarampor um processo de categorizacao. Analise de Correspondencia possibilita a reducao de di-mensionalidade com perda mnima de informacao, mostrando geometricamente as variaveise as relacoes existentes entre as variaveis e suas categorias [Nenadic, 2007].

    Ha dois tipos de Analise de Correspondencia: simples (ACS) ou bivariada e multipla(ACM). Caso estamos a estudar a relacao entre duas variaveis estamos perante Analise deCorrespondencia Simples, e com mais de duas variaveis diz-se Analise de CorrespondenciaMultipla.A Analise de Correspondencia Simples e aplicavel, principalmente na analise de dadosapresentados na forma de tabelas de dupla entrada, levando a um mapa que facilita a visu-alizacao da associacao entre duas variaveis. Onde nas linhas sao apresentadas as categoriasde uma variavel, nas colunas as categorias de outra variavel e nas celulas as frequenciasobservadas de indivduos [48].

    O objetivo da Analise de Correspondencia, assim como as demais tecnicas de analisemultivariada desenvolvidas para a reducao de dados, e a sintetizacao da massa de dados(variaveis e casos) operados pelo pesquisador. Utilizando os procedimentos adequados deanalise multidimensional de dados o pesquisador podera poupar muitos recursos despendi-dos no processamento e analise dos mesmos [Ramos, 2015].

    Teste de qui-quadrado

    Para que a aplicacao da Analise de Correspondencia seja feita de forma eficaz e neces-sario que o par de variaveis a serem analisadas seja submetido ao teste qui-quadrado (2)e ao calculo do criterio beta (), indicando se a aplicacao da tecnica as pares de variaveise valida ou nao [48].

    Procedimento para realizar teste de qui-quadrado (2).

    1. Enunciar as hipoteses:H0: As variaveis sao independentes (as frequencias observadas nao sao diferentes dasfrequencias esperadas);H1: As variaveis sao dependentes (as frequencias observadas sao diferentes da frequen-cias esperadas);

    Emanuel De Jesus Ramos Correia Borges Pag. 16 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Analise de Correspondencia

    2. Fixar o valor de nvel de significancia (). Determinar o grau de liberdade: gl =(l 1)(c 1), onde l = numero de linhas e c = numero de colunas da tabela decontingencia;

    3. Determinar a regiao de aceitacao e regiao crtica;

    4. Calcular 2cal, dado por:

    2cal =L

    i=1

    Cj=1

    (Foi j Fei j)2Fei j

    (1.1)

    onde:

    Foi j - e a frequencia observada; Fei j - e a frequencia esperada;

    A frequencia esperada e calculada por:

    Fei j =(soma da linha i)(soma da coluna j)

    total(1.2)

    5. Tomada de decisao:

    Se 2cal < 2tab, nao temos condicoes para rejeitar H0;

    Se 2cal > 2tab, rejeita-se H0, logo conclui-se que as variaveis sao dependentes.

    Depois de obter o valor de 2cal verifica-se a relacao entre as variaveis a partir do criterio dada na Equacao [1.3], onde o valor da estatstica deve ser significante [48].

    =2cal ((l 1)(c 1)

    (l 1)(c 1)(1.3)

    Se > 3 as variaveis tem relacao, isto e, sao dependentes a um risco menor ou igual a5%, e, consequentemente e possvel aplicar Analise de Correspondencia nas respetivas parde variaveis.

    Emanuel De Jesus Ramos Correia Borges Pag. 17 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Analise de Correspondencia

    Tabela de Contingencia

    Na Analise de Correspondencia Simples e usada a seguinte tabela de contingencia (ma-triz de correspondencia).

    Tabela 1.3: Tabela de contingencia

    Variavel B

    A

    Categorias 1 2 j Total linha1 n11 n12 n1 j n12 n21 n22 n2 j n2 i ni1 ni2 ni j ni

    Total coluna n1 n2 n j N

    onde:

    N - frequencias total observadas;ni - frequencia total observada na i-esima categoria da variavel A;n j - frequencia total observada na j-esima categoria da variavel B ;ni j - frequencia observada pela intersecao da i-esima categoria da variavel A com a j-esimacategoria da variavel B ;

    Analise de Resduos

    Segundo Ramos (2015) a informacao fornecida pelo criterio beta () nao pode afirmarporque essa associacao estaria ocorrendo e que categorias realmente possuem associacao sig-nificativa. Para responder a essa questao e preciso avaliar o padrao de inter-relacionamentoutilizando um procedimento mais formal baseado nos resduos (diferenca entre as frequen-cias esperadas e as observadas), que indicara a probabilidade de ocorrencia do valor ob-servado na tabela de contingencia. O resduo padronizado (Zres) pode ser calculado pelaseguinte formula:

    Zres =Foi j Fei j

    Fei j(1.4)

    Para determinar a probabilidade de associacao entre as variaveis, torna-se necessario arealizacao do calculo do coeficiente de confianca [48]. Dado por:

    Emanuel De Jesus Ramos Correia Borges Pag. 18 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Arvore de Decisao

    =

    0, se Zres 0;1 2[1 P(Z < Zres)], se 0 < Zres < 3;1, se Zres 3;

    Onde Z e uma variavel aleatoria com distribuicao de probabilidade normal padrao.As relacoes entre as categorias das variaveis sao significativas quando 70%.

    1.5.2 Arvore de Decisao

    Definicao 1.5.2. Arvore de Decisao (ou Classificacao) e uma estrutura de dadosrecursivamente definida com nos folha, que indicam uma classe ou nos de decisao quecontem um teste sobre o valor de um atributo. Para cada um dos possveis valores doatributo, tem-se um ramo para uma arvore de decisao (sub-arvore). E um metodo declassificacao onde uma variavel explicada e predita a custa de n variaveis explicativas.

    Arvore de Decisao pertence as tecnicas nao parametricas de classificacao binaria quepermite disjuntar as observacoes de uma amostra assimilando a grupos previamente defi-nidos. Escolhe-se as variaveis explicativas mais pertinentes para descrever uma situacao,deixado as variaveis menos pertinentes de fora. E representada por uma estrutura hierar-quica, de uma arvore invertida que se desenvolve de raiz para as folhas. Em cada nvel daarvore tomam-se decisoes acerca da estrutura de nvel seguinte ate atingir os nos terminais.A partir de uma Arvore de Decisao e possvel derivar regras, onde sao escritas considerandoo caminho do no raiz ate uma folha da arvore.

    A Arvore de Decisao e baseado em tres premissas basicas para a construcao do modelo,que sao a simplicidade, potencia e estabilidade. A simplicidade diz que qualquer pessoadeve ser capaz de compreender e entender como o modelo funciona e o que esta predizendo.A potencia refere a capacidade em discriminar corretamente os clientes bons pagadores demaus pagadores. E por ultimo a estabilidade que o modelo conserve a sua capacidade dediscriminacao com o tempo [10].

    A Arvore de Decisao comecou a ser utilizado nos anos 50, com o trabalho de Hunt queapresentou varios trabalhos de inducao, em seguida houve trabalhos de Breiman, Friedman,e Stone, em que e apresentado o algoritmo Classification and Regression Trees (CART).Ross Quinlan, professor, tambem teve participacao importante na criacao de modelos dearvores de decisao, elaborando novos algoritmos como o ID3 e C4.5.

    As principais vantagens de Arvore de Decisao em relacao as tecnicas parametricas nome-adamente Regressao Logstica e Analise Discriminante e que nao esta sujeita a pressupostoestatstico e nao e sensvel ao missing e aos outliers.

    Emanuel De Jesus Ramos Correia Borges Pag. 19 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Arvore de Decisao

    Algoritmos de Arvore de Decisao

    Existem diversos algoritmos de classificacao quando se utiliza Arvore de Decisao. Osmais conhecidos sao CART7, ID3, CHAID e C4.5. Destes algoritmos existentes nao ha umaforma de determinar qual e o melhor algoritmo, visto que, o desempenho de um algoritmovaria consoante a situacao.

    Neste trabalho optou-se por algoritmo CHAID8 que vem implementado em SPSS.22.

    Algoritmo CHAID

    Tendo escolhido a variavel explicada, este algoritmo permite que estabeleca as relacoesentre grupos de respostas e testa-se uma serie de variaveis que podem predizer a variacaoda variavel explicada. Esse algoritmo:

    1. Assume que as variaveis explicativas sao categoricas, ordinais ou discretas.

    2. Utiliza contrastes de 2 de Pearson e F de Snedecor.

    3. CHAID considera todos os nos possveis em todas as variaveis. Seleciona o no queda o menor pvalor associado a uma medida de contraste estatstico.

    4. Se a variavel criterio e categorica a medida e 2 de Pearson. Caso for contnua amedida e teste F.

    Na aplicacao do algoritmo CHAID a variavel resposta e categorica, distintas e mutu-amente exclusivas. As variaveis explicativas podem ser do tipo categorico ou contnuas.Se as variaveis explicativas sao contnuas o metodo realiza uma transformacao da varia-vel contnua em categorica. Sendo necessario definir no software (SPSS ) a quantidade decategorias desejadas para a variavel e a quantidade mnima de casos que deve existir emcada categoria.

    Com as categorias da variavel explicativa submetida ao metodo CHAID em relacao avariavel resposta, agrupa-se as categorias homogeneas da variavel explicativa que se estatestando. Como podem existir inumeras categorias, deseja-se identificar quais as categoriaspodem ser agrupadas.

    7Classification and regression trees8Chi Square Automatic Interaction

    Emanuel De Jesus Ramos Correia Borges Pag. 20 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    Aplicacoes com Arvore de Decisao

    O modelo Recursive Partioning Algorithm (RPA) de Friedman (1977) para analise fi-nanceiro e considerado como percussor de Arvore de Decisao em Credit Scoring, baseado empadroes de reconhecimento, teve por atributos tantos enfoque de classificacao uni variadocomo procedimentos multivariados.

    Depois de 1977 tambem encontra aplicacoes de Breiman et al. (1984), Marais et al.(1984) e Frydman et al. (1985) que foram determinantes para o desenvolvimento de outrostrabalhos com esta metodologia. Boyle et al. (1992) realizaram um estudo de compa-racao entre Arvore de decisao e Analise Discriminante, comparando assim uma tecnicaparametrica com outra nao parametrica.

    1.5.3 Regressao Logstica

    Definicao 1.5.3. Regressao Logstica e um tecnica estatstica que visa produzir ummodelo, a partir de conjunto de observacoes, que leva a predicao de valores de uma varia-vel. Com valores de uma serie de variaveis explicativas tenta-se predizer a ocorrencia davariavel explicada.

    A Regressao Logstica foi desenvolvida por meados do ano 1960, onde o objetivo erarealizar predicoes ou explicar a ocorrencias de determinados fenomenos em que a variavelexplicada fosse de natureza binaria. Framingham Heat Study foi autor de um dos estudospioneiros que mais contribuiu para o avanco desta tecnica. O autor utilizou a RegressaoLogstica para identificar os fatores que mais contribuam para a ocorrencias de doencascardiovasculares.

    Regressao Logstica e a tecnica mais utilizada no desenvolvimento de modelos de CreditScoring. Ela nao exige a suposicao da normalidade das variaveis explicativas comparadascom a Analise Discriminante. Sendo que esse pressuposto e fulcral para o uso de AnaliseDiscriminante. Uma das outras vantagens da Regressao Logstica e que nao requer as hipo-teses do modelo classico de Regressao Linear, especificamente pressupostos de normalidadede erros de observacao [Ver Cox e Snell (1989)].

    Segundo Hosmer e Lemeshow (2000) consideram que Regressao Logstica distingue deregressao linear pelo fato da variavel explicada em Regressao Logstica ser binaria ou di-cotomicas. Ha alguns casos em que a variavel resposta e multipla (policotomica), isto e,com mais de duais respostas [Ver Gujarati (2004)]. E esta diferenca e refletida ambos naescolha de um modelo parametrico e nas suposicoes.

    Considere a variavel explicada Yi, variavel binaria classificada em duas categorias, 1ou 0. Neste caso a categoria 1 apresenta um cliente classificado como mau pagador e 0

    Emanuel De Jesus Ramos Correia Borges Pag. 21 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    como bom pagador. O modelo ajustado, a partir da amostra de desenvolvimento, utili-zando a Regressao Logstica, fornece pontuacoes tal que, quanto maior o valor obtido paraos clientes, pior o desempenho de credito esperado para eles, uma vez que o cliente maupagador foi considerado como o evento de interesse. O modelo deve ser capaz de classificaros clientes entre os grupos de bom pagador ou mau pagador, baseando-se em caratersticasdos mesmos.

    Regressao ordinal

    O modelo de Regressao Logstica ordinal vem estando amplamente usado por ajustarmelhor a dados que possuem variaveis explicativas qualitativas e que podem ser categori-zadas seguindo uma ordenacao natural tais como por exemplo, em aplicacoes economicase frequente considerar o grau de risco, produtividade (baixo, medio, elevado), etc.

    Adicionalmente, as escalas ordinais podem originar da necessidade de operacionalizacaode variaveis contnuas que por motivos de mensuracao, impacto social, ou outros apenaspodem ser medidas em categorias ordinais. O valor atribudo de credito e um bom exemplodeste tipo de operacionalizacao. Se bem que o valor atribudo possa ser medido precisa-mente, ate ao ultimo escudos, de uma forma geral esta variavel e categorizada em classesordinais de modo a reduzir a taxa de nao respostas (por exemplo, o nvel salarial baixo: 80 mil escudos).

    Em termos analticos, as classes das variaveis ordinais sao, geralmente, codificadas comvalores inteiros de 1 ao numero de classes e, por este motivo, o investigador pode ser levadoa usar a regressao linear vulgar. Por outro lado, se a variavel tiver classes ordenaveis, masuma das suas classes nao o for (por exemplo, a classe nao sabe/nao tem opiniao que porvezes se encontra nas falsas escalas, podera ser prefervel recorrer a regressao multinomial,que nao contempla a relacao de ordem entre classes. Finalmente, se a ordenacao das classespuder ser feita de forma diferente, em funcao do contexto social, experimental, etc. serasensato recorrer a regressao multinomial, ja que a forma de ordenacao das classes podeconduzir a diferentes conclusoes.

    Modelo de Regressao Logstica

    Considere Yi uma variavel explicada binaria com dois valores possveis: 0 ou 1. Sejaum conjunto de k variaveis explicativas (X1, X2, Xk), observadas com o objetivo deexplicar/predizer o valor de Yi.

    Sabendo que num modelo de Regressao Logstico a variavel resposta Yi e binaria e as-sume dois valores Yi = 1 ou Yi = 0, neste caso:

    Emanuel De Jesus Ramos Correia Borges Pag. 22 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    Diz-se que Yi e uma variavel aleatoria dummy definida como:

    Yi =

    1 se o cliente e mau pagador.

    0 se o cliente e bom pagador.

    Quando estamos perante Regressao Logstica Simples o valor medio da variavel respostadado o valor da variavel explicativa e denominada de valor medio condicional, expressadocomo E[Y/X]. Onde E[Y/X = x] e chamada de valor esperado de Y dado X = x.

    E[Y/X = x] = 0 + 1x (1.5)

    Com E[Y/X = x] a assumir valores entre e .

    Como sabemos Yi e binaria, assumindo valores 0 ou 1, diz-se entao que Yi tem distri-buicao de Bernoulli, cuja funcao de distribuicao de probabilidade e dada por:

    P(Y | p) = Py (1 p)1y (1.6)

    Onde:

    y e o acontecimento ocorrido;

    p e a probabilidade de sucesso para a ocorrencia do acontecimento;

    Sabendo que P(Yi = 1) = pi e P(Yi = 0) = 1 pi representam sucesso e insucesso respe-tivamente.

    A media e dado por:E[Yi] = 1(pi) + 0(1 pi) (1.7)

    E a variancia por:

    Var[Yi] = E[Y2i ]) ([E(Yi)])2

    = 12(pi) + 02(1 pi) (pi)2

    = (pi) (pi)2 = pi(1 pi) (1.8)

    Emanuel De Jesus Ramos Correia Borges Pag. 23 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    Suponhamos que realizamos sucessivamente n provas de Bernoulli. X conta o numerode sucessos em n provas de Bernoulli chama-se variavel aleatoria binomial. A distribuicaode probabilidades da v.a. binomial chama-se distribuicao binomial e representa-se porYi (n, p), com a funcao de probabilidade:

    P(X = y) =(ny

    )py (1 p)1y y = 0, 1, n (1.9)

    Onde:

    n e numero de provas realizadas;

    p e probabilidade constante de sucesso em cada prova;

    A funcao distribuicao logstica e dada por (para sucesso):

    Pi = E(Yi|Xi) =1

    1 + e(1+2Xi)(1.10)

    Chamando Zi = 1 + 2Xi tem-se:

    Pi =1

    1 + eZi=

    eZi

    1 + eZi(1.11)

    Equacao [1.11] e conhecida como funcao distribuicao logstica (acumulada).

    No modelo logstico o Pi e a probabilidade de o cliente tomador nao honrar a sua dvida.Sendo que Pi pode ser determinada por varios variaveis explicativas (como sexo, idade, etc.)regredidos sobre a variavel explicada (ser pagador).

    Da Equacao [1.11] a medida que:

    Zi , Pi 0;

    Zi +, Pi 1;

    Logo conclui-se que 0 Pi 1 como ilustra a Figura [1.2]. Como Pi e nao-linear emX e tambem em (s), o que mostra que de fato nao podemos usar MQO para estimar osparametros. Os parametros desconhecidos j sao estimados atraves de Metodo MaximaVerosimilhanca (MMV).

    Emanuel De Jesus Ramos Correia Borges Pag. 24 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    Figura 1.2: Funcao de distribuicao acumulada

    A funcao de distribuicao acumulada varia entre 0 e 1, consoante a Figura [1.2].

    Ainda da Equacao [1.11] que representa a probabilidade de um cliente ser mau pagadorpode escrever-se como a probabilidade do cliente ser bom pagador (1 pi):

    1 Pi = 1 eZi

    1 + eZi

    =1 + eZi eZi

    1 + eZi

    =1

    1 + eZi(1.12)

    Da equacao [1.12] escrevendo em forma de Odds ratio:

    Pi1 Pi

    Odds Ratio

    =

    eZi1+eZi

    11+eZi

    (1.13)

    =eZi (1 + eZi)

    1 + eZi

    = eZi (1.14)

    A equacao [1.13] representa a razao de chance (Odds Ratio) sendo o quociente entre aprobabilidade do evento ocorrer com a probabilidade do mesmo evento nao ocorrer.

    Emanuel De Jesus Ramos Correia Borges Pag. 25 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    O principal vantagem de Regressao Logstica e que possibilita uma transformacao im-portante, denominado transformacao logit. Fazendo o logaritmo natural de (Pi /1 Pi)obtemos a transformacao logit:

    Li = ln( Pi1 Pi

    )= ln

    (eZi

    )(1.15)

    = Zi = 1 + 2Xi

    O Li (denominado de logit) da equacao [1.15] que e o ln da razao de chance, apresentaa linearidade em X e tambem nos parametros. Quando Z varia de a , logit varia de a , mas as probabilidade variam de 0 a 1. Se o logit for positivo, quando X aumentaa chance do evento de interesse aumentam. Se o logit for negativo, as chances da variavelexplicada ser igual a 1 diminui a medida que X aumenta.

    Estimacao pelo Metodo de Maxima Verosimilhanca

    Quando estamos perante modelos onde a variavel explicada e limitada nao e aplicavel ometodo dos Mnimos Quadrados Ordinarios, por ser nao linear. Tornando-se necessaria ouso de metodo de estimacao pelo metodo de Maxima Verosimilhanca. Este metodo maxima

    o logaritmo da funcao verosimilhanca da amostra em relacao as s, igualando as derivadas

    parciais a zero e determinar s que solucione o conjunto de equacoes.

    Sabendo que o modelo logstico e definido matematicamente por:

    Pi =eZi

    1 + eZi=

    e0+1xi

    1 + e0+1xi(1.16)

    Seja a funcao de probabilidade de Yi v Binomial, dado por:

    f (Yi/xi) = [P(xi)]Yi [1 P(xi)]1Yi , com Yi 0, 1 (1.17)

    Assumindo que a amostra e independente e identicamente distribuda (iid), entao aFuncao Maxima Verosimilhanca (FMV) e o produto da probabilidade de cada observacao,dado por:

    Emanuel De Jesus Ramos Correia Borges Pag. 26 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    () =n

    i=1

    f (Yi/Xi)

    =

    ni=1

    [[P(xi)]Yi[1 P(xi)]1Yi

    ](1.18)

    Os estimadores de Maxima Verosimilhanca destes parametros sao escolhidos entre aque-les que maximizam a funcao da Equacao [1.18].

    A Equacao [1.18] e um pouco trabalhosa para manipular, mas se tomarmos o seulogaritmo natural, sendo:

    L() = ln[()] (1.19)

    = lnn

    i=1

    [[P(xi)]yi[1 P(xi)]1yi

    ]=

    ni=1

    [yiln[P(xi)] + (1 yi)ln[1 P(xi)]

    ]=

    ni=1

    [yiln[P(xi] + ln[1 P(xi)] yiln [1 P(xi)]

    ]=

    ni=1

    [yiln

    (P(xi)

    1 P(xi)

    )+ ln[1 P(Xi)]

    ](1.20)

    Sabendo que:

    1 P(xi) =1

    1 + e0+1X(1.21)

    e que:

    ln[

    P(xi)1 P(xi)

    ]= 0 + 1xi (1.22)

    Entao substituindo [1.21] e [1.22] em equacao [1.20] teremos:

    Emanuel De Jesus Ramos Correia Borges Pag. 27 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    L() =n

    i=1

    [yi(0 + 1xi) + ln

    ( 11 + e0+1xi

    )]=

    ni=1

    [yi(0 + 1xi) ln

    (1 + e0+1xi

    )](1.23)

    Como o objetivo de FMV e encontrar 0 e 1 que maximiza L() entao tendo em contaa definicao de maximo de uma funcao, ha que derivar a Equacao [1.23] em relacao aosparametros 0 e 1, igualando as expressoes resultantes a zero e resolvemos. Podemosentao aplicar a condicao de maximizacao de segunda ordem para verificar se os parametrosque obtivemos maximizam realmente a funcao de maxima verosimilhanca. Procedendocom raciocnio, temos:

    L()0

    =n

    i=1[yi0+Yi1xiln(1+e0+1xi)]0

    L()1

    =n

    i=1[yi0+Yi1xiln(1+e0+1xi)]1

    (1.24)

    Calculando a primeira derivada obtivemos o seguinte resultado:

    L()0

    =n

    i=1

    [yi e

    0+1xi

    1+e0+1xi

    ]L()1

    =n

    i=1

    [yixi xi e

    0+1xi

    1+e0+1xi

    ]

    Que pode ser escrito como:

    L()0

    =n

    i=1[yi P(xi)

    ]L()1

    =n

    i=1[xi[yi P(xi)]

    ]

    Emanuel De Jesus Ramos Correia Borges Pag. 28 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    Igualando as duas expressoes acima a zero, tem-se:

    L()0

    =n

    i=1[yi P(xi)

    ]= 0

    L()1

    =n

    i=1[xi[yi P(xi)] = 0

    ] (1.25)Como as duas equacoes acima sao nao lineares nos parametros, torna-se necessario para

    este processo utilizar o metodo numerico de Newtom-Rapson [Ver Cox e Snell (1989)]. Aposobter os valores numericos de 0 e 1 pode calcular facilmente a Equacao [1.11].

    Depois de serem estimados os parametros pode-se predizer a probabilidade de novossolicitadores de credito serem maus pagadores. Permitindo tambem atraves de nvel designificancia dos parametros, quais variaveis explicativas estao mais associadas com a ina-dimplencia.

    Teste de significancia para coeficientes do modelo

    Apos obter os coeficientes das variaveis explicativas, o nosso primeiro olhar ao modeloprovido consiste em avaliar a significancia dos coeficientes das variaveis explicativas nomodelo. Isto normalmente envolve a formulacao e teste de hipotese estatstica para deter-minar se sao relacionadas as variaveis explicativas no modelo significativamente a variavelexplicada [25].

    Quando estamos a testar a significancia do coeficiente de uma variavel qualquer domodelo estamos a fazer a seguinte questoes: o modelo que inclui a variavel em questaonos conte mais sobre a variavel explicada (resposta) do que um modelo que nao inclui estavariavel? [Ver Hosmer e Lemeshow (2000)]. Por outras palavras estamos interessados emsaber se a variavel em questoes no modelo e melhor com ela ou sem o mesmo.

    Este passo consiste em saber se os coeficientes das variaveis explicativas sao estatistica-mente significativas. Os testes mais usados sao teste de Wald ou Razao da Verosimilhanca.

    Teste de Wald

    Este teste testa a hipotese de cada um dos coeficientes ser diferentemente de zero. Eaparecido com o teste F ou t para o teste de significancia dos coeficientes na regressao linear[24]. Deste modo ve-se se uma variavel explicativa apresenta uma relacao estatisticamentesignificativa com a variavel explicada. Sendo testado a seguinte hipotese:

    Emanuel De Jesus Ramos Correia Borges Pag. 29 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    Hipoteses =

    H0 : j = 0v.sH1 : j , 0, j = 0, , p

    Sendo a estatstica de Wald dada por:

    W j = j

    var( j)sobH0 21 (1.26)

    Ao rejeitar H0, para um nvel de significancia , conclumos que o parametro estimadoe estatisticamente diferente de zero. Se os coeficientes sao estatisticamente significantesas variaveis podem ser utilizadas para identificar as relacoes que afetam as probabilidadesprevistas.

    Teste de Hosmer e Lemeshow

    Para comprovar a validacao do modelo em seu conjunto se analisa a significancia glo-bal de todos os coeficientes do modelo contrastes de hipoteses, e o bondade de ajuste domesmo, atraves de uma serie de coeficiente e estatsticas, que permitem analisar a adequa-cao e eficacia do modelo para a predicao da variavel explicada. A bondade de ajuste domodelo se procede o estudo de provas estatsticas de contrastes de hipoteses como teste deHosmer e Lemeshow.

    O teste de Hosmer e Lemeshow mede a correspondencia entre os valores observados e osvalores previsto. Considerando as hipoteses de que as classificacoes em grupo previstas saoiguais as observadas. O teste divide as observacoes em decis de acordo com a probabilidadeestimada. Assim para cada decil compara-se o numero de observacao positivas com onumero esperado positivos [Ver Hosmer e Lemeshow (2000)].

    Hipoteses =

    H0 : Oi Ei = 0, i = 1, ,n.v.sH1 : Oi Ei , 0, i = 1, ,n.

    A estatstica de Hosmer e Lemeshow e descrito por:

    GHL =k

    i=1

    (Oi Ei)2

    Ei(1 Eini

    ) v 2k2 (1.27)Emanuel De Jesus Ramos Correia Borges Pag. 30 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    Onde:

    Oi: valor observado em i ;

    Ei: valor esperado em i ;

    ni: numero de frequencias no decil i ;

    k: numero de grupos (10);

    O numero de grupos pode ser menor que 10, mas deve haver ao menos 3 grupos para ouso da estatstica de Hosmer-Lemeshow. Se o pvalues e menor que o nvel significancia (5%),rejeitar a hipotese de nula (o teste mostra evidencia de ajuste inadequado e classificacoesinconfiaveis). Caso pvalues for maior que o nvel significancia (5%) nao se rejeita a hipotesenula, o que mostra ajuste adequado ou o modelo encontrado explica bem os dados.

    Pseudo R2

    O Pseudo R2McF serve para ver de que forma as variaveis explicativas predizem/explicamo comportamento da variavel explicada. Verificar se o modelo que nao inclui variaveis depredicao e contem unicamente 0 contra o modelo que a inclui. R2 e dado por 1 menoso quociente de desvios esperada para o modelo que inclui todas as variaveis (D()) e odesvios do modelo que no as inclui (D(0)) [Ver Cox e Snell (1989)].

    R2McF = 1 D()

    D(0), 0 R2McF 1. (1.28)

    Se R2 = 1, as variaveis explicativas predizem/explicam perfeitamente o comporta-mento da variavel em Y, quando y = 1 a probabilidade pi = 1 e quando y = 0 aprobabilidade pi = 0.

    Se R2 = 0, as variaveis explicativas nao tem qualquer influencia em variavel explicada.Tambem existem mais duais medidas de associacao multipla: o R2 de Cox e Snell eR2 de Nagelkerke.

    Emanuel De Jesus Ramos Correia Borges Pag. 31 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    Interpretacao dos coeficientes

    A interpretacao de qualquer modelo de regressao exige a possibilidade de extrair infor-macoes praticas dos coeficientes estimados. No caso do modelo de Regressao Logstica, efundamental o conhecimento do impacto causado por cada variavel explicativa na deter-minacao da probabilidade do evento de interesse.

    Em Regressao Logstica como tambem em Regressao Linear o impacto causado porcada variavel no evento de interesse, e determinada levando sempre em conta a grau deassociacao entre qualquer variavel explicativa e a variavel resposta, mantendo constante oefeito das outras variaveis explicativa. Esse criterio e denominado em economia de ceterusparibus [Ver J. Wooldridge (2002)].

    Uma medida presente na metodologia de Regressao Logstica, e util na interpretacaodos coeficientes do modelo, e o odds, que para uma variavel x e definido como [

    P(x)1P(x) ].

    Consideremos agora uma tabela 2 2, sendo xi uma variavel explicativa dicotomica pelapresenca de atributo (x1 = 1, linha 1) e pela ausencia (x1 = 0, linha 2) obtem-se que o oddsdo sucesso e dado por [

    P(1)1P(1) ] para linha e [

    P(0)1P(0) ] para linha 2. A razao entre as duas linhas

    e definida pelo quociente entre os odds de dois linhas da variavel xi, denomina-se de oddsratio, dado por:

    OR =odds1odds2

    =P(1)/(1 P(1))P(0)/(1 P(0)) (1.29)

    Sendo:

    P(1) =e0+1

    1 + e0+1e P(0) =

    e0

    1 + e0(1.30)

    1 P(1) = 11 + e0+1

    e 1 P(0) = 11 + e0

    (1.31)

    Substituindo em [1.29] temos:

    OR =

    [e0+1

    1+e0+1

    ] [1

    1+e0

    ][e0

    1+e0

    ] [1

    1+e0+1

    ] = e0+1e0= e1 (1.32)

    Por exemplo, sejam y = 1 a presenca de um cliente mau pagador e x a variavel casapropria, que denota se o indivduo tem casa propria (referencia) ou nao tem casa propria.Se:

    Emanuel De Jesus Ramos Correia Borges Pag. 32 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    OR = 3 podemos dizer que a inadimplencia e tres vezes mais provavel nos indivduossem casa propria comparada com clientes com casa propria;

    OR = 1 podemos dizer que a variavel casa propria nao contribui para a explicacaoda variavel resposta (nenhuma discriminacao);

    OR < 1 a probabilidade de ocorrencia de sucesso, isto e, do cliente ser mau pagadore maior na categoria de referencia (casa propria);

    Sendo que neste trabalho o evento sucesso e cliente mau pagador (y = 1), entao umodds ratio superior a 1, a categoria da variavel correspondente e considerado um fator derisco para a atribuicao de credito.

    Medida de qualidade do ajustamento

    A medida de qualidade do ajustamento sera medida pela curva ROC 9 que mede acapacidade preditiva do modelo em classificar corretamente os clientes bom pagador demau pagador. Com a curva de ROC podemos avaliar o desempenho do modelo de regressaobinaria.

    Uma valor para curva de ROC menor a 0,5 e considerado inadequado, visto que, naoapresenta qualquer discriminacao. A curva ROC e aceitavel entre de 0,7 a 0,8, e maior a0,9 e considerado de excelente discriminacao.

    Tabela 1.4: Classificacao da curva ROC

    Interpretacao Classificacao

    Excelente > 0,9Boa Discriminacao [0,8 - 0,9]Aceitavel [0,7 - 0,8]Fraca Discriminacao [0,5 - 0,7]Nenhuma Discriminacao < 0,5

    A Figura [1.3] ostenta um exemplo para a curva ROC. Nela nota que quando maisproxima a curva do angulo superior esquerdo do grafico, o teste tera a melhor sensibilidadee melhor especificidade.

    A area sob a curva ROC varia de 0,5 (comportamento aleatorio) a 1 (discriminacaoperfeita). A curva de ROC apresenta-nos eixo das abcissas a proporcao de maus pagadoresclassificados como bons pagadores e no eixo das ordenadas a proporcao dos bons pagadoresbem classificados e a reta diagonal representa a estimacao aleatoria.

    9 Receiver Operating Characteristic

    Emanuel De Jesus Ramos Correia Borges Pag. 33 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Regressao Logstica

    Figura 1.3: Curva ROC (Fonte: Hosmer e Lemeshow, 2000)

    Aplicacoes com Regressao Logstica

    A Regressao Logstica surge como tecnica cujo objetivo era a predicao de insolvenciaempresarial, sendo depois utilizado com objetivo de predicao de risco de inadimplencia dosclientes em bancos.

    Ferreira et al. (2011) atraves de Regressao Logstica, buscaram definir o perfil de clientesmaus pagadores ou propensos a inadimplencia nas relacoes de emprestimo pessoal embancos de varejo. Para isso realizaram uma pesquisa quantitativa, baseada em informacoesde 158 clientes de uma agencia bancaria mineira. Apos a analise dos dados, verificaram queas variaveis: renda, natureza ocupacional e idade nao foram significativas na determinacaodo risco de credito dos clientes. Por outro lado, o genero se apresentou como uma variavelbastante significativa, indicando que os homens sao mais propensos a inadimplencia do queas mulheres.

    Xiao e Yao (2014) buscaram documentar os ndices de inadimplencia da dvida deacordo com o perodo em que os clientes se encontram no ciclo de vida familiar. Para isso,utilizaram dados representativos de famlias americanas. Por meio de regressoes logsticasmultiplas foram identificados os perfis mais provaveis de se tornarem maus pagadores. Asvariaveis analisadas levaram em conta: a renda, os ativos financeiros, as dvidas e variosoutros dados demograficos e socioeconomicos. Os autores concluram que, dentre as 15categorias do ciclo de vida das famlias, aqueles com maior probabilidade de serem mauspagadores sao os casais jovens com criancas a partir de sete anos e solteiros com criancasmenores de 15 anos.

    Ferreira, Celso e Barbosa Neto (2012) escolheram analisar 74 operacoes bancarias para

    Emanuel De Jesus Ramos Correia Borges Pag. 34 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Precisao do Modelo

    mensurar o risco de credito aplicando o modelo Logit em um banco. Os resultados aponta-ram uma alta capacidade de predicao do modelo (91,9%). As principais variaveis condicio-nantes que afetaram positivamente o risco foram a renda, o tempo de relacionamento como banco e o limite de cheque especial. Ja, dentre as variaveis negativamente associadasdestacaram-se a idade e o grau de instrucao. Segundo os autores, considerando que todosos fatores sao controlaveis, o modelo ratifica a contribuicao das tecnicas estatsticas paraa predicao e gestao do risco de credito em instituicoes financeiras [38].

    A Tabela [1.5] exibe alguns autores que aplicaram Regressao Logstica em diferentesareas com determinados tamanhos de amostras e as taxas de predicao correta obtido.

    Tabela 1.5: Modelos aplicados com Regressao Logstica

    Aplicacao do Modelo Logstica

    Autor Area Amostra Amostra de validacao TPCChesser (1974) Insolvencia 126 Sim 75%Olhson (1980) Industrial 2163 Nao 96%Zavgren (1983) Industrial 90 Nao 82%Casey (1985) Insolvencia 290 Nao 88%Martin (1977) Banco 5700 Sim 92%Barniv (1990) Seguros 211 Sim 96%Briones (1986) Banco 48 Nao 93%

    Fonte: Adoptado de Rodrguez-Vilarino (1995).

    Da analise da tabela pode se ver que alguns autores nao usaram amostra para a vali-dacao do modelo. E que a taxa de predicao correta do modelo nao reside no tamanho deamostra.

    1.5.4 Precisao do Modelo

    Apos obter o modelos (os coeficientes da variaveis ou os score) torna-se necessariaconstruir a matrizes de classificacao para determinar a eficacia da predicao. A matriz declassificacao e determinada sequencialmente a ponto de corte.

    Os modelos de previsao independente do metodo usado para obte-los, produzirao, aosubmeter um novo candidato a credito, o resultado numerico (score ou ponto) que gerarauma classificacao (como provavel bom pagador ou mau pagador). Tal classificacao seraefetuada pela definicao de um ponto de corte para o resultado numerico mencionado [3].As pontuacoes acima de ponte de corte o novo candidato sera classificados como mauspagadores e abaixo do ponto de corte como bom pagador (neste estudo).

    Emanuel De Jesus Ramos Correia Borges Pag. 35 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Precisao do Modelo

    Barth (2004) comenta que um fator importante a ser levando em determinacao de pontede corte e o custo de erro, visto que sao diferentes os custos de nao detetar um possvelmau pagador, e o de nao conceder um credito a bom pagador (bom pagador). O objetivo eminimizar o custo dos erros (e nao maximizar o percentagem de acertos). O mesmo autorconsidera que deve entao elevar o valor do ponto de corte de forma que o modelo passe aclassificar mais casos como bons pagadores e assim diminuir o erro do tipo I.Porem Hosmer e Lesmeshow 2000 (pag. 242) considera que ponto de corte otimo deve con-siderar o custo de classificar um indivduo no grupo errado. Se os custos de ma classificacaosao aproximadamente iguais para todos os grupos, o ponto de corte otimo sera aquele queclassificar mal o menor numero de indivduo em todos os grupos. Porem se os custos dema classificacao sao desiguais, o ponto de corte otimo sera o de minimizar os custos de maclassificacao.

    Para a determinacao de ponto de corte e necessario levar em conta a curva ROC (Re-ceiver operating characteristic ou Relative operating characteristcs). A curva ROC ja foiabordado em Captulo [1.5.3 - Medida de qualidade do ajustamento].

    O valor do ponto de corte e definido com um valor que pode ser selecionado arbitrari-amente pelo pesquisador entre os valores possveis para a variavel de decisao. Para cadaponto de corte sao calculados valores de sensibilidade e especificidade, podendo ser dis-posto no grafico. Um classificador perfeito corresponderia a uma linha horizontal no topodo grafico, porem esta dificilmente sera alcancada (Ver Figura [1.3]).

    Forma de calculo de ponto de corte

    Consideremos Grupos A (clientes bons pagadores) e Grupo B (clientes maus pagadores),com tamanho desigual, o ponto de corte otimo e a media ponderada dos centroides dosgrupos. O ponto de corte e ponderado na direcao do grupo menor, gerando com sorte umamelhor classificacao do grupo maior [Hair et al.].

    Dado por:

    Zcs =NAZB +NBZA

    NA +NB(1.33)

    Onde:

    Zcs: ponte de corte otimo entre Grupo A e Grupo B;

    NA: numero de clientes do Grupo A;

    NB: numero de clientes do Grupo B;

    Emanuel De Jesus Ramos Correia Borges Pag. 36 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Precisao do Modelo

    ZA: centroide de Grupo A;

    ZB: centroide do Grupo B;

    Fonte: Adaptado Hair et al., (2005 pag. 243)

    Figura 1.4: Ponto de corte otimo para amostras diferentes

    Se os grupos sao especificamente com sendo de iguais tamanhos entao o ponto de corteotimo estara a meio caminho entre os dois centroides e se torna simplesmente a media dosmesmos [Ver Hair et al. 2005]:

    Zcs =ZA + ZB

    2(1.34)

    Fonte: Adaptado Hair et al. (2005 pag. 243)

    Figura 1.5: Ponto de corte otimo para amostras iguais

    Emanuel De Jesus Ramos Correia Borges Pag. 37 de 106

  • CAPITULO 1. REFERENCIAL TEORICO 1.5. Precisao do Modelo

    As Equacoes [1.33] e [1.34] assumem que as distribuicoes sao normais e as estruturasde dispersao de grupos sao conhecidos.

    Para a analise da qualidade de resultado do modelo de Regressao Logstica e Arvore deDe