leandro de azevedo gonzalez - biblioteca digital de

46
Leandro de Azevedo Gonzalez Regressão Logística e suas Aplicações São Luís 2018

Upload: others

Post on 24-Oct-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Leandro de Azevedo Gonzalez

Regressatildeo Logiacutestica e suas Aplicaccedilotildees

Satildeo Luiacutes

2018

Leandro de Azevedo Gonzalez

Regressatildeo Logiacutestica e suas Aplicaccedilotildees

Monografia apresentada ao curso de Ciecircnciada Computaccedilatildeo da Universidade Federal doMaranhatildeo como parte dos requisitos neces-saacuterios para obtenccedilatildeo do grau de Bacharel emCiecircncia da Computaccedilatildeo

Universidade Federal do Maranhatildeo

Centro de Ciecircncias Exatas e Tecnoloacutegicas

Curso de Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo

Orientador Prof Dr Ivo Joseacute da Cunha Serra

Satildeo Luiacutes

2018

Leandro de Azevedo GonzalezRegressatildeo Logiacutestica e suas Aplicaccedilotildees Leandro de Azevedo Gonzalez ndash Satildeo Luiacutes

201845 p

Orientador Prof Dr Ivo Joseacute da Cunha Serra

Monografia (Graduaccedilatildeo) ndash Universidade Federal do MaranhatildeoCentro de Ciecircncias Exatas e TecnoloacutegicasCurso de Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2018

1 Mineraccedilatildeo de Dados 2 Regressatildeo Logiacutestica 2 Aplicaccedilotildees de RegressatildeoLogiacutestica I Ivo Joseacute da Cunha Serra II Universidade Federal do Maranhatildeo IIICiecircncia da Computaccedilatildeo IV Tiacutetulo

Aos meus pais

Agradecimentos

Em especial aos meus pais Lorenzo Gonzalez Ruiz e Erciacutelia Maria Menezes de

Azevedo que satildeo os maiores incentivadores dos meus estudos por todo o esforccedilo dedicado

para que eu tivesse uma boa educaccedilatildeo

Ao meu orientador professor Ivo Joseacute da Cunha Serra pela sua orientaccedilatildeo elogios

conselhos confianccedila e empenho depositados em mim e no desenvolvimento deste trabalho

Agradeccedilo tambeacutem aos professores Tiago e Samyr que gentilmente aceitaram o convite

para a Banca Examinadora deste trabalho

Ao corpo docente do curso de Ciecircncia da Computaccedilatildeo pelo ensino e contribuiccedilatildeo

para a minha formaccedilatildeo acadecircmica e agrave todos os professores pelos quais eu passei desde o

ensino infantil

Aos familiares e amigos que estiveram presentes durante este processo Aos cole-

gas discentes do curso de Ciecircncia da Computaccedilatildeo os quais dividimos as dificuldades e

compartilhamos o aprendizado

Resumo

Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados

teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de

padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa

a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica

nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do

modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo

da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os

quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma

forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da

probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem

para o mesmo

Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo

Logiacutestica

Abstract

Due to the increasing volume of computational data that is produced and stored data

mining techniques are becoming each more time more required to the search of relevant

information patterns in these large volumes This paper describes and analyses the logistic

regression which is a technique for data mining of categorical response in its binary and

multiple forms Methods are discussed both for the estimation of the regression model

and for the evaluation of the model generated Examples of the application of logistic

regression are presented in the financial environmental and epidemiological areas which

show the possible use of this technique in these different areas and stand out as a strong

tool of data analysis of categorical response which allows estimation of the probability of

occurrence of events as well as the evaluation of the contributing factors to them

Keywords Data Mining Logistic Regression Logistic Regression Applications

Lista de ilustraccedilotildees

Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25

Figura 5 ndash Componentes da mudanccedila ambiental global 32

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36

Lista de tabelas

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31

Tabela 2 ndash Uso e Cobertura do solo 33

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39

Lista de abreviaturas e siglas

BAP Bacia Hidrograacutefica do Alto Paraguai

OR Odds Ratio

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 2: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Leandro de Azevedo Gonzalez

Regressatildeo Logiacutestica e suas Aplicaccedilotildees

Monografia apresentada ao curso de Ciecircnciada Computaccedilatildeo da Universidade Federal doMaranhatildeo como parte dos requisitos neces-saacuterios para obtenccedilatildeo do grau de Bacharel emCiecircncia da Computaccedilatildeo

Universidade Federal do Maranhatildeo

Centro de Ciecircncias Exatas e Tecnoloacutegicas

Curso de Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo

Orientador Prof Dr Ivo Joseacute da Cunha Serra

Satildeo Luiacutes

2018

Leandro de Azevedo GonzalezRegressatildeo Logiacutestica e suas Aplicaccedilotildees Leandro de Azevedo Gonzalez ndash Satildeo Luiacutes

201845 p

Orientador Prof Dr Ivo Joseacute da Cunha Serra

Monografia (Graduaccedilatildeo) ndash Universidade Federal do MaranhatildeoCentro de Ciecircncias Exatas e TecnoloacutegicasCurso de Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2018

1 Mineraccedilatildeo de Dados 2 Regressatildeo Logiacutestica 2 Aplicaccedilotildees de RegressatildeoLogiacutestica I Ivo Joseacute da Cunha Serra II Universidade Federal do Maranhatildeo IIICiecircncia da Computaccedilatildeo IV Tiacutetulo

Aos meus pais

Agradecimentos

Em especial aos meus pais Lorenzo Gonzalez Ruiz e Erciacutelia Maria Menezes de

Azevedo que satildeo os maiores incentivadores dos meus estudos por todo o esforccedilo dedicado

para que eu tivesse uma boa educaccedilatildeo

Ao meu orientador professor Ivo Joseacute da Cunha Serra pela sua orientaccedilatildeo elogios

conselhos confianccedila e empenho depositados em mim e no desenvolvimento deste trabalho

Agradeccedilo tambeacutem aos professores Tiago e Samyr que gentilmente aceitaram o convite

para a Banca Examinadora deste trabalho

Ao corpo docente do curso de Ciecircncia da Computaccedilatildeo pelo ensino e contribuiccedilatildeo

para a minha formaccedilatildeo acadecircmica e agrave todos os professores pelos quais eu passei desde o

ensino infantil

Aos familiares e amigos que estiveram presentes durante este processo Aos cole-

gas discentes do curso de Ciecircncia da Computaccedilatildeo os quais dividimos as dificuldades e

compartilhamos o aprendizado

Resumo

Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados

teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de

padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa

a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica

nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do

modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo

da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os

quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma

forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da

probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem

para o mesmo

Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo

Logiacutestica

Abstract

Due to the increasing volume of computational data that is produced and stored data

mining techniques are becoming each more time more required to the search of relevant

information patterns in these large volumes This paper describes and analyses the logistic

regression which is a technique for data mining of categorical response in its binary and

multiple forms Methods are discussed both for the estimation of the regression model

and for the evaluation of the model generated Examples of the application of logistic

regression are presented in the financial environmental and epidemiological areas which

show the possible use of this technique in these different areas and stand out as a strong

tool of data analysis of categorical response which allows estimation of the probability of

occurrence of events as well as the evaluation of the contributing factors to them

Keywords Data Mining Logistic Regression Logistic Regression Applications

Lista de ilustraccedilotildees

Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25

Figura 5 ndash Componentes da mudanccedila ambiental global 32

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36

Lista de tabelas

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31

Tabela 2 ndash Uso e Cobertura do solo 33

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39

Lista de abreviaturas e siglas

BAP Bacia Hidrograacutefica do Alto Paraguai

OR Odds Ratio

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 3: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Leandro de Azevedo GonzalezRegressatildeo Logiacutestica e suas Aplicaccedilotildees Leandro de Azevedo Gonzalez ndash Satildeo Luiacutes

201845 p

Orientador Prof Dr Ivo Joseacute da Cunha Serra

Monografia (Graduaccedilatildeo) ndash Universidade Federal do MaranhatildeoCentro de Ciecircncias Exatas e TecnoloacutegicasCurso de Graduaccedilatildeo em Ciecircncia da Computaccedilatildeo 2018

1 Mineraccedilatildeo de Dados 2 Regressatildeo Logiacutestica 2 Aplicaccedilotildees de RegressatildeoLogiacutestica I Ivo Joseacute da Cunha Serra II Universidade Federal do Maranhatildeo IIICiecircncia da Computaccedilatildeo IV Tiacutetulo

Aos meus pais

Agradecimentos

Em especial aos meus pais Lorenzo Gonzalez Ruiz e Erciacutelia Maria Menezes de

Azevedo que satildeo os maiores incentivadores dos meus estudos por todo o esforccedilo dedicado

para que eu tivesse uma boa educaccedilatildeo

Ao meu orientador professor Ivo Joseacute da Cunha Serra pela sua orientaccedilatildeo elogios

conselhos confianccedila e empenho depositados em mim e no desenvolvimento deste trabalho

Agradeccedilo tambeacutem aos professores Tiago e Samyr que gentilmente aceitaram o convite

para a Banca Examinadora deste trabalho

Ao corpo docente do curso de Ciecircncia da Computaccedilatildeo pelo ensino e contribuiccedilatildeo

para a minha formaccedilatildeo acadecircmica e agrave todos os professores pelos quais eu passei desde o

ensino infantil

Aos familiares e amigos que estiveram presentes durante este processo Aos cole-

gas discentes do curso de Ciecircncia da Computaccedilatildeo os quais dividimos as dificuldades e

compartilhamos o aprendizado

Resumo

Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados

teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de

padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa

a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica

nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do

modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo

da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os

quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma

forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da

probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem

para o mesmo

Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo

Logiacutestica

Abstract

Due to the increasing volume of computational data that is produced and stored data

mining techniques are becoming each more time more required to the search of relevant

information patterns in these large volumes This paper describes and analyses the logistic

regression which is a technique for data mining of categorical response in its binary and

multiple forms Methods are discussed both for the estimation of the regression model

and for the evaluation of the model generated Examples of the application of logistic

regression are presented in the financial environmental and epidemiological areas which

show the possible use of this technique in these different areas and stand out as a strong

tool of data analysis of categorical response which allows estimation of the probability of

occurrence of events as well as the evaluation of the contributing factors to them

Keywords Data Mining Logistic Regression Logistic Regression Applications

Lista de ilustraccedilotildees

Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25

Figura 5 ndash Componentes da mudanccedila ambiental global 32

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36

Lista de tabelas

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31

Tabela 2 ndash Uso e Cobertura do solo 33

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39

Lista de abreviaturas e siglas

BAP Bacia Hidrograacutefica do Alto Paraguai

OR Odds Ratio

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 4: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Aos meus pais

Agradecimentos

Em especial aos meus pais Lorenzo Gonzalez Ruiz e Erciacutelia Maria Menezes de

Azevedo que satildeo os maiores incentivadores dos meus estudos por todo o esforccedilo dedicado

para que eu tivesse uma boa educaccedilatildeo

Ao meu orientador professor Ivo Joseacute da Cunha Serra pela sua orientaccedilatildeo elogios

conselhos confianccedila e empenho depositados em mim e no desenvolvimento deste trabalho

Agradeccedilo tambeacutem aos professores Tiago e Samyr que gentilmente aceitaram o convite

para a Banca Examinadora deste trabalho

Ao corpo docente do curso de Ciecircncia da Computaccedilatildeo pelo ensino e contribuiccedilatildeo

para a minha formaccedilatildeo acadecircmica e agrave todos os professores pelos quais eu passei desde o

ensino infantil

Aos familiares e amigos que estiveram presentes durante este processo Aos cole-

gas discentes do curso de Ciecircncia da Computaccedilatildeo os quais dividimos as dificuldades e

compartilhamos o aprendizado

Resumo

Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados

teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de

padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa

a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica

nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do

modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo

da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os

quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma

forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da

probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem

para o mesmo

Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo

Logiacutestica

Abstract

Due to the increasing volume of computational data that is produced and stored data

mining techniques are becoming each more time more required to the search of relevant

information patterns in these large volumes This paper describes and analyses the logistic

regression which is a technique for data mining of categorical response in its binary and

multiple forms Methods are discussed both for the estimation of the regression model

and for the evaluation of the model generated Examples of the application of logistic

regression are presented in the financial environmental and epidemiological areas which

show the possible use of this technique in these different areas and stand out as a strong

tool of data analysis of categorical response which allows estimation of the probability of

occurrence of events as well as the evaluation of the contributing factors to them

Keywords Data Mining Logistic Regression Logistic Regression Applications

Lista de ilustraccedilotildees

Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25

Figura 5 ndash Componentes da mudanccedila ambiental global 32

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36

Lista de tabelas

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31

Tabela 2 ndash Uso e Cobertura do solo 33

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39

Lista de abreviaturas e siglas

BAP Bacia Hidrograacutefica do Alto Paraguai

OR Odds Ratio

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 5: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Agradecimentos

Em especial aos meus pais Lorenzo Gonzalez Ruiz e Erciacutelia Maria Menezes de

Azevedo que satildeo os maiores incentivadores dos meus estudos por todo o esforccedilo dedicado

para que eu tivesse uma boa educaccedilatildeo

Ao meu orientador professor Ivo Joseacute da Cunha Serra pela sua orientaccedilatildeo elogios

conselhos confianccedila e empenho depositados em mim e no desenvolvimento deste trabalho

Agradeccedilo tambeacutem aos professores Tiago e Samyr que gentilmente aceitaram o convite

para a Banca Examinadora deste trabalho

Ao corpo docente do curso de Ciecircncia da Computaccedilatildeo pelo ensino e contribuiccedilatildeo

para a minha formaccedilatildeo acadecircmica e agrave todos os professores pelos quais eu passei desde o

ensino infantil

Aos familiares e amigos que estiveram presentes durante este processo Aos cole-

gas discentes do curso de Ciecircncia da Computaccedilatildeo os quais dividimos as dificuldades e

compartilhamos o aprendizado

Resumo

Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados

teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de

padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa

a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica

nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do

modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo

da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os

quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma

forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da

probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem

para o mesmo

Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo

Logiacutestica

Abstract

Due to the increasing volume of computational data that is produced and stored data

mining techniques are becoming each more time more required to the search of relevant

information patterns in these large volumes This paper describes and analyses the logistic

regression which is a technique for data mining of categorical response in its binary and

multiple forms Methods are discussed both for the estimation of the regression model

and for the evaluation of the model generated Examples of the application of logistic

regression are presented in the financial environmental and epidemiological areas which

show the possible use of this technique in these different areas and stand out as a strong

tool of data analysis of categorical response which allows estimation of the probability of

occurrence of events as well as the evaluation of the contributing factors to them

Keywords Data Mining Logistic Regression Logistic Regression Applications

Lista de ilustraccedilotildees

Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25

Figura 5 ndash Componentes da mudanccedila ambiental global 32

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36

Lista de tabelas

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31

Tabela 2 ndash Uso e Cobertura do solo 33

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39

Lista de abreviaturas e siglas

BAP Bacia Hidrograacutefica do Alto Paraguai

OR Odds Ratio

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 6: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Resumo

Devido ao crescente volume de dados computacionais que satildeo produzidos e armazenados

teacutecnicas de mineraccedilatildeo de dados tornam-se cada vez mais necessaacuterias para a procura de

padrotildees relevantes de informaccedilotildees nestes grandes volumes Este trabalho descreve e analisa

a regressatildeo logiacutestica que eacute uma teacutecnica para mineraccedilatildeo de dados de resposta categoacuterica

nas suas formas binaacuteria e muacuteltipla Satildeo discutidos meacutetodos tanto para a estimaccedilatildeo do

modelo de regressatildeo como para a avaliaccedilatildeo do modelo gerado Exemplos de aplicaccedilatildeo

da regressatildeo logiacutestica satildeo apresentados na aacuterea financeira ambiental e epidemioloacutegica os

quais mostram o possiacutevel uso desta teacutecnica nestas diferentes aacutereas e a destacam como uma

forte ferramenta de anaacutelise de dados de resposta categoacuterica que possibilita a estimaccedilatildeo da

probabilidade de ocorrecircncia de eventos assim como a avaliaccedilatildeo dos fatores que contribuem

para o mesmo

Palavras-chave Mineraccedilatildeo de Dados Regressatildeo Logiacutestica Aplicaccedilotildees de Regressatildeo

Logiacutestica

Abstract

Due to the increasing volume of computational data that is produced and stored data

mining techniques are becoming each more time more required to the search of relevant

information patterns in these large volumes This paper describes and analyses the logistic

regression which is a technique for data mining of categorical response in its binary and

multiple forms Methods are discussed both for the estimation of the regression model

and for the evaluation of the model generated Examples of the application of logistic

regression are presented in the financial environmental and epidemiological areas which

show the possible use of this technique in these different areas and stand out as a strong

tool of data analysis of categorical response which allows estimation of the probability of

occurrence of events as well as the evaluation of the contributing factors to them

Keywords Data Mining Logistic Regression Logistic Regression Applications

Lista de ilustraccedilotildees

Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25

Figura 5 ndash Componentes da mudanccedila ambiental global 32

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36

Lista de tabelas

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31

Tabela 2 ndash Uso e Cobertura do solo 33

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39

Lista de abreviaturas e siglas

BAP Bacia Hidrograacutefica do Alto Paraguai

OR Odds Ratio

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 7: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Abstract

Due to the increasing volume of computational data that is produced and stored data

mining techniques are becoming each more time more required to the search of relevant

information patterns in these large volumes This paper describes and analyses the logistic

regression which is a technique for data mining of categorical response in its binary and

multiple forms Methods are discussed both for the estimation of the regression model

and for the evaluation of the model generated Examples of the application of logistic

regression are presented in the financial environmental and epidemiological areas which

show the possible use of this technique in these different areas and stand out as a strong

tool of data analysis of categorical response which allows estimation of the probability of

occurrence of events as well as the evaluation of the contributing factors to them

Keywords Data Mining Logistic Regression Logistic Regression Applications

Lista de ilustraccedilotildees

Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25

Figura 5 ndash Componentes da mudanccedila ambiental global 32

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36

Lista de tabelas

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31

Tabela 2 ndash Uso e Cobertura do solo 33

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39

Lista de abreviaturas e siglas

BAP Bacia Hidrograacutefica do Alto Paraguai

OR Odds Ratio

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 8: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Lista de ilustraccedilotildees

Figura 1 ndash Graacutefico da funccedilatildeo logit(p) 17

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p) 18

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado 19

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell 25

Figura 5 ndash Componentes da mudanccedila ambiental global 32

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000 35

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados 36

Lista de tabelas

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31

Tabela 2 ndash Uso e Cobertura do solo 33

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39

Lista de abreviaturas e siglas

BAP Bacia Hidrograacutefica do Alto Paraguai

OR Odds Ratio

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 9: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Lista de tabelas

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo 31

Tabela 2 ndash Uso e Cobertura do solo 33

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico 36

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo 39

Lista de abreviaturas e siglas

BAP Bacia Hidrograacutefica do Alto Paraguai

OR Odds Ratio

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 10: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Lista de abreviaturas e siglas

BAP Bacia Hidrograacutefica do Alto Paraguai

OR Odds Ratio

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 11: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Sumaacuterio

1 INTRODUCcedilAtildeO 12

11 Objetivos 13

111 Objetivos Especiacuteficos 13

12 Organizaccedilatildeo do Trabalho 13

2 REGRESSAtildeO LOGIacuteSTICA 14

21 Definiccedilatildeo 15

22 A Funccedilatildeo Logit 16

23 Regressatildeo Logiacutestica Binaacuteria 19

231 Estimando os coeficientes do modelo de regressatildeo 20

24 Regressatildeo Logiacutestica Muacuteltipla 21

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico 23

251 Teste da Razatildeo de Verossimilhanccedila 23

252 Teste de Wald 24

253 Pseudo R2 de Cox e Snell 24

26 Consideraccedilotildees Finais 25

3 APLICACcedilOtildeES DE REGRESSAtildeO LOGIacuteSTICA 27

31 Gestatildeo de creacutedito 27

311 Risco de creacutedito 28

312 Regressatildeo logiacutestica para anaacutelise de creacutedito 28

313 Aplicaccedilatildeo Exemplo 30

32 Anaacutelise ambiental 31

321 Regressatildeo logiacutestica na anaacutelise ambiental 34

322 Aplicaccedilatildeo Exemplo 35

33 Oacutebito Neonatal 37

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal 38

332 Aplicaccedilatildeo Exemplo 38

34 Consideraccedilotildees Finais 40

4 CONCLUSAtildeO 41

REFEREcircNCIAS 43

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 12: Leandro de Azevedo Gonzalez - Biblioteca Digital de

12

1 Introduccedilatildeo

O presente trabalho apresenta a regressatildeo logiacutestica que consiste em uma teacutecnica

de mineraccedilatildeo de dados A mineraccedilatildeo de dados eacute uma ferramenta de apoio para tomada

de decisatildeo baseada em dados computacionais dos quais pretende-se extrair informaccedilotildees

relevantes de uma grande base de dados de forma a buscar vantagens competitivas ou

elaboraccedilatildeo de estrateacutegia

Estes conjuntos de grandes volumes de dados representam um custo tanto de

armazenamento quanto de processamento portanto eacute possiacutevel afirmar que a ideia de

adquirir conhecimento automaticamente destes grandes volumes atraveacutes da mineraccedilatildeo de

dados eacute altamente beneacutefico

Este processo pode empregar algoritmos de inteligecircncia artificial anaacutelise estatiacutestica

recuperaccedilatildeo de informaccedilatildeo reconhecimento de padrotildees e outros Segundo Hosmer e

Lemeshow (2000) meacutetodos de regressatildeo tem se tornado um componente integral para

qualquer anaacutelise de dados interessada em descrever a relaccedilatildeo entre uma variaacutevel resposta

(dependente) e uma ou mais variaacuteveis explicativas (independentes)

A principal diferenccedila da regressatildeo logiacutestica para a regressatildeo linear eacute que a variaacutevel

dependente na regressatildeo logiacutestica eacute categoacuterica e de acordo com Agresti (2002) o modelo

de regressatildeo logiacutestica eacute o modelo mais importante para dados de resposta categoacuterica

Aleacutem da variaacutevel dependente ser categoacuterica ela eacute frequentemente binaacuteria (dicotocirc-

mica) assumindo portanto dois valores que satildeo normalmente tratados como ldquosucessordquo

ou ldquofracassordquo Estes dois valores representam um evento que depende do estudo de caso

podendo ser por exemplo ou a concessatildeo ou a natildeo concessatildeo de creacutedito na aacuterea financeira

ou a presenccedila ou a natildeo presenccedila de uma doenccedila nos estudos epidemioloacutegicos ou a compra

ou a natildeo compra de um determinado produto na aacuterea de marketing entre outras diversas

possibilidades

Aplicaccedilotildees de anaacutelise de creacutedito por exemplo podem utilizar a regressatildeo logiacutestica

para calcular a probabilidade de um indiviacuteduo ser merecedor da concessatildeo de creacutedito

Informaccedilotildees pessoais como salaacuterio emprego tipo de moradia satildeo exemplos de possiacuteveis

variaacuteveis que podem ser levadas em consideraccedilatildeo Isto permite natildeo apenas a estimaccedilatildeo

dessa probabilidade mas tambeacutem como traccedilar o perfil de um bom ou mau pagador

Haacute diversas teacutecnicas de mineraccedilatildeo de dados cada uma com suas particularidades

a escolha da tarefa a ser utilizada eacute um importante passo para a obtenccedilatildeo de resultados

satisfatoacuterios dentro de um determinado estudo isto soacute eacute possiacutevel com a compreensatildeo da

mesma e de sua capacidade

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 13: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 1 Introduccedilatildeo 13

Seraacute abordado neste trabalho a teacutecnica da regressatildeo logiacutestica seus conceitos como

eacute definido o modelo de regressatildeo logiacutestica e como seus coeficientes satildeo calculados aleacutem de

meacutetodos que avaliam a qualidade do modelo obtido e exemplos de aplicaccedilotildees em diferentes

domiacutenios nos quais esta teacutecnica pode ser aplicada

11 Objetivos

O objetivo geral deste trabalho eacute descrever o meacutetodo de regressatildeo logiacutestica como

ferramenta de anaacutelise de dados de resposta categoacuterica e discutir possiacuteveis usos por meio

de exemplos de aplicaccedilotildees

111 Objetivos Especiacuteficos

Dentro do objetivo geral busca-se atender aos seguintes objetivos especiacuteficos

bull Apresentar o meacutetodo de regressatildeo logiacutestica e seus conceitos

bull Descrever as etapas do meacutetodo de regressatildeo logiacutestica

bull Discutir exemplos de aplicaccedilotildees da regressatildeo logiacutestica na aacuterea financeira ambiental

e epidemioloacutegica apontando seus resultados

12 Organizaccedilatildeo do Trabalho

O restante deste trabalho estaacute organizado da seguinte maneira O capiacutetulo 2

apresenta conceitos da regressatildeo logiacutestica sua definiccedilatildeo os dois tipos de regressatildeo logiacutestica

a serem abordados (binaacuteria e muacuteltipla) e as etapas do processo da anaacutelise de regressatildeo

O capiacutetulo 3 apresenta as aacutereas de gestatildeo de creacutedito anaacutelise ambiental e oacutebito

neonatal e nele eacute discutido a aplicabilidade da regressatildeo logiacutestica em cada uma destas

aacutereas

Por fim o capiacutetulo 4 traz a conclusatildeo deste trabalho nele eacute feito um resumo do

que foi apresentado assim como eacute abordado as contribuiccedilotildees e relevacircncia do tema tratado

e as consideraccedilotildees finais

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 14: Leandro de Azevedo Gonzalez - Biblioteca Digital de

14

2 Regressatildeo Logiacutestica

A mineraccedilatildeo de dados eacute o processo de descoberta automaacutetica de informaccedilotildees uacuteteis

em grandes depoacutesitos de dados As teacutecnicas de mineraccedilatildeo de dados satildeo organizadas para

agir sobre grandes bancos de dados com o intuito de descobrir padrotildees uacuteteis que poderiam

de outra forma permanecer ignorados (TAN STEINBACH KUMAR 2009)

Entre as tarefas de mineraccedilatildeo de dados estaacute a tarefa de previsatildeo que consiste

em prever o valor de um atributo com base nos valores de outros atributos Eacute denotado

de variaacutevel dependente ou variaacutevel resposta o atributo que se quer prever Os atributos

preditores ou seja aqueles usados para fazer a previsatildeo satildeo chamados de variaacuteveis

independentes ou explicativas

A modelagem de previsatildeo se refere agrave tarefa de construir um modelo para a variaacutevel

dependente em funccedilatildeo das variaacuteveis independentes A regressatildeo logiacutestica eacute uma das teacutecnicas

que faz esta modelagem de previsatildeo cuja principal caracteriacutestica eacute o fato de sua variaacutevel

dependente ser categoacuterica e geralmente binaacuteria (dicotocircmica) representando por exemplo

1 ou 0 sim ou natildeo falha ou sucesso uma pessoa ter cacircncer ou natildeo ter cacircncer ou seja

indicando dois possiacuteveis valores ou categorias

A regressatildeo logiacutestica difere de outras teacutecnicas de mineraccedilatildeo principalmente pelo

fato de sua variaacutevel dependente ser categoacuterica e mesmo quando ela natildeo eacute dicotocircmica

eacute possiacutevel tornaacute-la dicotocircmica com a finalidade de aplicar esta teacutecnica Em relaccedilatildeo as

variaacuteveis independentes estas podem ser categoacutericas ou meacutetricas

Eacute uma teacutecnica que avalia a probabilidade de obtenccedilatildeo de uma das categorias

da variaacutevel dependente portanto eacute capaz de obter a probabilidade de ocorrecircncia de

determinado evento assim como a influecircncia de cada variaacutevel independente no evento

estudado

Mesquita (2014) observa que embora a regressatildeo logiacutestica fosse inicialmente utili-

zada para aacuterea meacutedica a eficiecircncia desta teacutecnica viabilizou sua implementaccedilatildeo nas mais

diversas aacutereas do conhecimento desde ciecircncias meacutedicas a estudo de mercado intenccedilatildeo de

voto avaliaccedilatildeo de creacutedito e outras expandindo assim sua aceitaccedilatildeo entre os usuaacuterios de

outras teacutecnicas de mineraccedilatildeo se tornando uma ferramenta poderosa para anaacutelise de dados

categoacutericos

Neste capiacutetulo seratildeo abordados dois tipos de regressatildeo logiacutestica a regressatildeo logiacutestica

binaacuteria e a muacuteltipla Veremos como obter os paracircmetros essenciais para o modelo logiacutestico

e quais os testes que avaliam a significatildencia de um modelo estimado

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 15: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 2 Regressatildeo Logiacutestica 15

21 Definiccedilatildeo

A regressatildeo logiacutestica eacute uma teacutecnica estatiacutestica que tem como objetivo produzir

a partir de um conjunto de observaccedilotildees um modelo que permita a prediccedilatildeo de valores

tomados por uma variaacutevel categoacuterica frequentemente binaacuteria em funccedilatildeo de uma ou mais

variaacuteveis independentes contiacutenuas eou binaacuterias

Entatildeo a partir desse modelo gerado eacute possiacutevel calcular ou prever a probabilidade

de um evento ocorrer dado uma observaccedilatildeo aleatoacuteria

Suponha que queira-se analisar a ocorrecircncia da apneia do sono que eacute um distuacuterbio

do sono potencialmente grave em que a pessoa para de respirar por alguns segundos

diversas vezes durante a noite Existem vaacuterios fatores que podem influenciar nesse distuacuterbio

mas para este exemplo vamos considerar apenas dois idade e peso Digamos que para

esta anaacutelise tenhamos uma amostra de cem indiviacuteduos contendo a idade o peso e se ele

tem apneia ou natildeo este eacute o nosso conjunto de observaccedilotildees A variaacutevel dependente eacute a

ocorrecircncia ou natildeo da apneia do sono ter apneia eacute igual a 1 natildeo ter apneia eacute igual a 0 As

variaacuteveis independentes satildeo a idade e o peso Para este exemplo o que a regressatildeo logiacutestica

propotildee eacute que a partir dessas informaccedilotildees eacute possiacutevel gerar um modelo logiacutestico que possa

prever a probabilidade de uma pessoa ter apneia do sono baseando-se no peso e idade

desta pessoa Mas como veremos a seguir este eacute apenas um dos objetivos da regressatildeo

logiacutestica

O modelo de regressatildeo logiacutestica permite

bull modelar a probabilidade de um evento ocorrer dependendo dos valores das variaacuteveis

independentes que podem ser categoacutericas ou contiacutenuas

Entatildeo digamos que a partir do modelo logiacutestico gerado do problema da apneia do

sono queiramos saber qual a probabilidade de um indiviacuteduo de 50 anos e 120 quilos

ter ou vir a desenvolver a apneia do sono Ao inserir os dados no modelo o resultado

seraacute um valor entre 0 e 1 que representa esta probabilidade Suponhamos que o valor

seja 075 assim uma pessoa de 50 anos e 120 quilos tem 75 de probabilidade de

ter apneia do sono

bull estimar a probabilidade de um evento ocorrer para uma observaccedilatildeo selecionada

aleatoriamente contra a probabilidade do evento natildeo ocorrer

Se uma pessoa de 50 anos e 120 quilos tem probabilidade p = 0 75 de ter apneia

A probabilidade de natildeo ter apneia eacute 1 minus p logo 1 minus p = 0 25 A probabilidade de

um evento ocorrer contra ele natildeo ocorrer eacute uma razatildeo de probabilidadesp

1 minus pque

eacute chamada de chance Assim temos0 750 25

= 3 isto significa que uma pessoa nessas

caracteriacutesticas tem 3 vezes mais chance de ter apneia do sono do que de natildeo ter

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 16: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 2 Regressatildeo Logiacutestica 16

bull prever o efeito do conjunto de variaacuteveis sobre a variaacutevel dependente binaacuteria

Atraveacutes da anaacutelise de regressatildeo logiacutestica pode-se concluir por exemplo que a variaacutevel

peso eacute bastante significativa para o modelo de regressatildeo enquanto que a variaacutevel

idade natildeo contribui tanto para a eficaacutecia do mesmo

bull classificar observaccedilotildees estimando a probabilidade de uma observaccedilatildeo estar em uma

categoria determinada

A anaacutelise de regressatildeo logiacutestica pode informar por exemplo que indiviacuteduos obesos

ou acima de uma determinada idade podem ser mais propensos agrave esse distuacuterbio

A variaacutevel dependente Y na regressatildeo logiacutestica eacute frequentemente binaacuteria logo nestes

casos ela segue a distribuiccedilatildeo de Bernoulli (BELFIORE 2015) tendo uma probabilidade

desconhecida p Lembrando que a distribuiccedilatildeo de Bernoulli eacute apenas um caso especial da

distribuiccedilatildeo binomial onde n=1 (considera a realizaccedilatildeo de um uacutenico experimento)

Y =

1 se ocorrer sucesso

0 se ocorrerfracasso

A probabilidade de sucesso eacute 0 le p le 1 e a probabilidade de fracasso eacute q = 1 minus p

Na regressatildeo logiacutestica eacute feita a estimaccedilatildeo da probabilidade desconhecida p dado uma

combinaccedilatildeo linear de variaacuteveis independentes

22 A Funccedilatildeo Logit

Na seccedilatildeo anterior foi dito que a variaacutevel dependente na regressatildeo logiacutestica segue

a distribuiccedilatildeo de Bernoulli portanto eacute preciso conectar as variaacuteveis independentes agrave

distribuiccedilatildeo Bernoulli presente na variaacutevel dependente e esse link eacute chamado de logit Na

regressatildeo logiacutestica noacutes natildeo conhecemos a probabilidade p como eacute o padratildeo nos problemas

de distribuiccedilatildeo de Bernoulli Logo o objetivo do modelo logiacutestico eacute estimar p para uma

combinaccedilatildeo linear das variaacuteveis independentes O p estimado eacute p

Para ligar a combinaccedilatildeo linear de variaacuteveis agrave distribuiccedilatildeo de Bernoulli eacute necessaacuterio

uma funccedilatildeo que as una ou mapeie a combinaccedilatildeo linear de variaacuteveis que poderiam retornar

qualquer valor em uma distribuiccedilatildeo de probabilidades bernoulli com um domiacutenio de 0 a 1

A razatildeo de probabilidade eacute chamada de chance ou odds em inglecircs e seu logaritmo natural

o logit eacute esta funccedilatildeo representada na equaccedilatildeo 21

ln(odds) rArr ln

(

p

1 minus p

)

(21)

Fonte Adaptado de (POWERS XIE 1999)

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 17: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 2 Regressatildeo Logiacutestica 17

Figura 1 ndash Graacutefico da funccedilatildeo logit(p)

Fonte Produzido pelo autor

Pelo graacutefico da funccedilatildeo logit na Figura 1 eacute possiacutevel compreendecirc-la melhor A funccedilatildeo

vai a 0 mas natildeo chega a tocar o eixo y e o mesmo ocorre quando ela vai a 1 O que fica

comprovado quando substituiacutemos os valores na equaccedilatildeo Quando p = 0 ln(01) = ln(0) =

indefinido Quando p = 1 ln(10) eacute indefinido tambeacutem Ou seja a funccedilatildeo estaacute dentro

desse intervalo de 0 a 1 e quando estamos lidando com probabilidade isto eacute algo muito

uacutetil pois a probabilidade tambeacutem eacute representada por valores dentro desse domiacutenio Deste

modo pela funccedilatildeo logiacutestica nunca poderaacute se obter uma probabilidade superior a 100 ou

inferior a 0

Observando ainda a Figura 1 vejamos que quando p = 05 a funccedilatildeo eacute 0 Substituindo

o valor de p na funccedilatildeo ln(0505) = ln(1) = 0 Isso significa que quando as probabilidades

satildeo iguais a chance(razatildeo de probabilidades) eacute 1 e que o logit eacute 0

No graacutefico da funccedilatildeo logit os valores entre 0 e 1 percorreram o eixo x mas

queremos que as probabilidades estejam no eixo y Isto pode ser obtido atraveacutes da inversa

da funccedilatildeo logit A partir da equaccedilatildeo(21) temos

logitminus1(α) =1

1 + eminusα=

1 + eα(22)

Adaptado de (MESQUITA 2014)

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 18: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 2 Regressatildeo Logiacutestica 18

α = combinaccedilatildeo linear

No modelo de regressatildeo logiacutestica α seraacute a combinaccedilatildeo linear das variaacuteveis e seus

coeficientes A inversa da funccedilatildeo logit retornaraacute a probabilidade da variaacutevel dependente Y

ser igual a 1 (o evento tal qual Y = 1 eacute tratado como o evento de interesse)

Figura 2 ndash Graacutefico da funccedilatildeo inversa do logit(p)

Fonte Produzido pelo autor

Na figura 2 observa-se que o graacutefico da inversa do logit eacute o mesmo do logit apenas

90 graus invertido Foi efetuada basicamente uma troca das coordenadas x e y agora ao

inveacutes de ter o domiacutenio da funccedilatildeo de 0 a 1 no eixo x temos o domiacutenio de 0 a 1 no eixo y

A representaccedilatildeo graacutefica da funccedilatildeo inversa do logit na Figura 2 assume a forma

parecida com um S tambeacutem chamada de curva sigmoacuteide havendo aacutereas onde a mudanccedila

eacute acentuada e onde ela nem ocorre As aacutereas onde pequenas variaccedilotildees nos valores de x

causam grandes mudanccedilas em valores de y representam aacutereas de maior probabilidade de

mudanccedila de estado da variaacutevel y em funccedilatildeo de x

Na figura 3 mostra-se o que seria um graacutefico de pontos de dispersatildeo da relaccedilatildeo

entre uma variaacutevel independente e a variaacutevel dependente na regressatildeo logiacutestica Os pontos

que indicam a ocorrecircncia e os pontos que indicam a natildeo ocorrecircncia do determinado evento

aparentam estar separados em grupos bem distintos e satildeo poucos os pontos que aparecem

sobrepostos Eacute possiacutevel observar como este graacutefico se assemelha a curva da funccedilatildeo da

inversa do logit na Figura 2

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 19: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 2 Regressatildeo Logiacutestica 19

Figura 3 ndash Graacutefico de pontos de dispersatildeo desejado

Fontelthttpsgooglnwec4Qgt

23 Regressatildeo Logiacutestica Binaacuteria

A regressatildeo logiacutestica binaacuteria ou univariada representa os casos de regressatildeo logiacutestica

em que a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e

tem apenas uma variaacutevel independente Tomemos como exemplo um estudo de dosagens

de determinada substacircncia para a eutanaacutesia de um animal A variaacutevel dependente eacute

dicotocircmica sendo 1 para a morte do animal e 0 para a natildeo ocorrecircncia da morte E

neste caso temos apenas uma variaacutevel independente contiacutenua que seria a dose em ml por

exemplo

Digamos entatildeo que

g(x) = β0 + β1x1 (23)

Fonte (FIGUEIRA 2006)

seja a funccedilatildeo linear das variaacuteveis independentes sendo que β0 e β1 satildeo os coeficientes

e x1 eacute a uacutenica variaacutevel independente por se tratar da regressatildeo logiacutestica univariada

Vejamos novamente a equaccedilatildeo logit(21) igualando agrave funccedilatildeo g(x)

ln

(

p

1 minus p

)

= β0 + β1x1

Entretanto o objetivo do modelo logiacutestico eacute estimar p logo eacute necessaacuterio isolar p

Pra isso utiliza-se o antilogaritmo

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 20: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 2 Regressatildeo Logiacutestica 20

p

1 minus p= eβ0+β1

Seguindo com o procedimento para isolar p obtemos

p =eβ0+β1x1

1 + eβ0+β1x1

=1

1 + eminus(β0+β1x1)(24)

Fonte Adaptado de (MESQUITA 2014)

A equaccedilatildeo 24 eacute chamada de equaccedilatildeo de regressatildeo estimada e eacute essencialmente a

funccedilatildeo que representa o objetivo do modelo de regressatildeo logiacutestica pois p eacute a probabilidade

estimada para quaisquer valores de coeficientes e variaacuteveis que venhamos a colocar nesta

equaccedilatildeo Os valores dos coeficientes satildeo obtidos pelo meacutetodo de estimaccedilatildeo da maacutexima

verossimilhanccedila conforme explicado na subseccedilatildeo seguinte

231 Estimando os coeficientes do modelo de regressatildeo

Para ajustar um modelo de regressatildeo eacute necessaacuterio estimar os paracircmetros β0 e β1

do modelo Para isso utiliza-se o meacutetodo de estimaccedilatildeo da maacutexima verossimilhanccedila A

partir dos dados da amostra ou seja o conjunto de observaccedilotildees este meacutetodo iraacute procurar

os estimadores para o modelo de regressatildeo logiacutestica que satildeo os valores de β0 e β1 que

maximizam o logaritmo da funccedilatildeo de maacutexima verossimilhanccedila A estimaccedilatildeo por maacutexima

verossimilhanccedila permite encontrar os estimadores dos paracircmetros do modelo que tem

maior probabilidade de replicar o padratildeo de observaccedilotildees nos dados da amostra

Seja β = (β0 β1) o vetor de coeficientes e sejam as probabilidades P (yi = 1|xi) =

π(xi) e P (yi = 0|xi) = 1minusπ(xi) Entatildeo para os pares (xi yi) tais que yi = 1 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute π(xi) e para os pares tais que yi = 0 a contribuiccedilatildeo

para a funccedilatildeo de verossimilhanccedila eacute 1 minus π(xi) onde π(xi) denota o valor de π(x) avaliado

em xi

As equaccedilotildees de 25 agrave 28 foram retiradas de (FIGUEIRA 2006) A funccedilatildeo de

verossimilhanccedila eacute

L(β) =nprod

i=1

π(xi)yi [1 minus π(xi)]1minusyi (25)

Aplicando-se o logaritmo natural em ambos os lados da equaccedilatildeo obtemos a funccedilatildeo

log-verossimilhanccedila

l(β) = ln[L(β)] =nsum

i=1

[yi ln π(xi) + (1 minus yi) ln(1 minus π(xi))] (26)

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 21: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 2 Regressatildeo Logiacutestica 21

O valor β que maximiza ln[L(β)] eacute obtido apoacutes derivar l(β) em relaccedilatildeo aos paracirc-

metros (β0 β1)

part ln[L(β)]partβ0

=nsum

i=1

[yi minus π(xi)] (27)

part ln[L(β)]partβ1

=nsum

i=1

xi[yi minus π(xi)] (28)

Os estimadores de (β0 β1) denotados por (β0 β1) satildeo as soluccedilotildees das equaccedilotildees

(27) e (28) quando igualadas a 0 Estes estimadores dos paracircmetros medem a taxa de

variaccedilatildeo do logit para uma unidade de variaccedilatildeo na variaacutevel independente isto significa

que eles satildeo de fato a inclinaccedilatildeo da linha de regressatildeo entre a variaacutevel dependente yi e a

sua variaacutevel independente xi

As foacutermulas matemaacuteticas permitem aos programas de regressatildeo logiacutestica identificar

mais eficazmente os estimadores que maximizam a funccedilatildeo log-verossimilhanccedila Dado

que estas equaccedilotildees satildeo natildeo-lineares nos paracircmetros eacute necessaacuterio a utilizaccedilatildeo de um

procedimento iterativo como o Newton-Raphson Este algoritmo escolhe sucessivamente

novos conjuntos de paracircmetros que produzam maiores log-verossimilhanccedila e melhores

ajustamentos aos dados observados O processo continua atraveacutes iteraccedilotildees ou ciclos

repetitivos ateacute a maximizaccedilatildeo da funccedilatildeo log-verossimilhanccedila

Durante muitos anos a estimaccedilatildeo por maacutexima verossimilhanccedila natildeo foi utilizada

por natildeo existirem recursos computacionais que pudessem realizar caacutelculos altamente

complexos Hoje estes caacutelculos podem ser realizados atraveacutes de programas estatiacutesticos

como SPSS1 SAS2 entre outros

24 Regressatildeo Logiacutestica Muacuteltipla

A regressatildeo logiacutestica muacuteltipla representa o contexto da regressatildeo logiacutestica em que

a variaacutevel dependente Y eacute binaacuteria ou dicotocircmica ou seja tem duas categorias e que haacute

mais de uma variaacutevel independente Utilizando o exemplo citado na seccedilatildeo 23 temos que a

variaacutevel dependente eacute a ocorrecircncia da morte ou natildeo de um animal e a variaacutevel independente

eacute a dose aplicada para a eutanaacutesia se adicionarmos uma variaacutevel independente como o

peso do animal este caso deixa de ser regressatildeo logiacutestica binaacuteria e passa a ser de regressatildeo

logiacutestica muacuteltipla

Haacute uma semelhanccedila grande com o que foi visto na seccedilatildeo anterior e de fato essa

semelhanccedila reflete nos modelos de paracircmetros jaacute mencionados portanto nesta seccedilatildeo seraacute1 lthttpswwwibmcombr-ptmarketplacespss-statisticsproduct-header-topgt2 lthttpswwwsascompt_brexploreanalytics-in-actionhtmlgt

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 22: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 2 Regressatildeo Logiacutestica 22

apenas alterado as equaccedilotildees jaacute mencionadas na regressatildeo logiacutestica binaacuteria agora de acordo

com as caracteriacutesticas da regressatildeo logiacutestica muacuteltipla poreacutem as suas funcionalidades para

o modelo logiacutestico satildeo as mesmas Podemos considerar entatildeo a regressatildeo logiacutestica muacuteltipla

como uma generalizaccedilatildeo da regressatildeo logiacutestica binaacuteria

Dado que neste contexto haacute um conjunto de variaacuteveis independentes vamos

considerar este conjunto denotado por X = (x1 x2 xt)

Equaccedilotildees de 29 agrave 211 retiradas de (BATISTA 2015) A combinaccedilatildeo linear para

este conjunto de variaacuteveis eacute definida como

g(x) = β0 + β1x1 + β2x2 + + βtxt (29)

Logo o logit quando igualado agrave g(x) eacute descrito na equaccedilatildeo

ln

(

p

1 minus p

)

= β0 + β1x1 + β2x2 + + βtxt (210)

Assim como na regressatildeo logiacutestica binaacuteria no caso muacuteltiplo utiliza-se o antiloga-

ritmo na equaccedilatildeo 210 para fins de isolar p obtendo assim o modelo de regressatildeo logiacutestica

muacuteltipla para a probabilidade estimada p

p =eβ0+β1x1+β2x2++βtxt

1 + eβ0+β1x1+β2x2++βtxt

=1

1 + eminus(β0+β1x1+β2x2++βtxt)(211)

A funccedilatildeo de verossimilhanccedila eacute a mesma da equaccedilatildeo (25) com a diferenccedila de que

π(xi) eacute dado como π(i) em funccedilatildeo da equaccedilatildeo 29 representando o conjunto de variaacuteveis

independentes em g(x) e seus respectivos coeficientes Logo a funccedilatildeo log-verossimilhanccedila

eacute obtida como

l(β) =nsum

i=1

[yi ln πi + (1 minus yi) ln(1 minus πi)] (212)

As expressotildees das equaccedilotildees a partir das derivadas parciais satildeo definidas pelas

equaccedilotildees 212 e 213

partl(β)partβ0

=nsum

i=1

yi minusnsum

i=1

πi = 0 (213)

partl(β)partβj

=nsum

i=1

xijyi minusnsum

i=1

xijπi = 0 para j isin 1 t (214)

Equaccedilotildees de 212 agrave 214 retiradas de (FIGUEIRA 2006)

πi eacute o estimador de πi pelo meacutetodo da maacutexima verossimilhanccedila

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 23: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 2 Regressatildeo Logiacutestica 23

25 Meacutetodos de avaliaccedilatildeo do modelo logiacutestico

Apoacutes estimar os coeficientes temos interesse em assegurar a significacircncia das

variaacuteveis no modelo Isto geralmente envolve formulaccedilatildeo e teste de uma hipoacutetese estatiacutestica

para determinar se as variaacuteveis independentes no modelo satildeo significativamente relacionadas

com a variaacutevel dependente Para isto haacute testes para avaliar o modelo logiacutestico Os testes

mais utilizados satildeo os testes da Razatildeo da Verossimilhanccedila o teste de Wald e Pseudo R2

de Cox e Snell (HOSMER LEMESHOW 2000 CRAMER 2003 COX SNELL 1989)

Veremos a seguir cada um deles

251 Teste da Razatildeo de Verossimilhanccedila

Uma vez ajustado o modelo eacute necessaacuterio testar a significacircncia do modelo estimado

Isto pode ser feito atraveacutes do teste da razatildeo de verossimilhanccedila

Esta medida testa simultaneamente se os coeficientes de regressatildeo associados a

β satildeo todos nulos com exceccedilatildeo de β0 As equaccedilotildees de 215 agrave 217 foram adaptadas de

(CABRAL 2013) A comparaccedilatildeo entre os valores observados e esperados usando a funccedilatildeo

de verossimilhanccedila eacute expressa da seguinte forma

D = minus2 ln

[

verossimilhanccedila do modelo ajustadoverossimilhanccedila do modelo saturado

]

(215)

D = minus2nsum

i=1

[

yi ln

(

πi

yi

)

+ (1 minus yi) ln

(

1 minus πi

1 minus yi

)]

(216)

O modelo eacute dito saturado se contem todas as variaacuteveis enquanto o modelo ajustado

corresponde ao modelo apenas com as variaacuteveis desejadas para o estudo Esta funccedilatildeo D

tambeacutem chamada de deviance (desvio) sempre eacute positiva e quanto menor melhor eacute o

ajuste do modelo

Queremos testar as hipoacuteteses

H0 β1 = = βt = 0 vs H1 existj=1p βj 6= 0

Assim na hipoacutetese nula H0 a ser testada os paracircmetros do modelo seratildeo igualados

a 0 O modelo saturado que manteacutem o valor de seus coeficientes representaraacute a hipoacutetese

alternativa H1

Para estimar a significacircncia de uma variaacutevel independente comparam-se o valor de

D com e sem variaacutevel independente na equaccedilatildeo A alteraccedilatildeo no valor de D esperada pela

inclusatildeo da variaacutevel independente no modelo eacute obtida atraveacutes de

G = D

(

modelo sem a variaacutevelmodelo com a variaacutevel

)

(217)

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 24: Leandro de Azevedo Gonzalez - Biblioteca Digital de

Capiacutetulo 2 Regressatildeo Logiacutestica 24

Ao rejeitar a hipoacutetese nula tem-se que a variaacutevel independente testada eacute significa-

tiva para o modelo

252 Teste de Wald

O teste de Wald eacute tambeacutem utilizado na regressatildeo logiacutestica para a determinaccedilatildeo da

significacircncia dos coeficientes do modelo estimado ele testa se cada coeficiente eacute significa-

tivamente diferente de zero Deste modo o teste de Wald verifica se uma determinada

variaacutevel independente possui uma relaccedilatildeo estatisticamente significativa com a variaacutevel

dependente

Se os coeficientes logiacutesticos forem estatisticamente significativos podemos interpretaacute-

los em termos de seu impacto na probabilidade estimada deste modo na prediccedilatildeo do

objeto de estudo no grupo respectivo isto eacute no grupo do evento de interesse (Y = 1) ou

no grupo da natildeo ocorrecircncia do evento (Y = 0)

O teste de Wald eacute obtido comparando a estimativa de maacutexima verossimilhanccedila de

um coeficiente e a estimativa do seu erro padratildeo

Wj =βj

var(βj)(218)

Fonte (BATISTA 2015)

Hauck e Donner (1977 apud FIGUEIRA 2006) e Jennings (1986 apud FIGUEIRA

2006) examinaram o desempenho do teste de Wald e descobriram que em alguns casos

ele se comporta de maneira inconsistente falhando ao natildeo rejeitar a hipoacutetese nula mesmo

quando o coeficiente eacute significante Portanto recomenda-se utilizar o Teste da Razatildeo de

Verossimilhanccedila quando haacute duacutevidas de que o teste de Wald tenha falhado

253 Pseudo R2 de Cox e Snell

A estatiacutestica R2 eacute uma medida que avalia em termos percentuais a qualidade de

um ajustamento de um modelo de regressatildeo linear aos dados observados Na regressatildeo

logiacutestica natildeo existe uma estatiacutestica que seja equivalente ao R2 No modelo de regressatildeo

linear as variaacuteveis dependentes satildeo contiacutenuas o que natildeo eacute o caso da regressatildeo logiacutestica

onde a variaacutevel dependente eacute categoacuterica A denominaccedilatildeo de pseudo R2 deve-se ao fato

de que eles se parecem com um R2 do modelo de regressatildeo linear mas apesar dessa

similaridade natildeo podem ser interpretados da mesma forma como se interpreta um R2

Haacute muitas maneiras diferentes se calcular o pseudo R2 alguns atores inclusive

citam mais de 10 maneiras mas infelizmente natildeo haacute um consenso sobre qual a melhor

Capiacutetulo 2 Regressatildeo Logiacutestica 25

em geral as teacutecnicas de pseudo R2 natildeo satildeo tatildeo precisas quanto a estatiacutestica R2 eacute para a

regressatildeo linear

Neste trabalho seraacute citado apenas o pseudo R2 de Cox e Snell (1989) por ser um

dos mais frequentemente utilizados pelos softwares estatiacutesticos Segue a sua definiccedilatildeo na

equaccedilatildeo 217

R2 = 1 minus

(

L(β)0

L(β)M

)

2n (219)

Fonte (BATISTA 2015)

Sejam n o tamanho da amostra L(β)0 o valor da funccedilatildeo verossimilhanccedila para

um modelo sem preditores e L(β)M a verossimilhanccedila do modelo sendo estimado A

racionalidade desta foacutermula estaacute no fato de que ela representa generalidade uma vez que

depende da probabilidade assumida pelos modelos com e sem preditores

Figura 4 ndash Exemplo da saiacuteda do pseudo R2 de Cox e Snell

Fonte FIGUEIRA (2006)

O pseudo R2 de Cox e Snell resulta em um valor que varia de 0 a 1 e geralmente eacute

menor que 1 que indica a relaccedilatildeo entre as variaacuteveis independentes e a variaacutevel dependente

De maneira simples eacute possiacutevel dizer que este valor informa o quanto as variaacuteveis indepen-

dentes explicam as variaccedilotildees da variaacutevel dependente dado a base de dados observada No

exemplo da Figura 4 observa-se que este valor eacute baixo indicando pouco mais de 40

Este mecanismo pode ser usado para comparar o desempenho de modelos concor-

rentes Entre dois modelos logiacutesticos busca-se aquele que apresenta um pseudo R2 mais

elevado

26 Consideraccedilotildees Finais

Foi dito neste capiacutetulo que a regressatildeo logiacutestica eacute uma teacutecnica de mineraccedilatildeo de

dados pertencente agraves tarefas de previsatildeo A regressatildeo logiacutestica de variaacutevel dependente

dicotocircmica divide-se em duas binaacuteria e muacuteltipla cuja diferenccedila reside no nuacutemero de

Capiacutetulo 2 Regressatildeo Logiacutestica 26

variaacuteveis independentes Foi explicado sua definiccedilatildeo e conceitos aleacutem das etapas desta

teacutecnica

O meacutetodo da maacutexima verossimilhanccedila para a estimaccedilatildeo dos coeficientes do modelo

de regressatildeo pode ser considerado pouco intuitivo devido ao seu processo iterativo

entretando os resultados obtidos atraveacutes dele satildeo de faacutecil interpretaccedilatildeo pois resultam

nos coeficientes que compotildeem o modelo

Em relaccedilatildeo aos meacutetodos para avaliaccedilatildeo do modelo de regressatildeo gerado ressalta-se

que os testes presentes neste trabalho representam uma parte dos mecanismos possiacuteveis de

avaliaccedilatildeo Na bibliografia de regressatildeo logiacutestica eacute possiacutevel encontrar estes e outros meacutetodos

com propoacutesitos similares Para o capiacutetulo seguinte seraacute dado enfoque na aplicabilidade da

regressatildeo logiacutestica atraveacutes de exemplos de aplicaccedilatildeo

27

3 Aplicaccedilotildees de Regressatildeo Logiacutestica

Eacute difiacutecil informar com precisatildeo quando a regressatildeo logiacutestica foi aplicada pela

primeira vez mas McLachlan (1992 apud BITTENCOURT 2003) afirma que as primeiras

aplicaccedilotildees de regressatildeo logiacutestica foram em estudos prospectivos de doenccedilas coronaacuterias

Hosmer e Lemeshow (1989) e Cox e Snell (1989) dizem que o modelo de regressatildeo logiacutestica

ganhou reconhecimento apoacutes o trabalho de Truett Cornfield e Kannel (1967) que estudou

o risco de doenccedila coronaacuteria em um projeto chamado ldquoFramingham Heart Studyrdquo Este

trabalho ganhou notoriedade e ateacute hoje eacute considerado um marco inicial dos estudos

envolvendo regressatildeo logiacutestica nas aacutereas da sauacutede

Desde entatildeo a regressatildeo logiacutestica tornou-se uma teacutecnica padratildeo para anaacutelise de

regressatildeo de dados dicotocircmicos principalmente nas ciecircncias meacutedicas de acordo com Hosmer

e Lemeshow (1989) Mas ela apresentou um crescimento muito raacutepido se expandindo

para outras aacutereas aleacutem da sauacutede sendo utilizada tambeacutem no campo da econometria

administraccedilatildeo educaccedilatildeo ambiental e outros

Neste capiacutetulo seratildeo apresentadas trecircs aacutereas ou domiacutenios nos quais a anaacutelise de

regressatildeo logiacutestica pode ser empregada Seraacute abordado o uso desta teacutecnica na gestatildeo de

creacutedito na anaacutelise ambiental e no estudo de oacutebitos neonatais respectivamente

31 Gestatildeo de creacutedito

Creacutedito ao consumo tambeacutem conhecido por revolving credit ou creacutedito rotativo eacute

muito relacionado ao uso de cartotildees de creacutedito e tem como caracteriacutestica o fato de seu

reembolso agrave instituiccedilatildeo financeira natildeo ser determinado por um nuacutemero fixo de parcelas ou

pagamentos afirma Batista (2015)

Ainda segundo Batista (2015) o usuaacuterio do cartatildeo de creacutedito pode utilizar ou

retirar fundos da instituiccedilatildeo de creacutedito da qual eacute cliente ateacute um determinado limite de

creacutedito que lhe foi concedido previamente O reembolso agrave instituiccedilatildeo de creacutedito eacute efetuado

atraveacutes de pagamentos perioacutedicos (totais ou parciais) acrescidos de juros A periodicidade

destes pagamentos eacute normalmente mensal e o seu valor estaacute sujeito a um montante

miacutenimo em funccedilatildeo do valor da diacutevida total em aberto O limite de creacutedito determinado e

concedido ao usuaacuterio do cartatildeo de creacutedito eacute calculado com base em alguns criteacuterios sendo

estes caracteriacutesticas do usuaacuterio histoacuterico de pagamentos anteriores e seu comportamento

em relaccedilatildeo agrave pontualidade e regularidade dos mesmos

A concessatildeo de creacutedito eacute atividade baacutesica das instituiccedilotildees financeiras entretando

no desenvolver deste negoacutecio os bancos estatildeo expostos a diversos tipos de riscos entre

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 28

eles o mais relevante eacute o risco de creacutedito (FERREIRA CELSO NETO 2012)

311 Risco de creacutedito

No contexto de uma instituiccedilatildeo financeira podemos definir o creacutedito como uma

transferecircncia de dinheiro em troca de uma promessa de restituiccedilatildeo futura As palavras

lsquopromessarsquo e lsquofuturarsquo datildeo uma indicaccedilatildeo do que se trata o risco de creacutedito

O simples ato de emprestar uma quantia ou algum item a alguem envolve a

possibilidade desta quantia ou item natildeo ser recebido de volta ou seja haacute uma incerteza

que o empreacutestimo seja devolvido Isto eacute basicamente o risco de creacutedito Podemos definiacute-lo

entatildeo como o risco que um emprestador ou credor enfrenta devido a possibilidade do

devedor em um acordo de concessatildeo de creacutedito natildeo honrar seu compromisso

A atividade de concessatildeo de creacutedito eacute funccedilatildeo baacutesica dos bancos portanto uma boa

gestatildeo do risco de creacutedito eacute necessaacuteria visto que este eacute um dos principais causadores de

insolvecircncia neste segmento econocircmico observa Ferreira Celso e Neto (2012)

Cabe agrave anaacutelise de creacutedito estimar o risco envolvido para a concessatildeo ou natildeo do

creacutedito O risco maacuteximo que a instituiccedilatildeo pode aceitar eacute inerente agrave poliacutetica de cada

empresa

312 Regressatildeo logiacutestica para anaacutelise de creacutedito

Os modelos de anaacutelise para concessatildeo de creacutedito satildeo intitulados em inglecircs de

modelos de credit scoring e baseiam-se em dados histoacutericos da base de clientes existentes

para avaliar se um futuro cliente teraacute mais chances de ser bom ou mau pagador de acordo

com Gouvecirca Gonccedilalves e Mantovani (2013)

Modelos que avaliam o creacutedito satildeo de grande relevacircncia para as instituiccedilotildees finan-

ceiras dado que um cliente bom classificado como mau desperdiccedila a chance de lucro da

instituiccedilatildeo e um cliente mau classificado como bom causa prejuiacutezos

Nenhum modelo consegue precisatildeo absoluta mas eles auxiliam na tomada de

decisatildeo da concessatildeo de creacutedito e qualquer avanccedilo na acuraacutecia da previsatildeo pode gerar

ganhos financeiros para a instituiccedilatildeo

A anaacutelise de creacutedito envolve diversos fatores qualitativos e quantitativos como por

exemplo o sexo do cliente a idade o valor da renda o valor do patrimocircnio a escolaridade

e outros A ideia por traacutes de um modelo de credit scoring eacute converter estas informaccedilotildees

qualitativas e quantitativas dos clientes em uma pontuaccedilatildeo que reflita a capacidade de

pagamento de cada indiviacuteduo Com isto busca-se segregar as caracteriacutesticas que permitam

classificar um perfil de adimplecircncia ou inadimplecircncia

Segundo Camargos Soares e Coutinho (2012) as instituiccedilotildees financeiras no Brasil

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 29

passaram a utilizar maciccedilamente os modelos de credit scoring apenas em meados dos anos

90 poacutes estabilidade alcanccedilada com a implantaccedilatildeo do plano real

Regressatildeo logiacutestica eacute a teacutecnica mais utilizada no mercado para modelos de credit

scoring (CROOK EDELMAN THOMAS 2007)

A seguir veremos os passos para se construir um modelo de credit scoring utilizando

a regressatildeo logiacutestica segundo Gouvecirca Gonccedilalves e Mantovani (2013)

1 Levantamento de uma base histoacuterica de clientes os modelos satildeo construiacutedos com

base em informaccedilotildees passadas e eacute importante que haja disponibilidade e qualidade

desta base de dados para resultar em um modelo de sucesso

2 Classificaccedilatildeo dos clientes de acordo com a poliacutetica da instituiccedilatildeo e definiccedilatildeo da

variaacutevel dependente deve-se notar que a definiccedilatildeo de clientes bons e maus podem

variar dependendo de cada instituiccedilatildeo E aleacutem de clientes bons e maus tem-se

aqueles estatildeo na fronteira entre os dois ou seja natildeo estatildeo na posiccedilatildeo nem de cliente

bom e nem de cliente mau portanto estes em geral satildeo desconsiderados do estudo

devido agrave maior facilidade de se trabalhar com a variaacutevel dependente dicotocircmica

3 Seleccedilatildeo de uma amostra aleatoacuteria representativa da base histoacuterica de clientes eacute

sugerido para a amostra aleatoacuteria que os casos das categorias da variaacutevel dependente

neste caso clientes bons e maus tenham o mesmo tamanho para evitar possiacutevel vieacutes

devido agrave diferenccedila de tamanho

4 Anaacutelise descritiva e preparaccedilatildeo dos dados consiste em analisar segundo criteacuterios

estatiacutesticos cada variaacutevel a ser utilizada no modelo

5 Aplicaccedilatildeo da regressatildeo logiacutestica a partir da amostra aleatoacuteria da base histoacuterica e

das variaacuteveis a serem utilizadas no modelo aplica-se a anaacutelise de regressatildeo logiacutestica

a fim de obter o modelo de regressatildeo

Neste cenaacuterio em questatildeo consideremos que um indiviacuteduo possa ser classificado

como cliente bom (bom pagador) ou cliente mau (mau pagador) Portanto a variaacutevel

dependente binaacuteria Y pode assumir os valores

Y =

1 bom cliente

0 mau cliente

A variaacutevel dependente determinada foi 1 para bons clientes e 0 para maus clientes

mas poderia ser o inverso Independente da categoria que foi codificada como 1 a teacutecnica

de regressatildeo logiacutestica oferece a obtenccedilatildeo dos mesmos resultados O modelo de regressatildeo

logiacutestica obtido a partir desta teacutecnica para a codificaccedilatildeo proposta permite o caacutelculo da

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 30

probabilidade de um cliente ser bom pagador Para se obter a probabilidade dele ser um

mau pagador basta calcular a probabilidade complementar ou seja se a probabilidade de

um cliente ser bom pagador for 07 a probabilidade dele ser mau pagador seraacute 03

Haacute uma seacuterie de caracteriacutesticas que podem ser incluiacutedas como possiacuteveis variaacuteveis

independentes tais como sexo idade estado civil escolaridade tipo de moradia (proacutepria

ou alugada) nuacutemero de dependentes valor da renda valor do empreacutestimo valor das

parcelas nuacutemero de parcelas situaccedilatildeo de creacutedito (adimplente ou inadimplente) e outras

Destaca-se portanto que cada estudo oferece um resultado particular pois depende do

que estaacute sendo considerado da base histoacuterica obtida dos dados disponiacuteveis e utilizados e

da poliacutetica de cada instituiccedilatildeo

Os resultados dos modelos de credit scoring servem como apoio agrave anaacutelise de creacutedito

pois possibilitam obter a probabilidade de ocorrecircncia ou natildeo ocorrecircncia da inadimplecircncia

aleacutem de facilitar a identificaccedilatildeo dos fatores que influenciam o risco da mesma Cabe a

cada organizaccedilatildeo avaliar as condiccedilotildees envolvidas na operaccedilatildeo em conjunto com o resultado

obtido no modelo Estas informaccedilotildees datildeo suporte para minimizar a inadimplecircncia e

consequentemente a perda do creacutedito

313 Aplicaccedilatildeo Exemplo

A fim de mostrar e analisar o uso da regressatildeo logiacutestica para a elaboraccedilatildeo de um

modelo de anaacutelise de creacutedito seraacute apresentado a seguir um exemplo de aplicaccedilatildeo Todos os

dados e resultados descritos nesta subseccedilatildeo satildeo provenientes do estudo de Ferreira Celso

e Neto (2012) para anaacutelise de concessatildeo de creacutedito de uma agecircncia bancaacuteria localizada no

municiacutepio de Viccedilosa-MG

De acordo com os referidos autores a base amostral deste estudo foi composta

pelas operaccedilotildees de creacutedito realizadas presencialmente pelos clientes ou seus representantes

legais no ano de 2007 Neste periacuteodo foram realizadas 82 operaccedilotildees de creacutedito na agecircncia

das quais 74 foram utilizadas no estudo Os dados utilizados para o estudo foram obtidos

atraveacutes da pesquisa em arquivos e banco de dados da carteira de creacutedito e no sistema

fornecido pela agecircncia bancaacuteria em estudo

A variaacutevel dependente dicotocircmica foi a inadimplecircncia sendo atribuiacutedo Y = 1 aos

clientes inadimplentes e Y = 0 aos clientes adimplentes As variaacuteveis independentes que

tiveram significacircncia na ocorrecircncia de eventos de inadimplecircncia nas operaccedilotildees de anaacutelise

de creacutedito segundo o modelo de regressatildeo logiacutestica satildeo a idade do cliente o tempo de

relacionamento com o banco a renda o limite do cheque especial o estado civil e a

escolaridade

Para a variaacutevel estado civil foi considerado solteiro igual a 1 casado igual a 2

divorciado igual a 3 e viuacutevo igual a 4 Para a variaacutevel escolaridade foi atribuiacutedo 1 para

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 31

clientes que cursaram ateacute o ensino fundamental 2 para os que cursaram ateacute o ensino

meacutedio 3 para quem tem superior incompleto 4 para ensino superior completo e 5 para

poacutes-graduccedilatildeo ou acima disto

Tabela 1 ndash Coeficientes das variaacuteveis do modelo de regressatildeo

Variaacutevel Coeficiente estimadoIdade Cliente (IC) minus1 68895Tempo de relacionamento (TRL) 26 67029Renda (RD) 0 05831Limite cheque especial (LCH) minus0 09597Estado Civil (EC) 29 65605Escolaridade (ES) minus11 90192Constante minus169 58336

Fonte Adaptado de Ferreira Celso e Neto (2012)

Os coeficientes estimados das variaacuteveis contidas no modelo de regressatildeo obtidos

atraveacutes do software estatiacutestico SPSS 135 utilizado pelos autores estatildeo apresentados na

Tabela 1 O sinal dos coeficientes satildeo importantes para o julgamento dos resultados

Ressalta-se que um coeficiente positivo aumenta a probabilidade de ocorrecircncia do evento

de interesse enquanto um coeficiente negativo diminui a probabilidade do mesmo Neste

cenaacuterio o evento de interesse (Y = 1) eacute a inadimplecircncia A lsquoConstantersquo na tabela 1

representa o β0 no modelo regressatildeo O modelo de regressatildeo gerado pode ser observado na

equaccedilatildeo 31

p =1

1 + eminus(minus169583minus1689timesIC+2667timesT RL+00583timesRDminus0096timesLCH+29656timesECminus11902timesES)(31)

Com base nos resultados obtidos atraveacutes da regressatildeo logiacutestica Ferreira Celso e

Neto (2012) fazem algumas observaccedilotildees acerca do trabalho realizado Dentre estas que

clientes de maior idade e maior grau de escolaridade tendem a ser adimplentes Os autores

observaram tambeacutem alguns resultados inesperados visto que clientes com maior renda e

maior tempo de relacionamento com o banco apresentaram maiores problemas em relaccedilatildeo

agrave inadimplecircncia

32 Anaacutelise ambiental

O homem tem usado e modificado o solo haacute milhares de anos a fim de seu

proacuteprio sustento e benefiacutecio Atraveacutes de atividades industriais agropecuaacuteria agricultura

urbanizaccedilatildeo mineraccedilatildeo entre outras o solo vem sendo utilizado e modificado para atender

a populaccedilatildeo humana ocasionando poreacutem o desgaste dos ecossistemas

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 32

Fatores como o crescimento populacional e a alta demanda por alimentos e outros

recursos satildeo determinantes para as elevadas taxas de intensidade e extensotildees das mudanccedilas

de uso e cobertura do solo a niacutevel global Estas mudanccedilas satildeo consideradas como uma

das mais importantes alteraccedilotildees ambientais causadas por atividades humanas com efeitos

diretos sobre as mudanccedilas climaacuteticas globais e perda de diversidade bioloacutegica afirma

Valencia (2008) A Figura 5 mostra mudanccedilas ambientais globais causadas pela accedilatildeo do

homem

Figura 5 ndash Componentes da mudanccedila ambiental global

Fonte VALENCIA (2008)

Nos uacuteltimos 3 seacuteculos cerca de 12 milhotildees de km2 de florestas e 56 milhotildees de

km2 de pastagens tem sido convertidas a outros tipos de uso no mundo inteiro Enquanto

isso as aacutereas de cultivo tem aumentado em 12 milhotildees de km2 segundo Ramankutty e

Foley (1999 apud VALENCIA 2008)

Eacute possiacutevel definir o solo como o espaccedilo de interaccedilatildeo entre o homem e a natureza

O homem tem o solo como local da realizaccedilatildeo de suas atividades utilizando os recursos

naturais dele para a realizaccedilatildeo das mesmas

A seguir seraacute definido o conceito de uso do solo cobertura do soloe mudanccedilas

do uso do solo

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 33

bull Cobertura de solo

A cobertura de solo eacute descrita pelo estado biofiacutesico da superfiacutecie Isto eacute caracteriacutesticas

bioloacutegicas fiacutesicas quiacutemicas ecoloacutegicas satildeo os componentes das coberturas do solo

Exemplos de cobertura florestas mangue bosques aacutereas urbanas e outros

bull Uso do solo

O uso do solo pode ser definido pela finalidade do uso dos recursos do mesmo

Estaacute relacionado aos produtos e benefiacutecios obtidos do uso do solo como tambeacutem

do planejamento realizado no solo para alcanccedilar estes produtos e benefiacutecios O uso

do solo eacute caracterizado por planejamentos atividades e insumos que as pessoas

executam em uma cobertura de solo para produzi-lo mudaacute-lo ou mantecirc-lo de acordo

com FAO (1998 apud VALENCIA 2008)

Ressalta-se que cobertura de solo e uso de solo natildeo satildeo a mesma coisa Diferentes

usos de solo podem ser realizados em uma mesma cobertura de solo assim como

diferentes coberturas podem ser utilizadas para aplicar o mesmo uso de solo como

mostrado na Tabela 2

Tabela 2 ndash Uso e Cobertura do solo

Cobertura do solo Uso do soloFlorestas Florestas naturais Produccedilatildeo de madeira RecreaccedilatildeoPastagens Pastagens naturais Recreaccedilatildeo Criaccedilatildeo de gadoAacutereas agriacutecolas Culturas perenes e anuaisAacutereas urbanas Cidades Aacutereas industriais Transporte

Fonte VALENCIA (2008)

bull Mudanccedilas do uso do solo

O termo mudanccedilas de uso do solo citado acima eacute utilizado aqui abrangendo tanto as

mudanccedilas de cobertura do solo quanto as mudanccedilas de uso do solo O enfoque mais

simples utilizado para mensurar mudanccedilas do uso do solo considera o aumento ou

reduccedilatildeo da aacuterea da aacuterea coberta por um tipo de uso ou cobertura do solo O uso do

solo pode ser a causa da mudanccedila de sua cobertura ainda assim a cobertura do

solo pode mudar mesmo se mantendo inalterado seu uso

Mendes e Vega (2011) observam que o potencial do impacto adverso dessas mudanccedilas

de uso do solo dependem de sua escala extensatildeo e das dinacircmicas relaccedilotildees entre o uso do

solo Tem impactos diretos no solo na aacutegua e na atmosfera e portanto estaacute diretamente

relacionado com muitas questotildees ambientais de importacircncia global Lambin Geist e Lepers

(2003 apud MENDES VEGA 2011) citam como exemplo de dinacircmicas de alteraccedilatildeo de

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 34

uso do solo os desmatamentos em grande escala e posterior transformaccedilatildeo em terras

agriacutecolas na regiatildeo dos troacutepicos e destacam seus provaacuteveis impactos sobre a biodiversidade

a degradaccedilatildeo do solo e a capacidade produtiva da terra para satisfazer as necessidades

humanas Sendo assim as dinacircmicas de alteraccedilatildeo do uso do solo satildeo fatores determinantes

no ciclo das mudanccedilas climaacuteticas (ilustrado na Figura 5) e portanto a relaccedilatildeo entre os

dois eacute interdependente As modificaccedilotildees no uso da terra podem modificar o clima e por

sua vez as mudanccedilas climaacuteticas podem afetar o uso da terra

321 Regressatildeo logiacutestica na anaacutelise ambiental

Modelos que analisam as dinacircmicas de uso do solo podem ser entendidos como um

conjunto de teacutecnicas utilizadas para descrever o processo de mudanccedila de uso do solo em

condiccedilotildees quantitativas e assim proporcionar o entendimento deste processo

Atraveacutes da concepccedilatildeo deste modelo de anaacutelise da mudanccedila de uso do solo tem-se

como objetivos saber onde as mudanccedilas de uso do solo ocorreratildeo e quais os fatores que

mais contribuem para a ocorrecircncia destas mudanccedilas

O meacutetodo da regressatildeo logiacutestica eacute uma ferramenta que pode ser utilizada para

avaliar quais os fatores afetam e em que extensatildeo a localizaccedilatildeo de usos do solo em uma

determinada regiatildeo a ser analisada Consideremos a variaacutevel dependente dicotocircmica Y

denominada deldquoUso Agriacutecolardquo onde 1 representa as aacutereas de uso agriacutecola e 0 as aacutereas sem

uso agriacutecola

Y =

1 aacutereas com uso agriacutecola

0 aacutereas sem uso agriacutecola

A variaacutevel dependente ldquoUso Agriacutecolardquo determinada representa a distinccedilatildeo entre

estes dois tipos de uso do solo Aplicando os conceitos de regressatildeo logiacutestica a essa variaacutevel

tem-se que o modelo de regressatildeo pode estimar a probabilidade de uma aacuterea sem uso

agriacutecola ser convertida ou transformada em uma aacuterea de uso agriacutecola em funccedilatildeo das

variaacuteveis independentes a serem consideradas na anaacutelise

A teacutecnica de regressatildeo logiacutestica se mostra bastante adequada para a modelagem

de transiccedilatildeo de uso de solo dado que estas passagens podem ser tratadas como estados

ou categorias individuais (floresta para aacuterea rural aacuterea rural para aacuterea industrial por

exemplo) e relacionadas a uma seacuterie de variaacuteveis independentes O papel desta teacutecnica eacute

encontrar o melhor modelo que relacione as variaacuteveis dependente e independentes

Pode-se assumir de uma maneira geral diversos fatores (variaacuteveis independentes)

que venham a influenciar na mudanccedila do uso do solo como por exemplo precipitaccedilatildeo

meacutedia anual temperatura meacutedia anual densidade populacional Assim como fatores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 35

devido agrave proximidade de outros agente como distacircncia agrave rodovias nuacutecleos urbanos limites

florestais entre outros

A probabilidade de ocorrecircncia da transiccedilatildeo de uma aacuterea natildeo agriacutecola para uma

aacuterea agriacutecola representa a expansatildeo da agricultura nesta determinada regiatildeo As variaacuteveis

independentes utilizadas indicam as mudanccedila ocorridas entre as categorias de uso do solo

(natildeo agriacutecola para agriacutecola)

322 Aplicaccedilatildeo Exemplo

O exemplo apresentado a seguir eacute um estudo de caso aplicado na regiatildeo da Bacia

Hidrograacutefica do Alto Paraguai (BAP) em territoacuterio brasileiro para analisar a transiccedilatildeo

de uso de solo natildeo agriacutecola para agriacutecola utilizando a teacutecnica de regressatildeo logiacutestica Este

estudo foi realizado por Mendes e Vega (2011)

Para a base amostral deste estudo o autor considerou imagens da BAP correspon-

dente a dois periacuteodos 1992 e 2000 As imagens originais foram reclassificadas de modo a

gerar imagens binaacuterias em relaccedilatildeo a categoria agriacutecola (0 ou 1 para aacuterea natildeo agriacutecola ou

aacuterea agriacutecola respectivamente) Atraveacutes da sobreposiccedilatildeo destas imagens binaacuterias corres-

pondentes aos dois periacuteodos considerados obteacutem-se uma nova imagem que representa a

transiccedilatildeo de aacutereas natildeo agriacutecolas para agriacutecolas de 1992 a 2000 ilustrada na Figura 6 Os

pontos na figura correspondem agrave essa aacuterea de transiccedilatildeo

Figura 6 ndash Expansatildeo agriacutecola na Bacia do Alto Paraguai de 1992 a 2000

Fonte Mendes e Vega (2011)

Para o estudo em questatildeo a transiccedilatildeo de natildeo agriacutecola para agriacutecola corresponde

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 36

agrave variaacutevel dependente dicotocircmica do modelo aleacutem disso foi considerado um conjunto

X contendo 16 variaacuteveis independentes mas os autores informam que apenas 7 foram

incluiacutedas no modelo de regressatildeo gerado as demais foram descartadas devido agrave baixa

significacircncia para o modelo

A tabela 3 informa as sete variaacuteveis independentes incluiacutedas no modelo logiacutestico

com o coacutedigo da variaacutevel e sua unidade de medida O modelo gerado pela teacutecnica de

regressatildeo logiacutestica pode ser observado na Figura 7

Tabela 3 ndash Variaacuteveis independentes incluiacutedas no modelo logiacutestico

Variaacuteveis Coacutedigo UnidadesTemperatura meacutedia

anualTMA oC

Balanccedilo hiacutedricoclimaacutetico meacutedio anual

BHC mmano

Distacircncias para assedes urbanas de

municiacutepios brasileirosinseridos na bacia

D_URBMuacuteltiplos de

graus

Cotas topograacuteficas nabacia pelo lado

brasileiroTOPO m

Cotas topograacuteficasreclassificadas (le 150

m ge 150 m)TOPO_REC 1-2

Distacircncias paraestradas principais(pavimentadas e

federais) brasileirasinseridas na bacia

D_ESTRADAMuacuteltiplos de

graus

Distacircncias para asferrovias brasileirasinseridas na bacia

D_FERROMuacuteltiplos de

graus

Fonte Adaptado de Mendes e Vega (2011)

Figura 7 ndash Modelo logiacutestico apoacutes a inserccedilatildeo dos coeficientes estimados

Fonte Mendes e Vega (2011)

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 37

Ressalta-se que com exceccedilatildeo da variaacutevel lsquoCotas topograacuteficas reclassificadasrsquo que eacute

categoacuterica as demais variaacuteveis independentes satildeo contiacutenuas Os referidos autores observa-

ram atraveacutes da teacutecnica de regressatildeo logiacutestica que o desenvolvimento agriacutecola ocorre em

aacutereas que satildeo atrativas devido agrave sua proximidade com solos de boa qualidade existentes e

facilidades de transporte para o escoamento da produccedilatildeo entre outras observaccedilotildees Afir-

mam ainda que seu estudo pretende reduzir incertezas para possibilitar um planejamento

estrateacutegico a fim de comtemplar estas constantes mudanccedilas ocorridas

33 Oacutebito Neonatal

O periacuteodo neonatal corresponde agraves quatro primeiras semanas de vida (0 a 28 dias

incompletos) Denomina-se periacuteodo neonatal precoce a primeira semana completa ou os

sete primeiros dias de vida e periacuteodo neonatal tardio as trecircs semanas seguintes

Oacutebito neonatal eacute o oacutebito que ocorre no periacuteodo neonatal isto eacute entre 0 e 28 dias

incompletos apoacutes o nascimento A crianccedila morta dentro deste periacuteodo daacute-se o nome de

neomorto

A mortalidade infantil pode ser considerada um dos melhores indicadores da

qualidade da assistecircncia agrave sauacutede bem como do niacutevel socioeconocircmico de uma populaccedilatildeo

Tal iacutendice compreende todos os oacutebitos de crianccedilas com menos de um ano de idade sendo

formada pelo oacutebito neonatal e o poacutes-neonatal que abrange os oacutebitos ocorridos do 28o dia

ateacute um dia antes de se completar um ano de vida segundo Risso e Nascimento (2011)

Zupan e Aahman (2005 apud ZANINI et al 2011) informa que entre os 130

milhotildees de crianccedilas que nascem no mundo anualmente cerca de 4 milhotildees morrem no

periacuteodo neonatal proporccedilatildeo que varia de acordo com a taxa de mortalidade globalA

variaccedilatildeo no risco diaacuterio de morte eacute consideraacutevel e esse risco eacute maior na primeira semana de

vida A maioria dos oacutebitos neonatais (99) ocorre em regiotildees com renda baixa ou meacutedia

Crianccedilas que nascem em paiacuteses mais pobres apresentam maior risco de morte com taxa

de mortalidade neonatal de 19 a 44 superior em famiacutelias pobres (KNIPPENBERG et

al 2005)

No Brasil a taxa de mortalidade infantil teve reduccedilatildeo de 50 entre 1990 e 2008 Mas

apesar das taxas de mortalidade infantil estarem em queda os dados indicam concentraccedilatildeo

dos oacutebitos no periacuteodo neonatal que ainda se manteacutem com valores elevados em comparaccedilatildeo

com as taxas de mortalidade poacutes-neonatal

Para tentar reduzir estes valores elevados da mortalidade no periacuteodo neonatal

teacutecnicas como a regressatildeo logiacutestica podem ser utilizadas para que se construa modelos que

possibilitem identificar os fatores de risco para o oacutebito neonatal

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 38

331 Regressatildeo Logiacutestica no estudo do oacutebito neonatal

Modelos de anaacutelise claacutessicos pressupotildeem independecircncia entre indiviacuteduos e homo-

geneidade de variacircncia e desconsideram a hierarquia dos fatores preditores isto eacute natildeo

consideram que observaccedilotildees originadas de uma mesma unidade podem ser mais similares do

que aquelas originadas de diferentes unidades Isso pode levar agrave superestimaccedilatildeo dos efeitos

do agrupamento e induzir a conclusotildees imprecisas (GOLDSTEIN 2003 apud ZANINI et

al 2011)

A anaacutelise de regressatildeo logiacutestica eacute uma alternativa aos modelos claacutessicos ao considerar

a variaacutevel dependente em niacutevel dicotocircmico e as variaacuteveis independentes em qualquer

niacutevel categoacuterico ou contiacutenuo Esses modelos permitem analisar o efeito das categorias

separadamente e fornecem informaccedilatildeo sobre a influecircncia da composiccedilatildeo dos fatores segundo

Goldstein (2003)

Assim para facilitar a identificaccedilatildeo e a compreensatildeo dos fatores associados ao oacutebito

neonatal pode-se dizer que a regressatildeo logiacutestica eacute uma teacutecnica apropriada

A variaacutevel dependente binaacuteria Y eacute a ocorrecircncia ou natildeo ocorrecircncia do oacutebito em

crianccedilas com menos de 28 dias de vida

Y =

1 ocorrecircncia do oacutebito neonatal

0 natildeo ocorrecircncia do oacutebito neonatal

Caracteriacutesticas da matildee e da crianccedila assim como caracteriacutesticas socioeconocircmicas

satildeo analisadas como determinantes da mortalidade infantil algumas das mais utilizadas

em trabalhos neste contexto satildeo peso ao nascer se a crianccedila eacute preacute-termo escore de Apgar

no 1o e 5o minuto idade da matildee escolaridade materna tipo de parto (normal ou cesaacuteria)

tipo de gestaccedilatildeo (uacutenica ou muacuteltipla) tabagismo entre outros renda familiar nuacutemero de

pessoas que moram no mesmo domiciacutelio entre outros

O uso de um modelo para avaliar os fatores de risco para a mortalidade infantil

neonatal compreendidos como indicadores de vaacuterias dimensotildees das condiccedilotildees de vida eacute

importante para compreender o quanto estes indicadores influenciam na ocorrecircncia do

oacutebito neonatal Sendo assim possiacutevel identificar grupos expostos a diferentes fatores de

risco e detectar necessidades de sauacutede em diferentes subgrupos populacionais Isto aumenta

a esperanccedila de que estes fatores possam ser minimizados e talvez ateacute evitados

332 Aplicaccedilatildeo Exemplo

Martins e Velaacutesquez-Meleacutendez (2004) testaram a associaccedilatildeo de vaacuterios fatores com a

mortalidade neonatal em Montes Claros utilizando a teacutecnica de regressatildeo logiacutestica Todos

os dados e resultados apresentados nesta subseccedilatildeo foram obtidos pelos referidos autores

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 39

De acordo com os autores a populaccedilatildeo constituiu-se de 20506 nascidos vivos na

cidade de Montes Claros MG Brasil entre o periacuteodo de 1 de janeiro de 1997 a 31 de

dezembro de 1999 Foi verificado banco de dados de oacutebitos e de nascimentos para identificar

os nascidos vivos que evoluiacuteram para o oacutebito neonatal no qual verificou-se 275 casos neste

periacuteodo Apoacutes a verificaccedilatildeo de registros com variaacuteveis com valor omisso foram excluiacutedos

1491 registros portanto a base amostral utilizada no estudo totalizou 19015 registros

A variaacutevel dependente do estudo foi a ocorrecircncia de oacutebito neonatal (1 para a

ocorrecircncia do oacutebito 0 para a natildeo ocorrecircncia do oacutebito) e as variaacuteveis independentes estatildeo

relacionadas ao receacutem-nascido (sexo peso ao nascer escore de Apgar no 1o e 5o minutos

de vida e idade gestacional) agrave gestaccedilatildeo e parto (tipo de gravidez e parto nuacutemero de

consultas de preacute-natal e local do nascimento) e agrave matildee (grau de instruccedilatildeo idade filhos e

abortos tidos) Segundo os autores todas as associaccedilotildees entre os preditores e a variaacutevel

dependente foram consideradas estatisticamente significantes

Sobre o escore de Apgar ele eacute um teste de avaliaccedilatildeo de cinco sinais vitais do receacutem-

nascido realizado no primeiro quinto e deacutecimo minuto apoacutes o nascimento A pontuaccedilatildeo

varia de 0 a 10 e quanto mais proacuteximo de 10 melhor

Martins e Velaacutesquez-Meleacutendez (2004) apresentaram os resultados do estudo atraacuteves

dos valores de odds ratio (OR) obtidos pelo meacutetodo da regressatildeo logiacutestica A Tabela 4

informa o OR de quatro das variaacuteveis independentes inclusas neste estudo

Tabela 4 ndash OR obtido de 4 variaacuteveis independentes do modelo

Variaacuteveis ORPeso ao nascer (1 = baixo peso 0 = peso normal) 494Idade gestacional (le 37 sem (1) gt 37 sem (0)) 568Apgar 1o minuto (0 a 10) 075Apgar 5o minuto (0 a 10) 076

Fonte Adaptado de Martins e Velaacutesquez-Meleacutendez (2004)

O odds ratio ou razatildeo de chances em portuguecircs pode ser definido como a razatildeo

entre a chance de um evento ocorrer em um grupo e a chance de ocorrer em outro grupo

Na regressatildeo logiacutestica esta razatildeo aparece diretamente relacionada aos coeficientes das

variaacuteveis independentes favorecendo a interpretaccedilatildeo dos resultados obtidos

Uma razatildeo de chances de valor igual a 1 indica que o evento em estudo tem chances

iguais de ocorrer nos dois grupos maior que 1 indica chance maior de ocorrer no primeiro

grupo e entre 0 e 1 indica chance menor de ocorrer no primeiro grupo

Trazendo este conceito para o estudo em questatildeo pela Tabela 4 tem-se que a

variaacutevel ldquopeso ao nascerrdquo eacute binaacuteria (1 = baixo peso 0 = peso normal) portanto a leitura

do valor do OR indica que receacutem-nascidos com baixo peso tem 494 mais chances de evoluir

Capiacutetulo 3 Aplicaccedilotildees de Regressatildeo Logiacutestica 40

agrave oacutebito do que receacutem-nascidos com peso normal Da mesma forma crianccedilas preacute-termo

(nascidas com menos de 37 semanas de gestaccedilatildeo) tem 568 mais chances de evoluir agrave oacutebito

em comparaccedilatildeo agraves crianccedilas a termo

As variaacuteveis ldquoApgar 1o minutordquo e ldquoApgar 5o minutordquo satildeo discretas e variam de

unidade a unidade ateacute 10 neste caso a chance de um grupo eacute comparada agrave chance do grupo

de unidade anterior Observa-se ainda que elas possuem OR abaixo de 1 isto significa por

exemplo que uma crianccedila com score Apgar igual a 7 tem 075 menos chance de evoluir agrave

oacutebito em comparacatildeo com uma crianccedilas com score Apgar igual a 6

Entre outras observaccedilotildees Martins e Velaacutesquez-Meleacutendez (2004) destacam que o

sexo e o tipo de parto natildeo estiveram relacionados com a mortalidade neonatal e o fator

preacute-termo foi a variaacutevel que apresentou maior associaccedilatildeo com este tipo de oacutebito

34 Consideraccedilotildees Finais

Este capiacutetulo concentrou-se na aplicabilidade da regressatildeo logiacutestica e foi dividido

em trecircs seccedilotildees para apresentar aacutereas de aplicaccedilotildees desta teacutecnica na aacuterea de gestatildeo de

creacutedito de anaacutelise ambiental e de oacutebito neonatal respectivamente Para cada um destes

trecircs exemplos de aplicaccedilatildeo foi apresentado o domiacutenio junto com um problema a ser

estudado a forma como a regressatildeo logiacutestica pode ser utilizada no determinado cenaacuterio e

um estudo de caso realizado utilizando esta teacutecnica

A apresentaccedilatildeo destes trecircs exemplos mostra como a regressatildeo logiacutestica pode ser

usada para diferentes fins complementando o que foi explicado na seccedilatildeo 21 do capiacutetulo

anterior Enquanto que o objetivo principal da anaacutelise de creacutedito eacute o modelo de regressatildeo

gerado o estudo do oacutebito neonatal foca no impacto das variaacuteveis independentes sobre

o evento em estudo e o exemplo da anaacutelise ambiental divide a atenccedilatildeo entre estes dois

objetivos O capiacutetulo seguinte traz a conclusatildeo do trabalho que apresenta as consideraccedilotildees

finais limitaccedilotildees e trabalhos futuros

41

4 Conclusatildeo

O desenvolvimento do presente estudo possibilitou uma anaacutelise do meacutetodo de

regressatildeo logiacutestica Foi definido o que eacute este meacutetodo e o que ele permite extrair de

informaccedilotildees atraveacutes do processo para obtenccedilatildeo do modelo probabiliacutestico Foi explicado que

ele permite natildeo apenas estimar a probabilidade de ocorrecircncia de um evento mas tambeacutem

analisar as variaacuteveis incluiacutedas no processo e classificar ou traccedilar um perfil dos grupos que

assumem os valores da variaacutevel dependente

No capiacutetulo 2 mostrou-se que a funccedilatildeo logit eacute a base para a obtenccedilatildeo do modelo

de regressatildeo logiacutestica Foram abordados dois tipos de regressatildeo logiacutestica a binaacuteria e a

muacuteltipla tal que a segunda pode ser vista como uma generalizaccedilatildeo da primeira O meacutetodo

da maacutexima verossimilhanccedila serve para estimar os coeficientes do modelo de regressatildeo

logiacutestica enquanto meacutetodos como o teste da razatildeo de verossimilhanccedila e o teste de Wald

satildeo utilizados para verificar a significacircncia dos coeficientes estimados Jaacute o meacutetodo Pseudo

R2 eacute um mecanismo utilizado para constatar o desempenho do modelo gerado

No capiacutetulo 3 foram apresentados trecircs exemplos de aplicaccedilatildeo utilizando a regressatildeo

logiacutestica na aacuterea financeira ambiental e epidemioloacutegica Para cada exemplo foi abordado

o domiacutenio da respectiva aacuterea com uma situaccedilatildeo problema a ser estudada o possiacutevel uso

da regressatildeo logiacutestica no estudo deste problema e uma aplicaccedilatildeo exemplo apontando os

resultados obtidos

A contribuiccedilatildeo deste meacutetodo eacute grande e o exemplo de anaacutelise de creacutedito apresentado

neste trabalho evidencia isto A regressatildeo logiacutestica eacute o meacutetodo mais utilizado para o

desenvolvimento de modelos de anaacutelise de creacutedito e estes modelos satildeo amplamente

utilizados natildeo apenas por instituiccedilotildees bancaacuterias mas tambeacutem por outras empresas que

atuam com concessatildeo de creacutedito a seus clientes

O exemplo da regressatildeo na anaacutelise ambiental aponta a variabilidade deste meacutetodo e

o uso da regressatildeo logiacutestica no estudo do oacutebito neonatal eacute apenas um dos vaacuterios realizados

nas ciecircncias meacutedicas que em geral destacam natildeo apenas a contribuiccedilatildeo para a prevenccedilatildeo

de uma doenccedila ou oacutebito mas para o estudo das questotildees socioeconocircmicas envolvidas

Eacute interessante ressaltar que a regressatildeo logiacutestica assim como qualquer outro

meacutetodo computacional tem suas particularidades e portanto natildeo haacute um meacutetodo que seja

indicado para todo e qualquer propoacutesito No caso especiacutefico desta teacutecnica sua principal

caracteriacutestica que eacute a variaacutevel dependente categoacuterica eacute ao mesmo tempo um limitador

caso queira-se por exemplo prever a variaccedilatildeo de uma accedilatildeo na bolsa de valores a regressatildeo

linear eacute provavelmente uma melhor opccedilatildeo por tratar a variaacutevel resposta como contiacutenua

A relevacircncia deste trabalho estaacute em apresentar conceitos e aplicabilidade da regressatildeo

Capiacutetulo 4 Conclusatildeo 42

logiacutestica de forma a auxiliar a compreensatildeo e uso da mesma como uma potente ferramenta

de anaacutelise de dados de resposta categoacuterica

Neste trabalho natildeo foram abordados os meacutetodos de seleccedilatildeo das variaacuteveis preditoras

no modelo gerado como os meacutetodos forward stepwise e backward stepwise E como foi

dito no capiacutetulo 2 haacute tambeacutem outros meacutetodos de avaliaccedilatildeo do modelo de regressatildeo aleacutem

dos trecircs abordados neste trabalho o teste de Hosmer e Lemeshow e as curvas ROC satildeo

exemplos de outros meacutetodos A partir disto sugere-se para um estudo posterior abordar

a regressatildeo logiacutestica com base nesses conceitos

Outra sugestatildeo para trabalhos futuros eacute que seja abordado o tipo de regressatildeo

logiacutestica na qual a variaacutevel resposta pode assumir mais de dois valores ou seja a variaacutevel

eacute politocircmica denotada por regressatildeo logiacutestica multinomial Neste contexto um estudo

epidemioloacutegico por exemplo pode tratar a variaacutevel resposta como os diferentes estaacutegios

de uma doenccedila (inicial moderado avanccedilado) e relacionar as variaacuteveis presentes a cada

um destes grupos entre outras possibilidades

43

Referecircncias

AGRESTI A Categorical Data Analysis 2nd ed New Jersey John Wiley amp Sons 2002Citado na paacutegina 12

BATISTA A M S Regressatildeo Logiacutestica Uma Introduccedilatildeo ao Modelo Estatiacutestico ndash Exemplo

de Aplicaccedilatildeo ao Revolving Credit Porto Vida Econoacutemica 2015 Citado 4 vezes naspaacuteginas 22 24 25 e 27

BELFIORE P Estatiacutestica aplicada a administraccedilatildeo contabilidade e economia com Excel

e SPSS 1 ed Rio de Janeiro Elsevier 2015 Citado na paacutegina 16

BITTENCOURT H R Regressatildeo logiacutestica politocircmica revisatildeo teoacuterica e aplicaccedilotildeoes Acta

Scientiae Canoas v 5 n 1 p 77ndash86 2003 Citado na paacutegina 27

CABRAL C I S Aplicaccedilatildeo do Modelo de Regressatildeo Logiacutestica num Estudo de MercadoDissertaccedilatildeo (Mestrado) mdash Universidade de Lisboa Lisboa 2013 Citado na paacutegina 23

CAMARGOS M A SOARES G O G COUTINHO E S Determinantes do rating decreacutedito de companhias brasileiras Revista Contabilidade Vista amp Revista v 23 n 3 p109ndash143 2012 Citado na paacutegina 28

COX D R SNELL E J Analysys of Binary Data 2nd ed London Chapman amp Hall1989 Citado 3 vezes nas paacuteginas 23 25 e 27

CRAMER J S Logit Models From Economics and Other Fields Cambridge CambridgeUniversity Press 2003 Citado na paacutegina 23

CROOK J N EDELMAN D B THOMAS L C Recent developments in consumercredit risk assessment European Journal of Operational Research v 183 n 3 p1447ndash1465 2007 Citado na paacutegina 29

FERREIRA M A M CELSO A S dos S NETO J E B Aplicaccedilatildeo do modelo logitbinomial na anaacutelise do risco de creacutedito em uma instituiccedilatildeo bancaacuteria Revista de NegoacuteciosBlumenau v 17 n 1 p 41ndash59 2012 Citado 3 vezes nas paacuteginas 28 30 e 31

FIGUEIRA C V Modelos de Regressatildeo Logiacutestica Dissertaccedilatildeo (Mestrado) mdash UniversidadeFederal do Rio Grande do Sul Porto Alegre 2006 Citado 4 vezes nas paacuteginas 19 20 22e 24

FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONSTerminology for Integrated Resources Planning and Management [Sl] 1998 Citado napaacutegina 33

GOLDSTEIN H Multilevel statistical models 3rd ed London Edward Arnold 2003Citado na paacutegina 38

GOUVEcircA M A GONCcedilALVES E B MANTOVANI D M N Anaacutelise de risco decreacutedito com aplicaccedilatildeo de regressatildeo logiacutestica e redes neurais Revista Contabilidade Vista amp

Revista Belo Horizonte v 24 n 4 p 96ndash123 2013 Citado 2 vezes nas paacuteginas 28 e 29

Referecircncias 44

HAUCK W W DONNER A Waldrsquos test as applied to hypotheses in logit analysisJournal of the American Statistical Association v 72 p 851ndash853 1977 Citado na paacutegina24

HOSMER D W LEMESHOW S Applied Logistic Regression 1st ed New York JohnWiley amp Sons 1989 Citado na paacutegina 27

HOSMER D W LEMESHOW S Applied Logistic Regression 2nd ed New York JohnWiley amp Sons 2000 Citado 2 vezes nas paacuteginas 12 e 23

JENNINGS D E Judging inference adequacy in logistic regression Journal of the

American Statistical Association v 81 p 471ndash476 1986 Citado na paacutegina 24

KNIPPENBERG R et al Systematic scaling up of neonatal care in countries Lancet p1087ndash1098 2005 Citado na paacutegina 37

LAMBIN E F GEIST H J LEPERS E Dynamics of landndashuse and landndashcover changein tropical regions Annual Review of Environment and Resources v 28 p 205ndash241 2003Citado na paacutegina 33

MARTINS E F VELAacuteSQUEZ-MELEacuteNDEZ G Determinantes da mortalidade neonatala partir de uma coorte de nascidos vivos montes claros minas gerais 1997ndash1999 Rev

Bras Sauacutede Matern Infant Recife v 4 n 4 p 405ndash412 2004 Citado 3 vezes naspaacuteginas 38 39 e 40

MCLACHLAN G Discriminant Analysis and Statistical Pattern Recognition New YorkJohn Willey amp Sons 1992 Citado na paacutegina 27

MENDES C A B VEGA F A C Teacutecnicas de regressatildeo logiacutesica aplicada agrave anaacuteliseambiental Revista Geografia Londrina v 20 n 1 p 5ndash30 2011 Citado 2 vezes naspaacuteginas 33 e 35

MESQUITA P S B Um Modelo de Regressatildeo Logiacutestica para Avaliaccedilatildeo dos Programas de

PoacutesndashGraduaccedilatildeo no Brasil Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do NorteFluminense Campo dos Goytacazes 2014 Citado 3 vezes nas paacuteginas 14 17 e 20

POWERS D A XIE Y Statistical Methods for Categorical Data Analysis AustinAcademic Press 1999 Citado na paacutegina 16

RAMANKUTTY N FOLEY J A Estimating historical changes in global land coverCroplands from 1700 to 1992 Global Biogeochemical Cycles v 13 n 4 p 997ndash1028 1999Citado na paacutegina 32

RISSO S de P NASCIMENTO L F C Fatores de risco para oacutebito neonatal obtidospelo modelo de regressatildeo multivariado de cox Rev Paul Pediatr v 29 n 2 p 208ndash2132011 Citado na paacutegina 37

TAN P-N STEINBACH M KUMAR V Introduccedilatildeo ao Data Mining Mineraccedilatildeo de

Dados 1 ed Rio de Janeiro Ciecircncia Moderna 2009 Citado na paacutegina 14

TRUETT J CORNFIELD J KANNEL W A multivariate analysis of the risk ofcoronary heart disease in framinghan Journal of Chronic Diseases v 20 p 511ndash5241967 Citado na paacutegina 27

Referecircncias 45

VALENCIA L I O Enfoque da estatiacutestica espacial em modelos dinacircmicos de mudanccedila

do uso do solo Dissertaccedilatildeo (Mestrado) mdash Universidade Estadual do Rio de Janeiro Riode Janeiro 2008 Citado 2 vezes nas paacuteginas 32 e 33

ZANINI R R et al Determinantes contextuais da mortalidade neonatal no rio grande dosul por dois modelos de anaacutelise Revista de Sauacutede Puacuteblica Satildeo Paulo v 45 n 1 p 79ndash892011 Citado 2 vezes nas paacuteginas 37 e 38

ZUPAN J AAHMAN E Perinatal mortality for the year 2000 estimates developed bywho Geneva World Health Organization p 129ndash33 2005 Citado na paacutegina 37

  • Folha de rosto
  • Dedicatoacuteria
  • Agradecimentos
  • Resumo
  • Abstract
  • Lista de ilustraccedilotildees
  • Lista de tabelas
  • Lista de abreviaturas e siglas
  • Sumaacuterio
  • Introduccedilatildeo
    • Objetivos
      • Objetivos Especiacuteficos
        • Organizaccedilatildeo do Trabalho
          • Regressatildeo Logiacutestica
            • Definiccedilatildeo
            • A Funccedilatildeo Logit
            • Regressatildeo Logiacutestica Binaacuteria
              • Estimando os coeficientes do modelo de regressatildeo
                • Regressatildeo Logiacutestica Muacuteltipla
                • Meacutetodos de avaliaccedilatildeo do modelo logiacutestico
                  • Teste da Razatildeo de Verossimilhanccedila
                  • Teste de Wald
                  • Pseudo R2 de Cox e Snell
                    • Consideraccedilotildees Finais
                      • Aplicaccedilotildees de Regressatildeo Logiacutestica
                        • Gestatildeo de creacutedito
                          • Risco de creacutedito
                          • Regressatildeo logiacutestica para anaacutelise de creacutedito
                          • Aplicaccedilatildeo Exemplo
                            • Anaacutelise ambiental
                              • Regressatildeo logiacutestica na anaacutelise ambiental
                              • Aplicaccedilatildeo Exemplo
                                • Oacutebito Neonatal
                                  • Regressatildeo Logiacutestica no estudo do oacutebito neonatal
                                  • Aplicaccedilatildeo Exemplo
                                    • Consideraccedilotildees Finais
                                      • Conclusatildeo
                                      • Referecircncias
Page 25: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 26: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 27: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 28: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 29: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 30: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 31: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 32: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 33: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 34: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 35: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 36: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 37: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 38: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 39: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 40: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 41: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 42: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 43: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 44: Leandro de Azevedo Gonzalez - Biblioteca Digital de
Page 45: Leandro de Azevedo Gonzalez - Biblioteca Digital de