capítulo 12

Click here to load reader

Upload: vitorexfiles

Post on 25-Nov-2015

97 views

Category:

Documents


0 download

TRANSCRIPT

Mtodos Quantitativos

Livro: Anlise de Dados (FVERO et al. 2009)UNIVERSIDADE FEDERAL DO ESPRITO SANTOCENTRO DE CINCIAS JURDICAS E ECONMICASPROGRAMA DE PS-GRADUAO EM CINCIAS CONTBEISCaptulo 12:

Regresso logstica e Regresso logstica multinomial

Vitor Corra da SilvaRegresso logsticaA regresso logstica uma tcnica estatstica utilizada para descrever o comportamento entre uma varivel dependente binria e variveis independentes (explicativas) mtricas ou no.

Y = Binria (dummy)

X = Mtricas ou no (tambm podem ser qualitativas)

2Regresso logstica3Regresso logsticaA regresso logstica pode:1 Prever a ocorrncia de eventos de interesse.ou2 Apresentar a probabilidade de sua ocorrncia.

Obs.: Diferentemente da regresso mltipla, a regresso logstica no pressupe a existncia de homogeneidade de varincias e normalidade dos resduos.

4Regresso logstica5Regresso logsticaPremissas da regresso logstica:Relao linear entre o vetor das variveis explicativas X e a varivel dependente Y.Valor esperado dos resduos igual a 0 (zero).Ausncia de Autocorrelao.Ausncia de correlao entre os resduos e as variveis explicativas.Ausncia de multicolinearidade.

6Regresso logsticaA regresso logstica no pressupe a normalidade dos resduos.OBS.: Mtodos para estimao dos parmetros:

7Regresso logsticaNo entanto, de forma semelhante regresso mltipla, a regresso logstica tambm possui perspectivas para observar o ajustamento do modelo.Existe uma relao que diz respeito a duas vezes o logaritmo de verossimilhana (-2LL):

8Regresso logsticaAlgumas medidas de ajustamento merecem destaque:

1 Pseudo R.2 Cox & Snele R.3 Nagelkerk R.4 Teste Qui-quadrado.5 Hosmer-Lemeshow Goodness-of-fit test.

9Regresso logsticaPara analisar o poder preditivo do modelo, usual a utilizao de uma tabela levando em conta um ponto de corte chamado de c (classification cutoff).

O c (classification cutoff) o ponto que indica o percentual de sucessos observados na amostra selecionada. Por exemplo, caso o sucesso esperado seja a existncia de um sinistro, numa amostra de 200 casos, em que foi observado a ocorrncia de 30 sinistros, o c (classification cutoff) igual 32/200 = 0,16 = 16%. Mas isso relativo!10Regresso logstica usual o clculo da sensitividade (verdadeiro positivo) e da especificidade (verdadeiro negativo):Sensitividade: 25/32 = 78% (percentual de acertos dos casos de ocorrncia).Especificidade: 163/168 = 97% (percentual de acertos dos casos de no-ocorrncia).ObservadoPreditoOcorrncia do sinistroNo-ocorrncia do sinistroTotal Ocorrncia do sinistro25732 No-ocorrncia do sinistro5163168 Total3017020011Regresso logsticaSe para cada c (classification cutoff) fosse calculado a sensitividade e a especificidade, teramos a curva ROC (Receiver Operating Characteristic).

Quanto maior a rea abaixo do ROC (curva 2) maior a capacidade do modelo discriminar o grupo dos sinistrados com os no-sinistrados.Quanto mais prximo o ROC (curva 2) da reta diagonal (curva 3), pior o poder de discriminao do modelo.12Regresso logsticaInterpretao da rea abaixo da curva de ROC:rea abaixo da curva de ROCInterpretaoMenor ou igual a 0,5Baixa discriminaoEntre 0,7 e 0,8boa discriminaoMaior que 0,8tima discriminaoOutra medida de qualidade do ajustamento o modelo K-S (Kolmogorov-Smirnov):K-SInterpretaoMenor que 30Baixa discriminaoDe 30 a 50boa discriminaoMaior que 50tima discriminao13Regresso logsticaREGRESSO LOGSTICA: Um exemplo prtico14REGRESSO LOGSTICA: Um exemplo prticoArquivo: logistica.sav.Var. dependente: pagamento Var. explicativas: estado civil, idade e sexo Colocar nos lugares corretos.O exemplo no contm valores faltando (missing), no entanto, na p. 447 o autor d sugestes para esses casos.Regresso logstica no SPSS: Analyze -> Regression -> Binary Logistic.Em Method, por ora coloque Enter. Explicado na p. 447.Em Categorical, especifique as variveis categricas, neste caso, estado civil e sexo.

15REGRESSO LOGSTICA: Um exemplo prticoAinda em Categorical, escolha a referncia em Last ou First, indicada pelo valor 0 (normalmente Last). Aps esta escolha, clique em Change.Em Save, marque as opes Probabilities e Group Membership.No menu Options, marque Classification plots, Hosmer-Lemeshow goodness-of-fit e CI for exp(B).O ideal uma amostra equilibrada, 50% de ocorrncia do evento de interesse, mas neste caso de 72%. Assim, o valor do Classification Cutoff dever ser 0,72. Mais informaes na p. 449.

16REGRESSO LOGSTICA: Um exemplo prticoAinda na p. 449, os autores indicam o que fazer em situaes complexas de amostras no equilibradas.Como no houve alteraes desse aspecto na amostra, por fim, clique em Continue e em Ok.

Nos prximos slides sero apresentados os Outputs. Informaes sobre os processos realizados podem ser encontradas na pagina 447.

17REGRESSO LOGSTICA: Um exemplo prticoCategorizao da varivel dependente, em que 0 no ocorrncia do evento de interesse e 1 a ocorrncia.

18REGRESSO LOGSTICA: Um exemplo prticoFrequncias de indicaes de 0 e 1 para as variveis categricas, sexo e estado civil.

19REGRESSO LOGSTICA: Um exemplo prticoApresenta o modelo com apenas o intercepto. Serve para se comear a suspeitar sobre qual a varivel mais relevante para o modelo atravs do Score. Neste caso, estado civil.

20REGRESSO LOGSTICA: Um exemplo prticoUtiliza-se do texto Qui-quadrado para observar se os coeficientes em conjuntos so estatisticamente significativos a um nvel de significncia de 95%. Como ilustrado na figura, sim!

21REGRESSO LOGSTICA: Um exemplo prticoResultados do ajuste do modelo. A estatstica 2LL (1 da lista acima) no tem nenhum significado direto, apenas influncia o Qui-quadrado. As medidas Cox & Snell e Nagelkerk, so semelhantes ao R, porm, esta ltima prefervel devido ao valor mximo que pode assumir. Neste exemplo, o modelo proposto apresenta um poder explicativo de 44,3% .

22REGRESSO LOGSTICA: Um exemplo prticoTeste de Hosmer e Lemeshow. Comparao de eventos observados e esperados, com base na diviso de dados em 10 grupos analisando o n de ventos para cada categoria da varivel dependente. Este teste se refere ao (Qui-quadrado) para avaliar se h diferenas significativas entre as frequncias esperadas e observadas em cada faixa. Veja o prximo slide:

23REGRESSO LOGSTICA: Um exemplo prtico

O teste indica que no h diferena significativa, ao nvel de 5%, visto que o Sig. foi de 0,763 (ver slide anterior). Cabe ressaltar, porm, que o teste limitado, sendo seu resultados mais confiveis em grandes amostras.

24REGRESSO LOGSTICA: Um exemplo prticoTabela de Classificao. Ilustra como o modelo classifica corretamente os eventos com base no ponto de corte c de 0,72. Vale ressaltar que os pontos de corte podem ser alterados pelo pesquisados conforme o interesse em relao aos erros tipo I e tipo II. Continuao no prximo slide.

25REGRESSO LOGSTICA: Um exemplo prticoO percentual de acerto dos clientes em atraso que continuariam inadimplentes de 72% (36/36+14). E o percentual de acerto dos que deixariam de ser inadimplentes de 76,9% (100/100+30). O percentual de acerto global do modelo de 75,6% (36+100/36+14+30+100)

26REGRESSO LOGSTICA: Um exemplo prticoApresenta o resultado dos parmetros estimados (). Todos significativos a 5%. A estatstica de Wald semelhante ao teste t da regresso mltipla.OBS.: O livro no fala nada sobre o Exp(B) e o CI for Exp(B) O que so? O que indicam?

27REGRESSO LOGSTICA: Um exemplo prticoNo entendido:Na p. 453 o livro diz observe que o coeficiente dos indivduos casados de 0,116 (no seria 2,951?), o que significa que a probabilidade de ocorrncia do evento de interesse aumentada por um fator de 1,123 e relao aos solteiros (como ele achou isso?).

28REGRESSO LOGSTICA: Um exemplo prticoOs autores advertem que os coeficientes devem ter lgica, caso no possuam, pode ser problema de multicolinearidade, cabe ao pesquisador verificar tal fato!

O problema de multicolinearidade ocorre quando variveis explicativas do modelo apresentam comportamentos semelhantes, ou seja, entre algumas delas pode existir correlao elevada. Na p. 359 os autores falam sobre o assunto e apresentam possveis formas de identificar a multicolinearidade, bem como suas possveis solues, como o mtodo Stepwise, apresentado na p. 365.

29REGRESSO LOGSTICA: Um exemplo prticoNo Data View do SPSS aparecero a probabilidade de ocorrncia de cada uma das observaes e tambm a probabilidade de ocorrncia do evento de interesse pagamento para cada observao. Por exemplo, 0,58% e no pagamento para o caso da primeira observao.

30REGRESSO LOGSTICA: Um exemplo prticoSe esses valores de probabilidade calculados para cada uma das observaes for maior que o ponto de corte c (0,72%), ocorrer o evento de interesse (pagamento). Caso seja menor, como no caso da primeira observao, no ocorrer o evento de interesse (pagamento).

31REGRESSO LOGSTICA: Um exemplo prticoGrfico de distribuio de frequncia das probabilidades de ocorrncia do evento de interesse em relao aos pontos de corte, o que auxilia no estabelecimento de outros pontos de corte (p. 454).

32REGRESSO LOGSTICA: Um exemplo prticoCurva de ROC (Receiver Operating Characteristic):Analyse -> ROC curve.Em Test Variable, inclua as probabilidades previstas (PRE_1) e em State Variable inclua a varivel dependente (pagamento).Em Value of State Variable, digite 1, que representa o evento de interesse.Marque as opes: ROC curve with diagonal reference line e Standard Error and confidence interval. S isso!

33REGRESSO LOGSTICA: Um exemplo prticoCurva de ROC (Receiver Operating Characteristic):

Como a rea abaixo da curva de 0,846, pode-se dizer que o poder de discriminao do modelo considerado excelente (ver slide 13 )

34REGRESSO LOGSTICA: Um exemplo prticoCurva de ROC (Receiver Operating Characteristic):

35REGRESSO LOGSTICA: Um exemplo prticoATENO:

As premissas do modelo de regresso logstica apresentadas neste captulo 12 devem ser testadas seguindo a mesma lgica proposta no captulo 10 anlise de regresso, cujos testes no foram repetidos neste captulo 12.Destaca-se tambm que no exemplo apresentado foi utilizado o mtodo Enter, podendo ser utilizado outros mtodos, como o Foward Wald, onde o prprio SPSS seleciona as variveis relevantes.

36Leverage (Hi) e CookExistem mtodos para diagnosticar a influncia relativa de cada observao da amostra do ajuste do modelo, esse mtodos so as medidas de distncia de Leverage (Hi) e Cook.Para acion-las, v no menu save da regresso logstica e marque as opes Cooks e Leverage Values.Quanto mais prximo de 0 (zero), melhor, pois h menor influncia nos parmetros por indivduo.Este mtodo de diagnstico no se aplica somente a regresso logstica, mas tambm a modelos de regresso linear simples e mltipla.

37Leverage (Hi) e CookA distncia de Cook comumente utilizada para estimar a influncia de determinada observao em modelos de regresso.Um grfico de pontos Scatter/Dot pode ser elaborado com as distncias de Cook no eixo Y e o id (n da observao) no eixo X:Graphs -> Legacy Dialogs -> Scatter/Dot, depois clique em sample scatter e Define. Coloque o Analogof Cook no eixo Y e o id no eixo X.Na prtica, recomenda-se que observaes com distncia de Cook prximas de 1 ou maiores sejam eliminadas da amostra.

38Leverage (Hi) e Cook

Ateno: Isso est na p. 456, porm no livro os autores no ensinam como fazer aparecer o n da observao.39Regresso logstica multinomialA Reg. Log. Multinomial permite que a varivel categrica dependente apresente mais de duas categorias.Essas categorias podem ser nominal (ex.: preferncia por carro: GM, FIAT, BMW) ou ordinal (ex.: no satisfeito, muito satisfeito ou no satisfeito).A Reg. Log. Multinomial ordinal como do exemplo acime (no satisfeito, muito satisfeito ou no satisfeito) no foi abordada no livro.Na Reg. Log. Multinomial, uma das categorias da varivel dependente dever ser escolhida como referncia. A escolha pode ser arbitrria ou no, dependendo do interesse. Isso no altera o modelo, apenas a forma de interpretao.

40Regresso logstica multinomial41Regresso logstica multinomialRegresso logstica multinomial: Um exemplo prtico42Reg. Log. Multinomial: Um exemplo prticoNo exemplo, quer-se comparar o perfil dos clientes que esto dispostos a comprar um carro (a vista ou financiado), com o perfil dos que no esto dispostos a comprar.Analyze -> Regression -> Multinomial LogisticEm Dependent Variable coloque Y. Em Reference Category, coloque a categoria de referncia: Custom e digite 0 (zero).

43Reg. Log. Multinomial: Um exemplo prticoEm Factor(s) deve-se colocar as variveis categricas: sexo e classe social.Em Covariate(s) deve-se colocar variveis mtricas: dif_ano.No exemplo no h interaes entre variveis, mas se assim desejar, v em Model e inclua a opo (o livro no disse como!).

44Reg. Log. Multinomial: Um exemplo prticoEm Statistics, marque as opes conforme a imagem:

45Reg. Log. Multinomial: Um exemplo prticoNo menu Save, marque as opes conforme a imagem:

Por fim, clique em OK.

46Reg. Log. Multinomial: Um exemplo prticoAIC (Akaike Information Criterion) e BIC (Bayesian Information Criterion), so indicadores utilizados na comparao de modelos. Como no exemplo no foram testados outros modelos e nem feito interaes entre variveis, no possvel fazer comparaes entre modelos (p. 460) (e se fosse? Como fica isso? O livro no explica!).

47Reg. Log. Multinomial: Um exemplo prticoInformaes acerca do Pseudo R. O poder explicativo do modelo apenas modesto, com um Nagelkerke R de 40,4%.

48Reg. Log. Multinomial: Um exemplo prticoParmetros estimados. Informaes sobre essa imagem nos dois prximos slides!

49Reg. Log. Multinomial: Um exemplo prticoQuando comparado os clientes que no trocariam o carro (Y = 0) com os clientes que trocariam e pagariam vista (Y = 1), percebemos que no h um coeficiente das variveis significativo.No entanto, quando comparado os clientes que no trocariam o carro (Y = 0) com os clientes que trocariam por financiamento (Y = 2), percebemos que todas os coeficientes das variveis so significativos, exceto o coeficiente linear .O pesquisador deve julgar portanto se vale pena manter as mesmas categorias da varivel dependente (Y).

50Reg. Log. Multinomial: Um exemplo prticoVale pena manter as mesmas categorias da varivel dependente (Y)? Se considerar que sim, os valores dos coeficientes angulares devem ser mantidos, se no, deve-se excluir a categoria 1 (comprariam vista) e fazer um novo teste, neste caso, Regresso Binria (CERTO?).Segundo os autores, talvez seja melhor excluir a categoria 1 (comprariam vista) e elaborar o teste novamente.Para fins didticos, manteve-se a categoria e prosseguiu-se com a anlise.

51Reg. Log. Multinomial: Um exemplo prticoAs probabilidades de Y = 0, Y = 1 e Y = 2 foram salvas na base de dados do SPSS, conforme ilustra a imagem!

52Reg. Log. Multinomial: Um exemplo prticoEST1_1: Probabilidade do indivduo pertencer ao primeiro grupo (Y = 0).EST2_1: Probabilidade do indivduo pertencer ao segundo grupo (Y = 1).EST3_1: Probabilidade do indivduo pertencer ao terceiro grupo (Y = 2).PRE_1: Indica a qual grupo realmente deve pertencer o indivduo (0, 1 ou 2). Ser indicado pelo maior valor entre EST1_1, EST2_1 e EST3_1.PCP_1: Indica a probabilidade prevista para o indivduo. Deve ser comparada com os valores de EST1_1, EST2_1 e EST3_1 para observar o que PRE_1 j indica.ACP_1: Indica a probabilidade observada. Anlise semelhante PCP_1.OBS.: EST1_1, EST2_1 e EST3_1 so chamados de taxas de risco.

53Reg. Log. Multinomial: Um exemplo prticoO ltimo slide faz uma anlise que aborda as comparaes entre previstos e observados. Segue a sada do SPSS:

Essa imagem ilustra o grau de acerto para cada categoria e tambm a performance geral, que de 63,3%.

54Regresso LogsticaRelao com outras teorias55Relao com outras teoriasA Regresso Logstica utilizada para prever o comportamento de uma varivel categrica binria, indicando, inclusive, a probabilidade de ocorrncia de um evento de interesse.Duas outras tcnicas tambm almejam prever o comportamento de variveis categorias: A Anlise discriminante (captulo 11) e a Anlise de sobrevivncia ou Modelo de Riscos proporcionais (captulo 15).

56Relao com outras teoriasEmbora a Anlise discriminante seja uma tcnica robusta, ela necessita de muitas premissas, tornando a sua utilizao prtica relativamente limitada, comparando-a com a Regresso Logstica.A Anlise de sobrevivncia diferencia-se da Regresso Logstica por considerar o tempo para a ocorrncia do evento de interesse.Vale destacar que podem ocorrer situaes em que as trs tcnicas sero utilizveis, cabendo ao pesquisador analisar qual modelo melhor retratar a realidade subjacente.

57