comparação entre análise discriminante e regressão ...ce229:tcc2008... · resumo o estudo...

49
MARCELO RIBEIRO DA LUZ MARCOS FABIANE KUFNER Comparação entre Análise Discriminante e Regressão Logística como método de melhor resultado na verificação de fatores que influenciam a evasão de alunos do Curso de Estatística da UFPR. Trabalho apresentado para a disciplina de Laboratório de Estatística II do Curso de graduação em Estatística da Universidade Federal do Paraná. Orientadora: Profa. Sonia Isoldi M. Muller CURITIBA 2008

Upload: vodan

Post on 02-Sep-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

MARCELO RIBEIRO DA LUZ

MARCOS FABIANE KUFNER

Comparação entre Análise Discriminante e Regressão

Logística como método de melhor resultado na verificação

de fatores que influenciam a evasão de alunos do Curso de

Estatística da UFPR.

Trabalho apresentado para a disciplina de

Laboratório de Estatística II do Curso de

graduação em Estatística da Universidade

Federal do Paraná.

Orientadora: Profa. Sonia Isoldi M. Muller

CURITIBA

2008

Page 2: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

RESUMO

O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas

estatísticas, a Análise Discriminante e a Regressão Logística, como sendo a melhor

técnica para verificar os fatores que influenciam na evasão de alunos do Curso de

Estatística. Neste estudo foram coletadas informações de 166 alunos que

ingressaram no Curso de Estatística da Universidade Federal do Paraná entre os

anos de 1998 e 2000, sendo que foi tomado como base nota e freqüência das 5

disciplinas cursadas no 1° semestre do curso, e variáveis como gênero, estado civil,

classificação no vestibular, escores no vestibular das matérias de matemática,

física, química, português, biologia, história, língua estrangeira moderna e redação.

Como a variável resposta é dicotômica, ou seja, apresenta as categorias desistência

do curso ou a não desistência do curso, pode-se aplicar estas duas análises neste

estudo. Conclui-se pelos resultados obtidos nas análises, que não há diferença entre

os métodos utilizados e, que as variáveis nota e freqüência têm uma maior

influência na evasão do aluno no Curso de Estatística da Universidade Federal do

Paraná.

Palavras-chaves: Regressão Logística, Análise Discriminante, Evasão.

i

Page 3: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

SUMÁRIO

RESUMO............................................................................................................................. i

1. INTRODUÇÃO.............................................................................................................01 1.1 O PROBLEMA........................................................................................................01

1.2 HIPÓTESES.............................................................................................................02

2. OBJETIVOS..................................................................................................................03 2.1 OBJETIVO GERAL.................................................................................................03

2.2 OBJETIVO ESPECÍFICO.......................................................................................03

3. JUSTIFICATIVA...........................................................................................................03

4. MATERIAL E MÉTODOS..........................................................................................04 4.1 DADOS COLETADOS............................................................................................04

4.2 METODOLOGIA ESTATÍSTICA...........................................................................04

4.2.1 Regressão Logística............................................................................................04

4.2.1.1 Estatísticas Qui-quadrado............................................................................07

4.2.1.2 Sensibilidade e Especificidade....................................................................08

4.2.1.3 Poder Preditivo do Modelo..........................................................................08

4.2.1.4 Deviance Residual e Resíduos de Pearson.................................................08

4.2.1.5 Gráfico Q-Qplot com Envelope Simulado..................................................09

4.2.2 Reconhecimento de Padrões e Classificação......................................................10

4.2.2.1 Problema Geral de Classificação.................................................................11

4.2.2.2.Critério TPM................................................................................................14

4.2.2.3. Classificação com Duas Populações Normais Multivariadas.....................15

4.2.2.4 Discriminação e Classificação entre 2 Populações - Método de Fischer....17

4.3 ESTATÍSTICA KAPPA............................................................................................21

4.4 RECURSOS COMPUTACIONAIS.........................................................................23

5. RESULTADOS E DISCUSSÕES ................................................................................24

5.1 – ANÁLISE DE REGRESSÃO LOGÍSTICA.........................................................24

5.1.2 – Ajuste do modelo de Regressão Logístico......................................................26

5.1.2.1. Qualidade do Modelo Ajustado .................................................................27

5.1.2.2. Poder Preditivo do Modelo.........................................................................28

5.2 ANÁLISE DISCRIMINANTE ...............................................................................29

5.2.1 Analise Discritiva...............................................................................................29

5.2.2 Poder Preditivo do Modelo.................................................................................30

ii

Page 4: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

5.3 COMPARATIVO ENTRE OS METODOS ESTUDADOS....................................34

6 CONCLUSÕES .............................................................................................................36

7 REFERÊNCIAS BIBLIOGRÁFICAS.........................................................................37

APÊNDICES......................................................................................................................38

iii

Page 5: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

1. INTRODUÇÃO

1.1 O PROBLEMA

No Brasil, evasão escolar entende-se como a interrupção do ciclo de estudos, o que

é uma realidade em todas as IES (Instituição de Ensino Superior) do país. Esse abandono

trás prejuízos tanto para o aluno que não terminou o curso e não terá em seu currículo o

título de formação, quanto para as instituições que perdem em prestigio externo ou

internamente e também a sociedade com investimentos mal aproveitados, conforme

CASTRO (2005).

Por que um jovem ou uma jovem que, por meio de todos os esforços possíveis,

conseguiu uma vaga universitária abandona a escola? A desistência na educação superior é

relacionada a grande diversidade do sistema e à especificidade de cada instituição.

Na busca de respostas para as causas desse fenômeno deve-se analisar o que está

sendo efetivamente implementado para favorecer as condições acadêmicas do aluno e,

conseqüentemente, melhorar o sistema de ensino nacional. Conforme enfatiza CASTRO

(2005), a evasão é sempre um processo individual, se bem que pode constituir-se em

fenômeno coletivo a ser estudado como associado à eficiência do sistema.

Pode haver decepções, também, quanto às expectativas levantadas em relação à

vida universitária, à estrutura e metodologia do trabalho acadêmico e ao excesso de aulas

teóricas nos primeiros semestres, quando o aluno, mesmo com o pouco conhecimento

específico, almeja o exercício da profissão.

Candidatos à educação superior, em decorrência de suas condições sociais e

financeiras, desistem desde o início, da tentativa de ingressar em um curso mais

concorrido, portanto, de mais difícil acesso, e optam por outro menos procurado, mesmo

com pouco interesse em exercer a profissão correspondente. Esperam que a opção por

áreas menos concorridas possibilite o ingresso a um nível educacional, cujo título poderá

facilitar a ascensão social.

Neste aspecto, observa que a universidade construiu em seu interior um sistema

1

Page 6: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

semelhante ao resto do sistema escolar. Algumas carreiras fazem parte do sonho da

maioria dos candidatos, e chegam a selecionar os mais preparados, seja qual for o critério

de seleção.

Com o significativo crescimento da iniciativa privada na educação superior

brasileira, fatores econômicos ligados ao trabalho e ao estudo podem ser mais decisivos

que a qualidade.

Conforme CASTRO (2005), as raízes das diferentes formas de abandono são

distintas e as ações preventivas para tratarem desses comportamentos também devem ser

diferentes. Antes de iniciar programas de manutenção dos estudantes na universidade, é

indispensável conhecer as formas de evasão. Não basta saber quem e quantos abandonam,

mas o porquê da decisão e avaliar o grau de integração universitário, a fim de buscar o

desenvolvimento dos sistemas.

Inúmeros estudos, teses de mestrados, doutorado tentam entender os aspectos

comuns entre os estudantes que evadem os cursos superiores, na tentativa de criar uma

ferramenta que possa identificar características visando auxiliar a IES a desenvolver

programas que ajudem a reduzir os números da evasão.

Neste estudo analisou-se diferentes variáveis de alunos matriculados no ano de

1998/1999/2000 no Curso de Estatística da Universidade Federal do Paraná, notas e

freqüências nas 5 disciplinas do 1º semestre do curso, gênero, estado civil, classificação no

vestibular, escore em matemática, português, biologia, química, geografia, física, história,

língua estrangeira moderna e redação. Também foram comparados dois métodos

estatísticos para verificar qual deles é o melhor. Além disso, pretende-se identificar se o

que desestimula o aluno é a dificuldade/ interesse nas disciplinas.

1.2 HIPÓTESES

• O procedimento estatístico de Análise Discriminante é mais eficiente do que o de

Regressão Logística

• As co-variáveis nota e freqüência das disciplinas cursadas no 1º semestre do curso são

mais importantes na evasão que as demais.

2

Page 7: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

2. OBJETIVOS

2.1OBJETIVO GERAL

O objetivo geral deste trabalho é verificar qual das metodologias estatísticas, neste

caso a Análise Discriminante e a Regressão Logística têm o melhor desempenho na

verificação dos fatores que influenciam na evasão dos alunos do Curso de Estatística da

UFPR.

2.2OBJETIVO ESPECÍFICO

Identificar quais as co-variáveis são mais significativas na detecção de futuros

alunos que ingressam no Curso de Estatística e que venham a desistir do curso após

cursarem o primeiro período.

3. JUSTIFICATIVA:

O Curso de Estatística da UFPR historicamente tem um número elevado de alunos

que não concluem o curso, muitos deles já desistem logo após completarem o 1° semestre,

sendo assim este estudo visa tentar detectar as possíveis razões desta evasão, e que num

futuro próximo seja possível trabalhar com os aspectos que mais influenciam na evasão

para que este tipo de situação ocorra o menor numero de vezes. Na Estatística existem

métodos de concepção diferentes para respostas dicotômicas. Escolheu-se fazer uma

comparação entre o método de Análise Discriminante e o método de Regressão Logística.

3

Page 8: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

4. MATERIAL E MÉTODOS

4.1 DADOS COLETADOS

Este estudo foi realizado com 166 alunos que ingressaram no Curso de Estatística

da Universidade Federal do Paraná nos anos de 1998, 1999 e 2000, tendo como objetivo

investigar quais as co-variáveis apresentam-se significativas para a variável resposta:

evasão (54 observações) ou não evasão do curso (112 observações).

4.2 METODOLOGIA ESTATÍSTICA

4.2.1 Regressão Logística

A escolha da técnica estatística a ser utilizada segundo GIOLO (2004) deve ser

levada em conta com relação à natureza da variável resposta, neste caso a variável

resposta é dicotômica, ou seja, apresenta as categorias evasão do curso ou não evasão do

curso, e ainda do ponto de vista matemático, fácil de ser usada e de interpretação bem

simples. Sendo assim optou-se pela utilização da Regressão Logística, na tentativa de

encontrar um modelo explicativo da variável resposta em função das variáveis

explicativas.

A Regressão Logística parte da função de distribuição logística que é dada por:

F(x)= 1 = e x , para x = - ∞,....., +∞ 1 + e-x 1+ ex (1)

A função de distribuição logística toma valores entre zero e um, assume valor zero

em uma parte do domínio das variáveis explicativas, um em outra parte do domínio e

cresce suavemente na parte intermediária possuindo uma particular curva em forma de

“S”.

O modelo de Regressão Logística é expresso por: p

exp β0 + ∑ βk xk θ(x) = P(Y =1 | x)= k=1 .

p

1+ exp β0 + ∑ βk xk (2) k=1

4

Page 9: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

Para descrever a variação entre os θ(x)=E(Y|x) foi, então, foi proposto a utilização

do modelo acima citado, onde Yi = 1 significa a presença da resposta, x é o vetor que

representa as p co-variáveis (fatores de risco), isto é, x=(x1, x2,..., xp). O parâmetro β0 é o

intercepto e βk (k=1,..., p) são os p parâmetros da regressão. Nota-se que este modelo

retornará uma estimativa da probabilidade do indivíduo ter a resposta dado que o mesmo

possui, ou não, determinados fatores de risco. Conseqüentemente,

1 - θ(x) = 1

p

1 + exp β0 + ∑ βk xk (3) k=1

retornará uma estimativa de probabilidade do indivíduo não ter a resposta dado que o

mesmo possui ou não determinados fatores de risco.

Observe, ainda, que fazendo-se:

Log θ(x) = β0+∑P βk xk

1 - θ(x) k=1 (4)

Tem-se um modelo linear para seus parâmetros, e dependendo da variação de x,

pode ser contínuo e variar de - ∞ a + ∞. A estimação dos parâmetros em Regressão

Logística geralmente é feita pelo método da máxima verossimilhança. Para a aplicação,

deste método é necessário construir inicialmente a função de verossimilhança a qual

expressa à probabilidade dos dados observados como uma função dos parâmetros

desconhecidos. Os estimadores de máxima verossimilhança dos parâmetros serão os

valores que maximizam esta função.

Para encontrar esses valores no modelo de Regressão Logística, considera-se a

variável resposta Y codificada como 0 ou 1. Da expressão (2) pode-se obter a

probabilidade condicional de que Y=1 dado x, Isto é, θ(x) = P(Y=1|x) e, que 1 - θ(x)

fornece a probabilidade condicional de que Y=0 dado x. Assim, θ(x) será a contribuição

para a função de verossimilhança dos pares (Yi, xi) em que Yi = 1 e 1 - θ(xi), a contribuição

dos pares em que Yi=0.

Assumindo então que as observações são independentes tem-se a seguinte

expressão:

L(β) = ∏ (θ(xi))Yi (1- θ(xi))1-yi (5)

As estimativas de β serão os valores que maximizam a função de verossimilhança

5

Page 10: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

dada em (5). Algebricamente é mais fácil trabalhar com o logaritmo desta função, isto é,

com:

l(β)=log L(β) = +∑n yi log (θ(xi)) + (1 - yi) log (1 - θ(xi)) (6) i=1

Para obter os valores de β que maximizam l(β) basta diferenciar a respectiva

função com respeito a cada parâmetro βj (j = 0, 1,..., p) obtendo-se, assim, o sistema de

(p+1) equações,

∑n(yi - θ(xi)) = 0 i=1

∑n xij (yi - θ(xi)) = 0 j= 1,..., pi=1

que, quando igualadas a zero, produzem como solução as estimativas de máxima

verossimilhança de β. Os valores ajustados para o modelo de regressão logístico são,

portanto, obtidos substituindo-se as estimativas de β em (2).

As p + 1 equações são chamadas equações de verossimilhança e por serem não-

lineares nos parâmetros βj (j = 0, 1,..., p), requerem métodos especiais para suas soluções.

Os métodos iterativos de Newton-Raphson e o escore de Fischer são algorítmos numéricos

comumente utilizados com essa finalidade.

O método de estimação de variâncias-covariâncias dos coeficientes estimados

seguem da teoria da estimação de máxima verossimilhança a qual estabelece que os

estimadores são obtidos pela matriz de derivadas parciais de segunda ordem do logaritmo

da função de verossimilhança. Essa derivada tem a seguinte forma geral:

δ 2 log L(β) = - ∑nxij2 θ(xi) (1-θ(xi)) para j,l=0,1,..,p. (7)

δ β2

j

δ 2 log L (β) =-∑nxij xilθ(xi) (1-θ(xi)) para j,l=0,1,..,p. (8)

δ βj δ βl

A matriz contendo o negativo dos termos dados nas equações (7) e (8) será

denotada por I(β) e é chamada matriz de informação. As variâncias e co-variâncias dos

coeficientes estimados serão obtidas pela inversa da matriz, será denotada por ∑(β)=

I-1(β). O j-ésimo elemento da diagonal dessa matriz, denotado por σ2 (βj ), corresponde a

variância de βj e, o elemento na j-ésima linha e l-ésima coluna, dessa matriz, denotado por

σ(βj, βl), corresponde a co-variância entre βj e, βl. Os estimadores das variâncias e co-

variâncias, denotados por . ∑ (β), são obtidos por avaliar ∑ (β) em β.

6

Page 11: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

Em notação matricial, a matriz de informação I(β)=X'VX em que X é uma matriz

com n linhas e p + 1 colunas contendo um vetor de uns e as co-variáveis dos indivíduos, e

V é matriz diagonal de n linhas e n colunas com elementos θ(x)(1 – θ(x)) na diagonal.

4.2.1.1 Estatística Qui-quadrado

A estatística Qui-quadrado é utilizada para, considerando um determinado p-valor,

verificar quais as variáveis são significativas no modelo, sendo assim os totais marginais

n+1 e n+2 são fixos e, portanto, sob a hipótese nula H0, de não existência de significância

para o estudo, a distribuição de probabilidade associada é a hipergeométrica. Assim o

valor esperado de nij é:

E(Nij | H0) = (ni+)(n+j) = mij

n

e a variância:

V (Nij | H0) = (n1+) (n2+) (n+1) (n+2) = vij.n2(n - 1)

Para uma amostra suficientemente grande, n11 tem aproximadamente uma

distribuição normal, o que implica que:

Q = (n11 - m11)2

v11

tem aproximadamente uma distribuição qui-quadrado com um grau de liberdade. Não

importa como as linhas e colunas sejam arranjadas, Q assumirá sempre o mesmo valor,

uma vez que:

| n11 - m11| = | nij - mij | = | n11n22 - n12n21| n

Uma estatística relacionada a Q é a estatística de Pearson dada por:

QP = ∑2 ∑2 (nij - mij)2 = n Q. i=1 j=1 mij (n -1)

Se as contagens (freqüências) nas caselas forem suficientemente grandes, QP segue

uma distribuição qui-quadrado com um grau de liberdade. Ainda, quando n cresce, QP e Q

convergem. Uma regra útil para determinar o tamanho amostral adequado para Q e QP é

que o valor esperado mij seja maior do que 5 para todas as caselas.7

Page 12: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

4.2.1.2 Sensibilidade e Especificidade

Estas medidas determinam a eficiência do modelo selecionado detectar a verdade.

A sensibilidade é definida como a proporção de resultados positivos que o estudo

apresenta, quando realizado em sujeitos conhecidos terem a doença, ou seja, é a proporção

de verdadeiros positivos. A especificidade, por outro lado, é definida como a proporção de

resultados negativos que o estudo apresenta, quando realizado em sujeitos conhecidos

estarem livres da doença (proporção de verdadeiro negativo). O desejado de um exame

(teste) é que ele tenha, simultaneamente, alta sensibilidade e especificidade. Conforme

tabela abaixo:

4.2.1.3 Poder Preditivo do Modelo

O poder preditivo do modelo pode também ser obtido com a finalidade de avaliar a

qualidade do modelo ajustado. Para isso, faz-se necessário estabelecer uma probabilidade,

denominada “ponto de corte", a partir da qual se estabeleça que:

- a variável resposta receba o valor 1, isto é, Y = 1 para probabilidades estimadas pelo

modelo que sejam maiores ou iguais a esse ponto de corte e, ainda, que

- a variável resposta receba o valor 0, isto é, Y = 0 para probabilidades estimadas pelo

modelo que sejam menores do que esse ponto de corte.

4.2.1.4 Deviance Residual e Resíduos de Pearson

As estatísticas Qui-quadrado de Pearson (Qp) e deviance (QL), são usadas para

verificar a qualidade de ajuste do modelo de Regressão Logística, fornece um único

número o qual resume a concordância entre os valores observados e os ajustados.

PREGIBON (1981) estendeu os métodos de diagnóstico de regressão linear para a

Regressão Logística e argumenta que, como as estatísticas Qp e QL são duas medidas usa-

8

Tabela 1 - Quadro de medidas usadas para determinar eficiência de um testeMedida estatística Definição Valor esperado

Sensibilidade Proporção de resultados positivos AltoEspecificidade Proporção de resultados negativos Alto

Page 13: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

das para verificar a qualidade do modelo ajustado, faz sentido analisar os componentes

individuais dessas estatísticas, uma vez que estes componentes são funções dos valores

observados e preditos pelo modelo.

Assim, se em uma tabela de contingência de dimensão s x 2, tem-se para cada uma

das s linhas ni+ sujeitos dos quais ni1 apresentam a resposta de interesse (sucesso) e θi1

denota a probabilidade predita de sucesso para a i-ésima linha (grupo), define-se o i-ésimo

resíduo por:

ci = ni1- ((ni+) θi1) i = 1...s.

(ni+) θi1 (1 - θi1)

Esses resíduos são conhecidos como resíduos de Pearson, uma vez que a soma

deles ao quadrado resulta em QP. O exame dos valores residuais ci auxiliam a determinar

quão bem o modelo se ajusta aos grupos individuais.

Freqüentemente, resíduos excedendo o valor |2,0| (ou |2,5|) indicam falta de ajuste.

Similarmente, a deviance residual é um componente da estatística deviance e é expressa

por: di=sinal(ni1 - yi1)[2 ni1 log(ni1/yi1)+2(ni+ - ni1) log((ni+ - ni1)/(ni+ - yi1))]1/2, onde yi1=(ni+) θi1.

A soma das deviances residuais ao quadrado resulta na estatística deviance QL. A

partir do exame dos resíduos deviance pode-se observar a presença de resíduos não usuais

(demasiadamente grandes), bem como a presença de outliers ou, ainda, padrões sistemá-

ticos de variação indicando, possivelmente, a escolha de um modelo não muito adequado.

As estatísticas de diagnóstico apresentadas permitem, ao analista, identificar

padrões de co-variáveis que não estão se ajustando bem ao modelo. Após estes padrões

serem identificados, pode-se, então, avaliar a importância que eles têm na análise.

4.2.1.5 Gráfico Q-Qplot com Envelope Simulado

No caso em que a variável resposta é assumida ser normalmente distribuída, é

comum que afastamentos sérios da distribuição normal sejam verificados por meio do

gráfico de probabilidades normal dos resíduos. No contexto de modelos lineares

generalizados, em que distribuições diferentes da normal são também consideradas, gráfi-

9

Page 14: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

cos similares com envelopes simulados podem ser também construídos com os resíduos

gerados a partir do modelo ajustado. A inclusão do envelope simulado no Q-Qplot auxilia

a decidir se os pontos diferem significativamente de uma linha reta, (GIOLO, 2006), para

gerar tais gráficos em: regressão gama, logística, Poisson e binomial negativa, além da

normal. Para que o modelo ajustado seja considerado satisfatório, faz-se necessário que as

deviances residuais caiam dentro do envelope simulado.

4.2.2 Reconhecimento de Padrões e Classificação

De acordo com JOHNSON & WICHERN (1988), análise discriminante é uma

técnica multivariada interessada com a separação de uma coleção de objetos (observações)

distintos e que alocam novos objetos em grupos previamente definidos. A Análise

Discriminante quando empregada como procedimento de classificação não é uma técnica

exploratória, uma vez que ela conduz a regras bem distribuídas, as quais podem ser

utilizadas para classificação de novos objetos.

As técnicas estatísticas de discriminação e classificação estão incorporadas num

contexto mais amplo, que é o do reconhecimento de padrões. Participa junto com técnicas

de programação matemática e redes neurais na formação do conjunto de procedimentos

usados no reconhecimento e classificação de objetos e indivíduos.

Os objetivos imediatos da técnica quando usada para discriminação e classificação

são, respectivamente, os seguintes:

1. Descrever algebricamente ou graficamente as características diferenciais dos objetos

(observações) de várias populações conhecidas, no sentido de achar “discriminantes”

cujos valores numéricos sejam tais que as populações possam ser separadas tanto

quanto possível.

2. Grupar os objetos (observações) dentro de duas ou mais classes determinadas. Tenta-se

encontrar uma regra que possa ser usada na alocação ótima de um novo objeto

(observação) nas classes consideradas.

Uma função que separa, pode servir como alocadora, e da mesma forma uma regra

alocadora, pode sugerir um procedimento discriminatório. Na prática, os objetivos 1 e 2,

freqüentemente, sobrepõem-se e a distinção entre separação e alocação torna-se confusa.

10

Page 15: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

A terminologia de “discriminar” e “classificar” foi introduzida por FISCHER

(1936) no primeiro tratamento moderno dos problemas de separação.

4.2.2.1 Problema Geral de Classificação

Para ilustrar a complexidade desse tipo de sistema, considere o seguinte exemplo

citado por ASCENSO E FRED (2003): Uma indústria recebe dois tipos de peixe, salmão e

robalo. Os peixes são recebidos em uma esteira, e o processo de classificação é manual. A

indústria gostaria de automatizar esse processo, usando para isso uma câmera.

Primeiramente devemos encontrar as características que distinguem um salmão de um

robalo. Altura, largura, coloração, posição da boca, e etc... Dado as diferenças entre as

populações de Salmão e Robalo, podemos dizer que cada uma possui um modelo

específico. Com base em duas variáveis x1 = altura e x2 = claridade, obtem-se dois grupos

n1 = robalos e n2 =salmão, assim teremos a representação gráfica a seguir:

Figura 1 – Representação gráfica dos dados no espaço discriminante

Observa-se na figura 1 que:

1) robalos tendem a ser mais claros;

2) claridade parece discriminar melhor que altura

3) existem mistura entre grupos.

Dado que existe mistura e conseqüentemente classificações erradas, a idéia é criar

uma regra (regiões R1 e R2) que minimize a chance de fazer esta mistura. Um bom

procedimento resultará pouca mistura de elementos grupais. Pode ocorrer que de uma

classe ou população exista maior probabilidade de ocorrência do que de outra classe. Uma

11

Page 16: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

regra de classificação ótima deve levar em conta as probabilidades de ocorrência a

“priori”. Outro aspecto da classificação é o custo. Suponha que classificar um item em Π1

quando na verdade ele pertencente a Π2 represente um erro mais sério do que classificar

em Π2 quando o item pertencente a Π1. Então deve-se levar isso em conta.

Seja f1( x ) e f2( x ) as f.d.p.’s associadas com o vetor aleatório X de dimensão p das

populações Π1 e Π2, respectivamente. Um objeto, com as medidas x , deve ser reconhecido

como de Π1 ou de Π2. Seja Ω o espaço amostral, isto é, o conjunto de todas as possíveis

observações x . Seja R1 o conjunto de valores x para os quais nós classificamos o objeto

como Π1 e R2 = Ω - R1 os remanescentes valores x para os quais nós classificaremos os

objetos como Π2. Os conjuntos R1 e R2 são mutuamente exclusivos.

Para p = 2, podemos ter a figura:

Figura 2: Regiões de classificação para duas populações

A probabilidade condicional, de reconhecer um objeto como de Π2 quando na verdade ele é de Π1 é:

∫ −Ω==Π∈=

12 RR 112 xd)x(f)|RX(P)1|2(P

Da mesma forma:

∫=Π∈=1R 221 xd)x(f)|RX(P)2|1(P

P(2|1) representa o volume formado pela f.d.p. f1( x ) na região R2.

12

Page 17: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

Sendo p = 1 (caso uni-variado) tem-se:

R 1 R 2

C lassificado como Class ificado como

P f x dx R

( | ) ( ) 1 2 2

1

= ∫ P f x dx

R

( | ) ( ) 2 1 1

2

= ∫

f 1 (x) f 2 (x)

π 1 π 2

Figura 3: Classificação das Regiões para Duas Populações.

Seja p1 a probabilidade a “priori” de Π1 e p2 ser a probabilidade a “priori” de Π2,

onde p1 + p2 = 1. As probabilidades de reconhecer corretamente ou incorretamente são

dados por:

P(rec. correta/te. como Π1) = P( X ∈ Π1 e é rec. correta/te como Π1) =

= P( X ∈ R1| Π1)P(Π1) = P(1|1)p1

P(rec. incorreta/te como Π1) = P( X ∈ Π2 e é rec. incorreta/te como Π1) =

= P( X ∈ R1| Π2)P(Π2) = P(1|2)p2

P(rec. correta/te como Π2) = P( X ∈ Π2 e é rec. correta/te como Π2) =

= P( X ∈ R2| Π2)P(Π2) = P(2|2)p2

P(rec. incorreta/te como Π2) = P( X ∈ Π1 e é rec. incorreta/te como Π2) =

= P( X ∈ R2| Π1)P(Π1) = P(2|1)p1

Regras de reconhecimento são freqüentemente avaliados em termos de suas

probabilidades de reconhecimento errado.

Tabela 2: Matriz do Custo de Reconhecimento ErradoReconhecimento como

Π1 Π2

População verdadeira

Π1 0 c(2|1)Π2 c(1|2) 0

13

Page 18: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

Para qualquer regra, a média, ou o custo esperado de reconhecimento (clas-

sificação) errado é dado pela soma dos produtos dos elementos fora da diagonal principal

pelas respectivas probabilidades:

ECM = c(2|1)P(2|1)p(1) + c(1|2)P(1|2)p(2)

Uma regra razoável de reconhecimento deve ter ECM muito baixa, tanto quanto

possível.

As regiões R1 e R2 que minimizam o ECM são definidas pelos valores de x tal que

valem as desigualdades:

≥=

1pp

)1|2(c)2|1(c

)x(f)x(f

R 2

2

11

priori a adesprobabilid

das oa~Raz custos

dos oa~Razdensidades

das oa~Raz

<=

1pp

)1|2(c)2|1(c

)x(f)x(f

R 2

2

12

Razao dasdensidades

Razao dos custos

Razao dasprobabilidades a priori

~ ~ ~

`

<

4.2.2.2. Critério TPM

Outro critério, além do ECM, pode ser usado para construir procedimentos ótimos.

Assim, pode-se ignorar o ECM e escolher R1 e R2 que minimizam a probabilidade total de

erro de classificação (TPM).

TPM = P(x ∈Π1 e é classificada errada) + P(x∈Π2 e é classificada errada)

TPM = p1 ∫ f1 (x) d x + p2 ∫ f2 (x) d x R

2 R1

Matematicamente, isto é equivalente a minimizar ECM quando os custos de

classificação errada são iguais. Assim, podemos alocar uma nova observação x0 para a

população com a maior probabilidade posteriori P(Πi|x0), onde:

14

Page 19: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

P(Π1 | x0) = P(Π1 ocorre e observa-se x0) P(observa-se x0)

= P(observa-se x0) | Π1) P(Π1) P(observa-se x0) | Π1) p(Π1) + P(observa-se x0) | Π2) p(Π2)

= p1 f1( x0) p1 f1( x0) + p2 f2( x0)e

P(Π2 | x0) = 1 - P(Π1 | x0) = p2 f2( x0) p1 f1( x0) + p2 f2( x0)

e classifica-se x0 em Π1 quando P(Π1| x0 ) > P(Π2| x0 )

4.2.2.3. Classificação com Duas Populações Normais Multivariadas

Assume-se que f1( x ) e f2(x) são densidades normais multivariadas, a primeira com

µ1 ∑1 e a segunda com µ2 ∑2, então supondo ∑1= ∑2, a Função Discriminante Linear

(F.D.L.) de Fisher pode ser usada para classificação e corresponde a um caso particular da

regra de classificação com base em ECM, conforme CHAVES ( 2005). Assim, Seja X'

= [ X1, X2, ...., Xp ] para populações Π1 e Π2 e

fi(x): 1 exp[- ½ (x - µι)' ∑−1 (x − µι)] para i = 1,2

(2π) p/2|∑|1/2

Suponha que os parâmetros Π1 e Π2 e ∑, são conhecidos, tem-se as regiões de

mínimo ECM.

R1: f1(x):= (1/((2π) p/2|∑|1/2))exp[- ½ (x - µι)' ∑−1 (x − µι)] = f2(x) (1/((2π) p/2|∑|1/2))exp[- ½ (x - µι)' ∑−1 (x − µι)]

= exp [- ½ (x - µ1)' ∑−1 (x − µ1) + ½ (x - µ2)' ∑−1 (x − µ2)] ≥ c (1 2) [p2 /p1] c (2 1)

R2: f1(x): =exp [- ½ (x - µ1)' ∑−1 (x − µ1) + ½ (x - µ2)' ∑−1 (x − µ2)]< c (1 2) [p2 /p1] f2(x): c (2 1)

Sejam as populações Π1 e Π2 normais multivariadas. A regra de reconhecimento

que minimiza ECM é dada por: reconhecer x0 como sendo de Π1 se

(µ1 − µ2)' ∑−1 (x0 - ½ (µ1 − µ2)' ∑−1 (µ1 + µ2) ≥ ( )( )ln

cc

pp

122 1

2

1

e x0 como sendo de Π2 em caso contrário.

15

Page 20: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

Em situações em que µ1 i=1,2 são desconhecidas e Σ também, a regra deve ser

modificada. Tem-se a seguinte regra do ECM mínimo para duas populações normais

(regra amostral).

Alocar x0 em Π1 se

(x1 - x2)'Sp-1

x0 - ½(x1 - x2)'Sp

-1 (x1 + x2) ≥

( )( )ln

cc

pp

122 1

2

1

Alocar x0 em Π2 em caso contrário.

O primeiro termo da regra de classificação e reconhecimento, (x1 - x2)' Sp

-1

x, é a

função linear obtida por Fisher que maximiza a variabilidade univariada entre as amostras

relativamente a variabilidade dentro das amostras. A expressão inteira

w = (x1 - x2)'Sp-1

x0 - ½ (x1 - x2)'Sp

-1 (x1 + x2) = (x1 - x2)'Sp-1

[x - ½ (x1 + x2)]

é conhecida como função de classificação de Anderson.

Quando ∑1 ≠ ∑2,, tem-se a classificação quadrática. Supondo as matrizes de co-

variância ∑1 para x ∈Π1 e Σ2 para x ∈ Π2 em ∑1 ≠ ∑2, as regras de reconhecimento de

padrões tornam-se mais complicadas.

Seja então x ~ Np (µi,

∑i ) i=1,2 com µ1 ≠ µ2 e ∑1 ≠ ∑2. A probabilidade total de

reconhecimento errada (TPM) e o custo esperado de reconhecimento errado dependem da

razão de densidades:

f1 (x)f2 (x)

ou, equivalentemente, do logaritmo das razões das densidades

ln [ f1 (x) / f2 (x)] = ln [f1 (x)] - ln [f2 (x)]

Sejam as populações Π1 e Π2 descritas por densidades normais multivariadas

Np(µ1, ∑1 ) e Np(µ2, ∑2 ). Então a regra de reconhecimento que minimiza o ECM é dada

por:

R1 = - ½ x'0 (∑1−1 − ∑2

−1) x0 + (µ'1 ∑1−1− µ'2 ∑2

−1) x0 – k

Substituindo as expressões das densidades normais multivariadas tem-se:

R1: f1(x):= (1/((2π) p/2|∑|1/2))exp[- ½ (x - µι)' ∑−1 (x − µι)] ≥ ln c (1|2) [p2 /p1] f2(x) (1/((2π) p/2|∑|1/2))exp[- ½ (x - µι)' ∑−1 (x − µι)] c (2|1)

16

Page 21: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

Na prática, a regra de reconhecimento estabelecida é implementadas substituindo-

se os, parâmetros µ1, µ2, Σ1, e Σ2, pelas suas estimativas x1, x2 , S1 e S2 , tal que:

Alocamos x0 em Π1 se:

- ½ x'0 (S1−1 − S2

−1) x0 + (x'1S1−1− x'2 S2

−1) x0 – k ≥ ln c (1|2) [p2 /p1] c (2|1)

Alocamos x0 em Π2, caso contrário

4.2.2.4 Discriminação e Classificação entre Duas Populações - Método de Fischer

Basicamente, o problema consiste em separar duas classes de objetos ou fixar um

novo objeto em uma das duas classes. Deste modo, é interessante alguma exemplificação.

A tabela 3 a seguir mostra diversas situações onde a Análise Discriminante pode ser

empregada. É comum denominar as classes (populações) de Π1 e Π2, e os objetos

separados ou classificados com base nas medidas de p variáveis aleatórias são associadas

com vetores do tipo:

X’= [X1,X2, ... , XP] ,onde as variáveis Xi , i = 1 , 2 , ... , p, são as medidas das características investigadas nos

objetos, conforme JOHNSON & WICHERN (1988).

Os valores observados de X podem diferir de uma classe para outra, sendo que a

totalidade dos valores da 1a classe é a população dos valores x para Π1 e aqueles da 2a

classe é a população dos valores de X para Π2. Assim, estas populações podem ser

descritas pelas funções densidade de probabilidade f1 (x) e f2 (x).

Tabela 3: Situações - Exemplos

17

Problema entradas saidas

Reconhecimento de Voz sinais de voz Palavra, identidade do locutor

Testes não invasivos/destrutivos Presença / ausência de anomalia

ECG, EEG, ultra-sons

imagens multi-espectrais Formas de terrenos, vegetação

Reconhecimento Aéreo Infravermelhos, imagens de Radar

Robótica

Ultra-sons, emissão de ondas acústicas

Detecção/Doagnósticosde doenças

Tipos de condições cardíacas, classe de estados cerebrais, patologias

Identificação de Recursos Naturais

Tanques, campos de cultivo, estradas, tráfego

Imagens de interiores e exteriores em 3D, luz estruturada, laser, imagem estéreo

Identificação de objetos, tarefas industriais

Page 22: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

A idéia de Fischer foi transformar as observações multivariadas X ’s nas

observações univariadas y’s tal que os y’s das populações Π1 e Π2 sejam separadas tanto

quanto possível. Fischer teve a idéia de tomar combinações lineares de X para criar os y’s,

dado que as combinações lineares são funções de X e por outro lado são de fácil cálculo

matemático.

Seja µ1y a média dos y’s obtidos dos X’s pertencentes a Π1 e µ2y a média dos y’s

obtidos dos X’s pertencentes a Π2, então Fischer selecionou a combinação linear que

maximiza a distância quadrática entre µ1y e µ2y relativamente à variabilidade dos y’s.

Assim, seja:

µ1 = E(X|Π1) = valor esperado de uma observação multivariada de Π1.

µ2 = E(X |Π2) = valor esperado de uma observação multivariada de Π2.

e supondo a matriz de co-variância

Σ=Ε(X −µi)(X −µι )‘ i = 1, 2

como sendo a mesma para ambas as populações, e considerando a Combinação Linear.

Y = c' X 1x1 lxp px1

tem-se µ1y = E(Y|Π1) = E(c’X|Π1) = c’E(X |Π1) = c’µ1 ,

µ2y = E(Y|Π2 ) = E(c’X|Π2) = c’E(X |Π2) = c’µ2 ,

e

V(Y) = σy2 = V(c’X) = c’V(X) c = c’Σ c ,

que são a mesma para ambas as populações. Segundo Fischer, a melhor combinação linear

é a derivada da razão entre o “quadrado da distância entre as médias” e a “variância de Y”.

(µ1y - µ2y)2 = (c' µ1 - c' µ2)2

= c' (µ1 - µ2) (µ1 - µ2)' c = ( c' δ)2

σy2 c' Σ c c' Σ c c' Σ c

onde δ = µ1 - µ2.

Seja δ = µ1 - µ2 e Y’= c’X, então (c' δ)2 é maximizada por: c' Σ c

c = k Σ-1 δ = kΣ1(µ1 - µ2) para qualquer k ≠ 0.

Escolhendo k = 1 tem-se:

c = Σ-1 (µ1 - µ2) e Y = c’X = (µ1 - µ2)’Σ-1 X ,

que é conhecida como função discriminante linear de Fischer.

18

Page 23: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

A função discriminante linear de Fischer transforma as populações multivariadas

Π1 e Π2 em populações univariadas, tais que as médias das populações univariadas

correspondentes sejam separadas tanto quanto possível relativamente a variância

populacional, considerada comum.

Assim tomando-se

y0 = (µ1 - µ2)’Σ-1 x0

como o valor da função discriminante de Fischer para uma nova observação x0, e

considerando o ponto médio entre as médias das duas populações univariadas,

m = ½ ( µ1y

- µ2y)

como m = ½ (c1

' µ1 + c2' µ2 )

m = ½ [( µ1 - µ2)' Σ−1µ1 +( µ1 − µ2)' Σ−1µ2 ]

m = ½ [ ( µ1 - µ2)' Σ−1(µ1 + µ2) ],

tem-se que: E(Y0|Π1) - m ≥ 0

E(Y0|Π2) - m < 0 ,

ou seja, se X0 pertence a Π1 , se espera que Y0 seja igual ou maior do que o ponto médio.

Por outro lado se X0 pertence a Π2, o valor esperado de Y0 será menor que o ponto médio.

Desta forma a regra de classificação é :

• alocar x0 em Π1 se y0 - m ≥ 0

• alocar x0 em Π2 se y0 - m < 0

Geralmente, os parâmetros µ1, µ2 e Σ são desconhecidos, então supondo que se

tenha n1 observações da v.a. multivariada X1 da população Π1 e n2 observações da v.a.

multivariada X2 da população Π2, então os resultados amostrais para aquelas quantidades

são:

_ n1 n1 _ _ x1 = 1 Σi=1 xi1 ; S1 = 1 Σi=1 (xi1 – x1) (xi1 – x1)'

n1 n1 -1

_ n2 n2 _ _ x2 = 1 Σi=1 xi2 ; S2 = 1 Σi=1 (xi2 – x2) (xi2 – x2)'

n2 n2 -1

19

Page 24: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

mas uma vez que se assuma que as populações sejam assemelhadas é natural considerar a

variância como a mesma, daí estima-se a matriz de covariância comum Σ por:

Sp = (n1 – 1) S1 + (n2 – 1) S2

(n1 + n2 - 2) que é um estimador não-viciado daquele parâmetro.

conseqüentemente, a função discriminante linear de Fischer amostral é dada por:

_ y = c' x = ( x1 - x2)' Sp

-1 x

a estimativa do ponto médio entre as duas médias amostrais univariadas y1 = c' x1 e y2 = c' x2

é dada por: _ _ _ _ _ _ _ _ m = ½ ( y1 + y2) = ½ [( x1 - x2)' Sp

-1 x1 + ( x1 - x2)' Sp-1 x2]

_ _ _ _ m = ½ ( x1 - x2)' Sp

-1 (x1 + x2)

e finalmente a regra de classificação é a seguinte: • alocar x0 em Π1 se y0 = (x1 – x2)' Sp

-1 x0 ≥ m • alocar x0 em Π2 se y0 = (x1 – x2)' Sp

-1 x0 < m

ou melhor se: y0 – m ≥ 0 x0 é alocado em Π1

y0 – m < 0 x0 é alocado em Π2

A combinação linear particular =y = c' x = ( x1 - x2)' Sp-1 x maximiza a razão:

( ) ( )

( )

~ ~ ~ ~

~ ~

~ ~

~ ~

y yS

c x c x

c S c

c d

c S cy p p

1 22

21 1 2 2

2 2−

=−

′ =′

onde _ _

d = x1 - x2

e n1 _ n2 _

Sy2= Σι=1 ( yi1 – y1)2 + Σ ( yi2 – y2)2

n1 – n2 - 2 20

Page 25: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

4.3 ESTATÍSTICA KAPPA

Esta estatística é utilizada para comparar performances dos métodos utilizados em

um mesmo estudo, é tomado como base nos cálculos as tabelas de contingências obtidas

através da classificação de cada método (MULLER , 1997). A estatística Kappa (K) é

calculada utilizando as seguintes proporções:

Po = Proporção de concordância (Obtida na diagonal)

Pe = Proporção esperada de concordância (obtida no total das marginais)

Então Kappa é dado por:

K = Po - Pe 1 - Pe

onde: m

Po= Σi=1 xii

N

e m

Po= Σi=1 xi+ * x+i

N2

onde:

m = número de linhas na tabela de contingência.

xii = número de observações na linha i e coluna i.

xi+ = total de observações na linha i.

x+i = total de observações na coluna i.

N = número total de observações.

A estatística Kappa incorpora os elementos que não estão na diagonal principal da

matriz com um produto de linhas e colunas, enquanto que outras estatísticas só utilizam os

dados classificados corretamente.

Uma das principais vantagens da estatística Kappa é a habilidade para usar este

valor como uma base para determinar a significância estatística de alguma tabela dada ou

a diferença entre tabelas. O teste é baseado em uma variância estimada de Kappa e usando

um Teste Z para determinar se há diferença significativa entre as tabelas.

Então uma aproximação da variância do coeficiente verificada assintóticamente

21

Page 26: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

quando N é grande (≥ 30), é dada por :

σk

2 = Po (1 - Po) N(1 - Pe)2

Sabendo que a diferença entre duas estatísticas Kappa quando N é suficientemente

grande, tem uma distribuição aproximadamente normal, o teste de significância da dife-

rença entre dois coeficientes k independentes pode ser feito por:

Z = ki – kj com i ≠ j e i e j = 1,2. √ (σki

2 + σkj2)

onde:

ki = coeficiente Kappa para o primeiro método comparado.

kj = coeficiente Kappa para o segundo método comparado.

Σki2 = variância amostral do coeficiente Kappa para o primeiro método comparado.

Σkj2 = variância amostral do coeficiente Kappa para o primeiro método comparado.

Sendo que a hipótese do teste é:

Ho = Não há diferença entre as performances dos dois métodos

H1 = Há diferença entre as performances dos dois métodos.

22

Page 27: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

4.4 RECURSOS COMPUTACIONAIS

A análise dos dados foi feita através dos softwares R e Statgraphics Centurion,

sendo que foram utilizadas: Regressão Logística, estatística qui-quadrado, deviance

residual, resíduos de Pearson, Q-Qplot com envelope simulado, sensibilidade,

especificidade, valor preditivo positivo e negativo, falsos negativos e falsos positivos,

poder preditivo do modelo, Estatística Kappa e Análise Discriminante.

23

Page 28: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

5. RESULTADOS E DISCUSSÕES

5.1 – ANÁLISE DE REGRESSÃO LOGÍSTICA

Inicialmente foi realizada uma análise descritiva dos dados, dos 166 alunos

acompanhados no estudo 54 alunos desistiram do curso e os outros 112 concluíram o

curso. Para analisar quais variáveis são mais relevantes neste estudo realizou-se um teste

Qui-quadrado de Pearson. Considerando um p-valor limite de 0,20, verificam-se as

variáveis significativas, ou seja, rejeita-se a hipótese nula.

Tabela 4: Teste Qui-quadrado entre as variáveis explicativas e a variável resposta Ocorrência de evasão escolar

Sim Não Q Qp

Variável Categoria Absoluto Relativo Absoluto Relativo

* p

Masculino 37 34,58% 70 65,42%

Gênero Feminino 17 28,81% 42 71,19% 0,4492 0,4479

Solteiro 30 26,09% 85 73,91%

Estado Civil Casado 16 45,71% 19 54,29%

Outros 8 50,00% 8 50,00% 0,0283 0,0272

Classificação <=33 28 34,57% 53 65,43%

Vestibular >33 26 30,59% 59 69,41% 0,5843 0,5855

Escore <=320 14 27,45% 37 72,55%

320< <540 34 37,36% 57 62,64%

Português >= 540 6 25,00% 18 75,00% 0,3371 0,3349

Escore <=320 27 38,03% 44 61,97%

320< <540 13 27,08% 35 72,92%

Matemática >= 540 14 29,79% 33 70,21% 0,4112 0,4091

Escore <=320 13 48,15% 14 51,85%

320< <540 27 30,00% 63 70,00%

Biologia >= 540 14 28,57% 35 71,43% 0,1660 0,1642

Escore <=320 28 33,73% 55 66,27%

320< <540 19 28,36% 48 71,64%

Química >= 540 7 43,75% 9 56,25% 0,4736 0,4714

Escore <=320 10 34,48% 19 65,52%

320< <540 25 28,74% 62 71,26%

Geografia >= 540 19 38,00% 31 62,00% 0,5234 0,5213

Escore <=300 27 31,40% 59 68,60%

300< <480 22 37,93% 36 62,07%

Física >= 480 5 22,73% 17 77,27% 0,4119 0,4097

* p: nível descritivo de associação obtido pelo teste Qui-quadrado.Fonte: Dados analisados no software R

24

Page 29: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

Tabela 4: Teste Qui-quadrado entre as variáveis explicativas e a variável resposta Ocorrência de evasão escolar

Sim Não Q Qp

Variável Categoria Absoluto Relativo Absoluto Relativo

* p

Escore <=320 18 26,87% 49 73,13%

320< <540 29 34,94% 54 65,06%

História >= 540 7 43,75% 9 56,25% 0,3492 0,3470

Escore <=320 17 33,33% 34 66,67%

Língua Estrang. 320< <540 25 37,31% 42 62,69%

Moderna >= 540 12 25,00% 36 75,00% 0,3788 0,3765

Escore <=270 8 23,53% 26 76,47%

270< <430 39 34,82% 73 65,18%

Redação >= 430 7 35,00% 13 65,00% 0,4564 0,4542

Freqüência <45 26 76,47% 8 23,53%

Estatística Geral I >=45 28 21,21% 104 78,79% 0,0004 0,0004

Nota <50 41 61,19% 26 38,81%

Estatística Geral I >=50 13 13,13% 86 86,87% 0,0000 0,0001

Freqüência <45 26 76,47% 8 23,53%

Probabilidade I >=45 28 21,21% 104 78,79% 0,0004 0,0004

Nota <50 47 52,81% 42 47,19%

Probabilidade I >=50 7 9,09% 70 90,91% 0,0003 0,0002

Freqüência <45 35 66,04% 18 33,96%

Cálculo I >=45 19 16,81% 94 83,19% 0,0001 0,0001

Nota <50 9 11,39% 70 88,61%

Cálculo I >=50 45 51,72% 42 48,28% 0,0011 0,0010

Freqüência <45 42 45,65% 50 54,35%

Lógica >=45 12 16,22% 62 83,78% 0,0406 0,0386

Nota <50 49 37,12% 83 62,88%

Lógica >=50 5 14,71% 29 85,29% 0,0131 0,0129

Freqüência <45 30 78,95% 8 21,05%

Lab. Informática >=45 24 18,75% 104 81,25% 0,0000 0,0000

Nota <50 33 70,21% 14 29,79%

Lab. Informática >=50 21 17,65% 98 82,35% 0,0001 0,0001

Total 54 32,53% 112 67,47%

* p: nível descritivo de associação obtido pelo teste Qui-quadrado.Fonte: Dados analisados no software R

A partir da tabela 4, nota-se que as estatísticas Q e Qp são significativas para as co-

variáveis: Estado Civil, Escore Biologia, Freqüência e nota em Estatística Geral I,

Freqüência e nota em Probabilidade I, Freqüência e nota em Calculo I, Freqüência e nota

em Lógica, Freqüência e nota em Laboratório de Informática, logo foram selecionadas

para dar início à modelagem.

25

Page 30: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

5.1.2 – Ajuste do Modelo de Regressão Logístico

Utilizando-se o método stepwise foram gerados vários modelos, dos quais 3 são

apresentados conforme tabela a seguir:

Tabela 5 - modelos ajustados

Modelo AICEvasão ~ Nota Prob. I + Freq. Calculo I + Escore Biologia + Nota Lab. Inf. + Freq. Lab. Inf.+ Freq. Estat. Geral I 4,27Evasão ~ Nota Prob. I + Freq. Calculo I + Escore Biologia + Nota Lab. Inf. + Freq. Lab. Inf. 6,58

Evasão ~ Nota Prob. I + Freq. Calculo I + Escore Biologia + Nota Lab. Inf. 6,74

Fonte: Dados analisados no software R

Para a escolha do melhor modelo foi utilizado entre outros o critério do menor

AIC, sendo assim o modelo selecionado foi o que possui as seguintes co-variáveis: Escore

Biologia, Freqüência em Estatística Geral I, Nota em Probabilidade I, Freqüência em

Cálculo I, Freqüência e nota em Laboratório de Informática. As estimativas dos

parâmetros estão descritos na tabela a seguir:

Tabela 6 - Estimativa dos parâmetros Parâmetros Coeficientes p-valorIntercepto -0,16372 0,00000Nota em Probabilidade I 0,00436 0,00306Freqüência em Cálculo I 0,00456 0,06433Escore em Biologia 0,00050 0,00762Nota em Laboratório de informática 0,00458 0,00310Freqüência em Laboratório de Informática 0,00886 0,01845Freqüência em Estatística Geral I 0,00727 0,03770Fonte: Dados analisados no software R

Na tabela 6 é testado se o ajuste da regressão foi satisfatório ou não. A hipótese

nula refere-se a uma não satisfação do modelo de regressão logístico ajustado, ou seja, H0:

βk =0. Na análise de deviance da Tabela 6, percebe-se que a regressão para o modelo

escolhido foi significativa com um p-valor muito baixo, portanto rejeita-se a hipótese nula

e fica válido o modelo de regressão logístico e fica ajustado como abaixo:

P(Y=1/X=x) = θ(x) = e y 1+ ey (6)

Onde :y=-0,164+0,0044*probnt+0,005*calcfreq+0,0005*Biob+0,005*infnt+0,009*inffreq+ 0,007*estgerfreq

26

Page 31: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

5.1.2.1. Qualidade do Modelo Ajustado

Para verificar a qualidade do modelo ajustado, foi realizada a análise de resíduos,

onde foi utilizada a análise de resíduos de Pearson, deviance residual e o gráfico Q-Qplot

dos resíduos com envelope simulado, como mostra as figuras 4, 5 e 6 respectivamente.

Na figura 4 e 5, espera-se que os pontos fiquem dentro do intervalo -2,5 até 2,5,

para que se possa concluir que o modelo é satisfatório. Como constatado nestes dois

gráficos são poucos os pontos que estão fora deste intervalo, portanto apresenta um bom

ajuste pela análise de resíduos de Pearson e pela deviance residual.

Figura 4: Gráfico da Deviance Residual

Figura 5: Gráfico dos Residuos de Pearsone Residual

27

Page 32: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

Com relação à figura 6, os pontos devem apresentar-se dentro do envelope, o que

se verifica na análise, portanto apresenta-se satisfatório.

Figura 6: Gráfico Q-Qplot com Envelope Simulado

Assim, pelos três gráficos apresentados, conclui-se que o modelo ajustado é

satisfatório.

5.1.2.2. Poder Preditivo do Modelo

A tabela 7 apresenta a classificação apresentada pelo modelo de Regressão

Logística, onde 0 (zero) representa a ocorrência de evasão e 1 (um) a não ocorrência de

evasão, com um ponto de corte de 0,5.

Na tabela 8 apresentam-se os cálculos de sensibilidade, especificidade, valor

preditivo do modelo, taxa de falsos negativos e falsos positivos e valores preditivos

positivo e negativo para o modelo ajustado.

28

Tabela 7 - Classificação pelo modelo Classificado pelo modelo

Observado 0 (-) 1 (+) Total0 (-) 37 17 541 (+) 10 102 112Total 47 119 166

Fonte: Dados analisados no software R

Page 33: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

Tabela 8 - Poder preditivo do modeloEspecificidade 68,52%Sensibilidade 91,07%Preditivo negativo 78,72%Preditivo positivo 85,71%Falso positivo 8,93%Falso negativo 31,48%Preditivo do modelo 83,73%Fonte: Dados analisados no software R

O valor preditivo do modelo foi de 83,73% de chance de classificar corretamente

um individuo corretamente, levando em conta a ocorrência de ocorrer ou não a evasão do

aluno, o que quer dizer um bom resultado para o modelo ajustado. Com relação à

sensibilidade e especificidade os valores são satisfatórios, ou seja, o modelo está

classificando bem os alunos com relação a variável resposta de ocorrer a evasão do aluno

do Curso de Estatística.

5.2 ANÁLISE DISCRIMINANTE

5.2.1 Analise Discritiva

A Análise Discriminante é um procedimento utilizado para ajudar a distinguir entre

dois ou mais grupos de dados, com base em um conjunto p de variáveis quantitativas

observadas. Isso é feito construindo funções discriminantes que são combinações lineares

das variáveis. O objetivo de tal análise geralmente é um ou ambos os seguintes:

- Descrever matematicamente casos observados de forma que os separe em grupos, tão

bem quanto possível.

- Classificar novas observações como pertencentes a um ou outro grupo

Foi utilizado o procedimento de Análise Discriminante para descrever a relação

entre a resposta e as variáveis explicativas. A variável resposta utilizada foi situação do

aluno no curso, definida como 0 ou 1. A probabilidade de pertencer a cada um dos grupos

(evasão ou não evasão foi considerada a priori igual a 50%).

As variáveis utilizadas nessa parte da análise foram àquelas significativas pelo

modelo de Regressão Logística considerado anteriormente, ou seja, Escore em biologia,

freqüência em Estatística Geral 1, freqüência em Cálculo 1, freqüência em Laboratório de

Informática e notas em Probabilidades 1 e Laboratório de Informática.

29

Page 34: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

5.2.2 Poder Preditivo do Modelo

A tabela 9 mostra a quantidade de itens que foram classificados pelo modelo de

Análise Discriminante, onde 0 (zero) representa a ocorrência de evasão e 1 (um) a não

ocorrência de evasão:

Na tabela a seguir são apresentados os cálculos de sensibilidade, especificidade,

valor preditivo do modelo, taxa de falsos negativos e falsos positivos e valores preditivos

positivo e negativo para a análise em questão.

Pelos resultados acima percebemos que o modelo de Análise Discriminante é

satisfatório, pois se tem valores altos para sensibilidade (89,29%), especificidade

(68,52%) e valor preditivo do modelo (82,53%), sendo assim um modelo confiável para a

questão em estudo.

A tabela de classificação completa onde são apresentados os resultados obtidos

para os indivíduos do estudo encontra-se no apêndice 1, tal tabela mostra os dois grupos

que receberam os maiores escores para os casos selecionados. Ela mostra:

• Primeiro e segundo grupo mais prováveis – os dois grupos com maiores escores

• Valores – os valores dos escores calculados para os dois grupos

• Distância quadrada – a distância quadrada de Mahalanobis das observações dos

centróides dos grupos, no espaço das funções discriminantes. Quanto mais afastada a

observação está do centróide do grupo, menos provável que pertença a esse grupo

• Probabilidade – a probabilidade estimada de que o caso pertença a um grupo particu-

30

Tabela 10 - Poder preditivo do modeloEspecifidade 68,52%Sensibilidade 89,29%Preditivo negativo 75,51%Preditivo positivo 85,47%Falso positivo 10,71%Falso negativo 31,48%Preditivo do modelo 82,53%Fonte: Dados analisados no software Statgraphics

Tabela 9 - Classificação pelo modelo Classificado pelo modelo

Observado 0 (-) 1 (+) Total0 (-) 37 17 541 (+) 12 100 112Total 49 117 166

Fonte: Dados analisados no software Statgraphics

Page 35: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

lar. A probabilidade é baseada na razão da altura da função de densidade normal e a

distância das observações do centróide de cada grupo e as probabilidades a priori.

Para o aluno 1, por exemplo, o valor mais provável foi o de ele pertencer ao grupo

0, com probabilidade de 0,9996 e de pertencer ao grupo 1 com probabilidade de 0,0004. O

valor verdadeiro da resposta situação foi 0, o que indica que foi uma classificação correta.

Para os outros casos as interpretações são similares.

O gráfico a seguir é uma representação útil para identificar quão bem a função

discriminante separa os grupos.

Figura 7: Representação gráfica dos dados no espaço discriminante

O diagrama de dispersão 3D para três das variáveis é apresentado a seguir, que dá

uma idéia de como as variáveis servem para classificação.

Scatterplot

0 200 400 600 800 1000Col_2

0 102030405060

Col_30

20

40

60

80

100

Col

_4

Col_10 1

Figura 8: Representação gráfica 3D dos dados no espaço discriminante

31

Scatterplot

0 200 400 600 800 1000

Col_2

0

10

20

30

40

50

60

Col

_3

Col_10 1

Page 36: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

A função discriminante é apresentada na tabela a seguir:

Como só temos uma função discriminante, a porcentagem relativa da variação

contada por pela função é 100%. A correlação canônica, que representa a habilidade

relativa de distinguir entre grupos é de 0,6795.

O p-valor mostrado na tabela 13 foi estatisticamente significativo, indicando que o

método pode ser utilizado com essas variáveis para classificar corretamente a evasão dos

alunos.

A função de coeficientes de classificação para a variável situação é:

Assim, a função utilizada para evasão é:-9,462+0,0242*Biob+0,116*Estgerfreq-0,033*Probnota+0,010*Calcfreq+0,156*inffreq - 0,033*infnt

Se for considerado que os dados vêm de uma distribuição normal multivariada,

então os escores são relacionados com as probabilidades de que uma observação pertença

a um grupo particular.

32

Tabela 12 – Função discriminanteFunção discriminante Autovalor % Relativa Correlação canônica

1 0,85779 100 0,67950Fonte: Dados analisados no software Statgraphics

Evasão Não-evasãoBiob 0,02420 0,02840EstgerIfreq 0,11622 0,17699ProbInota -0,03293 0,00357Calcfreq 0,00984 0,04800Labinffreq 0,15592 0,08182Labinfnota -0,03306 0,00523Constante -9,46176 -15,79850Fonte: Dados analisados no software Statgraphics

Tabela 14 – Função de coeficientes de classificação

Tabela 13 – Valores para Lambda de Wilks, qui-quadrado, G.l. e p-valor para a função

Funções Qui-quadrado gl p-valor1 0,538274 99,72 6 0,00000

Fonte: Dados analisados no software Statgraphics

WilksLambda

Page 37: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

A primeira função discriminante padronizada é dada por:

0,325*Biob+0,459*Estgerfreq+0,418*Probnt+0,330*Calcfreq-0,633*Inffreq+0,596*infnt

Pela magnitude relativa dos coeficientes na equação acima, pode-se determinar

como as variáveis independentes serão usadas para discriminar entre os grupos.

A seguir é apresentada, tabela com medidas estatísticas das variáveis incluídas na

equação:

A matriz de co-variância entre as variáveis é apresentada na tabela a seguir:

Na tabela 17 é apresentada a matriz de correlação entre as variáveis:

Com base nas informações da tabela anterior pode-se verificar que as variáveis

Calcfreq e labinffreq tem valores mais altos de correlação com as demais variáveis.

33

Tabela 16 – Matriz de covariância entre as variáveisBiob EstgerIfreq ProbInota Calcfreq Labinffreq Labinfnota

Biob 23122,2 -464,26 -229,86 -444,84 -759,39 -1152,14EstgerIfreq -464,26 220,29 173,17 181,74 201,7 286,08ProbInota -229,86 173,17 506,73 203,47 184,59 300,05Calcfreq -444,84 181,74 203,47 288,83 191,07 305,06Labinffreq -759,39 201,7 184,59 191,07 281,86 417,3Labinfnota -1152,14 286,08 300,05 305,06 417,3 934,25Fonte: Dados analisados no software Statgraphics

Tabela 15 – Medidas estatísticas das variáveisSITUAÇÃO Eva são Não-e vasãon 5 4 11 2

média desvio padrao média desvio padraoBiob 428,481 167,678 484,125 144,006Estgerfreq 32,444 22,869 53,143 8,704Probnota 18,741 22,491 52,366 22,520Calcfreq 26,204 23,110 51,348 13,105Labinffreq 31,019 22,928 49,205 12,863Labinfnota 32,667 39,667 72,652 25,081Fonte: Dados analisados no software Statgraphics

Tabela 17 – Matriz de correlação entre as variáveisBiob EstgerIfreq ProbInota Calcfreq Labinffreq Labinfnota

Biob 1 -0,21 -0,07 -0,17 -0,3 -0,25EstgerIfreq -0,21 1 0,52 0,72 0,81 0,63ProbInota -0,07 0,52 1 0,53 0,49 0,44Calcfreq -0,17 0,72 0,53 1 0,67 0,59Labinffreq -0,3 0,81 0,49 0,67 1 0,81Labinfnota -0,25 0,63 0,44 0,59 0,81 1Fonte: Dados analisados no software Statgraphics

Page 38: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

5.3 COMPARATIVO ENTRE OS METODOS ESTUDADOS

A seguir são apresentadas as tabelas 18 e 19 com resumo dos resultados

encontrados durante a análise deste estudo, resumo este que tem por finalidade ajudar a

auxiliar na escolha do método mais adequado para futuros estudos nesta área, cabe aqui

salientar que as 6 variáveis finais do modelo são: Escore no vestibular em biologia,

freqüência em Estatística Geral 1, freqüência em Cálculo 1, freqüência em Laboratório de

Informática e notas em Probabilidades 1 e Laboratório de Informática.

Com base na tabela 18, verifica-se que os valores são bem próximos, tanto se levar

em conta a Regressão Logística e a Análise Discriminante, e o modelo com todas as

variáveis e o modelo só com as 6 variáveis. Na tabela 19 verifica-se igualdade nos valores

nos métodos para as medidas de especificidade e falsos negativos, com relação as demais

medidas o método de Regressão Logística tem valores percentuais maiores.

Utilizando os resultados obtidos nas tabelas 7 e 9, calcula-se estatística Kappa para

verificar se existe diferença significativa nos métodos de Regressão Logística e Análise

Discriminante.

34

Tabela 19 - Quadro comparativo de medidas estatísticas calculadasRegressão Logística Análise Discriminante

Especifidade 68,52% 68,52%Sensibilidade 91,07% 89,29%Preditivo negativo 78,72% 75,51%Preditivo positivo 85,71% 85,47%Falso positivo 8,93% 10,71%Falso negativo 31,48% 31,48%Preditivo do modelo 83,73% 82,53%Fonte: Dados analisados nos softwares R e Statgrphics

Tabela 18 – Quadro comparativo do percentual de classif. Correta entre os modelos estudadosRegressão Logistica Análise discriminante

Com todas as Variáveis 84,93% 84,94%

Com as 6 variaveis escolhidas 83,73% 82,53%

Fonte: Dados analisados nos softwares R e Statgraphics

Page 39: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

A fórmula utilizada é a seguinte:

Z = k1 – k2

√ (σk12 + σk2

2)

k1 = 0,8373 = coeficiente Kappa para o método de Regressão Logística.

K2 = 0,8253 = coeficiente Kappa para o método de Análise Discriminante.

Σk12 =0,0046=variância amostral do coef. Kappa para método de Regressão Logística.

Σk22 =0,0043=variância amostral do coef. Kappa para método de Análise Discriminante.

Logo: Z = 0,1272.

sendo as hipóteses estatísticas:

Ho = Não há diferença entre as performances dos dois métodos

H1 = Há diferença entre as performances dos dois métodos.

e observando o valor de Z padronizado ao nível de significância (probabilidade de rejeitar

H0 dado que é verdadeira) de 5 % que corresponde ao intervalo (-1,96,+ 1,96) pode-se ver

que o valor de Z= 0,1272, correspondente a estatística Z calculada pelo teste e que

compara os dois métodos, encontra-se dentro do intervalo proposto (dentro da região de

aceitação de H0), o que indica uma aceitação da hipótese H0 e conclui-se que os dois

métodos tem desempenho iguais ao classificar a evasão do Curso de Estatística.

35

Page 40: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

6. CONCLUSÕES

De acordo com os resultados apresentados nos testes, pode-se concluir que o

modelo ajustado apresentou-se satisfatório, com um poder preditivo de 83,73%, utilizando

se a Regressão Logística, no método de classificação de Análise Discriminante obteve-se o

valor de 82,53 %, o que pode ser considerado um bom resultado também. Sendo assim

este estudo pode ser tomado como base para eventuais análises de evasão.

Com base no resultado da estatística Kappa, conclui-se que não há diferença entre

as performances dos 2 métodos utilizados, ou seja, fica a critério do responsável pelo

estudo qual método utilizar, pois deve se levar em conta o método disponível no momento

bem como o conhecimento do responsável pela análise em questão.

Com relação à quantidade de variáveis utilizadas para o estudo fica provado pelos

resultados anteriores que as variáveis Escore no vestibular em biologia, freqüência em

Estatística Geral 1, freqüência em Cálculo 1, freqüência em Laboratório de Informática e

notas em Probabilidades 1 e Laboratório de Informática, explicam grande parte do

modelo, visto que na análise em Regressão Logística com todas as variáveis obteve-se

84,93 % como valor preditivo, já no método de analise discriminante obteve-se o valor de

84,94 %, sendo assim desnecessário o uso das demais variáveis.

Na análise das 6 variáveis do modelo é interessante verificar que 3 delas são

referentes a freqüência do aluno, 2 referentes a notas e uma referente ao escore no

vestibular, logo podemos destacar a importância da freqüência do aluno nas aulas como

um fator relevante na continuidade do curso.

Podemos também verificar que as variáveis notas e freqüências nas disciplinas são

mais importantes, pois apenas escore em biologia foi significativa no modelo. Além disso,

pode-se detectar o aluno com probabilidade grande de evasão logo no primeiro semestre

cursado. Podendo este fato ser um ponto de partida para futuros estudos e para se evitar a

evasão dos alunos do Curso de Estatística da Universidade Federal do Paraná.

36

Page 41: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

7. REFERÊNCIAS BIBLIOGRÁFICAS

ASCENSO, João; FRED, Ana. Reconhecimento de Padrões, 2003.

Disponível em: http://ltodi.est.ips.pt/jascenso/padroes/teoricas/Aula%202%20-%

20Introdu%C3%A7%C3% A3o%20ao %20RP.pdf . Acessado em 16/04/08 as 16:00 min

CASTRO, O fenômeno da evasão escolar na educação superior no Brasil, 2005.

Disponível em http://www.iesalc.unesco.org.ve/programas/Deserci%C3%B3n/Informe%20Deserci%C3%B3n %20 Brasil%20-%20D%C3%A9bora %20Niquini.pdf acessado 06/03/08 as 16:10 min

FISHER, R.A., The Statistical Utilizacion of Multiple Measurements, Annals os Eugenics. 8 (1938), 376-386.

GIOLO, Suely Ruiz. Apostila de Análise de Regressão, 2003.

GIOLO, Suely Ruiz. Apostila de Análise de Dados Discretos, 2004.

GIOLO, Suely Ruiz. Introdução a Análise de Dados Categóricos, 2006.

JOHNSON, R. A., WICHERN, D.W. Applied Multivariate Statistical Analysis. Prentice Hall International, Inc. New Jersey, 1988.

MULLER, Sonia I. M. Gama. Comparação entre os Métodos de Máxima Veros-similhança, e o Método de Fisher para Reconhecimento de Padrões em Imagens Coloridas, 1997.

MULLER, Sonia I. M. Gama. Sistema Integrado de Avaliação com Aplicação na Engenharia, 2007.

CHAVES, Anselmo Neto. Apostila de Análise Multivariada II, 2005.

PREGIBON, D. Logistic Regression Diagnostics, Annals of Statistics, v.9, 1981.

37

Page 42: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

APÊNDICES

Page 43: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

APÊNDICE 1

39

Tabela 11- Classificação para os indivíduos do estudo

Aluno Grupo Real1 0 0 2,49 3,66 1 1 -3,18 15,01 02 0 0 4,34 2,13 0,99 1 -0,44 11,69 0,013 0 *1 13,27 0,01 0,86 0 11,49 3,57 0,144 0 0 10,99 0,77 0,55 1 10,79 1,17 0,455 0 *1 12,7 0,65 0,97 0 9,19 7,67 0,036 0 *1 11,98 0,02 0,84 0 10,3 3,36 0,167 0 *1 13,2 0,02 0,84 0 11,58 3,28 0,168 0 0 0,01 3,18 1 1 -5,4 14,02 09 0 0 8,5 0,53 0,97 1 5,15 7,24 0,0310 0 0 4,49 2,61 0,99 1 -0,6 12,79 0,0111 0 0 5,65 0,41 0,66 1 4,99 1,73 0,3412 0 0 5,08 1,46 0,99 1 0,79 10,05 0,0113 0 0 -3,61 5,2 1 1 -10 17,97 014 0 0 2,86 4,05 1 1 -3 15,78 015 0 0 13,85 0,31 0,95 1 10,83 6,35 0,0516 0 *1 11,4 0,46 0,64 0 10,81 1,64 0,3617 0 0 7,07 0 0,88 1 5,08 3,99 0,1218 0 *1 13,12 0,4 0,66 0 12,44 1,75 0,3419 0 *1 7,23 0,11 0,78 0 5,96 2,65 0,2220 0 0 -5,75 3,24 1 1 -11,2 14,14 021 0 0 5,15 0,97 0,98 1 1,3 8,67 0,0222 0 0 11,19 0,56 0,61 1 10,73 1,47 0,3923 0 *1 12,6 0,21 0,74 0 11,58 2,26 0,2624 0 0 12,81 0,06 0,92 1 10,4 4,88 0,0825 0 0 8,83 0,02 0,84 1 7,16 3,36 0,1626 0 0 8,35 0,08 0,8 1 6,97 2,84 0,227 0 0 10,69 0,95 0,98 1 6,86 8,6 0,0228 0 *1 5,52 0,01 0,85 0 3,8 3,45 0,1529 0 *1 17,13 0,03 0,83 0 15,57 3,17 0,1730 0 0 2,33 1,57 0,99 1 -2,05 10,31 0,0131 0 0 5,23 2,1 0,99 1 0,46 11,63 0,0132 0 *1 9,66 0,34 0,68 0 8,88 1,89 0,3233 0 *1 12,71 0,83 0,53 0 12,58 1,1 0,4734 0 0 3,32 2,4 0,99 1 -1,64 12,33 0,0135 0 *1 16,16 0,36 0,68 0 15,41 1,86 0,3236 0 *1 15,87 0,01 0,85 0 14,16 3,42 0,1537 0 0 7,2 0,28 0,95 1 4,24 6,21 0,0538 0 *1 11,99 0,11 0,78 0 10,72 2,65 0,2239 0 0 3,62 1,18 0,98 1 -0,43 9,28 0,0240 0 0 8,14 0,13 0,93 1 5,5 5,41 0,0741 0 0 -4,06 1,83 0,99 1 -8,63 10,97 0,0142 0 0 7,81 0,56 0,97 1 4,42 7,35 0,03

Fonte: Dados analisados no Software Statgrhapics

Grupo mais provável

Maior Escore

Distância Quadrada

Probabilidade

2º grupo mais provável

2º maior escore

Distância Quadrada

Probabilidade

Page 44: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

40

Tabela 11- Classificação para os indivíduos do estudo. (Cont.)

Aluno Grupo Real43 0 0 15,65 0,02 0,84 1 14,03 3,27 0,1644 0 0 9,37 0,39 0,96 1 6,23 6,69 0,0445 0 0 1,56 1,15 0,98 1 -2,46 9,19 0,0246 0 0 10,98 0 0,86 1 9,13 3,69 0,1447 0 0 2,84 0 0,87 1 0,95 3,78 0,1348 0 *1 22,03 0,94 0,5 0 22,01 0,98 0,549 0 0 10,84 0,19 0,94 1 8,06 5,75 0,0650 0 0 8,19 0,52 0,97 1 4,86 7,19 0,0351 1 1 17,91 0,99 0,98 0 14,03 8,74 0,0252 1 1 17,67 0,04 0,91 0 15,37 4,64 0,0953 1 1 11,22 0 0,88 0 9,25 3,95 0,1254 1 1 8,68 0,15 0,94 0 5,99 5,53 0,0655 1 1 8,47 0,44 0,65 0 7,85 1,69 0,3556 1 1 16,12 0,01 0,9 0 13,96 4,33 0,157 1 1 14,4 0,27 0,95 0 11,47 6,14 0,0558 1 1 11,15 0,09 0,92 0 8,64 5,1 0,0859 1 1 12,21 0,04 0,82 0 10,67 3,12 0,1860 1 1 7,19 0 0,87 0 5,3 3,78 0,1361 1 1 10,79 0,25 0,95 0 7,89 6,05 0,0562 1 1 12,92 0,13 0,93 0 10,28 5,41 0,0763 1 1 11,39 0,08 0,8 0 10,02 2,82 0,264 1 1 12,83 0 0,86 0 11,02 3,61 0,1465 1 1 7,96 0,24 0,72 0 7,01 2,15 0,2866 1 *0 6,97 0,31 0,69 1 6,15 1,96 0,3167 1 1 19,3 1,95 0,99 0 14,64 11,26 0,0168 1 1 10,75 0,1 0,93 0 8,22 5,17 0,0769 1 1 8,43 0,04 0,82 0 6,9 3,09 0,1870 1 1 10,53 0,16 0,76 0 9,4 2,42 0,2471 1 1 12,36 0,04 0,91 0 10,04 4,69 0,0972 1 1 19,26 0,89 0,98 0 15,49 8,43 0,0273 1 *0 9,29 0,85 0,53 1 9,18 1,08 0,4774 1 1 11,62 0,06 0,92 0 9,21 4,88 0,0875 1 1 13,85 0 0,88 0 11,9 3,9 0,1276 1 1 15,59 0 0,86 0 13,73 3,71 0,1477 1 1 16,02 0,31 0,95 0 13,01 6,32 0,0578 1 1 17,58 0,48 0,96 0 14,31 7,02 0,0479 1 1 18,53 0,67 0,97 0 15 7,73 0,0380 1 1 13,89 0,06 0,92 0 11,49 4,85 0,0881 1 1 11,23 0,37 0,67 0 10,5 1,82 0,3382 1 1 18,7 1,16 0,98 0 14,67 9,21 0,0283 1 1 16,96 0,56 0,61 0 16,51 1,46 0,3984 1 1 14,47 0,03 0,91 0 12,2 4,57 0,09

Fonte: Dados analisados no Software Statgrhapics

Grupo mais provável

Maior Escore

Distância Quadrada

Probabilidade

2º grupo mais provável

2º maior escore

Distância Quadrada

Probabilidade

Page 45: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

41

Tabela 11- Classificação para os indivíduos do estudo. (Cont.)

Aluno Grupo Real85 1 1 13,99 0,02 0,84 0 12,36 3,29 0,1686 1 1 11,24 0 0,88 0 9,29 3,91 0,1287 1 1 13,56 0,03 0,9 0 11,32 4,52 0,188 1 1 15,26 0,02 0,84 0 13,63 3,28 0,1689 1 1 12,02 0,69 0,57 0 11,73 1,27 0,4390 1 *0 8,98 0,32 0,69 1 8,18 1,93 0,3191 1 1 17,41 1,01 0,98 0 13,51 8,8 0,0292 1 *0 6,29 0,45 0,65 1 5,68 1,66 0,3593 1 *0 5,01 0,06 0,81 1 3,58 2,92 0,1994 1 1 16,69 0,05 0,82 0 15,2 3,03 0,1895 1 1 11,93 0,25 0,72 0 10,99 2,14 0,2896 1 1 17,65 0,38 0,96 0 14,52 6,65 0,0497 1 1 11,41 0,23 0,73 0 10,44 2,18 0,2798 1 1 18,83 0,48 0,96 0 15,55 7,03 0,0499 1 1 12,07 0,02 0,84 0 10,42 3,33 0,16

100 1 1 15,03 0 0,88 0 13,01 4,04 0,12101 1 1 16,6 0,14 0,77 0 15,41 2,51 0,23102 1 1 13,28 0,1 0,93 0 10,73 5,19 0,07103 1 *0 9,12 0,51 0,63 1 8,6 1,55 0,37104 1 1 15,12 0,08 0,92 0 12,64 5,05 0,08105 1 1 18,59 0 0,87 0 16,7 3,79 0,13106 1 1 20,47 0,03 0,91 0 18,19 4,6 0,09107 1 1 14,35 0,03 0,9 0 12,11 4,49 0,1108 1 1 14,64 0 0,86 0 12,85 3,59 0,14109 1 1 14,44 0,54 0,97 0 11,08 7,27 0,03110 1 1 10,64 0,73 0,56 0 10,4 1,22 0,44111 1 1 9,97 0,15 0,76 0 8,79 2,49 0,24112 1 1 18,22 0,02 0,9 0 15,99 4,48 0,1113 1 1 18,79 0,53 0,97 0 15,44 7,22 0,03114 1 1 12,46 0,38 0,67 0 11,75 1,8 0,33115 1 1 17,96 0 0,87 0 16,07 3,78 0,13116 1 1 13,8 0,1 0,93 0 11,27 5,16 0,07117 1 *0 3,19 0,07 0,8 1 1,78 2,88 0,2118 1 *0 7,45 0 0,88 1 5,45 3,99 0,12119 1 1 14,84 0,08 0,8 0 13,46 2,83 0,2120 1 1 18,73 0,92 0,51 0 18,69 1 0,49121 1 1 13,1 0,06 0,81 0 11,64 2,97 0,19122 1 1 21,61 1,44 0,99 0 17,34 9,99 0,01123 1 1 25,3 0,59 0,97 0 21,87 7,46 0,03124 1 1 18,17 0,49 0,64 0 17,62 1,6 0,36125 1 1 16,44 3,63E-007 0,87 0 14,52 3,84 0,13126 1 1 17,22 0,28 0,95 0 14,27 6,18 0,05

Fonte: Dados analisados no Software Statgrhapics

Grupo mais provável

Maior Escore

Distância Quadrada

Probabilidade

2º grupo mais provável

2º maior escore

Distância Quadrada

Probabilidade

Page 46: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

42

Tabela 11- Classificação para os indivíduos do estudo. (Cont.)

Aluno Grupo Real127 1 1 17,83 0,09 0,92 0 15,33 5,1 0,08128 1 1 12,43 0,07 0,92 0 9,99 4,95 0,08129 1 1 14,3 1,76 0,99 0 9,78 10,8 0,01130 1 1 13,43 0,1 0,78 0 12,14 2,69 0,22131 1 1 13,02 0,15 0,76 0 11,86 2,48 0,24132 1 1 17,86 0,78 0,97 0 14,2 8,08 0,03133 1 1 12,55 0,01 0,85 0 10,85 3,42 0,15134 1 1 11,95 0,38 0,67 0 11,25 1,8 0,33135 1 1 14,61 1,07 0,98 0 10,65 8,98 0,02136 1 1 16,31 0,32 0,95 0 13,28 6,38 0,05137 1 *0 8,05 0,54 0,97 1 4,69 7,25 0,03138 1 1 14,82 0,67 0,97 0 11,3 7,73 0,03139 1 1 19,47 2,14 0,99 0 14,69 11,72 0,01140 1 1 12,06 0,97 0,98 0 8,22 8,66 0,02141 1 1 13,07 0 0,88 0 11,1 3,94 0,12142 1 *0 19,32 0,92 0,51 1 19,29 1 0,49143 1 1 20,04 0,66 0,97 0 16,53 7,68 0,03144 1 1 13,94 0,01 0,85 0 12,21 3,47 0,15145 1 1 14,72 0,01 0,9 0 12,57 4,31 0,1146 1 *0 15,45 0,01 0,89 1 13,39 4,13 0,11147 1 1 18 0,34 0,96 0 14,93 6,48 0,04148 1 1 12,85 0,45 0,96 0 9,61 6,93 0,04149 1 1 14,97 0,56 0,97 0 11,58 7,35 0,03150 1 1 13,3 1,35 0,99 0 9,1 9,75 0,01151 1 1 16,2 0,01 0,85 0 14,48 3,45 0,15152 0 0 8,19 0,52 0,97 1 4,86 7,19 0,03153 0 0 8,86 2,31 0,99 1 3,96 12,12 0,01154 0 1 13,26 0,01 0,9 0 11,11 4,32 0,1155 0 0 6,2 0,28 0,71 1 5,32 2,05 0,29156 1 0 0,04 2,49 0,99 1 -4,97 12,51 0,01157 1 0 13,67 0,23 0,73 1 12,7 2,18 0,27158 1 1 16,34 0,82 0,98 0 12,65 8,2 0,02159 1 1 15,22 0,06 0,92 0 12,83 4,84 0,08160 1 1 15,03 0,06 0,81 0 13,6 2,91 0,19161 1 1 16,48 0,2 0,94 0 13,69 5,78 0,06162 1 1 13,68 0,03 0,9 0 11,44 4,49 0,1163 1 1 8,97 0,08 0,8 0 7,61 2,81 0,2164 1 1 15,77 1,51 0,99 0 11,44 10,17 0,01165 1 1 21,13 0,58 0,97 0 17,72 7,4 0,03166 1 1 17,89 0,01 0,89 0 15,8 4,19 0,11

Fonte: Dados analisados no Software Statgrhapics

Grupo mais provável

Maior Escore

Distância Quadrada

Probabilidade

2º grupo mais provável

2º maior escore

Distância Quadrada

Probabilidade

Page 47: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

APÊNDICE 2 Variáveis Utilizadas na Análise de Evasão de Alunos do Curso de Estatística da UFPR

1- Gênero: 1-Masculino; 2- Feminino

2- Estado Civil: 1 - Solteiro(a); 2 - Casado(a) e 3 - Outro

3 - Classificação no vestibular

4 - Escore no vestibular em Português

5 - Escore no vestibular em Matemática

6 - Escore no vestibular em Biologia

7 - Escore no vestibular em Química

8 - Escore no vestibular em Geografia

9 - Escore no vestibular em Física

10 - Escore no vestibular em História

11 - Escore no vestibular em Língua Estrangeira Moderna

12 - Escore no vestibular em Redação

13 - Freqüência na disciplina de Estatística Geral I: de 0 a 60 horas

14 - Nota na disciplina de Estatística Geral I: de 0 a 100

15 - Freqüência na disciplina de Cálculo de Probabilidade I: de 0 a 60 horas

16 - Nota na disciplina de Cálculo de Probabilidade I: de 0 a 100

17 - Freqüência na disciplina de Cálculo com Geometria. Analítica I: de 0 a 60horas

18 - Nota na disciplina de Cálculo com Geometria Analítica I: de 0 a 100

19 - Freqüência na disciplina de Lógica: de 0 a 60 horas

20 - Nota na disciplina de Lógica: de 0 a 100

21 - Freqüência na disciplina de Laboratório de Informática: de 0 a 60 horas

22 - Nota na disciplina de Laboratório de Informática: de 0 a 100

43

Page 48: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

APÊNDICE 3

Comandos utilizados no Software R

dados<-matrix(c(a,b,c,d),nc=2) dados Qp<-chisq.test(dados,correct=F) Qp n<-sum(dados) Q<-((n-1)/n)*Qp$statistic Q p<-1-pchisq(Q,1) p-----------------------------------------------------------dados<-read.table("C:/ex221.txt",header=T)attach(dados)ajust<-glm(as.matrix(dados[,c(1,2)])~Nota ProbI, FreqCalcI,EscBiol, NotaLabInf, FreqLab Inf,FreqEsT GerI,family=binomial, data=dados) ajust<-glm(as.matrix(dados[,c(1,2)])~Nota ProbI, FreqCalcI,EscBiol, NotaLabInf, FreqLab Inf,FreqEsT GerI,family=binomial(link="logit"),data=dados) ajust anova(ajust) anova(ajust,test="Chisq") summary(ajust) ajust$fitted.values ajust$y ajust$residuals dev<-residuals(ajust,type='deviance') dev QL<-sum(dev^2) QL p1<-1-pchisq(QL,6) p1 rpears<-residuals(ajust,type='pearson') rpears QP<-sum(rpears^2) QP p2<-1-pchisq(QP,6) p2-----------------------------------------------------------ajust1<-glm(evento~ NotaProbI+ FreqCalcI+EscBiol+NotaLabInf+FreqLabInf+ FreqEsTGerI, family=binomial(link="logit"))ajust1summary(ajust1)anova(ajust1,test="Chisq")ajust2<-glm(evento~ NotaProbI+ FreqCalcI+EscBiol+NotaLabInf+FreqLabInf+ FreqEsTGerI,family=binomial(link="logit"))ajust2summary(ajust2)anova(ajust2, test="Chisq")cbind(dc,sexo,ecg,idade,ajust2$fitted.values)

44

Page 49: Comparação entre Análise Discriminante e Regressão ...ce229:tcc2008... · RESUMO O estudo apresentado neste trabalho tem como objetivo comparar duas técnicas estatísticas, a

dev<-residuals(ajust2,type='deviance')devplot(dev)rpears<-residuals(ajust2,type='pearson')rpearsplot(rpears)-----------------------------------------------------------fit.model<-ajust2 par(mfrow=c(1,1)) X <- model.matrix(fit.model) n <- nrow(X) p <- ncol(X) w <- fit.model$weights W <- diag(w) H <- solve(t(X)%*%W%*%X) H <- sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W) h <- diag(H) td <- resid(fit.model,type="deviance")/sqrt(1-h) e <- matrix(0,n,100) for(i in 1:100) dif <- runif(n) - fitted(fit.model) dif[dif >= 0 ] <- 0 dif[dif<0] <- 1 nresp <- dif fit <- glm(nresp ~ X, family=binomial) w <- fit$weights W <- diag(w) H <- solve(t(X)%*%W%*%X) H <- sqrt(W)%*%X%*%H%*%t(X)%*%sqrt(W) h <- diag(H) e[,i] <- sort(resid(fit,type="deviance")/sqrt(1-h)) e1 <- numeric(n) e2 <- numeric(n) for(i in 1:n) eo <- sort(e[i,]) e1[i] <- eo[5] e2[i] <- eo[95] med <- apply(e,1,mean) faixa <- range(td,e1,e2) par(pty="s") qqnorm(td,xlab="Percentis da N(0,1)", ylab="Componente da deviance", ylim=faixa, pch=16) par(new=T) qqnorm(e1,axes=F,xlab="",ylab="",type="l",ylim=faixa,lty=1) par(new=T) qqnorm(e2,axes=F,xlab="",ylab="", type="l",ylim=faixa,lty=1) par(new=T) qqnorm(med,axes=F,xlab="", ylab="", type="l",ylim=faixa,lty=2)

45