prediÇÃo dos candidatos ao teste de admissÃo da … · atuando como banco de dados para a...

12
PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA FECILCAM VIA TÉCNICAS ESTATÍSTICAS MULTIVARIADAS TATIANE CAZARIN DA SILVA Faculdade Estadual de Ciências e Letras de Campo Mourão – FECILCAM 87303-100, Campo Mourão, PR E-mail: [email protected] Gislaine Aparecida Periçaro Faculdade Estadual de Ciências e Letras de Campo Mourão – FECILCAM 87303-100, Campo Mourão, PR E-mail: [email protected] RESUMO A presente pesquisa buscou verificar a validação da aplicação das técnicas estatísticas multivariadas na análise do desempenho dos candidatos ao vestibular da Faculdade Estadual de Ciências e Letras de Campo Mourão-PR, baseada em variáveis sócio-educacionais. Inicialmente, foram consideradas 19 variáveis que compunham o questionário disponibilizado pela instituição, atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise de Agrupamentos. Essas técnicas forneceram a simplificação dos dados, por meio da análise de dependência existente na estruturada das respostas. Em seguida, foram aplicadas as técnicas de Análise Discriminante e a Regressão Logística, a fim de generalizar as informações obtidas. Tais técnicas permitiram classificar um candidato como aprovado ou reprovado de acordo com a simplificação dos dados e conseqüente padronização. Um comparativo entre os métodos de ajuste pôde ser realizado e validado com os dados de cada candidato, já que seu desempenho era conhecido. PALAVARAS CHAVE. Programação Matemática, Estatística Multivariada, Reconhecimento de Padrões. Programação Matemática ABSTRACT This research aimed to ascertain the validation of the application of multivariate statistical techniques in analyzing the candidates’ performance for the vestibular (University Examination Entrance) at Faculdade Estadual de Ciências e Letras de Campo Mourão – PR, based on socio- educational variables. Initially, nineteen variables that comprised the questionnaire provided by the institution were considered, acting as the database for the application of Principal Component Analysis, Factorial Analysis and Groupment Analysis techniques. These techniques provided the simplification of the data, through the analysis of dependence existing in the structure of answers. Next, techniques of Discriminatory Analysis and Logistic Regression were applied in order to generalize the data got from the analysis. Such techniques have classified a candidate as approved or disapproved according to the data simplification and consequent standardization. A comparison between the methods of adjustment could be done and validated with the data got from each candidate, since his/her performance was known. KEYWORDS: Mathematical Programming, Multivariate Statistics, Recognition of the Patterns. Mathematical Programming XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2982

Upload: dinhphuc

Post on 12-Dec-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA FECILCAM VIA TÉCNICAS ESTATÍSTICAS MULTIVARIADAS

TATIANE CAZARIN DA SILVA

Faculdade Estadual de Ciências e Letras de Campo Mourão – FECILCAM 87303-100, Campo Mourão, PR

E-mail: [email protected]

Gislaine Aparecida Periçaro Faculdade Estadual de Ciências e Letras de Campo Mourão – FECILCAM

87303-100, Campo Mourão, PR E-mail: [email protected]

RESUMO A presente pesquisa buscou verificar a validação da aplicação das técnicas estatísticas multivariadas na análise do desempenho dos candidatos ao vestibular da Faculdade Estadual de Ciências e Letras de Campo Mourão-PR, baseada em variáveis sócio-educacionais. Inicialmente, foram consideradas 19 variáveis que compunham o questionário disponibilizado pela instituição, atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise de Agrupamentos. Essas técnicas forneceram a simplificação dos dados, por meio da análise de dependência existente na estruturada das respostas. Em seguida, foram aplicadas as técnicas de Análise Discriminante e a Regressão Logística, a fim de generalizar as informações obtidas. Tais técnicas permitiram classificar um candidato como aprovado ou reprovado de acordo com a simplificação dos dados e conseqüente padronização. Um comparativo entre os métodos de ajuste pôde ser realizado e validado com os dados de cada candidato, já que seu desempenho era conhecido.

PALAVARAS CHAVE. Programação Matemática, Estatística Multivariada, Reconhecimento de Padrões.

Programação Matemática

ABSTRACT This research aimed to ascertain the validation of the application of multivariate statistical techniques in analyzing the candidates’ performance for the vestibular (University Examination Entrance) at Faculdade Estadual de Ciências e Letras de Campo Mourão – PR, based on socio-educational variables. Initially, nineteen variables that comprised the questionnaire provided by the institution were considered, acting as the database for the application of Principal Component Analysis, Factorial Analysis and Groupment Analysis techniques. These techniques provided the simplification of the data, through the analysis of dependence existing in the structure of answers. Next, techniques of Discriminatory Analysis and Logistic Regression were applied in order to generalize the data got from the analysis. Such techniques have classified a candidate as approved or disapproved according to the data simplification and consequent standardization. A comparison between the methods of adjustment could be done and validated with the data got from each candidate, since his/her performance was known.

KEYWORDS: Mathematical Programming, Multivariate Statistics, Recognition of the Patterns.

Mathematical Programming

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2982

Page 2: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

1. Introdução

Atualmente, um dos principais fatores que sustentam o desenvolvimento tecnológico e profissional tem sido a educação, responsável direta pela qualificação pessoal e social. Por isso esta é uma questão que gera grande preocupação nos mais diversos setores da sociedade, nos quais a consolidação de seus objetivos é ponderada por meio dos processos metodológicos empregados. Dessa forma, para que a qualidade seja atingida é necessário que todos os setores da educação almejem um ideal comum. Isso sugere uma verificação do processo de ensino, proporcionando a validação dos objetivos propostos ou a busca deste patamar, que pode ser identificada por meio do reconhecimento da realidade e da população direcionada ao ensino. (ZANELLA, 2006).

Diversas são as características associadas à educação, sejam relacionadas à proposta pedagógica, à metodologia ou à prática discente. Relacionado a esta especificidade, cada estudante é marcado por características, muitas vezes distintas entre si, mas que podem revelar informações importantes caso analisadas conjuntamente. A capacidade de formular, identificar e arquivar dados, conhecimentos ou descobertas fortaleceram o desenvolvimento social e pessoal. As várias informações, muitas vezes desprezadas, agora podem ser utilizadas como banco de dados para análises futuras, trazendo resultados significativos a diversas situações.

Esse direcionamento atua na descoberta de conhecimento em banco de dados, ou prospecção de conhecimento (Knowledge Discovery in Databases – KDD) e de acordo com CARVALHO (1999) apud MARTINHAGO (2005) esse é um processo multidisciplinar, que “combina técnicas, algoritmos e definições de todas as áreas com o objetivo principal de extrair conhecimento a partir de grandes bases de dados”. Atua na descoberta de conhecimentos, desenvolvendo e validando técnicas, ferramentas e métodos que buscam extrair padrões até então implícitos no banco de dados. Uma das principais etapas desse processo, que trabalha diretamente na manipulação numérica é denominada Mineração de Dados, ou Data Mining, definida por BERRY E LINOFF (1997 apud ANDRADE et al, 2005) como a exploração e análise de grandes quantidades de dados, de maneira automática ou semi-automática, com o objetivo de descobrir padrões e regras relevantes utilizando algoritmos com eficiência computacional aceitável.

Sendo a educação um tema que pode ser voltado a dados numéricos, buscando a identificação e validação dos conceitos associados, pode-se empregar o estudo estatístico e probabilístico, no levantamento de hipóteses. Com isso, a estatística torna-se utilizada nas mais diversas áreas do conhecimento, pois garante subsídios para a validação dos resultados experimentais, por meio da simplificação, a predição e o direcionamento do processo que descreve.

Com isso, percebe-se a relação existente entre o armazenamento de dados e a sua contribuição na identificação dos fatores relacionados à educação. Interligado a essa análise e visando estruturar um banco de dados que forneça informações relevantes, é conhecido que algumas instituições de ensino superior fornecem aos seus candidatos o preenchimento de um questionário sócio-educacional, sendo essa uma prática comum no processo de inscrição ao vestibular da maioria das Instituições de Ensino Superior – IES.

As informações contidas nesses questionários podem estabelecer relações entre as variáveis sócio-educacionais e o desempenho dos candidatos nas provas de seleção, podendo auxiliar os administradores das IES na tomada de decisões, visando à melhoria da qualidade do ensino. Para PANIZZI (2004) apud MARTINHAGO (2005) os “órgãos governamentais não devem apenas se preocupar com o ingresso dos jovens no ensino superior, mas principalmente com a permanência destes nas instituições”. Dessa forma, percebe-se a importância de delinear o perfil dos candidatos ao vestibular, de forma a auxiliar na elaboração de projetos que atendam às necessidades dos acadêmicos, e consequentemente forneçam subsídios à permanência desses na instituição. Tratando-se de um estudo voltado a inúmeras características, surge a necessidade de utilizar métodos estatísticos multivariados que garantam um conhecimento geral da estrutura numérica das variáveis e a mineração de dados, que fornece técnicas de análise que possibilitam estruturar os dados, destacando suas dependências.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2983

Page 3: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

A estatística multivariada é definida por CUADRAS (1981) apud TRIVELLONI (1998) como “uma parte da estatística e da análise de dados que estuda, interpreta e elabora o material estatístico sobre a base de um conjunto de 1>n variáveis, que podem ser do tipo quantitativo, qualitativo ou uma mescla de ambos”. A estatística multivariada parte da análise de várias variáveis simultaneamente, relacionadas a um mesmo elemento amostral, realizando assim um estudo completo sobre o comportamento destas. Além de aperfeiçoar os resultados populacionais, a técnica multivariada possui outras características, relacionadas à combinação linear ou não entre as variáveis, classificações e interdependência entre as mesmas. (PLA, 1986 apud ALVES, 2005). Dessa forma, é possível estabelecer padrões e relações na análise proposta, possibilitando a simplificação e generalização dos resultados.

Esta pesquisa tem como objetivo aplicar a análise na classificação dos candidatos ao teste de admissão da Faculdade Estadual de Ciências e Letras de Campo Mourão – FECILCAM, baseada em variáveis sócio-educacionais via técnicas exploratórias de simplificação e classificação, tais como: Análise Fatorial, Análise Discriminante, Análise de Componentes Principais, Análise de Agrupamentos e a Regressão Logística. Os dados obtidos no questionário sócio-educacional dos candidatos possibilitam verificar a validade da padronização dos dados quando comparados e ajustados por meio de um modelo determinado pela estrutura destes. Ainda que as variáveis sócio-educacionais não determinem o desempenho de um candidato, é possível verificar até que ponto a padronização de dados é válida nesse processo. 2. Técnicas Estatísticas Multivariadas

A análise multivariada consiste em um conjunto de métodos estatísticos aplicados em situações nas quais várias variáveis são analisadas simultaneamente, e relacionadas a um mesmo elemento amostral. (MINGOTI, 2005). Divide-se em dois grandes grupos: técnicas exploratórias de sintetização e técnicas de inferência estatística. A presente pesquisa visou utilizar os métodos que compreendem ao primeiro grupo, destacando-se as técnicas utilizadas: Análise de Componentes Principais, Análise Fatorial, Análise de Agrupamentos, Análise Discriminante e a Regressão Logística, descritas a seguir.

A Análise de Componentes Principais tem como objetivo principal explicar a estrutura da variância e da covariância do vetor aleatório original, por meio de combinações lineares entre as variáveis observadas, sendo essas combinações denominadas Componentes Principais. (MARQUES, 2006). Tem como característica principal tornar as variáveis não-correlacionadas entre si, além de classificar as variâncias explicativas, ou seja, expõe as componentes em ordem decrescente, obedecendo à variância máxima determinada na explicação do fenômeno.

A Análise Fatorial visa à simplificação dos dados, mantendo a variabilidade, com a menor perda possível de informações. Esse método multivariado busca a explicação numérica, possibilitando estimar a relação entre as variáveis em questão. ANDREOLI (1998) diz que a Análise Fatorial é uma técnica de análise multivariada que tem como objetivo examinar a interdependência entre as variáveis e a sua principal característica é a capacidade de redução de dados. Percebe-se então a essência da estatística multivariada quando empregada essa técnica: utilizar um banco de dados relacionados a diversas variáveis, buscando explicar o desenvolvimento dos dados e, conseqüentemente, a generalização dos resultados. Os valores numéricos obtidos possibilitam encontrar o valor correspondente a cada elemento amostral. Tais valores, denominados escores, podem também ser utilizados em análise de variância e regressão, já que estabelecem a dependência na estrutura numérica. (ZANELLA, 2006).

A análise de Agrupamentos é uma técnica multivariada que consiste em dividir as componentes do espaço amostral, em subgrupos. (MINGOTI, 2005). Essa divisão deve obedecer a critérios de coesão interna entre os componentes de um mesmo grupo, e heterogeneidade em relação à mesma variável entre elementos de grupos diferentes. Essa análise permite o desenvolvimento de algoritmos classificadores, dando sentido à organização e validação dos dados coletados.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2984

Page 4: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

A Análise Discriminante é uma técnica que trata dos problemas de alocação de novos objetos (observações, itens ou pessoas) em conjuntos previamente definidos. (MARQUES, 2006). De acordo com ALVES (2005) essa técnica tem como objetivos iniciais:

1. Descrever algébrica ou graficamente as características diferenciais dos objetos (observações) de várias populações conhecidas a fim de achar “discriminantes” cujos valores numéricos sejam tais que as populações possam ser separadas tanto quanto possível.

2. Agrupar os objetos (observações) dentro de duas ou mais classes determinadas. Tenta-se encontrar uma regra que possa ser usada na alocação ótima de um novo objeto (observação) nas classes consideradas.

Com o conhecimento a priori dos grupos torna-se possível elaborar uma função matemática, regra de classificação ou discriminação, utilizada para determinar a entrada de um novo elemento no grupo, atendendo as características previamente estabelecidas na técnica discriminante. Essa regra fundamenta-se na teoria das probabilidades, e desta busca a provável geratriz numérica dos valores mensurados. (MARQUES, 2006). Dessa forma, é necessário estabelecer a variável que melhor discrimina os grupos, tornando possível compactar os dados e representá-los de forma numérica ou algébrica. Segundo WANGENHEIM (2007) quando deseja-se discriminar um elemento entre mais de dois grupos, pode-se generalizar a metodologia, e a análise discriminante multigrupos é aplicada em comunhão à análise fatorial e a análise de variância.

A Regressão Logística é um método, ou uma abordagem de modelagem matemática, que objetiva descrever a relação entre uma variável resposta - dependente - e uma ou mais variáveis explicativas – independentes, ou relacionando variáveis quantitativas e qualitativas. De acordo com MARQUES (2006) a principal característica que define a regressão logística é o fato de a variável resposta ser dicotômica ou binária (0,1), enquanto que na regressão linear são consideradas apenas variáveis contínuas. Ainda de acordo com este autor as razões para a escolha da regressão logística são: a extrema flexibilidade e facilidade de uso, além de proporcionar interpretações significativas.

3. Metodologia

A presente pesquisa engloba um estudo associado à aplicação da análise multivariada no desempenho de 1157 candidatos ao vestibular de Verão 2007, ingressos no ano de 2008, da Faculdade Estadual de Ciências e Letras de Campo Mourão – FECILCAM, que oferece nove cursos: Administração, Ciências Contábeis, Ciências Econômicas, Engenharia de Produção Agroindustrial, Geografia, Letras, Matemática, Pedagogia e Turismo e Meio Ambiente. A FECILCAM realiza dois vestibulares do tipo vocacionado por ano, o Vestibular de Inverno e o Vestibular de Verão, sendo realizados em junho e dezembro, respectivamente, do ano que antecede o ingresso dos aprovados na instituição. No total são oferecidas 265 vagas por vestibular.

O questionário, formulado e fornecido pela Instituição, abrange variáveis sociais, econômicas, culturais e educacionais, baseado em uma escala não-homogênea. Dentre as 30 questões que compunham o questionário foram selecionadas 19, caracterizadas por: estado civil; estado de residência; zona de localização da residência; renda mensal; instrução do pai; instrução da mãe; tipo de moradia; participação financeira na família; característica do ensino fundamental; tempo de conclusão do ensino médio; característica do ensino médio; turno em que cursou o ensino médio; tipo de formação; participação em cursinho pré-vestibular; curso superior; meio de informação; cor; sexo e idade.

Com o objetivo de identificar até que ponto as variáveis citadas influenciam no desempenho no vestibular, foram analisados apenas os dados dos candidatos que realizaram as provas, totalizando 1157 (29 desistências). Para conduzir a análise dos dados e a aplicação das técnicas, alguns recursos e programações computacionais foram utilizados, tais como os Softwares Excel, Statistica, Minitab e o Matlab.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2985

Page 5: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

4. Resultados e Discussão Na simplificação dos dados foram formados novos grupos, denominados fatores, que

representam um banco de dados normalizados e com uma correlação linear aceitável associada aos dados iniciais. A Análise Fatorial permite estabelecer as variáveis que melhor explicam a variabilidade dos dados e, portanto, influenciam na resposta do questionário. Com a matriz inicial de dados, que continha as respostas dos candidatos, ditas observáveis, foi aplicada a análise fatorial.

Tabela 1.1 - Respostas das 19 questões direcionadas a critérios sócio-educacionais, matriz bruta.

NR 01 03 04 05 06 07 08 09 11 12 13 14 15 16 18 23 24 sexo idade 1 1 1 1 4 7 7 1 5 4 5 4 1 2 2 2 1 1 2 2 2 1 1 1 4 5 5 1 2 1 1 1 2 1 2 1 1 3 1 1 3 1 1 1 3 6 5 1 1 1 4 1 1 2 2 2 5 1 1 2 4 1 1 1 2 2 4 1 1 1 4 1 1 2 2 2 5 3 2 2 5 1 1 1 4 6 7 1 5 1 4 2 1 2 1 2 5 1 1 1 6 1 1 2 3 2 3 1 2 1 5 1 4 2 2 2 1 1 1 1 7 1 1 1 3 4 4 1 5 4 1 4 1 2 2 1 1 1 2 2 8 1 1 1 3 2 7 1 5 1 5 1 1 2 2 2 2 1 2 2 9 2 1 1 4 2 2 1 3 1 1 1 2 2 2 1 1 3 2 1 10 1 1 1 4 4 7 1 5 1 5 1 1 3 1 2 2 4 2 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1150 1 1 1 2 2 2 1 1 1 1 1 2 1 1 1 2 2 2 2 1151 1 1 1 4 5 5 1 1 2 3 2 1 1 2 2 2 4 1 1 1152 2 1 1 5 1 2 1 4 1 1 1 2 2 2 1 2 3 1 1 1153 2 1 1 3 2 1 1 3 1 1 1 2 2 2 2 1 3 1 2 1154 1 1 1 3 3 5 1 2 1 3 1 2 2 2 2 1 2 1 1 1155 1 1 1 3 6 6 2 5 1 5 1 2 2 2 2 2 1 2 1 1156 3 1 1 2 2 2 2 4 1 1 1 1 2 1 2 1 1 2 2 1157 1 1 1 4 3 3 1 2 1 2 1 1 2 2 2 2 1 1 1

A análise fatorial tem como característica principal a simplificação ou redução de dados

a fatores que permitem obter um número menor de variáveis alternativas, não correlacionadas e que sintetizem as informações referentes ao fenômeno observado em uma variância explicada. Por meio da Análise de Componentes Principais, torna-se possível estabelecer a variância explicada de cada fator, na análise dos autovalores, conforme mostra o quadro 1.1.

nr Autovalores Variância Autovalores

Acumulados % Variância Explicada

1 2,509132 13,20596 2,509132 13,20596 2 1,954406 10,28635 4,463538 23,49231 3 1,279559 6,734521 5,743097 30,22683 4 1,191842 6,272854 6,934939 36,49968 5 1,095764 5,767177 8,030703 42,26686 6 1,071632 5,640167 9,102335 47,90703 7 1,064159 5,600835 10,16649 53,50786 8 1,052851 5,541319 11,21934 59,04918 9 0,971842 5,114958 12,19119 64,16414 10 0,95553 5,029105 13,14672 69,19324 11 0,859184 4,522021 14,0059 73,71526

Quadro 1.1 - Autovalores e % Variância Explicada

Na interpretação dos resultados, o fato de existir correlação linear entre as variáveis, permite o agrupamento em fatores. Utilizando os métodos de escolha do número de fatores tem-se que, de acordo com Critério de Kaiser, no qual são considerados os autovalores maiores ou iguais a 1, o número de fatores seria 8, o que corresponde a apenas 59,05% da variabilidade total dos dados. Considerarmos, então, a proporção da variância explicada em relação à total, sendo

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2986

Page 6: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

utilizados os autovalores superiores a 0,85, totalizando 11 fatores que explicam 73,71% da variância total.

A fim de identificar quais variáveis melhor carregam cada fator, realizamos a rotação Varimax. Nesse processo os fatores são translacionados próximos de variáveis que o carregam com maior intensidade, consequentemente, apontando as variáveis com maior carregamento, enquanto as demais se tornam numericamente próximas à zero. De acordo com diversos autores, o carregamento é considerado significativo na determinação dos fatores quando possui valores superiores a 0,7, em módulo.

Tabela 1.2 - Peso dos fatores após a rotação Varimax

Fator 1

Fator 2

Fator 3

Fator 4

Fator 5

Fator 6

Fator 7

Fator 8

Fator 9

Fator 10

Fator 11

Var 1 0,124 -0,654 -0,167 0,196 -0,048 0,057 0,011 0,166 0,150 0,093 -0,113 Var 2 -0,094 -0,039 -0,015 -0,015 0,032 -0,034 -0,010 -0,030 -0,035 0,963 -0,011 Var 3 0,180 0,160 0,014 -0,068 -0,031 0,088 0,056 0,055 -0,865 0,047 0,045 Var 4 -0,559 -0,180 0,073 -0,030 0,283 -0,022 -0,197 0,226 -0,023 -0,155 0,051 Var 5 -0,765 0,106 -0,015 0,011 0,067 0,121 0,045 -0,040 0,115 0,084 0,018 Var 6 -0,773 0,161 0,013 -0,066 0,127 -0,038 0,037 0,001 0,046 0,098 0,058 Var 7 0,042 0,018 -0,015 0,024 0,022 0,034 -0,019 -0,934 0,039 0,029 0,001 Var 8 -0,062 0,143 -0,744 0,088 0,108 0,046 -0,063 0,154 -0,014 0,087 -0,034 Var 9 -0,151 0,011 -0,036 -0,024 0,847 -0,020 -0,018 -0,037 -0,004 0,023 0,033 Var 10 -0,119 0,792 -0,124 0,063 0,043 0,071 -0,051 0,074 -0,072 0,018 -0,165 Var 11 -0,126 0,021 0,018 0,074 0,850 0,037 0,026 0,017 0,040 0,015 0,032 Var 12 0,197 -0,476 0,346 0,356 -0,137 0,011 0,101 0,009 0,066 -0,007 -0,047 Var 13 0,020 0,070 -0,038 0,859 0,077 0,029 -0,011 -0,026 0,030 -0,015 0,085 Var 14 0,096 0,056 0,048 -0,085 -0,065 0,043 0,076 0,002 0,029 0,013 -0,945 Var 15 0,116 0,686 -0,014 0,346 -0,122 0,019 0,056 0,039 0,067 0,022 -0,007 Var 16 0,004 0,043 0,047 -0,006 -0,009 0,040 -0,958 -0,016 0,040 0,011 0,071 Var 17 0,330 0,191 0,078 -0,232 0,050 0,609 0,142 0,104 0,397 0,089 0,209 Var 18 0,137 -0,112 -0,713 -0,053 -0,130 -0,009 0,155 -0,215 0,031 -0,082 0,088 Var 19 0,198 0,047 0,075 -0,129 0,003 -0,819 0,107 0,085 0,207 0,079 0,132 Ex var 1,838 1,931 1,252 1,132 1,622 1,085 1,046 1,054 1,009 1,010 1,027 Pl tl 0,097 0,102 0,066 0,060 0,085 0,057 0,055 0,055 0,053 0,053 0,054

Percebe-se que um fator pode ser explicado por mais de uma variável, e por outro lado

variáveis que não carregam nenhum dos fatores, ou seja, a relação do fator e do número de variáveis torna-se hipotética. O carregamento de cada fator associado às variáveis pode também ser exemplificado na representação gráfica entre as variáveis. A título de ilustração, segue um exemplo entre os fatores 1 e 2.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2987

Page 7: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

Relação entre os fatores: Fator 1 x Fator2

Extração: Componentes ghiuggfghPrincipais

Fator 1

Fator uh2

VAR

1

VAR

2

VAR

3

VAR

4

VAR

5 VAR

6

VAR

7

VAR

8

VAR

9

VAR1

0

VAR1

1 VAR1

2

VAR1

3

VAR1

4

VAR1

5

VAR1

6

VAR1

7 VAR1

8

VAR1

9

-0,6

-0,4

-0,2

0,0

0,2

0,4

0,6

0,8

-0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6

Gráfico 1.1 - Relação entre as variáveis 1 e 2 após a rotação Varimax.

Por meio do Gráfico 1.1 percebe-se que o fator 1 é identificado pelo eixo das abscissas e o fator 2 pelo eixo das ordenadas, e que existem 4 grupos de fatores que se distanciam da origem, sendo que o das variáveis 5 e 6, destacadas em vermelho, apresentam a maior distância e, consequentemente, carregam o fator 1, conforme explicitado pela rotação Varimax. Essa comparação pode ser realizada com todos os fatores tomados 2 a 2, confirmando os resultados obtidos pela carga fatorial.

Como o carregamento dos fatores é identificado pelas variáveis, pode-se denominar cada fator, segundo sua maior explicação. Os resultados desse novo processo, especificados a seguir, representam as variáveis que melhor caracterizam o desempenho dos candidatos.

Fator Denominação

1 Formação dos pais 2 Tempo de conclusão do ensino médio 3 Contribuição familiar 4 Tipo de formação escolar 5 Caracterização da formação escolar 6 Idade 7 Meios de informação utilizados 8 Moradia 9 Zona de localização da residência 10 Estado em que reside 11 Participação em cursinho Quadro 1.2 - Denominação dos fatores

Utilizando a análise Fatorial e a rotação Varimax determinou-se uma nova estrutura dos

dados, agora reduzidos dimensionalmente, que revelam os dados referentes às observações individuais. Os coeficientes dos escores fatoriais explicitam a contribuição de cada variável na formação de cada fator (Tabela 1.3).

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2988

Page 8: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

Tabela 1.3 - Coeficientes dos escores fatoriais rotacionados Fator

1 Fator

2 Fator

3 Fator

4 Fator

5 Fator

6 Fator

7 Fator

8 Fator

9 Fator 10

Fator 11

Var 1 0,034 -0,354 -0,189 0,171 -0,007 0,085 -0,025 0,171 0,099 0,110 -0,129 Var 2 -0,007 -0,042 0,011 0,010 -0,012 -0,011 -0,031 -0,006 -0,047 0,956 0,002 Var 3 0,095 0,016 0,042 -0,040 0,033 0,103 0,074 0,047 -0,861 0,063 0,101 Var 4 -0,284 -0,126 0,029 -0,012 0,068 -0,003 -0,124 0,175 -0,051 -0,172 0,009 Var 5 -0,473 0,011 0,007 0,034 -0,138 0,120 0,117 -0,062 0,096 0,041 0,013 Var 6 -0,453 0,048 0,030 -0,031 -0,095 -0,028 0,112 -0,028 0,036 0,052 0,049 Var 7 -0,002 0,004 0,026 0,013 0,044 0,014 -0,037 -0,891 0,019 0,003 -0,022 Var 8 0,008 0,014 -0,602 0,070 0,050 0,006 -0,092 0,174 0,009 0,069 -0,062 Var 9 0,103 -0,011 -0,019 -0,029 0,569 -0,040 0,003 -0,059 -0,028 -0,001 -0,042 Var 10 -0,016 0,400 -0,049 0,058 0,007 0,004 -0,045 0,072 0,003 0,002 -0,152 Var 11 0,114 0,000 0,028 0,056 0,573 0,013 0,049 -0,006 0,012 -0,003 -0,038 Var 12 0,043 -0,218 0,254 0,317 -0,049 0,049 0,094 0,006 0,013 0,024 -0,034 Var 13 0,002 0,035 -0,012 0,757 0,038 0,009 0,008 -0,018 0,003 0,001 0,063 Var 14 0,041 0,019 0,017 -0,062 0,055 0,006 -0,005 -0,011 0,077 -0,002 -0,926 Var 15 0,074 0,385 0,042 0,301 -0,073 -0,035 0,052 0,056 0,124 0,027 0,018 Var 16 0,096 0,021 -0,005 -0,024 -0,022 0,010 -0,938 -0,026 0,073 0,041 0,001 Var 17 0,238 0,130 0,100 -0,239 0,068 0,555 0,129 0,136 0,401 0,111 0,236 Var 18 0,030 -0,097 -0,577 -0,061 -0,066 -0,021 0,104 -0,168 0,028 -0,101 0,081 Var 19 0,159 0,124 0,040 -0,116 0,055 -0,768 0,066 0,087 0,241 0,073 0,111

A nova matriz encontrada (Tabela 1.4) apresenta valores normalizados e não-

observáveis, que se torna a nova base de dados para a aplicação das demais técnicas multivariadas, e traz os valores individuais dos candidatos na formação dos 11 fatores.

Tabela 1.4 - Escores Fatoriais Rotacionados Fator

1 Fator

2 Fator

3 Fator

4 Fator

5 Fator

6 Fator

7 Fator

8 Fator

9 Fator 10

Fator 11

1 -1,227 0,670 -1,146 0,192 5,139 -1,144 1,329 0,366 0,335 -0,387 -0,820 2 -1,309 -1,701 1,682 -2,692 -0,278 1,770 1,032 0,627 0,220 -0,327 -0,172 3 -1,002 0,790 1,361 -0,131 -0,549 -1,011 -2,201 0,311 0,529 -0,068 -0,402 4 1,115 0,961 0,337 -0,801 -0,275 -0,111 -1,881 0,205 1,272 0,041 0,197 5 -2,005 0,436 -0,108 0,496 0,355 0,520 -2,470 0,744 -0,132 -0,186 1,664 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1153 1,332 -1,061 0,961 0,414 0,102 0,223 0,931 1,341 1,094 0,193 -0,181 1154 -0,561 -0,083 1,557 0,512 -0,365 0,995 1,018 0,543 0,098 -0,217 -0,412 1155 -1,667 0,175 -0,788 0,889 -0,651 0,596 0,213 -1,855 0,031 -0,275 -0,805 1156 0,845 -1,734 -1,697 0,775 -0,231 -0,898 0,698 -1,189 0,415 0,221 1,644 1157 -0,636 -0,213 0,977 0,100 -0,185 0,343 -0,347 0,546 -0,388 -0,597 -0,541

A fim de comparar o resultado obtido na análise fatorial foi realizada também a análise

de agrupamentos, que visa agrupar as variáveis mais semelhantes. Com o auxílio do Software

Statistica, optou-se pelo critério de ligações completas e o parâmetro usado na determinação da similaridade entre as variáveis foi o quadrado da distância euclidiana.

Na análise de agrupamentos, as variáveis são unidas até formarem um único grupo. Devido a essa característica, a determinação dos agrupamentos obedece a critérios interpretativos. Analisando a representação gráfica, pode-se perceber que a partir de um determinado ponto são unidas variáveis de grupos diferentes, nesse momento, pode-se dizer que o coeficiente de correlação linear entre as variáveis é desprezado, e visa-se apenas continuar agrupando as variáveis “mais próximas”. Com base nisso, o corte nos grupos foi realizado no momento em que houve “um salto” entre os agrupamentos, o que proporcionou a formação de 9 conglomerados, ou clusters, sendo estruturados pelas seguintes variáveis:

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2989

Page 9: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

Diagrama de Árvore para as 19 variáveis

Ligação Completa

Quadrado da Distância Euclidiana

Dis

tânc

ia d

as L

igaç

ões

0

2000

4000

6000

8000

10000

12000

Con

cl. E

.M.

Par

t. fi

nan.

Inst

. mãe

Inst

. pai

Mei

o in

f.

Ren

da Cor

Idad

e

Sex

o

Cur

sinh

o

Cur

so s

upe.

For

maç

ão

E.M

.

Est

. res

id.

Mor

adia

E.F

.

Loc

. res

id.

Tur

no E

.M.

Est

. civ

il

Gráfico 1.2 - Dendrograma entre as 19 variáveis

Grupo 1: Tempo de conclusão do ensino médio Grupo 2: Participação financeira na família Grupo 3: Grau de instrução da mãe Grupo 4: Grau de instrução do pai Grupo 5: Meios de informação Grupo 6: Renda Mensal Grupo 7: Cor Grupo 8: Tipo de formação escolar, Participação em cursinhos, Inicio de curso

superior, Sexo e idade. Grupo 9: Estado civil, Estado de residência, Zona de localização da residência,

Moradia, Tipo de formação do ensino fundamental e médio, Turno do ensino médio. Comparando os grupos formados com os resultados obtidos na Análise Fatorial, o

número de fatores foi próximo, sendo 11 na Análise Fatorial e 9 na Análise de Agrupamentos. Porém, as variáveis associadas a cada conglomerado foram distintas entre os métodos. Isso pode ser explicado pelo fato de que os critérios de similaridade entre os métodos são diferentes.

Utilizando os resultados obtidos pela análise fatorial, partiu-se para a fase de classificação dos candidatos e verificação da qualidade de ajuste dos métodos, determinado pelas técnicas de classificação: Análise discriminante e Regressão Logística.

Para validação da análise discriminante, foram utilizados dois métodos de verificação: Método da colocação de elementos à parte para classificação e o Procedimento de Lachenbruch. Na aplicação da Análise Discriminante foi utilizada a programação no software Matlb, para isso os elementos foram divididos em dois grupos, destinados à formulação do algoritmo e ao teste. Os dados foram dispostos em duas matrizes: matriz “A” dos aprovados e matriz “B” dos reprovados. Essas matrizes corresponderam a 70% dos dados, escolhidos aleatoriamente nas populações correspondentes, sendo o restante utilizado como treinamento.

Como se trata de uma redução a populações bivariadas (aprovados e reprovados), destaca-se a identificação dos coeficientes da Função Discriminante Linear de Fisher (Quadro 1.3), estabelecendo as componentes do vetor discriminante que estabelecerá a alocação de novos elementos à população analisada.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2990

Page 10: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

Coeficientes da Função Discriminante de Fisher

-0,385 -0,253 -0,117 0,029 0,151 -0,005 -0,086 -0,040 -0,207 0,058 -0,066

Quadro 1.3 - Coeficientes da F.D.L. de Fisher

O vetor formado por tais coeficientes quando multiplicado pela matriz de teste estabelece um valor normalizado. Nomeando as populações como 1π “aprovados” e 2π “reprovados” a alocação de um novo elemento será determinada pelo valor assumido pela população univariada, e comparado à média das duas populações. Os resultados obtidos pela fase de teste encontram-se a seguir.

Classificação prevista

1π 2π

1π 56 91

Classificação real

2π 102 154

Quadro 1.4 - Matriz de Confusão – Fase de teste Como a verificação pode ser obtida pela razão entre a classificação prevista e o valor

total de elementos, temos 38,09% o percentual de classificação correta para candidatos aprovados e 60,15% para os reprovados, na fase de teste.

Esse processo consistiu em validar o método a partir de partições no espaço amostral, por outro lado é possível também utilizar todos os elementos conjuntamente na determinação da qualidade de ajuste. Esse processo é denominado procedimento de Lachenbruch e leva em consideração a verificação de todas as observações na estimativa da regra de classificação, sendo que cada elemento é retirado da amostra de treinamento e utilizado na validação do modelo. Essa função é obtida a partir do melhor ajuste de n elementos e o seu resultado quando aplicado nos dados considerados, obteve-se um percentual de acerto de 57,55% na classificação dos aprovados, e 75,96% para os reprovados. Os resultados obtidos na validação da análise discriminante mostraram-se melhores na classificação dos candidatos reprovados

A Regressão Logística tem por objetivo “saber quais variáveis independentes influenciam ao resultado (variável dependente) e usá-las numa função para prever o resultado de um indivíduo à custa das variáveis independentes.” (REGRESSÃO..., on-line). Para isso, o resultado final do candidato caracterizou a variável dependente, que foi nomeada 0 aos reprovados e 1 aos aprovados. Os parâmetros ),...,( 110 ββ obtidos pelo modelo de regressão

foram estimados por meio do algoritmo de quase Newton, por meio do Software Statistica, que determinam a função logit, e o modelo dado por:

1110321

1110321

x0,1757-0015,0...1237,03211,00,2663-1,1382

x0,1757-0015,0...1237,03211,00,26631,1382-

1)(ˆ

xxxx

xxxx

e

ex

−++−+

−++−+

+=π (1.1)

Para determinar o resultado final de um elemento quando relacionado à amostra, basta substituir os escores fatoriais no modelo acima definido e associá-lo à variável binária considerada. A verificação dos erros e acertos na fase de treinamento para o modelo estimado é realizada de acordo com a análise da matriz de confusão, apresentada a seguir, que evidencia a melhor classificação para os candidatos reprovados.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2991

Page 11: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

Classificação prevista

1π 2π

Percentual de acerto

1π 50 253 16,50% Classificação

real 2π 22 832 97,42%

Quadro 1.5 - Matriz de Confusão – Regressão Logística.

Os resultados obtidos numa análise completa da Regressão possibilitam identificar a probabilidade de significância de cada um dos 11 fatores, conforme exposto.

Fatores Coef ( β ) p

1 0,266392 1,15 2 -0,321184 0,000 3 0,123754 0,077 4 0,120651 0,081 5 0,307832 0,000 6 -0,0272234 0,690 7 0,0488565 0,478 8 0,390821 0,000 9 0,0894627 0,154

10 -0,0015404 0,982 11 -0,175702 0,008

Quadro 1.6 – Coeficientes e probabilidade de significância dos coeficientes aplicada aos 11 fatores.

De acordo com os dados referentes à probabilidade de significância dos coeficientes (valor-p), temos que os fatores 1, 3, 4, 6, 7, 9 e 10 obtiveram uma maior probabilidade, possibilitando extingui-los do modelo de predição. Desconsiderando estes fatores, a regressão logística foi aplicada novamente e as probabilidades encontradas para os novos coeficientes, aproximaram-se do desejado (Quadro 1.6), confirmando a representação dos fatores na análise numérica, sendo obtidas como probabilidade de classificação correta: 98,48% aos candidatos reprovados e 7,92% para os candidatos aprovados.

Fatores Coef ( β ) p

2 -0,322353 0,000 5 0,308496 0,000 8 0,391807 0,000

11 -0,169905 0,009 Quadro 1.7 – Coeficientes e probabilidade de significância dos coeficientes aplicada aos 4 fatores.

Entretanto, quando comparamos a técnica de modelagem utilizada na classificação, pode-se perceber que há uma pequena melhora na classificação dos reprovados, para o modelo gerado a partir dos 4 fatores. Isso indica que os fatores desconsiderados não alteram de forma significativa o resultado final da classificação, e poderiam ser utilizados no modelo de regressão. Esta semelhança entre os resultados se justifica pelo fato de que ao aplicar a análise fatorial às 19 variáveis originais, obtemos novas variáveis, os 11 fatores não correlacionados entre si, utilizados na regressão logística. Considerações Finais

A estatística multivariada atua como uma área de grande importância, seja pelo desenvolvimento dos métodos e softwares computacionais, seja pelo seu amplo meio de aplicação em diversas áreas do conhecimento. Aliada à pesquisa operacional e a outros ramos, possibilita o grande objetivo do estudo estatístico: analisar dados ou fenômenos interpretá-los algebricamente, e consequentemente, podendo fornecer resultados relevantes a conclusões futuras.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2992

Page 12: PREDIÇÃO DOS CANDIDATOS AO TESTE DE ADMISSÃO DA … · atuando como banco de dados para a aplicação das técnicas de Análise de Componentes Principais, Análise Fatorial e Análise

Reconhecendo a importância da aplicação das técnicas de Data Mining na análise de dados, e da estatística multivariada como ferramenta foi possível estruturar a relação entre o desempenho e as variáveis sócio-educacionais dos candidatos ao vestibular de verão 2007 da FECILCAM. Mesmo sabendo que tais variáveis não tenham caráter informativo ou definam o resultado de um candidato, tornou-se possível verificar o comportamento das mesmas, tornando visível o processo de análise e padronização quando se tem um banco de dados multivariados. Com o auxílio das técnicas de Análise Fatorial, Análise de Componentes Principais, Análise de Agrupamentos, Análise Discriminante e Regressão Logística foi realizada a redução do banco de dados, e a conseqüente formulação do algoritmo de classificação, baseada nas validações parciais dos métodos empregados. Os resultados obtidos foram suficientes para o desenvolvimento e formulação dos mesmos, que visaram a padronização das variáveis associadas ao desempenho dos candidatos e a validação da aplicação do modelo multivariado, ainda que o questionário não fornecesse informações suficientes para a padronização. Referências Alves, V. Avaliação de imóveis baseada em métodos estatísticos multivariados. Dissertação de Mestrado, UFPR, 2005. Andrade, D.F, et al. Estatística e Redes Neurais em Mineração de dados. Dissertação de Mestrado, UFSC [ca. 2003]. Andreoli, S. B. Estrutura fatorial do questionário de morbidade psiquiátrica do adulto aplicado em amostras representativas de três cidades brasileiras (Brasília, São Paulo e Porto Alegre). Dissertação de Mestrado, UNIFESP. Marques, J. M. Notas de aula da disciplina de Análise Multivariada Aplicada à Pesquisa, do curso de Mestrado em Métodos Numéricos em Engenharia, da Universidade Federal do Paraná. Curitiba, 2006. Martinhago, S. Descoberta de conhecimento sobre o processo seletivo da UFPR. Dissertação de Mestrado, Curitiba: 2005. Mingoti, S. A. Análise de Dados através de métodos de estatística multivariada: uma abordagem aplicada. Belo Horizonte: UFMG, 2005. Trivelloni, C. A. P.; Hochheim, N. Avaliação de imóves com técnicas de análise multivariada. In: Congresso Brasileiro de Cadastro técnico Multifinalitário – UFSC. Dissertação de Mestrado, Florianópolis, 1998. Wangenheim, A. V. Reconhecimento de Padrões. Artigo. Disponível na internet (ww.inf.ufsc.br/~ patrec/estatisticas.html) Zanella, A. Identificação de fatores que influenciam na qualidade do ensino de matemática, através da análise multivariada. Dissertação de Mestrado, Santa Maria, 2006.

XLI SBPO 2009 - Pesquisa Operacional na Gestão do Conhecimento Pág. 2993