análise de dados de questionários aplicados a alunos do ......e processamento dos dados, e ajustes...
TRANSCRIPT
Universidade Federal de Ouro PretoInstituto de Ciências Exatas e Biológicas
Departamento de Estatística
Análise de Dados de Questionários Aplicados aAlunos do Curso de Estatística da UFOP
Débora Emília Gomes
Ouro Preto-MG
Julho de 2019
Débora Emília Gomes
Análise de Dados de Questionários Aplicados a Alunosdo Curso de Estatística da UFOP
Monografia de Graduação apresentada aoDepartamento de Estatística do Instituto deCiências Exatas e Biológicas da UniversidadeFederal de Ouro Preto como requisito parcialpara a obtenção do grau de bacharel em Es-tatística.
Orientador(a)
Dr. Eduardo Bearzoti
Universidade Federal de Ouro Preto – UFOPDepartamento de Estatística – DEEST
Ouro Preto-MG
Julho de 2019
Catalogação: [email protected]
G633a Gomes, Débora Emília. Análise de dados de questionários aplicados a alunos do curso deestatística da UFOP [manuscrito] / Débora Emília Gomes. - 2019.
79f.: il.: color; grafs; tabs.
Orientador: Prof. Dr. Eduardo Bearzoti.
Monografia (Graduação). Universidade Federal de Ouro Preto. Instituto deCiências Exatas e Biológicas. Departamento de Estatística.
1. Estatística - Estudo e ensino. 2. Questionários. I. Bearzoti, Eduardo. II.Universidade Federal de Ouro Preto. III. Titulo.
CDU: 311.12
Dedico este trabalho a minha mãe Nilza Emílio Gomes, que foi meu maior apoio nos
momentos de angústia, grande incentivadora e colaboradora, meu porto seguro.
Agradecimentos
Mais uma etapa que chega ao fim. Agora mudam as metas e expectativas iniciando
novas conquistas.Tenho muito a agradecer, e em primeiro lugar a Deus pelo dom da vida,
que me deu forças para passar pelos obstáculos, cansaço e desânimo, graças a ele consegui
chegar até aqui, confiante em um futuro melhor.
Aos meus pais Nilza Emílio Gomes e Luiz Carlos Gomes que me deram a vida, me
ensinando a viver com dignidade, me incentivando a correr atrás dos meus sonhos onde
não mediram esforços para me ajudar, e aos meus irmãos Denise Emílio Gomes e Halfeld
Emílio Gomes pelo companheirismo e apoio.
A República SuaVizinha pelo acolhimento, carinho, ajuda e pela oportunidade que
tive em conhecer e conviver com pessoas que estiveram presente nessa etapa importante
de minha vida.
Ao Prof.Dr.Eduardo Bearzoti, pela dedicação, empenho, paciência e por todo o co-
nhecimento transmitido na realização desse trabalho.
A Carol, Juliana e Natália pela amizade, companheirismos e pelos momentos que pude
compartilhar com vocês, sem vocês o curso não teria sido tão especial.
Aos professores Anderson Ribeiro Duante, Diana Campos de Oliveira, Érica Castilho
Rodrigues, Fernando Luiz Pereira de Oliveira, Graziela Dutra Rocha Gouvêa, Ivair Ra-
mos Silva, Marcelo Carlos Ribeiro, Ricardo Tavares, Rivert Paulo Braga Oliveira, Spen-
cer Barbosa da Silva, Tiago Martins Pereira e a todo departamento do curso de Esta-
tística(DEEST) pelos ensinamentos transmitidos no processo de formação profissional e
aprendizado.
A Estatis Jr pelo conhecimento e aprendizado transmitido e ao curso de Estatística da
Universidade Federal de Ouro Preto e a todos que convivi nesses anos, sendo uma grande
experiência ao longo dessa formação profissional.
Sozinha não teria sido possível ter adquirido os ensinamentos e conhecimentos, hoje
agradeço a todos que contribuíram quer direta ou indiretamente para a realização desse
sonho!
É melhor tentar e falhar, que preocupar-se e ver a vida passar. É melhor tentar, ainda
que em vão que sentar-se, fazendo nada até o final. Eu prefiro na chuva caminhar, que
em dias frios em casa me esconder. Prefiro ser feliz embora louco, que em conformidade
viver.
Martin Luther King
Análise de Dados de Questionários Aplicados a Alunosdo Curso de Estatística da UFOP
Autor: Débora Emília Gomes
Orientador(a):Dr. Eduardo Bearzoti
Resumo
O curso de Bacharelado em Estatística passou a ser ofertado em 2008 na Universidade
Federal de Ouro Preto, através do programa governamental REUNI, onde são oferecidas
anualmente, no segundo semestre letivo, 40 vagas de forma presencial no período noturno,
e a principal maneira de ingresso é através do Sisu. Considerando serem ainda relativa-
mente poucos os alunos que concluem o curso, houve iniciativas por parte do Colegiado
para levantamento de informações acerca do perfil dos discentes, que pudessem subsidiar
políticas para redução da taxa de evasão. Este trabalho se baseou na análise de dois bancos
de dados provenientes de dois projetos “Pró-Ativa”, desenvolvidos nos anos de 2016 e 2018,
com o objetivo de desenvolvimento e aplicação de questionários aos discentes do curso de
Estatística, para o conhecimento do perfil, condições sociais, avaliação dos professores e
da infraestrutura. Para tanto, foram empregadas técnicas de “estatística descritiva ”, como
calculo de frequências de algumas variáveis, bem como de análise de dados categóricos e
de análise de correspondência, para identificar e descrever a natureza da associação entre
questões. As distribuições de frequência permitiram caracterizar o perfil dos alunos de
uma maneira geral, sendo a maioria do sexo masculino, com idade mediana de 22 anos,
renda familiar de até 3 salários mínimos, e em sua grande maioria oriundos do estado
de Minas Gerais. A maioria cursou o ensino médio em rede pública e percebem sua base
matemática como fraca ou razoável. Para a análise de associação entre variáveis, os dados
dos anos de 2016 e 2018 foram reunidos, e a hipótese de independência entre pares de
variáveis(questões) foi julgada utilizando ferramentas como a estatística de χ2 de Pear-
son, teste exato de Fisher, e estimação do parâmetro gama para dados ordinais. Para
as associações significativas, buscou-se identificar categorias com tendência de ocorrência
conjunta, utilizando análise de correspondência. Dentre os resultados observados, pode-se
destacar: o tipo de instituição de ensino médio mostrou-se altamente associado com as
variáveis: base matemática, tempo de cursinho e renda; a base matemática autopercebida
não esteve associada com primeira opção de curso e dedicação semanal aos estudos, es-
tando associada apenas com a participação em atividades acadêmicas e tipo de ensino
médio; a primeira opção de curso esteve associada com a intenção de evadir; o tempo que
o aluno dedica aos estudos esteve associado com: trabalho, moradia e estado civil; e a
renda familiar esteve associada com o benefício de assistência estudantil.
Palavras-chave: Curso de Estatística, dados de questionário, dados categóricos.
Analysis of Data of Questionnaires Applied to Studentsof the Course of Statistics of UFOP
Author: Débora Emília Gomes
Advisor: Dr. Eduardo Bearzoti
Abstract
The Bachelor’s degree in Statistics was offered in 2008 at the University of Federal of
Ouro Preto, through the government program REUNI, where they are offered annually in
the second semester, 40 places of attendance form in the nocturnal period, and the main
way to get through is through Sisu. Close to your opinion still relatively the students finish
the course, there were the programs by the Collegiate to gather information about the
profile of the students, who could subsidize policies for reducing the evasion rate. This work
was based on the analysis of two banks of data from two “Proactive ”projects, developed
in the years 2016 and 2018, with the objective of developing and applying questionnaires
to the students of the Statistics, for the knowledge of the profile, social conditions, teacher
evaluation and of infrastructure. For that, descriptive statistics techniques were employed,
such as calculations of frequencies of some variables, as well as the analysis of categorical
and correspondence analysis to identify and describe the nature of the association between
questions. The frequency distributions made it possible to characterize the profile of a
general way, being the majority male, with median age of 22 years, family income of up
to 3 minimum wages, and most of them from the state of Minas Gerais. Most attended
high school in public schools and perceive their as weak or reasonable. For the association
analysis between variables, the data of 2016 and 2018 were gathered together, and the
hypothesis of independence between pairs of variables (questions) was judged using tools
such as Pearson’s χ2 statistic, Fisher exact test, and estimation of the gamma parameter
for ordinal data. For the significant associations, we sought to identify categories with
a tendency to occur using correlation analysis. Among the observed results, one can
highlight: the type of institution of secondary education has been highly associated with
the variables: mathematical basis, cursinho time and income; the mathematical basis self-
perceived was not associated with the first option of course and weekly dedication to
the studies, being associated only with participation in academic activities and type of
teaching medium; the first course option was associated with the intention to evade; The
time that the student is associated with: work, housing and marital status; and the income
was associated with the benefit of student assistance.
Keywords : Statistics Course, questionnaire data, categorical data.
Lista de figuras
1 Descrição do Perfil dos Alunos - Sexo e origem (OP: Ouro Preto; MG:
Minas Gerais; OE: outros estados). . . . . . . . . . . . . . . . . . . . . p. 34
2 Descrição do Perfil dos Alunos - Renda familiar, em salários mínimos, e
trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 35
3 Descrição do Perfil dos Alunos - Ensino médio e base matemática auto-
percebida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36
4 Descrição do Perfil dos Alunos - Estatística como primeira opção de
ingresso, e motivos para escolha do curso. . . . . . . . . . . . . . . . . . p. 37
5 Distribuição das idades conforme o sexo. . . . . . . . . . . . . . . . . . p. 38
6 Associação entre algumas variáveis nos anos de 2016 e 2018. Dedicação
aos estudos em horas semanais (Rar: raramente). . . . . . . . . . . . . p. 39
7 Análise de correspondência simples das variáveis ensino médio e percep-
ção da base matemática (B: boa, F: fraca, R: razoável; Pub: pública, Pri:
privada). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 43
8 Análise de agrupamento das variáveis ensino médio e base matemática. p. 44
9 Análise de correspondência simples das variáveis ensino médio e tempo
de cursinho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 45
10 Análise de agrupamento das variáveis ensino médio e tempo de cursinho. p. 46
11 Análise de Correspondência Simples das variáveis ensino médio e renda. p. 48
12 Análise de Agrupamento das variáveis ensino médio e renda. . . . . . . p. 48
13 Análise de correspondência simples das variáveis primeira opção de curso
(S: foi Estatística, Est1op.N: não foi Estatística) e intenção de evadir
(NunCog: nunca cogitei, MudIde: mudei de ideia, MinInt: é minha inten-
ção). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 51
14 Análise de Agrupamento das variáveis primeira opção de curso e intenção
de evadir (S: foi Estatística, Est1op.N: não foi Estatística) e intenção de
evadir (NunCog: nunca cogitei, MudIde: mudei de ideia, MinInt: é minha
intenção). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 52
15 Análise de correspondência simples das variáveis dedicação aos estudos,
em horas semanais (Rar: raramente estuda), e trabalho (S: sim; Trab.N:
não). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 54
16 Análise de agrupamento das variáveis dedicação aos estudos, em horas
semanais (Rar: raramente estuda), e trabalho (S: sim; Trab.N: não). . . p. 55
17 Análise de correspondência simples das variáveis dedicação aos estudos,
em horas semanais (Rar: raramente estuda), e moradia (Rep: república). p. 57
18 Análise de Agrupamento das variáveis dedicação e moradia. . . . . . . . p. 58
19 Análise de correspondência simples das variáveis renda, em salários mí-
nimos, e assistência estudantil (S:beneficiário; BenAssit.N: não). . . . . p. 59
20 Análise de Agrupamento das variáveis renda, em salários mínimos, e
assistência estudantil (S:beneficiário; BenAssit.N: não). . . . . . . . . . p. 60
21 Análise de correspondência simples das variáveis atividade acadêmica
(S: sim; AtiAcad.N: não) e base matemática autopercebida (F: fraca; R:
razoável; B: boa). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 62
22 Análise de agrupamento das variáveis atividade acadêmica (S: sim; Ati-
Acad.N: não) e base matemática autopercebida (F: fraca; R: razoável; B:
boa). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 62
23 Análise de correspondência simples das variáveis estado civil e dedicação
semanal aos estudos (Rar: raramente estuda). . . . . . . . . . . . . . . p. 64
24 Análise de Agrupamento das variáveis estado civil e dedicação semanal
aos estudos (Rar: raramente estuda). . . . . . . . . . . . . . . . . . . . p. 65
25 Análise de Correspondência Múltipla das variáveis ensino médio,base ma-
temática e tempo de cursinho . . . . . . . . . . . . . . . . . . . . . . . p. 66
26 Análise de Agrupamento das variáveis ensino médio, base matemática e
tempo de cursinho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 67
Lista de tabelas
1 Número de alunos graduados no curso de Bacharelado em Estatística,
conforme o ano e o semestre de colação de grau. . . . . . . . . . . . . . p. 20
2 Exemplo de uma tabela de contingência a× b. . . . . . . . . . . . . . . p. 21
3 Testes de independência envolvendo pares de variáveis categóricas com a
variável sexo, utilizando a estatística χ2. . . . . . . . . . . . . . . . . . p. 41
4 Testes de independência envolvendo pares de variáveis categóricas com a
variável sexo, utilizando o teste exato de Fisher. . . . . . . . . . . . . . p. 41
5 Tabela de contingência envolvendo as variáveis ensino médio e base ma-
temática. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 42
6 Valores esperados, sob independência, envolvendo as variáveis ensino mé-
dio e base matemática. . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 42
7 Resíduos padronizados de Pearson conforme o teste χ2, envolvendo as
variáveis ensino médio e base matemática. . . . . . . . . . . . . . . . . p. 42
8 Tabela de contingência envolvendo os valores observados das variáveis
ensino médio e tempo de cursinho. . . . . . . . . . . . . . . . . . . . . p. 45
9 Tabela de Contingência envolvendo as variáveis ensino médio e renda
familiar, em número de salários mínimos. . . . . . . . . . . . . . . . . . p. 47
10 Tabela de Contingência envolvendo as variáveis: base matemática e pri-
meira opção de curso, se foi Estatística ou não. . . . . . . . . . . . . . p. 49
11 Tabela de contingência envolvendo as variáveis: primeira opção de curso
(se foi Estatística ou não) e intenção de evadir. . . . . . . . . . . . . . . p. 50
12 Tabela de contingência envolvendo as variáveis dedicação aos estudos e
base matemática autopercebida. . . . . . . . . . . . . . . . . . . . . . . p. 52
13 Tabela de contingência envolvendo as variáveis dedicação aos estudos e
trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 53
14 Tabela de Contingência envolvendo as variáveis dedicação aos estudos e
moradia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 56
15 Tabela de contingência envolvendo as variáveis renda, em salários míni-
mos, e assistência estudantil (beneficiário ou não). . . . . . . . . . . . . p. 58
16 Tabela de contingência envolvendo as variáveis atividade acadêmica e
base matemática autopercebida. . . . . . . . . . . . . . . . . . . . . . . p. 60
17 Resíduos padronizados de Pearson referentes ao teste χ2 envolvendo as
variáveis atividade acadêmica e base matemática autopercebida. . . . . p. 61
18 Tabela de contingência envolvendo as variáveis estado civil e dedicação
semanal aos estudos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 63
Sumário
1 Introdução p. 17
2 Referencial Teórico p. 19
2.1 Contextualização do Curso de Estatística da UFOP . . . . . . . . . . . p. 19
2.2 Análise de Dados Categóricos . . . . . . . . . . . . . . . . . . . . . . . p. 21
2.2.1 Teste de Independência . . . . . . . . . . . . . . . . . . . . . . . p. 22
2.2.1.1 Teste Qui-Quadrado de Pearson . . . . . . . . . . . . . p. 22
2.2.1.2 Teste Exato de Fisher . . . . . . . . . . . . . . . . . . p. 23
2.2.1.3 Estatística Gama . . . . . . . . . . . . . . . . . . . . . p. 23
2.3 Análise de Correspondência . . . . . . . . . . . . . . . . . . . . . . . . p. 24
2.3.1 Análise de Agrupamento . . . . . . . . . . . . . . . . . . . . . . p. 28
3 Metodologia p. 31
4 Resultados p. 34
4.1 Análise Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 34
4.2 Associação Entre Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . p. 39
4.2.1 Ensino Médio e Base Matemática . . . . . . . . . . . . . . . . . p. 41
4.2.2 Ensino Médio em relação ao Tempo de Cursinho . . . . . . . . . p. 44
4.2.3 Ensino Médio e Renda Familiar . . . . . . . . . . . . . . . . . . p. 47
4.2.4 Base Matemática e Primeira Opção de Curso . . . . . . . . . . p. 49
4.2.5 Primeira Opção de Curso e Intenção de Evadir . . . . . . . . . . p. 50
4.2.6 Dedicação aos Estudos e Base Matemática . . . . . . . . . . . . p. 51
4.2.7 Dedicação aos Estudos e Trabalho . . . . . . . . . . . . . . . . . p. 53
4.2.8 Dedicação e Moradia . . . . . . . . . . . . . . . . . . . . . . . . p. 55
4.2.9 Renda e Assistência Estudantil . . . . . . . . . . . . . . . . . . p. 57
4.2.10 Atividade Acadêmica e Base Matemática . . . . . . . . . . . . . p. 60
4.2.11 Estado Civil e Dedicação . . . . . . . . . . . . . . . . . . . . . . p. 63
4.2.12 Análise de Correspondência Múltipla: Um Exemplo . . . . . . . p. 65
5 Considerações finais p. 68
6 Referências Bibliográficas p. 70
Apêndice A -- Termo de Consentimento Livre e Esclarecido - TCLE p. 71
Apêndice B -- Questionário 2018 p. 74
17
1 Introdução
Nos últimos anos vem aumentando o número de pessoas que têm acesso a sistemas
educacionais, como, por exemplo, o acesso ao ensino superior, onde os governantes vêm
trabalhando para ser um sistema mais inclusivo através da criação de alguns programas
governamentais com o objetivo de facilitar tal ingresso.
Devido a esse aumento também crescem a preocupação e o monitoramento, tendo
como propósito garantir uma educação de qualidade, independente da classe social e da
instituição de ensino frequentada.
Um dos programas do Governo Federal para expandir as Universidades Federais, ob-
jetivando o aumento do número de cursos de nível superior, e em consequência o número
de alunos, foi o programa de “Reestruturação e Expansão das Universidades Federais
(REUNI)”. Através desse programa o curso de Bacharelado em Estatística passou a ser
ofertado na Universidade Federal de Ouro Preto (UFOP), onde a primeira turma iniciou os
estudos em 18 de agosto de 2008. São oferecidas anualmente 40 vagas no segundo semestre
letivo, sendo o curso presencial e o turno noturno. A principal forma de ingresso é através
do Sistema de Seleção Unificada (Sisu), em que, para participar da seleção, é preciso fazer
a prova do Exame Nacional do Ensino Médio (ENEM), conforme regulamentação geral
da UFOP, existindo também outras formas de ingresso.
Tendo em vista o número de alunos que ingressam no curso, percebe-se que é muito
baixo o número de alunos que conseguem concluí-lo. Esta evasão não ocorre somente no
curso de Estatística da UFOP. No 1o Encontro de Coordenadores do Curso de Graduação
em Estatística, ocorrido em Porto Alegre em 26 de julho de 2016, verificou-se que esse
fenômeno é generalizado em todo o país, e, no mesmo evento, buscou-se diagnosticar
causas e propor ações.
O curso de Bacharelado em Estatística da Universidade Federal de Ouro Preto foi
avaliado pelo Ministério da Educação (MEC) pela primeira vez em 2013 e recebeu a nota
4 caracterizando “um perfil muito bom de qualidade”. Entretanto, no relatório produzido
18
pela comissão de avaliação do MEC, no item de síntese da ação preliminar à avaliação,
observou-se à ocasião que “falta uma análise estatística mais inferencial que permita uma
análise mais sólida e temporal dos resultantes das avaliações institucionais e de curso”,
especialmente “por se tratar de um Curso de Bacharelado em Estatística”. Em função disso,
nos anos subsequentes, houve a preocupação do Colegiado do curso para a implementação
de ferramentas de autoavaliação.
Dentre as iniciativas promovidas, tanto em 2016 como em 2018, foram desenvolvidos
questionários para preenchimento por parte dos alunos, com perguntas voltadas para o
conhecimento do perfil, condições sociais, bem como avaliação dos professores e infraestru-
tura, com o intuito de diagnosticar causas de evasão e propiciar um maior conhecimento
dos alunos como forma de propor ações.
Algumas das ferramentas estatísticas adequadas para a análise de dados de questi-
onário, além daquelas de Estatística Descritiva, correspondem às técnicas da Análise de
Dados Categóricos e da Análise de Correspondência, pois permitem não apenas identificar
associações entre variáveis de natureza qualitativa, como também elucidar a natureza das
eventuais associações.
Dessa forma, este trabalho teve como objetivo a análise de dados de questionários
aplicados a alunos do curso de Bacharelado em Estatística da Universidade Federal de
Ouro Preto, utilizando técnicas de Estatística Descritiva, Análise de Dados Categóricos e
Análise Multivariada.
19
2 Referencial Teórico
2.1 Contextualização do Curso de Estatística da UFOP
Embora desde épocas remotas já se empregavam operações estatísticas com o objetivo
de obter informações sobre os habitantes e riquezas de uma região e povos, apenas no
século XX a Estatística tornou-se uma área específica do conhecimento, sendo considerada
uma profissão relativamente recente na área da pesquisa, possuindo o desafio enorme de
aprender a partir de dados, havendo por objetivo principal fornecer métodos e técnicas
para lidar racionalmente com situações de incertezas. Por ser uma profissão considerada
recente no Brasil, são relativamente poucas as instituições brasileiras que oferecem o
curso de Bacharelado em Estatística, sendo que em 2007 apenas as instituições públicas
de Minas Gerais: Universidade Federal de Minas Gerais e Universidade Federal de Juiz
de Fora ofertavam o curso. Este foi um dos motivos que levaram a Universidade Federal
de Ouro Preto a concluir que o curso poderia contribuir para atender a demanda de
profissionais na região.
O curso tem como meta oferecer uma formação sólida a seus alunos, ofertando dis-
ciplinas das áreas de fundamentos como Matemática, Computação, Teoria de Probabi-
lidades e Inferência Estatística e também disciplinas profissionalizantes, como Técnicas
de Amostragem, Análise de Séries Temporais, Controle Estatístico de Qualidade, Análise
de Sobrevivência e Confiabilidade, Bioestatística e Estatística Espacial. O curso passou
por duas alterações curriculares, em 2010 e 2012, bem como uma reforma curricular em
2017, esta última tendo uma explícita preocupação quanto à redução da evasão, propici-
ando maior informação sobre a profissão, maior motivação e preparação de técnicas face
a atuais demandas do mercado.
De forma geral, o estatístico precisa ter conhecimentos sólidos e atualizados, bem
como ser capaz de abordar os problemas usuais de sua área, fazendo a coleta, organização
e processamento dos dados, e ajustes de modelos. Deve ser capaz de ir em busca de
informações a fim de resolver problemas novos, encontrando devidas soluções. Para isso
20
precisa ter uma sólida base matemática e habilidades na área de computação, possuir
também boa comunicação oral para apresentar os seus resultados, e ainda boa escrita
para confeccionar os relatórios, necessitando também ser um profissional curioso e apto a
aprender novas técnicas e métodos de trabalho.
Embora sejam ofertadas anualmente 40 vagas para o curso, são poucos os alunos que
conseguem concluí-lo. O Projeto Pedagógico do Curso de Estatística da UFOP aponta que,
até 2016, um total de 43 bacharéis, conforme Tabela 1 (citação PPC), haviam concluído o
curso, o que corresponde a apenas pouco mais de 20% das 200 vagas ofertadas no período,
percebe-se também um número elevado de alunos que concluíram o curso no ano de 2014
se comparado com os outros anos respectivamente, e umas das principais causas desse
acontecimento, é que nesse ano outras políticas foram tentadas e em consequência disso
muitos alunos conseguiram formar.
Tabela 1: Número de alunos graduados no curso de Bacharelado em Estatística, conformeo ano e o semestre de colação de grau.
SemestreAno de Colação Primeiro Segundo TOTAIS
2012 0 3 32013 4 3 72014 11 7 182015 3 3 62016 9 0 9
TOTAIS 27 16 43
No 1o Encontro de Coordenadores do Curso de Graduação em Estatística, ocorrido
em Porto Alegre em 26 de julho de 2016, verificou-se que a taxa de evasão do curso de
Estatística é alta em todas as instituições que o ofertam, diagnosticando-se que um dos
motivos é o baixo embasamento matemático por parte dos discentes, acarretando altos
índices de reprovação nas disciplinas da área de matemática. Um segundo motivo seria o
baixo conhecimento e desinformação a respeito da atuação profissional do estatístico.
Portanto, é de extrema importância ter um conhecimento profundo e detalhado do
perfil dos discentes, tendo em vista que é muito alto o número de alunos que evadem
dos cursos. Conhecer o contexto social e familiar ajuda a entender os anseios, frustrações,
podendo contribuir na criação de políticas realistas e eficientes que ajudem na redução da
taxa de evasão.
21
2.2 Análise de Dados Categóricos
Questionário é um instrumento que serve para coletar informações e dados com o
intuito de conhecer melhor um determinado grupo de pessoas, podendo ser composto por
questões qualitativas e quantitativas. Quando as variáveis possuem natureza qualitativa,
pode ser empregada a chamada Análise de Dados Categóricos, que tem o objetivo de lidar
com dados em forma de categorias, que podem ser de natureza ordinal ou nominal.
Segundo Giolo (2012), dependendo das técnicas e objetivos utilizados para adquirir
os dados, as variáveis de interesse podem ser variáveis respostas ou explicativas. Aquelas
que são resposta são de natureza aleatória, sendo ajustadas a modelos probabilísticos. As
variáveis explicativas estão fixadas pelo delineamento amostral ou exercem ação causal.
Quando determinada variável possui baixas frequências de resposta, ou mesmo nulas,
recomenda-se agrupar categorias. Como forma de melhor visualização das variáveis res-
postas categóricas, usam-se as chamadas tabelas de contingência. Um exemplo de tabela
de contingência a × b, contendo variáveis explicativas e respostas, é mostrada na Tabela
2.
Tabela 2: Exemplo de uma tabela de contingência a× b.
Variável Y1 2 · · · b Totais
1 n11 n12 · · · n1b n1+
Variável X 2 n21 n22 · · · n2b n2+...
......
......
...a na1 na2 · · · nab na+
Totais n+1 n+2 · · · n+b n++=n
A Tabela 2 dispõe de frequências conjuntas, sendo que nij corresponde ao número
de indivíduos observados na i-ésima e j-ésima categoria, respectivamente da variável X
e da variável resposta Y ; ni+ diz respeito ao total marginal das frequências na i-ésima
linha. De forma análoga, n+b, diz respeito ao total marginal da coluna j, somando-se
suas frequências. A notação n++ é o total amostral (n) que é obtido somando-se todas as
frequências nij.
Geralmente há o interesse de se investigar a probabilidade de um indivíduo ser classi-
ficado na categoria j de Y , dado que pertence à categoria i de X, a qual é definida como
p(i)j = P (Y = j|X = i), onde i pode assumir os valores 1,2,..,a, em que∑b
j=1 p(i)j = 1.
22
Em algumas situações, tanto X como Y são variáveis resposta (e portanto variáveis
aleatórias), existindo o interesse em verificar se são variáveis independentes. Alguns dos
procedimentos utilizados para tal verificação são discutidos a seguir.
2.2.1 Teste de Independência
2.2.1.1 Teste Qui-Quadrado de Pearson
Segundo Giolo (2012), a utilização de diferenças entre valores observados e esperados
sob alguma H0, é usada para a construção de estatísticas de teste. No presente contexto,
a hipótese H0 corresponde à independência entre X e Y , situação na qual as proba-
bilidades conjuntas são iguais aos produtos das probabilidades marginais. A estatística
qui-quadrado foi proposta por Karl Pearson em 1900 e, para uma tabela de contingência
a× b, pode ser expressa como:
χ2c =
a∑i=1
b∑j=1
(nij − eij)2
eij(2.1)
Em que:
• nij = Número de indivíduos observados na i-ésima e j-ésima categoria;
• eij = Número de valores esperados na i-ésima e j-ésima categoria.
Quando os valores esperados (sobH0) das caselas são suficientemente grandes (recomenda-
se maiores que 5), sendo H0 verdadeira, a distribuição χ2c pode ser aproximada para uma
qui-quadrado com (a− 1)(b− 1) graus de liberdade. Valores-p baixos levam à rejeição de
H0, sendo usual utilizar níveis de significância α = 0, 01 ou 0,05.
Muitas das vezes pode surgir o propósito de conhecer melhor o que levou à rejeição da
hipótese de independência, por exemplo detectar quais das combinações entre categorias
das duas variáveis que mais contribuíram para esta rejeição. Uma técnica que permite
realizar tal aprofundamento é o cálculo dos resíduos padronizados de Pearson. Segundo
Agresti (2002), estes são definidos como:
nij − µij√µij(1− pi+)(1− p+j)
(2.2)
em que µij = n× pi+ × p+j, onde pi+ = ni+/n , p+j = n+j/n.
23
Calculados os resíduos de Pearson para cada célula da tabela de contingência, merecem
atenção aquelas com valores em módulo maiores que 2 ou 3.
2.2.1.2 Teste Exato de Fisher
Quando se lida com um conjunto de dados pequeno, pode ocorrer, ao se testar associ-
ações entre variáveis, de os valores esperados sob H0 serem baixos, menores que 5. Nestes
casos, a aproximação para a distribuição qui-quadrado pode não ser não muito boa. Uma
alternativa quando acontece um problema dessa natureza é a utilização do teste Exato de
Fisher, que é baseado na distribuição Hipergeométrica.
A estatística desse Teste corresponde à probabilidade de se encontrar um particular
arranjo de frequências sob H0. Por exemplo, em uma tabela 2 × 2, esta probabilidade é
dada por:
p =
(n1+
n11
)(n2+
n21
)(
n
n+1
) (2.3)
Segundo Giolo (2012), ao obter a probabilidade associada ao arranjo das frequências
observadas, mantendo os totais marginais fixo, a soma dessas probabilidades é comparada
com o nível de significância estabelecido, como, por exemplo, α=0,05. Valores menores que
o nível de significância levam à rejeição da hipótese nula, que estabelece a independência
entre as variáveis.
2.2.1.3 Estatística Gama
Segundo Agresti (2002), a estatística Gama é uma alternativa para testar a associação
entre variáveis que sejam de natureza ordinal, sendo uma medida definida no intervalo
entre −1 e 1, facilitando a interpretação; valores perto de 0 sugerem independência entre
as variáveis X e Y , e valores perto de 1 ou −1 indicariam associação positiva ou negativa,
respectivamente, conforme a ordem escolhida de disposição das categorias de cada uma
das duas variáveis.
Ao se empregar um teste usual de independência, como o de qui-quadrado, em va-
riáveis que sejam ordinais, pode ocorrer de ser não significativo mesmo quando estejam
associadas, dado o menor poder do teste, pois ignora o fato de as variáveis categóricas em
24
questão serem ordinais. Nestas situações, o teste envolvendo a estatística gama é o mais
adequado.
Segundo Agresti (2002) a estatística gama baseia-se nos números de pares:
• Concordantes: Indivíduos que são classificados em uma determinada categoria su-
perior das linhas também é classificado numa categoria superior na variável das
colunas; pode-se designar C, como o total de pares concordantes.
• Discordantes: Indivíduos que são classificados em uma determinada categoria supe-
rior das linhas é classificado numa categoria inferior na variável das colunas. O total
de pares discordantes é representado por D.
Dessa forma, as probabilidades de concordância e de discordância podem ser estimadas
respectivamente por CC+D
e DC+D
. O parâmetro γ é definido como a diferença entre essas
duas probabilidades, sendo então estimado por:
γ =C −DC +D
(2.4)
O valor esperado dessa estatística é 0, sob independência. O erro padrão de γ pode ser
aproximadamente obtido pelo chamado método Delta (Agresti, 2002); sua expressão pode
ser encontrada nesta mesma obra. Em posse do erro padrão, intervalos de confiança, bem
como testes de hipótese envolvendo γ podem ser feitos utilizando a aproximação normal.
2.3 Análise de Correspondência
Segundo Johnson e Wichern (2007), a análise de correspondência foi desenvolvida por
pesquisadores franceses com o objetivo de medir o grau de associação entre as variáveis
categóricas de uma tabela de contingência, com recursos gráficos para representar associa-
ções, como a disposição de coordenadas (dimensões) das diferentes categorias das variáveis
em gráficos, e o cálculo da inércia (quantidade de informação retida em cada dimensão).
Esta técnica multivariada é aplicada em várias áreas, como Ecologia e Psicologia.
Por exemplo, reconsiderando a Tabela 2 de contingência a × b, o gráfico resultante
da análise de correspondência possuirá dois conjuntos de pontos, um com a elementos,
correspondentes às linhas, e outro com b elementos, referentes às colunas. Considerando,
por exemplo, apenas as duas primeiras dimensões, cada ponto será um par ordenado, e
sua disposição gráfica permitirá a visualização de eventuais associações entre eles. Quando
25
os pontos (categorias) das linhas estão muito próximos, constituem perfis semelhantes ao
longo das colunas, e pontos de colunas próximos constituem perfis semelhantes ao longo
das linhas. Pontos de linhas e colunas próximos indicam combinações com maior frequência
do que seria esperado sob independência.
A análise de correspondência pode ser de natureza simples ou múltipla. Na versão
simples, estudam-se relações existentes entre duas variáveis, enquanto que a múltipla lida
com mais de duas variáveis simultaneamente. A seguir, é apresentada brevemente a técnica
de análise de correspondência simples, conforme descrito por Johnson e Wichern (2007).
Vamos reconsiderar uma tabela de contingência a× b, como a Tabela 2, considerando
ambas as variáveis categóricas como aleatórias. Esta tabela poderia ser convertida na
chamada matriz de correspondência (que designaremos por P ), cujos elementos são dados
por:
pij =nij
n(2.5)
Sem perda de generalidade, vamos admitir que a > b, e também admitir que P tem
posto coluna completo b. A partir da matriz de correspondência, tem-se que as somas de
suas linhas, ou seja, pi+ =∑b
j=1 pij , podem ser dispostas em um vetor, que por sua vez
pode ser denotado por r:
r = P j = (p1+, p2+, p3+, · · · , pa+)t =(
n1+
n, n2+
n, · · · , na+
n
)t(2.6)
sendo j um vetor b×1 com elementos iguais a 1. Analogamente, para a soma das colunas,
pode-se definir um vetor c dado por:
c = P ti = (p+1, p+2, p+3, · · · , p+b)t =
(n+1
n, n+2
n, · · · , n+b
n
)t(2.7)
sendo i um vetor a× 1 com elementos iguais a 1, e p+j =∑a
i=1 pij.
Será também conveniente definir duas matrizes diagonais contendo os elementos desses
dois vetores, denotadas por Dr, referente às linhas, e Dc, referente às colunas:
Dr =
p1+ 0 · · · 0
0 p2+ · · · 0...
......
...
0 0 · · · pa+
, e Dc =
p+1 0 · · · 0
0 p+2 · · · 0...
......
...
0 0 · · · p+b
26
A análise de correspondência simples basicamente consiste em encontrar uma matriz
P , de elementos pij, que seja uma aproximação para P (mas de posto menor que b), e que
minimize a seguinte soma de quadrados ponderado:
a∑i=1
b∑j=1
(pij − pij)2
pi+p+j
(2.8)
ou seja, pode ser colocada em termos de uma análise de quadrados mínimos ponderado.
Considere agora a seguinte matriz:
D− 1
2r (P − P )D
− 12
c (2.9)
Esta matriz possui elementos (pij − pij)/√pi+p+j, e assim a soma de quadrados 2.8 pode
ser expressa como o traço a seguir:
a∑i=1
b∑j=1
(pij − pij)2
pi+p+j
= tr[(D− 1
2r (P − P )D
− 12
c )(D− 1
2r (P − P )D
− 12
c )t]
A demonstração não será apresentada aqui, mas a aproximação de posto reduzido s < b
da matriz de correspondência P é dada por:
P.=
s∑k=1
λk
(D
12r uk
)(D
12c vk
)t= rct +
s∑k=2
λk
(D
12r uk
)(D
12c vk
)tonde λk são os valores singulares e uk e vk são os vetores singulares a × 1 e b × 1, res-
pectivamente, da matriz D−12
r PD− 1
2c . A demonstração desse fato pode ser encontrada em
Johnson e Wichern (2007). A aproximação de posto 1 é dada pela matriz rct (que tem
posto igual a 1), e corresponde à aproximação que assume independência entre linhas e
as colunas. Assim, ao invés de P , é conveniente aproximarmos:
P − rct .=s∑
k=2
λk
(D
12r uk
)(D
12c vk
)to que nos permitirá descrever eventuais associações entre linhas e colunas. Pode-se de-
monstrar (Johnson e Wichern, 2007) que P − rct pode ser alternativamente aproximada
(com um posto reduzido K) por:
P − rct .=K∑k=1
λk
(D
12r uk
)(D
12c vk
)tonde λk são os valores singulares e uk e vk são os vetores singulares a × 1 e b × 1 da
matriz D−12
r (P − rct)D− 1
2c . Tem-se ainda que λk = λk+1, uk = uk+1 e vk = uk+1, para
27
k = 1, . . . b − 1. A SVD da matriz D−12
r (P − rct)D− 1
2c é, assim, a base da análise de
correspondência simples.
Os elementos da matriz D−12
r (P − rct)D−12
c são dados por: (pij − pi+p+j)/√pi+p+j, de
maneira que:
tr[(D− 1
2r (P − rct)D−
12
c )(D− 1
2r (P − rct)D−
12
c )t]
=a∑
i=1
b∑j=1
(pij − pi+p+j)2
pi+p+j
Feita a SVD de D−12
r (P − rct)D−12
c , tem-se que essa soma de quadrados pode ser expressa
como:a∑
i=1
b∑j=1
(pij − pi+p+j)2
pi+p+j
=b−1∑k=1
λ2k
a qual é definida como inércia total, sendo uma medida da variação presente nos dados.
Esta grandeza está associada com a estatística de qui-quadrado, uma vez que os produtos
pi+p+j são as probabilidades esperadas em cada casela da tabela de contingência, sob
independência. Assim, a inércia total se relaciona com a estatística 2.1 através de:
a∑i=1
b∑j=1
(pij − pi+p+j)2
pi+p+j
=χ2c
n
A aproximação de posto K da matriz P − rct, por sua vez, tem inérciaK∑k=1
λ2k, e a
proporção da inércia total associada à i-ésima coordenada é dada por:
λ2ib−1∑k=1
λ2k
A análise de correspondência múltipla é uma extensão da análise de correspondência
simples, sendo o tratamento matemático bastante semelhante. Para tal, é preciso definir
uma matriz indicadora dada por:
X = [X1|X2| · · · |XJ ]
contendo partições para cada variável categórica nela existente, sendo J o número de
características. Cada partição terá um número de colunas correspondente ao número de
categorias da variável categórica em questão. Cada linha da matriz X se refere a um caso
e, em cada partição, assumirá o valor 1, caso o dado pertença à categoria em questão, e 0
caso contrário. E, assim, partindo-se desta matriz indicadora, realiza-se uma decomposição
28
por valores singulares de maneira semelhante à realizada para a análise de correspondência
simples.
Na análise de correspondência, seja simples ou múltipla, é comum a disposição gráfica
considerando as duas primeiras coordenadas principais por serem as mais importantes,
para identificar associações entre as categorias. Contudo, pode acontecer de a proporção
de explicação destas coordenadas ser ainda baixa. Quando são necessárias três ou mais
coordenadas para uma proporção de explicação razoável (por exemplo, 70 ou 80%), pode
ser interessante utilizar-se de uma análise de agrupamento, fazendo uso de um número
adequado de coordenadas, as quais podem ser usadas como variáveis no cálculo de distân-
cias entre as categorias das variáveis. Estas distâncias podem então ser a base para uma
análise de agrupamento.
2.3.1 Análise de Agrupamento
A análise de agrupamento tem a finalidade de fazer divisões dos elementos presentes
em uma amostra, ou população, realocando-os em grupos de forma que elementos simi-
lares em respeito a suas variáveis pertençam aos mesmos grupos. Essa técnica pode ser
empregada em várias áreas, como psicologia, ecologia, geoquímica, pesquisa de mercado
etc. A decisão de até que situação dois pontos (elementos) do conjunto de dados podem ser
considerados iguais ou semelhantes entre si é importante, sendo imprescindível considerar
medidas que melhor representam a similaridade entre pontos em relação às características
presentes neles (Mingoti, 2007).
Quando se trabalha com variáveis do tipo qualitativas pode-se fazer uma transfor-
mação nas variáveis e usar as medidas de dissimilaridades, ou então, proceder com os
coeficientes de similaridade, que são desenvolvidas justamente para variáveis qualitativas.
A primeira iniciativa para fazer a técnica é decidir qual a medida de similaridade (ou
distância) que será utilizada, pois são muitas as medidas possíveis. Uma das medidas de
distância mais utilizadas é a distância euclidiana. Considerando dois elementos ou pontos
Xl e Xk, l 6= k, é definida por:
d(Xl, Xk) = [(Xl −Xk)′(Xl −Xk)]12 = [
p∑i=1
(Xil −Xik)2]12 . (2.10)
Existem dois procedimentos para a construção de conglomerados (Clusters), as técni-
cas hierárquicas e não hierárquicas. Segundo Mingoti (2007), as técnicas hierárquicas são
29
classificadas em aglomerativas e divisivas, e são muito utilizadas em análises exploratórias
dos dados, objetivando encontrar agrupamentos e o valor provável do número de grupos.
As técnicas não-hierárquicas precisam de ter pré-estabelecido o número de grupos.
Após se identificar os níveis de hierarquia, é possível empregar uma análise gráfica
como forma de melhor visualizar os grupos formados, como o dendrograma. Este cor-
responde a uma representação de uma árvore, onde o eixo vertical apresenta o nível de
similaridade ou dissimilaridade, e o eixo horizontal representa os elementos amostrais
numa ordem conveniente relacionada ao agrupamento. A formação dos grupos deve ser
tal que dentro de cada grupo os elementos sejam homogêneos.
Existem vários métodos de agrupamentos hierárquicos como os de ligação simples,
ligação completa, média das distâncias, método do centróide e o método de Ward, sendo
estes os mais utilizados e presentes em vários softwares estatísticos, segundo Mingoti
(2007). Neste estudo é apresentado apenas o método de Ward, definido a seguir.
O método de Ward foi proposto em 1963; inicialmente, admite-se cada elemento seja
um único conglomerado. A cada passo do algoritmo são calculadas somas de quadra-
dos dentro de cada conglomerado, e os aglomeramentos sucessivos são feitos buscando
minimizar estas somas de quadrados. Assim, define-se:
SSi =
ni∑j=1
(Xij − Xi.)′(Xij − Xi.) (2.11)
Em que:
• ni : Número de elementos no conglomerado Ci quando está no passo k do processo
de agrupamento;
• Xij: Vetor de observações do j-ésimo e i-ésimo do elemento amostral pertencente
ao conglomerado;
• Xi.: Centro do conglomerado Ci;
• SSi: Soma de quadrados correspondente ao conglomerado Ci.
No próximo passo k, a soma de quadrados dentro dos grupos é dada por:
SSR =
gk∑i=1
SSi (2.12)
30
• gk total de grupos no passo k.
E assim, dentre todos os pares de grupos, funde-se os grupos do par que minimize
SSR.
A distância entre os conglomerados que são dados por Cl e Ci tem a seguinte defi-
nição:
d(Cl, Ci) = [nlni
nl + ni
](Xl. − Xi.)′(Xl. − Xi.) (2.13)
E assim, percebe-se que a fusão em cada passo do algoritmo de agrupamento, equivale
a combinar os dois conglomerados que diminuem as distâncias entre si.
31
3 Metodologia
Este trabalho utilizou dados de dois questionários desenvolvidos e aplicados nos anos
de 2016 e 2018 através de dois projetos contemplados “Pró-Ativa”, coordenados pelo Prof.
Eduardo Bearzoti do departamento de Estatística (DEEST) da Universidade Federal de
Ouro Preto (UFOP). O programa Pró-Ativa, da Pró-Reitoria de Graduação da UFOP,
contempla propostas de atividades desenvolvidas por alunos de graduação, sob a orienta-
ção de servidores da UFOP, que resultem em ações concretas para melhoria das condições
de oferta dos cursos ou disciplinas de graduação na Universidade.
Ambos os projetos foram submetidos na linha temática referente a propostas para
redução da evasão e retenção, voltadas a diagnosticar os índices de evasão e retenção de
alunos nos cursos ou disciplinas de graduação, bem como propor ações para minimizar
estes dois fenômenos.
Em 2016, junto com o discente bolsista, foram estudadas as variáveis relevantes para
compor o questionário, tendo este sofrido ligeiras alterações em 2018. Em ambas as oca-
siões, todos os alunos matriculados no curso foram notificados de que a pesquisa seria
feita, disponibilizando-se o Termo de Consentimento Livre e Esclarecido (TCLE) com
antecedência, para a possibilidade de leitura prévia. Os alunos foram informados de que a
participação na pesquisa não era obrigatória, e que a divulgação de resultados seria feita
apenas de forma consolidada. Por ocasião da aplicação do questionário, duas cópias do
TCLE foram assinadas pelos alunos concordantes em participar da pesquisa, sendo que
uma cópia ficou para os alunos, e outra para o coordenador do projeto.
O questionário foi concebido em 2016 com 40 questões, predominantemente fechadas e
qualitativas, versando sobre tanto aspectos socioeconômicos, como acadêmicos. Em 2018
pequenas alterações foram realizadas, como a remoção de algumas poucas questões aber-
tas, tendo tido o questionário um total de 38 questões. Este questionário está apresentado
no Apêndice desta monografia.
Em 2016 houve um total de n = 60 respondentes, tendo este número aumentado para
32
n = 79 em 2018, embora eventualmente tenham ocorrido questões não respondidas.
Por se tratar de um número elevado de questões, neste trabalho foi considerado um
subconjunto delas para que não ficasse um trabalho muito extenso e cansativo e foram
escolhidas as questões de maior relevância, as quais foram submetidas a técnicas de:
• Estatística Descritiva: univariada e bivariada (distribuições de frequência);
• Análise de Dados Categóricos: identificação de eventuais associações entre pares de
questões qualitativas;
• Análise de Correspondência e Análise de Agrupamento: para elucidar a natureza
das eventuais associações.
A utilização de ferramentas de Estatística Descritiva se deu através da construção de
distribuições de frequência, para a descrição das seguintes variáveis: sexo, origem, renda,
trabalho, tipo de ensino médio, base matemática autopercebida, primeira opção de curso
no processo seletivo, e motivos de escolha do curso de Estatística. Tais distribuições foram
representadas graficamente, para ambos os anos, permitindo uma comparação entre estes.
Algumas distribuições de frequência bivariadas foram obtidas para determinados pares
de questões, como: idade vs sexo, ensino médio vs participação em curso pré-vestibular,
primeira opção de curso vs motivo de escolha, trabalho vs tempo de dedicação aos estudos,
e origem vs assistência estudantil.
Em seguida, buscou-se identificar eventuais associações entre pares de questões qua-
litativas, mediante testes de independência. Análises preliminares para cada ano em se-
parado revelaram muito poucas associações significativas, e assim optou-se por unir os
bancos de dados dos anos de 2016 e 2018 com o objetivo de aumento do tamanho da
amostra e consequentemente do poder dos testes. Esse novo banco foi composto por 21
variáveis (questões) comuns a ambos os questionários, das quais se tinha maior interesse
em investigar e estudar, reunindo um total de 113 indivíduos. Para tal, houve o cui-
dado de identificar os eventuais respondentes que participaram da pesquisa nos dois anos,
considerando-se, nestes casos, apenas as respostas do questionário mais recente, aplicado
em 2018.
Os testes estatísticos de independência foram feitos utilizando a estatística de χ2,
desde que verificada a condição de que os valores esperados das caselas fossem maiores
que 5. Quando esta condição não era atendida, era então utilizado o teste exato de Fisher.
33
Eventualmente, em presença de categorias ordinais, foi também utilizada a estimação
pontual e por intervalo do parâmetro gama.
Identificadas associações entre variáveis, foram utilizadas ferramentas de análise para
buscar elucidar a natureza da associação. Uma dessas ferramentas foi o cálculo dos resíduos
padronizados de Pearson, nas situações em que o teste de χ2 foi feito. Assim, nas tabelas de
contingência, foram consideradas caselas dignas de atenção aquelas com resíduos maiores
que 2, em valor absoluto.
A natureza das eventuais associações também foi estudada mediante a técnica mul-
tivariada de análise de correspondência, para identificar combinações entre categorias de
linhas e de colunas de maior frequência. Gráficos considerando as duas primeiras dimen-
sões foram construídos para permitir essa identificação.
Idealmente, em tais gráficos é desejável que as duas primeiras dimensões expliquem
grande parte da informação, ou inércia total, como por exemplo 70 ou 80%. Como nem
sempre isto ocorreu, optou-se também pela realização de análises de agrupamento de cate-
gorias, utilizando os valores das dimensões (ou seja, seus vetores singulares) para o cálculo
de distâncias euclidianas. Estas distâncias então serviram de base para a técnica hierár-
quica de agrupamento de Ward. A vantagem da análise de agrupamento, para identificação
de associações entre categorias, correspondeu à possibilidade de utilização de mais do que
duas dimensões para o cálculo de distâncias, tendo-se escolhido um número de dimensões
que propiciasse uma porcentagem de pelo menos 70% de explicação da variação total.
Quase sempre utilizou-se de análise de correspondência simples (pares de variáveis ca-
tegóricas), embora eventualmente tenha sido utilizada análise de correspondência múltipla
para análise de três variáveis categóricas simultaneamente.
34
4 Resultados
Inicialmente são apresentados alguns resultados de análise utilizando técnicas de Esta-
tística Descritiva, para descrição do perfil dos discentes do curso de Estatística da UFOP,
apresentados em figuras e tabelas, considerando os dois anos de levantamento.
4.1 Análise Descritiva
A Figura 1 apresenta frequências percentuais das variáveis sexo e origem dos alunos,
nos anos de 2016 e 2018. Observa-se que o percentual do sexo nos anos não mudou muito,
havendo uma predominância do sexo masculino (mais de 60%) em ambos os anos. Para a
variável origem, houve um aumento no percentual de alunos que são de outros estados e
os que são de Minas Gerais (demais cidades de Minas Gerais com exceção de Ouro Preto)
, e diminuiu o percentual de alunos que são de Ouro Preto, reduzindo de 36,7 para 19,0%.
Figura 1: Descrição do Perfil dos Alunos - Sexo e origem (OP: Ouro Preto; MG: MinasGerais; OE: outros estados).
A Figura 2 apresenta as variáveis renda familiar (em número de salários mínimos) e
35
trabalho (referente à questão se o aluno trabalha ou não). Percebe-se frequências seme-
lhantes em ambos os levantamentos, com cerca da metade (48,33% em 2016, e 52,56% em
2018) de alunos com renda familiar de 1 a 3 salários mínimos, e uma menor porcentagem,
nos dois anos, de pessoas com renda menor que 1 salário mínimo. Em relação aos alu-
nos do curso que trabalham, embora seja uma porcentagem considerável, como esperado
em cursos noturnos, percebeu-se uma redução expressiva entre 2016 e 2018, passando de
38,33% para 27,85%.
Figura 2: Descrição do Perfil dos Alunos - Renda familiar, em salários mínimos, e trabalho.
Na Figura 3 são apresentadas as frequências percentuais referentes às questões acerca
do tipo de instituição cursada durante o ensino médio, bem como a base matemática,
conforme percebida pelo próprio aluno. Em relação ao ensino médio, nota-se uma tendên-
cia semelhante em ambos os anos, com uma clara predominância (cerca de três quartos)
de alunos que o cursaram em escola da rede pública, 76,27% em 2016, passando para
73,42% em 2018. Em relação à variável base matemática autopercebida, também se verifi-
cam tendências semelhantes. No ano de 2016, o percentual de alunos que autodeclararam
possuir uma base matemática razoável foi de 45,00%; boa foi de 31,67%, e fraca 23,33%.
No ano de 2018 o percentual de alunos que diziam ter base matemática razoável aumen-
tou ligeiramente, e passou para 47,43%, a frequência da categoria boa diminuiu, ficando
em 29,49%, e fraca em 23,08%. Este resultado de certa maneira corrobora a constatação
feita no 1o Encontro de Coordenadores do Curso de Graduação em Estatística, em que
se apontou como uma das grandes dificuldades que os cursos de Estatística enfrentam é
o baixo embasamento matemático por parte dos discentes.
Em relação ao ingresso no curso, na Figura 4 são apresentadas as frequências de
36
Figura 3: Descrição do Perfil dos Alunos - Ensino médio e base matemática autopercebida.
respostas das questões se Estatística foi a primeira opção de curso, e sobre quais os motivos
de sua escolha. Chama a atenção o fato de, em 2016, apenas a metade dos alunos terem
colocado Estatística como primeira opção de curso. Em 2018 esse percentual aumentou
consideravelmente, passando a ser 65,38%.
Quanto ao motivo de escolha do curso, tem-se que em 2016 a maioria, cerca de 50,0%,
escolheram o curso através da mídia, 28,3% pelo fato de o curso ter baixa concorrência,
11,7% por incentivo de amigos e o restante por incentivos da família e outros motivos.
No ano de 2018, a questão sofreu uma pequena alteração, com o acréscimo da alternativa
“Mostra de Profissões”, ação anual promovida pela Pró-Reitoria de Graduação da UFOP,
para divulgação de seus cursos de graduação. A porcentagem de escolha através da mídia
reduziu para 39,74%, e por baixa concorrência reduziu um pouco, para 24,36%, e por
incentivo de amigos aumentou um pouco (16,7%). Chama a atenção o fato de 10,3% dos
respondentes terem declarado ter sido a Mostra de Profissões, evidenciando que esta ação
de divulgação promovida pela UFOP tem surtido efeito.
Com o intuito de identificar, de maneira exploratória, alguma possível associação entre
algumas variáveis e melhor visualização em conjunto, foram construídas também algumas
distribuições de frequência conjunta.
Na Figura 5 são dispostos gráficos boxplot da idade, para cada sexo, nos dois anos.
Observa-se que no ano de 2016 o sexo feminino tinha uma idade mediana de 22 anos,
mínima de 18 anos e whisker superior igual a 25, tendo ainda 2 pontos outliers próximos
às idades de 29 e 32 anos.
37
Figura 4: Descrição do Perfil dos Alunos - Estatística como primeira opção de ingresso, emotivos para escolha do curso.
Para o sexo masculino a idade mediana foi de 24 anos, a mínima de 18 anos e com
whisker superior 34 anos, tendo 1 ponto outlier próximo de 44 anos. Observou-se uma
maior variabilidade da idade para o sexo masculino.
Para o ano de 2018, o sexo feminino tinha uma idade mediana de 22 anos, mínima de
18 anos e whisker superior 29, tendo 4 pontos outliers próximos as idades de 31, 36, 46
e 59 anos. Para o sexo masculino a idade mediana foi de 22 anos, mínima de 18 anos e
whisker superior 35 anos, tendo 3 pontos outliers próximos de 35, 36 e 39 anos. Apesar
deste número maior de outliers, pode-se dizer que a idade para o sexo masculino também
aqui apresentou variabilidade maior em relação ao sexo feminino, dado o maior tamanho
da caixa de seu boxplot.
Na Figura 6 são apresentados gráficos de barras da distribuição conjunta de alguns
pares de variáveis: “ensino médio e tempo de cursinho” e “primeira opção de curso e motivo
de escolha”, para o ano de 2016, bem como “trabalho e tempo de dedicação aos estudos”,
e “origem e assistência estudantil”, para o ano de 2018.
No primeiro gráfico os alunos que cursaram o ensino médio em ambas as instituições
(pública e privada) fizeram 6 meses de cursinho. A maior parte dos alunos que estudaram
em escola privada ou fizeram seis meses ou não fizeram cursinho. Percebe-se no mesmo
gráfico que a maioria dos alunos (pouco mais de 30) que estudaram em escola pública não
fizeram cursinho, sendo que 12 declararam ter cursado 1 ano.
38
Figura 5: Distribuição das idades conforme o sexo.
No segundo gráfico, é interessante notar que a maioria dos alunos (cerca de 12) que
não tiveram Estatística como primeira opção de curso justamente o escolheram devido à
baixa concorrência. Em relação às outras categorias, 10 deles optaram pelas informações
na mídia, 5 alunos por influência de amigos, e o restante por familiares ou outros motivos.
Já os alunos que escolheram Estatística como primeira opção, em sua grande maioria (20)
o fizeram em virtude de informações da mídia, havendo, nas demais categorias, 6 alunos
pela baixa concorrência, e 4 alunos por amigos e familiares.
No terceiro gráfico é apresentada a distribuição conjunta das variáveis trabalho e
tempo de dedicação aos estudos, em horas semanais. Neste gráfico, chama a atenção a
categoria mais de 5 horas semanais, com uma predominância de alunos que não trabalham.
Por outro lado, dentre os que declararam raramente estudar, consta uma maioria de alunos
que trabalham. Isto demonstra que possivelmente os alunos que trabalham tendem a
estudar menos, podendo propiciar a terem algum tipo de dificuldade no curso, refletindo
em seu aprendizado.
Em relação à origem e à questão se o aluno é beneficiário de Assistência Estudantil,
observa-se uma maioria de não beneficiários, caso a origem seja de outras cidades de Minas
Gerais ou de outros Estados. É interessante notar que a maioria dos estudantes de Ouro
Preto são beneficiários de Assistência Estudantil, sugerindo que os alunos provenientes do
próprio município tenham uma menor condição socioeconômica, com maior demanda por
assistência.
Assim, em relação ao perfil dos discentes do curso, quanto às variáveis aqui destacadas,
é possível constatar em linhas gerais que:
39
Figura 6: Associação entre algumas variáveis nos anos de 2016 e 2018. Dedicação aosestudos em horas semanais (Rar: raramente).
• Em 2016, o sexo predominante era o masculino, solteiros, com idade mediana de 22
anos, renda familiar de até 3 salários mínimos, onde quase 90% eram do estado de
Minas Gerais, e mais de 30% dos alunos trabalhavam, sendo que a maioria destes
sentem que o trabalho atrapalha consideravelmente os estudos. A maioria cursou
o ensino médio em rede pública e percebem sua base matemática como fraca ou
razoável. Metade dos alunos não escolheram o curso como primeira opção.
• Em 2018 o sexo predominante também foi o masculino, com idade mediana de 22
anos, renda familiar de até 3 salários mínimos, com quase 80% provenientes do
estado de Minas Gerais. Quase 30% dos alunos trabalhavam, sendo que a maioria
sentem que o trabalho atrapalha consideravelmente os estudos. A maioria cursou
o Ensino Médio em rede pública e percebem sua base matemática como fraca ou
razoável, e cerca de 35% dos alunos não escolherem o curso como primeira opção.
4.2 Associação Entre Variáveis
Para melhor conhecimento e testar associações entre algumas variáveis categóricas,
foram realizados testes de independência, utilizando a estatística χ2 de Pearson, bem
como o teste exato de Fisher, caso necessário. Em presença de associações significativas,
buscou-se elucidar a natureza da associação, utilizando tanto resíduos padronizados de
40
Pearson, como recursos da análise de correspondência.
Inicialmente, testes preliminares feitos nas respostas de cada ano em separado reve-
laram muito poucas associações significativas. Com o intuito de aumentar o tamanho da
amostra, e consequentemente o poder dos testes, os dois bancos de dados foram reunidos,
com o cuidado de que alunos respondentes de ambos os questionários aparecessem uma
única vez, neste caso considerando o ano de 2018. Esse novo banco foi composto por 21
variáveis das quais se tinha maior interesse em investigar e estudar, possuindo um total
de 113 indivíduos respondentes.
Uma vez que o teste de χ2 tem por base a aproximação da distribuição normal à dis-
tribuição Poisson, foi verificado, conforme recomenda a teoria, se as frequências esperadas
sob H0 em cada célula das tabelas de contingência eram iguais ou superiores a 5. Em
alguns pares de variáveis essa recomendação não foi atendida, tendo-se utilizado nesses
casos o teste exato de Fisher.
Em um primeiro momento procurou-se verificar se a variável sexo apresentava asso-
ciações com outras variáveis. Na Tabela 3 estão apresentados os resultados dos testes em
que foi utilizada a estatística χ2 de Pearson, ou seja, referentes a situações em que os
valores esperados nas células das tabelas, sob a hipótese de independência, foram sempre
maiores que 5. As variáveis presentes nesta Tabela, para investigar eventuais associações
com o sexo, foram: a base matemática autopercebida, se o respondente tem intenção de
evadir, se a Estatística foi a primeira opção de ingresso, tipo de moradia, e trabalho.
Observa-se na Tabela 3 que, segundo o teste χ2, apenas o par de variáveis sexo e
trabalho foi significativo, com um nível de significância α= 5%. Isto se deveu ao predomínio
relativo do sexo masculino dentre os estudantes que trabalham. Destes, 76% eram homens,
enquanto que 24% eram mulheres. Por outro lado, verificou-se não existir associações entre
sexo e as variáveis: base matemática, intenção de evadir, estatística como primeira opção,
e moradia.
Em alguns testes de independência entre variáveis e o sexo, houve células com valor
esperado menor que 5, sendo preciso aplicar o teste exato de Fisher. Estes testes estão
apresentados na Tabela 4. Observa-se que todas essas variáveis, quais sejam, estado civil,
renda, tempo de cursinho e intenção de evadir, não apresentaram associação com a variável
sexo, pois o valor-p obtido foi maior que o nível de significância estabelecido α=5%, não
se rejeitando assim a hipótese nula H0.
A seguir são apresentados resultados de testes para pares de variáveis que apresen-
41
Tabela 3: Testes de independência envolvendo pares de variáveis categóricas com a variávelsexo, utilizando a estatística χ2.
Testes de PearsonVariáveis χ2 Valor-p
Sexo vs Base Matemática 0,11 0,95Sexo vs Intenção de Evadir 0,44 0,80
Sexo vs Estatística Primeira opção 1,47 0,23Sexo vs Moradia 0,95 0,33Sexo vs Trabalho 4,62** 0,03**
**Significativo ao nível de 5%
Tabela 4: Testes de independência envolvendo pares de variáveis categóricas com a variávelsexo, utilizando o teste exato de Fisher.
Teste Exato de FischerVariáveis Valor-p
Sexo vs Estado Civil 0,75Sexo vs Renda 0,16
Sexo vs Tempo de Cursinho 0,55Sexo vs Intenção de evadir 0,83
taram rejeição da hipótese de independência, utilizando a estatística qui-quadrado, ou
o teste exato de Fisher, caso necessário. Em uma das situações foi utilizada a estima-
ção do parâmetro de associação gama. E, na sequência de cada teste, buscou-se elucidar
a natureza da associação, seja pelo cálculo dos resíduos padronizados de Pearson, seja
por técnicas de análise de correspondência e de agrupamento, como forma de identificar
categorias das variáveis com tendência de associação.
4.2.1 Ensino Médio e Base Matemática
Buscou-se aqui verificar se a autopercepção quanto à base matemática estaria relacio-
nada ao tipo de instituição de ensino médio, público ou privado. Optou-se aqui por excluir
as respostas com a categoria “ambos”, pelo fato de serem poucos os alunos que marcaram
essa categoria, passando assim a compreender 104 respondentes.
Observando a Tabela 5, verifica-se que a maioria dos alunos estudaram em escola
pública, e 26 dos alunos que responderam ter a base matemática fraca foram estudantes
do ensino público. Os alunos que disseram ter boa base matemática, em sua maioria,
foram estudantes de escola privada.
42
Tabela 5: Tabela de contingência envolvendo as variáveis ensino médio e base matemática.
Base MatemáticaEnsino Médio Fraca Razoável Boa Totais
Privado 0 12 8 20Público 26 35 23 84Totais 26 47 31 104
Ao fazer o teste de qui-quadrado, foi obtido o valor-p = 0,02. Sendo menor que o
nível de significância adotado α=5%, há evidências para a rejeição de H0, ou seja, ocorre
associação entre a variável base matemática e ensino médio.
Como forma de comprovar a adequação da estatística qui-quadrado, a Tabela 6 apre-
senta os cálculos dos valores esperados sob H0.
Tabela 6: Valores esperados, sob independência, envolvendo as variáveis ensino médio ebase matemática.
Base MatemáticaEnsino Médio Fraca Razoável Boa
Privado 5,00 9,04 5,96Público 21,00 37,96 25,04
Os valores das caselas da Tabela 6 são iguais ou maiores que 5, indicando que a
utilização do teste χ2 foi adequada para testar a independência entre as variáveis.
Como houve a rejeição da hipótese de independência, é interessante aprofundar a infe-
rência, tentando encontrar e identificar os aspectos relevantes. Para isso foram calculados
os resíduos padronizados de Pearson, que estão apresentados na Tabela 7.
Tabela 7: Resíduos padronizados de Pearson conforme o teste χ2, envolvendo as variáveisensino médio e base matemática.
Base MatemáticaEnsino Médio Fraca Razoável Boa
Privado -2,87 1,48 1,11Público 2,87 -1,48 -1,11
Voltando a atenção para aqueles resíduos com valor absoluto maior que 2, observa-se
na tabela 7 que existem indícios de que há mais alunos que cursaram o ensino médio na
rede pública e que têm a percepção que sua base matemática é fraca do que seria esperado,
43
caso não houvesse relação entre base matemática e ensino médio. A tendência é oposta
para os alunos que cursaram o ensino médio em instituição de ensino privada. Ou seja,
a combinação da categoria base fraca com o tipo de instituição foi a que mais contribuiu
para a rejeição da hipótese nula, segundo os resíduos padronizados de Pearson.
Esse resultado evidência como alunos da rede pública tem percepções piores da base
matemática em relação aos alunos da rede privada, o que pode sinalizar que algumas
escolas da rede pública, sejam elas da rede estadual ou municipal, talvez possuam algumas
deficiências na promoção do processo de aprendizagem e sistemas de gestão, se comparado
com os da rede privada.
A identificação de categorias com maior tendência de associação também foi feita
mediante a técnica de análise de correspondência simples. A SVD revelou que as duas
primeiras dimensões foram capazes de explicar 75,06% da variabilidade total. O gráfico
da Figura 7 apresenta a disposição dos valores singulares para estas duas dimensões, con-
siderando as categorias de ambas as variáveis categóricas. Percebe-se aqui que a categoria
rede pública esteve próxima à categoria base matemática fraca, sugerindo ser esta associ-
ação a que mais deve ter contribuído para a associação entre as duas variáveis categóricas.
As demais categorias estão distantes umas das outras.
Figura 7: Análise de correspondência simples das variáveis ensino médio e percepção dabase matemática (B: boa, F: fraca, R: razoável; Pub: pública, Pri: privada).
Os valores singulares correspondentes às duas primeiras dimensões também foram
utilizados em uma análise de agrupamento de categorias. O resultado do agrupamento
44
está apresentado na Figura 8. Observa-se que se pode distinguir 4 grupos, sendo que a
categoria rede pública foi agrupada com a categoria base matemática fraca, corroborando
a conclusão anterior.
O dendrograma da Figura 8 sugere a identificação dos grupos a seguir:
• Grupo 1: Pub e F (ensino médio em escola pública e percepção da base matemática
como fraca);
• Grupo 2: B (base matemática boa);
• Grupo 3: Pri (escola da rede privada);
• Grupo 4 : R (base matemática razoável).
Figura 8: Análise de agrupamento das variáveis ensino médio e base matemática.
4.2.2 Ensino Médio em relação ao Tempo de Cursinho
Viu-se anteriormente que a distribuição de frequência conjunta entre instituição de
ensino médio e tempo de cursinho sugeria a existência de associação, em 2016. Essas duas
variáveis foram a seguir analisadas considerando o banco de dados conjunto dos dois anos,
cujos resultados estão apresentados a seguir. É apresentada primeiramente a Tabela 8 de
contingência.
Como alguns valores esperados, sob H0, foram menores que 5, foi utilizado o teste
exato de Fisher. O valor-p foi igual a 0,04, sendo menor que o nível de significância
45
Tabela 8: Tabela de contingência envolvendo os valores observados das variáveis ensinomédio e tempo de cursinho.
Tempo de CursinhoEnsino Médio NF 6 meses 1 ano > 1 ano Totais
Privado 10 7 2 1 20Público 56 9 16 2 83Totais 66 16 18 3 103
adotado, existindo assim evidências de que as variáveis ensino médio e tempo de cursinho
estão associadas.
Para buscar elucidar a natureza da associação, é apresentado na Figura 9 o diagrama
de dispersão das duas primeiras dimensões da análise de correspondência simples. Percebe-
se nesta Figura uma associação entre as categorias ensino público e NF (não fizeram
cursinho), bem como 1 ano de cursinho. Isto sugere que, dentre os alunos que cursaram o
ensino médio em rede pública, há pessoas que não tiveram condições de realizar cursinho
e que, dentre as que tiveram, o fizeram por um período maior (1 ano), quando comparado
aos alunos da rede privada, que estiveram associados à categoria de 6 meses de cursinho.
A categoria mais de 1 ano de cursinho não esteve associada a categorias de ensino médio.
Figura 9: Análise de correspondência simples das variáveis ensino médio e tempo de cur-sinho.
Deve-se ressaltar, contudo, que as duas primeiras dimensões da análise de correspon-
dência simples explicaram apenas 56,96% da variabilidade total. Desta forma, foi utilizada
46
a seguir a técnica de análise de agrupamento, considerando 3 dimensões, as quais explica-
ram mais de 80% da variabilidade total. O gráfico da Figura 10 apresenta o dendrograma
resultante, o qual sugere a discriminação de 4 grupos, sendo eles:
• Grupo 1: >1ano (indivíduos que cursaram mais de um ano de cursinho);
• Grupo 2: Pri e 6mes (indivíduos que cursaram escola privada e fizeram 6 meses de
cursinho);
• Grupo 3: 1ano (indivíduos que fizeram um ano de cursinho);
• Grupo 4 : Pub e NF (indivíduos que cursaram em escola pública e não fizeram
cursinho).
Dependendo do ponto de corte, contudo, os grupos 3 e 4 poderiam formar um único
grupo. Na Figura 9 a categoria 1 ano de cursinho também esteve um pouco mais distante
da categoria ensino público, quando comparado com a categoria não fez cursinho. Ou seja,
não houve grandes diferenças quanto às conclusões, ao se adicionar a terceira dimensão.
A categoria ensino médio em rede pública esteve mais fortemente associada com a não
participação em curso pré-vestibular. De fato, vê-se pela Tabela 8 que a maioria dos alunos
de escola pública não fizeram cursinho, sendo que a proporção se reduz à metade, em se
tratando de alunos da rede privada.
Figura 10: Análise de agrupamento das variáveis ensino médio e tempo de cursinho.
47
4.2.3 Ensino Médio e Renda Familiar
Anteriormente identificaram-se associações entre ensino médio, base matemática e
tempo de cursinho. Neste tópico procurou-se verificar se haveria associação entre as va-
riáveis ensino médio e renda familiar, cuja tabela de contingência, para o banco de dados
conjunto, está apresentada na Tabela 9.
Tabela 9: Tabela de Contingência envolvendo as variáveis ensino médio e renda familiar,em número de salários mínimos.
Ensino MédioRenda Privado Público Totais
<1 salário 2 9 111a3 salários 9 45 543a5 salários 1 22 23> 5 salários 8 7 15
Totais 20 83 103
Para os dados da Tabela 9 foi utilizado o teste exato de Fisher (pois houve valores
esperados menores que 5), tendo-se obtido o valor-p= 0,003, menor que o nível de signi-
ficância adotado. Assim, houve evidências para a rejeição de H0, ou seja, de que existe
associação entre as variáveis ensino médio e renda.
Para estudar a natureza dessa associação, em um primeiro momento foi construído um
diagrama de dispersão para as duas primeiras dimensões da análise de correspondência
simples, o qual está apresentado na Figura 11. Percebe-se nesta Figura que os indivíduos
que estudaram em escola pública estão mais próximos das categorias de renda de 1 a 3
salários mínimos e menos que 1 salário. Já os alunos que estudaram em escola privada
estiveram próximos da categoria mais que 5 salários mínimos. A renda familiar interme-
diária (3 a 5 salários mínimos) aparentemente não esteve claramente associada com algum
tipo de instituição de ensino médio em particular.
Em um segundo momento, como as duas primeiras dimensões explicaram 59,42%
da variabilidade total, optou-se por utilizar 3 dimensões na análise de agrupamento, que
explicaram mais de 80% da variabilidade total. O dendrograma está apresentado na Figura
12.
O dendrograma sugere a formação de 3 grupos:
• Grupo 1: Pri e >5sal (indivíduos que cursaram em escola privada e tem mais que 5
salários mínimos);
48
Figura 11: Análise de Correspondência Simples das variáveis ensino médio e renda.
Figura 12: Análise de Agrupamento das variáveis ensino médio e renda.
• Grupo 2: Pub, 1a3sal, 3a5sal (indivíduos que cursaram em escola pública e tem de
1 a 3 salários e de 3 a 5 salários mínimos);
• Grupo 3: <1sal (indivíduos que tem menos de 1 salário mínimo).
Ou seja, considerando agora 3 dimensões, houve a alteração de tendência de a categoria
3 a 5 salários estar mais fortemente associada ao ensino público, em relação à categoria
49
menos de 1 salário, a qual, na análise de agrupamento, foi a que passou a não estar
aparentemente associada com algum tipo de instituição de ensino médio em particular.
Isto demonstra a necessidade de se considerar um número maior de dimensões, quando as
duas primeiras não explicam uma proporção razoável da variação. De qualquer maneria,
manteve-se a tendência de associação de ensino privado com maior renda familiar.
Comparando com as variáveis anteriores, é coerente o fato de uma maior proporção
de alunos da rede privada terem feito cursinho, pois estão associados a maior renda. E
o fato de a maioria dos alunos da rede pública não ter feito cursinho provavelmente está
associada à menor renda familiar.
4.2.4 Base Matemática e Primeira Opção de Curso
Uma vez que o curso de Estatística demanda uma base matemática considerável,
houve o interesse em se investigar se haveria alguma associação entre a base matemática
autopercebida e a primeira opção de curso. A Tabela 10 apresenta a distribuição conjunta
dessas duas variáveis.
Tabela 10: Tabela de Contingência envolvendo as variáveis: base matemática e primeiraopção de curso, se foi Estatística ou não.
Base MatemáticaPrimeira Opção: Estatística Fraca Razoável Boa Totais
Não 10 20 16 46Sim 17 31 18 66
Totais 27 51 34 112
O teste de χ2 de Pearson apresentou o valor-p = 0, 68. Como esse foi maior que o
nível de significância adotado α = 5%, não temos evidências para a rejeição de H0, ou
seja, não há associação aparente entre a variável base matemática e primeira opção de
curso. Este foi um resultado interessante, no sentido de que, ao contrário do que se poderia
imaginar, o interesse pelo curso (veja-se na Tabela 10 que quase 60% dos alunos tiveram
Estatística como primeira opção) não está relacionado a como os alunos percebem sua
base matemática, se fraca, razoável ou boa.
Como o teste de independência não foi significativo, não foram realizadas análises
ulteriores para investigar a natureza da eventual associação.
50
4.2.5 Primeira Opção de Curso e Intenção de Evadir
Quando um aluno passa em um curso que não foi sua primeira opção de escolha,
é razoável aventar a hipótese de que tenha maior probabilidade quanto à intenção de
evadir, para ingresso no curso desejado. Esta possível associação foi então investigada,
considerando as variáveis primeira opção de curso e intenção de evadir, cuja tabela de
contingência está apresentada na Tabela 11.
Tabela 11: Tabela de contingência envolvendo as variáveis: primeira opção de curso (sefoi Estatística ou não) e intenção de evadir.
Intenção de EvadirPrimeira Opção: Estatística Nunca Cogitei Mudei de Ideia Minha Intenção Totais
Não 7 35 4 46Sim 40 23 4 67
Totais 47 58 8 113
Para este par de variáveis foi realizado o teste exato de Fisher, dado que houve
valores esperados menores que 5. O teste de Fisher foi altamente significativo (valor-
p = 3, 34 × 10−6, havendo assim evidências para a rejeição de H0, ou seja, de que deve
existir associação entre a variável primeira opção de curso e intenção de evadir. Inspe-
cionando a Tabela 11, por exemplo, é possível verificar que a maioria das pessoas que
escolheram estatística como primeira opção de curso nunca tiveram a intenção de eva-
dir, demonstrando terem maior conhecimento da profissão e estarem convictos de suas
escolhas.
Os alunos que não escolheram Estatística como primeira opção já pensaram em mudar
de curso mas, em sua maioria, acabaram mudando de ideia. Esse fato pode ter ocorrido
por terem ingressado no curso com pouco conhecimento da profissão, mas aos poucos
acabaram gostando e permanecendo. Isso ressalta o fato de alguns alunos virem a conhecer
melhor a profissão depois de entrarem no curso.
Na análise de correspondência simples, os dois primeiros valores singulares explica-
ram a variabilidade total em 81,55%, e seu diagrama de dispersão está apresentado na
Figura 13. Esta Figura demonstra claramente uma associação entre nunca ter cogitado
em mudar de curso e ter escolhido Estatística como primeira opção, bem como não ter
escolhido Estatística e ter mudado de ideia quanto a mudar de curso. A categoria: é minha
intenção mudar de curso não esteve associada à primeira opção de curso. De fato, obser-
51
vando a Tabela 11, os alunos que responderam terem intenção de evadir estão igualmente
distribuídos quanto à primeira opção de curso.
Figura 13: Análise de correspondência simples das variáveis primeira opção de curso (S:foi Estatística, Est1op.N: não foi Estatística) e intenção de evadir (NunCog: nunca cogitei,MudIde: mudei de ideia, MinInt: é minha intenção).
A Figura 14 apresenta o dendrograma resultante da análise de agrupamento, conside-
rando as duas primeiras dimensões no cálculo de distâncias. Em completa concordância
com a interpretação acima do diagrama de dispersão, esta Figura sugere a formação de 3
grupos, sendo eles:
• Grupo 1: MinInt (indivíduos que tem a intenção em mudar de curso);
• Grupo 2: NunCog e S (indivíduos que nunca cogitaram mudar de curso e escolheram
estatística como primeira opção);
• Grupo 3: MudIde e Est1op.N (indivíduos que mudaram de ideia em mudar do curso
e não escolheram estatística como primeira opção).
4.2.6 Dedicação aos Estudos e Base Matemática
Do ponto de vista pedagógico, uma questão de interesse que se poderia aventar seria: a
autopercepção de uma base matemática fraca ou razoável estaria associada a uma menor
52
Figura 14: Análise de Agrupamento das variáveis primeira opção de curso e intenção deevadir (S: foi Estatística, Est1op.N: não foi Estatística) e intenção de evadir (NunCog:nunca cogitei, MudIde: mudei de ideia, MinInt: é minha intenção).
dedicação aos estudos, ou se trataria de um problema de formação, não relacionado ao
tempo de dedicação aos estudos?
Para investigar essa questão, estas duas variáveis categóricas (tempo de dedicação
aos estudos e base matemática autopercebida) foram analisadas, para identificar eventual
associação. A tabela de contingência está apresentada na Tabela 12. É interessante notar
que a maioria dos alunos, cerca de 46, disseram dedicar-se mais que 5 horas semanais aos
estudos. Dentre estes, a maioria (20) afirmaram ter base matemática razoável. Embora
poucos tenham afirmado raramente dedicar-se aos estudos (6), nenhum destes tem a
autopercepção de uma boa base matemática.
Tabela 12: Tabela de contingência envolvendo as variáveis dedicação aos estudos e basematemática autopercebida.
Base MatemáticaDedicação Semanal Fraca Razoável Boa Totais
Raramente 2 4 0 6Menos que 2 horas 6 6 6 18De 2 a 5 horas 9 21 12 42
Mais que 5 horas 10 20 16 46Totais 27 51 34 112
53
Como os valores esperados sob H0 de algumas caselas foram menores que 5, foi utili-
zado aqui o teste exato de Fisher, que resultou em um valor-p = 0, 56, maior que o nível
de significância adotado, levando à não rejeição de H0, não existindo assim evidência de
associação entre a variável dedicação e a base matemática. Assim, embora nenhum aluno
que raramente se dedica aos estudos tenha declarado ter boa base matemática, não se
pode afirmar que este resultado tenha sido uma variação casual em relação à hipótese de
independência.
Este resultado sugere, portanto, que uma base matemática autopercebida como fraca
ou razoável aparentemente não está relacionada com um menor tempo de dedicação aos
estudos, estando, ao contrário, possivelmente relacionada com a formação do aluno.
Como o teste de independência não foi significativo, não foram realizadas análises
ulteriores para investigar a natureza da eventual associação.
4.2.7 Dedicação aos Estudos e Trabalho
Outra possível associação de interesse foi aquela relacionada à questão se a maior ou
menor dedicação aos estudos estaria relacionada ao fato de o aluno trabalhar ou não.
Estas duas variáveis categóricas foram então analisadas, e sua tabela de contingência está
apresentada na Tabela 13.
Tabela 13: Tabela de contingência envolvendo as variáveis dedicação aos estudos e traba-lho.
TrabalhoDedicação Semanal Não Sim Totais
Raramente 3 4 7Menos que 2 horas 8 10 18De 2 a 5 horas 25 16 41
Mais que 5 horas 39 7 46Totais 75 37 112
Também aqui foi necessário realizar o teste exato de Fisher, dada a ocorrência de
muitos valores esperados menores que 5. O teste resultou no valor-p = 0, 003, menor que
o nível de significância adotado α = 5%, havendo assim evidência para a falsidade de H0,
ou seja, de que existe associação entre a variável dedicação aos estudos e trabalho.
Analisando a Tabela 13, verifica-se que a maioria das pessoas que trabalham respon-
deram que raramente estudam ou estudam menos que 2 horas semanalmente, e a maioria
54
das pessoas que não trabalham responderam que dedicam mais de 5 horas semanais.
Para a identificação das combinações de categorias que mais contribuíram para esta
associação, é apresentado na Figura 15 o resultado da análise de correspondência simples,
dispondo as coordenadas das duas primeiras dimensões. Verifica-se que a categoria refe-
rente aos participantes que não trabalham está próxima da categoria dedicação de mais de
5 horas semanais. Além disso, a categoria menos que 2 horas semanais está praticamente
sobreposta à categoria correspondente aos participantes que trabalham, sugerindo ser es-
tas combinações as que mais contribuíram para a associações entre as variáveis categóricas
dedicação aos estudos e trabalho.
Figura 15: Análise de correspondência simples das variáveis dedicação aos estudos, emhoras semanais (Rar: raramente estuda), e trabalho (S: sim; Trab.N: não).
As duas primeiras dimensões da análise de correspondência simples explicaram ape-
nas 58,59% da variação total. Assim, na análise de agrupamento foi utilizada também
a terceira dimensão que, junto com as anteriores explicaram mais de 80% da variabi-
lidade total. O agrupamento resultante está apresentado no gráfico da Figura 16. Este
dendrograma sugere a formação de 3 grupos, sendo eles:
• Grupo 1: Rar (indivíduos que raramente estudam);
• Grupo 2: >5 e Trab.N (indivíduos que estudam mais que 5 horas semanais e não
trabalham);
55
• Grupo 3: <2, 2a5, S (indivíduos que estudam menos que 2 horas semanais, ou de 2
a 5 horas, e que trabalham).
Figura 16: Análise de agrupamento das variáveis dedicação aos estudos, em horas semanais(Rar: raramente estuda), e trabalho (S: sim; Trab.N: não).
Como visto na Figura 16, precebe-se claramente que as pessoas que não trabalham
estudam mais em relação as que trabalham. Em relação à utilização de apenas 2 dimensões
(Figura 15), manteve-se a tendência de as categorias: não trabalhar e dedicação superior
a 5 horas estarem agrupadas. No entanto, à combinação menos que 2 horas semanais e
trabalhar somou-se a categoria 2 a 5 horas semanais, na análise de agrupamento.
Por se tratar de um curso noturno, é de se esperar que sempre haja uma fração
considerável de alunos que trabalham, no curso de Estatística, e este resultado demonstra
que este é um fato relevante a ser considerado, no sentido de o trabalho prejudicar o
tempo que seria ideal para dedicação aos estudos.
4.2.8 Dedicação e Moradia
Com o objetivo de identificar outros possíveis fatores que levariam alguns alunos
a se dedicarem mais ou menos aos estudos, aventou-se a possibilidade de relação entre
dedicação e moradia, para verificar se o fato de o aluno residir, por exemplo, em república,
poderia interferir na sua dedicação aos estudos. A tabela de contingência referente a estas
variáveis está apresentada na Tabela 14. É interessante notar que, ao contrário do que se
56
poderia supor à primeira vista, a grande maioria dos respondentes mora em casa, sendo
que apenas cerca de 1 quarto habita em república. Poder-se-ia esperar que esta fração
fosse maior, dado que, no banco de dados conjunto dos dois anos, apenas 30 dos 113
respondentes (27%) disseram ser de Ouro Preto. A julgar pela Tabela 14, aparentemente
uma menor dedicação aos estudos estaria associada à moradia em casa, e não em república.
Tabela 14: Tabela de Contingência envolvendo as variáveis dedicação aos estudos e mora-dia.
MoradiaDedicação Semanal Casa República Totais
Raramente 4 3 7Menos que 2 horas 18 0 18De 2 a 5 horas 32 10 42
Mais que 5 horas 33 13 46Totais 87 26 113
O teste exato de Fisher (houve células com valores esperados sob independência me-
nores que 5) resultou em um valor-p = 0, 02, sendo menor que o nível de significância
adotado α = 5%, e assim rejeitamos H0, concluindo haver de fato associação entre as
variáveis dedicação e moradia.
Para identificar as combinações entre categorias que mais contribuíram para esta
associação, foi então realizada a análise de correspondência simples, cujos valores das
duas primeiras dimensões para cada categoria estão dispostos no gráfico da Figura 17.
A julgar por esta Figura, a moradia em casa está associada tanto a uma dedicação aos
estudos intermediária (2 a 5 horas semanais), como a uma alta dedicação (mais de 5
horas). É interessante notar nessa Figura que categorias de baixa dedicação aos estudos
aparentemente não estão associadas ao tipo de moradia, nem a moradia em república
esteve associada com alguma categoria de dedicação aos estudos em particular.
Como as duas primeiras dimensões explicaram apenas 56,51% da variação total, é
interessante verificar se há mudança de tendências com a análise de agrupamento. Nesta,
foram utilizadas 3 dimensões, que explicaram mais de 80% da variabilidade total. O
dendrograma correspondente está apresentado na Figura 18. Em princípio, o dendrograma
sugeriria a formação de 3 grupos:
• Grupo 1: Rar (indivíduos que raramente estudam);
• Grupo 2: <2 (indivíduos que estudam menos que 2 horas semanais);
57
Figura 17: Análise de correspondência simples das variáveis dedicação aos estudos, emhoras semanais (Rar: raramente estuda), e moradia (Rep: república).
• Grupo 3: 2a5, Rep, >5, Casa (indivíduos que estudam de 2 a 5 horas semanais,
moram em república, casa, e estudam mais que 5 horas).
No entanto, este agrupamento não ajudaria a elucidar claramente a natureza da as-
sociação entre dedicação aos estudos e moradia, uma vez que ambas as categorias de
moradia estariam reunidas em um mesmo grupo. Se, no dendrograma diminuirmos o
ponto de corte, de maneira a formar 5 (e não 3) grupos, então teríamos apenas um grupo
reunindo duas categorias, moradia em casa e dedicação superior a 5 horas. Assim, de uma
maneira geral, podemos dizer que, embora moradia e dedicação tenham apresentado uma
associação significativa, a natureza dessa associação não é tão clara, embora pareça haver
um indicativo de que uma dedicação maior aos estudos (mais de 5 horas) está associada
à moradia em casa.
4.2.9 Renda e Assistência Estudantil
A UFOP possui vários programas de assistência estudantil com o objetivo de dar
melhores condições a alunos menos favorecidos para terem um melhor desempenho acadê-
mico. Assim, dentre os respondentes do questionário, seria interessante verificar se de fato
os alunos de menor renda corresponderiam aos beneficiários dos programas, compondo a
tabela de contingência das variáveis renda e assistência estudantil, a qual está apresen-
58
Figura 18: Análise de Agrupamento das variáveis dedicação e moradia.
tada na Tabela 15. Em ambas as categorias de assistência, a categoria de renda de 1 a 3
salários mínimos foi a mais frequente, mas percebe-se, claramente, uma tendência de os
participantes de maior renda familiar não serem beneficiários de assistência estudantil.
Tabela 15: Tabela de contingência envolvendo as variáveis renda, em salários mínimos, eassistência estudantil (beneficiário ou não).
RendaAssistência < 1 salário 1 a 3 salários 3 a 5 salários >5 salários Totais
Não 9 32 21 18 80Sim 2 23 5 1 31
Totais 11 55 26 19 111
Também aqui foi realizado o teste exato de Fisher, dada a ocorrência de valores
esperados menores que 5. O valor-p foi igual a 0,01 e assim rejeitamos H0, admitindo
haver associação entre as variáveis renda e assistência estudantil .
Para identificar as categorias de maior tendência de proximidade, foi utilizada a análise
de correspondência simples. O gráfico da Figura 19 apresenta o diagrama de dispersão
referente às duas primeiras dimensões. A julgar por esta Figura, os não beneficiários de
assistência estão associados a maiores rendas familiares (3 a 5, e mais do que 5 salários
mínimos), e ainda que os beneficiários estariam associados à categoria de renda 1 a 3
salários. Isso demonstra que a política de assistência estudantil está contemplando os
59
alunos menos favorecidos, mas é importante ressaltar que a categoria de renda menos
de 1 salário mínimo não esteve associada a nenhuma categoria de assistência, sugerindo
uma tendência de alunos de renda muito baixa não serem contemplados pelos programas.
Embora apenas 11 dos 111 respondentes (Tabela 15) tenham declarado renda inferior a
um salário, 9 deles não são beneficiários de programas de assistência.
Figura 19: Análise de correspondência simples das variáveis renda, em salários mínimos,e assistência estudantil (S:beneficiário; BenAssit.N: não).
As duas primeiras dimensões explicaram 58,09% da variação total, e assim na análise
de agrupamento foi utilizada uma dimensão a mais, explicando mais de 80% da variabi-
lidade total. O dendrograma está apresentado na Figura 20, e sugere a formação dos 3
grupos a seguir:
• Grupo 1: <1sal (renda familiar de 1 salário mínimo);
• Grupo 2: 1a3sal e S (renda de 1 a 3 salários mínimos e beneficiários de assistência
estudantil);
• Grupo 3: >5, 3a5sal, BenAssist.N (renda maior que 5 salários e não beneficiários de
assistência estudantil).
Pode-se verificar pela Figura 20 que não houve alteração de conclusões com a inclu-
são da terceira dimensão; os não beneficiários continuaram associados às maiores rendas
familiares, e os beneficiários continuaram associados à renda entre 1 e 3 salários mínimos.
60
Figura 20: Análise de Agrupamento das variáveis renda, em salários mínimos, e assistênciaestudantil (S:beneficiário; BenAssit.N: não).
A categoria de renda de menos de um salário mínimo permaneceu isolada como um grupo
à parte.
4.2.10 Atividade Acadêmica e Base Matemática
Em seguida, procurou-se verificar se a participação em atividades acadêmicas tais
como: iniciação científica, projetos Pró-Ativa, projetos de extensão, e monitoria (ques-
tão 25 do questionário) estaria associada à base matemática autopercebida. A tabela de
contingência referente a estas duas variáveis categóricas está apresentada na Tabela 16.
Tabela 16: Tabela de contingência envolvendo as variáveis atividade acadêmica e basematemática autopercebida.
Base MatemáticaAtividade Fraca Razoável Boa Totais
Não 21 37 17 75Sim 6 14 17 37
Totais 27 51 34 112
Ao fazer o teste χ2, foi encontrado o valor-p = 0, 04, que, sendo menor que o nível de
significância adotado α = 5%, admitimos que existem evidências para rejeição de H0, ou
seja, de que as variáveis atividade acadêmica e base matemática possuem associação.
61
Uma vez que foi possível a realização do teste de χ2 (os valores esperados sob H0
foram sempre maiores que 5), é interessante aprofundar a inferência tentando encontrar
e identificar os aspectos relevantes que levaram a rejeição de H0, utilizando os resíduos
padronizados de Pearson, os quais estão apresentados na Tabela 17.
Tabela 17: Resíduos padronizados de Pearson referentes ao teste χ2 envolvendo as variáveisatividade acadêmica e base matemática autopercebida.
Base MatemáticaAtividade Fraca Razoável Boa
Não 1,37 1,15 -2,52Sim -1,37 -1,15 2,52
Considerando como dignos de atenção aqueles resíduos superiores, em valor absoluto,
a 2, percebemos que as caselas que mais contribuíram para a rejeição de H0 foram aquelas
referentes a uma boa base matemática autopercebida. Dentre os alunos com esta categoria
de base matemática, há indícios de haver mais indivíduos que participam de atividade
acadêmica do que o esperado sob H0 e, de maneira correspondente, menos alunos que não
participam de atividade acadêmica em relação ao esperado sob independência entre as
variáveis.
Outra maneira de aprofundar a natureza da associação é através da análise de corres-
pondência simples. As duas primeiras dimensões explicaram 74,74% da variação total, e a
disposição de suas coordenadas para cada categoria está apresentada no gráfico da Figura
21. Nesta Figura, percebe-se claramente a tendência de a categoria boa base matemá-
tica estar associada à participação em atividade acadêmica, estando as demais categorias
relativamente distantes umas das outras.
As mesmas duas primeiras dimensões foram utilizadas para o cálculo de distâncias
entre as categorias, e análise de agrupamento subsequente reultou no dendrograma apre-
sentado na Figura 22, o qual sugere a existência de 4 grupos, sendo eles:
• Grupo 1: AtiAcad.N (indivíduos que não participam de atividade acadêmica);
• Grupo 1: S e B (indivíduos que participam de atividade acadêmica e têm boa base
matemática autopercebida);
• Grupo 2: F (indivíduos com base matemática autopercebida fraca);
• Grupo 3: R(indivíduos com base matemática autopercebida razoável).
62
Figura 21: Análise de correspondência simples das variáveis atividade acadêmica (S: sim;AtiAcad.N: não) e base matemática autopercebida (F: fraca; R: razoável; B: boa).
Figura 22: Análise de agrupamento das variáveis atividade acadêmica (S: sim; AtiAcad.N:não) e base matemática autopercebida (F: fraca; R: razoável; B: boa).
A análise de agrupamento reforça assim as conclusões anteriores, mostrando que os
alunos que participam de atividade acadêmica têm a percepção de boa base matemática.
63
4.2.11 Estado Civil e Dedicação
Uma vez que há uma parcela de alunos do curso de Estatística que são casados, é
razoável imaginar que para estes indivíduos haja uma maior demanda de tempo de dedi-
cação familiar, que talvez seja ainda maior caso tenha filhos. Dessa forma, foi investigada
a possível associação existente entre o estado civil e a dedicação semanal aos estudos, es-
tando a tabela de contingência correspondente apresentada na Tabela 18. Pode-se verificar
nesta Tabela que cerca de 10% dos alunos do curso de Estatística são casados.
Tabela 18: Tabela de contingência envolvendo as variáveis estado civil e dedicação semanalaos estudos.
Dedicação SemanalEstado Civil Rara <2 horas 2 a 5 horas >5 horas Totais
Casado 0 3 7 1 11Solteiro 7 15 35 45 102Totais 7 18 42 46 113
Ao fazer o teste Exato de Fisher (houve valores esperados sob independência meno-
res que 5), encontrou-se o valor-p = 0, 059, o qual foi um pouco maior que o nível de
significância adotado α = 5%, e assim em princípio não se rejeitaria a hipótese nula.
Mas, como este resultado esteve no limiar da regra de decisão, para se certificar quanto
à existência ou não de associação entre as variáveis, optou-se por estimar o chamado pa-
râmetro gama, que é uma alternativa para testar a associação entre variáveis que são de
natureza ordinal. A dedicação semanal aos estudos é claramente ordinal, e o estado civil,
embora não o seja, possui apenas duas categorias, permitindo o uso da técnica. A estima-
tiva pontual deste parâmetro foi γ = 0, 41. Por se tratar de um valor positivo, devemos
interpretá-lo assim: ao se passar da categoria casado para solteiro, há uma tendência de
aumento da dedicação semanal aos estudos. Além disso, a estimação intervalar resultou no
intervalo de confiança [0,096; 0,725], considerando um índice de confiança de 95%. Como
esse intervalo não contém o valor 0, pode-se dizer que se trata de uma associação positiva
significativa entre as variáveis estado civil e dedicação. Este procedimento (verificar se
um determinado valor está contido no intervalo) é equivalente à realização de um teste
de hipótese bilateral, neste caso com α = 0, 05.
Assim, tendo-se identificado esta associação através do parâmetro gama, faz sentido
aprofundar a análise através da análise de correspondência simples. O gráfico da Figura
23 apresenta a dispersão das categorias de ambas as variáveis conforme as duas primeiras
64
dimensões. De fato se verifica que a categoria solteiro esteve muito próxima da categoria
dedicação maior que 5 horas semanais, embora seja também muito interessante notar sua
proximidade com a categoria de dedicação rara. Ou seja, com uma tendência de os que
estudam muito, bem como os que estudam muito pouco, serem solteiros.
Figura 23: Análise de correspondência simples das variáveis estado civil e dedicação se-manal aos estudos (Rar: raramente estuda).
As duas primeiras dimensões explicaram apenas 56,24% da variação total, e assim 3
dimensões foram utilizadas na análise de agrupamento, as quais explicaram mais de 80%
da variabilidade total. O dendrograma resultante (Figura 24) não mostra alteração de
conclusões. Aparentemente houve a formação de 4 grupos, sendo eles:
• Grupo 1: Cas (indivíduos que são casados);
• Grupo 2: Solt ,>5 e Rar (indivíduos que são solteiros, estudam mais que 5 horas
semanais e raramente estudam);
• Grupo 3: <2 (indivíduos que estudam menos que 2 horas semanais);
• Grupo 4: 2a5 (indivíduos que estudam de 2 a 5 horas semanais).
E, assim, também aqui, se verifica a tendência de ocorrência conjunta da categoria
solteiro com as categorias de dedicação rara e de mais de 5 horas semanais.
65
Figura 24: Análise de Agrupamento das variáveis estado civil e dedicação semanal aosestudos (Rar: raramente estuda).
4.2.12 Análise de Correspondência Múltipla: Um Exemplo
Como os pares de variáveis: “ensino médio e tempo de cursinho”, e “ensino médio e
base matemática” apresentaram os testes estatísticos (Qui-Quadrado e Fisher) significati-
vos, optou-se por realizar uma análise de correspondência múltipla envolvendo estas três
variáveis categóricas simultaneamente, bem como utilizar os valores singulares resultantes
dela em uma análise de agrupamento.
O gráfico da Figura 25 apresenta o diagrama de dispersão das categorias destas 3 va-
riáveis. Baseando-se apenas nestas duas dimensões, aparentemente podemos identificar 3
grupos de categorias com tendência de incidência conjunta: 1) base matemática autoper-
cebida fraca, ensino médio público e não realização de cursinho; 2) ensino médio privado
e 6 meses de cursinho; 3) boa base matemática autopercebida e tempo de cursinho de 1
ou mais anos.
No entanto, estas duas primeiras dimensões explicaram apenas 42,59% da variação
total. Assim, para obtenção de uma proporção da inércia total de pelo menos 80%, na
análise de agrupamento foram utilizadas 4 dimensões, que explicaram 82,22% da variabi-
lidade total. O dendrograma resultante está apresentado na Figura 26, e sugere 4 grupos
formados, sendo eles:
• Grupo 1: >1ano (indivíduos que fizeram mais de 1 ano de cursinho);
66
Figura 25: Análise de Correspondência Múltipla das variáveis ensino médio,base matemá-tica e tempo de cursinho
• Grupo 2: Pri e 6mes (indivíduos que estudaram em escola privada e fizeram mais
de 6 meses de cursinho);
• Grupo 3: 1ano e B (indivíduos que fizera 1 ano de cursinho e percebem a base
matemática boa);
• Grupo 4: F, R, Pub, NF (indivíduos que notam a base matemática fraca e razoável,
estudaram em escola da rede pública e não fizeram cursinho).
Assim, em relação à análise considerando apenas 2 dimensões, a análise de agrupa-
mento apresentou algumas pequenas diferenças: a categoria mais de 1 ano de cursinho não
se mostrou associada a outras; boa base matemática continuou associada à categoria 1 ano
de cursinho; base matemática autopercebida fraca, ensino médio público e não realização
de cursinho continuaram sendo categorias associadas, e, além disso, associadas ainda com
a categoria base matemática razoável; finalmente, continuou a existir associação entre
ensino médio privado e 6 meses de cursinho.
67
Figura 26: Análise de Agrupamento das variáveis ensino médio, base matemática e tempode cursinho.
68
5 Considerações finais
Através de várias técnicas empregadas neste trabalho, foi possível identificar o perfil
dos alunos do curso de Estatística da Universidade Federal de Ouro Preto, tanto em
relação a aspectos pessoais como acadêmicos, tendo como base questionários aplicados
em 2016 e 2018.
Neste trabalho foram escolhidas apenas algumas das variáveis tidas como mais rele-
vantes; uma análise completa de todas as questões seria o ideal, mas redundaria em um
trabalho por demais extenso.
As técnicas estatísticas aqui utilizadas se revelaram ferramentas bastante úteis. A
análise de dados categóricos possibilitou identificar variáveis associadas entre si, enquanto
que a análise de correspondência permitiu elucidar a natureza de tais associações, iden-
tificando categorias com tendência de ocorrência conjunta maior do que seria esperado
sob independência. A análise de agrupamento, por sua vez, também se revelou uma estra-
tégia adequada para tal, naquelas situações em que um número maior de dimensões era
necessário para explicar uma fração razoável da variação total.
Dentre os resultados observados, pode-se destacar: o tipo de instituição de ensino mé-
dio mostrou-se altamente associado com as variáveis: base matemática, tempo de cursinho
e renda; a base matemática autopercebida não esteve associada com primeira opção de
curso e dedicação semanal aos estudos, estando associada apenas com a participação em
atividades acadêmicas e tipo de ensino médio; a primeira opção de curso esteve associada
com a intenção de evadir; o tempo que o aluno dedica aos estudos esteve associado com:
trabalho, moradia e estado civil; e a renda familiar esteve associada com o benefício de
assistência estudantil.
Uma das maiores dificuldades encontradas neste estudo foi o fato de pouquíssimas
associações serem detectadas, na análise dos conjuntos de dados de cada ano em separado.
Possivelmente isto se deu em função dos tamanhos de amostra não muito elevados. Dessa
forma, a alternativa encontrada foi a de reunir os dois bancos de dados em um único
69
banco conjunto, com o cuidado de que um mesmo respondente não constasse do banco
conjunto mais de uma vez. Embora isso tenha aumentado o poder dos testes e propiciado
inferências relevantes, isto de certa maneira acarretou em uma limitação deste estudo,
no sentido de que, se houve mudanças de tendência entre 2016 e 2018 (no que toca a
associação entre as variáveis), estas mudanças não puderam ser detectadas, e poderiam
ter provocado algum viés.
Em trabalhos futuros, seria interessante analisar todas as outras questões presentes no
questionário e que não foram analisadas, inclusive as questões abertas. Para isso poderiam
ser utilizadas técnicas de análise textual, que também fazem uso de recursos de análise
de correspondência.
70
6 Referências Bibliográficas
MINISTÉRIO DA EDUCAÇÃO, Relatório de Avaliação. Ouro Preto,p.5,2013.
MINISTÉRIO DA EDUCAÇÃO, Relatório de Avaliação. Ouro Preto,p.10,2019.
NASCIMENTO, M.M.;OSTERMANN,F;CAVALCANTI,C. Análise de Correspondência
Aplicada à Pesquisa em Ensino de Ciências.X Congresso Internacional Sobre Investigación
en Didáctica de Las Ciencias.Rio Grande do Sul.ResearchGate,p. 1-7,2007.
GONÇALVES, M.T.;REGINA,S.S. Aplicação da Análise de Correspondência à Avaliação
Institucional da Fecilcam.Encontro de Produção Científica e Tecnológica,IV EPCT..NUPEM,p.
1-14,Out.2009.
GIOLO, S.R. Introdução a Análise de Dados Categóricos com Aplicações :1.ed.Paraná.Editora
Universidade Federal do Paraná, p.202,2012.
AGRESTI, A. Categorical Data Analysis :2.ed.New Jersey.Editora John Wiley and Sons ,
p.721,2002.
MINGOTI, S.A.Análise de Dados Através de Métodos de Estatística Multivariada:1.ed.Belo
Horizonte.Editora UFMG, p.295,2007.
JOHNSON, A.R;WICHERN, W.D. Applied Multivariate Statistical Analysis :6.ed.New
Jersey.Editora Upper Saddle River, p.755,2007.
71
APÊNDICE A -- Termo de ConsentimentoLivre e Esclarecido - TCLE
TERMO DE CONSENTIMENTO LIVRE E ESCLARECIDO
Você está convidado(a) a participar, como voluntário(a) da pesquisa intitulada “Coleta e Análise de
Dados para Subsidiar a Autoavaliação do Curso de Bacharelado em Estatística da UFOP”,
coordenada pelo Prof. Eduardo Bearzoti, Presidente do Colegiado do Curso de Bacharelado em
Estatística da UFOP. Este estudo tem por objetivo levantar informações acerca do perfil dos alunos
do Curso de Estatística, em relação a aspectos de sua vida acadêmica, social e familiar, com o
intuito de auxiliar a definir ações de melhoria do Curso e reduzir a evasão.
Embora você seja aluno do Curso de Estatística, sua participação NÃO é obrigatória. A
qualquer momento, você poderá desistir de participar e retirar seu consentimento. Sua recusa,
desistência ou retirada de consentimento não acarretará prejuízo algum.
Os possíveis riscos advindos de sua participação consistem na perda do anonimato na
prestação de informações. Medidas serão tomadas para evitar estes riscos, como o lacreamento
destas informações assim que coletadas, e seu armazenamento em arquivo apenas acessível ao
coordenador desta pesquisa.
Sua participação nesta pesquisa consistirá no preenchimento de um questionário, levantando
informações suas sobre aspectos de sua vida acadêmica na Universidade Federal de Ouro Preto e de
seu contexto social e familiar fora da Universidade.
Os dados obtidos por meio desta pesquisa serão confidenciais e não serão divulgados em
nível individual. O coordenador dessa pesquisa (Prof. Eduardo) se comprometeu a tornar público os
resultados obtidos no meio acadêmico (como no Colegiado do Curso e na Pró-Reitoria de
Graduação da UFOP) apenas de forma consolidada (ou seja, agrupada), sem qualquer identificação
dos participantes.
Rubrica do participante Rubrica do coordenador da pesquisa
72
Caso você concorde em participar desta pesquisa, assine ao final deste documento, que
possui duas vias, sendo uma delas sua, e a outra do Prof. Eduardo, coordenador desta pesquisa.
Seguem os telefones e o endereço institucional do coordenador desta pesquisa e do Comitê
de Ética em Pesquisa – CEP, onde você poderá tirar suas dúvidas sobre o projeto e sua participação
nele, agora ou a qualquer momento.
Contatos do coordenador desta pesquisa:
Professor Eduardo Bearzoti(Coordenador do Curso de Bacharelado em Estatística)Universidade Federal de Ouro PretoDepartamento de Estatística – ICEBCampus Morro do Cruzeiro, s/nCEP 35400-000 - Ouro Preto, MG, Brasil e-mail: edbearzoti.bearzoti10.gmail.comTelefones.: (31) 3559-1348 e (31) 99789-7295
Caso você tenha dificuldade em entrar em contato com o pesquisador responsável, comunique o
fato à Comissão de Ética em Pesquisa da UFOP:
Comitê de Ética em Pesquisa da Universidade Federal de Ouro Preto Campus Universitário Morro do Cruzeiro Instituto de Ciências Exatas e Biológicas, Sala 29 CEP 35400-000 Ouro Preto - MG, Brasil e-mail: [email protected] Telefone: (31) 3559-1368
Declaro que entendi os objetivos, riscos e benefícios de minha participação na pesquisa, e
que concordo em participar.
Ouro Preto, _____ de ____________ de 20____
Assinatura do participante: _____________________________
Assinatura do coordenador da pesquisa:_____________________________
73
74
APÊNDICE B -- Questionário 2018
Departamento de Estatıstica - DEEST 1
Questionario: Perfil dos Alunos doCurso de Estatıstica
Matrıcula:
Perfil
1. Idade:
2. Sexo:
2 Feminino.
2 Masculino.
3. Origem:
2 Ouro Preto (Ja morava na cidade).
2 Minas Gerais.
2 Outros Estados.
4. Moradia:
2 Republica ou Alojamento.
2 Com a famılia.
2 Sozinho (a).
2 Casa propria.
2 Divide moradia com outros estudantes(nao sendo republica ou alojamento).
5. Com quantas pessoas mora:
6. Mora em Ouro Preto?
2 Sim.
2 Nao. Onde:
7. Estado civil:
2 Casado.
2 Solteiro.
2 Viuvo.
2 Divorciado.
2 Uniao estavel.
8. E pai ou mae de famılia?
2 Sim.
2 Nao.
9. Possui dependentes?
2 Sim. Quantos?
2 Nao.
10. Voce depende de auxılio financeiro familiar para realizar o curso?
2 Sim.
2 Nao.
11. Renda familiar (1 salario mınimo = R$ 954,00)
2 Ate 1 salario.
2 De 1 a 3 salarios.
2 De 3 a 5 salarios.
2 Mais que 5 salarios.
75
Departamento de Estatıstica - DEEST 2
12. Voce trabalha?
2 Sim.
2 Nao.
12.1. Se respondeu “sim” a pergunta anterior, responda em qual setor e perıodo
2 Setor privado.
2 Setor publico.
2 Autonomo.
1. Em qual perıodo.
2 Integral.
2 Meio perıodo.
2. Depende. Especifique:
13. Voce contribui para a renda da unidade familiar?
2 Esporadicamente.
2 Principal provedor.
2 Nao.
14. Beneficiario de polıtica de assistencia estudantil?
2 Sim. Qual porcentagem? 2 25% 2 50% 2 75% 2 100%
2 Alimentacao e Permanencia.
2 Transporte.
2 Alojamento.
2 Nao.
2 Outra:
15. Como avalia a influencia do trabalho nos estudos e atividade extraclasse?
2 Atrapalha consideravelmente.
2 Atrapalha pouco.
2 Nao atrapalha.
2 Nao se aplica.
2 Auxilia. Como?
Perfil Academico
16. Ensino Medio:
2 Publico.
2 Privado.
2 Ambos.
17. Quanto tempo fez de cursinho?
2 Nao fez.
2 Seis meses.
2 1 ano.
2 Mais de 1 ano.
18. Como ingressou no curso?
2 Sisu.
2 PDG.
2 Outro tipo de transferencia? Qual:
76
Departamento de Estatıstica - DEEST 3
19. Seu ingresso no curso de Estatıstica foi atraves de alguma Cota?
2 Sim.
2 Nao.
20. Estatıstica foi sua primeira opcao?
2 Sim.
2 Nao.
21. O que o fez escolher o curso?
2 Amigos.
2 Familiares.
2 Informacoes na mıdia.
2 Mostra de Profissoes.
2 Baixa concorrencia.
22. Tempo no curso de Estatıstica (em semestres, incluindo o atual):
23. Com que frequencia voce se dedica extraclasse?
2 Raramente estudo.
2 Ate 2 horas semanais.
2 De 2 a 5 horas semanais.
2 Mais de 5 horas semanais.
24. Qual seu principal local de estudo?
2 Casa.
2 UFOP.
2 Trabalho.
25. Participa de alguma atividade academica?
2 Nao.
2 Iniciacao Cientıfica .
2 Pro-Ativa.
2 Projeto de Extensao.
2 Monitoria ou Tutoria.
2 Outros.
25.1. Se respondeu “sim” a pergunta anterior, esta atividade academica e remunerada?
2 Sim.
2 Nao.
26. Voce intenciona mudar de curso?
2 Nunca cogitei.
2 Era minha intencao, mas mudei de ideia.
2 Esta e minha intencao.
77
Departamento de Estatıstica - DEEST 4
27. Qual sua expectativa quanto a terminar o curso?
2 Pretendo termina-lo.
2 Tenho duvidas se conseguirei/pretenderei continua-lo.
2 Nao pretendo termina-lo.
28. Em quanto tempo (desde a data de inıcio) voce acredita que concluira o curso?
2 4 anos.
2 4,5 anos.
2 5 anos.
2 5,5 anos.
2 6 anos.
2 Nao concluirei o curso.
29. Quais sao seus principais anseios quando se formar estatıstico?
2 Fazer pesquisa.
2 Vida academica.
2 Trabalhar na iniciativa privada.
2 Trabalhar no setor publico (Atraves de concurso publico).
2 Ainda nao sei/nao decidi.
30. Como avalia sua base matematica para fazer o curso?
2 Fraca.
2 Razoavel.
2 Boa.
31. Nıvel de ingles:
a. Leitura: 2 Nao tem. 2 Basica. 2 Intermediaria. 2 Avancada. 2 Fluente.
b. Escrita: 2 Nao tem. 2 Basica. 2 Intermediaria. 2 Avancada. 2 Fluente.
c. Conversacao: 2 Nao tem. 2 Basica. 2 Intermediaria. 2 Avancada. 2 Fluente.
Avalie estes itens
32. Formacao tecnica dos professores: Ruim em geral 2—2—2—2—2 Muito boa em geral
33. Como avalia a didatica dos professores? Ruim em geral 2—2—2—2—2 Muito boa em geral
34. Como avalia a dedicacao dos professores ao curso? Ruim em geral 2—2—2—2—2 Muito boa em geral
35. Qual sua percepcao sobre o Colegiado do Curso?
2 Ruim. 2 Negativa. 2 Indiferente. 2 Positiva. 2 Boa.
36. Na sua percepcao, quais sao os principais problemas do curso de Estatıstica? (pode marcarmais de uma opcao, colocando numeros nos parenteses conforme a ordem de importancia,se desejar).
2 Oferta de disciplinas anuais ( ).
2 Pre-requisitos ( ).
2 Qualidade dos professores ( ).
2 Curso muito teorico ( ).
2 Falta de praticas de analise ( ).
2 Infraestrutura.( ) Especifique:
2 Outros.( ) Especifique:
78
Departamento de Estatıstica - DEEST 5
37. Quais os aspectos positivos?
2 Professores (Qualidade).
2 Disciplinas.
2 Infraestrutura.
2 Qualidade de vida em Ouro Preto.
2 Outros.
38. Quais as principais dificuldades enfrentadas por voce para a realizacao do curso?
79