an alise do desempenho no ensino m edio na area metropolitana … · 2018. 5. 3. · 1.1exame...

72
Universidade de Bras´ ılia Instituto de Ciˆ encias Exatas Departamento de Estat´ ıstica An´ alise do Desempenho no Ensino M´ edio na ´ Area Metropolitana de Bras´ ılia: Uma Abordagem Multin´ ıvel Davi Souza Botelho Bras´ ılia 2017

Upload: others

Post on 16-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • Universidade de Braśılia

    Instituto de Ciências Exatas

    Departamento de Estat́ıstica

    Análise do Desempenho no Ensino Médio naÁrea Metropolitana de Braśılia:

    Uma Abordagem Multińıvel

    Davi Souza Botelho

    Braśılia

    2017

  • ii

  • Davi Souza Botelho

    Análise do Desempenho no Ensino Médio na

    Área Metropolitana de Braśılia:

    Uma Abordagem Multińıvel

    Trabalho de Conclusão de Curso apresentado ao

    Departamento de Estat́ıstica da Universidade de

    Braśılia, como parte dos requisitos para a obtenção

    do t́ıtulo de Bacharel em Estat́ıstica.

    Orientadora: Profa. Dra.

    Ana Maria Nogales Vasconcelos

    Co-Orientadora: Profa. Ms.

    Maria Teresa Leão Costa

    Braśılia

    2017

  • iv

  • Sumário

    1 Introdução 1

    1.1 Exame Nacional do Ensino Médio . . . . . . . . . . . . . . . . . . . . . . . 2

    1.2 Área Metropolitana de Braśılia . . . . . . . . . . . . . . . . . . . . . . . . 3

    2 Objetivos e Justificativa 5

    2.1 Objetivo Principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.2 Objetivos Secundários . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.3 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    3 Estrutura Teórica 6

    3.1 Teoria de Resposta ao Item . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    3.1.1 Traço Latente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3.1.2 Conceitos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3.1.3 Modelos unidimensionais para itens dicotômicos . . . . . . . . . . . 8

    3.1.4 Curva Caracteŕıstica do Item . . . . . . . . . . . . . . . . . . . . . 10

    3.1.5 Função de Informação do Item e Função de Informação do Teste . . 14

    3.1.6 Modelos para Itens Policotômicos . . . . . . . . . . . . . . . . . . . 17

    3.1.7 Suposições do Modelo . . . . . . . . . . . . . . . . . . . . . . . . . 18

    3.1.8 Estimação do Parâmetros . . . . . . . . . . . . . . . . . . . . . . . 18

    3.2 Modelos Lineares Multińıveis . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3.2.1 Modelo de Regressão Tradicional versus Modelo de Regressão Mul-

    tińıvel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    3.2.2 Especificação do Modelo Multińıvel . . . . . . . . . . . . . . . . . . 24

    3.2.3 Estimação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    3.2.4 Seleção de Variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    3.2.5 Qualidade dos Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 29

    v

  • 3.2.6 Coeficientes de Determinação . . . . . . . . . . . . . . . . . . . . . 30

    3.2.7 Análise dos Reśıduos . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    4 Metodologia 32

    4.1 Indicador de Infraestrutura Escolar . . . . . . . . . . . . . . . . . . . . . . 32

    4.2 Indicador de Nı́vel Socioeconômico . . . . . . . . . . . . . . . . . . . . . . 33

    4.3 Dados para a Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    4.4 Variáveis Explicativas do Modelo . . . . . . . . . . . . . . . . . . . . . . . 35

    5 Resultados 37

    5.1 Indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    5.1.1 Infraestrutura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    5.1.2 Nı́vel Socioeconômico . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    5.2 Análise Descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    5.2.1 Perfil do Estudante . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

    5.2.2 Perfil da Escola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    5.2.3 Análise Bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    5.3 Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    6 Conclusão 57

    7 Referências Bibliográficas 58

  • Lista de Figuras

    1.1 Área Metropolitana de Braśılia . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    3.1 Exemplo de Curva Caracteŕıstica do Item - ML1 . . . . . . . . . . . . . . . 11

    3.2 Exemplo de Curva Caracteŕıstica do Item - ML2 . . . . . . . . . . . . . . . 12

    3.3 Exemplo de Curva Caracteŕıstica do Item - ML3 . . . . . . . . . . . . . . . 13

    3.4 Exemplo de Curva Informação do Item . . . . . . . . . . . . . . . . . . . . 15

    3.5 Exemplo de Curva de Informação do Teste . . . . . . . . . . . . . . . . . . 16

    3.6 Estrutura Hierárquica em Dados Educacionais . . . . . . . . . . . . . . . . . . . . 22

    3.7 Gráfico de Probabilidade Normal . . . . . . . . . . . . . . . . . . . . . . . 31

    3.8 Reśıduos padronizados versus valores preditos . . . . . . . . . . . . . . . . 31

    5.1 Função de Informação do Teste . . . . . . . . . . . . . . . . . . . . . . . . 39

    5.2 Variação da Infraestrutura Escolar por Regiões da AMB - 2014 . . . . . . . 40

    5.3 Função de Informação do Teste . . . . . . . . . . . . . . . . . . . . . . . . 41

    5.4 Variação do Nı́vel Socioeconômico das Escolas por Regiões da AMB - 2014 42

    5.5 Renda per Capita do Estudante . . . . . . . . . . . . . . . . . . . . . . . . 46

    5.6 Indicadores Escolares para AMB - 2014 . . . . . . . . . . . . . . . . . . . . 48

    5.7 Caracteŕısticas Escolares para AMB - 2014 . . . . . . . . . . . . . . . . . . 49

    5.8 Gráfico de Probabilidade Normal . . . . . . . . . . . . . . . . . . . . . . . 56

    5.9 Reśıduos Padronizados versus Valores Preditos . . . . . . . . . . . . . . . . 56

    vii

  • Lista de Tabelas

    5.1 Estimativas dos parâmetros de discriminação e dificuldade dos itens de

    infraestrutura escolar na AMB - 2014 . . . . . . . . . . . . . . . . . . . . . 38

    5.2 Estimativas dos parâmetros de discriminação e dificuldade dos itens de ńıvel

    socioeconômico na AMB - 2014 . . . . . . . . . . . . . . . . . . . . . . . . 41

    5.3 Distribuição dos estudantes segundo munićıpio de residência e da escola na

    AMB - 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    5.4 Caracteŕısticas gerais do estudante na AMB - 2014 . . . . . . . . . . . . . 45

    5.5 Escolaridade dos Pais dos Estudantes na AMB - 2014 . . . . . . . . . . . 46

    5.6 Distribuição das escolas e estudantes na AMB - 2014 . . . . . . . . . . . . 47

    5.7 Teste de Comparação de Médias - Variáveis do Aluno . . . . . . . . . . . . 50

    5.8 Modelo sem variáveis explicativas - Modelo Nulo (M0) . . . . . . . . . . . 51

    5.9 Modelo com as variáveis explicativas do ńıvel 1 - Modelo 1 (M1) . . . . . . 52

    5.10 Modelo com as variáveis explicativas do ńıvel 1 e ńıvel 2 - Modelo 2 (M2) . 53

    viii

  • Lista de Quadros

    4.1 Descrição dos Itens de Infraestrutura Escolar . . . . . . . . . . . . . . . . . 33

    4.2 Descrição dos Itens de Nı́vel Socioeconômico . . . . . . . . . . . . . . . . . 34

    4.3 Descrição das Variáveis Explicativas do Modelo . . . . . . . . . . . . . . . 36

    ix

  • Resumo

    O presente trabalho utilizou as notas das provas e o questionário contextual do Exame

    Nacional do Ensino Médio (ENEM) de 2014 e o Censo Escolar de 2014 para averiguar

    os fatores associados ao desempenho dos alunos concluintes do ensino médio das escolas

    da rede pública da Área Metropolitana de Braśılia (AMB). Com o grupo de itens do

    questionário contextual do ENEM e as informações sobre as escolas do Censo foi posśıvel

    construir medidas para o ńıvel socioeconômico (INSE) e para a infraestrutura (INFE)

    das escolas. A metodologia de construção desses indicadores foi a Teoria de Resposta ao

    Item (TRI) pelo modelo de resposta gradual (INSE) e resposta dicotômica (INFE). Foram

    analisadas as relações desses indicadores e caracteŕısticas individuais dos alunos e das

    escolas com as proficiências dos estudantes por meio dos Modelos Lineares Multińıveis

    (MLM). Constatou-se que 18% da variação do desempenho dos estudantes é atribúıda

    à escola, valor considerado pequeno, porém razoável, logo que o estudo abrange apenas

    escolas públicas. No ńıvel do aluno, verificou-se que ter idade prevista para a conclusão

    do ensino médio, ser do sexo masculino e pais possúırem escolaridade mais elevada

    contribuem para um melhor desempenho. No que se refere à escola, destacam-se o fato

    que, possuir INSE e taxa de participação no ENEM mais altos, em média, contribuem

    positivamente no médio desempenho de seus estudantes. A qualificação dos professores foi

    efeito relevante no desempenho, sugerindo que atuação na área da formação tem um efeito

    positivo no desempenho médio dos alunos. Ainda que sejam preliminares, os resultados

    aqui apresentados evidenciam o potencial dos dados produzidos pelo INEP/MEC para a

    avaliação educacional no páıs.

    Palavras-chave: Fatores Associados ao Desempenho; Exame Nacional do Ensino Médio;

    Teoria de Resposta ao Item; Modelos Lineares Multińıveis; Indicadores Educacionais; Área

    Metropolitana de Braśılia.

    x

  • xi

  • Caṕıtulo 1

    Introdução

    Diversos estudos relacionados aos condicionantes do desempenho escolar vem

    despertando um grande interesse por parte da sociedade e dos formuladores de poĺıticas,

    tendo em vista que, tais condicionantes estão diretamente ligados a qualidade da educação,

    ao desenvolvimento econômico e social dos indiv́ıduos e das nações. Esses estudos buscam

    diferentes formas de entender os fatores que explicam desempenho, seja bom ou ruim

    (Machado, 2014). Caracteŕısticas relacionadas ao ńıvel socioeconômico, fator preponderante

    para explicar o desempenho, e a trajetória escolar do aluno são vistos na literatura como as

    principais influências associadas ao desempenho. As informações contextuais do aluno são

    os atributos que mais impactam o desempenho, porém não os únicos. Deve-se considerar

    também, segundo Soares (2006) e Albernaz (2002) que a atuação cognitiva é determinada

    por atributos associados ao próprio aluno e à estrutura escolar, ou seja, o “fator escola”

    impacta na performance do aluno.

    No que tange as escolas, quais são as caracteŕısticas que podem interferir no que se

    refere ao desempenho dos seus alunos? A resposta para essa pergunta requer uma análise

    mais aprofundada, pois segundo Andrade (2008) a escola ocupa um papel de destaque

    na sociedade, exercendo múltiplas funções. Cabe a escola desenvolver competências e

    habilidades cognitivas necessárias para que o aluno acesse ńıveis mais elevados de ensino,

    preparar para o mercado de trabalho e além disso, é um ambiente de intenso conv́ıvio

    social. Buscando responder a essa questão, o relatório Escola Eficaz elaborado pelo

    GAME1 (2002) fez um levantamento e um agrupamento dos principais elementos que estão

    associados ao “fator escola”, a saber: a infraestrutura e os fatores externos à organização,

    1Grupo de Avaliação e Medidas Educacionais, da Faculdade de Educação (GAME/FAE) da UFMG.

    1

  • à governança, aos professores da escola, à relação com as famı́lias, ao clima interno e às

    caracteŕısticas do ensino. Cada um desses itens de análise, ao serem eles tratados a partir

    da perspectiva do “fator escola”, buscam explicitar as várias formas com que a escola

    interfere no desempenho escolar. Portanto, pode-se afirmar que, a análise do desempenho

    do estudante não deve incluir apenas os fatores ligados ao próprio estudante, mas também

    aos elementos associados ao “fator escola”.

    Estatisticamente, se pensaria que um Modelo de Regressão Clássico seria adequado

    para estudar os determinantes do desempenho do aluno. Porém, colocar as variáveis do

    aluno e da escola na mesma linha traria problemas com as estimativas dos parâmetros,

    principalmente nos erros padrões. A alternativa correta de avaliar esses determinantes,

    é utilização de um modelo mais sofisticado que agregue a estrutura hierárquica natural

    em dados educacionais, onde a análise do desempenho do estudante utilize informações

    individuais do aluno conjuntamente com dados do ńıvel da escola, melhorando as estimativas

    dos efeitos (Palermo, 2014). Os Modelos Lineares Multińıveis são ideais para um estudo

    nesta linha.

    1.1 Exame Nacional do Ensino Médio

    Institúıdo pela Portaria MEC no 438 de 28 de maio de 1998, o Exame Nacional

    do Ensino Médio (ENEM), surge como uma avaliação anual do domı́nio do aluno em

    competências e habilidades desenvolvidas durante a educação básica, buscando contribuir

    para a melhoria desse ńıvel de escolaridade. É um exame individual de caráter voluntário

    que serve para que o indiv́ıduo faça uma autoavaliação do aprendizado e auxilie o governo

    na elaboração de poĺıticas educacionais de melhoria da educação do páıs. O planejamento

    e operacionalização do ENEM são de responsabilidade do Instituto Nacional de Estudos e

    Pesquisas Educacionais (INEP).

    Ao longo dos anos, o exame mudou bastante. Em 2004, o ENEM foi vinculado ao

    Programa Universidade para Todos (ProUni), que concede bolsas em instituições privadas.

    Com isso, houve um aumento expressivo no número de participantes. Porém, as grandes

    mudanças ocorreram a partir de 2009 com a reformulação nas matrizes de referências e a

    implementação do Sistema de Seleção Unificada (SISU), cujo objetivo era democratizar as

    oportunidades de acesso a universidades públicas federais. Isso possibilitou a mobilidade

    2

  • acadêmica no páıs e induziu a reestruturação dos curŕıculos de ensino médio. Um novo

    modelo de prova foi adotado e a mensuração das notas das provas objetivas passou a

    ser feita pela Teoria de Resposta ao Item, em espećıfico, o Modelo Loǵıstico de Três

    Parâmetros.

    1.2 Área Metropolitana de Braśılia

    Em 2014, passados 54 anos da fundação de Braśılia, o Distrito Federal atingiu

    a marca de 2,85 milhões de habitantes e sua marcha urbana extrapolou os limites do

    quadrilátero se estendendo por inúmeros munićıpios goianos vizinhos e se constitui numa

    área de interação social, cultural e econômica. O fato é que o Distrito Federal forma com

    esses munićıpios uma região metropolitana como qualquer outra, embora não seja reconhe-

    cida oficialmente, uma vez que abrange duas unidades federativas. A Área Metropolitana

    de Braśılia (AMB) compreende, além do Distrito Federal, 12 munićıpios localizados no

    estado de Goiás que têm laços cotidianos com o DF: Águas Lindas de Goiás, Alexânia,

    Cidade Ocidental, Cocalzinho de Goiás, Cristalina, Formosa, Luziânia, Novo Gama, Padre

    Bernardo, Planaltina, Santo Antônio do Descoberto e Valparáıso de Goiás (Codeplan,

    2014).

    Para uma análise da distribuição espacial dos estudantes e escolas na AMB,

    consideram-se quatro grupos de localidades de residência segundo estratos de renda. O

    Distrito Federal foi dividido em três regiões: 1) Região 1: localidades com renda domiciliar

    média elevada (Plano Piloto, Sudoeste/Octogonal, Lago Norte, Lago Sul, Park Way,

    Jardim Botânico e Águas Claras); 2) Região 2: localidades com renda domiciliar média

    intermediária (Cruzeiro, Candangolândia, Núcleo Bandeirante, Guará, Gama, Sobradinho

    I, Sobradinho II, Taguatinga, Vicente Pires, Riacho Fundo I e São Sebastião) e; 3) Região

    3: localidades com renda domiciliar média baixa (Brazlândia, Ceilândia, Itapoã, Planaltina,

    Santa Maria, Recanto das Emas, Riacho Fundo II, Samambaia, Vila Estrutural, Fercal,

    Varjão e áreas rurais). O quarto grupo é formado pelos doze munićıpios goianos, cuja

    renda domiciliar média é ainda inferior àquela da Região 3 do DF. A Figura 1.1 apresenta

    o mapa da AMB (Vasconcelos, 2014).

    3

  • Figura 1.1: Área Metropolitana de Braśılia

    4

  • Caṕıtulo 2

    Objetivos e Justificativa

    2.1 Objetivo Principal

    Este estudo tem por objetivo desenvolver um Modelo Linear Multińıvel como ferramenta

    para avaliar os fatores associados ao desempenho no Ensino Médio para os estudantes

    concluintes de escolas públicas na Área Metropolitana de Braśılia (AMB) em 2014.

    2.2 Objetivos Secundários

    (i) Construir indicadores de Infraestrutura Escolar e de Ńıvel Socioeconômico da Escola

    via Teoria de Resposta ao Item (TRI);

    (ii) Analisar caracteŕısticas individuais do alunos e das escolas a fim de verificar o quanto

    elas interferem no desempenho do aluno na prova do ENEM 2014.

    2.3 Justificativa

    A identificação dos fatores associados ao desempenho e à determinação do grau de influência

    destes fatores na proficiência dos estudantes, há décadas vem sendo estudado. Seja com

    finalidades acadêmicas, quanto para diagnóstico de deficiências no sistema educacional,

    elaboração de poĺıticas públicas e ações de gestão. Um das formas para a execução da

    melhoria de qualidade do ensino e otimização dos recursos empregados em educação gira

    em torno do conhecimento desses fatores.

    5

  • Caṕıtulo 3

    Estrutura Teórica

    Este trabalho se fundamenta em duas técnicas estat́ısticas, frequentemente aplicadas em

    estudos educacionais. A primeira é a Teoria de Resposta ao Item (TRI). Esta técnica

    é muito difundida para obtenção de escores e para medição de traços latentes. A TRI

    ganhou mais notoriedade após o INEP a utilizar para calcular as notas das provas objetivas

    do próprio ENEM. A segunda técnica é composta pelos Modelos Lineares Multińıveis

    (MLM) ou apenas Modelos Multińıveis. Estes modelos permitem analisar a relação de

    uma variável resposta com um conjunto de variáveis explicativas agregando a estrutura

    hierárquica dos dados nos modelos. Um t́ıpico exemplo de dados com uma estrutura

    hierárquica é o próprio sistema educacional, onde alunos são agrupados em turmas, turmas

    em escolas, escolas em munićıpios e assim por diante.

    3.1 Teoria de Resposta ao Item

    A história da Teoria de Resposta ao Item (TRI) iniciou-se formalmente nos anos

    50, com a finalidade de resolver alguns problemas da Teoria Clássica dos Testes (TCT),

    embora suas ráızes remontam-se há mais de uma década atrás. Um dos precursores da

    TRI moderna foi Frederic Lord (1952, 1953) por ter elaborado um modelo teórico e propor

    métodos de estimação dos itens da nova teoria, utilizando a ogiva normal. Estes modelos

    se aplicavam a itens com respostas dicotômicas. A substituição da ogiva normal por curvas

    loǵısticas, foi dado por Birnbaum (1957) o que tornou o tratamento matemático menos

    complexo e um ajuste mais adequado. Um pouco mais tarde, Samejima (1969, 1972)

    elaborou modelos para tratar respostas politômicas.

    6

  • A revisão teórica da Teoria de Resposta ao Item presente neste trabalho está

    densamente baseada em Andrade (2000), Laros (2010) e Quaresma (2014). Os principais

    assuntos relacionados ao tema serão descritos resumidamente a seguir.

    3.1.1 Traço Latente

    Em muitas áreas da ciência, especialmente em Educação e em Psicologia, se

    deseja fazer medições, por exemplo, medir a inteligência de um indiv́ıduo, a proficiência

    em matemática de um aluno, a infraestrutura de uma escola e muitos outros. Tais

    caracteŕısticas podem ser mensuradas e a elas ser posśıvel designar uma série de atributos,

    porém, é imposśıvel medi-las diretamente, como se faz com a altura, uma vez que se trata

    de variáveis conceituais e não de medidas f́ısicas. Tais variáveis são chamadas de traços

    latentes ou construtos. Uma meta recorrente nas referidas áreas é a determinação do

    quanto um indiv́ıduo possui de um determinado traço latente. O cumprimento dessa meta

    se estabelece usando um conjunto de variáveis mensuráveis, chamados de itens, que são,

    por sua vez, correlacionados ao construto estudado e um modelo estat́ıstico.

    Pasquali (2003) se refere a teoria do traço latente sendo uma famı́lia de modelos

    matemáticos que relaciona variáveis observáveis (itens) e traços não observáveis (latentes),

    estes responsáveis pelo aparecimento das respostas do itens emitidos pelos sujeitos. Assim,

    a resposta que o sujeito dá ao item é determinada pelo seu ńıvel de traço latente. Portanto,

    o traço latente é a causa e a resposta do sujeito é o efeito.

    O objetivo principal da TRI é propor modelos matemáticos que possibilitam a

    mensuração de traços latentes. Na literatura são vistas muitas aplicações da TRI. Em

    avaliação educacional, tem-se: a nota das provas objetivas do ENEM, a nota do SAEB,

    uma série de indicadores oficiais divulgados pelo INEP, a escala de infraestrutura escolar

    (Soares Neto, 2013) e outros.

    3.1.2 Conceitos Básicos

    A Teoria de Resposta ao Item (TRI) é um sistema de modelos que buscam

    representar a probabilidade de um indiv́ıduo endossar ou acertar ao item como função

    das caracteŕısticas do item e do traço latente do sujeito, como já mencionado, objetivo

    principal é a mensuração do traço latente do indiv́ıduo. Segundo esses modelos, quanto

    maior for o traço latente maior é a probabilidade de endosso ou de acerto ao item. O uso

    7

  • dos termos endossar ou acertar depende do tipo de traço latente em questão. Comumente

    utiliza-se acertar ao item quando a situação envolve avaliações ou aptidões. Por exemplo,

    deseja-se aplicar a TRI para medir o desempenho em matemática de alunos em uma

    escola, aqui o desempenho é a medida de interesse e os itens são as questões da prova,

    ou seja, o indiv́ıduo acerta ou erra a questão. Em outras aplicações, item é respondido

    de forma diferente. Por exemplo, deseja-se estudar o ńıvel de qualidade de vida de uma

    população, onde as perguntas são respondidas com “sim”ou “não”, onde a qualidade de

    vida é o traço latente e as perguntas são os itens que são respondidos afirmativamente

    ou negativamente. Neste caso, avalia-se o grau de endosso dos participantes do estudo a

    determinada pergunta.

    A TRI vem sendo muita utilizada por psicometristas e pesquisadores em avaliação

    educacional como uma ferramenta de modelagem estat́ıstica. Devido a sua vasta aplica-

    bilidade, tem despertado interesse por pesquisadores de outras áreas, como sociólogos,

    demógrafos, gestores dentre outros. Essa ferramenta possibilita uma melhor análise de

    cada item, onde cada item, individualmente, contribui de forma diferente para construção

    da medida de interesse.

    Tão importante quanto o traço latente, o item é considerado uma parte do

    instrumento de medida correlato com o construto estudado. Estatisticamente, ele é uma

    variável aleatória que assume determinado valor dependendo da sua natureza: dicotômicos

    ou dicotomizados (ver seção 3.1.2) e politômicos (ver seção 3.1.6). Três caracteŕısticas

    intŕınsecas dos itens são fundamentais para a análise com a TRI: a discriminação, a

    dificuldade e a probabilidade de acerto casual. A relação entre esses parâmetros e o traço

    latente é vista através da Curva Caracteŕıstica do Item (ver mais detalhes na seção 3.1.4).

    3.1.3 Modelos unidimensionais para itens dicotômicos

    Os modelos da TRI dependem substancialmente do número de construtos (dimen-

    sionalidade), do formato dos itens (dicotômicos ou politômicos) e do número de parâmetros

    que utilizam para descrever os itens. Nesta seção, serão apresentados modelos dicotômicos

    unidimensionais para um único grupo. Dentre os mais conhecidos, estão os modelos

    loǵısticos de um, dois e três parâmetros, que consideram, respectivamente:

    (i) somente a dificuldade;

    8

  • (ii) a dificuldade e a discriminação;

    (iii) a dificuldade e a discriminação e a probabilidade de resposta correta de um sujeito

    com baixa habilidade.

    3.1.3.1 Modelo Loǵıstico de Um Parâmetro - ML1

    Amplamente conhecido como modelo de Rasch, o Modelo Loǵıstico de Um

    Parâmetro (ML1) é a forma mais simples dos modelos propostos pela TRI. No ML1

    a probabilidade de endosso ou acerto ao item é expressa como função do traço latente do

    indiv́ıduo e da dificuldade da questão ou pergunta. Sua expressão é definida:

    P (Ukj = 1|θj) =1

    1 + e−D(θj−bk), k = 1, 2, ..., K e j = 1, 2, ..., n, (3.1)

    em que, para n indiv́ıduos submetidos a K itens:

    (i) Ukj é uma variável dicotômica que assume os valores 1, quando o indiv́ıduo j responde

    corretamente ou afirmativamente o item k e 0, caso contrário;

    (ii) θj representa o valor do traço latente do j-ésimo indiv́ıduo, teoricamente assume

    valores entre (-∞,+∞), porém empiricamente, este intervalo varia de (-3,+3);

    (iii) bk é o parâmetro de dificuldade ou de posição do k-ésimo item, medido na mesma

    escala de θj . Pequenos valores indicam itens com baixa dificuldade e portanto, valores

    grandes indicam itens com alta dificuldade;

    (iv) D é um fator de escala, introduzido para tornar a função loǵıstica mais próxima

    posśıvel da ogiva normal. Utiliza-se 1,7 para a aproximação;

    (v) P (Ukj = 1|θj) é a probabilidade do respondente j endossar ou acertar o item k

    condicionado ao seu grau de traço latente θj e é chamada de Função de Resposta ao

    Item - FRI.

    Uma aplicação do ML1 é o cálculo das proficiências no Programme for International

    Student Assessment (PISA).

    9

  • 3.1.3.2 Modelo Loǵıstico de Dois Parâmetro - ML2

    O Modelo Loǵıstico de Dois Parâmetro (ML2) avalia, além da dificuldade, a

    discriminação ou inclinação do item. É declarado como uma extensão do ML1, pois se

    adiciona um novo parâmetro a este modelo. Sua função é definida como:

    P (Ukj = 1|θj) =1

    1 + e−Dak(θj−bk), k = 1, 2, ..., K e j = 1, 2, ..., n, (3.2)

    Na Equação 3.2, ak é o parâmetro de discriminação do item k. Este parâmetro

    é interpretado como o poder de distinguir indiv́ıduos com magnitudes do traço latente

    próximas. Ele equivale ao ângulo formado entre a inclinação da Curva Caracteŕıstica do

    Item (discutida a seguir) e o ponto de inflexão, onde a probabilidade de endosso é de 0,5. O

    ML2 é muito usado na construção de números-́ındices quando as respostas dos itens estão

    na forma de endosso. Por exemplo, deseja-se construir um indicador de infraestrutura

    escolar. Considera-se como variáveis indicadoras de infraestrutura, a posse de instalações

    f́ısicas como, biblioteca, laboratórios, banheiros e outros. Uma aplicação do ML2 é vista

    em Soares Neto (2013).

    3.1.3.3 Modelo Loǵıstico de Três Parâmetro - ML3

    Entre os modelos propostos pela TRI, o Modelo Loǵıstico de Três Parâmetros

    (ML3) é atualmente o mais utilizado, em virtude a sua aplicabilidade para obtenção de

    escalas de proficiência. Neste contexto, o traço latente é chamado por “habilidade”, termo

    bastante usado em avaliação educacional. Sua função é dada por:

    P (Ukj = 1|θj) = ck + (1− ck)1

    1 + e−Dak(θj−bk), k = 1, 2, ..., K e j = 1, 2, ..., n, (3.3)

    Na Equação 3.3 acrescentou-se o parâmetro ck que representa a probabilidade de

    um indiv́ıduo com baixa habilidade acertar a questão. Portanto, o ML3 é o modelo mais

    adequado quando os itens da prova ou exame são de múltipla escolha. O ML3 é utilizado

    para obtenção das proficiências no ENEM, SAEB, TOEFL e outros exames.

    3.1.4 Curva Caracteŕıstica do Item

    O traço latente, representado por θj, determina as respostas fornecidas pelos

    sujeitos aos itens. Conforme os modelos da TRI, apresentados nas seções anteriores, baixos

    10

  • valores de θj implicam em baixas probabilidades de acerto ou endosso ao item, representada

    por P (Ukj = 1|θj) e portanto, altos valores de θj implicam em altas probabilidades.

    A representação dos modelos da TRI pode ser feita através da Curva Caracteŕıstica

    do Item (CCI) que relaciona a P (Ukj = 1|θj) com os parâmetros dos itens. A CCI é um

    importante mecanismo gráfico que demonstra uma relação monótona crescente e não linear

    entre P (Ukj = 1|θj) e θj e apresenta um formato sigmóide, resultante do uso da função

    loǵıstica. Para cada item avaliado, existe uma CCI espećıfica, em função do ńıvel de

    dificuldade e poder discriminativo diferentes. Nas figuras 3.1, 3.2 e 3.3 são dados exemplos

    de CCI para os modelos ML1, ML2 e ML3, respectivamente.

    Figura 3.1: Exemplo de Curva Caracteŕıstica do Item - ML1

    Na Figura 3.1 é apresentado um exemplo de CCI para três itens modelados pelo

    ML1. Este modelo avalia apenas a dificuldade do item, rotulada pelo parâmetro b. O

    impacto na variação de b é sentido pela localização das curvas. Dessa forma, a dificuldade

    do item é um parâmetro de locação, pois o posicionamento da CCI no eixo dos ńıveis de θ é

    o que distingue os três itens. Esse parâmetro é medido na mesma escala de θ e corresponde

    11

  • ao valor de θ para que a probabilidade de acerto ou endosso é de 0,5. Quanto maior o valor

    de b, mais dif́ıcil é o item e vice-versa. Analisando a figura, a curva pontilhada seria o

    item mais dif́ıcil, pois, para que o indiv́ıduo acerte ou endosse esse item com probabilidade

    de 0,5 seria necessário θ ser igual a 1 e, por sua vez, na curva tracejada tem-se o item mais

    fácil, com b igual a -1.

    Figura 3.2: Exemplo de Curva Caracteŕıstica do Item - ML2

    A Figura 3.2 apresenta um exemplo de CCI para três itens modelados pelo ML2.

    Este modelo considera a discriminação e a dificuldade dos itens. A interpretação do

    parâmetro b é análoga a do ML1. Intencionalmente, b foi fixado em 0, para facilitar

    visualização do impacto da discriminação em cada item, rotulada pelo parâmetro a, nas

    curvas. O parâmetro a é proporcional ao valor da derivada primeira da curva no ponto

    de inflexão, reflete na inclinação, ou seja, no poder discriminativo do item. Itens com

    curvas mais inclinadas são mais úteis para distinguir indiv́ıduos que possuem diferentes

    magnitudes de θ, principalmente para valores próximos do parâmetro de locação. Os valores

    de a variam frequentemente entre 0 e 2. Um valor perto de 0 informa que indiv́ıduos com

    12

  • intensidades de θ distantes possuem probabilidade de endosso semelhantes, o praticamente

    não é interessante do ponto de vista da TRI. Não se espera itens com a negativo, pois

    indicariam que a probabilidade diminui com o aumento de θ. Entre os itens descrito na

    figura, o item 1 (curva tracejada) é o que tem a discriminação mais baixa, pois a sua CCI

    é a mais achatada e é não capaz de diferenciar sujeitos com valores θ próximos, sobretudo

    valores em torno do 0. O item 2 (curva cont́ınua) tem uma inclinação moderada e o item

    3 (curva pontilhada) é aquele que melhor discrimina os indiv́ıduos.

    Figura 3.3: Exemplo de Curva Caracteŕıstica do Item - ML3

    A Figura 3.3 apresenta um exemplo de CCI para três itens modelados pelo

    ML3. Esses são t́ıpicos em exames de avaliação educacional. Este modelo considera a

    discriminação, a dificuldade e a probabilidade de acerto casual do item. O parâmetro

    de discriminação é interpretado analogamente ao ML2. Entretanto, no caso do ML3,

    a probabilidade utilizada para definir o parâmetro b, é calculada diferente dos modelos

    anteriores, devido a inclusão do parâmetro c. Dessa forma, é feita a seguinte correção na

    probabilidade de acerto para definição da dificuldade do item: p = (1 + c)/2. Por sua vez,

    13

  • o parâmetro c é a asśıntota da curva. Este representa a probabilidade de um indiv́ıduo com

    habilidade extremamente baixa de acertar o item, popularmente, refere-se à probabilidade

    de chute. Seus posśıveis valores localizam-se no intervalo [0,1] de forma que menor o

    valor de c, mais baixa é a probabilidade daquele item ser respondido corretamente por

    indiv́ıduos com baixas habilidades. Quanto às CCI presentes na figura, pode-se dizer que,

    o item da linha tracejada, é aquele que possui a inclinação e probabilidade de acerto casual

    mais baixos, porém é o mais dif́ıcil. Já o item da linha cont́ınua é o mais fácil, discrimina

    bem e sua probabilidade de chute é mediana. O item da linha pontilhada indica um alto

    poder discriminativo, a maior probabilidade de chute e uma dificuldade intermediária.

    3.1.5 Função de Informação do Item e Função de Informação do

    Teste

    A Função de Informação do Item (FII) também possibilita a construção de um

    recurso gráfico derivado da TRI. A FII quantifica a informação do item para a medida do

    traço latente. É definida pela função:

    Ik(θ) =

    [∂∂θPk(θ)

    ]2Pk(θ).Qk(θ)

    (3.4)

    sendo,

    (i) Ik(θ) a informação fornecida pelo o item k no ńıvel de θ, ou seja, o quanto aquele

    item contribui para a medida do traço latente;

    (ii) Pk(θ) a função de resposta ao item, ou seja, a probabilidade do indiv́ıduo responder

    corretamente ou afirmativamente ao item k;

    (iii) Qk(θ) = 1 − Pk(θ), a probabilidade do indiv́ıduo não responder corretamente ou

    afirmativamente ao item k.

    Após alguns cálculos, a equação 3.4 pode ser resumida pela equação 3.5, no caso

    do ML3 descrito na seção 3.1.3.3.

    Ik(θ) = D2a2k

    Qk(θ)

    Pk(θ)

    [Pk(θ)− ck

    1− ck

    ]2(3.5)

    14

  • Segundo a equação 3.5, a informação é maior quando bk se aproxima de θ, quanto

    maior for o ak e quando ck se aproxima de 0.

    A forma gráfica do FII é a Curva de Informação do Item (CII), que é utilizada

    para verificação do quanto o item contribui para a medida expressa por θ. No entanto,

    quanto maior for a informação mais preciso é o item para avaliar sujeitos num intervalo de

    θ.

    Figura 3.4: Exemplo de Curva Informação do Item

    Na Figura 3.4 é apresentada a CII para 3 itens com parâmetros diferentes. A CII

    é unimodal e atinge o ponto máximo quando θ é igual ao parâmetro bk. Dentre os itens

    analisados, o item 1, em geral, é o mais informativo devido ao pico mais acentuado em

    sua curva. Este é mais preciso para sujeitos com θ superior a 0, porém, apresenta pouco

    informação para sujeitos fora desse intervalo. O item 2 é o menos informativo e apresenta

    uma constância para os valores de θ. E o item 3 é mais informativo para sujeitos com θ

    15

  • entre -2 e 1, e menos para os intervalos restantes.

    A Função de Informação do Teste (FIT) é dada pela soma das informações de

    cada item que compõe o teste e é expressa por:

    I(θ) =K∑k=1

    Ik(θ) (3.6)

    Figura 3.5: Exemplo de Curva de Informação do Teste

    Outra maneira de simbolizar a FIT é através do erro padrão da medida, chamado

    na TRI de erro padrão de estimação, que é dado por:

    EP (θ) =1√I(θ)

    (3.7)

    Na Figura 3.5 mostra um exemplo de Curva de Informação do Teste. Esta curva

    mostra que para indiv́ıduos com θ no intervalo (-1,+2) são aqueles que o instrumento de

    16

  • medida possui uma melhor precisão e consequentemente, o erro da medida neste intervalo,

    é menor que no restante da curva.

    3.1.6 Modelos para Itens Policotômicos

    Dentre os modelos para itens politômicos mais conhecidos estão: Modelo de

    Resposta Gradual (Samejima, 1969), Modelo de Resposta Nominal (Bock, 1972), Modelo

    de Escala Gradual (Andrich, 1978), Modelo de Crédito Parcial (Masters, 1982) e Modelo

    de Crédito Parcial Generalizado (Muraki, 1992). Esta seção faz menção apenas ao Modelo

    de Resposta Gradual (MRG), dos citados previamente, é o mais aplicado na literatura.

    Para detalhes sobre esse modelo e os demais, consultar as referências presentes na seção

    3.1.

    Suponha que os escores de uma categoria c estão dispostos em ordem crescente

    denotados por c = 0, 1, ...,mk onde (mk + 1) é o número de categorias do k-ésimo item. A

    probabilidade do j-ésimo indiv́ıduo escolher uma particular categoria ou outra mais alta

    do item k é expressa por:

    P+k,c(θj) =1

    1 + e−Dak(θj−bk,c)(3.8)

    com k = 1, 2, ..., K, j = 1, 2, ..., n, e c = 0, 1, ...,mk, onde:

    bk,c é o parâmetro de dificuldade do item k relacionado à categoria c. Os demais parâmetros

    do modelo são análogos aos definidos no ML2 (ver seção 3.1.3.2). Vale assegurar que,

    por definição, deve-se ter necessariamente uma ordenação entre os ńıveis de dificuldade

    das categorias de um dado item, de acordo com a classificação de seus escores, ou seja,

    bk,1 ≤ bk,2 ≤ ... ≤ bk,mk .

    A probabilidade do indiv́ıduo j receber um escore c no item k é dada por:

    Pk,c(θj) = P+k,c(θj)− P

    +k,c+1(θj) (3.9)

    E Samejima também admite que P+k,0(θj) = 1 e P+k,mk+1

    (θj) = 0. Então, após

    alguns cálculos, tem-se que:

    Pk,c(θj) =1

    1 + e−Dak(θj−bk,c)− 1

    1 + e−Dak(θj−bk,c+1)(3.10)

    Observa-se que em um item com (mk + 1) categorias, mk valores de dificuldades

    são estimados, além do parâmetro de inclinação do item.

    17

  • 3.1.7 Suposições do Modelo

    Os modelos da TRI, relatados neste trabalho, pressupõem duas caracteŕısticas ou

    condições de especial importância: a unidimensionalidade e a independência.

    O primeiro pressuposto é a unidimensionalidade da prova ou questionário, ou

    seja, a homogeneidade do conjunto de itens. Logo, deve-se haver somente um único traço

    latente causador da realização de todos os itens da prova ou questionário. No entanto,

    para obedecer este postulado é fundamental que haja um fator dominante responsável pelo

    conjunto de itens. Uma das maneiras de verificar esse pressuposto é através da análise

    fatorial a partir da matriz de correlações tetracóricas.

    O segundo pressuposto do modelo é a invariância dos parâmetros também conhe-

    cida como independência local ou independência condicional, a qual se refere que, para

    um dado traço latente, as respostas dos diferentes itens são independentes, por exemplo,

    a resposta do item Y não é derivada do item X. Este postulado é primordial para o

    processo de estimação dos parâmetros do modelo. Pasquali (2003) acrescenta que cada

    item é respondido exclusivamente em função do tamanho do traço latente do respondente.

    É demostrado que a unidimensionalidade resulta em independência local, todavia, tem-se

    apenas uma e não duas suposições a serem verificadas (Hambleton e Swaminathan, 1991).

    3.1.8 Estimação do Parâmetros

    O primeiro passo na aplicação dos modelos da TRI é a definição do traço latente

    e dos itens que compõe o instrumento de medida. O segundo passo consiste em escolher o

    modelo mais adequado, aquele que se enquadrada melhor segundo as caracteŕısticas dos

    itens. O terceiro, e tão importante quando os anteriores, é a estimação dos parâmetros

    dos itens e dos respondentes, que determinam a probabilidade e são, na maioria das vezes,

    ambos desconhecidos e somente as respostas aos itens são conhecidas. O problema da

    estimação está em determinar o traço latente de cada sujeito e as caracteŕısticas de cada

    item.

    Esta seção apresenta, resumidamente, os métodos mais conhecidos para estimar

    os parâmetros dos itens e dos respondentes nos modelos da TRI já descritos. Dado o

    pressuposto da independência entre as respostas dos indiv́ıduos e da independência entre

    as respostas dos itens, são descritos três métodos para estimação: estimação por máxima

    18

  • verossimilhança conjunta, estimação por máxima verossimilhança marginal e estimação

    bayesiana.

    3.1.8.1 Estimação por Máxima Verossimilhança Conjunta

    A estimação por Máxima Verossimilhança Conjunta (MVC) consiste em maximizar

    a função de verossimilhança para os parâmetros dos itens dos sujeitos. Esta função é

    representada por:

    L(θ, ζ) = P (U |θ, ζ) =N∏j=1

    K∏k=1

    Pukjkj (1− Pkj)

    1−ukj (3.11)

    ln(L) =N∑j=1

    K∑k=1

    ukjln(Pkj) + (1− ukj)ln(1− Pkj) (3.12)

    Onde,

    (i) U = (ukj) é a matriz das respostas (N ×K);

    (ii) ζ é o vetor de parâmetros dos itens (q×K × 1), sendo q a quantidade de parâmetros.

    Os valores que maximizam θ e ζ são encontrados através de um método numérico

    iterativo, por exemplo, Newton-Raphson ou Scoring de Fisher. São necessárias as derivadas

    parciais de primeira e segunda ordem de ln(L) com respeito a θ e ζ. O método MVC

    possui algumas desvantagens, como alguns problemas de indeterminação, não apresenta

    propriedades assintóticas e é bastante trabalhoso computacionalmente.

    3.1.8.2 Estimação por Máxima Verossimilhança Marginal

    O método de Máxima Verossimilhança Marginal (MVM) propõe fazer a estimação

    em duas etapas: primeiro os parâmetros dos itens, ζ e depois dos respondentes, θ. Em

    comparação ao método MVC, o método MVM é mais eficiente, pois possui propriedades

    assintóticas e consistentes dos parâmetros dos itens e uma vez estimados esses parâmetros,

    pode-se estimar θ pelos métodos iterativos. Entretanto, ambos os métodos apresentam

    um problema: são indefinidos para um padrão de resposta de acerto ou erro total.

    Para tanto, faz-se necessário marginalizar a verossimilhança integrando-a com

    relação à distribuição de θ. Este processo faz com que θ seja desconsiderado viabilizando a

    19

  • estimação de ζ. Contudo, deve-se assumir que os respondentes pertençam a uma população

    em que a caracteŕıstica de interesse θ siga uma distribuição cont́ınua, duplamente diferencial

    com primeiros momentos finitos e com densidade g parametrizada por η, isto é, g(η, θ).

    Comumente adota-se para descrever g uma distribuição normal padronizada, de modo

    que η = (µ, σ) = (0, 1). Tal estatégia resolve o problema de indeterminação causado pela

    arbitrariedade de θ. O procedimento de estimação via MVM está descrito nas equações

    3.13 e 3.14.

    P (Uj|θ, ζ) =ukj∏k=1

    Pukjkj (1− Pkj)

    1−ukj (3.13)

    A probabilidade marginal de Uj é dada por:

    P (Uj|θ, η) =∫ +∞−∞

    P (uj|θ, ζ)g(θ, η)dθ (3.14)

    Utilizando o pressuposto de independência, pode-se escrever a probabilidade do

    vetor de resposta U que representa a verossimilhança marginal, como:

    L = P (U |ζ, η) =n∏j=1

    P (Uj|ζ, η) (3.15)

    Para um dado item k, ζk é ponto de máximo L se este item é solução das seguintes

    equações:

    ∂L

    ∂ak= 0

    ∂L

    ∂bk= 0

    ∂L

    ∂ck= 0 (3.16)

    Nas expressões da equação 3.16 é necessário avaliar a integral em função de θ,

    descrita na equação 3.14. Essa integral não é resolvida analiticamente, sendo preciso

    aproximá-la através de métodos numéricos. Uma abordagem amplamente utilizada para

    obter tal aproximação é o Método de Quadratura de Hermite-Gauss.

    3.1.8.3 Estimação Bayesiana

    Há vários métodos para a Estimação Bayesiana (EB) da TRI. O mais utilizado

    para estimar os parâmetros dos itens é Estimação Bayesiana Marginal a Posterior. A

    metodologia Bayesiana permite contornar dois problemas do método de MVM. O primeiro

    20

  • problema está relacionado à indefinição para qualquer padrão de resposta. O segundo

    problema recorrente é a obtenção de estimativas fora do campo de variação do parâmetro,

    por exemplo, a estimação de valores negativos quando o suporte é não negativo.

    Sobretudo, a EB baseia-se em estabelecer distribuições a priori para os parâmetros

    de interesse, construir uma nova função denominada distribuição a posteriori e estimar

    os parâmetro segundo alguma função dessa distribuição. Geralmente, as distribuições a

    priori utilizadas são:

    (i) Normal(µ, σ2) para θ;

    (ii) Lognormal(µa, σ2a) para ak;

    (iii) Normal(µb, σ2b ) para bk;

    (iv) Beta(α, β) para ck.

    Para estimação do traço latente, θj , utiliza-se a Estimação pela Média a Posteriori

    (EMP). Segue que a esperança condicional é dada por:

    θ̂j =

    ∑qr=1XrP (uj|Xr, ζ)A(Xr)∑qr=1 P (uj|Xr, ζ)A(Xr)

    (3.17)

    em que, Xr é um ponto de quadratura e A(Xr) é um peso positivo correspondendo à

    altura do histograma para o ponto Xr.

    3.2 Modelos Lineares Multińıveis

    Um fenômeno comum em pesquisas de diversas áreas, especialmente em Educação, Psico-

    logia, Medicina e Estudos Sociais, é que os dados apresentam algum tipo de aglomeração

    ou hierarquia, ou seja, as informações coletadas dos indiv́ıduos podem estar separadas em

    diferentes ńıveis de agrupamento. Este fato poder ser importante para a compreensão

    do problema analisado. Em Educação, onde, por natureza, é observada esta estrutura,

    o pesquisador, por exemplo, pode investigar quais caracteŕısticas associadas ao aluno

    influenciam seu desempenho em um determinado exame em uma localidade. Nesta situação,

    tanto o aluno (ńıvel micro) quanto a escola (ńıvel macro) são unidades de análise, pois o

    desempenho está relacionado às caracteŕısticas de ambas esferas, deste modo, compondo

    dois ńıveis de análise.

    21

  • Um padrão hierárquico é percebido facilmente no sistema educacional, onde os

    alunos formam uma turma, turmas uma escola, escolas encontram-se em uma determinada

    localidade e assim por diante. Os outros exemplos são vistos quando se analisa pacientes

    em hospitais em uma região e funcionários em filiais em uma grande empresa e outros. A

    Figura 3.6 exemplifica uma estrutura hierárquica para dados educacionais.

    Figura 3.6: Estrutura Hierárquica em Dados Educacionais

    Fonte: Elaboração dos autores.

    A revisão teórica dos Modelos Lineares Multińıveis presente neste trabalho está

    densamente baseada em Raudenbush e Bryk (2002), Hox (2010), Barbosa e Fernandes

    (2002) e Laros e Marciano (2008). Os principais assuntos relacionados ao tema serão

    descritos sucintamente a seguir.

    3.2.1 Modelo de Regressão Tradicional versus Modelo de Re-

    gressão Multińıvel

    O Modelo Tradicional ou Regressão Clássica é uma das técnicas de análise de dados

    muito utilizada em ciências sociais, em avaliação, em estudos econômicos, em negócios, em

    saúde e em várias outras áreas.

    Neter (2005) define o Modelo de Regressão Clássico como uma metodologia es-

    tat́ıstica que utiliza a relação de uma variável resposta (Y) com uma ou mais variáveis

    preditoras (Xk) para explicar o fenômeno medido por Y ou fazer predições. Para exempli-

    22

  • ficar o modelo de regressão clássico, considere o seguinte cenário: um pesquisador busca

    avaliar fatores que explicam o desempenho (Y) escolar em matemática de n alunos em

    uma determinada localidade. As variáveis explicativas estudadas foram a dummy atraso,

    indicando se o aluno está atrasado em relação a sua jornada estudantil (X1) e a renda

    domiciliar per capita (X2), medida em unidades monetárias. Um posśıvel modelo seria:

    Yi = β0 + β1X1i + β2X2i + εi (3.18)

    sendo,

    (i) Yi: variável resposta observada no estudante i, representa o rendimento escolar;

    (ii) X1i: variável explicativa observada no aluno i, indica se o aluno está atrasado;

    (iii) X2i: variável explicativa observada no aluno i, representa o valor da renda domiciliar

    per capita;

    (iv) β0: é o intercepto, é o valor esperado da variável resposta, quando X1i = 0 e X2i = 0;

    (v) β1: é a mudança esperada na variável resposta quando o aluno está atrasado

    (X1i = 1);

    (vi) β2: é a mudança esperada na variável resposta quando X2i aumenta em uma unidade;

    (vii) εi: erro aleatório associado ao i-ésimo aluno, referentes a outras variáveis ou fonte

    de variação não observáveis.

    As principais suposições são:

    (i) A função matemática entre Y e X é linear;

    (ii) E(εi) = 0;

    (iii) V ar(εi) = σ2 (homoscedasticidade);

    (iv) Cov(εi, εj) = 0, para i 6= j (independência);

    (v) εi ∼ N(0, σ2) (normalidade).

    23

  • Com esse modelo, podem-se estudar as caracteŕısticas relacionadas ao aluno e

    seu rendimento considerando que esses estão no mesmo grupo. Entretanto, esses alunos

    não pertencem ao mesmo grupo, eles estão aglomerados em escolas diferentes. Nesta

    situação, o modelo de regressão tradicional deixa de ser apropriado, pois tem-se dados

    de agrupamento, onde a estrutura hierárquica não é colocada neste modelo. E deve-se

    ressaltar que as caracteŕısticas relacionadas às escolas podem ter um efeito razoável no

    rendimento do aluno.

    O exemplo utilizado anteriormente ilustra um dos problemas ao usar a regressão

    clássica em Educação, pois o pressuposto da independência entre as observações é violado,

    porque os alunos estão agrupados em ńıveis superiores, impossibilitando o uso correto das

    técnicas tradicionais de estimação, especificamente via Mı́nimos Quadrados Ordinários

    (MQO). Uma consequência da dependência entre as observações é a subestimação dos

    erros padrões dos coeficientes de regressão. Uma opção metodologicamente recomendada

    para estabelecer relações entre variáveis, segundo o exemplo, é o Modelo Multińıvel, que

    contempla os ńıveis de agregação dos dados. Essa técnica é um tipo de análise de regressão

    que considera a estrutura hierárquica dos dados simultaneamente, tornando correta a

    inferência estat́ıstica dos parâmetros do modelo. Além disso, ao lidar com variáveis em

    diferentes ńıveis, o modelo tradicional não considera a correlação entre os indiv́ıduos

    associados ao mesmo ńıvel de agregação. É o caso da correlação entre alunos da mesma

    escola. Quando maior for a correlação entre os indiv́ıduos maior a inadequação do modelo

    de regressão tradicional (Laros, 2008).

    3.2.2 Especificação do Modelo Multińıvel

    Na literatura, os Modelos Lineares Multińıveis (MLM) ou Modelos de Regressão Multińıvel

    também são conhecidos como Modelos Lineares Hierárquicos, Modelos de Efeitos Aleatórios

    e Regressão Hierárquica. Os objetivos em utilizar os Modelos Lineares Multińıveis são:

    a acomodação simultânea dos ńıveis, a parcimônia quanto ao número de parâmetros, a

    produção de estimativas eficientes e além de ser a alternativa sistematicamente correta

    para estabelecer as relações entre variáveis de diferentes ńıveis. Esta seção formaliza o

    MLM para dois ńıveis de análise.

    Ainda no exemplo da seção anterior, considere o mesmo conjunto de dados e a

    mesma estrutura composta por dois ńıveis. O ńıvel 1 (micro) é indexado por i e o ńıvel

    24

  • 2 (macro) por j. O ı́ndice j varia de 1 a J e o ı́ndice i de 1 a nj, sendo J o número de

    grupos associados ao ńıvel 2 e nj o número de indiv́ıduos pertencentes ao grupo j. Se

    converter a hipótese para o exemplo, pode-se definir o ńıvel micro como ńıvel aluno e o

    macro como ńıvel escola.

    A variável resposta é sempre limitada ao ńıvel micro e as explicativas para ambos

    os ńıveis. No ńıvel aluno, tem-se como variável resposta (Y ) o rendimento escolar em

    matemática (desempenho) e duas variáveis explicativas no ńıvel aluno: o atraso escolar

    (X1), e a renda domiciliar (X2), e assume-se o porte da escola (W ), medida pelo número

    total de alunos, como variável explicativa do ńıvel escola. Note que a única mudança é a

    inclusão de uma variável no ńıvel macro. A representação deste modelo está descrita na

    equação 3.19. Para analisar os dados, podem-se configurar regressões para cada escola

    separadamente, para explicar a variável resposta Y usando as variáveis preditoras X.

    Yij = β0j + β1jX1ij + β2jX2ij + εij (3.19)

    Substituindo os rótulos das variáveis na equação 3.19, o modelo é lido por:

    desempenhoij = β0j + β1jatrasoij + β2jrendaij + εij (3.20)

    Na equação 3.20, β0j é o intercepto, β1j é o coeficiente de regressão (inclinação) para

    a variável dicotômica atraso, β2j é o coeficiente de regressão para a variável quantitativa

    renda familiar e εij é o termo erro. A diferença entre a equação 3.18 e 3.19 é que intercepto

    e as inclinações são diferentes para cada escola, ou seja, eles variam de escola para escola.

    Supõem-se que o termo erro εij possui média zero e a variância chamada de σ2e , que pode

    ser estimada. Destaca-se que, o intercepto e os coeficientes de inclinação são variáveis

    aleatórias, frequentemente são chamados de coeficientes randômicos.

    O próximo passo na regressão multińıvel é incluir a variável explicativa do segundo

    ńıvel (W ). A inclusão se dá pela variação dos coeficientes de regressão βj introduzindo-a

    do segundo ńıvel. As equação 3.21, 3.22 e 3.23 mostram o processo.

    β0j = γ00 + γ01Wj + u0j (3.21)

    β1j = γ10 + γ11Wj + u1j (3.22)

    β2j = γ20 + γ21Wj + u2j (3.23)

    Sendo,

    25

  • (i) u0j ∼ N(0, σ2u0);

    (ii) u1j ∼ N(0, σ2u1);

    (iii) u2j ∼ N(0, σ2u2);

    (iv) Cov(uqj, ulj) = σql, para q 6= l.

    Os termos u0j, u1j e u2j nas equações 3.21, 3.22 e 3.23 são as componentes

    aleatórias associadas ao intercepto, coeficientes de inclinação de X1 e coeficientes de

    inclinação de X2, respectivamente e são designadas por erros do ńıvel 2. Os termos γ

    representam os coeficientes de regressão. Supõe-se que os reśıduos uj tem média zero e

    são independentes do reśıduo eij do ńıvel 1. As variâncias podem ser estimadas e são

    chamados de σ2u0, σ2u1 e σ

    2u2. Ressalta-se que os parâmetros β0j , β1j e β2j possuem ı́ndice j

    indicando a existência de um parâmetro para escola j.

    O modelo presente na equação 3.24 resulta da substituição das equações 3.21, 3.22

    e 3.23 na equação 3.19. Pode-se chamar esse modelo de completo (saturado) de dois ńıveis

    com duas variáveis explicativas no primeiro ńıvel e uma no segundo.

    Yij = γ00 + γ10X1ij + γ20X2ij + γ01Wj + γ11X1ijWj + γ21X2ijWj

    +u1jX1ij + u2jX2ij + u0j + eij (3.24)

    Se substituir os rótulos das variáveis na equação 3.24 tem-se:

    desempenhoij = γ00 + γ10atrij + γ20rendaij + γ01portej + γ11atrijportej

    +γ21rendaijportej + u1jatrij + u2jrendaij + u0j + eij (3.25)

    Na equação 3.24, os termos da primeira linha (γ00 + γ10X1ij + γ20X2ij + γ01Wj +

    γ11X1ijWj +γ21X2ijWj) são os coeficientes fixos ou determińısticos do modelo. O segmento

    presente na segunda linha (u1jX1ij +u2jX2ij +u0j +eij) contém os termos referentes ao erro

    residual e são chamados de parte randômica do modelo. As expressões X1ijWj e X2ijWj

    são os termos de interação. Eles aparecem devido a modelagem de várias inclinações βj da

    variável Xij com a variável Wj. A interpretação desse termo merece mais cautela.

    3.2.3 Estimação

    Após definir as posśıveis variáveis explicativas para compor o modelo, é necessário

    estimar os parâmetros, interpretá-los e testar a significância estat́ıstica. Três tipos de

    26

  • parâmetros podem ser estimados em uma análise multińıvel: efeitos fixos (γ1q ou γ0p),

    efeitos aleatórios do ńıvel 1 (βj) e os componentes de variância (σj).

    O processo de estimação começa com escolha do método utilizado. Dentre os

    métodos de estimação, os baseados na Máxima Verossimilhança são os mais difundidos.

    Estes métodos são geralmente mais robustos e produzem estimativas que são assintotica-

    mente eficientes e consistentes. Duas funções de verossimilhança são usadas em modelos de

    regressão multińıvel. A primeira é a Máxima Verossimilhança Completa (MVC) que inclui

    os coeficientes de regressão e as componentes de variância na função de verossimilhança

    conjuntamente. Na segunda função, a Máxima Verossimilhança Restrita (MRV), somente

    os componentes de variância são inclúıdos na função e os coeficientes de regressão são

    estimados em um segundo passo. Ambos os métodos demandam um processo iterativo.

    Outras ferramentas, como Mı́nimos Quadrados Generalizados, Equações Generalizadas,

    Bootstrapping e Métodos Bayesianos, são outras formas de estimação menos utilizadas.

    3.2.4 Seleção de Variáveis

    Nesta seção é proposto um método que orienta a seleção das variáveis explicativas

    em um modelo multińıvel. Este método é composto por cinco etapas, descritas a seguir.

    Um modelo multińıvel geral para dois ńıveis é dado pela equação (3.26) e Yij representa a

    variável resposta, podendo representar o desempenho i-ésimo estudante da j-ésima escola.

    Yij = γ00 + γp0Xpij + γ0qWqj + γpqWqjXpij + upjXpij + u0j + eij (3.26)

    Etapa 1

    Analisa-se o modelo sem nenhuma variável explicativa. Esse modelo é chamado de modelo

    nulo, sendo equivalente a um modelo one-way ANOVA com efeitos aleatórios e é dado

    por:

    Yij = γ00 + u0j + eij (3.27)

    Na equação (3.27), γ00 é o intercepto da regressão, e u0j e eij são os reśıduos usuais do

    ńıvel da escola (ńıvel 2) e ńıvel do estudante (ńıvel 1), respectivamente. Neste modelo, dito

    como inicial, é posśıvel calcular o coeficiente intraclasse ρ que mede o quanto da variação

    27

  • do desempenho dos estudantes é explicada pela variação entre as escolas. O cálculo desse

    coeficiente é dado pela equação (3.28).

    ρ =σ2u0

    σ2u0 + σ2e

    (3.28)

    Etapa 2

    Analisa-se um modelo controlado pelas variáveis explicativas do ńıvel 1. Isso significa que

    as componentes de variância correspondentes aos coeficientes são fixados em zero. Este

    modelo é descrito pela equação (3.29):

    Yij = γ00 +P∑p=1

    γp0Xpij + u0j + eij (3.29)

    em que os Xpij são as p variáveis explicativas do ńıvel 1. Nesta etapa, estima-se a contri-

    buição de cada variável explicativa deste ńıvel.

    Etapa 3

    Analisa-se um modelo incluindo as variáveis explicativas do ńıvel 2 ao modelo anterior.

    Este modelo é descrito pela equação (3.30):

    Yij = γ00 +P∑p=1

    γp0Xpij +

    Q∑q=1

    γ0qWqj + u0j + eij (3.30)

    em que Wqj são as q variáveis explicativas do ńıvel 2. Os modelos das etapas 2 e 3 são

    denominados de modelos de componentes de variância, por desintegrarem a variância do

    intercepto em componentes diferentes de variância para cada ńıvel hierárquico. Assume-se

    que o intercepto varia entre as escolas, mas coeficientes de regressão são fixos (Laros, 2008).

    Etapa 4

    Avalia-se se algum dos coeficientes de regressão do ńıvel micro tem uma componente

    significativa de variância (diferente de zero) entre as escolas. Este modelo, chamado

    modelo de coeficientes randômicos, é dado pela equação (3.31):

    Yij = γ00 +P∑p=1

    γp0Xpij +

    Q∑q=1

    γ0qWqj +P∑p=1

    upjXpij + u0j + eij (3.31)

    28

  • em que upj são os reśıduos do ńıvel 2 dos coeficientes das variáveis explicativas Xpij do

    ńıvel 1.

    Etapa 5

    Acrescentam-se as interações entre as variáveis explicativas do ńıvel 2 com aquelas que

    tiveram variância significativa de variância na etapa anterior. Isto conduz no modelo

    completo formulado na equação (3.32):

    Yij = γ00 +P∑p=1

    γp0Xpij +

    Q∑q=1

    γ0qWqj +P∑p=1

    upjXpij +P∑p=1

    Q∑q=1

    γpqWqjXpij + u0j + eij (3.32)

    em que WqjXpij é o termo de interação entre os ńıveis.

    3.2.5 Qualidade dos Modelos

    Para avaliar a qualidade do modelo utiliza-se uma medida derivada da verossimi-

    lhança, o deviance (d), definido como:

    d = −2 ∗ ln(L) (3.33)

    O deviance é uma medida de desajuste do modelo em relação aos dados. Na

    equação 3.33, L representa o valor da função de verossimilhança. Geralmente, menores

    valores de d indicam um melhor ajuste para o modelo analisado. A interpretação dessa

    medida isoladamente é complexa, porém é um critério para comparar modelos encaixados.

    Se dois modelos são encaixados, significa que um modelo simples (ms) pode ser derivado

    de um modelo geral (mg) pela remoção de parâmetros desse modelo. Dessa forma, é

    posśıvel realizar um teste qui-quadrado de diferenças dos deviances. A estat́ıstica do teste

    é dada por:

    G2 = dmg − dms (3.34)

    Na equação 3.34, dmg é o deviance calculado para o modelo geral e dms para o

    modelo simples. G2 segue uma distribuição qui-quadrado com os graus de liberdade igual

    a diferença entre o número de parâmetros dos modelos. Esse teste é semelhante ao teste

    de razão de verossimilhança.

    Se os modelos não são encaixados, o teste anterior não pode ser aplicado. Entre-

    tanto, pode-se avaliar a qualidade de ajuste baseando-se no Akaike Information Criterion,

    29

  • AIC (Akaike, 1987). O AIC, em regressão multińıvel, é calculado a partir do deviance e

    do número de parâmetros estimados (t) conforme a equação 3.35.

    AIC = d+ 2t (3.35)

    Para comparar dois modelos usando o AIC é necessário que o ajuste desses sejam

    do mesmo conjunto de dados e utilizando o mesmo método de estimação. Escolhe-se como

    modelo de melhor ajuste o que possuir menor AIC.

    3.2.6 Coeficientes de Determinação

    Na regressão multińıvel o problema de explicar ou modelar a variação explicada é

    complexo, diferente da regressão tradicional, que facilmente se encontra o coeficiente de

    determinação R2. Para encontrar uma estat́ıstica análoga ao R2, deve-se avaliar a redução

    da variância pertinente a introdução das variáveis explicativas. Esta análise é realizada

    ńıvel por ńıvel. A proporção da variância explicada pela inclusão das variáveis explicativas

    do ńıvel 1, é dada por:

    R21 =σ2e|b − σ2e|m

    σ2e|b(3.36)

    Em que σ2e|b é a variância do reśıduo do primeiro ńıvel para o modelo base e σ2e|m

    é a variância do reśıduo do primeiro ńıvel para o modelo comparação.

    A proporção da variância explicado para a ńıvel 2 é expressa pela equação:

    R22 =σ2u0|b − σ2e|m

    σ2u0|b(3.37)

    Em que σ2u0|b é a variância do reśıduo do segundo ńıvel para o modelo base e σ2u0|m

    é a variância do reśıduo do segundo ńıvel para o modelo comparação.

    3.2.7 Análise dos Reśıduos

    Após todo o processo de construção e análise do modelo, visto nas seções anteriores,

    é necessário avaliar se as suposições de normalidade, linearidade e homoscedasticidade são

    válidas. Para tal avaliação, utilizam-se os reśıduos. Os reśıduos correspondem à diferença

    entre os valores observados e os valores preditos da regressão.

    Para avaliar a normalidade dos reśıduos são indicados dois procedimentos. O

    primeiro demanda plotar um gráfico de dispersão dos reśıduos padronizados contra o seu

    30

  • respectivo escore normal. Se os reśıduos tem distribuição normal, os pontos distribuem

    em torno de uma linha diagonal. Na figura 3.7 é apresentado um gráfico que enfatiza

    perfeitamente essa condição. Esse gráfico também é chamado gráfico de probabilidade

    normal ou QQ-plot. O segundo procedimento é o teste de normalidade.

    Figura 3.7: Gráfico de Probabilidade Normal

    Fonte: Hox (2002).

    Na figura 3.8 são plotados os reśıduos padronizados versus os valores preditos.

    Neste, é posśıvel identificar falhas nas suposições de normalidade, linearidade e homos-

    cedasticidade. Se os pontos estiverem distribúıdos em torno do zero e não apresentarem

    nenhum padrão, ou seja, se comportam aleatoriamente, as suposições não são violadas.

    Figura 3.8: Reśıduos padronizados versus valores preditos

    Fonte: Hox (2002).

    31

  • Caṕıtulo 4

    Metodologia

    Nesta seção será descrito o processo de criação dos indicadores propostos e seus respectivos

    itens. Em seguida, serão detalhados os recortes usados nas bases de dados e as variáveis

    do modelo multińıvel.

    4.1 Indicador de Infraestrutura Escolar

    Quando se estuda a relação entre desempenho acadêmico de estudantes e escolas, a

    questão a infraestrutura escolar é colocada em evidência como um posśıvel fator associado ao

    desempenho. Espera-se que uma escola com melhores estruturas f́ısicas e bons equipamentos

    didáticos possua um melhor desempenho. Em muitas pesquisas, o efeito da infraestrutura

    sobre o desempenho é estudado, uma delas foi o estudo realizado por Duarte, Gargiulo e

    Moreno (2011), junto ao Banco Interamericano de Desenvolvimento (BID). Neste estudo, os

    autores exploraram o estado da infraestrutura das escolas de educação básica em 16 páıses

    da América Latina, inclusive o Brasil, e identificaram que, ao relacionar infraestrutura

    com resultados acadêmicos, o fator que está mais associados a aprendizagem, quanto a

    infraestrutura, é a presença de espaços de apoio a docência (bibliotecas, laboratório de

    ciências e salas de informática).

    Um dos objetivos do presente trabalho, é construir uma medida que quantifique a

    infraestrutura das escolas localizadas na AMB. Foram escolhidas as escolas que ofertaram

    a modalidade de ensino médio utilizando os dados do Censo Escolar 2014. Esta medida é

    chamada de Indicador de Infraestrutura Escolar (INFE). Ela é baseada na escala proposta

    por Soares Neto (2013) com algumas modificações na seleção das escolas e nos itens. O

    32

  • Quadro 4.1 apresenta a relação dos itens usados para a construção do INFE.

    Quadro 4.1: Descrição dos Itens de Infraestrutura Escolar

    Item Descrição

    1 Sala diretoria

    2 Sala professor

    3 Laboratório de informática

    4 Laboratório de ciências

    5 Sala de atendimento especial

    6 Quadra

    7 Cozinha

    8 Biblioteca

    9 Secretaria

    10 Auditório

    11 Internet

    12 Sanitário PNE

    13 Dependência PNE

    14 Copiadora

    15 Impressora

    16 Multimı́diaFonte: Elaboração dos autores. Dados: INEP.

    Os itens presentes no Quadro 4.1 são dicotômicos, assumindo resposta igual a

    1 quando a escola possui a instalação ou equipamento e assumindo 0, caso contrário.

    Tomando a infraestrutura como um traço latente, utilizou-se o Modelo Loǵıstico de 2

    Parâmetros da TRI para calcular o INFE. Este indicador é uma escala cont́ınua com médio

    50 e com desvio padrão igual a 20. Foram analisadas 237 escolas.

    4.2 Indicador de Nı́vel Socioeconômico

    O objetivo do Indicador de Ńıvel Socioeconômico (INSE) é situar o aluno em uma

    classe ou estrato social e construir a mesma medida para as escolas utilizando o INSE de

    seus respectivos alunos. Segundo a mesma metodologia proposta por Alves (2014), porém

    33

  • com alguns ajustes, foi calculada, neste trabalho, uma medida de ńıvel socioeconômico

    (NSE) para os estudantes concluintes do ensino médio e que participaram no ENEM 2014

    na AMB, esta medida é o INSE. Para isso, tomou-se o NSE como uma caracteŕıstica

    latente e não observável do estudante. Esta se manifesta através da escolaridade dos pais,

    renda familiar, posse de bens e contratação de serviços. Os dados para implementação

    dessa medida originam-se do questionário contextual preenchido pelos estudantes.

    Utilizou-se o Modelo de Resposta Gradual da TRI (ver seção 3.1.6) para construção

    do indicador. Este modelo é o adequado para análise do NSE, pois os itens do questionário

    são politômicos e estão em escala ordinal. O INSE é expresso por uma escala cont́ınua

    com média 50 e com desvio padrão igual a 20. E o INSE das escolas é calculado com

    base na média do INSE de seus respectivos alunos. O Quadro 4.2 indica quais itens foram

    usados para a análise e sua descrição.

    Quadro 4.2: Descrição dos Itens de Nı́vel Socioeconômico

    Item Descrição Identificação

    1 Escolaridade do pai 1 = Não estudou / 2 = Fundamental / 3 = Médio / 4 = Superior

    2 Escolaridade da mãe 1 = Não estudou / 2 = Fundamental / 3 = Médio / 4 = Superior

    3 Tipo de residência 1 = Outra / 2 = Alugada/Cedida / 3 = Financiada / 4 = Própria

    4Renda familiar

    (em salários mı́nimos)

    1 = Nenhuma / 2 = Até 1 / 3 = 1 a 1,5 / 4 = 1,5 a 2

    5 = 2 a 3 / 6 = 3 a 6 / 7 = Superior a 6

    5 TV 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

    6 DVD 1 = Não possui / 2 = Possui

    7 Computador 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

    8 Automóvel 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

    9 Máquina de lavar 1 = Não possui / 2 = Possui

    10 Geladeira 1 = Não possui / 2 = Possui

    11 Freezer 1 = Não possui / 2 = Possui

    12 Telefone fixo 1 = Não possui / 2 = Possui

    13 Celular 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

    14 Internet 1 = Não possui / 2 = Possui

    15 TV por assinatura 1 = Não possui / 2 = Possui

    16 Aspirador de por 1 = Não possui / 2 = Possui

    17 Empregada 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

    18 Banheiro 1 = Não possui / 2 = Uma / 3 = Dois / 4=Três ou mais

    Fonte: Elaboração dos autores. Dados: INEP.

    34

  • 4.3 Dados para a Modelagem

    O objetivo principal deste trabalho é desenvolver um Modelo Multińıvel que

    identifique quais caracteŕısticas influenciam no desempenho de estudantes do ensino

    médio das escolas públicas da AMB em 2014. No primeiro ńıvel estão os alunos e no

    segundo as escolas. Para atingir este objetivo, o conjunto de dados do ENEM 2014, que

    coletou informações sobre o estudante, a escola, as notas das provas e o questionário

    socioeconômico, foi utilizado como base principal. A base ENEM por Escola foi usada

    de forma complementar, possibilitando a inclusão de outras caracteŕısticas referentes às

    escolas não contidas na base de dados do ENEM. Ambas as bases são coordenadas pelo

    INEP. Para alcançar a população de interesse foram realizadas recortes nas duas bases.

    Do ENEM foram selecionados estudantes que:

    • conclúıram o ensino médio regular público em 2014;

    • residiam e estudavam na AMB;

    • presentes nos dois dias de aplicação da prova.

    A base final foi composta pela junção do ENEM com os filtros acima e o ENEM

    por Escola. Embora o ENEM seja um exame voluntário há alguns problemas de represen-

    tatividade. Para contornar esses problemas mais dois critérios de seleção foram usados.

    O primeiro foi selecionar apenas escolas que tinham no mı́nimo 10 alunos inscritos no

    exame e que obtiveram um percentual de participação superior a 50%. Então, o Modelo

    Multińıvel foi composto por 14.659 alunos e 120 escolas.

    4.4 Variáveis Explicativas do Modelo

    Considerou-se como variável resposta do modelo a média aritmética das notas de

    todas as provas do ENEM. Esta variável é chamada de desempenho do aluno. As variáveis

    explicativas são as caracteŕısticas dos alunos e das escolas que se esperam relacionar com o

    desempenho. No Quadro 4.3 são detalhadas as variáveis explicativas, em ambos os ńıveis,

    que serão, posteriormente inclúıdas no Modelo Multińıvel.

    35

  • Quadro 4.3: Descrição das Variáveis Explicativas do Modelo

    Descrição Rótulo Tipo

    Nı́vel Aluno

    Idade idade Discreta

    Cor/Raça: Branco cor Indicadora

    Escolaridade da Mãe: Médio ou Superior esc mae Indicadora

    Escolaridade da Pai: Médio ou Superior esc pai Indicadora

    Renda per Capita renda Cont́ınua

    Defasagem defasagem Indicadora

    Nı́vel Escola

    Indicador de Nı́vel Socioeconômico Médio inse médio Cont́ınua

    Indicador de Infraestrutura infe Cont́ınua

    Taxa de Participação no ENEM t part Cont́ınua

    Indicador de Formação Docente f doc Cont́ınua

    Taxa de Aprovação t apr Cont́ınua

    Número de Matŕıculas no Ensino Médio porte Cont́ınua

    Média do Número de Alunos por Turma a turma Cont́ınua

    Taxa de Distorção Idade/Série t dis Cont́ınuaFonte: Elaboração dos autores. Dados: INEP.

    36

  • Caṕıtulo 5

    Resultados

    5.1 Indicadores

    Nessa seção serão apresentados os principais resultados referentes às análises da

    TRI para o Indicador de Infraestrutura Escolar (INFE) e o Indicador de Nı́vel Socio-

    econômico (INSE). Utilizou-se como ferramentas computacionais: o Programa R, em

    especial, o pacote ltm e o SAS com a PROC IRT.

    5.1.1 Infraestrutura

    Realizou-se a primeira análise para estimação dos parâmetros dos itens, também

    conhecida como calibração. O Modelo Loǵıstico de 2 Parâmetros foi utilizado para estimar

    a infraestrutura das 237 escolas. Nesta primeira análise, observou-se problemas com os

    seguintes itens: cozinha, copiadora, impressora e multimı́dia. Por esse motivo, foram

    exclúıdos esses itens e realizou-se uma segunda análise para reestimação dos parâmetros

    dos itens.

    A Tabela 5.1 descreve os itens relacionados à infraestrutura com as respectivas

    estimativas dos parâmetros de discriminação ai e dificuldade bi referente a segunda análise.

    37

  • Tabela 5.1: Estimativas dos parâmetros de discriminação e dificuldade dos itens de

    infraestrutura escolar na AMB - 2014

    Item DescriçãoParâmetro

    Discriminação Dificuldade

    1 Sala diretoria 1,65 [0,56] -2,48 [0,51]

    2 Sala professor 2,00 [0,74] -2,46 [0,48]

    3 Laboratório de informática 2,25 [0,51] -1,30 [0,17]

    4 Laboratório de ciências 2,08 [0,42] 0,36 [0,11]

    5 Sala de atendimento especial 1,02 [0,21] 0,23 [0,16]

    6 Quadra 1,51 [0,28] -0,62 [0,14]

    8 Biblioteca 0,32 [0,16] -1,33 [0,76]

    9 Secretaria 1,63 [0,34] -1,22 [0,19]

    10 Auditório 2,42 [0,61] 0,98 [0,14]

    11 Internet 2,13 [0,61] -1,95 [0,29]

    12 Sanitário PNE 1,42 [0,27] -0,64 [0,15]

    13 Dependência PNE 1,67 [0,31] -0,21 [0,12]Fonte: Elaboração dos autores. Dados: INEP. Nota: Erro padrão em colchetes.

    A partir dessas estimativas, foram calculados os escores de infraestrutura escolar

    para todas as escolas. Esses escores foram posteriormente transformados para uma escala

    com média 50 e desvio padrão 20. Os escores nesta escala são chamados de Indicador de

    Infraestrutura Escolar (INFE).

    Com base nos parâmetros dos itens é posśıvel construir e analisar a Função de

    Informação do Teste em relação ao escore de infraestrutura, como é mostrado na Figura

    5.1. Para cada ponto da escala, o erro de mensuração é inverso do valor da informação, ou

    seja, uma alta informação implica em erro de mensuração baixo. Observa-se que o teste

    tem maior informação no intervalo entre -2,5 a 2,0. Isso que dizer que esse conjunto de

    itens é mais adequado para medir a infraestrutura das escolas neste intervalo.

    38

  • Figura 5.1: Função de Informação do Teste

    Fonte: Elaboração dos autores. Dados: Censo Escolar/INEP.

    A Figura 5.2 mostra a variação do INFE segundo regiões da AMB. A variabilidade

    do indicador para a região 1 é muito inferior que as demais regiões. Observando apenas

    as medianas, pode-se dizer que quanto maior a renda maior é o INFE da localidade. Na

    região 4, os munićıpios goianos, a distribuição é bem diferente das outras regiões, onde a

    mediana é muito inferior e o terceiro quartil é próximo do primeiro quartil das demais e

    ainda 75% das escolas possuem INFE inferior a 50, enquanto na região 1, 75% possuem

    INFE superior a 60. Tais fatos expressam o efeito da desigualdade entre as escolas do DF

    e escolas dos munićıpios goianos.

    39

  • Figura 5.2: Variação da Infraestrutura Escolar por Regiões da AMB - 2014

    Fonte: Elaboração dos autores. Dados: Censo Escolar/INEP.

    5.1.2 Nı́vel Socioeconômico

    De acordo com que foi apresentado na seção 4.2, realizou-se a primeira análise

    para estimação dos parâmetros dos itens. O Modelo de Resposta Gradual foi utilizado

    para mensurar o ńıvel socioeconômico (NSE) dos 14.659 alunos e das 120 escolas. Assim

    como na infraestrutura, para o NSE também se encontrou problemas em 2 itens, o item 3

    (tipo de moradia) e o item 17 (contratação de empregada doméstica) (ver Quadro 4.2 para

    mais detalhes sobre esses itens). Excluem-se esses itens e reestimou os parâmetros.

    Os resultados da reestimação dos parâmetros estão presentes na Tabela 5.2. A

    partir dessas estimativas, foram calculados os escores de NSE para todos os alunos. Esses

    escores foram posteriormente transformados para uma escala com média 50 e desvio padrão

    20. Os escores nesta escala são chamados de Indicador de Nı́vel Socioeconômico (INSE).

    O INSE da escola é calculado tomando a média do INSE dos alunos em suas respectivas

    escolas.

    40

  • Tabela 5.2: Estimativas dos parâmetros de discriminação e dificuldade dos itens de ńıvel

    socioeconômico na AMB - 2014

    Item Descrição a bk,1 bk,2 bk,3 bk,4 bk,5 bk,6

    1 Escolaridade do pai 1,12 [0,02] -2,86 [0,05] 0,51 [0,02] 2,43 [0,04] - - -

    2 Escolaridade do mae 1,02 [0,02] -3,7 [0,07] 0,12 [0,02] 2,31 [0,04] - - -

    4 Renda 1,87 [0,02] -3,33 [0,05] -0,92 [0,01] -0,05 [0,01] 0,46 [0,01] 1,09 [0,02] 1,96 [0,02]

    5 TV 1,47 [0,02] -3,57 [0,06] 0,22 [0,01] 1,81 [0,02] - - -

    6 DVD 0,62 [0,02] -2,16 [0,07] - - - - -

    7 Computador 1,73 [0,02] -0,91 [0,01] 1,51 [0,02] 2,6 [0,03] - - -

    8 Automóvel 1,72 [0,03] -0,26 [0,01] 1,85 [0,02] 3,28 [0,05] - - -

    9 Máquina de lavar 1,67 [0,03] -1,17 [0,02] - - - - -

    10 Geladeira 1,07 [0,06] -4,26 [0,2] - - - - -

    11 Freezer 1,04 [0,02] 0,94 [0,02] - - - - -

    12 Telefone 1,02 [0,02] -0,34 [0,02] - - - - -

    13 Celular 0,99 [0,02] -4,68 [0,09] -1,12 [0,02] -0,12 [0,02] - - -

    14 Internet 1,92 [0,04] -1,02 [0,02] - - - - -

    15 TV por assinatura 1,35 [0,03] 0,55 [0,02] - - - - -

    16 Aspirador de pó 1,65 [0,03] 1,33 [0,02] - - - - -

    18 Banheiro 1,4 [0,02] -4,27 [0,08] 0,65 [0,01] 2,31 [0,03] - - -

    Fonte: Elaboração dos autores. Dados: Censo Escolar/INEP.

    Figura 5.3: Função de Informação do Teste

    Fonte: Elaboração dos autores. Dados: ENEM/INEP.

    Na Figura 5.3, é apresentada a Função de Informação do Teste. Através deste

    gráfico observa-se que o instrumento de medida tem maior informação para os valores da

    41

  • NSE compreendidos entre aproximadamente -2,0 a 3,0. Dessa forma, este resultado indica

    que o questionário é mais proṕıcio para avaliar o NSE com valores contidos nesse intervalo.

    Figura 5.4: Variação do Nı́vel Socioeconômico das Escolas por Regiões da AMB - 2014

    Fonte: Elaboração dos autores. Dados: ENEM/INEP.

    A Figura 5.4 possibilita a análise do comportamento do INSE das escolas segundo

    regiões da AMB. Imediatamente, nota-se uma associação entre a renda média da localidade

    e o INSE das escolas deste mesma localidade, o que já era esperado. Na região 1, a que

    está melhor colocada, apresenta apenas uma escola com o indicador inferior a média geral.

    Entretanto, 75% das escolas localizadas nos munićıpios goianos apresentam indicador

    inferior a média. Fatos que reforçam a grande desigualdade, também identificada aqui,

    entre escolas da AMB.

    42

  • 5.2 Análise Descritiva

    A primeira etapa em qualquer análise estat́ıstica consiste de uma análise descritiva

    das variáveis em estudo. Esta etapa possibilita a familiarização com os dados, organização

    e sintetização de forma a obter informações necessárias para responder questões que serão

    estudadas na modelagem. As duas subseções subsequentes exploram as caracteŕısticas dos

    estudantes e das escolas.

    5.2.1 Perfil do Estudante

    A população de interesse é formada por estudantes concluintes no ensino médio

    regular que residiam e estudavam na AMB em 2014 de escolas públicas e que obtiveram

    número de inscrições superior a 10 e taxa de participação no ENEM superior a 50%. Para

    esta análise contou-se com 14659 estudantes participantes do ENEM e que estiveram

    presentes nos dois dias de aplicação do exame. Este grupo é chamado de ńıvel 1, pois

    agrega informações da unidade micro. As variáveis referentes ao ńıvel 1 originam-se do

    questionário socioeconômico deste exame.

    A Tabela 5.3 traz informações sobre o local de residência e da escola do estudante.

    Inicialmente, constata-se que existe uma diferença entre a distribuição dessas duas variáveis.

    Nos munićıpios goianos essa diferença é para mais, ou seja, o número de residentes na

    determinada localidade é superior ao número de matriculados nas escolas dessas localidades.

    Em contrapartida, o Distrito Federal recebe cerca de 678 estudantes que residem nos

    munićıpios goianos, assim equilibrando o total. Também é visto que em Cocalzinho dos 3

    estudantes residentes nenhum deles estuda na cidade.

    43

  • Tabela 5.3: Distribuição dos estudantes segundo munićıpio de residência e da escola na

    AMB - 2014

    MunićıpioResidência Escola

    N (%) N (%)

    Águas Lindas de Goiás 333 2,27 277 1,89

    Alexânia 23 0,16 22 0,15

    Cidade Ocidental 173 1,18 112 0,76

    Cocalzinho 3 0,02 - -

    Cristalina 71 0,48 65 0,44

    Formosa 170 1,16 162 1,11

    Luziânia 820 5,59 776 5,29

    Novo Gama 211 1,44 85 0,58

    Padre Bernardo 122 0,83 118 0,8

    Planaltina-GO 297 2,03 270 1,84

    Santo Antônio do Descoberto 178 1,21 119 0,81

    Valparáıso de Goiás 466 3,18 304 2,07

    Distrito Federal 11792 80,44 12349 84,24

    Total 14659 100 14659 100

    Fonte: Elaboração dos autores. Dados: ENEM/INEP.

    A Tabela 5.4 apresenta a distribuição da idade, sexo, tipo do ensino e cor/raça do

    estudante, tais informações ajudam a traçar o perfil dos alunos. Nota-se que apenas 23%

    dos alunos apresentam defasagem e majoritariamente, os estudantes são do sexo feminino.

    Quanto à cor/raça percebe-se que metade dos alunos são pardos e um quarto deles são

    brancos.

    44

  • Tabela 5.4: Caracteŕısticas gerais do estudante na AMB - 2014

    Caracteŕısticas do Estudante Frequência Percentual

    Idade

    15 anos 12 0,08

    16 anos 489