amostragem de estudantes para estudos de avaliação ... · preenchendo questionário contextual,...

29
Amostragem de estudantes para estudos de avaliação educacional no Brasil Pedro Silva ENCE Escola Nacional de Ciências Estatísticas

Upload: buithuy

Post on 10-Dec-2018

225 views

Category:

Documents


0 download

TRANSCRIPT

Amostragem de estudantes para estudos de avaliação educacional no

Brasil

Pedro Silva

ENCE – Escola Nacional de Ciências Estatísticas

Avaliação Educacional (Externa, Padronizada)

Área de forte crescimento e inovação na aplicação de modelos e métodos estatísticos.

Objetivos – produzir informações sobre aprendizagem:

• De indivíduos, cursos e/ou unidades educacionais individuais;

• Em níveis agregados, para monitoramento de sistemas educacionais;

• Para avaliações do impacto de intervenções / políticas testadas no sistema.

Permitem aplicação de amostragem.

2

Estudos Transversais

Mais frequentes.

Aplicáveis para:

o Medir e monitorar aprendizagem (proficiência) em níveis agregados;

o Descobrir e revelar associações da proficiência com características dos alunos, responsáveis, docentes, escolas, etc.

3

Estudos Longitudinais

Mais raros:

• Custos substanciais envolvidos;

• Planejamento e compromissos de prazos + longos.

Requeridos para:

• Medir e avaliar o valor adicionado por escolas / sistemas educacionais;

• Avaliações de impacto de certas políticas;

• Quando resultados individuais são necessários para autoavaliação (de indivíduos, escolas, etc.).

4

Estudos de Avaliação

Análise dos dados frequentemente requer uso de:

• Teoria da Resposta ao Item (TRI);

• Modelos hierárquicos (multiníveis);

• Modelos multivariados.

Métodos de amostragem aplicados podem dificultar análises.

5

Cadastros e Planos Amostrais

Principal unidade de análise: aluno / estudante.

Cadastros de alunos apresentam:

• Dificuldades quanto à atualização;

• Dificuldades quanto ao acesso.

Cadastros de escolas geralmente disponíveis e atualizados.

Amostragem conglomerada é estratégia mais comum.

No Brasil, cadastros mais usados são baseados no Censo Escolar Anual realizado pelo INEP no Ensino Básico (Fundamental + Médio) e Superior.

6

SAEB: Sistema de Avaliação da Educação Básica

Realizado a cada 2 anos (desde 1995).

Alunos do 5º e 9º anos do EF, e 3º do EM.

Cada aluno é testado em duas disciplinas:

Português e Matemática.

Alunos participam:

Respondendo questões dos testes aplicados;

Preenchendo questionário contextual, com algumas informações sobre os pais/responsáveis.

Informações adicionais coletadas dos professores e das escolas.

Desde 2007, combinado com Prova Brasil.7

Prova Brasil

ANRESC = Avaliação Nacional do Rendimento Escolar

Objetivo: avaliar a qualidade do ensino ministrado nas escolas das redes públicas.

Resultados requeridos por escola x série não usa amostragem.

Usados para calcular IDEB por escola x série, por escola, e por agregações destas (municípios, etc.).

IDEB = Índice de Desenvolvimento da Educação Básica

Combina indicadores de:

• Desempenho em exames padronizados (ANRESC);

• Rendimento escolar (aprovação).

8

ANRESC (Prova Brasil) + ANEB

População coberta pela ANRESC

Alunos do ensino fundamental regular das escolas públicas que possuem, no mínimo, 20 alunos matriculados nas anos/séries avaliados:5º

População coberta pela ANEB

Alunos do 5º e 9º anos do EF nas escolas da rede privada ou rurais, e também do 3º ano do EM das redes pública e privada da área urbana.

Amostra para ANEB

SAEB = ANRESC + ANEB9

SAEB: Questões Para Planejamento Amostral

Cobertura limitada da população.

Estudantes nos anos designados espalhados nas escolas

Dificuldades para aplicação de testes em certas escolas devido a classes multisseriadas, modalidades de ensino não regular, etc.

Orçamentos limitados, mas demanda por resultados para muitos domínios de análise detalhados.

Combinação de cobertura reduzida com uso de amostragem probabilística da população de pesquisa.

10

SAEB-2003 – Cobertura na 4ª Série (Ano 5)

Milhares % Milhares %

Total 142 100,0 4.304 100,0

Excluindo turmas

multisseriadas

73 51,1 3.822 88,8

Excluindo esc. rurais

com menos que 10

71 50,0 3.812 88,6

Escolas AlunosPopulação

11

Tamanho das Populações de Pesquisa (2003)

Ano Alunos (mil)Turmas

(mil)

Escolas

(mil)

4a EF 3.812 138 71

8ª EF 3.081 93 34

3a EM 2.145 59 17

Total 9.038 290 123

12

Plano Amostral para SAEB

Unidade Primária de Amostragem = Escola x Série.

Escolas recebiam número aleatório ‘permanente’.

Sorteio de UPAs usando Amostragem Estratificada Sequencial de Poisson, usando números aleatórios permanentes das escolas.

Coordenação positiva das amostras de escolas x séries permitiu alcançar redução de 22% do número de escolas distintas na amostra em 2003.

13

Questões Relacionadas com Aplicação dos Instrumentos de Avaliação

Grande número de itens devem ser respondidos pelos alunos.

Não é viável aplicar todos os itens no tempo disponível ( 2 horas).

Para 5º ano do EF:

Itens agrupados em 7 blocos de 11 itens cada, por disciplina avaliada (Português, Matemática)

Cadernos de prova montados como combinações de blocos – 21 cadernos com 4 blocos cada, sendo 2 por disciplina avaliada.

14

Questões Relacionadas com Aplicação dos Instrumentos de Avaliação

15

Questões Relacionadas com Aplicação dos Instrumentos de Avaliação

Alocação dos cadernos de prova aos alunos dentro das turmas segue procedimentos de aleatorização.

Cadernos de prova têm subconjuntos de itens em comum.

Itens são mantidos confidenciais para serem reutilizados em avaliações subsequentes.

Há alguns itens em comum para diferentes séries avaliadas.

16

Procedimentos de Análise dos Dados

Análises dos resultados de testes realizada usando Teoria da Resposta ao Item (TRI) – Andrade et al (2000).

Escores de proficiência são padronizados em escalas comparáveis:

• Para diferentes séries;

• Ao longo do tempo;

• Para diferentes alunos.

Tamanho mínimo de amostras por domínio de interesse = 300 alunos ou mais.

17

Questões da Análise dos Dados

Dados dos alunos são naturalmente agrupados por:

• Turmas;

• Escolas.

Modelos multiníveis usados para analisar os dados.

Planos amostrais usados para obtenção dos dados raramente serão ‘ignoráveis’ para a inferência.

Escolas selecionadas por amostragem com PPT;

Alocação desproporcional nos domínios de interesse;

Não resposta pode ser diferencial.

Desafios para os métodos de ajuste de modelos e análise diagnóstica.

18

Questões da Análise dos Dados

Se escores de proficiência forem relacionados com tamanhos das escolas, então análises devem incorporar pesos e outros efeitos da amostragem.

Métodos para considerar plano amostral e pesos ao ajustar modelos multiníveis com respostas univariadas aos dados:

Pfeffermann et al. (1998);

Pfeffermann, Moura & Silva (2001);

Veiga, Smith & Brown (2013).

19

Questões da Análise dos Dados

Métodos para considerar plano amostral e pesos ao ajustar modelos multiníveis com respostas multivariadas aos dados:

Moura & Silva (2013).

Extensões para modelos para respostas categóricas ainda não disponíveis.

20

Não Resposta e Seu Tratamento

Não resposta é desafio adicional em estudos de avaliação.

No SAEB, taxas de não-resposta entre 20 e 30%.

Não resposta é crescente com série:

4ª Série EF < 8ª Série EF < 3ª Série EM.

Não resposta cresce com idade dentro da série.

Difícil compensar não resposta sem informações auxiliares sobre alunos que não participaram da avaliação.

Tais informações raramente estão disponíveis para analistas secundários.

21

Medidas para Prevenir Não Resposta no SAEB

Tamanhos amostrais ampliados para suportar perdas esperadas por não resposta.

Acréscimos à amostra de escolas no caso de recusa / impossibilidade de participação, com controle estrito.

Aplicação de testes da avaliação durante horário normal de funcionamento das turmas selecionadas.

Turmas não avisadas previamente do dia/hora do teste, para evitar viés de seleção de alunos.

22

Não Resposta no SAEB 2001

Selecionados Perdidos Participaram

4a EF 138 24 115 17,2

8a EF 130 30 101 22,7

3a EM 101 29 72 28,3

Todas 370 82 288 22,2

SérieAlunos (milhares)

Perda (%)

23

Considerações sobre Tamanhos Amostrais para Modelagem Multinível

Prática usual é determinar tamanho da amostra considerando custo e precisão para estimar médias por domínio de interesse.

Mas muitos usos importantes dos dados requerem uso de modelos multiníveis.

Se número de alunos amostrados em cada escola for muito pequeno, modelagem multinível pode ficar difícil.

No SAEB 1999, alunos testados em 7 disciplinas em cada escola, na 3ª série do EM.

Resultou em média de 4 a 7 alunos testados por disciplina por escola da amostra muito poucos alunos por escola para algumas análises de interesse.

Cohen (2001) trata da determinação de tamanhos de amostra para análises com modelos multiníveis.

24

Ferramentas da Estatística Demandadas

• Métodos de pesquisa

• Amostragem

• Planejamento experimental

• Planejamento e condução de estudos longitudinais

• Métodos de pareamento

• Crítica e imputação de dados

• Lidando com grandes bases de dados

25

Ferramentas da Estatística Demandadas

• Tratamento de não resposta e dados incompletos

• Análise de dados provenientes de amostras complexas e informativas

• Teoria da Resposta ao Item e outros modelos para variáveis latentes

• Modelagem Multinível

• Análise Multivariada

• Proteção de confidencialidade de microdados e de dados agregados

• Visualização / apresentação gráfica de dados

26

Equipes Necessárias

Estudos de avaliação educacional requerem equipes capazes de usar com proficiência todas as ferramentas da Estatística requeridas.

Equipes multidisciplinares requeridas para análises e interpretação adequada de resultados.

Estudos longitudinais ainda pouco usados.

Dados longitudinais disponíveis pouco aproveitados.

Comunicação de resultados com profissionais da educação ainda é desafio a vencer.

27

Referências

Andrade, D. F. de, Tavares, H. R., & Valle, R. da C. (2000). Teoria da Resposta ao Item: Conceitos e Aplicações. São Paulo: ABE - Associação Brasileira de Estatística.

Cohen, M. P. (1998). Determining Sample Sizes for Surveys with Data Analyzed by Hierarchical Linear Models. JOS, 14, 3, 267-275.

Pfeffermann, D., Skinner, C.J., Holmes, D.J., Goldstein, H. and Rasbash, J. (1998b). Weighting for unequal selection probabilities in multi-level models (with discussion). JRSS, Series B, 60, 23-76.

Pfeffermann, D., Moura, F. A. da S., & Silva, P. L. do N. (2006). Multi-level modelling under informative sampling. Biometrika, 93(4), 943–959.

Silva, P. L. do N., & Moura, F. A. da S. (2013). Multivariate Hierarchical Normal Modelling Under Informative Sampling. Proceedings of 59th ISI WSC, http://2013.isiproceedings.org/Files/IPS004-P2-S.pdf.

Veiga, A., Smith, P. W. F. and Brown, J. J. (2014), The use of sample weights in multivariate multilevel models with an application to income data collected by using a rotating panel survey. JRSS, Series C, 63: 65–84.

28

Obrigado por sua atenção.

www.ibge.gov.br

www.ence.ibge.gov.br

[email protected]

29