vitor alaiz - fmleao.pt · limitações do estudo..... 3 4. análise longitudinal do nível...
TRANSCRIPT
������������
Relatório sobre a ANÁLISE DE RESULTADOS das
PROVAS de CONHECIMENTO de 2001 a 2005
Vitor Alaiz
INDICE 1. Introdução......................................................................................................... 2 2. Descrição da base de dados .............................................................................. 3 3. Limitações do estudo ........................................................................................ 3 4. Análise longitudinal do nível académico dos alunos ....................................... 4
Procedimentos de análise...................................................................................... 4 Comparação longitudinal do desempenho em Matemática.................................. 5 Comparação longitudinal do desempenho em História........................................ 7 Comparação longitudinal do desempenho em Ciências da Natureza................... 8 Comparação longitudinal do desempenho em Português................................... 10 Resultado global da análise ao nível académico de entrada no 7º ano............... 11
5. Análise do desempenho em categorias específicas de itens ........................... 12 Desempenho em Ciências da Natureza .............................................................. 12 Desempenho em Português ................................................................................ 16 Desempenho em História.................................................................................... 17 Resultado global da análise em categorias específicas de itens ......................... 20
6. Análise de resultados em função do género: .................................................. 21 Questão de investigação ..................................................................................... 21 Selecção da técnica estatística ............................................................................ 21 Análise dos resultados ........................................................................................ 22 Conclusão geral da análise de resultados vs género ........................................... 30
7. Análise resultados em função do NSE ........................................................... 32 Análise dos resultados ........................................................................................ 32 Conclusão ........................................................................................................... 44
8. Análise de itens de provas de conhecimento de 2004/200 ............................. 45 Introdução........................................................................................................... 45 Metodologia........................................................................................................ 46 Análise de itens: quadro teórico ......................................................................... 46 Análise dos itens (II): procedimentos................................................................. 46 Breve resumo da análise de itens........................................................................ 47 Estimação da fiabilidade interna ........................................................................ 48 Índice de dificuldade .......................................................................................... 48 Índice de discriminação ...................................................................................... 48 Conclusões da análise das provas....................................................................... 48
3. Referências ..................................................................................................... 49
Programa AVES Análise das Provas de Conhecimento
- 2 -
1. Introdução
Este texto resume um conjunto de análises1 que tomaram como objecto a base de dados
constituída pelos resultados dos alunos nas provas de conhecimento que têm vindo a ser
aplicadas ao longo dos anos de vigência do Programa AVES.
Este Programa baseia-se em várias baterias de provas externas. Entre estas, as provas
de conhecimento (relativas às disciplinas de Língua Portuguesa, História, Ciências da
Natureza2 e Matemática3) constituem um subconjunto importante, cujos resultados
permitiram a constituição de uma base de dados de uma dimensão rara em Portugal.
Esses resultados originaram relatórios que foram enviados regularmente a cada escola
participante no Programa.
Entendeu-se que era chegado o momento de iniciar4 um conjunto de análises
procurando realizar outras leituras, outras interpretações a partir da informação
disponível nessa base de dados.
Considerou-se que os resultados obtidos constituíam uma ampla amostra (não aleatória,
é certo) de algumas das aprendizagens dos alunos do 3º ciclo e do secundário das nossas
escolas, públicas e privadas. Sublinhamos algumas das aprendizagens porque os dados
disponíveis não constituem uma informação exaustiva sobre as mesmas: há
competências dos nossos alunos sobre as quais a informação recolhida nada permite
dizer. Sirva de exemplo óbvio, em Língua Portuguesa, as “competências específicas no
domínio do modo oral” (Abrantes, 2001: 32) ou a “capacidade para usar
multifuncionalmente a escrita, com as escolhas decorrentes da função, forma e
destinatário” (Ibid., 35). Mas seria certamente um desperdício incompreensível que não
se fizesse uma reflexão sobre um conjunto tão vasto de dados empíricos. Note-se que,
em algumas disciplinas, realizaram o mesmo teste cerca de 11000 alunos.
A análise situou-se numa perspectiva longitudinal e as questões que a orientaram foram
basicamente as seguintes:
a) Existe alguma tendência assinalável nos resultados dos alunos em cada uma das
disciplinas?5
1 As análises que constam deste relatório basearam-se em ficheiros SPSS preparados a partir das folhas de resultados dos testes por alguns membros da Equipa do Programa AVES, em particular, Natália Magalhães e Sandra Guerreiro. O texto foi revisto por Duarte Ribeiro. 2 Ou Ciências da Terra e da Vida no Ensino Secundário. 3 Abrevidadamente, PORT, CN, HIST, MAT. 4 Outras análises se seguirão a partir quer da base actual, quer dos dados decorrentes de novas aplicações. 5 Os alunos sabem cada vez menos? seria a formulação desta questão em termos de senso comum.
Programa AVES Análise das Provas de Conhecimento
- 3 -
b) Em cada disciplina, onde se situam as maiores dificuldades de aprendizagem
dos alunos? Nas aprendizagens mais elementares ou nas de nível mais
complexo?
c) Como caracterizar, nas diferentes disciplinas, o desempenho das alunas
relativamente ao dos alunos?
d) Os dados disponíveis permitem dar alguma resposta à questão da relação entre
resultados académicos e origem social dos alunos?
2. Descrição da base de dados
Os alunos das escolas aderentes ao Programa realizaram testes a um máximo de 4
disciplinas por ano (7º, 9º, 11º), a saber, MAT, PORT, CN, HIST.
As respostas dos alunos aos testes foram transpostas para sistema informático através de
leitor óptico. A leitura automática foi objecto de validação por pessoal especializado. Os
dados daí resultantes foram transpostos para ficheiros SPSS. Todas as análises
apresentadas neste relatório foram efectuadas com base nos ficheiros SPSS.
O leitor atento verificará que existem algumas discrepâncias e lacunas nos dados da
análise adiante apresentada. Isso ficou a dever-se a vários factores que seria fastidioso
enumerar. A título de exemplo, refira-se que o nº de alunos em cada ano e em cada
disciplina não foi sempre o mesmo por várias razões: por vezes algumas turmas, no dia
do teste respectivo, encontravam-se fora da escola (em visita de estudo); noutras vezes
registou-se absentismo de alguns alunos (falta por doença, etc.). Em alguns casos houve
necessidade de avançar com a construção dos ficheiros SPSS sem alguns dados por
atraso de uma escola no envio dos resultados.
3. Limitações do estudo
O estudo deve ser encarado como tendo um carácter exploratório. Pretende apresentar
um conjunto de inferências feitas a partir dos dados disponíveis, sem todavia pretender
que essas inferências tenham legitimidade para generalizações imediatas ao conjunto da
população escolar portuguesa.
Por outro lado, limitações da base de dados decorrentes da obrigatoriedade de
confidencialidade não permitiram levar mais longe esta análise.
Programa AVES Análise das Provas de Conhecimento
- 4 -
4. Análise longitudinal do nível académico dos alunos
Procedimentos de análise
Para responder à 1ª questão, relativa à eventual descida do nível académico ao longo
dos anos, considerou-se pertinente analisar os resultados dos alunos nos testes de
entrada de que o Programa dispõe, ou seja, nos do 7º das várias disciplinas. Por outras
palavras, foram comparados os resultados totais de cada conjunto de alunos
(correspondente a um ano lectivo) em cada disciplina, em cada um dos 4 anos lectivos
(2001/2002 a 2004/5) para os quais estão disponíveis dados em ficheiros SPSS.
Procurando operacionalizar esta questão, foram formuladas as seguintes questões: - Em Matemática: sabe-se cada vez menos? Ou será o inverso? - Os sucessivos grupos de alunos sabem mais? Ou menos? - A mesma tendência manifesta-se em todos os anos lectivos?
Dito de outro modo: - com os mesmos testes6, os resultados dos diferentes grupos de alunos (os que entram em cada ano) apresentam-se constantes, pioram ou melhoram?
Daqui surgem as seguintes hipóteses: Hipótese nula:
H�: As médias a Matemática na variável TOTAL mantêm-se constantes ao longo dos anos.
Hipótese alternativa: H1: As médias a Matemática na variável TOTAL apresentam, ao longo dos anos, diferenças estatisticamente significativas.
Esta questão traduz-se nas seguintes hipóteses operacionais: Hipótese nula:
Ho: µ2001 = µ2002 = µ2003 = µ2004
onde µ é a média dos resultados dos alunos nos testes de Matemática. Hipótese alternativa:
Ha: Nem todos os µi são iguais, ou seja, há diferenças (significativas) entre as médias.
O que se refere em relação à Matemática foi homologamente realizado com as outras disciplinas do 7º ano.
Para a selecção da técnica estatística atendeu-se, num primeiro momento, à natureza das
variáveis:
a) Variável independente: o tempo, medido em termos de ano lectivo de aplicação
dos testes, designada por anolectivo. Trata-se de uma variável numérica.
b) Variável dependente: o resultado total em cada teste, designada por TOTAL.
Trata-se de uma variável expressa numa escala métrica, de intervalos. 6 Nalguns casos, utilizaram-se os resultados de testes homólogos, ou seja, com o mesmo nº de itens, com a mesma matriz, mas com alguns itens substituídos por outros equivalentes.
Programa AVES Análise das Provas de Conhecimento
- 5 -
Num segundo momento, considerou-se que tínhamos 4 amostras7 independentes,
constituídas pela totalidade dos resultados nas provas de conhecimento de cada ano em
cada disciplina. Além disso, foi feita a verificação relativamente às condições de
legitimidade dos testes paramétricos (Hill, 2002: 195). De facto, a variável dependente
obedece a duas características:
a) Valores da variável (dependente) medidos em escala métrica;
b) Valores da variável (dependente) com distribuição próxima da normal. Acresce
que essa exigência, para alguns especialistas, só é necessária para “amostras de
dimensão inferior ou igual a 30” (Pestana e Gageiro, 2000:159 e 160, cf. 194).
Ora, neste caso, dispunha-se de amostras com cerca de 4000 sujeitos cada.
c) Porém, a exigência de homocedasticidade (ou seja, de homogeneidade de
variância8) não se verificou. Por isso recorremos a testes não-paramétricos e a
análises de gráficos.
Comparação longitudinal do desempenho em Matemática
A simples análise do gráfico das médias dos resultados dos alunos no teste de
Matemática do 7º ano revela que o nível académico de entrada não revela tendência
para diminuir, antes pelo contrário, como se vê no gráfico seguinte.
Gráfico 1. MATEMÁTICA 7º
7 Tendo em conta que a versão da base de dados do AVES de que dispúnhamos no momento de realização da análise estava incompleta em algumas variáveis, tivemos de limitar a análise a apenas 3 anos em alguns casos. 8 “O pressuposto de homogeneidade de variância requer que a variância da variável dependente seja igual para todos os valores da variável (ou variáveis) independentes” (Hill e Hill, 2002: 237).
Programa AVES Análise das Provas de Conhecimento
- 6 -
2001 2002 2003 2004anolectivo
12,50
13,00
13,50
14,00
14,50
Mea
n of
tota
l
Além disso, a análise do gráfico de dispersão mostra que, desprezados os casos
extremos, as distribuições não revelam uma tendência descrescente antes ligeiramente
crescente, embora com valores relativamente próximos.
Gráfico 1. MATEMÁTICA 7º
2001 2002 2003 2004anolectivo
0,00
10,00
20,00
30,00
40,00
tota
l
2.5292.526
2.523
3.129
2.7722.784
2.7532.824
6.1996.076
7.033
4.7684.085
6.722
5.521
5.6255.591
879
852798
762845
7.638
10.867
10.4969.344
10.53210.48610.590 11.0622.058
O gráfico seguinte evidencia mais claramente este aspecto de acréscimo das médias em cada um dos anos considerados:
Gráfico 1. MATEMÁTICA 7º
Programa AVES Análise das Provas de Conhecimento
- 7 -
2001 2002 2003 2004
anolectivo
11,00
11,25
11,50
11,75
12,00
12,25
12,50
Mea
n +-
2 S
E to
tal
Finalmente, aplicado o teste ANOVA aos resultados, pode-se concluir que há diferenças significativas entre as médias (0,000).
Quadro 1. MATEMÁTICA 7º ANOVA total
Sum of Squares df Mean Square F Sig. Between Groups 4803,592 3 1601,197 73,876 ,000 Within Groups 250358,119 11551 21,674 Total 255161,711 11554
Comparação longitudinal do desempenho em História
Também nesta disciplina não é possível falar num decréscimo do nível de entrada: os
resultados ilustram uma tendência de subida, apesar de não inteiramente linear.
Gráfico 2. HISTÓRIA 7º
2001 2002 2003 2004
anolectivo
12,60
12,90
13,20
13,50
13,80
14,10
tota
l (m
édia
s)
Esta tendência revela-se também se tivermos em conta (cf. gráfico seguinte) o valor das
medianas das 4 distribuições, que aumenta nos dois últimos anos, tal como diminui o
valor mínimo da distribuição (se excluirmos alguns casos extremos).
Programa AVES Análise das Provas de Conhecimento
- 8 -
Gráfico 3. HISTÓRIA 7º
2001 2002 2003 2004anolectivo
0,00
5,00
10,00
15,00
20,00
25,00
30,00
tota
l
2.747
1.808
11.72111.092
11.397
10.2899.2018.425
848762 760
753763
7.0113.498
6.0985.797
4.486
O teste ANOVA revela que as diferenças entre as médias dos 4 grupos de alunos é significativa.
Gráfico 3. HISTÓRIA 7º ANOVA total
Sum of Squares df Mean Square F Sig. Between Groups 3296,298 3 1098,766 49,291 ,000 Within Groups 265557,946 11913 22,291 Total 268854,245 11916
Comparação longitudinal do desempenho em Ciências da Natureza
Das aplicações de testes de Ciências da Natureza surgem resultados que também
representam alguma melhoria no desempenho dos alunos ao longo destes 4 anos. De
facto, como revela o gráfico seguinte, as médias seguem uma linha continuamente
ascendente.
Gráfico 4. CIÊNCIAS 7º
2001 2002 2003 2004anolectivo
11,20
11,40
11,60
11,80
12,00
12,20
12,40
Mea
n of
tota
l
Programa AVES Análise das Provas de Conhecimento
- 9 -
O gráfico seguinte também indicia um crescimento porque a mediana dos dois últimos anos se situa em níveis superiores aos dos dois primeiros anos.
Gráfico 5. CIÊNCIAS 7º
2001 2002 2003 2004
anolectivo
0,00
5,00
10,00
15,00
20,00
25,00
30,00
5.774
7.4327.3607.338
7.123
7.3297.324
9.979
8.7648.627
7.855
11.53210.304
8.9658.009
10.341 8.204
611
648
423
A mesma tendência de acréscimo positivo se revela no gráfico seguinte que indica a
dispersão – em cada ano - a 2 desvios padrões da média.9
Gráfico 6. CIÊNCIAS 7º
2001 2002 2003 2004
anolectivo
11,00
11,25
11,50
11,75
12,00
12,25
12,50
Mea
n +-
2 S
E to
tal
O resultado do teste ANOVA revela que as diferenças entre as médias dos 4 grupos de
alunos é significativa (0,000).
Gráfico 7. CIÊNCIAS 7º - Teste ANOVA -
Sum of Squares df Mean Square F Sig.
9 “Note-se que o intervalo de confiança a 95% corresponde aproximadamente a 2 desvios padrões da média” (Pestana e Gageiro, 2000: 196).
Programa AVES Análise das Provas de Conhecimento
- 10 -
Between Groups 1277,755 3 425,918 31,808 ,000
Within Groups 158726,853 11854 13,390
Total 160004,608 11857
O teste de Tuckey HSD revela por sua vez que todas as diferenças entre as médias são significativas, excepto entre as dos dois anos iniciais.
Comparação longitudinal do desempenho em Português
Os resultados nesta disciplina diferenciam-se dos demais, porque revelam uma tendência decrescente que apenas foi significativamente invertida no último ano.
Gráfico 8. PORTUGUÊS 7º
2001 2002 2003 2004anolectivo
11,50
12,00
12,50
13,00
13,50
14,00
Mea
n of
tota
l
A leitura do gráfico seguinte parece indicar o ano de 2003 como um ano atípico num
quadro de relativa estabilidade dos resultados. Ou seja, também aqui não parece
possível falar de uma tendência claramente descendente do nível académico. Mas
também não é possível afirmar o inverso.
Gráfico 8. PORTUGUÊS 7º
Programa AVES Análise das Provas de Conhecimento
- 11 -
2001 2002 2003 2004anolectivo
0,00
5,00
10,00
15,00
20,00
25,00
30,00
tota
l
1.8321.831
1.973
2.725
822
748
61
O resultado do teste ANOVA revela que as diferenças entre as médias dos 4 grupos de alunos é significativa (0,000).
Gráfico 8. PORTUGUÊS 7º ANOVA - total
Sum of Squares df Mean Square F Sig. Between Groups 12771,953 3 4257,318 226,849 ,000 Within Groups 225882,155 12036 18,767 Total 238654,108 12039
Também aqui o teste de Tuckey HSD revela, por sua vez, que todas as diferenças entre
as médias são significativas, excepto entre as dos dois anos iniciais.
Resultado global da análise ao nível académico de entrada no 7º ano
A interpretação global destas análises é a de que a tese catastrófica segundo a qual o
“nível académico desce”10 não se confirma em 3/4 das disciplinas.
Todavia, os resultados na disciplina de Português levam-nos a pensar que também
poderá não ser inteiramente válida uma generalização de sentido contrário: “o nível
académico sobe”.
Ou seja, com estes dados parece-nos legítimo rejeitar quer uma tese pessimista, quer
uma outra excessivamente optimista sobre as aprendizagens destes alunos. Estas teses
devem dar lugar a uma visão mais matizada, mais multicolor do que o simplismo que
pode resultar da generalização apressada de qualquer um dos dois enunciados
supracitados.
10 Ou, em versão mais de senso comum, “eles [os miúdos, os alunos] cada vez sabem menos”
Programa AVES Análise das Provas de Conhecimento
- 12 -
Porém, convém que esta análise longitudinal, com uma propensão algo mais optimista
do que pessimista, não esconda um facto nada animador: as distribuições de resultados
situam-se em níveis mais baixos do que aquilo que seria, digamos, desejável. As médias
e as medianas destas distribuições de resultados situam-se sempre abaixo dos 50% de
resultados em cada teste, apesar das tendências evolutivas supracitadas.
5. Análise do desempenho em categorias específicas de itens11
A análise apresentada no capítulo anterior referia-se ao resultado global em cada
disciplina. Considerou-se que uma análise complementar da anterior, mais
pormenorizada, relativa ao desempenho dos alunos em diversas categorias de itens,
poderia fornecer informação útil. O trabalho realizado nessa perspectiva é resumido nas
linhas que se seguem.
De acordo com as matrizes dos testes, foram tidos em conta dois conjuntos de
categorias de itens:
a) Um relativo aos níveis da taxonomia de objectivos educacionais tida em conta
pelos autores de cada teste.
b) Outro relativo às áreas de conteúdo de cada disciplina contempladas no
respectivo teste.
De salientar que os níveis taxonómicos utilizados não são inteiramente coincidentes nas
várias disciplinas, nem no número, nem na respectiva designação. Por outro lado,
devido a especificidades da matriz da prova de Matemática, esta análise não foi feita
nessa disciplina.
Desempenho em Ciências da Natureza
Nesta disciplina, a distribuição dos resultados no conjunto de itens relativo aos
objectivos mais simples, ou seja, aquisição e compreensão se situam em valores muito
superiores aos do objectivo aplicação, como a leitura do gráfico seguinte permite
verificar. Isto significa que os alunos têm melhor desempenho nas tarefas mais
próximas da estratégia de memorização ou, para usar terminologia de Ausubel, da
aprendizagem por recepção.
11 Esta análise corrige afirmações que fizemos anteriormente com base numa amostra de dados e não com a totalidade de dados disponíveis como agora acontece.
Programa AVES Análise das Provas de Conhecimento
- 13 -
2001 2002 2003 2004anolectivo
0,2
0,3
0,4
0,5
95%
CI
Aquisição
Compreens
Aplicação
Por nível taxonómico
CN 7º Comparação de médias
Aplicado o teste de Friedman verificamos que a diferença entre as médias dos resultados destas 3 variáveis é estatisticamente significativa (0,000):
Friedman Test – Ranks – CN 7º
Mean Rank
2,18
compreensão 2,41
Aplicação 1,41
Test Statistics(a)
N 11858
Chi-Square 6534,536
df 2
Asymp. Sig. ,000
a Friedman Test
Uma interpretação possível é a de que o ensino que estes alunos receberam valorizava
sobretudo a memorização de conhecimentos. Esta interpretação é reforçada pela análise
do gráfico seguinte em que fica patente a diferença nas respostas às questões de
procedimento: o desempenho nas questões “não experimentais” é visivelmente superior
ao das questões “experimentais”.
Programa AVES Análise das Provas de Conhecimento
- 14 -
2001 2002 2003 2004
anolectivo
0,38
0,40
0,42
0,44
0,46
0,48
0,50
0,52
0,54
0,56
95%
CI
Experim
NExperim
Por nível taxonómico
CN 7º Comparação de médias
Em reforço desta interpretação, verificamos, aplicado o teste de Wilcoxon, que a diferença entre as médias dos resultados destas duas variáveis (exper/Nexper) é estatisticamente significativa (0,000):
Wilcoxon Signed Ranks Test - Ranks - CN 7º
N Mean Rank Sum of Ranks
Negative Ranks 4045(a) 4911,17 19865693,00
Positive Ranks 7710(b) 6385,24 49230197,00
Ties 103(c) NExperim - Experim
Total 11858
a NExperim < Experim b NExperim > Experim c NExperim = Experim
Test Statistics(b)
NExperim - Experim
Z -39,980(a)
Asymp. Sig. (2-tailed) ,000
a Based on negative ranks. b Wilcoxon Signed Ranks Test
A análise dos resultados por área de conteúdo programático revelou que os alunos têm em cada uma dessas áreas um desempenho relativamente congruente ao longo dos anos. Este resultado permite formular a hipótese de que as aprendizagens que os alunos realizaram anteriormente eram relativamente uniformes nesta disciplina.
Programa AVES Análise das Provas de Conhecimento
- 15 -
2001 2002 2003 2004
anolectivo
0,4
0,5
0,6
0,7
95%
CI
Diversid
AguaAr
PVitais
Agressoe
CN 7º Resultados por área de conhecimento
Aplicado o teste de Friedman a 3 dessas 4 áreas de conteúdos verificamos que há diferenças estatísticas entre as respectivas médias:
Friedman Test - Ranks
Mean Rank Diversid 2,03 AguaAr 2,06 PVitais 1,91
Test Statistics(a)
N 11858 Chi-Square 162,733 df 2 Asymp. Sig. ,000
a Friedman Test
Por outro lado, o resultado na variável Agressoe parece revelar um conhecimento cada
vez maior por parte destes alunos relativamente à temática das agressões ao meio
ambiente. De facto, o teste de Wilcoxon revelou que há diferenças estatisticamente
significativas entre os resultados em cada uma das 3 áreas programáticas supracitadas e
a que é avaliada pelos itens que integram a variável Agressoe.
Em resumo, estes dados permitem formular com algum fundamento duas hipóteses para
futura investigação: (a) a de que nesta disciplina, nos anos anteriores ao 7º ano de
escolaridade, o ensino terá valorizado preferencialmente a memorização de
conhecimentos relativamente à aplicação do mesmo a novas situações; e (b) a de que
Programa AVES Análise das Provas de Conhecimento
- 16 -
terá privilegiado o ensino livresco (passe o termo) relativamente ao ensino
experimental.
Desempenho em Português
Nesta disciplina, exceptuando o ano de 2003, a distribuição dos resultados nos itens de
interpretação e aplicação revela-se ou equivalente, ou pelo menos muito semelhante.
2001 2002 2003 2004anolectivo
0,0
0,5
1,0
1,5
2,0
2,5
95%
CI
Interpretação
Aplicação
PORT 7º Comparação de médias por nível taxonómico
No mesmo sentido, se continuarmos a excluir os resultados do ano 2003 (dado o seu
carácter atípico), verificamos, através do teste de Wilcoxon, que entre os resultados nos
dois tipos de itens não há diferença estatisticamente significativa (0, 947):
Wilcoxon Signed Ranks Test - Ranks - PORT 7º
N Mean Rank Sum of Ranks
Negative Ranks 3386(a) 3442,54 11656440,00
Positive Ranks 3445(b) 3389,91 11678256,00
Ties 587(c)
Aplicação - Interpretaç
Total 7418
a Aplicação < Interpretaç b Aplicação > Interpretaç c Aplicação = Interpretaç
Test Statistics(b)
Aplicação - Interpretaç
Z -,067(a) Asymp. Sig. (2-tailed) ,947
a Based on negative ranks. b Wilcoxon Signed Ranks Test
Programa AVES Análise das Provas de Conhecimento
- 17 -
Por outro lado, dos 3 domínios considerados nesta prova de Português, é nos itens relativos à Informação que se verificam os piores resultados.
2001 2002 2003 2004anolectivo
0,33
0,36
0,39
0,42
0,45
0,48
0,51
0,54
0,57
95%
CI
Narrativa
Informa
Lirico
Por tipo de objectivo (ou área de conteúdo)
PORT 7º Comparação de médias
Aplicado o teste de Friedman verifica-se que as diferenças entre as respectivas médias são significativas:
Friedman Test - Ranks - PORT 7º
Mean Rank
Narrativa 2,24
Informa 1,50
Lirico 2,26
Test Statistics(a)
N 12040
Chi-Square 4958,925
df 2
Asymp. Sig. ,000
a Friedman Test
A análise de resultados nesta disciplina não se afigura fácil porque não são evidentes as
tendências evolutivas. Confrontando estes resultados com os das outras disciplinas em
análise, parece legítimo formular uma hipótese para futura investigação: a de que as
estratégias de ensino do Português nos anos anteriores ao 7º apresentam, nas diferentes
escolas, maior variabilidade que as das outras disciplinas.
Desempenho em História
Programa AVES Análise das Provas de Conhecimento
- 18 -
A leitura do gráfico seguinte permite verificar que no primeiro ano (2001) a média dos
resultados no objectivo conhecimento se situa num valor superior aos do objectivo
compreensão, mas que esta tendência se inverte nos anos subsequentes.
2001 2002 2003 2004
anolectivo
0,40
0,41
0,42
0,43
0,44
0,45
0,46
0,47
95%
CI
Conhecimento
Compreensão
HIST7º Distribuição de resultados por objectivo educacional
Como interpretar? Com a ajuda do gráfico de barras adiante apresentado (que isola os valores atípicos) é possível afirmar que a distribuição de resultados para além de uma tendência global para melhorar revela que enquanto no caso do objectivo conhecimento a distribuição em torno da mediana é equilibrada, no caso do objectivo compreensão ela (em 3 dos 4 casos) se apresenta mais assimétrica com maior amplitude dos valores abaixo da mediana.
Programa AVES Análise das Provas de Conhecimento
- 19 -
2001 2002 2003 2004anolectivo
0,00
0,20
0,40
0,60
0,80
1,00
848760
763757
755752750 748
741
7.011
5.2863.498
2.747
1.811
1.809
11.00810.289
10.0459.8719.199
8.623
9.2009.1989.194
7.342
7.0115.2955.2924.454
6.6326.164
5.562
3.6073.599
11.721
11.09210.884
2.8332.829
2.7732.761
2.188
2.7432.739
945870
865820808
807764
763
761760 758
Conhecimento
Compreensão
Aplicado o teste de Wilcoxon verificamos que há diferença estatística entre os valores das duas variáveis.
Wilcoxon Signed Ranks Test - Ranks - HIST 7º -
N Mean Rank Sum of Ranks Negative Ranks 5653(a) 5851,95 33081049,50 Positive Ranks 6257(b) 6049,06 37848955,50 Ties 7(c)
Compreensão - Conhecimento
Total 11917
a Compreensão < Conhecimento b Compreensão > Conhecimento c Compreensão = Conhecimento
Test Statistics(b)
Compreensão - Conhecimento
Z -6,354(a)
Asymp. Sig. (2-tailed) ,000
a Based on negative ranks. b Wilcoxon Signed Ranks Test
Atendendo a que os itens de conhecimento representam 55% dos itens desta prova (o
que não é pouco) estes resultados levam-nos a formular uma hipótese para futura
análise: a de que se está a manifestar uma tendência para tornar menos forte a
memorização nesta disciplina. Parece pertinente ainda colocar uma questão de
investigação: essa tendência estará relacionada com a reestruturação curricular do
Ensino Básico?
A análise da distribuição dos resultados por área programática revela-nos que o Tema
Um é aquele em que os alunos revelam melhor desempenho e que o Tema Três é aquele
Programa AVES Análise das Provas de Conhecimento
- 20 -
em que é obtêm piores resultados. Por outro lado, os temas DoisA e DoisB apresentam
distribuições relativamente semelhantes, com ligeira vantagem para o tema DoisB.
2001 2002 2003 2004
anolectivo
0,00
0,20
0,40
0,60
0,80
1,006.629
6.1644.494 10.331
10.3178.050
7.8581.811
1.807
1.0521.046
764
763761758
757749
11.46711.05411.017
10.2429.040
11.4629.692 7.871
2.7472.7401.795
1.7811.186 7.5026.949
6.883
6.0984.977
6.5203.536
3.535 TemaUmTemaDoisATemaDoisBTematrês
Resultado global da análise em categorias específicas de itens
Em resumo, esta análise mostra-nos que não são legítimos os juízos simplistas sobre as aprendizagens dos nossos alunos nos seis primeiros anos de escolaridade. O panorama nas diversas disciplinas não é uniforme: há casos em que os dados indiciam práticas pedagógicas que estimulam aprendizagens de menor complexidade cognitiva e que subvalorizam a aprendizagem experimental, enquanto noutros a compreensão ombreia com a (ou tende a sobrepor-se à) mera memorização (ou conhecimento). Porém, esta análise inicial reclama análises mais finas que tenham em conta a composição social da escola, o género e outros factores. Paralelamente, reclama também uma atenção redobrada à categorização dos itens nas matrizes das provas de conhecimento.
Programa AVES Análise das Provas de Conhecimento
- 21 -
6. Análise de resultados em função do género
Questão de investigação O género12 é um factor de rendimento escolar (representado pela variável TOTAL)? Ou seja: o género explica parte da variação dos resultados nos testes? Esta questão traduz-se nas seguintes hipóteses operacionais: Hipótese nula:
Ho: µMasculino = µFeminino, onde µ é a média do resultado nos testes. Hipótese alternativa:
Ha: µ Masculino � µ Feminino Selecção da técnica estatística
a. Natureza das variáveis
Estamos perante duas variáveis:
c) Variável independente: o género, designada por SEXO. Esta é uma variável
dicotómica, caso especial de variável nominal. Essa característica vai permitir-nos
definir duas amostras independentes.
d) Variável dependente: o resultado total em cada teste, designada por TOTAL.
Trata-se de uma variável expressa numa escala métrica, de intervalos.
b. Escolha do teste estatístico
Consideramos que temos duas amostras independentes (alunos e alunas). Por outro lado,
a variável dependente obedece a duas características dos testes paramétricos (Hill, 2002:
195):
d) Valores da variável dependente medidos em escala métrica;
e) Valores da variável dependente com distribuição próxima da normal (cf.
exemplo no quadro I, infra). Acresce que essa exigência é considerada, segundo
alguns especialistas, necessária apenas para “amostras de dimensão inferior ou
igual a 30” (Pestana e Gageiro, 2000:159 e 160)13. E o N destes ficheiros é de
cerca de 10000 casos.
12 Representado nos ficheiros SPSS desta base de dados pela variável SEXO, com valores 1 = Masculino (ou alunos) e 2 = Feminino (ou alunas). 13 Este aspecto é fundamentado na mesma obra, mais adiante, a propósito do teste One-Way ANOVA (Pestana e Gageiro, 2000: 194).
Programa AVES Análise das Provas de Conhecimento
- 22 -
Quadro I
0,00 10,00 20,00 30,00total
0
200
400
600
800
1.000
1.200Fr
eque
ncy
Mean = 13,6249Std. Dev. =
4,47488N = 11.808
Resultados PORT 9º (em 4 anos)
f) Nessa perspectiva, também se assumiu que o pressuposto da homocedasticidade pode ser desrespeitado aqui porque o quociente M/F < 1,5 , ou seja, realizaram o teste quase tantos alunos como alunas. Por isso, foi utilizada uma técnica paramétrica, o teste t para duas amostras independentes14 (Hill, 2002: 159 e 196-7).
Análise dos resultados
a. Teste de CN 7º (em 4 anos) Uma 1ª análise mostra que nesta disciplina os alunos têm uma média ligeiramente inferior à das alunas.
T-Test.........Group Statistics.............CN7º (em 4 anos)
6290 11,9704 3,70103 ,04667
5470 12,1742 3,64168 ,04924
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
O resultado do teste t, apresentado na tabela seguinte, mostra que esta diferença deve ser considerada estatisticamente significativa:
14 Excepto num caso, HIST 11º em que houve desproporção entre M/F. Nesse caso foi utilizado o teste de Mann-Whitney.
Programa AVES Análise das Provas de Conhecimento
- 23 -
Independent Samples Test
,779 ,377 -3,001 11758 ,003 -,20379 ,06792 -,33692 -,07067
-3,004 11580,897 ,003 -,20379 ,06784 -,33677 -,07082
Equal variancesassumed
Equal variancesnot assumed
totalF Sig.
Levene's Testfor Equality of
Variances
t dfSig.
(2-tailed)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
Por isso, é necessário rejeitar a Hipótese nula: Ho: µHomens = µMulheres. Ou seja, há
diferença significativa entre os alunos e as alunas em CN7º no ano de 2001/2002. Ou
ainda: a variável género produz diferença significativa nos resultados.
O sinal negativo do valor do teste t confirma que a média do 1º grupo (alunos) é menor
do que a média do 2º grupo (alunas) (cf. Pestana e Gageiro, 2000: 187, nº 8).
b. Teste de HIST 7º (em 4 anos)
Verifica-se que as alunas têm melhor resultado (média) do que os alunos:
T-Test.........Group Statistics............HIST 7º (em 4 anos)
6322 13,6762 4,85881 ,06111
5501 13,8079 4,61121 ,06217
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
Aplicado o teste t aos resultados da prova de HISTÒRIA do 7º ano, obtiveram-se os seguintes resultados:
Independent Samples Test ...........HIST 7º (em 4 anos)
21,720 ,000 -1,505 11821 ,132 -,13164 ,08749 -,30314 ,03986
-1,510 11732,379 ,131 -,13164 ,08718 -,30252 ,03924
Equal variancesassumed
Equal variancesnot assumed
totalF Sig.
Levene's Test forEquality ofVariances
t dfSig.
(2-tailed)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
A tabela mostra que apesar de haver diferença entre as médias dos alunos e das alunas, esta diferença não é estatisticamente significativa.
c. Teste de MAT 7º (em 4 anos)
Programa AVES Análise das Provas de Conhecimento
- 24 -
Os resultados mostram que os alunos têm uma média melhor do que as alunas:
T-Test------------Group Statistics----------MAT 7º (em 4 anos)
4295 13,7322 4,72987 ,07217
3771 13,4116 4,37909 ,07131
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
Esta diferença tem de ser considerada estatisticamente significativa.
Independent Samples Test----------MAT 7º (em 4 anos)
15,613 ,000 3,145 8064 ,002 ,32068 ,10197 ,12080 ,52057
3,161 8041,333 ,002 ,32068 ,10146 ,12180 ,51957
Equal variancesassumed
Equal variancesnot assumed
totalF Sig.
Levene's Test forEquality ofVariances
t dfSig.
(2-tailed)Mean
Difference
Std. ErrorDifferenc
e Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
Ou seja, os alunos têm um desempenho melhor do que as alunas a MATEMATICA 7º.
d. Teste de PORT 7º (em 4 anos) Também nestes dados se verifica que as alunas têm melhor resultado (média) do que os alunos:
t-tEST ...........Group Statistics............PORT 7º (em 4 anos)
6439 12,3303 4,34420 ,05414
5518 13,3440 4,50507 ,06065
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
Como se pode verificar no quadro seguinte, há diferença significativa entre a média dos alunos e a das alunas.
T-Test .......................PORT 7º (em 4 anos)........................Independent Samples Test
11,307 ,001 -12,503 11955 ,000 -1,01363 ,08107 -1,1725 -,85473
-12,468 11535,660 ,000 -1,01363 ,08130 -1,1730 -,85428
Equal variancesassumed
Equal variancesnot assumed
totalF Sig.
Levene's Test forEquality ofVariances
t df
Sig.(2-taile
d)Mean
Difference
Std.Error
Difference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
Programa AVES Análise das Provas de Conhecimento
- 25 -
Também em Português 7º se verifica que as alunas têm melhor desempenho do que os alunos
e. Conclusão da análise de resultados das provas do 7º ano aplicadas ao longo de 4 anos
A conclusão que podemos tirar é a de que as diferenças nos resultados de 3 das 4 provas
de conhecimento aplicadas no 7º ano é estatisticamente significativa. A variável
GÉNERO parece ser factor explicativo das diferenças de resultados:
a) As alunas obtêm melhores resultados do que os alunos em 3 das 4 provas (e em duas
delas de forma significativa), particularmente em Português;
b) Os alunos conseguem melhores resultados (de forma estatisticamente significativa)
em Matemática.
Mas que será que esta tendência se mantém nos anos subsequentes?
f. Teste de CN 9º (em 4 anos)
Verifica-se que as alunas têm melhor resultado (média) do que os alunos:
T-Test ........Group Statistics..............CN 9º em 4 anos (10791)
5201 12,5928 3,79492 ,05262
5419 12,9406 3,76239 ,05111
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
Como se pode verificar no quadro seguinte, a média das alunas regista uma diferença estatisticamente significativa relativamente à dos alunos:
Independent Samples Test
1,660 ,198 -4,742 10618 ,000 -,34781 ,07334 -,4916 -,20404
-4,741 10591,865 ,000 -,34781 ,07336 -,4916 -,20402
Equal variancesassumed
Equal variancesnot assumed
totalF Sig.
Levene's Testfor Equality of
Variances
t dfSig.
(2-tailed)Mean
Difference
Std. ErrorDifferenc
e Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
g. Teste de HIST 9º (em 4 anos) Neste teste os alunos revelam resultado ligeiramente melhor do que as alunas:
Programa AVES Análise das Provas de Conhecimento
- 26 -
T-Test.............Group Statistics.................HIST 9º .....em 4 anos com 10246 nototal
4938 18,0405 5,29559 ,07536
5188 17,9401 5,00646 ,06951
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
Porém, esta diferença não chega a ser estatisticamente significativa:
Independent Samples Test
10,491 ,001 ,981 10124 ,327 ,10045 ,10238 -,10023 ,30113
,980 10012,787 ,327 ,10045 ,10252 -,10051 ,30141
Equal variancesassumed
Equal variancesnot assumed
totalF Sig.
Levene's Testfor Equality of
Variances
t df
Sig.(2-taile
d)Mean
Difference
Std. ErrorDifferenc
e Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
h. Teste de MAT 9º (em 4 anos) Os resultados revelam que os alunos têm melhor resultado do que as alunas:
T-Test......... Group Statistics.............. MAT 9º (em 4 anos)
6006 13,4406 5,04567 ,06511
6063 12,9518 4,84187 ,06218
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
E revelam também que essa diferença é estatisticamente significativa:
Independent Samples Test
17,609 ,000 5,429 12067 ,000 ,48872 ,09001 ,31228 ,66516
5,428 12036,129 ,000 ,48872 ,09003 ,31225 ,66520
Equal variancesassumed
Equal variancesnot assumed
totalF Sig.
Levene's Test forEquality ofVariances
t dfSig.
(2-tailed)
MeanDifferen
ce
Std. ErrorDifferenc
e Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
i. Teste de PORT 9º (em 4 anos) Os resultados revelam novamente um melhor desempenho das alunas nesta disciplina:
Programa AVES Análise das Provas de Conhecimento
- 27 -
T-Test...............Group Statistics..............PORT 9º (EM 4 ANOS)
4644 13,6748 4,47144 ,06561
4640 14,5110 4,48507 ,06584
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
E revelam também que essa diferença é estatisticamente significativa:
Independent Samples Test
,127 ,722 -8,995 9282 ,000 -,83614 ,09295 -1,01835 -,65393
-8,995 9281,858 ,000 -,83614 ,09295 -1,01835 -,65393
Equal variancesassumed
Equal variancesnot assumed
totalF Sig.
Levene's Testfor Equality of
Variances
t dfSig.
(2-tailed)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
j. Conclusão da análise de resultados das provas do 9º ano aplicadas ao longo de 4 anos
Os resultados do 9º ano quase confirmam integralmente as tendências identificadas nos
resultados do 7º ano:
As diferenças nos resultados de 3 das 4 provas de conhecimento aplicadas no 9º ano são
estatisticamente significativas. A variável GÉNERO parece ser factor explicativo das
diferenças de resultados:
a) As alunas obtêm melhores resultados do que os alunos em 2 das 4 provas,
particularmente em Português;
b) Os alunos conseguem melhores resultados (de forma estatisticamente significativa)
em Matemática e também em História (mas sem relevância estatística).
c) A História mantém-se como a disciplina em que não ocorrem diferenças
estatisticamente significativas quanto ao género.
k. Teste de CN 11º (em 4 anos)
Verifica-se que as alunas têm melhor resultado (média) do que os alunos:
T- TEST.....................Group Statistics............................CN 11º de 3 anos
1972 14,4817 3,42894 ,07722
2474 14,9151 3,31255 ,06660
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
Programa AVES Análise das Provas de Conhecimento
- 28 -
Como se pode verificar no quadro seguinte, a média das alunas regista uma diferença estatisticamente significativa relativamente à dos alunos:
Independent Samples Test......................T- TEST..................................CN 11º de 3 anos
2,246 ,134 -4,267 4444 ,000 -,43337 ,10157 -,63250 -,23424
-4,250 4159,572 ,000 -,43337 ,10197 -,63329 -,23346
Equal variancesassumed
Equal variancesnot assumed
totalF Sig.
Levene's Test forEquality ofVariances
t df
Sig.(2-taile
d)
MeanDifferenc
e
Std.Error
Difference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
Ou seja, mantém-se a tendência dos anos anteriores (7º e 9º).
l. Teste de HIST 11º (em 4 anos) Neste teste os alunos revelam resultado melhor do que as alunas15:
Ranks .......Mann-Whitney Test ...........HIST 11º em anos
497 1060,59 527115,50
1390 902,31 1254212,50
1887
Sexo :M
F
Total
totalN Mean Rank Sum of Ranks
A diferença é estatisticamente significativa:
Test Statistics a
287467,500
1254212,500
-5,570
,000
Mann-Whitney U
Wilcoxon W
Z
Asymp. Sig. (2-tailed)
total
Grouping Variable: Sexo :a.
Isso significa uma alteração na tendência encontrada no ensino básico. Mas estes
resultados têm de ser relativizados dada a desproporção entre os dois géneros (497 vs.
1390) na realização deste teste.
15 Neste caso foi usado um teste não-paramétrico porque a discrepância entre o N dos 2 grupos (M e F) era superior ao ratio 1,5 tolerado no caso das provas paramétricas sem homecedasticidade (conforme referido supra). Este desequilíbrio deve agora ser explicado em termos das opções perante as diferentes ofertas formativas.
Programa AVES Análise das Provas de Conhecimento
- 29 -
m. Teste de MAT 11º (em 4 anos) Os resultados revelam que as alunas têm melhor resultado do que os alunos:
T-Test ....... Group Statistics....MAT 11º
5708 10,7362 4,08398 ,05406
5801 11,3370 4,05242 ,05321
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
E revelam também que essa diferença é estatisticamente significativa:
Independent Samples Test...................... T-Test ...........MAT 11º
,018 ,893 -7,922 11507 ,000 -,60085 ,07584 -,74952 -,45219
-7,922 11500,419 ,000 -,60085 ,07585 -,74953 -,45218
AssumptionsEqualvariancesassumed
Equalvariances notassumed
Dependentvariablestotal
F Sig.
Levene's Testfor Equality of
Variances
t df
Sig.(2-taile
d)
MeanDifferenc
e
Std.Error
Difference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
Statistics
Ou seja, aqui inverte-se a tendência manifestada nos 7º e 9º anos: os alunos deixam de ter melhor desempenho do que as alunas.
n. Teste de PORT 11º (em 4 anos) Os resultados revelam novamente um melhor desempenho das alunas nesta disciplina:
T- TEST........................Group Statistics...................PORT 11º em 4 anos
7034 12,7279 5,31910 ,06342
8779 13,7634 5,55077 ,05924
Sexo :M
F
totalN Mean Std. Deviation Std. Error Mean
E revelam também que essa diferença é estatisticamente significativa:
Programa AVES Análise das Provas de Conhecimento
- 30 -
Independent Samples Test
15,836 ,000 -11,876 15811 ,000 -1,03552 ,08720 -1,20643 -,86461
-11,932 15317,321 ,000 -1,03552 ,08679 -1,20563 -,86541
Equal variancesassumed
Equal variancesnot assumed
totalF Sig.
Levene's Test forEquality ofVariances
t df
Sig.(2-taile
d)Mean
DifferenceStd. ErrorDifference Lower Upper
95% ConfidenceInterval of the
Difference
t-test for Equality of Means
Ou seja, mantém-se a tendência dos anos anteriores.
o. Conclusão da análise de resultados das provas do 11º ano aplicadas ao longo de 4 anos
Os resultados do 11º ano confirmam tendências identificadas nos resultados do 7º ano e
do 9º ano, ao mesmo tempo que realçam uma tendência mais ampla, com apenas uma
excepção.
As diferenças nos resultados de 3 das 4 provas de conhecimento aplicadas no 11º ano
são estatisticamente significativas. A variável GÉNERO parece ser factor explicativo
das diferenças de resultados:
a) As alunas obtêm melhores resultados do que os alunos em 3 das 4 provas,
particularmente em Português;
b) Os alunos conseguem melhores resultados (de forma estatisticamente significativa)
apenas em História, disciplina cujos resultados apresentavam (no 7º e 9º) um certo
equilíbrio entre os dois géneros. Porém, há que descontar que nesta disciplina deste ano
(HIST 11º) há uma desigualdade acentuada entre o número de alunos e alunas nos
grupos testados.
Conclusão geral da análise de resultados vs género
Resumindo esta análise e, em certa medida, simplificando, diríamos que as alunas
apresentam melhor propensão académica (considerando estas 4 disciplinas como
Programa AVES Análise das Provas de Conhecimento
- 31 -
representativas do currículo formal) do que os alunos. Por outro lado, com o aumento da
escolaridade essa tendência tende a acentuar-se.
Os alunos predominam exclusivamente na disciplina de Matemática e apenas ao nível
do Ensino Básico.
Programa AVES Análise das Provas de Conhecimento
- 32 -
7. Análise resultados em função do NSE
Desde a publicação do Relatório Coleman (1966) que uma parte da investigação
educacional tem procurado estudar a relação entre a origem socioeconómica e cultural
dos alunos e a aprendizagem escolar, medida através do respectivo resultado académico.
Tendo em conta os dados disponíveis, foi possível estudar a relação entre um indicador
do nível socioeconómico (NSE) e o resultado global no teste (TOTAL).
Na selecção do teste estatístico entendemos que deveria ser utilizada uma técnica não-
paramétrica porque os dados não obedecem às (e se distanciam das) exigências de um
teste paramétrico. Nomeadamente, o número de observações em cada grupo do NSE é
bastante diferenciado (com percentagens que, por exemplo, variam entre 8,4% e 26%):
Tabela de frequências NSE – CN7º de 4 anos
Frequency Percent Valid Percent Cumulative
Percent 1,00 991 8,4 13,3 13,3 2,00 2271 19,2 30,4 43,7 3,00 3082 26,0 41,3 84,9 4,00 1125 9,5 15,1 100,0
Valid
Total 7469 63,0 100,0 Missing System 4389 37,0
Total 11858 100,0
Ou seja, a frequência da variável níveis não respeita a regra enunciada por Pestana e
Gageiro (2000: 194). Isto levou-nos a utilizar o teste de Kruskal-Wallis.
Análise dos resultados16
CN 7º - TOTAL vs NSE em 4 anos
A simples observação do gráfico seguinte revela que há uma diferença significativa
entre as médias da variável TOTAL em função da variável NSE: quanto menor o nível
socioeconómico (NSE = 1 corresponde ao nível socioeconómico mais elevado) menor
tende a ser a média da variável TOTAL, ou seja, a média dos resultados na prova por
parte dos alunos pertencentes a esse grupo.
16 Nesta análise foram utilizados sempre que possível resultados de 4 anos de aplicação das provas. Porém, em alguns casos, só foram utilizados dados de 3 anos porque num dos ficheiros disponíveis no momento da análise não figurava a variável NSE.
Programa AVES Análise das Provas de Conhecimento
- 33 -
1,00 2,00 3,00 4,00
nse
11,00
12,00
13,00
14,00
95%
CI t
otal
CN7º Comparação das médias e IC
Por sua vez, o teste de Kruskal-Wallis permite afirmar que a diferença entre as médias
dos diferentes grupos de alunos (definidos pelo seu NSE) é estatisticamente
significativa:
Kruskal-Wallis Test ......CN 7º ...........Ranks
991 4959,78
2271 3763,27
3082 3477,54
1125 3304,36
7469
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
411,770
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
HIST 7º - TOTAL vs NSE em 4 anos
O gráfico de barras seguinte revela a mesma relação entre as variáveis NSE e TOTAL:
quanto menor o nível socioeconómico (NSE = 1 corresponde ao nível socioeconómico
mais elevado) menor tende a ser a média dos resultados no teste.
Programa AVES Análise das Provas de Conhecimento
- 34 -
1,00 2,00 3,00 4,00
nse
12,00
13,00
14,00
15,00
16,00
17,00
18,00
95%
CI t
otal
HIST7 Comparaç de médias e IC
Por sua vez, também o teste de Kruskal-Wallis permite afirmar que a diferença entre as
médias desses grupos é estatisticamente significativa:
Kruskal-Wallis Test.......Ranks......HIST 7º em 4 anos
985 5316,82
2286 3971,91
3196 3388,81
1119 3243,96
7586
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
673,986
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
PORT 7º - TOTAL vs NSE em 4 anos A mesma relação ocorre na disciplina de Português, com um pequeno desvio no grupo NSE = 3
Programa AVES Análise das Provas de Conhecimento
- 35 -
1,00 2,00 3,00 4,00
nse
11,00
12,00
13,00
14,00
95%
CI t
otal
PORT 7 Comparaç das médias e IC
O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos
é estatisticamente significativa:
Kruskal-Wallis Test........PORT 7º em 4 anos ..Ranks
1539 4690,06
2144 4087,60
2724 3178,92
1155 3423,81
7562
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
549,893
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
MAT 7º TOTAL vs NSE em 4 anos A relação acima identificada ocorre igualmente na disciplina de Matemática:
Programa AVES Análise das Provas de Conhecimento
- 36 -
1,00 2,00 3,00 4,00
nse
12,00
13,00
14,00
15,00
16,00
17,00
18,00
95%
CI t
otal
MAT 7º Comparaç das médias e IC
O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos
é estatisticamente significativa:
Kruskal-wallis Test ......Ranks...MATEM 7º em 4 anos
986 4892,10
2283 3734,20
2859 3293,29
1134 3181,35
7262
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
490,936
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
CN 9º - TOTAL vs NSE em 4 anos
Repete-se a relação observada acima:
Programa AVES Análise das Provas de Conhecimento
- 37 -
1,00 2,00 3,00 4,00
nse
11,50
12,00
12,50
13,00
13,50
14,00
14,50
95%
CI t
otal
CN 9º Comparaç de médias e IC
O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos
é estatisticamente significativa:
kRUSKAL-WALLIS Test....Ranks....CN9º em 4 anos
1097 6419,71
4590 5618,28
4135 4998,77
966 4860,89
10788
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
239,323
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
HIST 9º - TOTAL vs NSE em 4 anos
O gráfico de barras seguinte revela de forma mais nítida a relação supracitada entre as
variáveis NSE e TOTAL: quanto menor o nível socioeconómico (NSE = 1 corresponde
ao nível socioeconómico mais elevado) menor tende a ser o resultado no teste.
Programa AVES Análise das Provas de Conhecimento
- 38 -
1,00 2,00 3,00 4,00
nse
16,00
17,00
18,00
19,00
20,00
21,00
22,00
95%
CI t
otal
HIST 9º Comparaç de médias e IC
O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos
é estatisticamente significativa:
Ranks...Kruslkal-Wallis Test......HIST 9º em 4 anos
1215 6831,19
4400 5194,87
3786 4704,25
843 4160,48
10244
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
575,239
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
PORT 9º - TOTAL vs NSE em 4 anos Também na disciplina de Português 9º se verifica a relação supracitada:
Programa AVES Análise das Provas de Conhecimento
- 39 -
1,00 2,00 3,00 4,00
nse
11,00
12,00
13,00
14,00
15,00
16,00
17,00
95%
CI t
otal
PORT 9º Comparaç de média e IC
O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos
é estatisticamente significativa:
Kruskal-Wallis Test .....Ranks......PORT 9º em 4 anos
1191 8031,10
5285 5987,93
4323 5566,84
1009 4403,97
11808
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
707,773
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
MAT 9º TOTAL vs NSE em 4 anos A disciplina de Matemática 9º não foge à relação acima identificada:
Programa AVES Análise das Provas de Conhecimento
- 40 -
1,00 2,00 3,00 4,00
nse
11,00
12,00
13,00
14,00
15,00
16,00
17,00
18,00
95%
CI t
otal
MAT 9º Comparaç de médias e IC
O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos
é estatisticamente significativa:
Kruskal-Wallis Test.....Ranks....MAT 9º em 4 anos
1159 8600,08
5303 6087,52
4622 5821,20
1141 4887,15
12225
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
748,158
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
CTV 11º - TOTAL vs NSE em 3 anos
A relação acima identificada entre as variáveis NSE e TOTAL também se torna
evidente no gráfico seguinte, embora com a excepção (parcial, atendendo ao respectivo
limite inferior) ao nível do NSE = 4:
Programa AVES Análise das Provas de Conhecimento
- 41 -
1,00 2,00 3,00 4,00
nse
13,80
14,10
14,40
14,70
15,00
15,30
95%
CI t
otal
CTV 11º Comparaç de medias e IC
O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos
é estatisticamente significativa:
Ranks .... Kruskall-Wallis Test.... CN 11º de 3 anos
1131 2398,25
1745 2343,23
1472 2127,21
205 2119,86
4553
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
36,380
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
HIST 11º - TOTAL vs NSE em 3 anos
Já na disciplina de História 11º revela-se a mesma relação entre as variáveis NSE e
TOTAL, excepto quanto ao NSE = 4.
Programa AVES Análise das Provas de Conhecimento
- 42 -
1,00 2,00 3,00 4,00
nse
16,00
17,00
18,00
19,00
20,00
95%
CI t
otal
HIST 11º Comparaç de médias e IC
O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos
é estatisticamente significativa:
Ranks.....Kruskal-Wallis Test .... HIST 11º em 3 anos
307 1130,04
970 1019,00
546 785,31
101 868,45
1924
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
96,787
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
PORT 11º - TOTAL vs NSE em 3 anos
Já na disciplina de Português 11º revela-se no essencial a mesma relação entre as
variáveis NSE e TOTAL, excepto quanto ao NSE = 3.
Programa AVES Análise das Provas de Conhecimento
- 43 -
1,00 2,00 3,00 4,00
nse
10,00
11,00
12,00
13,00
14,00
95%
CI t
otal
PORT 11º Comparaç de médias e IC
O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos
é estatisticamente significativa:
Ranks.........Kruskal-Wallis Test.........PORT 11º em 4 anos
2886 8528,09
7876 7932,71
4814 8244,44
533 5589,42
16109
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
194,040
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
Em abono desta interpretação veja-se a composição social deste conjunto de alunos testados: o nível inferior de NSE aparece com um N entre 4 a 11 vezes menor que as outras categorias de NSE. MAT 11º TOTAL vs NSE em 3 anos A relação acima identificada só parcialmente ocorre na disciplina de Matemática (níveis 1,2,3, ou seja, os mais elevados):
Programa AVES Análise das Provas de Conhecimento
- 44 -
1,00 2,00 3,00 4,00
nse
10,50
11,00
11,50
12,00
95%
CI t
otal
MAT 11º Comparaç de me´dias e IC
O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos
é estatisticamente significativa:
Kruskal-Wallis Test......Ranks.....MAT 11º EM 4 ANOS
2191 6838,49
5791 5756,04
3440 5475,77
333 5834,41
11755
nse1,00
2,00
3,00
4,00
Total
totalN Mean Rank
Test Statistics a,b
232,661
3
,000
Chi-Square
df
Asymp. Sig.
total
Kruskal Wallis Testa.
Grouping Variable: nseb.
Conclusão
Como interpretar estes resultados?
Quanto aos resultados do Ensino Básico a interpretação parece evidente: há uma
associação entre a variável NSE e a variável TOTAL, ou seja, parte da variabilidade dos
resultados académicos é explicada pela origem socioecómica e cultural dos alunos.
E como explicar a relativa excepção dos resultados nas disciplinas do Ensino
Secundário? Uma hipótese explicativa poderia ser a de que no 11º ano de escolaridade,
o grupo dos alunos com menor NSE (aqui com o valor 4) não é uma amostra
Programa AVES Análise das Provas de Conhecimento
- 45 -
representativa desse grupo, sendo constituído sobretudo pelos “sobreviventes”, aqueles
que dentro da totalidade dos alunos oriundos de estratos menos favorecidos que
frequentam o ensino básico melhor se adaptam às exigências do sistema de ensino e
conseguem prosseguir estudos. Ou seja, são os resistentes à selecção exercida pelo
sistema de ensino e respectivo contexto. Os restantes abandonam a escola no final da
escolaridade obrigatória. Em abono desta interpretação veja-se a composição social
deste conjunto de alunos testados: o nível inferior de NSE aparece (em Matemática do
11º) com um N entre 7 a 17 vezes menor que as outras categorias de NSE. Igual
desproporção acontece nas outras disciplinas do ensino secundário, mas isso não
acontece no ensino básico.
Estas conclusões não significam um regresso às teses de Coleman. Verifica-se a
existência desses factores contextuais, mas não há dados que permitam afirmar que
esses factores são exclusivos ou que deixam uma variabilidade insignificante para ser
explicada por outras variáveis. Por exemplo, o que o cálculo do valor acrescentado
permite justamente mostrar, na medida em que consegue “neutralizar” o efeito NSE, é
que uma parte da variabilidade dos resultados académicos dos alunos resulta do “efeito-
escola”, ou seja, da especificidade da escola que frequenta, do modo como ela se
estrutura e funciona.
8. Análise de itens de provas de conhecimento de 2004/2005
Introdução
Os testes de conhecimento são uma das pedras angulares do Programa AVES. A
qualidade técnica dos respectivos itens é por isso uma das condições básicas para
garantir a confiança nos resultados do programa.
Foram feitas duas análises17 à qualidade dos itens das provas de conhecimentos do
Programa AVES. O objecto de estudo era constituído pelas provas aplicadas entre 2001
e 2005.
17 O 1º ensaio foi objecto de uma apresentação interna em 17JUNHO 2005. o segundo em 7deJulho2005.
Programa AVES Análise das Provas de Conhecimento
- 46 -
Metodologia
Análise de itens: quadro teórico
Os testes constituem um dos tipos de instrumentos de avaliação mais difundidos.
Enquanto instrumentos de medida, para serem funcionais, os testes devem apresentar as
propriedades de validade e de fiabilidade. No domínio da Avaliação Psicológica e da
Avaliação Educacional existem duas teorias sobre o modo como deve ser efectuada a
análise dos itens dos testes: a Teoria Clássica dos Testes (TCT ou, em inglês, CTT) e a
Teoria da Resposta ao Item (TRI ou, em inglês, IRT). Na análise que agora
apresentamos procedemos à utilização de apenas algumas das técnicas da TCT. Apesar
de incompleta, pensamos que existe uma adequada relação custo/benefício neste tipo de
análise18.
Análise dos itens (II): procedimentos
A análise da qualidade técnica dos itens das provas de conhecimentos foi feita com base
no cálculo dos índices de dificuldade e de discriminação.
O índice de dificuldade pode ser calculado de acordo com a fórmula:
IDif = % de respostas certas em cada item
De acordo com Gronlund (1974:118),
“os construtores de teste são encorajados a preparar
itens com nível de dificuldade de 50%. É somente neste
nível que a discriminação máxima é possível. “
Em face disto, foi feita uma análise item a item para saber quais os itens que tinham
maior dificuldade do que 50%. Foram considerados como itens difíceis os que tinham
menos do que 50% de acertos. E testes difíceis aqueles em que mais do que 50% dos
seus itens tenham índice de dificuldade superior a 50%.
Por sua vez, o índice de discriminação foi calculado com base em grupos
contrastantes, o grupo dos alunos com melhor desempenho e o dos alunos com menor
18 Esta análise, foi realizada tendo por objectivo a análise de qualidade das provas de conhecimento do Programa AVES. Eventualmente poderá vir a ter utilidade formativa para os professores que usam testes para avaliar os seus alunos através de um pequeno programa informático, destinado a quem domina o MS EXCEL e utiliza testes com um número reduzido de alunos.
Programa AVES Análise das Provas de Conhecimento
- 47 -
desempenho. Alguns autores (cf. Gronlund, ibidem) apresentam uma fórmula para o
cálculo deste índice em testes aplicados por um professor a um número significativo
mas relativamente reduzido de alunos:
NNaGiNaGs
IDiscrim−≡
NaGs = Nº de acertos no grupo superior (grupo de alunos com mais de 66% no
TOTAL)
NaGi = Nº de acertos no grupo inferior (grupo de alunos com menos de 33% no
TOTAL)
N = Nº de indivíduos em cada grupo.
Esta análise parte da hipótese de que a distribuição dos resultados se faz de acordo com
a curva normal.
O IDisc precisa de ser calculado através de um processo que consiste em construir dois
subgrupos, a partir do total de respostas.
Os subgrupos (designados, Gs e Gi) são constituídos por
a) Gs = subgrupo dos alunos que têm melhor resultado no item (33% do total)
b) Gi = subgrupo dos alunos que têm pior resultado no item (33% do total)
Estes subgrupos foram constituídos a partir do percentis 33 e 66 da variável TOTAL.
Foram aplicados procedimentos disponíveis no SPSS .
Note-se que o índice de discriminação deve ser lido em conjugação com o índice de
dificuldade. O facto de um item ter um índice de discriminação baixo (ou seja, a não
discriminação dos dois grupos, com melhores e com piores resultados) não tem o
mesmo significado quando o item é fácil do que quando o item é difícil.
Breve resumo da análise de itens
Submetemos cada uma das provas a uma primeira e muito simples apreciação
com base na representação gráfica dos dados: a comparação do respectivo histograma
dos resultados totais (variável TOTAL) com a correspondente curva normal. Resultado:
todas apresentavam distribuições “próximas” da curva normal. Entendemos isso como
uma primeira indicação de que se tratava de provas que não produziam grande
Programa AVES Análise das Provas de Conhecimento
- 48 -
assimetria de resultados. Ou seja, grosso modo, os resultados apresentavam-se de
acordo com o expectável.
Posto isso, foi realizada a análise da fiabilidade dos itens e o cálculo dos índices
de discriminação e de dificuldade.
Estimação da fiabilidade interna
Utilizámos o α de Cronbach para calcular a fiabilidade dos itens. Considerando a tabela
de Hill e Hill (2002: 147), em que os valores são considerados razoáveis acima de 0,7,
sendo fracos entre 0,6 e 0,7 e inaceitáveis abaixo de 0,6, verificámos que de um modo
geral a fiabilidade não sendo muito elevada, se situava em valores aceitáveis, ou seja,
superiores a 0,6.
Índice de dificuldade
Foi verificado índice de dificuldade de todos os itens das várias provas e com base nas
definições acima apresentadas considerou-se que algumas provas podiam ser
consideradas difíceis.
Foram dadas indicações no sentido de essas conclusões serem tidas em conta em futuras
revisões das provas.
Índice de discriminação
O cálculo do índice de discriminação dos vários itens permitiu chegar à conclusão de
que a generalidade deles tinham poder de discriminação entre os grupo de alunos mais
fortes e o grupo dos mais fracos e permitiu ainda fornecer aos autores dos testes
indicações sobre os itens a rever de imediato.
Conclusões da análise das provas
Estas análises levam-nos em resumo à conclusão de que:
1. Os itens das provas respeitavam as exigências técnicas a um nível aceitável;
2. Alguns itens necessitavam de reformulação tendo em conta o índice de
discriminação;
As análises poderão agora prosseguir com uma maior proximidade temporal
relativamente ao momento da sua construção e aplicação.
Por outro lado, aspectos não contemplados nestas análises deverão ser objecto de
futuros estudos como, por exemplo, a análise da eficácia dos distractores.
Programa AVES Análise das Provas de Conhecimento
- 49 -
Estas análises poderão ainda ser aproveitadas para actividades de formação em
avaliação das aprendizagens dos professores que aplicam estes testes nas escolas do
Programa AVES.
3. Referências
Abrantes, P. (Ed.). (2001). Currículo Nacional do Ensino Básico. Competências Essenciais. Lisboa: Ministério da Educação. Departamento de Educação Básica.
Gronlund, N. E. (1981). Measurement and Evaluation Techniques (4th ed.). New York: MacMillan Publishing.
Hill, M. M., & Hill, A. (2002). Investigação por Questionário (2ª ed.). Lisboa: Edições Sílabo.
Moreira, J. M. (2004). Questionários: Teoria e Prática. Coimbra: Almedina.
Pereira, A. (2004). Guia Prático de Utilização do SPSS - Análise de Dados para as Ciências Sociais e Psicologia. (5ª ed.). Lisboa: Edições Sílabo.
Pestana, M. H., & Gageiro, J. N. (2000). Análise de Dados para as Ciências Sociais. A Complementaridade do SPSS (2ª ed.). Lisboa: Edições Sílabo.