vitor alaiz - fmleao.pt · limitações do estudo..... 3 4. análise longitudinal do nível...

��

Relatório sobre a ANÁLISE DE RESULTADOS das

PROVAS de CONHECIMENTO de 2001 a 2005

Vitor Alaiz

INDICE 1. Introdução......................................................................................................... 2 2. Descrição da base de dados .............................................................................. 3 3. Limitações do estudo ........................................................................................ 3 4. Análise longitudinal do nível académico dos alunos ....................................... 4

Procedimentos de análise...................................................................................... 4 Comparação longitudinal do desempenho em Matemática.................................. 5 Comparação longitudinal do desempenho em História........................................ 7 Comparação longitudinal do desempenho em Ciências da Natureza................... 8 Comparação longitudinal do desempenho em Português................................... 10 Resultado global da análise ao nível académico de entrada no 7º ano............... 11

5. Análise do desempenho em categorias específicas de itens ........................... 12 Desempenho em Ciências da Natureza .............................................................. 12 Desempenho em Português ................................................................................ 16 Desempenho em História.................................................................................... 17 Resultado global da análise em categorias específicas de itens ......................... 20

6. Análise de resultados em função do género: .................................................. 21 Questão de investigação ..................................................................................... 21 Selecção da técnica estatística ............................................................................ 21 Análise dos resultados ........................................................................................ 22 Conclusão geral da análise de resultados vs género ........................................... 30

7. Análise resultados em função do NSE ........................................................... 32 Análise dos resultados ........................................................................................ 32 Conclusão ........................................................................................................... 44

8. Análise de itens de provas de conhecimento de 2004/200 ............................. 45 Introdução........................................................................................................... 45 Metodologia........................................................................................................ 46 Análise de itens: quadro teórico ......................................................................... 46 Análise dos itens (II): procedimentos................................................................. 46 Breve resumo da análise de itens........................................................................ 47 Estimação da fiabilidade interna ........................................................................ 48 Índice de dificuldade .......................................................................................... 48 Índice de discriminação ...................................................................................... 48 Conclusões da análise das provas....................................................................... 48

3. Referências ..................................................................................................... 49

Programa AVES Análise das Provas de Conhecimento

- 2 -

1. Introdução

Este texto resume um conjunto de análises1 que tomaram como objecto a base de dados

constituída pelos resultados dos alunos nas provas de conhecimento que têm vindo a ser

aplicadas ao longo dos anos de vigência do Programa AVES.

Este Programa baseia-se em várias baterias de provas externas. Entre estas, as provas

de conhecimento (relativas às disciplinas de Língua Portuguesa, História, Ciências da

Natureza2 e Matemática3) constituem um subconjunto importante, cujos resultados

permitiram a constituição de uma base de dados de uma dimensão rara em Portugal.

Esses resultados originaram relatórios que foram enviados regularmente a cada escola

participante no Programa.

Entendeu-se que era chegado o momento de iniciar4 um conjunto de análises

procurando realizar outras leituras, outras interpretações a partir da informação

disponível nessa base de dados.

Considerou-se que os resultados obtidos constituíam uma ampla amostra (não aleatória,

é certo) de algumas das aprendizagens dos alunos do 3º ciclo e do secundário das nossas

escolas, públicas e privadas. Sublinhamos algumas das aprendizagens porque os dados

disponíveis não constituem uma informação exaustiva sobre as mesmas: há

competências dos nossos alunos sobre as quais a informação recolhida nada permite

dizer. Sirva de exemplo óbvio, em Língua Portuguesa, as “competências específicas no

domínio do modo oral” (Abrantes, 2001: 32) ou a “capacidade para usar

multifuncionalmente a escrita, com as escolhas decorrentes da função, forma e

destinatário” (Ibid., 35). Mas seria certamente um desperdício incompreensível que não

se fizesse uma reflexão sobre um conjunto tão vasto de dados empíricos. Note-se que,

em algumas disciplinas, realizaram o mesmo teste cerca de 11000 alunos.

A análise situou-se numa perspectiva longitudinal e as questões que a orientaram foram

basicamente as seguintes:

a) Existe alguma tendência assinalável nos resultados dos alunos em cada uma das

disciplinas?5

1 As análises que constam deste relatório basearam-se em ficheiros SPSS preparados a partir das folhas de resultados dos testes por alguns membros da Equipa do Programa AVES, em particular, Natália Magalhães e Sandra Guerreiro. O texto foi revisto por Duarte Ribeiro. 2 Ou Ciências da Terra e da Vida no Ensino Secundário. 3 Abrevidadamente, PORT, CN, HIST, MAT. 4 Outras análises se seguirão a partir quer da base actual, quer dos dados decorrentes de novas aplicações. 5 Os alunos sabem cada vez menos? seria a formulação desta questão em termos de senso comum.


- 3 -

b) Em cada disciplina, onde se situam as maiores dificuldades de aprendizagem

dos alunos? Nas aprendizagens mais elementares ou nas de nível mais

complexo?

c) Como caracterizar, nas diferentes disciplinas, o desempenho das alunas

relativamente ao dos alunos?

d) Os dados disponíveis permitem dar alguma resposta à questão da relação entre

resultados académicos e origem social dos alunos?

2. Descrição da base de dados

Os alunos das escolas aderentes ao Programa realizaram testes a um máximo de 4

disciplinas por ano (7º, 9º, 11º), a saber, MAT, PORT, CN, HIST.

As respostas dos alunos aos testes foram transpostas para sistema informático através de

leitor óptico. A leitura automática foi objecto de validação por pessoal especializado. Os

dados daí resultantes foram transpostos para ficheiros SPSS. Todas as análises

apresentadas neste relatório foram efectuadas com base nos ficheiros SPSS.

O leitor atento verificará que existem algumas discrepâncias e lacunas nos dados da

análise adiante apresentada. Isso ficou a dever-se a vários factores que seria fastidioso

enumerar. A título de exemplo, refira-se que o nº de alunos em cada ano e em cada

disciplina não foi sempre o mesmo por várias razões: por vezes algumas turmas, no dia

do teste respectivo, encontravam-se fora da escola (em visita de estudo); noutras vezes

registou-se absentismo de alguns alunos (falta por doença, etc.). Em alguns casos houve

necessidade de avançar com a construção dos ficheiros SPSS sem alguns dados por

atraso de uma escola no envio dos resultados.

3. Limitações do estudo

O estudo deve ser encarado como tendo um carácter exploratório. Pretende apresentar

um conjunto de inferências feitas a partir dos dados disponíveis, sem todavia pretender

que essas inferências tenham legitimidade para generalizações imediatas ao conjunto da

população escolar portuguesa.

Por outro lado, limitações da base de dados decorrentes da obrigatoriedade de

confidencialidade não permitiram levar mais longe esta análise.


- 4 -

4. Análise longitudinal do nível académico dos alunos

Procedimentos de análise

Para responder à 1ª questão, relativa à eventual descida do nível académico ao longo

dos anos, considerou-se pertinente analisar os resultados dos alunos nos testes de

entrada de que o Programa dispõe, ou seja, nos do 7º das várias disciplinas. Por outras

palavras, foram comparados os resultados totais de cada conjunto de alunos

(correspondente a um ano lectivo) em cada disciplina, em cada um dos 4 anos lectivos

(2001/2002 a 2004/5) para os quais estão disponíveis dados em ficheiros SPSS.

Procurando operacionalizar esta questão, foram formuladas as seguintes questões: - Em Matemática: sabe-se cada vez menos? Ou será o inverso? - Os sucessivos grupos de alunos sabem mais? Ou menos? - A mesma tendência manifesta-se em todos os anos lectivos?

Dito de outro modo: - com os mesmos testes6, os resultados dos diferentes grupos de alunos (os que entram em cada ano) apresentam-se constantes, pioram ou melhoram?

Daqui surgem as seguintes hipóteses: Hipótese nula:

H�: As médias a Matemática na variável TOTAL mantêm-se constantes ao longo dos anos.

Hipótese alternativa: H1: As médias a Matemática na variável TOTAL apresentam, ao longo dos anos, diferenças estatisticamente significativas.

Esta questão traduz-se nas seguintes hipóteses operacionais: Hipótese nula:

Ho: µ2001 = µ2002 = µ2003 = µ2004

onde µ é a média dos resultados dos alunos nos testes de Matemática. Hipótese alternativa:

Ha: Nem todos os µi são iguais, ou seja, há diferenças (significativas) entre as médias.

O que se refere em relação à Matemática foi homologamente realizado com as outras disciplinas do 7º ano.

Para a selecção da técnica estatística atendeu-se, num primeiro momento, à natureza das

variáveis:

a) Variável independente: o tempo, medido em termos de ano lectivo de aplicação

dos testes, designada por anolectivo. Trata-se de uma variável numérica.

b) Variável dependente: o resultado total em cada teste, designada por TOTAL.

Trata-se de uma variável expressa numa escala métrica, de intervalos. 6 Nalguns casos, utilizaram-se os resultados de testes homólogos, ou seja, com o mesmo nº de itens, com a mesma matriz, mas com alguns itens substituídos por outros equivalentes.


- 5 -

Num segundo momento, considerou-se que tínhamos 4 amostras7 independentes,

constituídas pela totalidade dos resultados nas provas de conhecimento de cada ano em

cada disciplina. Além disso, foi feita a verificação relativamente às condições de

legitimidade dos testes paramétricos (Hill, 2002: 195). De facto, a variável dependente

obedece a duas características:

a) Valores da variável (dependente) medidos em escala métrica;

b) Valores da variável (dependente) com distribuição próxima da normal. Acresce

que essa exigência, para alguns especialistas, só é necessária para “amostras de

dimensão inferior ou igual a 30” (Pestana e Gageiro, 2000:159 e 160, cf. 194).

Ora, neste caso, dispunha-se de amostras com cerca de 4000 sujeitos cada.

c) Porém, a exigência de homocedasticidade (ou seja, de homogeneidade de

variância8) não se verificou. Por isso recorremos a testes não-paramétricos e a

análises de gráficos.

Comparação longitudinal do desempenho em Matemática

A simples análise do gráfico das médias dos resultados dos alunos no teste de

Matemática do 7º ano revela que o nível académico de entrada não revela tendência

para diminuir, antes pelo contrário, como se vê no gráfico seguinte.

Gráfico 1. MATEMÁTICA 7º

7 Tendo em conta que a versão da base de dados do AVES de que dispúnhamos no momento de realização da análise estava incompleta em algumas variáveis, tivemos de limitar a análise a apenas 3 anos em alguns casos. 8 “O pressuposto de homogeneidade de variância requer que a variância da variável dependente seja igual para todos os valores da variável (ou variáveis) independentes” (Hill e Hill, 2002: 237).


- 6 -

2001 2002 2003 2004anolectivo

12,50

13,00

13,50

14,00

14,50

Mea

n of

tota

l

Além disso, a análise do gráfico de dispersão mostra que, desprezados os casos

extremos, as distribuições não revelam uma tendência descrescente antes ligeiramente

crescente, embora com valores relativamente próximos.


2001 2002 2003 2004anolectivo

0,00

10,00

20,00

30,00

40,00

tota

l

2.5292.526

2.523

3.129

2.7722.784

2.7532.824

6.1996.076

7.033

4.7684.085

6.722

5.521

5.6255.591

879

852798

762845

7.638

10.867

10.4969.344

10.53210.48610.590 11.0622.058

O gráfico seguinte evidencia mais claramente este aspecto de acréscimo das médias em cada um dos anos considerados:



- 7 -

2001 2002 2003 2004

anolectivo

11,00

11,25

11,50

11,75

12,00

12,25

12,50

Mea

n +-

2 S

E to

tal

Finalmente, aplicado o teste ANOVA aos resultados, pode-se concluir que há diferenças significativas entre as médias (0,000).

Quadro 1. MATEMÁTICA 7º ANOVA total

Sum of Squares df Mean Square F Sig. Between Groups 4803,592 3 1601,197 73,876 ,000 Within Groups 250358,119 11551 21,674 Total 255161,711 11554

Comparação longitudinal do desempenho em História

Também nesta disciplina não é possível falar num decréscimo do nível de entrada: os

resultados ilustram uma tendência de subida, apesar de não inteiramente linear.

Gráfico 2. HISTÓRIA 7º

2001 2002 2003 2004

anolectivo

12,60

12,90

13,20

13,50

13,80

14,10

tota

l (m

édia

s)

Esta tendência revela-se também se tivermos em conta (cf. gráfico seguinte) o valor das

medianas das 4 distribuições, que aumenta nos dois últimos anos, tal como diminui o

valor mínimo da distribuição (se excluirmos alguns casos extremos).


- 8 -

Gráfico 3. HISTÓRIA 7º

2001 2002 2003 2004anolectivo

0,00

5,00

10,00

15,00

20,00

25,00

30,00

tota

l

2.747

1.808

11.72111.092

11.397

10.2899.2018.425

848762 760

753763

7.0113.498

6.0985.797

4.486

O teste ANOVA revela que as diferenças entre as médias dos 4 grupos de alunos é significativa.

Gráfico 3. HISTÓRIA 7º ANOVA total


Comparação longitudinal do desempenho em Ciências da Natureza

Das aplicações de testes de Ciências da Natureza surgem resultados que também

representam alguma melhoria no desempenho dos alunos ao longo destes 4 anos. De

facto, como revela o gráfico seguinte, as médias seguem uma linha continuamente

ascendente.

Gráfico 4. CIÊNCIAS 7º

2001 2002 2003 2004anolectivo

11,20

11,40

11,60

11,80

12,00

12,20

12,40

Mea

n of

tota

l


- 9 -

O gráfico seguinte também indicia um crescimento porque a mediana dos dois últimos anos se situa em níveis superiores aos dos dois primeiros anos.


2001 2002 2003 2004

anolectivo

0,00

5,00

10,00

15,00

20,00

25,00

30,00

5.774

7.4327.3607.338

7.123

7.3297.324

9.979

8.7648.627

7.855

11.53210.304

8.9658.009

10.341 8.204

611

648

423

A mesma tendência de acréscimo positivo se revela no gráfico seguinte que indica a

dispersão – em cada ano - a 2 desvios padrões da média.9


2001 2002 2003 2004

anolectivo

11,00

11,25

11,50

11,75

12,00

12,25

12,50

Mea

n +-

2 S

E to

tal

O resultado do teste ANOVA revela que as diferenças entre as médias dos 4 grupos de

alunos é significativa (0,000).

Gráfico 7. CIÊNCIAS 7º - Teste ANOVA -

Sum of Squares df Mean Square F Sig.

9 “Note-se que o intervalo de confiança a 95% corresponde aproximadamente a 2 desvios padrões da média” (Pestana e Gageiro, 2000: 196).


- 10 -

Between Groups 1277,755 3 425,918 31,808 ,000

Within Groups 158726,853 11854 13,390

Total 160004,608 11857

O teste de Tuckey HSD revela por sua vez que todas as diferenças entre as médias são significativas, excepto entre as dos dois anos iniciais.

Comparação longitudinal do desempenho em Português

Os resultados nesta disciplina diferenciam-se dos demais, porque revelam uma tendência decrescente que apenas foi significativamente invertida no último ano.

Gráfico 8. PORTUGUÊS 7º

2001 2002 2003 2004anolectivo

11,50

12,00

12,50

13,00

13,50

14,00

Mea

n of

tota

l

A leitura do gráfico seguinte parece indicar o ano de 2003 como um ano atípico num

quadro de relativa estabilidade dos resultados. Ou seja, também aqui não parece

possível falar de uma tendência claramente descendente do nível académico. Mas

também não é possível afirmar o inverso.

Gráfico 8. PORTUGUÊS 7º


- 11 -

2001 2002 2003 2004anolectivo

0,00

5,00

10,00

15,00

20,00

25,00

30,00

tota

l

1.8321.831

1.973

2.725

822

748

61

O resultado do teste ANOVA revela que as diferenças entre as médias dos 4 grupos de alunos é significativa (0,000).

Gráfico 8. PORTUGUÊS 7º ANOVA - total


Também aqui o teste de Tuckey HSD revela, por sua vez, que todas as diferenças entre

as médias são significativas, excepto entre as dos dois anos iniciais.

Resultado global da análise ao nível académico de entrada no 7º ano

A interpretação global destas análises é a de que a tese catastrófica segundo a qual o

“nível académico desce”10 não se confirma em 3/4 das disciplinas.

Todavia, os resultados na disciplina de Português levam-nos a pensar que também

poderá não ser inteiramente válida uma generalização de sentido contrário: “o nível

académico sobe”.

Ou seja, com estes dados parece-nos legítimo rejeitar quer uma tese pessimista, quer

uma outra excessivamente optimista sobre as aprendizagens destes alunos. Estas teses

devem dar lugar a uma visão mais matizada, mais multicolor do que o simplismo que

pode resultar da generalização apressada de qualquer um dos dois enunciados

supracitados.

10 Ou, em versão mais de senso comum, “eles [os miúdos, os alunos] cada vez sabem menos”


- 12 -

Porém, convém que esta análise longitudinal, com uma propensão algo mais optimista

do que pessimista, não esconda um facto nada animador: as distribuições de resultados

situam-se em níveis mais baixos do que aquilo que seria, digamos, desejável. As médias

e as medianas destas distribuições de resultados situam-se sempre abaixo dos 50% de

resultados em cada teste, apesar das tendências evolutivas supracitadas.

5. Análise do desempenho em categorias específicas de itens11

A análise apresentada no capítulo anterior referia-se ao resultado global em cada

disciplina. Considerou-se que uma análise complementar da anterior, mais

pormenorizada, relativa ao desempenho dos alunos em diversas categorias de itens,

poderia fornecer informação útil. O trabalho realizado nessa perspectiva é resumido nas

linhas que se seguem.

De acordo com as matrizes dos testes, foram tidos em conta dois conjuntos de

categorias de itens:

a) Um relativo aos níveis da taxonomia de objectivos educacionais tida em conta

pelos autores de cada teste.

b) Outro relativo às áreas de conteúdo de cada disciplina contempladas no

respectivo teste.

De salientar que os níveis taxonómicos utilizados não são inteiramente coincidentes nas

várias disciplinas, nem no número, nem na respectiva designação. Por outro lado,

devido a especificidades da matriz da prova de Matemática, esta análise não foi feita

nessa disciplina.

Desempenho em Ciências da Natureza

Nesta disciplina, a distribuição dos resultados no conjunto de itens relativo aos

objectivos mais simples, ou seja, aquisição e compreensão se situam em valores muito

superiores aos do objectivo aplicação, como a leitura do gráfico seguinte permite

verificar. Isto significa que os alunos têm melhor desempenho nas tarefas mais

próximas da estratégia de memorização ou, para usar terminologia de Ausubel, da

aprendizagem por recepção.

11 Esta análise corrige afirmações que fizemos anteriormente com base numa amostra de dados e não com a totalidade de dados disponíveis como agora acontece.


- 13 -

2001 2002 2003 2004anolectivo

0,2

0,3

0,4

0,5

95%

CI

Aquisição

Compreens

Aplicação

Por nível taxonómico

CN 7º Comparação de médias

Aplicado o teste de Friedman verificamos que a diferença entre as médias dos resultados destas 3 variáveis é estatisticamente significativa (0,000):

Friedman Test – Ranks – CN 7º

Mean Rank

2,18

compreensão 2,41

Aplicação 1,41

Test Statistics(a)

N 11858

Chi-Square 6534,536

df 2

Asymp. Sig. ,000

a Friedman Test

Uma interpretação possível é a de que o ensino que estes alunos receberam valorizava

sobretudo a memorização de conhecimentos. Esta interpretação é reforçada pela análise

do gráfico seguinte em que fica patente a diferença nas respostas às questões de

procedimento: o desempenho nas questões “não experimentais” é visivelmente superior

ao das questões “experimentais”.


- 14 -

2001 2002 2003 2004

anolectivo

0,38

0,40

0,42

0,44

0,46

0,48

0,50

0,52

0,54

0,56

95%

CI

Experim

NExperim

Por nível taxonómico

CN 7º Comparação de médias

Em reforço desta interpretação, verificamos, aplicado o teste de Wilcoxon, que a diferença entre as médias dos resultados destas duas variáveis (exper/Nexper) é estatisticamente significativa (0,000):

Wilcoxon Signed Ranks Test - Ranks - CN 7º

N Mean Rank Sum of Ranks

Negative Ranks 4045(a) 4911,17 19865693,00

Positive Ranks 7710(b) 6385,24 49230197,00

Ties 103(c) NExperim - Experim

Total 11858

a NExperim < Experim b NExperim > Experim c NExperim = Experim

Test Statistics(b)

NExperim - Experim

Z -39,980(a)

Asymp. Sig. (2-tailed) ,000

a Based on negative ranks. b Wilcoxon Signed Ranks Test

A análise dos resultados por área de conteúdo programático revelou que os alunos têm em cada uma dessas áreas um desempenho relativamente congruente ao longo dos anos. Este resultado permite formular a hipótese de que as aprendizagens que os alunos realizaram anteriormente eram relativamente uniformes nesta disciplina.


- 15 -

2001 2002 2003 2004

anolectivo

0,4

0,5

0,6

0,7

95%

CI

Diversid

AguaAr

PVitais

Agressoe

CN 7º Resultados por área de conhecimento

Aplicado o teste de Friedman a 3 dessas 4 áreas de conteúdos verificamos que há diferenças estatísticas entre as respectivas médias:

Friedman Test - Ranks

Mean Rank Diversid 2,03 AguaAr 2,06 PVitais 1,91

Test Statistics(a)

N 11858 Chi-Square 162,733 df 2 Asymp. Sig. ,000

a Friedman Test

Por outro lado, o resultado na variável Agressoe parece revelar um conhecimento cada

vez maior por parte destes alunos relativamente à temática das agressões ao meio

ambiente. De facto, o teste de Wilcoxon revelou que há diferenças estatisticamente

significativas entre os resultados em cada uma das 3 áreas programáticas supracitadas e

a que é avaliada pelos itens que integram a variável Agressoe.

Em resumo, estes dados permitem formular com algum fundamento duas hipóteses para

futura investigação: (a) a de que nesta disciplina, nos anos anteriores ao 7º ano de

escolaridade, o ensino terá valorizado preferencialmente a memorização de

conhecimentos relativamente à aplicação do mesmo a novas situações; e (b) a de que


- 16 -

terá privilegiado o ensino livresco (passe o termo) relativamente ao ensino

experimental.

Desempenho em Português

Nesta disciplina, exceptuando o ano de 2003, a distribuição dos resultados nos itens de

interpretação e aplicação revela-se ou equivalente, ou pelo menos muito semelhante.

2001 2002 2003 2004anolectivo

0,0

0,5

1,0

1,5

2,0

2,5

95%

CI

Interpretação

Aplicação

PORT 7º Comparação de médias por nível taxonómico

No mesmo sentido, se continuarmos a excluir os resultados do ano 2003 (dado o seu

carácter atípico), verificamos, através do teste de Wilcoxon, que entre os resultados nos

dois tipos de itens não há diferença estatisticamente significativa (0, 947):

Wilcoxon Signed Ranks Test - Ranks - PORT 7º

N Mean Rank Sum of Ranks

Negative Ranks 3386(a) 3442,54 11656440,00

Positive Ranks 3445(b) 3389,91 11678256,00

Ties 587(c)

Aplicação - Interpretaç

Total 7418

a Aplicação < Interpretaç b Aplicação > Interpretaç c Aplicação = Interpretaç

Test Statistics(b)

Aplicação - Interpretaç

Z -,067(a) Asymp. Sig. (2-tailed) ,947



- 17 -

Por outro lado, dos 3 domínios considerados nesta prova de Português, é nos itens relativos à Informação que se verificam os piores resultados.

2001 2002 2003 2004anolectivo

0,33

0,36

0,39

0,42

0,45

0,48

0,51

0,54

0,57

95%

CI

Narrativa

Informa

Lirico

Por tipo de objectivo (ou área de conteúdo)

PORT 7º Comparação de médias

Aplicado o teste de Friedman verifica-se que as diferenças entre as respectivas médias são significativas:

Friedman Test - Ranks - PORT 7º

Mean Rank

Narrativa 2,24

Informa 1,50

Lirico 2,26

Test Statistics(a)

N 12040

Chi-Square 4958,925

df 2

Asymp. Sig. ,000

a Friedman Test

A análise de resultados nesta disciplina não se afigura fácil porque não são evidentes as

tendências evolutivas. Confrontando estes resultados com os das outras disciplinas em

análise, parece legítimo formular uma hipótese para futura investigação: a de que as

estratégias de ensino do Português nos anos anteriores ao 7º apresentam, nas diferentes

escolas, maior variabilidade que as das outras disciplinas.

Desempenho em História


- 18 -

A leitura do gráfico seguinte permite verificar que no primeiro ano (2001) a média dos

resultados no objectivo conhecimento se situa num valor superior aos do objectivo

compreensão, mas que esta tendência se inverte nos anos subsequentes.

2001 2002 2003 2004

anolectivo

0,40

0,41

0,42

0,43

0,44

0,45

0,46

0,47

95%

CI

Conhecimento

Compreensão

HIST7º Distribuição de resultados por objectivo educacional

Como interpretar? Com a ajuda do gráfico de barras adiante apresentado (que isola os valores atípicos) é possível afirmar que a distribuição de resultados para além de uma tendência global para melhorar revela que enquanto no caso do objectivo conhecimento a distribuição em torno da mediana é equilibrada, no caso do objectivo compreensão ela (em 3 dos 4 casos) se apresenta mais assimétrica com maior amplitude dos valores abaixo da mediana.


- 19 -

2001 2002 2003 2004anolectivo

0,00

0,20

0,40

0,60

0,80

1,00

848760

763757

755752750 748

741

7.011

5.2863.498

2.747

1.811

1.809

11.00810.289

10.0459.8719.199

8.623

9.2009.1989.194

7.342

7.0115.2955.2924.454

6.6326.164

5.562

3.6073.599

11.721

11.09210.884

2.8332.829

2.7732.761

2.188

2.7432.739

945870

865820808

807764

763

761760 758

Conhecimento

Compreensão

Aplicado o teste de Wilcoxon verificamos que há diferença estatística entre os valores das duas variáveis.

Wilcoxon Signed Ranks Test - Ranks - HIST 7º -

N Mean Rank Sum of Ranks Negative Ranks 5653(a) 5851,95 33081049,50 Positive Ranks 6257(b) 6049,06 37848955,50 Ties 7(c)

Compreensão - Conhecimento

Total 11917

a Compreensão < Conhecimento b Compreensão > Conhecimento c Compreensão = Conhecimento

Test Statistics(b)

Compreensão - Conhecimento

Z -6,354(a)

Asymp. Sig. (2-tailed) ,000


Atendendo a que os itens de conhecimento representam 55% dos itens desta prova (o

que não é pouco) estes resultados levam-nos a formular uma hipótese para futura

análise: a de que se está a manifestar uma tendência para tornar menos forte a

memorização nesta disciplina. Parece pertinente ainda colocar uma questão de

investigação: essa tendência estará relacionada com a reestruturação curricular do

Ensino Básico?

A análise da distribuição dos resultados por área programática revela-nos que o Tema

Um é aquele em que os alunos revelam melhor desempenho e que o Tema Três é aquele


- 20 -

em que é obtêm piores resultados. Por outro lado, os temas DoisA e DoisB apresentam

distribuições relativamente semelhantes, com ligeira vantagem para o tema DoisB.

2001 2002 2003 2004

anolectivo

0,00

0,20

0,40

0,60

0,80

1,006.629

6.1644.494 10.331

10.3178.050

7.8581.811

1.807

1.0521.046

764

763761758

757749

11.46711.05411.017

10.2429.040

11.4629.692 7.871

2.7472.7401.795

1.7811.186 7.5026.949

6.883

6.0984.977

6.5203.536

3.535 TemaUmTemaDoisATemaDoisBTematrês

Resultado global da análise em categorias específicas de itens

Em resumo, esta análise mostra-nos que não são legítimos os juízos simplistas sobre as aprendizagens dos nossos alunos nos seis primeiros anos de escolaridade. O panorama nas diversas disciplinas não é uniforme: há casos em que os dados indiciam práticas pedagógicas que estimulam aprendizagens de menor complexidade cognitiva e que subvalorizam a aprendizagem experimental, enquanto noutros a compreensão ombreia com a (ou tende a sobrepor-se à) mera memorização (ou conhecimento). Porém, esta análise inicial reclama análises mais finas que tenham em conta a composição social da escola, o género e outros factores. Paralelamente, reclama também uma atenção redobrada à categorização dos itens nas matrizes das provas de conhecimento.


- 21 -

6. Análise de resultados em função do género

Questão de investigação O género12 é um factor de rendimento escolar (representado pela variável TOTAL)? Ou seja: o género explica parte da variação dos resultados nos testes? Esta questão traduz-se nas seguintes hipóteses operacionais: Hipótese nula:

Ho: µMasculino = µFeminino, onde µ é a média do resultado nos testes. Hipótese alternativa:

Ha: µ Masculino � µ Feminino Selecção da técnica estatística

a. Natureza das variáveis

Estamos perante duas variáveis:

c) Variável independente: o género, designada por SEXO. Esta é uma variável

dicotómica, caso especial de variável nominal. Essa característica vai permitir-nos

definir duas amostras independentes.

d) Variável dependente: o resultado total em cada teste, designada por TOTAL.

Trata-se de uma variável expressa numa escala métrica, de intervalos.

b. Escolha do teste estatístico

Consideramos que temos duas amostras independentes (alunos e alunas). Por outro lado,

a variável dependente obedece a duas características dos testes paramétricos (Hill, 2002:

195):

d) Valores da variável dependente medidos em escala métrica;

e) Valores da variável dependente com distribuição próxima da normal (cf.

exemplo no quadro I, infra). Acresce que essa exigência é considerada, segundo

alguns especialistas, necessária apenas para “amostras de dimensão inferior ou

igual a 30” (Pestana e Gageiro, 2000:159 e 160)13. E o N destes ficheiros é de

cerca de 10000 casos.

12 Representado nos ficheiros SPSS desta base de dados pela variável SEXO, com valores 1 = Masculino (ou alunos) e 2 = Feminino (ou alunas). 13 Este aspecto é fundamentado na mesma obra, mais adiante, a propósito do teste One-Way ANOVA (Pestana e Gageiro, 2000: 194).


- 22 -

Quadro I

0,00 10,00 20,00 30,00total

0

200

400

600

800

1.000

1.200Fr

eque

ncy

Mean = 13,6249Std. Dev. =

4,47488N = 11.808

Resultados PORT 9º (em 4 anos)

f) Nessa perspectiva, também se assumiu que o pressuposto da homocedasticidade pode ser desrespeitado aqui porque o quociente M/F < 1,5 , ou seja, realizaram o teste quase tantos alunos como alunas. Por isso, foi utilizada uma técnica paramétrica, o teste t para duas amostras independentes14 (Hill, 2002: 159 e 196-7).

Análise dos resultados

a. Teste de CN 7º (em 4 anos) Uma 1ª análise mostra que nesta disciplina os alunos têm uma média ligeiramente inferior à das alunas.

T-Test.........Group Statistics.............CN7º (em 4 anos)

6290 11,9704 3,70103 ,04667

5470 12,1742 3,64168 ,04924

Sexo :M

F

totalN Mean Std. Deviation Std. Error Mean

O resultado do teste t, apresentado na tabela seguinte, mostra que esta diferença deve ser considerada estatisticamente significativa:

14 Excepto num caso, HIST 11º em que houve desproporção entre M/F. Nesse caso foi utilizado o teste de Mann-Whitney.


- 23 -

Independent Samples Test

,779 ,377 -3,001 11758 ,003 -,20379 ,06792 -,33692 -,07067

-3,004 11580,897 ,003 -,20379 ,06784 -,33677 -,07082

Equal variancesassumed

Equal variancesnot assumed

totalF Sig.

Levene's Testfor Equality of

Variances

t dfSig.

(2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Por isso, é necessário rejeitar a Hipótese nula: Ho: µHomens = µMulheres. Ou seja, há

diferença significativa entre os alunos e as alunas em CN7º no ano de 2001/2002. Ou

ainda: a variável género produz diferença significativa nos resultados.

O sinal negativo do valor do teste t confirma que a média do 1º grupo (alunos) é menor

do que a média do 2º grupo (alunas) (cf. Pestana e Gageiro, 2000: 187, nº 8).

b. Teste de HIST 7º (em 4 anos)

Verifica-se que as alunas têm melhor resultado (média) do que os alunos:

T-Test.........Group Statistics............HIST 7º (em 4 anos)

6322 13,6762 4,85881 ,06111

5501 13,8079 4,61121 ,06217

Sexo :M

F


Aplicado o teste t aos resultados da prova de HISTÒRIA do 7º ano, obtiveram-se os seguintes resultados:

Independent Samples Test ...........HIST 7º (em 4 anos)

21,720 ,000 -1,505 11821 ,132 -,13164 ,08749 -,30314 ,03986

-1,510 11732,379 ,131 -,13164 ,08718 -,30252 ,03924



totalF Sig.

Levene's Test forEquality ofVariances

t dfSig.

(2-tailed)Mean



Difference


A tabela mostra que apesar de haver diferença entre as médias dos alunos e das alunas, esta diferença não é estatisticamente significativa.

c. Teste de MAT 7º (em 4 anos)


- 24 -

Os resultados mostram que os alunos têm uma média melhor do que as alunas:

T-Test------------Group Statistics----------MAT 7º (em 4 anos)

4295 13,7322 4,72987 ,07217

3771 13,4116 4,37909 ,07131

Sexo :M

F


Esta diferença tem de ser considerada estatisticamente significativa.

Independent Samples Test----------MAT 7º (em 4 anos)

15,613 ,000 3,145 8064 ,002 ,32068 ,10197 ,12080 ,52057

3,161 8041,333 ,002 ,32068 ,10146 ,12180 ,51957



totalF Sig.


t dfSig.

(2-tailed)Mean

Difference

Std. ErrorDifferenc

e Lower Upper


Difference


Ou seja, os alunos têm um desempenho melhor do que as alunas a MATEMATICA 7º.

d. Teste de PORT 7º (em 4 anos) Também nestes dados se verifica que as alunas têm melhor resultado (média) do que os alunos:

t-tEST ...........Group Statistics............PORT 7º (em 4 anos)

6439 12,3303 4,34420 ,05414

5518 13,3440 4,50507 ,06065

Sexo :M

F


Como se pode verificar no quadro seguinte, há diferença significativa entre a média dos alunos e a das alunas.

T-Test .......................PORT 7º (em 4 anos)........................Independent Samples Test

11,307 ,001 -12,503 11955 ,000 -1,01363 ,08107 -1,1725 -,85473

-12,468 11535,660 ,000 -1,01363 ,08130 -1,1730 -,85428



totalF Sig.


t df

Sig.(2-taile

d)Mean

Difference

Std.Error

Difference Lower Upper


Difference



- 25 -

Também em Português 7º se verifica que as alunas têm melhor desempenho do que os alunos

e. Conclusão da análise de resultados das provas do 7º ano aplicadas ao longo de 4 anos

A conclusão que podemos tirar é a de que as diferenças nos resultados de 3 das 4 provas

de conhecimento aplicadas no 7º ano é estatisticamente significativa. A variável

GÉNERO parece ser factor explicativo das diferenças de resultados:

a) As alunas obtêm melhores resultados do que os alunos em 3 das 4 provas (e em duas

delas de forma significativa), particularmente em Português;

b) Os alunos conseguem melhores resultados (de forma estatisticamente significativa)

em Matemática.

Mas que será que esta tendência se mantém nos anos subsequentes?

f. Teste de CN 9º (em 4 anos)


T-Test ........Group Statistics..............CN 9º em 4 anos (10791)

5201 12,5928 3,79492 ,05262

5419 12,9406 3,76239 ,05111

Sexo :M

F


Como se pode verificar no quadro seguinte, a média das alunas regista uma diferença estatisticamente significativa relativamente à dos alunos:


1,660 ,198 -4,742 10618 ,000 -,34781 ,07334 -,4916 -,20404

-4,741 10591,865 ,000 -,34781 ,07336 -,4916 -,20402



totalF Sig.


Variances

t dfSig.

(2-tailed)Mean

Difference

Std. ErrorDifferenc

e Lower Upper


Difference


g. Teste de HIST 9º (em 4 anos) Neste teste os alunos revelam resultado ligeiramente melhor do que as alunas:


- 26 -

T-Test.............Group Statistics.................HIST 9º .....em 4 anos com 10246 nototal

4938 18,0405 5,29559 ,07536

5188 17,9401 5,00646 ,06951

Sexo :M

F


Porém, esta diferença não chega a ser estatisticamente significativa:


10,491 ,001 ,981 10124 ,327 ,10045 ,10238 -,10023 ,30113

,980 10012,787 ,327 ,10045 ,10252 -,10051 ,30141



totalF Sig.


Variances

t df

Sig.(2-taile

d)Mean

Difference

Std. ErrorDifferenc

e Lower Upper


Difference


h. Teste de MAT 9º (em 4 anos) Os resultados revelam que os alunos têm melhor resultado do que as alunas:

T-Test......... Group Statistics.............. MAT 9º (em 4 anos)

6006 13,4406 5,04567 ,06511

6063 12,9518 4,84187 ,06218

Sexo :M

F


E revelam também que essa diferença é estatisticamente significativa:


17,609 ,000 5,429 12067 ,000 ,48872 ,09001 ,31228 ,66516

5,428 12036,129 ,000 ,48872 ,09003 ,31225 ,66520



totalF Sig.


t dfSig.

(2-tailed)

MeanDifferen

ce

Std. ErrorDifferenc

e Lower Upper


Difference


i. Teste de PORT 9º (em 4 anos) Os resultados revelam novamente um melhor desempenho das alunas nesta disciplina:


- 27 -

T-Test...............Group Statistics..............PORT 9º (EM 4 ANOS)

4644 13,6748 4,47144 ,06561

4640 14,5110 4,48507 ,06584

Sexo :M

F




,127 ,722 -8,995 9282 ,000 -,83614 ,09295 -1,01835 -,65393

-8,995 9281,858 ,000 -,83614 ,09295 -1,01835 -,65393



totalF Sig.


Variances

t dfSig.

(2-tailed)Mean



Difference


j. Conclusão da análise de resultados das provas do 9º ano aplicadas ao longo de 4 anos

Os resultados do 9º ano quase confirmam integralmente as tendências identificadas nos

resultados do 7º ano:

As diferenças nos resultados de 3 das 4 provas de conhecimento aplicadas no 9º ano são

estatisticamente significativas. A variável GÉNERO parece ser factor explicativo das

diferenças de resultados:

a) As alunas obtêm melhores resultados do que os alunos em 2 das 4 provas,

particularmente em Português;


em Matemática e também em História (mas sem relevância estatística).

c) A História mantém-se como a disciplina em que não ocorrem diferenças

estatisticamente significativas quanto ao género.

k. Teste de CN 11º (em 4 anos)


T- TEST.....................Group Statistics............................CN 11º de 3 anos

1972 14,4817 3,42894 ,07722

2474 14,9151 3,31255 ,06660

Sexo :M

F



- 28 -

Como se pode verificar no quadro seguinte, a média das alunas regista uma diferença estatisticamente significativa relativamente à dos alunos:

Independent Samples Test......................T- TEST..................................CN 11º de 3 anos

2,246 ,134 -4,267 4444 ,000 -,43337 ,10157 -,63250 -,23424

-4,250 4159,572 ,000 -,43337 ,10197 -,63329 -,23346



totalF Sig.


t df

Sig.(2-taile

d)

MeanDifferenc

e

Std.Error



Difference


Ou seja, mantém-se a tendência dos anos anteriores (7º e 9º).

l. Teste de HIST 11º (em 4 anos) Neste teste os alunos revelam resultado melhor do que as alunas15:

Ranks .......Mann-Whitney Test ...........HIST 11º em anos

497 1060,59 527115,50

1390 902,31 1254212,50

1887

Sexo :M

F

Total

totalN Mean Rank Sum of Ranks

A diferença é estatisticamente significativa:

Test Statistics a

287467,500

1254212,500

-5,570

,000

Mann-Whitney U

Wilcoxon W

Z

Asymp. Sig. (2-tailed)

total

Grouping Variable: Sexo :a.

Isso significa uma alteração na tendência encontrada no ensino básico. Mas estes

resultados têm de ser relativizados dada a desproporção entre os dois géneros (497 vs.

1390) na realização deste teste.

15 Neste caso foi usado um teste não-paramétrico porque a discrepância entre o N dos 2 grupos (M e F) era superior ao ratio 1,5 tolerado no caso das provas paramétricas sem homecedasticidade (conforme referido supra). Este desequilíbrio deve agora ser explicado em termos das opções perante as diferentes ofertas formativas.


- 29 -

m. Teste de MAT 11º (em 4 anos) Os resultados revelam que as alunas têm melhor resultado do que os alunos:

T-Test ....... Group Statistics....MAT 11º

5708 10,7362 4,08398 ,05406

5801 11,3370 4,05242 ,05321

Sexo :M

F



Independent Samples Test...................... T-Test ...........MAT 11º

,018 ,893 -7,922 11507 ,000 -,60085 ,07584 -,74952 -,45219

-7,922 11500,419 ,000 -,60085 ,07585 -,74953 -,45218

AssumptionsEqualvariancesassumed

Equalvariances notassumed

Dependentvariablestotal

F Sig.


Variances

t df

Sig.(2-taile

d)

MeanDifferenc

e

Std.Error



Difference


Statistics

Ou seja, aqui inverte-se a tendência manifestada nos 7º e 9º anos: os alunos deixam de ter melhor desempenho do que as alunas.

n. Teste de PORT 11º (em 4 anos) Os resultados revelam novamente um melhor desempenho das alunas nesta disciplina:

T- TEST........................Group Statistics...................PORT 11º em 4 anos

7034 12,7279 5,31910 ,06342

8779 13,7634 5,55077 ,05924

Sexo :M

F




- 30 -


15,836 ,000 -11,876 15811 ,000 -1,03552 ,08720 -1,20643 -,86461

-11,932 15317,321 ,000 -1,03552 ,08679 -1,20563 -,86541



totalF Sig.


t df

Sig.(2-taile

d)Mean



Difference


Ou seja, mantém-se a tendência dos anos anteriores.

o. Conclusão da análise de resultados das provas do 11º ano aplicadas ao longo de 4 anos

Os resultados do 11º ano confirmam tendências identificadas nos resultados do 7º ano e

do 9º ano, ao mesmo tempo que realçam uma tendência mais ampla, com apenas uma

excepção.

As diferenças nos resultados de 3 das 4 provas de conhecimento aplicadas no 11º ano

são estatisticamente significativas. A variável GÉNERO parece ser factor explicativo

das diferenças de resultados:

a) As alunas obtêm melhores resultados do que os alunos em 3 das 4 provas,

particularmente em Português;


apenas em História, disciplina cujos resultados apresentavam (no 7º e 9º) um certo

equilíbrio entre os dois géneros. Porém, há que descontar que nesta disciplina deste ano

(HIST 11º) há uma desigualdade acentuada entre o número de alunos e alunas nos

grupos testados.

Conclusão geral da análise de resultados vs género

Resumindo esta análise e, em certa medida, simplificando, diríamos que as alunas

apresentam melhor propensão académica (considerando estas 4 disciplinas como


- 31 -

representativas do currículo formal) do que os alunos. Por outro lado, com o aumento da

escolaridade essa tendência tende a acentuar-se.

Os alunos predominam exclusivamente na disciplina de Matemática e apenas ao nível

do Ensino Básico.


- 32 -

7. Análise resultados em função do NSE

Desde a publicação do Relatório Coleman (1966) que uma parte da investigação

educacional tem procurado estudar a relação entre a origem socioeconómica e cultural

dos alunos e a aprendizagem escolar, medida através do respectivo resultado académico.

Tendo em conta os dados disponíveis, foi possível estudar a relação entre um indicador

do nível socioeconómico (NSE) e o resultado global no teste (TOTAL).

Na selecção do teste estatístico entendemos que deveria ser utilizada uma técnica não-

paramétrica porque os dados não obedecem às (e se distanciam das) exigências de um

teste paramétrico. Nomeadamente, o número de observações em cada grupo do NSE é

bastante diferenciado (com percentagens que, por exemplo, variam entre 8,4% e 26%):

Tabela de frequências NSE – CN7º de 4 anos

Frequency Percent Valid Percent Cumulative

Percent 1,00 991 8,4 13,3 13,3 2,00 2271 19,2 30,4 43,7 3,00 3082 26,0 41,3 84,9 4,00 1125 9,5 15,1 100,0

Valid

Total 7469 63,0 100,0 Missing System 4389 37,0

Total 11858 100,0

Ou seja, a frequência da variável níveis não respeita a regra enunciada por Pestana e

Gageiro (2000: 194). Isto levou-nos a utilizar o teste de Kruskal-Wallis.

Análise dos resultados16

CN 7º - TOTAL vs NSE em 4 anos

A simples observação do gráfico seguinte revela que há uma diferença significativa

entre as médias da variável TOTAL em função da variável NSE: quanto menor o nível

socioeconómico (NSE = 1 corresponde ao nível socioeconómico mais elevado) menor

tende a ser a média da variável TOTAL, ou seja, a média dos resultados na prova por

parte dos alunos pertencentes a esse grupo.

16 Nesta análise foram utilizados sempre que possível resultados de 4 anos de aplicação das provas. Porém, em alguns casos, só foram utilizados dados de 3 anos porque num dos ficheiros disponíveis no momento da análise não figurava a variável NSE.


- 33 -

1,00 2,00 3,00 4,00

nse

11,00

12,00

13,00

14,00

95%

CI t

otal

CN7º Comparação das médias e IC

Por sua vez, o teste de Kruskal-Wallis permite afirmar que a diferença entre as médias

dos diferentes grupos de alunos (definidos pelo seu NSE) é estatisticamente

significativa:

Kruskal-Wallis Test ......CN 7º ...........Ranks

991 4959,78

2271 3763,27

3082 3477,54

1125 3304,36

7469

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

411,770

3

,000

Chi-Square

df

Asymp. Sig.

total

Kruskal Wallis Testa.

Grouping Variable: nseb.

HIST 7º - TOTAL vs NSE em 4 anos

O gráfico de barras seguinte revela a mesma relação entre as variáveis NSE e TOTAL:

quanto menor o nível socioeconómico (NSE = 1 corresponde ao nível socioeconómico

mais elevado) menor tende a ser a média dos resultados no teste.


- 34 -

1,00 2,00 3,00 4,00

nse

12,00

13,00

14,00

15,00

16,00

17,00

18,00

95%

CI t

otal

HIST7 Comparaç de médias e IC

Por sua vez, também o teste de Kruskal-Wallis permite afirmar que a diferença entre as

médias desses grupos é estatisticamente significativa:

Kruskal-Wallis Test.......Ranks......HIST 7º em 4 anos

985 5316,82

2286 3971,91

3196 3388,81

1119 3243,96

7586

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

673,986

3

,000

Chi-Square

df

Asymp. Sig.

total



PORT 7º - TOTAL vs NSE em 4 anos A mesma relação ocorre na disciplina de Português, com um pequeno desvio no grupo NSE = 3


- 35 -

1,00 2,00 3,00 4,00

nse

11,00

12,00

13,00

14,00

95%

CI t

otal

PORT 7 Comparaç das médias e IC

O teste de Kruskal-Wallis permite afirmar que a diferença entre as médias desses grupos

é estatisticamente significativa:

Kruskal-Wallis Test........PORT 7º em 4 anos ..Ranks

1539 4690,06

2144 4087,60

2724 3178,92

1155 3423,81

7562

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

549,893

3

,000

Chi-Square

df

Asymp. Sig.

total



MAT 7º TOTAL vs NSE em 4 anos A relação acima identificada ocorre igualmente na disciplina de Matemática:


- 36 -

1,00 2,00 3,00 4,00

nse

12,00

13,00

14,00

15,00

16,00

17,00

18,00

95%

CI t

otal

MAT 7º Comparaç das médias e IC



Kruskal-wallis Test ......Ranks...MATEM 7º em 4 anos

986 4892,10

2283 3734,20

2859 3293,29

1134 3181,35

7262

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

490,936

3

,000

Chi-Square

df

Asymp. Sig.

total



CN 9º - TOTAL vs NSE em 4 anos

Repete-se a relação observada acima:


- 37 -

1,00 2,00 3,00 4,00

nse

11,50

12,00

12,50

13,00

13,50

14,00

14,50

95%

CI t

otal

CN 9º Comparaç de médias e IC



kRUSKAL-WALLIS Test....Ranks....CN9º em 4 anos

1097 6419,71

4590 5618,28

4135 4998,77

966 4860,89

10788

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

239,323

3

,000

Chi-Square

df

Asymp. Sig.

total




O gráfico de barras seguinte revela de forma mais nítida a relação supracitada entre as

variáveis NSE e TOTAL: quanto menor o nível socioeconómico (NSE = 1 corresponde

ao nível socioeconómico mais elevado) menor tende a ser o resultado no teste.


- 38 -

1,00 2,00 3,00 4,00

nse

16,00

17,00

18,00

19,00

20,00

21,00

22,00

95%

CI t

otal

HIST 9º Comparaç de médias e IC



Ranks...Kruslkal-Wallis Test......HIST 9º em 4 anos

1215 6831,19

4400 5194,87

3786 4704,25

843 4160,48

10244

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

575,239

3

,000

Chi-Square

df

Asymp. Sig.

total



PORT 9º - TOTAL vs NSE em 4 anos Também na disciplina de Português 9º se verifica a relação supracitada:


- 39 -

1,00 2,00 3,00 4,00

nse

11,00

12,00

13,00

14,00

15,00

16,00

17,00

95%

CI t

otal

PORT 9º Comparaç de média e IC



Kruskal-Wallis Test .....Ranks......PORT 9º em 4 anos

1191 8031,10

5285 5987,93

4323 5566,84

1009 4403,97

11808

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

707,773

3

,000

Chi-Square

df

Asymp. Sig.

total



MAT 9º TOTAL vs NSE em 4 anos A disciplina de Matemática 9º não foge à relação acima identificada:


- 40 -

1,00 2,00 3,00 4,00

nse

11,00

12,00

13,00

14,00

15,00

16,00

17,00

18,00

95%

CI t

otal

MAT 9º Comparaç de médias e IC



Kruskal-Wallis Test.....Ranks....MAT 9º em 4 anos

1159 8600,08

5303 6087,52

4622 5821,20

1141 4887,15

12225

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

748,158

3

,000

Chi-Square

df

Asymp. Sig.

total



CTV 11º - TOTAL vs NSE em 3 anos

A relação acima identificada entre as variáveis NSE e TOTAL também se torna

evidente no gráfico seguinte, embora com a excepção (parcial, atendendo ao respectivo

limite inferior) ao nível do NSE = 4:


- 41 -

1,00 2,00 3,00 4,00

nse

13,80

14,10

14,40

14,70

15,00

15,30

95%

CI t

otal

CTV 11º Comparaç de medias e IC



Ranks .... Kruskall-Wallis Test.... CN 11º de 3 anos

1131 2398,25

1745 2343,23

1472 2127,21

205 2119,86

4553

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

36,380

3

,000

Chi-Square

df

Asymp. Sig.

total




Já na disciplina de História 11º revela-se a mesma relação entre as variáveis NSE e

TOTAL, excepto quanto ao NSE = 4.


- 42 -

1,00 2,00 3,00 4,00

nse

16,00

17,00

18,00

19,00

20,00

95%

CI t

otal

HIST 11º Comparaç de médias e IC



Ranks.....Kruskal-Wallis Test .... HIST 11º em 3 anos

307 1130,04

970 1019,00

546 785,31

101 868,45

1924

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

96,787

3

,000

Chi-Square

df

Asymp. Sig.

total



PORT 11º - TOTAL vs NSE em 3 anos

Já na disciplina de Português 11º revela-se no essencial a mesma relação entre as

variáveis NSE e TOTAL, excepto quanto ao NSE = 3.


- 43 -

1,00 2,00 3,00 4,00

nse

10,00

11,00

12,00

13,00

14,00

95%

CI t

otal

PORT 11º Comparaç de médias e IC



Ranks.........Kruskal-Wallis Test.........PORT 11º em 4 anos

2886 8528,09

7876 7932,71

4814 8244,44

533 5589,42

16109

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

194,040

3

,000

Chi-Square

df

Asymp. Sig.

total



Em abono desta interpretação veja-se a composição social deste conjunto de alunos testados: o nível inferior de NSE aparece com um N entre 4 a 11 vezes menor que as outras categorias de NSE. MAT 11º TOTAL vs NSE em 3 anos A relação acima identificada só parcialmente ocorre na disciplina de Matemática (níveis 1,2,3, ou seja, os mais elevados):


- 44 -

1,00 2,00 3,00 4,00

nse

10,50

11,00

11,50

12,00

95%

CI t

otal

MAT 11º Comparaç de me´dias e IC



Kruskal-Wallis Test......Ranks.....MAT 11º EM 4 ANOS

2191 6838,49

5791 5756,04

3440 5475,77

333 5834,41

11755

nse1,00

2,00

3,00

4,00

Total

totalN Mean Rank

Test Statistics a,b

232,661

3

,000

Chi-Square

df

Asymp. Sig.

total



Conclusão

Como interpretar estes resultados?

Quanto aos resultados do Ensino Básico a interpretação parece evidente: há uma

associação entre a variável NSE e a variável TOTAL, ou seja, parte da variabilidade dos

resultados académicos é explicada pela origem socioecómica e cultural dos alunos.

E como explicar a relativa excepção dos resultados nas disciplinas do Ensino

Secundário? Uma hipótese explicativa poderia ser a de que no 11º ano de escolaridade,

o grupo dos alunos com menor NSE (aqui com o valor 4) não é uma amostra


- 45 -

representativa desse grupo, sendo constituído sobretudo pelos “sobreviventes”, aqueles

que dentro da totalidade dos alunos oriundos de estratos menos favorecidos que

frequentam o ensino básico melhor se adaptam às exigências do sistema de ensino e

conseguem prosseguir estudos. Ou seja, são os resistentes à selecção exercida pelo

sistema de ensino e respectivo contexto. Os restantes abandonam a escola no final da

escolaridade obrigatória. Em abono desta interpretação veja-se a composição social

deste conjunto de alunos testados: o nível inferior de NSE aparece (em Matemática do

11º) com um N entre 7 a 17 vezes menor que as outras categorias de NSE. Igual

desproporção acontece nas outras disciplinas do ensino secundário, mas isso não

acontece no ensino básico.

Estas conclusões não significam um regresso às teses de Coleman. Verifica-se a

existência desses factores contextuais, mas não há dados que permitam afirmar que

esses factores são exclusivos ou que deixam uma variabilidade insignificante para ser

explicada por outras variáveis. Por exemplo, o que o cálculo do valor acrescentado

permite justamente mostrar, na medida em que consegue “neutralizar” o efeito NSE, é

que uma parte da variabilidade dos resultados académicos dos alunos resulta do “efeito-

escola”, ou seja, da especificidade da escola que frequenta, do modo como ela se

estrutura e funciona.

8. Análise de itens de provas de conhecimento de 2004/2005

Introdução

Os testes de conhecimento são uma das pedras angulares do Programa AVES. A

qualidade técnica dos respectivos itens é por isso uma das condições básicas para

garantir a confiança nos resultados do programa.

Foram feitas duas análises17 à qualidade dos itens das provas de conhecimentos do

Programa AVES. O objecto de estudo era constituído pelas provas aplicadas entre 2001

e 2005.

17 O 1º ensaio foi objecto de uma apresentação interna em 17JUNHO 2005. o segundo em 7deJulho2005.


- 46 -

Metodologia

Análise de itens: quadro teórico

Os testes constituem um dos tipos de instrumentos de avaliação mais difundidos.

Enquanto instrumentos de medida, para serem funcionais, os testes devem apresentar as

propriedades de validade e de fiabilidade. No domínio da Avaliação Psicológica e da

Avaliação Educacional existem duas teorias sobre o modo como deve ser efectuada a

análise dos itens dos testes: a Teoria Clássica dos Testes (TCT ou, em inglês, CTT) e a

Teoria da Resposta ao Item (TRI ou, em inglês, IRT). Na análise que agora

apresentamos procedemos à utilização de apenas algumas das técnicas da TCT. Apesar

de incompleta, pensamos que existe uma adequada relação custo/benefício neste tipo de

análise18.

Análise dos itens (II): procedimentos

A análise da qualidade técnica dos itens das provas de conhecimentos foi feita com base

no cálculo dos índices de dificuldade e de discriminação.

O índice de dificuldade pode ser calculado de acordo com a fórmula:

IDif = % de respostas certas em cada item

De acordo com Gronlund (1974:118),

“os construtores de teste são encorajados a preparar

itens com nível de dificuldade de 50%. É somente neste

nível que a discriminação máxima é possível. “

Em face disto, foi feita uma análise item a item para saber quais os itens que tinham

maior dificuldade do que 50%. Foram considerados como itens difíceis os que tinham

menos do que 50% de acertos. E testes difíceis aqueles em que mais do que 50% dos

seus itens tenham índice de dificuldade superior a 50%.

Por sua vez, o índice de discriminação foi calculado com base em grupos

contrastantes, o grupo dos alunos com melhor desempenho e o dos alunos com menor

18 Esta análise, foi realizada tendo por objectivo a análise de qualidade das provas de conhecimento do Programa AVES. Eventualmente poderá vir a ter utilidade formativa para os professores que usam testes para avaliar os seus alunos através de um pequeno programa informático, destinado a quem domina o MS EXCEL e utiliza testes com um número reduzido de alunos.


- 47 -

desempenho. Alguns autores (cf. Gronlund, ibidem) apresentam uma fórmula para o

cálculo deste índice em testes aplicados por um professor a um número significativo

mas relativamente reduzido de alunos:

NNaGiNaGs

IDiscrim−≡

NaGs = Nº de acertos no grupo superior (grupo de alunos com mais de 66% no

TOTAL)

NaGi = Nº de acertos no grupo inferior (grupo de alunos com menos de 33% no

TOTAL)

N = Nº de indivíduos em cada grupo.

Esta análise parte da hipótese de que a distribuição dos resultados se faz de acordo com

a curva normal.

O IDisc precisa de ser calculado através de um processo que consiste em construir dois

subgrupos, a partir do total de respostas.

Os subgrupos (designados, Gs e Gi) são constituídos por

a) Gs = subgrupo dos alunos que têm melhor resultado no item (33% do total)

b) Gi = subgrupo dos alunos que têm pior resultado no item (33% do total)

Estes subgrupos foram constituídos a partir do percentis 33 e 66 da variável TOTAL.

Foram aplicados procedimentos disponíveis no SPSS .

Note-se que o índice de discriminação deve ser lido em conjugação com o índice de

dificuldade. O facto de um item ter um índice de discriminação baixo (ou seja, a não

discriminação dos dois grupos, com melhores e com piores resultados) não tem o

mesmo significado quando o item é fácil do que quando o item é difícil.

Breve resumo da análise de itens

Submetemos cada uma das provas a uma primeira e muito simples apreciação

com base na representação gráfica dos dados: a comparação do respectivo histograma

dos resultados totais (variável TOTAL) com a correspondente curva normal. Resultado:

todas apresentavam distribuições “próximas” da curva normal. Entendemos isso como

uma primeira indicação de que se tratava de provas que não produziam grande


- 48 -

assimetria de resultados. Ou seja, grosso modo, os resultados apresentavam-se de

acordo com o expectável.

Posto isso, foi realizada a análise da fiabilidade dos itens e o cálculo dos índices

de discriminação e de dificuldade.

Estimação da fiabilidade interna

Utilizámos o α de Cronbach para calcular a fiabilidade dos itens. Considerando a tabela

de Hill e Hill (2002: 147), em que os valores são considerados razoáveis acima de 0,7,

sendo fracos entre 0,6 e 0,7 e inaceitáveis abaixo de 0,6, verificámos que de um modo

geral a fiabilidade não sendo muito elevada, se situava em valores aceitáveis, ou seja,

superiores a 0,6.

Índice de dificuldade

Foi verificado índice de dificuldade de todos os itens das várias provas e com base nas

definições acima apresentadas considerou-se que algumas provas podiam ser

consideradas difíceis.

Foram dadas indicações no sentido de essas conclusões serem tidas em conta em futuras

revisões das provas.

Índice de discriminação

O cálculo do índice de discriminação dos vários itens permitiu chegar à conclusão de

que a generalidade deles tinham poder de discriminação entre os grupo de alunos mais

fortes e o grupo dos mais fracos e permitiu ainda fornecer aos autores dos testes

indicações sobre os itens a rever de imediato.

Conclusões da análise das provas

Estas análises levam-nos em resumo à conclusão de que:

1. Os itens das provas respeitavam as exigências técnicas a um nível aceitável;

2. Alguns itens necessitavam de reformulação tendo em conta o índice de

discriminação;

As análises poderão agora prosseguir com uma maior proximidade temporal

relativamente ao momento da sua construção e aplicação.

Por outro lado, aspectos não contemplados nestas análises deverão ser objecto de

futuros estudos como, por exemplo, a análise da eficácia dos distractores.


- 49 -

Estas análises poderão ainda ser aproveitadas para actividades de formação em

avaliação das aprendizagens dos professores que aplicam estes testes nas escolas do

Programa AVES.

3. Referências

Abrantes, P. (Ed.). (2001). Currículo Nacional do Ensino Básico. Competências Essenciais. Lisboa: Ministério da Educação. Departamento de Educação Básica.

Gronlund, N. E. (1981). Measurement and Evaluation Techniques (4th ed.). New York: MacMillan Publishing.

Hill, M. M., & Hill, A. (2002). Investigação por Questionário (2ª ed.). Lisboa: Edições Sílabo.

Moreira, J. M. (2004). Questionários: Teoria e Prática. Coimbra: Almedina.

Pereira, A. (2004). Guia Prático de Utilização do SPSS - Análise de Dados para as Ciências Sociais e Psicologia. (5ª ed.). Lisboa: Edições Sílabo.

Pestana, M. H., & Gageiro, J. N. (2000). Análise de Dados para as Ciências Sociais. A Complementaridade do SPSS (2ª ed.). Lisboa: Edições Sílabo.

vitor alaiz - fmleao.pt · limitações do estudo..... 3 4. análise longitudinal do nível...

Documents