teoria de resposta ao item para otimização de …originalmente utilizou uma escala likert de 7...

Teoria de Resposta ao Item para otimização de escalas tipo likert– um exemplo de aplicação

For item response theory likert scale´s optimization-an application example

CARLOS HENRIQUE SANCINETO DA SILVA NUNES1, RICARDO PRIMI2,MAIANA FARIAS OLIVEIRA NUNES3, MONALISA MUNIZ4,

TATIANA FREITAS DA CUNHA5, GLEIBER COUTO6

RESUMO

A Teoria de Resposta ao Item (TRI) tem sido utilizada tradicionalmente paraanálise de testes com itens dicotômicos. Contudo, recentemente, algumas pes-quisas têm indicado a utilidade dessa abordagem para a análise de testes basea-dos em escalas politômicas. O presente estudo teve como objetivo verificar asvantagens da utilização da TRI em relação a Teoria Clássica dos Testes no quediz respeito à quantidade necessária de categorias para a realização de medidas,aplicando a técnica dos créditos parciais. Para tanto, foram verificadas as pro-priedades psicométricas de cada categoria e seu número foi otimizado. Foramanalisadas as respostas de 1.317 pessoas a uma escala Brasileira para avaliaçãode Socialização no Modelo dos Cinco Grandes Fatores de Personalidade, que

51

RIDEP · Nº 25 · Vol. 1 · 2008 · 51 - 79

1. Doutor em Psicologia. Professor da Universidade São FranciscoApoio: CNPq, CAPES e FAPESP. Os autores são pesquisadores vinculados ou colaboradores do

Laboratório de Avaliação Psicológica e Educacional – LabAPE – USF. Correspondências devem serenviadas para: Carlos Henrique Sancineto da Silva Nunes, Universidade São Francisco - Faculdadede Ciências Humanas, Rua Alexandre Rodrigues Barbosa, 45, CEP 13251-900, Itatiba – SP, Brasil.correio eletrônico: [email protected]. Doutor em Psicologia. Professor da Universidade São Francisco3. Mestre em Psicologia. Doutoranda da Universidade São Francisco4. Mestre em Psicologia. Doutoranda da Universidade São Francisco5. Mestre em Psicologia. Pesquisadora colaboradora da Universidade São Francisco6. Doutor em Psicologia. Professor da Faculdade de Estudos Administrativos de Belo Horizonte

originalmente utilizou uma escala Likert de 7 pontos. Três subescalas do instru-mento e três itens do mesmo foram usados para exemplificar o processo de reco-dificação. A análise da adequação item/escala, da estrutura e da precisão foramcomparadas em ambas as situações. Os resultados indicaram que a utilização decategorias otimizadas, em um menor número que na escala original, permitiu amensuração do construto sem prejudicar os parâmetros psicométricos do instru-mento, sendo que em alguns fatores as medidas de consistência interna e misfitforam superiores às originais.

Palavras-chave: Teoria de resposta ao item, escalas tipos Likert, otimizaçãode escalas, psicometria, personalidade

ABSTRACT

Item Response Theory (IRT) has been traditionally used to analyze tests withdichotomous items. Nevertheless, in the past years, some research has shownthe utility of adopting IRT for polythomous scales. This study aimed to verifythe advantages of using IRT when compared to Classic Test Theory (CTT),regarding the necessary amount of answer categories to measure the construct,by using partial credits method of analysis. For that reason, the scale was reco-ded into a smaller one, and the number of categories required depended on itsspecific characteristics. The sample was composed by 1,317 people, who ans-wered a Brazilian scale for Agreeableness assessment in the Five Factor Modelof Personality, which used originally a 7-point Likert scale. Its three subscalesand three items were used to exemplify the procedure of recoding. The analysisof item/scale fit, structure and reliability were compared in both situations. Theresults indicate that using optimized categories, within a smaller number, hasallowed measuring the construct and has maintained the psychometric parame-ters of the scale. Also, in some subscales, internal consistency and misfit mea-sures were better than the original ones.

Key words: Item Response Theory, Likert scales, optimizing scales, psycho-metrics, personality

52

RIDEP · Nº 25 · Vol. 1 · 2008

INTRODUÇÃO

Muitos instrumentos construídosna psicologia, educação e em outrasáreas utilizam itens com escalas tipoLikert. Nesses itens, geralmente setêm uma afirmação auto-descritiva e,em seguida, uma escala de pontoscom descrições verbais, tais como,discordo totalmente (1), discordo (2),neutro (3), concordo (4) e concordototalmente (5). Pretende-se, dessaforma, mensurar a intensidade dotraço representado no item. A aborda-gem de medida que sustenta esses ins-trumentos decorre da teoria do escoreverdadeiro, proveniente da teoria clás-sica dos testes, particularmente, dasaplicações desse modelo no princípioda consistência interna.

Resumidamente, quando se temduas afirmações que se supõe estaremmedindo o mesmo construto e atreladoa elas se tem uma escala Likert de, porexemplo, cinco pontos, pode-se con-ceber a situação como dois mini-testes(de métrica 1 a 5) aplicados repetida-mente em um mesmo sujeito. De acor-do com a teoria clássica dos testes ,quando se re-testa um sujeito com tes-tes paralelos (medindo o mesmo cons-truto, com a mesma intensidade) oescore verdadeiro, isto é, o valor que osujeito possui no construto medido, éo mesmo nas duas situações .Entretanto, o resultado observado, istoé, a resposta observada (1 a 5) podevariar de um item para outro em razão

do erro de medida, decorrente daimperfeição habitual que os instru-mentos possuem ao tentar medir aposição do sujeito no construto (ou oescore verdadeiro do sujeito).

De acordo com essa lógica, quandose constrói um conjunto de afirmaçõespretendendo medir o mesmo construtoutilizando uma escala Likert e se com-puta a soma das pontuações no item,esse escore é uma estimativa do esco-re verdadeiro do sujeito. A lógicadesse procedimento está na replicabi-lidade da medida, isto é, na correlaçãoentre os escores nos itens que é deter-minada pelo que existe de sistemáticonessas pontuações, ou seja, o escoreverdadeiro de cada sujeito que se repe-te a cada item. Baseado nisso,Cronbach criou o coeficiente de con-sistência interna (Alfa de Cronbach),que indica o quanto as pontuações deum teste (conjunto de itens somadospara indicar um construto) é consisten-te como estimador do escore verdadei-ro. Conversamente, esse mesmo indi-cador permite se estimar o montantede erro esperado. Esse coeficiente éfundamentalmente diretamente pro-porcional às correlações entre os itens.Assim, quanto maior forem as correla-ções inter-itens, pretendendo medir omesmo construto, mais os escoresobservados refletem o escore verda-deiro (menor a influência do erro) emaior será a confiabilidade da medida.

Para a realização desse procedi-mento, verifica-se as correlações entre

53

RIDEP · Nº 25 · Vol. 1 · 2008

os itens com a pontuação total da esca-la. Quanto maior for essa pontuação,mais o item está correlacionado comos itens restantes da escala e mais elecontribui para a consistência da medi-da. Ao mesmo tempo, observa-se avariabilidade dos itens já que escoresmais variáveis são, a princípio, maiscapazes de diferenciar os sujeitos emaior a possibilidade de se obteremcorrelações altas com os outros itens .

Segundo essa especificação, aconstrução de testes usando escalasLikert recomenda, dentre outras coi-sas, para garantir que todos sejambons indicadores do mesmo constru-to, que tenham variância alta e queestejam correlacionados com osdemais. Isso apregoa que escalas commais pontuações, de 1 a 9, por exem-plo, são melhores que escalas de 1 a 4,por exemplo. Isso ocorreria poismaior quantidade de opções de res-posta implicaria maior variabilidade .

Por outro lado, existem dúvidas emrelação a essas recomendações.Primeiro, será que as pessoas interpre-tam sempre no mesmo sentido “quan-titativo” os números da escala Likert,isto é, a interpretação dada à primeiracategoria para um item será sempre amesma para duas pessoas? Segundo,será que a distância entre das catego-rias 2 para 3 indicaria a mesma inten-sidade do construto medido indepen-dentemente do item que se está res-pondendo? Ainda, será que as pessoastêm uma compreensão precisa o sufi-ciente para distinguir, por exemplo,

nove diferentes gradações de intensi-dade do construto como se esperaquando se constroem escalas Likert deresposta de nove pontos?.

Além disso, é possível a ocorrênciade inconsistências em função de umadesorganização semântica nos rótulosassociados a cada categoria. Tal difi-culdade decorre do fato que os rótulosdados aos diversos valores de umaescala likert como, por exemplo, “fre-quentemente” e “eventualmente”,etc., podem ser interpretados de for-mas variadas. Dependendo da quali-dade dos rótulos escolhidos, não ape-nas o pressuposto de intervalos cons-tantes entre as categorias pode sercomprometido, como também a suapropriedade ordinal.

Tais questões têm intrigado pesqui-sadores e psicometristas a investigaros fundamentos e as possibilidadespara otimização das escalas de avalia-ção. Dentre os avanços importantes naPsicometria, que trouxeram instru-mentos de análise mais refinados parainvestigar essas questões, estão osmodelos de Teoria de Resposta aoItem (TRI) para respostas politômicas. Essa teoria consiste em um conjuntode modelos probabilísticos destinadosa representar parâmetros importantespara a mensuração incluindo as carac-terísticas dos itens e as medidas dossujeitos. A principal diferença emrelação ao modelo clássico é que aunidade básica de análise passa a ser oitem e não o escore total compostopela soma de itens, como a Teoria do

54

RIDEP · Nº 25 · Vol. 1 · 2008

Escore Verdadeiro trata. Assim, omodelo matemático na teoria clássicaestabelece uma relação entre o escoreobservado e o escore verdadeiro(Escore Observado = EscoreVerdadeiro + Erro de Medida). Já naTRI a relação é estabelecida entre otheta e a probabilidade de escolha deuma opção de resposta ao item.Embora a análise clássica leve emconta a correlação item-total, o quepoderia sugerir uma unidade de análi-se também focada no item, os mode-los matemáticos subjacentes são dife-rentes, o primeiro modelando o esco-re total e o segundo, a probabilidadede resposta ao item. A análise dascorrelações item-total na teoria clássi-ca tem por objetivo indicar itens quecontribuirão para o aumento davariância verdadeira no escore com-posto pela soma dos itens.

Embora a literatura em psicometriaclássica demonstre que itens commais categorias de resposta e comdefinições mais claras geralmentelevem a resultados mais favoráveisem termos de consistência interna(Dawis, 1992; John & Benet-Martínez, 2000; Weems, 2004; Weng,2004), outros estudos mais recentes,baseados na TRI, mostram que nemsempre isso ocorre. O que se temdemonstrado é que itens com geral-mente 3 a 4 pontos fornecem a mesmainformação do que itens com 7 a 9pontos. Além disso, muitas vezesredundâncias no conteúdo podeminflacionar os coeficientes de precisão

sem que isso corresponda a aumentona validade das escalas (Elliott &cols., 2006; Roberts, 1994; Stone &Wright, 1994) Ha ainda estudos commodelos de resposta ideal, mostrandoque mesmo itens com baixa correla-ção item-total tem informação para asescalas (Chernyshenko, Stark,Drasgow, & Roberts, 2007). Como severá nesse trabalho, a TRI é capaz dedetalhar uma série de informações doteste como um todo, dos itens e, porfim, das categorias utilizadas nasescalas para cada item, trazendo infor-mações empíricas mais detalhadaspermitindo, com isso, responder àparte das questões levantadas acima.

Na aplicação da TRI para escalastipo Likert, dois modelos freqüente-mente usados foram desenvolvidos apartir dos modelos de Rasch : escalasgraduadas (Rating Scale Model) e cré-ditos parciais . Esses modelos conce-bem a relação entre as respostas dadasà escala Likert com o theta, dimensãosubjacente inobservável que os itenspretendem estimar, assumindo quecada valor crescente da escala indiqueum passo cumulativo em direção avalores mais altos na variável latente.A diferença básica entre os doismodelos é que para escalas graduadaspresume-se que os avanços nas pon-tuações Likert são constantes e iguaispara todos os itens e no modelo decréditos parciais essa condição é rela-xada podendo-se configurar diferen-tes distâncias entre as pontuaçõesLikert, dependendo do item a ser con-

55

RIDEP · Nº 25 · Vol. 1 · 2008

No eixo horizontal estão represen-tados os valores de theta (dimensãolatente medida pelo item) variando de-5 a +5 e, na dimensão vertical, a pro-babilidade de escolha das alternativas,

variando de 0 a 1. Esse gráfico repre-senta um item de 3 pontos (0, 1 e 2).Nota-se que há três curvas, uma paracada alternativa de resposta. Nota-setambém que abaixo de theta -1 a cate-

siderado. Essa característica do mode-lo de créditos parciais é interessante,pois, como já foi apontado acima, édifícil sustentar a assunção de constân-cia dos intervalos nas escalas Likertcomo os intervalos numéricos supõem.

O modelo de créditos parciais édado pela seguinte fórmula:

Onde ,

Os escores no item têm a notação x= 0, .... mi para um item com Ki = mi+ 1 categorias de resposta. AssimPnix(θ) indica a probabilidade do sujei-to n ter o escore x no item i. Os valo-res δij (j = 1, ..., mi) indicam os valoresdos limiares de transição entre a cate-goria j-1 e a categoria j. Esses valoresindicam o ponto de intersecção entreas curvas da categoria j-1 e j. Emsituações ideais, esse ponto indicará ao momento a partir do qual a j passa aser a mais provável, portanto o passode transição entre a categoria menor j-1 e a categoria em consideração a qualesse parâmetro se refere.

Para facilitar a visualização domodelo, considere a Figura 1:

(θn −δijj=0

0

∑ ) ≡ 0

∑=

−

−

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡ ∑

∑

=

=

=

i

r

jijn

x

jijn

m

r

nix

e

eP

0

)(

)(

0

0

)(δθ

δθ

θ

56

RIDEP · Nº 25 · Vol. 1 · 2008

Figura 1. Exemplo das curvas do modelo de créditos parciais para um item com 3 categorias.

goria “0” é a resposta mais provável,já entre -1 e +1, a categoria mais pro-vável é a resposta “1” e acima de +1,a resposta “2”. Existe, portanto, umaassociação entre o incremento nadimensão subjacente e um correspon-dente acréscimo na probabilidade deescolha de respostas com pontuaçõesmais altas na escala Likert, como secada reposta indicasse um passo maisadiante na escala subjacente. Assim, àmedida que se avança no theta medi-do é sucessivamente mais provávelque pontuações mais altas sejamescolhidas.

Os limiares de transição δij (j = 1,..., mi) entre duas categorias de umitem indicam o ponto na dimensãosubjacente em que a próxima catego-ria passa a ser mais provável que aanterior. A diferença básica entre omodelo de créditos parciais e o mode-lo de respostas graduadas, como já foireferido, é que os intervalos entre oslimiares são constantes, condizentescom as representações numéricas daspontuações numéricas das escalas (2 –1 = 1, 3-2=1 etc..). Nesse modelo, oslimiares δij são decompostos em doiscomponentes δij = (λi +δj ). A variávelλi é um parâmetro geral de localizaçãoe as variáveis δj são os parâmetros deintersecção entre as categorias que,como se nota, consiste em um númeropara cada categoria de resposta naescala (índice j) e igual para todos ositens (ausência nesse parâmetro doíndice i). Esse modelo é dado pelaequação:

Onde,

No presente estudo, foi feita a apli-cação do modelo de créditos parciaisna análise de uma escala para avalia-ção de Socialização (EFS) no modelodos Cinco Grandes Fatores de perso-nalidade construídas dentro do modeloda Psicometria Clássica. Pretendeu-sedepurar as propriedades psicométricasdos itens, especialmente a utilidade,em termos de informação, do uso deescalas Likert de sete pontos para aestrutura interna e precisão da escala.

Objetivou-se ainda com o presenteestudo aprimorar o conhecimento daescala e, quando possível, otimizarsuas propriedades psicométricas,demonstrando-se, portanto, as vanta-gens do uso da TRI nos procedimen-tos de análise dos dados na fase daconstrução e seleção de itens para ins-trumentos de medida.

MÉTODO

Participantes

A amostra utilizada para as análisesfoi composta por 1.317 pessoas, comidade média de 21,0 anos (com desvio

( )[ ] 00

0

=+−∑=j

jin δλθ

57

RIDEP · Nº 25 · Vol. 1 · 2008

( )[ ]

( )[ ]∑

=

+−

+−

⎥⎥

⎦

⎤

⎢⎢

⎣

⎡ ∑

∑

=

=

=

i

r

jjin

x

jjin

m

r

nix

e

eP

0

0

0

)(δλθ

δλθ

θ

padrão de 6,3), sendo que 68% erammulheres. A coleta de dados foi reali-zada em cinco estados brasileiros,Santa Catarina, São Paulo, Paraíba,Bahia e Rio Grande do Sul, sendo queesses dois últimos locais representa-ram, respectivamente, 49,9% e 23,3%da amostra. Os estudantes secundaris-tas representaram 37,2% da amostrae, entre os universitários, os cursosmais freqüentes foram psicologia eodontologia, com 42,7 e 7,4 % dogrupo total, respectivamente.

Instrumentos

O presente estudo utilizou aEscala Fatorial de Socialização –EFS (Nunes & Hutz, 2007), que é uminstrumento objetivo, que avalia umcomponente da personalidade huma-na a partir do modelo dos CincoGrandes Fatores . A EFS é compostapor 70 itens de auto-relato que des-crevem sentimentos, atitudes e opi-niões, a partir de assertivas. As pes-soas devem indicar em uma escalatipo Likert de sete pontos quão bemas assertivas os descrevem. A instru-ção apresentada aos respondentes épara considerarem, para cada frase, oquão bem os descrevem. Se acharemque as frases os descrevem muitobem, devem marcar o valor “7” nagrade de respostas. Se acharem queas sentenças absolutamente não osdescrevem adequadamente, devemmarcar o valor “1”. É explicitamentesalientado que todos os valores

podem ser marcados e que quantomais a frase for apropriada para des-crevê-los, maior deve ser o valorindicado. Tal instrução é realizadapara que o uso da escala seja bemcompreendido, uma vez que os úni-cos rótulos apresentados são nasextremidades.

A Escala Fatorial de Socializaçãoé composta por três subescalas,denominadas Amabilidade (S1),Pró-sociabilidade (S2) e Confiançanas pessoas (S3). O fator S1 agrupaitens que descrevem a disponibilida-de para ajudar outras pessoas, umatendência a ser empático e compre-ensivo, além de uma postura gentil eeducada. Já S2 engloba itens queinformam sobre o quão as pessoasaderem a normas sociais, tendênciaa comportamentos de risco, hetero-agressividade e padrões de consumode bebidas alcoólicas. O fator S3reúne itens que dizem respeito aonível de confiança depositado nasoutras pessoas e as crenças sobre aexistência de más intenções dosoutros, assim como tendência aapresentar comportamentos de ciú-mes. Escores muito baixos ou muitoaltos nessas facetas podem indicarpadrões de interação com outraspessoas pouco adaptativos em varia-dos contextos.

Procedimentos

A coleta de dados foi coletiva,sendo usualmente realizada nas salas

58

RIDEP · Nº 25 · Vol. 1 · 2008

de aula das instituições de ensino pro-curadas (escolas de ensino médio,públicas e privadas; universidadespúblicas e privadas, cursos preparató-rios para concursos, etc.). Nas institui-ções de ensino superior foram escol-hidas preferencialmente turmas dedisciplinas que reuniam estudantes devários cursos com o objetivo de obteruma amostra mais diversificada. Osparticipantes, após serem informadosdos objetivos do estudo, de que a suaparticipação era voluntária e da garan-tia de sigilo das respostas, receberamo caderno com os itens, a folha de res-postas e instruções de preenchimento.

As instruções fornecidas seguiramum roteiro pré-estabelecido e foramlidas pelos aplicadores. Foi solicitadoaos participantes que lessem os itenscom atenção e que respondessemindividualmente às questões. Tambémfoi informado que não havia respostascertas ou erradas e que realmente eraimportante que dessem sua opiniãosincera às situações, sentimentos e ati-tudes descritas nos itens. Àquelas tur-mas que apresentaram dificuldadespara a compreensão dos itens, foidada a orientação para que os deixas-sem em branco. Todos os participan-tes assinaram o termo de consenti-mento livre e esclarecido para a parti-cipação em pesquisa.

RESULTADOS E DISCUSSÃO

Os itens que compuseram assubescalas da EFS foram analisados

por meio da técnica de CréditosParciais utilizando o softwareWinsteps, que é capaz de gerar ascurvas de probabilidade de cadaalternativa, chamadas neste tipo deanálise de categorias e informaçõessobre a precisão das escalas.Também são apresentadas informa-ções sobre o resíduo (misfit) da esca-la como um todo, dos itens e dascategorias utilizadas para cada item,além de dados sobre a adequaçãoentre o nível de habilidade do sujeitoe o seu padrão de resposta, isto é,qual categoria de resposta ele escol-heu . A análise da Escala Fatorial deSocialização deu-se em algumas eta-pas, descritas abaixo:

Análise das categorias dos itens

A análise das curvas de probabi-lidade das categorias dos itens foirealizada para verificar quais delasefetivamente estavam contribuindoao trazer informações sobre quanti-dades crescentes no construto laten-te medido. Com esse procedimento,foi possível verificar que haviamitens com padrões muito diversifi-cados, apresentando um númerovariado de categorias realmenteúteis. A ilustra tal resultado, apre-sentando os gráficos dos itens 34,67 e 20. Nesses gráficos, o eixo xrepresenta o theta, isto é, a variávellatente medida, e o eixo y a proba-bilidade de aderência às categoriasda escala.

59

RIDEP · Nº 25 · Vol. 1 · 2008

60

RIDEP · Nº 25 · Vol. 1 · 2008

É possível verificar com na figura2, referente às curvas do item 34, quea probabilidade de ocorrência da cate-goria “1” é maior que as demais paratheta´s inferiores a aproximadamente0 e que essa categoria cobre quase quetotalmente a área avaliada pelas cate-gorias “2” e “3”. Isto significa que,

para nenhum nível de theta, as catego-rias 2 e 3 foram as mais prováveis deserem indicadas pelos participantes eque, portanto, essas categorias se mos-tram pouco informativas sobre o valordo theta das pessoas que a escolhem.A análise da curva de probabilidade dacategoria “7” indica que, para theta´s

Figura 2. Curvas de probabilidade originais das categorias dos itens selecionados

superiores a zero, esta é a mais prová-vel. É possível analisar as categoriasindependentemente das demais.Assim, por exemplo, apesar da catego-ria 2 em nenhum ponto da escala detheta ser a mais provável, verifica-seque esta teve maior probabilidade deaderência para um theta de aproxima-damente -0,5. A mesma lógica podeser utilizada para as demais categorias,indicando que há sobreposição dasáreas de theta a que essas categoriasestão associadas em termos de proba-bilidade relativa de escolha e os pon-tos que são mais elevados.

Por outro lado, na figura 2 (item67), é possível notar que na curva dacategoria 4, as regiões ao redor dotheta 0 a 0,4, esta opção é a mais pro-vável de ser escolhida, produzindocom isso mais informação sobre alocalização dos os sujeitos que a

escolhem. Esse caso demonstra umacategoria de resposta informativa doponto de vista psicométrico. Portanto,resumidamente, esse procedimentoanalítico, aliado aos que serão descri-tos em seguida, permitiu uma análisevisual da eficácia de cada categoria decada item em termos de informaçãoútil sobre a localização dos sujeitosque são atraídos a escolhê-las.

Também foram verificadas as tabe-las apresentadas pelo Winsteps sobreas características das categorias utiliza-das. A Tabela 1 apresenta um sumárioda estrutura das categorias do item 20e, na seqüência, são explicadas asinformações presentes na mesma.Essas informações são apresentadaspara o itens 34 na e para o item 62 naTabela 3. Esses dados serão analisadosposteriormente, com a sua comparaçãocom a análise das escalas otimizadas.

61

RIDEP · Nº 25 · Vol. 1 · 2008

Tabela 1. Sumário da estrutura original das categorias do item 20

CategoriaObservado Média

observadaMédia

esperadaInfit Outfit

Calibraçãoda

estrutura

Medida da

categoriaFreq. %

1 44 3 .51 -.02 1.88 3.57 - (-1.61)

2 36 3 *.12 .21 .82 .84 .08 -.75

3 72 5 .42 .39 1.12 1.34 -.61 -.27

4 258 20 .54 .55 1.06 1.30 -1.02 .12

5 203 15 .61 .72 .76 .61 .66 .56

6 317 24 .88 .94 .92 .83 .16 1.19

7 369 28 1.33 1.28 .88 .92 .73 (2.40)

62

RIDEP · Nº 25 · Vol. 1 · 2008

Cont. Tabela 1. Sumário da estrutura original das categorias do item 20

CategoriaEstrutura

Escore para medida 50%

Probabilidadeacumulada

CoerênciaM C

CoerênciaC M

Estim.Discr.

MedidaErro

padrãoZona

1 - - -INF -1.17 - 100% 2% -

2 .30 .17 -1.17 -.49 -.71 9% 2% -1.87

3 -.39 .13 -.49 -.07 -.42 19% 12% .38

4 -.81 .10 -.07 .33 -.17 37% 24% .86

5 .87 .07 .33 .84 .38 21% 53% .53

6 .38 .06 .84 1.78 .72 28% 42% 1.01

7 .94 .07 1.78 +INF 1.41 84% 20% 1.35



observadaMédia


Calibraçãoda

estrutura

Medida da

categoriaFreq. %

1 59 5 .32 .11 1.35 2.72 - (-1.30)

2 39 3 *.22 .19 1.02 1.66 0.63 -.56

3 48 4 .3 .27 1.04 1.31 0.09 -.25

4 102 8 .41 .36 1.09 1.57 -0.37 -.04

5 70 5 *.36 .45 1.09 1.32 0.84 .16

6 134 10 .43 .56 1.14 0.61 -0.08 .44

7 825 63 .73 .72 1.02 1 -1.11 -1.04

63

RIDEP · Nº 25 · Vol. 1 · 2008


CategoriaEstrutura



CoerênciaM C

CoerênciaC M

Estim.Discr.

MedidaErro

padrãoZona

1 - -INF -.90 0% 0%

2 .56 .14 -.90 -.38 -.46 25% 5% -.05

3 .02 .12 -.38 -.14 -.23 25% 8% -.75

4 -.44 .10 -.14 .06 -.11 11% 7% .75

5 .78 .08 .06 .28 .06 9% 28% .51

6 -.15 .07 .28 .72 .14 12% 54% .81

7 -1.18 .06 .72 +INF .27 86% 43% 1.00



observadaMédia


Calibraçãoda

estrutura

Medida da

categoriaFreq. %

1 51 4 -.13 -.18 1.07 1.11 - ( -1.85)

2 45 3 -.08 -.07 .98 1.02 .24 -.99

3 73 6 .04 .03 1.01 1.12 -.26 -.56

4 240 18 .08 .13 .84 .73 -.86 -.25

5 127 10 .2 .24 .89 .72 1.07 .06

6 240 18 .4 .37 .72 .8 -.09 .49

7 535 41 .56 .54 .96 .98 -.11 -1.37

64

RIDEP · Nº 25 · Vol. 1 · 2008

Na metade superior da Tabela 1,nas primeiras três colunas são apresen-tados os valores das pontuações dascategorias (category label), a freqüên-cia de sujeitos que escolheram cadauma das categorias (Observed count) ea porcentagem correspondente (%).Em seguida, apresenta-se a média dosthetas dos sujeitos que escolheramcada uma das categorias (ObservedAverage) e é esperado que a média dosthetas aumente com o valor da catego-ria. Quando há alguma desordem nesteparâmetro, isto é, quando a média detheta das pessoas que escolhem umadada categoria não aumenta de manei-ra progressiva ao aumento da pontua-ção que supostamente se espera paracada categoria, esta é indicada comum asterisco ao lado do valor. A colu-

na Média Esperada (Sample Expect)apresenta o valor das médias de thetaesperadas para cada categoria a partirdo modelo.

Infit é uma medida que indica onível de ajustamento dos padrões derespostas, sensível em categorias comvalores de dificuldade próximos aosvalores de theta da pessoa. Espera-seque valores neste parâmetro sejampróximos de um, sendo que valoressubstancialmente abaixo de 0,7 indi-cam que o dado empírico apresentavalores de discriminação superioresaos esperados pelo modelo de Rasch;valores substancialmente acima de1,3 indicam ruído, ou seja, apontapara uma grande quantidade de res-postas inesperadas. Outfit também éuma medida de ajuste, sensível a


CategoriaEstrutura



CoerênciaM C

CoerênciaC M

Estim.Discr.

MedidaErro

padrãoZona

1 - -INF -1.41 0% 0%

2 .00 .15 -1.41 -.75 -.96 16% 2% .55

3 -.50 .11 -.75 -.40 -.65 5% 2% .90

4 -1.11 .09 -.40 -.10 -.45 32% 17% .98

5 .82 .07 -.10 .25 -.04 14% 48% 1.10

6 -.33 .06 .25 .91 .13 23% 55% 1.15

7 -.35 .06 .91 +INF .47 79% 20% 1.06

padrões inesperados de respostasquando a diferença entre o theta daspessoas e a dificuldade das categoriasé muito grande, ou seja, quando umapessoa com um theta muito alto aderea uma categoria com dificuldadebaixa ou vice-versa. Para este parâ-metro, também são esperados valorespróximos de um.

As colunas Calibração da estrutura(Structure Calibration) e Medida daestrutura (Structure Measure) são asmedidas de transição entre categoriascontíguas, isto é os limiares entre ascategorias. Esses parâmetros repre-sentam o Rasch-Andrich threshold, ousimplesmente threshold, que são pon-tos em que as probabilidades de cate-gorias adjacentes são as mesmas. Adiferença entre esses dois parâmetrosé que, o primeiro, é relativo ao índicede dificuldade dos itens definidocomo a média dos limiares brutos.Assim á média desses valores é iguala zero. No segundo caso se tem osvalores originais das transições.

É esperado que esses valores sejamcrescentes desde a transição da pri-meira até a da última categoria. A des-ordem dessas estimativas, ou seja, seelas não aumentam o valor à medidaque mudam as categorias, pode sercausada pela baixa freqüência deobservação da mesma ou por um pro-blema inerente à interpretação ouorganização das categorias apresenta-das, o que pode sugerir problemassubstanciais observados naquela cate-goria para uma adequada medida do

construto avaliado. Vale destacar queo threshold da primeira categoriasempre será inexistente, uma vez quenão há uma transição anterior.

A leitura da indica que existe des-ordem no item 20 em relação ao thres-hold às duplas de categorias dois etrês, três e quatro, cinco e seis pois ascategorias de menor pontuação apre-sentam um valor superior ao thresholdsubseqüente. Essa descontinuidadetambém pode ser verificada observan-do-se os valores para as três primeirascategorias no campo Média observada(Observed Average), que deveriam sercrescentes.

Já a Medida da categoria (CategoryMeasure) representa o valor de thetaassociado à categoria, isto é, a magni-tude de theta que cada categoriaimplica a partir do modelo de Rasch.Os parênteses indicam que a calibra-ção correspondente tende ao infinito,ou seja, que seus valores são a menorrepresentação possível da primeiracategoria ou a maior representaçãopossível da última categoria em umadada escala de maneira aproximada.

Na parte inferior da Tabela 1, sãoapresentadas informações adicionaissobre as relações categorias-medida esobre a adequação do modelo. As colu-nas Escore para medida (Score-to-Measure) são valores usados na con-versão entre os valores brutos das cate-gorias e os valores da medida na esca-la theta. A coluna 50% ProbabilidadeAcumulada (Cumulative probability)apresenta limiares a partir de outra

65

RIDEP · Nº 25 · Vol. 1 · 2008

definição chamada Rasch-ThurstoneThresholds. Os pontos indicados repre-sentam os locais em que se tem chan-ces iguais de se observar as categoriasmenores em comparação a categoriaatual ou aquelas acima dela. Esses sãoos pontos onde em theta em que osintervalos das categoria iniciam.

As colunas sobre Coerência(Coherence M C e C M) indi-cam, respectivamente, qual o percen-tual de observações de uma dada cate-goria de fato previstas pelo theta epelas relações theta-categoria men-cionadas acima (M C) ou, ao con-trário, o percentual de medidas detheta de fato observadas partindo-sedas categorias observadas e dasrelações theta-categorias (C M).Espera-se que os valores percen-tuais dessas coerências sejam próxi-mos de 100%. É interessante notarque, na Tabela 2, os valores apresen-tados nesses campos são extremamen-te baixos para a categoria 2. Tal resul-tado está associado à desordem obser-vada no threshold para esta categoria.A última coluna traz a informaçãoaproximada sobre a discriminaçãolocal considerando o modelo de doisparâmetros.

Otimização das escalas

Com as informações provenientesda primeira etapa da análise, foi pos-sível verificar, para cada item, quaiscategorias estavam explicando maisadequadamente as respostas observa-

das na amostra. Todos os itens da EFSapresentaram características que justi-ficavam o agrupamento de categorias,que é recomendado quando a probabi-lidade de ocorrência de uma dadacategoria não é superior às das demaisem toda a faixa de theta coberta peloteste. Esses resultados são similaresao que outros estudos semelhantestêm encontrado (Elliott & cols. 2006;Roberts, 1994; Stone & Wright 1994).

A otimização dos itens foi realiza-da com o agrupamento de categoriasadjacentes cujas curvas de informaçõ-es fossem muito próximas, o que tam-bém pode ser visualizado com as cur-vas de probabilidade das categorias,quando o valor máximo de algumascategorias ocorre em thetas muitopróximos. Tal condição pode ser veri-ficada na , na qual são apresentadas ascurvas de probabilidade das catego-rias dos itens utilizados como exem-plo. A análise dos gráficos sugere queas categorias podem ser mescladas deformas diferentes, utilizando dois, trêse quatro categorias para os itens 34,67 e 20, respectivamente.

É importante notar que, para cadavalor de theta apresentado na Figura2, a soma das probabilidades das cate-gorias será igual a 1, supondo quepara toda magnitude do traço avalia-do, as únicas respostas possíveis sãoas existentes na escala. Por esse moti-vo, quando é feito o agrupamento deduas ou mais categorias, a curva dacategoria resultante terá para cadatheta, aproximadamente, a altura

66

RIDEP · Nº 25 · Vol. 1 · 2008

somada daquelas que a compuseram.No entanto, as curvas das novas cate-gorias podem não ser simplesmente asobreposições das categorias que asgeraram, pois os dados apresentadossão resultados da modelagem das res-postas observadas, de modo que a jun-ção de várias categorias pode gerarnovos modelos.

As escalas, que eram original-mente compostas por sete catego-rias de respostas, com valores entre

1 e 7 pontos, variaram entre duas aquatro categorias após a otimiza-ção. Essa otimização foi realizadapor meio do procedimento de reco-dificação das categorias de respos-ta, no qual o valor original das cate-gorias é transformado, a partir deum padrão definido. Os padrões derecodificação utilizados são apre-sentados na , assim como a quanti-dade de itens que foram recodifica-dos em cada padrão.

67

RIDEP · Nº 25 · Vol. 1 · 2008

Tabela 4. Padrões de respostas utilizados para otimização

Escala Padrão Quantidade de itens

S1 – Amabilidade

Orig 1234567

A 1112224 4

B 1112244 15

C 1112334 4

D 1122334 10

S2 – Pró-Sociabilidade

Orig 1234567

E 1111333 12

F 1112233 11

S3 - Confiança

Orig 1234567

G 1112244 8

H 1122334 6

Um aspecto que foi amplamentediscutido, inclusive com o autor dosoftware Winsteps (Linacre, comuni-cação pessoal), diz respeito aos valo-res mínimo e máximo para as escalasotimizadas. Uma possibilidade seria,para cada padrão de resposta, utilizarcomo valor inicial a categoria “1” eatribuir às categorias subseqüentes

valores numéricos aumentando emum ponto. Neste caso, por exemplo,itens com duas categorias de respostasteriam como valor mínimo de catego-ria o “1” e máximo igual a “2”. Itenscom três categorias iniciariam com“1” e teriam como valor máximo o“3” e assim sucessivamente. A princi-pal dificuldade para a utilização desse

método é que, quando utilizadassimultaneamente na mesma escala,itens com padrões diferentes colabo-rariam de forma variada para o escorebruto total da mesma. Assim, itenscom quatro categorias diferentesteriam o dobro do peso de itens dico-tômicos no cálculo do escore geral.Tal característica não chega a ser umproblema de medida, uma vez quetodos os itens contribuem indepen-dentemente para avaliar alguma mag-nitude do construto e, de qualquerforma, não se pode garantir de ante-mão que todos os itens apresentamefetivamente a mesma contribuiçãona representação do construto mensu-rado e, por esse motivo, teriam queapresentar o mesmo peso.

Em contrapartida, como nãohaviam sido realizados estudos queapresentassem qualquer informação

sobre a eficácia dos itens para detec-tar diferentes magnitudes dos traçosavaliados, optou-se por adotar esca-las cujas categorias apresentassemvalores mínimo e máximo iguaispara cada sub-escala. Como deco-rrência disso, o número de ocorrên-cias de algumas categorias(COUNT) fica igual a zero, para ascategorias intermediárias na versãootimizada sem associação com cate-gorias da escala original, a exemplodos itens 34 e 67.

As tabelas 5 a 7 apresentam ascaracterísticas psicométricas das clas-ses após a sua otimização e a apre-senta as suas curvas de probabilidadeotimizadas. O item 20, por exemplo,que pertence a escala S1 e original-mente possui sete categorias de res-postas, após a otimização ficou com 4categorias no padrão D, conforme.

68

RIDEP · Nº 25 · Vol. 1 · 2008

Tabela 5. Sumário da estrutura otimizada das categorias do item 20


observadaMédia


Calibraçãoda

estrutura

Medida da

categoriaFreq. %

1 80 6 .24 -.08 1.31 1.53 - (-2.34)

2 330 25 .57 .61 .99 1.03 -1.38 -.48

3 520 40 .91 1.02 .88 .75 .08 1.08

4 369 28 1.61 1.48 .84 .87 1.30 (2.86)

69

RIDEP · Nº 25 · Vol. 1 · 2008

Cont. Tabela 5. Sumário da estrutura otimizada das categorias do item 20



observadaMédia


Calibraçãoda

estrutura

Medida da

categoriaFreq. %

1 248 19 .41 .25 1.15 1.48 - (-1.02)

2 0 0 .00 .00 NULL -.05

3 1009 78 1.06 1.10 1.21 1.21 .00 (.92)

CategoriaEstrutura



CoerênciaM C

CoerênciaC M

Estim.Discr.

MedidaErro

padrãoZona

1 - -INF -1.50 54% 7%

2 -1.10 .13 -1.50 .31 -1.28 48% 28% .82

3 .36 .07 .31 2.05 .33 45% 84% .89

4 1.58 .07 2.05 +INF 1.80 79% 24% 1.41

CategoriaEstrutura



CoerênciaM C

CoerênciaC M

Estim.Discr.

MedidaErro

padrãoZona

1 - -INF -60 66% 5%

2 NULL -.60 .50 -.05 0% 0% 1.00

3 -.05 .08 .50 +INF -.05 88% 78% .55

70

RIDEP · Nº 25 · Vol. 1 · 2008



observadaMédia


Calibraçãoda

estrutura

Medida da

categoriaFreq. %

1 169 13 -.31 -.33 1.02 1.09 - (-2.10)

2 367 28 -.05 -.01 .91 .76 -.55 -.62

3 0 0 .00 .00 NULL .14

4 775 59 .57 .56 .95 .98 .55 (.96)

CategoriaEstrutura



CoerênciaM C

CoerênciaC M

Estim.Discr.

MedidaErro

padrãoZona

1 - -INF -1.32 66% 8%

2 -.94 .09 -1.32 -.22 -1.08 49% 32% .98

3 NULL -.22 .58 .04 0% 0% 1.00

4 .15 .07 .58 +INF .04 89% 40% 1.25

Ao se comparar os valores dosparâmetros da estrutura original dascategorias com os valores para aestrutura otimizada dos itens 20, 34 e67 (Tabelas 1, 2, 3 e Tabelas 5, 6, 7,respectivamente), pode-se notar quealguns parâmetros mostraram melho-ras substanciais. Em primeiro lugar,os valores de dificuldade dos steps(valores dos thresholds) dos três itensna estrutura original apresentam des-ajustes, pois seus valores não apresen-taram aumento em relação a progres-são dos valores de algumas catego-

rias. Já nas estruturas otimizadas,pode-se observar que apresentam umcrescimento ordenado em relação àsmudanças de categoria. Em segundolugar, os erros padronizados de men-suração são menores na estrutura oti-mizada das categorias. Em terceirolugar, observou-se que os valores deajuste representados pelos parâmetrosde infit e outfit apresentaram reduçãoem quase todos os casos. Apesar des-ses valores terem indicado desajusteem apenas algumas categorias naestrutura original, na estrutura otimi-

71

RIDEP · Nº 25 · Vol. 1 · 2008

Figura 3. Curvas de probabilidade otimizadas das categorias dos itens selecionados

zada os valores são mais adequados.Em último lugar, podemos observarum aumento nos valores percentuaisdos parâmetros de coerência. No casoda capacidade de previsão da medidaobservada por meio da medida espe-rada (MC) os valores aumentaram emmédia 14%, 53% e 44% respectiva-

mente, para os itens 20, 34 e 67. Já nocaso de adequação da medida obser-vada à medida esperada (CM), pode-se observar um aumento médio de14%, 21% e 6%, respectivamente,para os itens 20, 34 e 67.

Com relação ao conteúdo aborda-do nos itens, é importante ressaltar

que este pode favorecer a verificaçãode categorias extremas ou de catego-rias intermediárias entre um pólo eoutro da adesão aos itens. Para finsdidáticos, será detalhado apenas oconteúdo dos itens já analisadosanteriormente. O item 34 representaum exemplo de item que foi transfor-mado em dicotômico (“Gosto muitode ter relações sexuais incomuns”), eseu conteúdo avalia um aspecto emque a população geral apresentabaixa aderência. Já os itens 67(“Tenho um grande interesse pelaspessoas”) e 20 (“Sou amaìvel com aspessoas”) avaliam traços da persona-lidade em magnitudes menos extre-mas, o que suscitou uma maior flexi-bilidade de comportamento, o que érefletido em uma menor adesão acategorias extremas. De uma manei-ra geral, o único subfator em que ositens foram otimizados como dicotô-micos, S2, é aquele que apresenta ummaior número de itens que retratamcaracterísticas ou situações associa-das a quadros clínicos.

Análise das características psico-métricas dos subfatores da EFS

Após a otimização dos itens, foifeita a comparação das característicaspsicométricas dos subfatores da EFScom a versão original. O programaWinsteps apresenta muitas informaçõ-es sobre as escalas, mas foram sele-cionadas apenas aquelas essenciaisaos objetivos desta investigação.

Nas Tabelas 8, 9 e 10, o Escorebruto é calculado pela soma das res-postas dadas aos itens que formam asescalas, após a inversão dos itenscorrespondentes. As colunas Theta,Infit e Outfit são interpretadas confor-me as explicações já apresentadas e aprecisão do instrumento é avaliada apartir de dois indicadores, dois coefi-cientes de consistência interna a partirdas estimações da variância de erropelo modelo (Precisão Modelo) e peloerro observado (Precisão real) e aseparação. Separação é a razão entre odesvio padrão ajustado (ADJ.S.D.) dapessoa ou do item, que é uma estima-tiva do desvio padrão verdadeiro, emrelação ao RMSE, que é o erro demedida em unidades de desviopadrão. Fornece uma medida de razãode separação em unidades RMSE, queé mais fácil de interpretar que a preci-são por correlação.

As medidas de consistência internaque são calculados a partir dos dadosobservados são apresentados com orótulo “real”, enquanto que aquelasque foram calculadas a partir do thetados participantes são referidas como“modelo”.

Análise de S1 - Amabilidade

Na são mostradas as estatísticasdescritivas dos 1313 sujeitos partici-pantes da pesquisa, com relação à esca-la S1 – Subfator Amabilidade, com-posto por 33 itens, bem como informa-ções sobre a precisão da escala.

72

RIDEP · Nº 25 · Vol. 1 · 2008

Comparando os dados entre a aná-lise original e os resultados da análisecom a escala otimizada, pode-seobservar que a média de theta calcula-da por meio da análise de Raschaumentou na escala otimizada, assimcomo o desvio padrão também indicamaior variabilidade dos escores. Comrelação aos índices de ajuste Infit eOutfit nota-se que na análise otimiza-da eles apresentam um melhor ajuste.Nessa segunda análise, o índice deprecisão foi maior, passando de 0,86para 0,89. A comparação dos resulta-dos indica que a análise otimizadamostrou-se mais adequada, uma vezque houve ganhos em parâmetrosimportantes do itens. Desse modo,mesmo com a diminuição do númerode categorias, a variabilidade das res-postas foi contemplada e houve uma

maior organização das mesmas. Destaca-se ainda que a diminuição

observada entre os escores brutosocorreu devido a diminuição daamplitude das categorias de respostas,ou seja, a análise inicial consideravarespostas que variavam entre um esete e a segunda análise, respostasvariando entre um e quatro. A mesmasituação ocorreu com a otimizaçãodas duas outras sub-escalas.

Análise de S2 – Pró-sociabilidade

Na Tabela 9 são apresentadas asinformações dos 1.307 participantesda pesquisa, referentes à escala S2 –Subfator Pró-sociabilidade formadopor 23 itens e as informações sobre aconsistência interna da escala origi-nalmente e após a sua otimização.

73

RIDEP · Nº 25 · Vol. 1 · 2008

Escala original Escala otimizada

EscoreBruto

Theta Infit OutfitEscoreBruto

Theta Infit Outfit

Média 187.6 0.84 1.16 1.13 102.7 0.98 1.07 1.08

DesvioPadrão

27.0 0.63 0.73 0.74 16.8 0.82 0.39 0.64

Máximo 229.0 3.44 5.35 6.53 131.0 3.95 3.06 9.42

Mínimo 42.0 -1.64 0.07 0.08 35.0 -3.96 0.30 0.26

Alpha Real 0.86 Modelo 0.91 Real 0.89 Modelo 0.91

Separação Real 2.51 Modelo 3.19 Real 2.78 Modelo 3.15

Tabela 8. Características estatísticas das respostas das pessoas à escala de Amabilidade

Ao comparar os dados da análiseoriginal com os da análise da escalaotimizada, verifica-se que a médiade theta e seu desvio padrão aumen-taram na escala otimizada, e osíndices de ajuste Infit e Outfit torna-ram-se mais favoráveis. A precisãoda escala sofreu uma pequenaqueda, inferior a 0,1, o que não ésubstancial, uma vez que os ganhosgerais foram favoráveis à análiseotimizada.

Confrontando os dois momentosda análise, encontraram-se dadosque sustentam as vantagens do

segundo modelo, especialmente noque tange aos índices de ajuste Infite Outfit, e o aumento na variabilida-de do theta.

Análise de S3 – Confiança nas pessoas

Na são apresentadas as informaçõ-es dos 1.307 participantes da pesqui-sa, referentes à escala S3 – confiançanas pessoas, formado por 14 itens e asinformações sobre a consistênciainterna da escala originalmente e apósa sua otimização.

74

RIDEP · Nº 25 · Vol. 1 · 2008

Tabela 9. Características estatísticas das respostas das pessoas à escala de Pró-sociabilidade


EscoreBruto


Theta Infit Outfit

Média 128.0 0.60 1.11 1.09 56.9 0.93 1.02 1.01

DesvioPadrão

20.1 0.46 0.56 0.70 8.1 0.78 0.29 0.61

Máximo 160.0 2.85 3.90 6.18 68 2.91 2 6.51

Mínimo 43.0 -0.69 0.17 0.18 26 -1.85 0.34 0.18



Nessa análise entre a escala origi-nal e a escala otimizada, novamenteobserva-se que para a escala otimiza-da foram obtidos resultados mais ade-quados com relação à variabilidade dotheta, que pode ser observada noaumento do valor do DP e da amplitu-de e apesar de as médias do infit e out-fit serem iguais nos dois casos, osDP’s e a amplitude do infit são meno-res na escala otimizada. Apesar de aprecisão ter diminuído na escala oti-mizada, este valor não é substancial.

Realizando-se uma análise dossumários dos itens das três escalas

nos dois momentos, inicial e otimi-zada, pode-se constatar que, apesarde não ter sido observado mudan-ças substanciais nos parâmetrosdestacados, os resultados demons-tram vantagens nos indicadores demisfit, o que sugere que a escalaotimizada conseguiu diminuir aquantidade de categorias de respos-tas, mantendo a qualidade psicomé-trica dos itens e garantindo quemesmo com menos opções de res-postas é possível contemplar o uni-verso de comportamento que aescala se propõe a medir.

75

RIDEP · Nº 25 · Vol. 1 · 2008

Tabela 10. Características estatísticas das respostas das pessoas à escala de Confiança


EscoreBruto


Theta Infit Outfit

Média 68.0 0.33 1.04 1.05 38.0 0.28 1.04 1.05

DesvioPadrão

13.4 0.45 0.57 0.67 7.8 0.68 0.44 0.66

Máximo 97.0 3.05 4.27 6.62 55.0 3.21 3.41 8.51

Mínimo 23.0 -1.10 0.11 0.14 15.0 -3.39 0.11 0.11



CONSIDERAÇÕES FINAIS

O presente artigo teve como objeti-vo apresentar algumas das possibili-dades da utilização da Teoria daResposta ao Item em escalas politô-micas. Foi possível verificar quealguns pressupostos utilizados na aná-lise clássica podem ser questionados,como a relação direta entre valores decategorias e a magnitude do traçomensurado, bem como a idéia queaumento da variância dos itens corres-ponde a um aumento da precisão. Emrelação a este aspecto, foi possívelobservar que, mesmo a utilização deescalas tipo Likert com âncoras nasextremidades não garantiu que todasas categorias apresentassem umaorganização ordinal.

Também foi possível verificar quea otimização das categorias utilizadaspara a avaliação de itens pode aumen-tar, em alguns casos, a consistênciainterna das respostas dadas a um ins-trumento, bem como diminuir medi-das de resíduos, como o infit e outfit.Isso contradiz diretamente a assunçãoda psicometria clássica que o aumen-to do número de categorias da escalaLikert aumentaria a variância e, con-seqüentemente, a precisão da medida .De fato, isso só ocorre quando há umaumento de categorias que reflitammagnitudes diferentes e organizadasconforme o aumento do valor da esca-la, conforme se analisou nesse artigo.Como apontado no texto, a utilidadede uma maior quantidade de pontos

em uma escala depende do conteúdodo item e da capacidade dos sujeitosde interpretarem nuances no constru-to. Por exemplo, algumas questõesevocam respostas dicotômicasenquanto que outras geram respostasque se refletem em um número maiorde categorias . No presente estudo, noentanto, os itens avaliados foram reor-ganizados com, no máximo, quatrocategorias diferentes, indicando umadificuldade dos participantes discri-minarem nuances em sete pontos, oque parece ser um achado freqüentenos estudos que aplicam a TRI a aná-lise de itens politômicos (Elliott ecols. 2006, Roberts, 1994, Stone &Wright 1994).

Uma questão ainda pode ser feitaquanto ao formato dos itens queforam analisados nesse estudo, con-tendo descrições semânticas somentenas extremidades. Embora esse esque-ma tenha vantagens como se mencio-nou anteriormente, pode-se questio-nar se isso não favorece a pouca utili-zação dos pontos intermediários daescala, uma vez que não apresentamreferências aos níveis que referem. Oúnico estudo encontrado sobre essaquestão, de Weng (2004), estudou ainfluência na precisão (consistênciainterna e teste-reteste) empregando apsicometria clássica. Portanto, emestudos futuros seria interessante veri-ficar o efeito da ancoragem semânticados pontos das escalas nos parâmetrosestimados pela TRI no que diz respei-to à utilidade das categorias.

76

RIDEP · Nº 25 · Vol. 1 · 2008

Em alguns casos do presente estu-do não foi constatada a melhora daprecisão da escala ao otimizá-la redu-zindo o número de categorias. Noentanto, a variância das escalasaumentou após a otimização, o quesugere que não é necessário construiruma medida com muitas categoriasde respostas para avaliar um determi-nado construto em toda a sua exten-são. Também foi constatado que,dependendo do aspecto a ser mensu-rado, pede-se maior ou menor núme-ro de categorias. Essa é uma outraquestão interessante para estudosfuturos, ou seja, quais e como ascaracterísticas semânticas dos itensinterferem nas propriedades psicomé-tricas dos mesmos.

Em estudos futuros, pretende-seaplicar a EFS contando com um menornúmero de categorias de resposta,como foi sugerido nesse estudo, parainvestigar se os benefícios da diminui-ção de categorias, sugeridos pela análi-se por créditos parciais, pode ser repli-cado empiricamente. A questão quefica em aberto é se, diante de itens comum menor número de categorias, aspessoas responderão com padrões

semelhantes aos os que foram identifi-cados neste estudo, com as informaçõ-es das análises por créditos parciais.

Por fim, deve-se citar que a utiliza-ção da TRI para itens politômicostambém apresenta outras vantagensem relação à teoria clássica dos itens,que fogem aos objetivos desse artigomas que devem ser enumerados: a.possibilita a equalização de itens, ouseja, que resultados obtidos a partir deescalas diferentes, mas calculadasdeliberadamente com a mesma métri-ca, sejam diretamente comparados; b.permite a criação e atualização debancos de itens para a avaliação deconstrutos, o que permite a elaboraçãode múltiplas formas de testes. Comisso, são resolvidas questões referen-tes a aprendizagem de itens dos testese divulgação de gabaritos em provasde alto impacto (como concursospúblicos, avaliações educacionais dedesempenho, certificação ocupacio-nal, etc.); c. possibilita a aplicaçãoadaptativa de provas, composta poritens que se aproximam mais da mag-nitude do traço latente apresentadopelas pessoas, aumentando assim aprecisão dos resultados .

77

RIDEP · Nº 25 · Vol. 1 · 2008

REFERÊNCIAS BIBLIOGRÁFICAS

Briggs, S. R. (1992). Assessing the Five-Factor Model of personality descrip-tion. Journal of Personality, 60, 253-293.

Costa, P. T., Jr. & McCrae, R. R. (1992). Revised NEO Personality Inventory(NEO-PI-R) and Five Factor Inventory (NEO-FFI) professional manual.Odessa, FL: Psychological Assessment Resources.

78

RIDEP · Nº 25 · Vol. 1 · 2008

Chernyshenko, O. S., Stark, S., Drasgow, F., & Roberts, B. W. (2007).Constructing Personality Scales Under the Assumptions of an Ideal PointResponse Process: Toward Increasing the Flexibility of Personality Measures.Psychological Assessment, 19, 88-106.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.Psychometrika, 16, 297-334.

Dawis, R. V. (1992). Scale construction. In A. E. Kazdin (Ed.), Methodologicalissues & strategies in clinical research. (pp. 193-213). Washington, DC:American Psychological Association.

Digman, J. M. (2002). Historical Antecedents of the Five-Factor Model. In P. T.Costa & T. A. Widiger (Eds.), Personality Disorders and the Five-FactorModel of Personality. (2 ed., pp. 17-22). Washington, DC: AmericanPsychological Association.

Elliott, R., Fox, C. M., Beltyukova, S. A., Stone, G. E., Gunderson, J., & Zhang,X. (2006). Deconstructing Therapy Outcome Measurement With RaschAnalysis of a Measure of General Clinical Distress: The Symptom Checklist-90-Revised . Psychological Assessment, 18, 359-372.

Embretson, S. & Reise, S. (2000). Item Response Theory for Psychologists.Mahwah, New Jersey: Lawrence Erlbaum Associates.

Goodwin, L. D. & Leech, N. L. (2006). Understanding Correlation: Factors ThatAffect the Size of r. The Journal of Experimental Education, 74(3), 251-266.

Gulliksen, H. (1950). Theory of menatl tests. New York: John Wiley & Sons.Hambleton, R. & Swaminatham, H. (1984). Item Response Theory, Principles

and Applications (Evaluation in Education and Human Services). New York:Springer.

John, O. P. & Benet-Martínez, V. (2000). Measurement: Reliability, constructvalidation and scale construction. In C. M. Judd (Ed.), Handbook of researchmethods in social and personality psychology. (pp. 339-369).

Linacre, J. M. & Wright, B. D. (1991). WINSTEPS - Rasch-Model computerprograms. Chicago: MESA Press.

Low, G. D. (1988). The semantics of questionnaire rating scales. Evaluation andResearch in Education, 2 (2), 69-70.

McCrae, R. R. & John, O. P. (1992). An introduction to the Five-Factor Modeland its applications. Journal of Personality, 60, 175-216.

Muñiz, J. (1990). Theoría de respuesta a los items: un nuevo enfoque en la evo-lución psicológica y educativa. Madrid: Ediciones Pirámide.

Muñiz, J. (1996). Psicometría. Madrid: Editorial Universitas.Nunes, C. H. S. S. & Hutz, C. S. (2007). Escala Fatorial de Socialização:

Manual Técnico. São Paulo: Casa do Psicólogo.

Nunes, C. H. S. S., Nunes, M. F. O., & Hutz, C. S. (2006). Uso Conjunto deEscalas de Personalidade e Entrevista Para Identificação de Indicadores deTranstorno Anti-social (no prelo). Avaliação Psicológica, 5 (2).

Pasquali, L. (1999). Testes Referentes a Construto: Teoria e Modelo deConstrução. In L. Pasquali (Ed.), Instrumentos Psicológicos: Manual Práticode Elaboração. (pp. 37-71). Brasília, DF: Laboratório De Pesquisa emAvaliação e Medida – LabPAM.

Pasquali, L. (2003). Psicometria: Teoria dos testes na Psicologia e naEducação. Petrópolis, RJ: Vozes.

Primi, R. (1996). Construção de um instrumento para a avaliação do raciocínioindutivo: aplicação da psicologia cognitiva e da teoria de resposta ao item.Unpublished Prometo de Qualificação, Universidade de São Paulo, São Paulo.

Roberts, J. (1994). Rationg scale functioning. Retrieved 29/10/2006,http://www.rasch.org/rmt/rmt83r.htm

Stone, M. H. & Wright, B. D. (1994). Maximizing rating scale information.Rasch Measurement Transactions. Retrieved 29/10/2006, 2006, fromhttp://rasch.org/rmt/rmt83r.htm

Weems, G. H. (2004). Impact of the Number of Response Categories onFrequency Scales . Research in the Schools, 11, 41-49.

Weng, L. (2004). Impact of the Number of Response Categories and AnchorLabels on Coefficient Alpha and Test-Retest Reliability . Educational andPsychological Measurement, 64, 956-972.

Widiger, T. A., Trull, T. J., Clarkin, J. F., Sanderson, C., & Costa, P. T. (2002).A description of the DSM-IV personality disorders with the five-factor modelof personality. In P. T. Costa & T. A. Widiger (Eds.), Personality Disordersand the Five-Factor Model of Personality. (2 ed., pp. 89-102). Washington,DC: American Psychological Association.

Wright, B. D. & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA.Wright, B. D. & Stone, M. H. (1979). Best Test Design. Chicago: MESA.

79

RIDEP · Nº 25 · Vol. 1 · 2008

teoria de resposta ao item para otimização de …originalmente utilizou uma escala likert de 7...

Documents