manual psicometria 2013-2014

Margarida Pocinho Página i

Psicometria e clinimetria

Margarida Pocinho

2014

LIÇÕES DE PSICOMETRIA:

Margarida Pocinho Página ii


Índice

Psicometria ............................................................................................................... 4

Directrizes Internacionais para a Utilização de Testes ........................................................6

Conceber o instrumento de observação .......................................................................... 10

Planificação e construção de um questionário/ teste ....................................................... 10

Construção e padronização de instrumentos de medida .................................................. 11

A administração ................................................................................................................................. 15

Testar o instrumento de observação ................................................................................................. 17

Estudo Piloto ...................................................................................................................................... 45

Estratégias estatisticas de análise de dados ...................................................................................... 45

ANEXOS: ..........................................................................................................................6

INTERNATIONAL TEST COMMISSION ................................................................................................... 7

GUIÃO DE ARTIGO DE REVISÃO DAS CARATERISTICAS PSICOMÉTRICAS DE UMA ESCALA

GUIÃO DE APRESENTAÇÃO DAS DAS CARATERISTICAS PSICOMÉTRICAS DE UMA ESCALA

Margarida Pocinho Página iii


Quadro 1: grelha de decisão dos testes ............................................................................ 48

Quadro 2: grelha de decisão dos testes psicométricos ..................................................... 50

Figura 1: Opções de Medida ............................................................................................ 11

Figura 2: construção de um questionário de raiz ............................................................. 12

Figura 3: etapas da construção de uma escala ................................................................. 13

Figura 4: adaptação de um questionário ao contexto cultural ......................................... 14

Figura 5: o processo de adaptação cultural ...................................................................... 14

Figura 6: identificar os testes estatisticos ........................................................................ 46

Margarida Pocinho; Jorge Conde; Telmo Pereira

Margarida Pocinho Página 4

Psicometria Lições

PSICOMETRIA

Em termos etimológicos, Psicometria provém do grego psyké, que significa alma, e

metron, que significa medida ou medição, e é uma área da Psicologia que faz a ponte

entre a Estatística e a Psicologia. Sua definição consite no conjunto de técnicas

utilizadas para mensurar, de forma adequada e comprovada experimentalmente, um

conjunto ou uma gama de comportamentos que se deseja conhecer melhor.

O Psicólogo psicometrista possui, no seu ambito de actuação e formação, características

que lhe permitem manusear os testes psicológicos de acordo com alguns critérios

básicos. Estes são: Validade, Fidedignidade e Padronização. Qualquer teste que se

preste à validação e, posteriormente ao uso, deve ser fruto de pesquisas nessa área.

A evolução da pesquisa científica baseada no cálculo em Psicologia é pouco incerto em

sentido estrito, porém sabe-se que (sir) Francis Galton foi o fundador do primeiro

laboratório voltado às medições antropométricas1, em Londres, no ano de 1884. "Ele

entendia que a discriminação sensorial era a base do desempenho intelectual, e que

medidas adequadas, neste sentido, seriam capazes de indicar diferenças entre os mais e

os menos capazes (Anastasi, Psychological testing, 1988).

Hermann Ebbinghaus, no ano de 1885, começa os primeiros estudos experimentais

sobre a memória. Com base nas suas experiencias, Ebbinghaus formulou coeficientes

sobre como se dá a aquisição de memória a partir de um conjunto de letras ordenadas de

forma não-lógica.

Se a realização de experimentos deu à psicologia o seu status de ciência, a inserção

profissional ocorreu através da avaliação psicológica. O exemplo mais emblemático,

neste sentido, é a contribuição de Ebbinghaus que serviu de modelo para construção de

itens em avaliação psicológica. Contudo, a teoria que iria fundamentar a prática de

avaliação psicológica estava já sendo delineada na Inglaterra sob influência da teoria da

evolução de Charles Darwin, atravéz de Galton, primo de Darwin.

1 A antropometria trata das medidas físicas do corpo humano




No Reino Unido, Galton conheceu James McKeen Cattell (1860-1944) e, juntos,

formularam, pela primeira vez, provas que consistiam em medidas de discriminação

sensorial, de tempo e de reacção.

Em sentido diferente e por diversas críticas que estes possuiam dos testes anteriores de

inteligência, o francês "Alfred Binet (1857-1911) e seu parceiro Théodore Simon

desenvolveram, a pedido da comissão francesa para a investigação dos interesses da

educação, o primeiro teste de inteligência para diferenciar crianças retardadas e crianças

normais em seus mais variados graus" (Passarelli, 1995). Esta escala de classificação

tem sua data de origem em 1905 e, desde então, sofreu diversas modificações na sua

origem e no seu nome. Actualmente, apesar das variações e versões (Long ou short), ele

é conhecido como Teste Stanford-Binet de Inteligência.

A psicometria é uma metodologia Quantitativa que por sua vez é conjunto de métodos

que apela para procedimentos matemáticos, mesmo no estudo dos fenómenos sociais e

humanos, cujo objectivo primordial é a medição de tais fenómenos. É um processo de

inquirição para a compreensão de um problema, enquadrado por uma teoria composta

de variáveis medidas com números e analisada através de procedimentos estatísticos,

tendo em vista determinar se para um dado nível de probabilidade, podem os dados

serem generalizados.

Estes métodos pressupõem a quantificação de dados através de estatísticas padronizadas

e a interpretação de dados, segundo a técnica estatística, que, por sua vez, pressupõe a

colheita de dados (amostragem), a verificação dos dados (validade) e a interpretação dos

dados (correlação, associação, diferenças, aderências, etc.).

“A PSICOMETRIA (Medidas em Psicologia) é um ramo da Psicologia que se utiliza

dos conhecimentos da Estatística para a mensuração dos fenómenos psicológicos

(construtos) de um indivíduo ou grupos, suas habilidades, aptidões, atitudes,

conhecimentos, inteligência ou traços de personalidade. É uma disciplina

iminentemente técnica, com seus próprios fundamentos teóricos. Sua principal

aplicabilidade é na testagem e na avaliação psicológica” (LAP- Laboratório de

Avaliação Psicológica, 2007, p. 1).




DIRECTRIZES INTERNACIONAIS PARA A UTILIZAÇÃO DE TESTES

Em 1992, a International Test Comission (ITC) iniciou um projecto para preparar

orientações para a tradução e adaptação de testes e instrumentos psicológicos. Várias

organizações ajudaram o ITC na preparação daquelas directrizes: European Association

of Psychological Assessment, European Test Publishers Group, International

Association for Cross-Cultural Psychology, International Association of Applied

Psychology, International Association for the Evaluation of Educational Achievement,

International Language Testing Association and International Union of Psychological

Science. . Uma comissão de 12 representantes destas organizações trabalharam durante

vários anos para preparar 22 orientações e, posteriormente, essas directrizes foram

testadas em campo (ITC-International Test Commission, 2008).

Em 1999 o Conselho da International Test Commission (ITC) dos Estados Unidos e a

Task Force on Tests and Testing da European Federation of Professional Psychologists

Associations (EFPPA) adoptaram um conjunto de Directrizes, oficialmente publicadas

por ocasião da Assembleia Geral da ITC, em 24 de Julho de 2000, em Estocolmo (ver

anexo).

As directrizes, foram organizadas em quatro categorias:

1. Contexto

a. Os efeitos das diferenças culturais que não são relevantes para os

objectivos do estudo devem ser minimizados

b. A duplicação de construtos a medir nas populações de interesse deve ser

avaliada.

2. Construção, desenvolvimento e Adaptação

a. Os autores do Teste/ editores devem garantir que o processo de

Construção, Desenvolvimento e Adaptação tem em conta as diferenças

linguísticas e culturais entre as populações para as quais os instrumentos

adaptados ou as versões se destinam

b. Os autores do Teste/ editores deverão fornecer provas de que a

linguagem de todas as instruções, as rubricas e itens, bem como o manual




são adequadas para todas as culturas e populações para os quais o teste

ou instrumento se destina.

c. Os autores do Teste/ editores devem apresentar provas de que a escolha

das técnicas de testagem, formatos dos itens, protocolos e procedimentos

são familiares a todas as populações se destina.

d. Os autores do Teste/ editores deverão fornecer provas de que o conteúdo

dos itens e materiais orientadores são familiares a todas as populações se

destina.

e. Os autores do Teste/ editores devem implementar uma avaliação

sistemática, tanto linguística como psicológica, para melhorar a precisão

do processo de adaptação e compilar evidências acerca da equivalência

linguistica.

f. Os autores do Teste/ editores devem garantir que o projecto de recolha de

dados permite o uso de técnicas estatísticas adequadas para estabelecer

equivalência entre os itens das diferentes versões linguísticas do teste ou

instrumento.

g. Os autores do Teste/ editores devem aplicar técnicas estatísticas

adequadas (1) estabelecer a equivalência entre as diferentes versões do

teste ou instrumento, e (2) identificar as componentes ou aspectos

problemáticos do instrumento que podem ser inadequados para uma ou

mais das populações a que se destinam

h. Os autores do Teste/ editores devem fornecer informações sobre a

avaliação da validade em todas as populações-alvo para quem a versões

adaptadas são destinados.

i. Os autores do Teste/ editores devem fornecer dados estatísticos da

equivalência das questões para todas as populações a que se destina.

j. Questões não equivalentes entre as versões destinadas a diferentes

populações, não devem ser usadas na preparação de uma escala comum

ou para comparar essas populações. No entanto, elas podem ser úteis no

aumento da validade de conteúdo reportado a cada população.

3. Administração

a. Os autores do Teste e administradores devem tentar antecipar os tipos de

problemas que podem ser esperados, e tomar as medidas apropriadas




para corrigir esses problemas através da preparação de materiais e

instruções adequadas.

b. Os administradores dos testes devem ser sensíveis a uma série de

factores relacionados à compreensão dos materiais, procedimentos

administrativos, e os modos de resposta que podem influenciar a

validade das inferências que se podem retirar dos scores

c. Os factores ambientais que podem influenciar os resultados de um teste

ou instrumento dvem ser semelhantes entre as populações para que as

diferenças não sejam atribuídas a esses factores

d. Instruções para administração do teste devem estar nos idiomas de

origem e de destino para minimizar a influência de fontes indesejáveis de

variação entre as populações.

e. O manual do teste deve especificar todos os aspectos da administração

que exigem uma análise do novo contexto cultural.

f. O administrador deve ser discreto e a sua interação com o examinado

deve ser minimizada. As regras explícitas que são descritas no manual de

administração devem ser seguidas

4. Documentação / Intrepretação dos Scores

a. Quando um teste ou instrumento é adaptado para uso noutra população, a

documentação das mudanças devem ser fornecidos, junto com a prova da

equivalência.

b. As diferenças de pontuação entre as amostras a quem foi administrado o

teste ou instrumento não devem ser tomada pelo valor absoluto dos

scores. O pesquisador tem a responsabilidade de justificar as diferenças

com outras evidências empíricas.

c. As comparações entre as populações só podem ser feitas ao nível da

invariância que foi estabelecida para as pontuações da escala.

d. O autor do teste deve fornecer informações específicas sobre a forma em

que os contextos socioculturais e ecológicos das populações podem

afectar o desempenho, e deve sugerir procedimentos para explicar esses

efeitos na interpretação dos resultados.




Estas diretrizes tornaram-se um quadro de referência para muitos psicólogos que

trabalham na área da tradução e adaptação dos testes.

A Comissão para a Adaptação Portuguesa das Directrizes Internacionais para a

Utilização de Testes agrupou colaboradores da Faculdade de Psicologia e de Ciências da

Educação/Universidade do Porto, do CEGOC-TEA, Departamento de Educação e

Psicologia/Universidade do Minho, da Faculdade de Psicologia e de Ciências da

Educação/Universidade de Lisboa, da Faculdade de Psicologia e de Ciências da

Educação/Universidade de Coimbra e do Instituto Superior de Psicologia

Aplicada/Lisboa e produziram um manual que foi editado pela CEGOC-TEA, com

autorização da Comissão para a Adaptação Portuguesa das Directrizes Internacionais

para a Utilização de Testes, mas como a sua venda é proibida.

Se tiver necessidade de consultar o documento contacte António Menezes Rocha,

Director Associado do CEGOC-TEA através do e-mail: [email protected]. O original

das directizes pode ser consultado no anexo 3.

É hoje comum que estudantes académicos, profissionais de saúde, profissionais da área

social e outros adultos, crianças ou idosos consultem um psicólogo para que este o

avalie, sobretudo se existem dificuldades, ou se de algum modo as

atitudes/comportamentos se afastam um pouco da normalidade. Em regra, o psicólogo

começa por ouvir quem o procura ou aqueles que sabem ou podem fornecer dados

necessários à construção de uma história clínica. Assim, no inicio são recolhidas

informações (desenvolvimento físico e emocional) que dão sentido a todos os resultados

que se obtêm posteriormente na avaliação psicométrica.

Não se pode avaliar ninguém, sem enquadrar devidamente essa avaliação na história

pessoal do sujeito avaliado. Além disso, quaisquer interpretações de testes requerem

uma longa preparação teórica, que só um psicólogo tem acesso. Em Portugal, para além

das directrizes supra citadas, ainda não existem regras que regulem a utilização dos

testes psicométricos.

Existem, de facto, testes psicométricos que todos conhecem e que por vezes efectuam,

até por brincadeira. São testes que permitem avaliar, factores quer da personalidade,

quer da inteligência, mas que não devem ser analisados fora do contexto da sua

utilização: académico, clínico, social, organizacional, etc..

mailto:[email protected]




CHEGOU A VEZ DE APLICAR AS NOÇÕES ESTUDADAS, NESTA

ETAPA, AO SEU PRÓPRIO TRABALHO. COMECE POR

PESQUISAR ESCALAS DE MEDIDA PARA PODER APLICAR E

DAR INICIO A UM TRABALHO DE PSICOMETRIA QUE

ORIGINARÁ UM ARTIGO CIENTIFICO SOBRE ESSA TEMÁTICA.

CONCEBER O INSTRUMENTO DE OBSERVAÇÃO

A primeira operação da fase de observação consiste em conceber um instrumento capaz

de produzir todas as informações adequadas e necessárias para testar as hipóteses. Este

instrumento será frequentemente, mas não obrigatoriamente, um Exame de diagnóstico,

uma escala, um questionário ou um guião de entrevista. Alguns deles requerem, por

vezes, um pré-inquérito como complemento da fase exploratória.

PLANIFICAÇÃO E CONSTRUÇÃO DE UM QUESTIONÁRIO/ TESTE

Para se compreender qualquer actividade humana complexa é necessário dominar a

linguagem e o tipo de abordagem que lhe é feita pelos tipos que a realizam. O mesmo

acontece quando se trata de compreender a investigação científica. É necessário que se

compreenda, pelo menos em parte, a linguagem científica e os métodos a que a ciência

recorre para resolver os problemas.

A planificação e construção de um teste é de interesse neste ponto porque, possibilita-

nos um modo de obter informações, as pessoas reagem a uma quantidade de estímulos

estruturados, isto acontece essencialmente na pesquisa comportamental.

Um teste é um procedimento sistemático em que se apresenta, aos indivíduos, um

conjunto de itens que medem um atributo. Estas pesquisas possibilitam ao investigador

atribuir scores individuais, que presumivelmente indicam o grau em que os indivíduos

possuem o atributo que está a ser medido.

A construção de um teste vai da validação, fidedignidade, aferição até à padronização.

Quando construímos um questionário temos de ter atenção às normas a ter em conta na




sua construção, à selecção dos itens, à administração padronizada, aos obstáculos que se

nos colocam bem como a forma mais eficiente de construção e administração.

Por isso, o primeiro passo é decidir o que queremos e como queremos medir, não

perdendo de vista a qualidade da medida (fig.1)

FIGURA 1: OPÇÕES DE MEDIDA

CONSTRUÇÃO E PADRONIZAÇÃO DE INSTRUMENTOS DE MEDIDA

Questionário é uma ferramenta desenhada para obter e documentar exposições, ou para

guiar a obtenção e a documentação de exposições, a serem lembradas pelos sujeitos de

um estudo epidemiológico (Pocinho, 2007; White, Armstrong, & Saracci, 1992).

Há duas técnicas predominantes para o desenvolvimento de escalas multi-itens de

medidas de saúde: a clinimétrica e a psicométrica. A primeira, usada na prática clínica,

assenta no julgamento de pacientes, médicos e outros profissionais a respeito de

fenómenos clínicos, que abrangem várias características ou atributos dos pacientes, não

relacionados entre si. A estratégia psicométrica, usada em psicologia e em testes de

inteligência, sustenta-se em técnicas estatísticas e tem como objectivo (não exclusivo)

desenvolver uma escala (ou escalas múltiplas) que meça características ou atributos




únicos do indivíduo (Pocinho, 2007; Marx, Bombardier, Hogg-Johnson, & Wright,

1999; Wright & Feinstein, 1992)

O desenvolvimento da escala, para ambas as estratégias, é feito em dois estágios: a

construção e a redução de itens, sendo que a diferença se opera no último estágio. A

construção de itens, semelhante para as duas, define o conteúdo do instrumento e

assegura que todas as variáveis importantes sejam consideradas para inclusão na escala.

A partir da base conceptual do que se deseja medir, chega-se aos diferentes domínios ou

dimensões que explicam o fenómeno; define-se o conteúdo da escala e garante-se que

todos os tópicos importantes sejam incluídos. Os itens são provenientes de múltiplas

fontes: julgamento clínico/individual do profissional, pesquisas anteriores, opiniões de

pacientes, consenso de especialistas ou modelos estatísticos. O conteúdo da escala é a

primeira etapa, e os itens individuais são seleccionados tendo em vista medir os

atributos que podem explicar o fenómeno. No final, o conjunto dos itens deve ser

ajuizado para se verificar se existe uma representação adequada de todos os aspectos

pertinentes do fenómeno em estudo (fig. 2)

FIGURA 2: CONSTRUÇÃO DE UM QUESTIONÁRIO DE RAIZ

A redução de itens elimina itens redundantes ou inapropriados, diminuindo o número a

um total que seja praticável de administrar, assegurando, ao mesmo tempo, que a escala

meça o constructo ou o fenómeno clínico de interesse. A forma de se proceder à redução

é diferente em cada estratégia (fig. 3).

Construção

PSICOMETRIA CLINIMETRIA

JULGAMENTO DE PACIENTES, MÉDICOS E OUTROS

PROFISSIONAIS A RESPEITO DOS FENÓMENOS CLINICOS TÉCNICAS ESTATISTICAS




FIGURA 3: ETAPAS DA CONSTRUÇÃO DE UMA ESCALA

Na clinimétrica, as avaliações dos pacientes determinam quais os itens que deverão ser

incluídos na escala final; após hierarquização dos itens segundo o seu impacto, serão

incluídos na escala final os itens mais importantes e de maior frequência ou severidade,

conforme avaliado pelos pacientes, respeitando-se a multidimensionalidade do

constructo. Todas as dimensões que ajudam a explicar o constructo (ou o fenómeno

clínico que se quer medir) devem estar representadas na escala final. Na psicométrica,

são usadas várias técnicas estatísticas para reduzir o número de itens e distribuí-los em

dimensões: matriz de correlações, Alpha de Cronbach, Análise Factorial e outras

(Pocinho, 2007).

O desenvolvimento da mensuração é fruto de uma transformação e evolução global ao

longo de vários séculos. Concorrem nesse desenvolvimento as transformações que

foram ocorrendo nas próprias sociedades, o desenvolvimento das ciências, as sucessivas

mudanças sociais, culturais e económicas e por último na própria forma de ver o

Homem ao longo deste últimos vinte séculos.

Se optarmos por adaptarmos um instrumento em vez de construirmos de raiz, então o

processo de validação tem outros trâmites (fig. 4).




FIGURA 4: ADAPTAÇÃO DE UM QUESTIONÁRIO AO CONTEXTO CULTURAL

Em vez da construção dos itens e respectiva preocupação com o conteúdo e as fontes

que os produzirão, precede-se à tradução e adaptação quer à língua, quer a todo o

contexto cultural que envolve a medida e que podemos sintetizar o processo de

adaptação cultural da seguinte forma (fig 5).

FIGURA 5: O PROCESSO DE ADAPTAÇÃO CULTURAL

Como já referimos, a construção de um teste pressupõe regras claras, sem

ambiguidades, condição essencial para se obter um bom instrumento de medida. Isto

exige-nos uma atenção redobrada, medir torna-se pois num aspecto essencial dos testes

mas é necessário que não se confundam, nem se misturem atributos. Torna-se

Adaptação transcultural

TRADUÇÃO E ADAPTAÇÃO AO NOVO IDIOMA ADAPTAÇÃO AO NOVO CONTEXTO CULTURAL

JULGAMENTO MULTIDISCIPLINAR JURI BILINGUE




imprescindível que cada medida meça apenas um atributo. A definição dessas regras é o

que se chama de padronização

Uma das componentes das escalas é o facto de serem constituídas por um grande

número de itens. Com efeito inicialmente há necessidade de uma grande pool de itens

para depois se proceder à sua redução, que é por vezes três a quatro vezes menor na

versão final.

A forma inicial de escolha de itens pode ser, por um lado pela validade facial, ou seja,

por aquilo que aparentemente parecem ter a ver com o que pretendemos testar, por

outro, podem ser requeridos a um júri que pode ser constituído por cientistas ou

profissionais do âmbito do nosso estudo, que com autoridade podem indicar ou rever os

itens que estarão ligados ao nosso estudo.

Quanto ao tipo de itens, estes podem ser abertos/fechados ou restritos.

Os primeiros utilizam-se quando pretendemos respostas do tipo projectivo. As suas

vantagens situam-se no facto de desejarmos por exemplo conhecer as habilidades e

processos que um indivíduo ao ser testado usa para chegar à resposta.

Os itens restritos, são aqueles de escolha forçada (verdadeiro-falso/escolha múltipla), as

vantagens situam-se ao nível da relativa rapidez e objectividade na correcção que

efectuamos.

As principais desvantagens dos itens restritos, é o facto de estes poderem ser facilmente

avaliados, mas estão sujeitos à aleatoriedade das respostas. No caso dos itens

abertos/fechados, a principal desvantagem ou dificuldade situa-se ao nível da pontuação

pois esta torna-se mais demorada.

Para que este instrumento seja capaz de produzir a informação adequada deverá conter

perguntas sobre cada um dos indicadores previamente definidos e formulá-las com um

máximo de precisão. Mas esta precisão não é obtida imediatamente, é necessário testar

o instrumento de observação.

A ADMINISTRAÇÃO

A administração é conjuntamente com a selecção dos itens, uma das fases mais

importantes para que este se torne num excelente meio de medição, ou seja, que tenha




óptimas qualidades psicométricas. A objectividade requerida num teste é-lhe conferida

pela padronização, criando-lhe condições, do mais uniforme possível, para os

indivíduos examinados com o mesmo teste (Freeman, 1980).

O teste ao ser administrado, deve ser feito de forma definida, sob condições uniformes,

a uma amostra de examinados, representativa do grupo a que se destina (Aiken, 1982).

É deste grupo que se estabelece as normas, ou seja a amostra de padronização.

Nunnally refere que amostra de padronização deve conter no mínimo 300 indivíduos,

sendo aconselhável uma amostra de 1000 sujeitos, ou ainda mais se possível (Nunnally,

1978). Bryman e Cramer não referem um numero fixo, mas uma relação de 3 a 5

indivíduos por variável (Bryman & Cramer, 2003), o que nos parece mais lógico, uma

vez que diferencia escalas de 10 itens das escalas com 100.

Autores como Golden, Freeman Aiken e Anastasi, alertam-nos para a necessidade de

padronizar as condições circundantes de administração, assim questões como

legibilidade, cor, forma tamanho, etc., tornam-se essenciais no pré-teste, pois podem

provocar diferentes interpretações e variações na resposta que se pretende. O pré-teste

não é mais do que “um processo de selecção, rejeição, adição e refinamento dos itens, e

sua localização na escala em função do nível de dificuldade. Torna-se importante

observar se os sujeitos compreendem as questões, se a administração é difícil, bem

como o tempo que demora a responder ao teste, isto porque nem sempre é possível fazer

o tipo de administração planeado (Anastasi, Testes psicológicos, 1977; Freeman, 1980;

Aiken, 1982; Golden, Sawicki, & Franzen, 1984).

Um dos aspectos essenciais na questão da padronização de um teste, é o facto de esperar

que diferentes pessoas a quem o teste possa ser administrado, medindo o mesmo

atributo, em termos de resultados, possam ser semelhantes.

É essencial compreendermos a necessidade de existirem normas para a compreensão

dos resultados de um teste, a amostra da padronização deve ser representativa da

população, o que nos vai dar os valores de realização média dessa população. A

distribuição dos resultados situa na curva de distribuição normal.

A exigência de objectividade de um teste deste tipo, obriga, por facilidade de

interpretação a que sejam fornecidas tabelas com os valores médios obtidos na

população a quem passamos o pré-teste, ou mesmo de uma população específica onde o

teste foi empregue. É essencial realizar-se estudos preliminares para ver se determinado




tipo de teste é adequado a uma população que desejamos estudar, e essa adequação pode

ser dada pelas medidas padronizadas. As normas e distribuição dos resultados são

afectadas pela representatividade da amostra, bem como o podem ser pela proporção de

cada sexo, distribuição geográfica, nível socioeconómico e idade.

A padronização da administração é pois um aspecto essencial na planificação e

construção de um teste, antes mesmo de ver a garantia que esse teste nos oferece, bem

como a sua validade e adequabilidade.

TESTAR O INSTRUMENTO DE OBSERVAÇÃO

A exigência de precisão varia consoante se trate de um questionário ou de um guião de

entrevista. O guião de entrevista é o suporte da mesma. Mesmo quando está muito

estruturado, fica nas mãos do entrevistador. Pelo contrário, o questionário destina-se

frequentemente à pessoa interrogada; é lido e preenchido por ela. É, pois, importante

que as perguntas sejam claras e precisas, isto é, formuladas de tal forma que todas as

pessoas interrogadas as interpretem da mesma maneira.

Num questionário dirigido a jovens e tendo por objecto a prática do desporto

encontrava-se a seguinte pergunta: «Os seus pais praticam desporto?» Esta pergunta

parece simples e clara e, no entanto, está mal formulada e conduz a respostas não

utilizáveis. Em primeiro lugar, a palavra pais é imprecisa. Trata-se do pai e da mãe ou

de um conjunto familiar mais alargado? Depois, que responder se apenas um deles

pratica desporto? Uns responderão «sim», pensando que basta que um deles seja

desportista; outros dirão «não», achando que a pergunta abrange ambos. Assim, para

designar o mesmo estado de coisas obter-se-ão «sins» nuns e «nãos» noutros. Estas

respostas não eram utilizáveis e toda a parte da investigação que andava à volta desta

pergunta deve de ser abandonada. Além da exigência de precisão, é ainda necessário

que a pessoa interrogada esteja em condições de dar a resposta, que a conheça e não

esteja constrangida ou inclinada a escondê-la.

Para nos assegurarmos de que as perguntas serão bem compreendidas e as respostas

corresponderão, de facto, às informações procuradas é imperioso testar as perguntas.

Esta operação consiste em apresentá-las a um pequeno número de pessoas pertencentes

às diferentes categorias de indivíduos que compõem a amostra. Neste processo pode




descobrir-se que um termo como «eutanásia» não é compreendido por toda a gente.

Pode também chegar-se à conclusão que existem perguntas que provocam reacções

afectivas ou ideológicas e cujas respostas deixam de ser utilizáveis. Por este meio

identificam-se ainda outros tipos de perguntas, como aquelas às quais as pessoas não

gostam de responder e, por conseguinte, se forem absolutamente necessárias é preferível

não as colocar no início do questionário, pois pode influenciar a resposta às seguintes

(Quivy & Campenhoudt, 1992).

No que diz respeito ao guião de entrevista, as exigências são diferentes. É a forma de

conduzir a entrevista que deve ser experimentada, tanto ou mais do que as próprias

perguntas contidas no guião. Não falamos aqui do guião de entrevista muito estruturado,

cujas exigências são semelhantes às do questionário. É sobretudo quando se trata de

uma entrevista semidirectiva que as coisas se tornam muito diferentes. No entanto,

cuidado: um guião de entrevista pouco estruturado não significa que o investigador

tenha cometido omissões ou sido negligente durante a fase de construção, significa, que,

por diversas razões ligadas aos seus objectivos de investigação, não julgou desejável

que o tipo de construção da sua entrevista transparecesse através das perguntas (Quivy

& Campenhoudt, 1992). Neste caso, trata-se de levar a pessoa interrogada a exprimir-se

de forma muito livre acerca dos temas sugeridos por um número restrito de perguntas

relativamente amplas para deixar o campo aberto a respostas diferentes daquelas que o

investigador teria podido explicitamente prever no seu trabalho de construção. Aqui as

perguntas ficam, portanto, abertas e não induzem as respostas nem as relações que

podem existir entre elas.

A estrutura das hipóteses e dos conceitos não está rigorosamente reproduzida no guião

de entrevista, mas não está por isso menos presente no espírito de quem a conduz. O

entrevistado deve continuamente levar o seu interlocutor a exprimir-se sobre os

elementos desta estrutura sem lha revelar. O sucesso de uma entrevista deste tipo

depende, é claro, da composição das perguntas, mas também, e sobretudo, da

capacidade de concentração e da habilidade de quem conduz a entrevista. Assim, é

importante testar-se. Isto pode fazer-se gravando algumas entrevistas e ouvindo como

foram conduzidas (Quivy & Campenhoudt, 1992).




FIDEDIGNIDADE

Termos como: garantia, precisão e fidelidade significam o mesmo, ou seja, apesar de

não existir consenso, ambos significam fidedignidade, termo corrente nos meios

académicos e pelo qual optamos neste manual.

As duas características essenciais de um teste robusto são a garantia e a validade.

Significa pois, até ponto é que as qualidades psicométricas de um teste são precisas e

verdadeiras.

A fidedignidade de um teste consiste na possibilidade de ele fornecer resultados

consistentes em várias medições (Freeman, 1980; Aiken, 1982).

Para Freeman fidedignidade de um teste não tem a ver com a construção do teste, mas

sim com a administração deste. Questões como a predisposição dos indivíduos para

realizar um teste, diferenças entre indivíduos, habilidades, efeito da prática, condições

físicas do examinado na administração do teste, competência dos examinadores, são no

entender de Freeman factores importantes a ter em conta na administração de um teste.

A garantia é em parte uma consequência das condições em que a prova é aplicada. A

fidedignidade é exprimida em termos estatísticos por um índice estatístico, o coeficiente

de fidedignidade que indica até que ponto os indivíduos de um grupo obtém resultados

relativamente consistentes quando se procede a duas medições utilizando o mesmo teste

ou duas formas equivalentes de um teste e se calcula a correlação (Freeman, 1980).

A fidedignidade é traduzida neste termos pelas diferentes pontuações dos observadores,

bem como pela estabilidade temporal do atributo ou atributos medidos, obtendo-se

assim a correlação entre dois testes paralelos ou duas aplicações do mesmo teste (teste-

reteste). É traduzida, também pela consistência interna, ou seja, a homogeneidade dos

itens do teste, mostrando-nos se estes (nas sub-partes) medem o mesmo atributo.

Ao falarmos assim de fidedignidade, falamos concretamente de dois aspectos essenciais

que esta mede: fidedignidade externa - consistência de um teste ao longo do tempo

(estabilidade temporal); fidedignidade interna - se o atributo que a escala se propõe

medir é consistente e se mantém apenas a medição de um único atributo (Kline, 1987).

A garantia de um teste traduz-se num valor decimal (positivo) que assume valores entre

o 0,00 e 1,00. Significa que 0,00 é a ausência de garantia e 1,00 garantia perfeita.




Anastasi refere que a fidedignidade pode ser definida como o grau de consistência entre

duas medidas da mesma coisa (Anastasi, Testes psicológicos, 1977). Nunnally diz que o

coeficiente de garantia é a correlação entre dois testes (Nunnally, 1978). Prieto e Muñiz

definem Fidedignidade como capacidade de um instrumento fornecer resultados

consistentes em aplicações repetidas. Esta noção, em geral, é utilizada para abarcar os

dois aspectos diferentes da fidedignidade: a externa e a interna.

Fidedignidade (interna) é o termo que se usa mais vulgarmente quando se pretende

referir o grau de consistência entre todos os itens de uma medida. Quando se mede a

consistência interna obtém-se um coeficiente de confiabilidade que, segundo Bryman

e Cramer, é bom se for superior a 0,8 (Bryman & Cramer, 2003). Prieto e Muñiz

apresentam critérios mais alargados e consideram inadequado um coeficiente abaixo de

0,60, adequado com algumas carências os coeficientes entre 0,60 e 0,70, adequado

entre 0,70 e 0,80, bom entre 0,80 e 0,85 e excelente os que se encontram acima de

0,85 (Prieto & Muñiz, 2000).

Como refere Golden não existe um tipo ideal de teste, estes incluem sempre algum erro

(Golden, Sawicki, & Franzen, 1984). Aiken refere erros do tipo sistemático e erros do

tipo não sistemático. Os primeiros influenciam as pontuações dos testes, mas não

afectam a garantia. Os segundos podem baixar a garantia, uma vez que são

imprevisíveis (Aiken, 1982).

A existência de vários modos de estimação de garantia ou fidedignidade, como a

consistência interna, as formas paralelas e o teste reteste, têm em conta a necessidades

de quem administra o teste, o tipo de itens, bem como aquilo que o teste pretende medir,

fornecendo dados que nos ajudam a diminuir a variância do erro.

CONSISTÊNCIA INTERNA

A consistência interna significa a consistência dos resultados ao longo do teste quando

este é aplicado uma vez, ou seja, a precisão da medição efectuada num determinado

momento (Freeman, 1980). Só podemos dizer que um instrumento tem consistência

interna se todas as suas sub partes medirem a mesma característica. A consistência

interna diz respeito às estimativas de garantia, baseando-se na correlação média entre os




itens (Freeman, 1980). Ao requerer uma só aplicação, trata-se da melhor forma de

avaliar os erros de medição, bem como mais económico.

De entre as formas que existem para determinar a consistência interna temos: o método

metade-metade, a correlação item-restante, o coeficiente alfa de Cronbach e a

correlação média entre itens. Para determinar a consistência externa temos o teste-

reteste e as formas equivalentes.

METADE-METADE DE SPEARMAN-BROWN

Postula que se pode chegar a uma medida de fidedignidade só com uma aplicação de

uma de forma de um teste. Correlacionam-se as duas metades de um teste, aleatorizando

os itens, ou com base nos itens pares e impares. Este método tem muita afinidade com o

método das formas equivalentes.

Na fidedignidade pelo método Metade-Metade, produz-se uma espécie de forma

alternativa, dividindo uma escala em duas partes. Este método avalia o grau de

consistência entre itens, determinando a consistência interna da escala, embora não

possa medir a estabilidade temporal, oferece a vantagem de uma única aplicação. Este

método assume que todos os itens contribuem de igual forma para a mensuração de um

constructo mental.

O coeficiente de correlação obtido através desta técnica Metade-Metade tende a gerar

uma estimação inferior à da escala na sua totalidade já que a correlação aqui obtida é

relativa a metade do teste. As escalas com elevado número de itens geram

fidedignidades maiores. Com o objectivo de superar esta dificuldade foi criada uma

fórmula para ajustar o coeficiente de correlação para toda a escala.

A equação que define este tipo de correlação é a fórmula de previsão Spearman-Brown:

onde é o número de "testes" combinadoρxx'é a fiabilidade do actual "teste". A

fórmula prevê a confiabilidade de um novo teste composto se replicar o actual critério N

vezes (ou, de forma equivalente, a criação de um teste com N formas paralelas do actual

exame). Assim, N = 2 implica a duplicação do tamanho do teste, adicionando os itens

com as mesmas propriedades que as do actual exame (em função do aumento do




número de itens de uma medida). Valores de N inferior a um pode ser usado para prever

o efeito de reduzir um teste.

A fórmula também pode ser reorganizado para prever o número de repetições

necessárias para atingir um grau de fiabilidade:

Esta fórmula é comumente utilizada por psicometristas para prever a confiabilidade de

um teste após mudar o tamanho do teste. Esta relação é particularmente util para a

divisão de metade-metade ( e respectivos métodos de estimativa de confiabilidade.

A fórmula também é útil para a compreensão da relação entre o teste não-linear e

confiabilidade sobre o tamanho do teste

Se o teste longo / curto não é paralelo ao actual teste a previsão não será rigorosamente

exactos. Por exemplo, se um teste altamente confiável foi alongado, acrescentando

muitos itens pobres, estes influenciam negativamente a confiabilidade que

provavelmente será muito inferior ao previsto por esta fórmula.

A análise através da teoria do item resposta fornece uma informação muito mais precisa

permitindo prever mudanças na qualidade da medição, adicionando ou removendo itens

individuais.

CORRELAÇÃO ITEM – RESTANTE

A crescente quantidade e implemento da estatística na área da informática possibilitam

ganhos em termos de tempo. O que há alguns anos era um processo moroso tornou-se

agora numa operação simples e rápida.

A correlação item-restante é uma outra fórmula de conhecer a fidedignidade de um

teste, consegue-se através da correlação entre o respectivo item e a soma dos itens sem o

item que se escolheu.

A correlação item-restante permite eliminar os itens que apresentam correlações em

relação a outros itens. Pode ocorrer a diminuição de muitos itens, mas isso não invalida

este tipo de método uma vez que a sua aplicação permite mais garantia.

http://74.125.79.100/translate_c?hl=pt-PT&sl=en&u=http://en.wikipedia.org/wiki/Item_response_theory&prev=/search%3Fq%3Df%25C3%25B3rmula%2Bde%2BSpearman-Brown%26hl%3Dpt-PT%26rls%3Dcom.microsoft:pt:IE-SearchBox%26rlz%3D1I7SKPB&usg=ALkJrhg-7TCFvWkP2Inf2m_raD0cRk92rw




ALFA DE CRONBACH

O coeficiente alfa de Cronbach () foi desenvolvido para calcular a confiabilidade de

um teste. O valor de aumenta com o número de questões da escala; assim, escalas

com vinte questões freqüentemente apresentam valores de próximo de 0,90 (Streiner,

1993). O coeficiente alfa de Cronbach é o resultado da aplicação de uma fórmula que

serve para determinar a fidedignidade através da consistência interna, que varia entre 0

(zero) e 1 (um). Uma regra consensual entre a comunidade científica é que um α de

0,6-0,7 indica uma fidedignidade aceitável, 0,8-0,95 indica que é boa e 0,95 ou

superior não é desejável pois indica que os items podem ser totalmente

redundantes.

Para o caso das escalas somativas de respostas dicotómicas é utilizada a fórmula KR-20

e KR-21 de Kuder-Richardson utilizados como medidas da consistência interna [as

respostas a todos os itens que integram a escala devem estar codificados em 0 e 1

(incorrecto vs. correcto; discordo vs. concordo; falso vs. verdadeiro, etc.)]. O

coeficiente KR-21 é uma simplificação do coeficiente KR-20, na qual se pressupõe que

todos os itens têm variância igual. A sua importância é meramente histórica, uma vez

que a respectiva determinação visava exclusivamente simplificar os procedimentos de

cálculo manual, numa época anterior à existência generalizada de software estatístico

(Alferes, 2008)

METADE-METADE DE GUTTMAN

Trata-se agora de considerar uma outra fórmula de estimar a garantia e que pode ser

interpretado como o alfa de Cronbach. Trata-se de conceber os itens em dois grandes

grupos e tratar estes como itens únicos, mas assume variâncias diferentes das duas

metades, em relação ao coeficiente metade-metade de Spearman-Brown.

TESTE-RETESTE:

FORMA ÚNICA

Esta é outra das formas de estimação da garantia/fidedignidade. Trata-se da

administração de um mesmo teste em duas ocasiões diferentes ao mesmo grupo de

indivíduos. O coeficiente de garantia obtém-se pela correlação entre as pontuações




obtidas em cada uma das aplicações obtidas do teste (Freeman, 1980).Es te tipo de

estimação parte do princípio de que as características de um teste têm alguma

estabilidade temporal.

Ao interpretar os resultados do coeficiente de Teste-Reteste devem ter-se em conta

algumas das limitações deste método. Ex: fadiga, diferentes condições ambientais, erros

de administração cometidos pelo examinador, bem como o efeito de memória que pode

ocorrer durante a segunda administração.

Torna-se então numa obrigação a necessidade de limitar o número de vezes que o

indivíduo é examinado com a mesma prova. Em vez de retestes frequentes, os

elementos são obtidos examinando maior número de indivíduos em vez de os examinar

várias vezes.

Apresenta-nos algumas vantagens como o facto de o conteúdo ser completamente

equivalente nas duas ocasiões, o facto de ser mais fácil elaborar uma forma única de um

teste do que duas (Freeman, 1980).

Em termos de desvantagens, trata-se de um método demorado. As modificações

ocasionais pelo facto de se ter apreendido e desenvolvido “aptidões”. Os indivíduos já

não são os mesmos (Freeman, 1980). Ainda dentro da opinião deste autor, embora o

coeficiente de garantia seja relativamente elevado quando se usa a mesma forma de

teste, a influência da evocação não é tão grande como possa parecer.

FORMAS EQUIVALENTES

As formas paralelas, que na sua forma ideal serão formas alternativas, consistem na

administração de dois testes, equivalentes, aos mesmos indivíduos (Freeman, 1980).

Esta forma considera que o número de itens têm de ser o mesmo, bem como os tipos de

itens devem ser uniformes quanto ao conteúdo, operações ou dimensões implicáveis,

níveis e amplitude da dificuldade e correcta solução. A distribuição da dificuldade deve

ser idêntica, assim como devem ter o mesmo grau de homogeneidade no que respeita às

operações ou dimensões medidas. As médias ou desvios padrões das duas formas

devem ser idênticos. A mecânica de aplicação e apuramento deve ser semelhante nas

duas formas (Freeman, 1980).




Este método de estimação da garantia por formas equivalentes apresenta vantagens

como os possíveis efeitos de uma prática específica ou de uma evolução, pois os itens

das duas versões não são os mesmos.

Apresenta também algumas desvantagens, nomeadamente ao nível da construção e

padronização. Isto é, assegurar a verdadeira equivalência das duas formas.

De um modo geral os valores do coeficiente alfa são muito próximos dos valores

obtidos pela correlação entre as formas alternativas. No entanto, se a correlação das

duas formas alternativas for significativamente mais baixa, significa que algum erro de

medida está presente. Um baixo coeficiente de fidedignidade obtido através da

correlação de duas formas paralelas, significa que os dois testes não medem a mesma

coisa, ou seja, não são duas formas alternativas (Freeman, 1980)

VALIDADE DE UM TESTE

A validade avalia até que ponto o procedimento de medição produz a resposta correcta,

qual o poder de resposta e o poder de interpretação bem como o significado dos

resultados. Procura responder a dois pontos ou questões essenciais que se levantam na

construção e aplicação de um teste, primeiro se o teste está mesmo a medir o que

desejávamos, em segundo se as informações têm algum relevo para o estudo que

desejamos. Um teste é válido quando mede o que se supõe medir. Validade é portanto o

grau com que os resultados obtidos são correctamente interpretados.

Aquilo que à partida pode parecer ser uma boa abordagem para a mensuração numa

base intuitiva (validade facial), pode não ser válido pelos métodos e padrões de

investigação (Nunnally, 1978).

Poderá um teste ser valido e não ser fidedigno e vice-versa?. Aiken refere que “um teste

pode ser fidedigno sem ser válido, mas não pode ser válido sem ser fidedigno”. É que

enquanto a garantia ou fidedignidade é normalmente afectada por erros não sistemáticos

que têm a ver com a administração e com a apresentação (critérios externos) a validade

pode ser afectada por erros sistemáticos. A existência de fiabilidade adequada é

necessária, mas não suficiente, para garantir a validade adequada.




Relativamente à validade dos testes, não raras vezes se refere que um dado teste

psicológico que pode ser válido numa situação não o é noutra, ou, ainda, que existem

níveis diferentes de magnitude de validade de um teste. Este modo de falar sobre a

validade dos testes psicológicos é, no mínimo, confuso. Para confundir ainda mais, o

grande psicometrista Samuel Messick refere que a validade é um julgamento avaliativo

que conjuga a evidência empírica e as racionalizações teóricas com a adequação e

propriedade de inferências e acções baseadas em saturações de testes ou outros modos

de avaliação (Messick, 1989). Este modo de entender e definir a validade dos testes, que

é assumido pela própria American Psychological Association (American Psychological

Association, 1985), tornou o tema um verdadeiro labirinto.

Com efeito se fizermos uma revisão literatura da literatura tradicional e actual sobre o

tema, encontramos um elenco sem fim de expressões ou tipos de validade que um teste

pode ter. Vejamos alguns deles:

1. Validade de construto (também chamado de validade de conceito, validade

conceptual, validade de construção, validade hipotético-dedutiva) (Cronbach &

Meehl, 1955);

2. Validade de conteúdo (Cronbach & Meehl, 1955; Haynes, Richard, & Kubany,

1995);

3. Validade de critério, também chamada Validade preditiva (Cronbach & Meehl,

1955);

4. Validade concorrente (Cronbach & Meehl, 1955);

5. Validade aparente ou facial (Mosier, Problems and designs of cross-validation,

1951; Mosier, Problems and designs of cross-validation, 1951);

6. Validade generalizável ou inferncial (Mosier, A critical examination of the

concepts of face validity, 1947; Mosier, Problems and designs of cross-

validation, 1951; Messick, 1989);

7. Validade discriminante (Campbell & Fiske, 1959);

8. Validade convergente (Campbell & Fiske, 1959);

9. Validade incremental (Bryant, 2000);

10. Validade factorial (Guilford, 1946);

11. Validade lógica (Cronbach L. J., 1949);

12. Validade empírica (empirical validity) (Cronbach L. J., 1949);

13. Validade consequencial (Messick, 1989);




14. Validade intrínseca (Gulliksen, 1950);

15. Validade substantiva (Messick, 1989);

16. Validade estrutural (Messick, 1989);

17. Validade externa (Messick, 1989; Emory, 1985);

18. Validade interna também denominadas por validades de critério, de conteúdo e

de construto (Emory, 1985);

19. Validade de hipótese também chamada de Validade indireta (Weber, 1990;

Janis, 1965);

20. Validade posditiva que é o oposto de validade preditiva (Haynes, Richard, &

Kubany, 1995).

Encontramos, ainda referencia a mais tipos de validade em vários programas

informáticos de tratamento de dados, contudo não identificámos a sua origem. São elas:

21. Validade curricular (curricular validity): constitui uma extensão da validade de

conteúdo e consiste em verificar o aumento da aprendizagem (se se descobre que

há aumento de aprendizagem em dois testes com validade de conteúdo, então se

verifica validade curricular);

22. Validade diferencial (differential validity): validade de uma bateria de testes

avaliada pela capacidade de predizer diferenças no desempenho em dois ou mais

critérios;

23. Validade cruzada (cross validity): confirmar a validade dos resultados a partir de

um novo exame com estudo empírico feito com uma segunda amostra

independente;

24. Validade de grupos mistos (mixed-group validity): duas amostras com formatos

diferentes no traço ou diferentes probabilidades em expressar dado

comportamento são comparadas;

25. Validade múltipla (multiple validity): um teste tem validade múltipla quando

estiver associado a uma amostra vasta de critérios;

26. Validade ecológica (ecologial validity): o quanto um instrumento psicológico

mede factores espaciais, temporais e situacionais do campo de aplicação;

27. Validade sintética (synthetic validity): validade de teste complexo ou de uma

bateria de testes baseada no facto de que vários factores foram representados

num único escore composto;




28. Validade condicional (conditional validity): a validade do teste depende do uso

que dele se faz;

29. Validade incondicional (unconditional validity): a validade do teste depende do

construto sendo medido e não do uso que dele se faz.

Parece, então, que a intenção de Messick de "integrar" os diferentes aspectos de

validade dos testes psicológicos, de facto introduziu enorme confusão.

Borsboom, Mellenbergh e Van-Heerden colocam muito bem esse problema ao

afirmarem: O conceito de validade com o qual os teóricos estão interessados parece

estranhamente divorciado do conceito que pesquisadores têm em mente quando

colocam a questão da validade. Isso deve-se a que, no século passado, a questão da

validade evoluiu da questão de se a gente mede o que se pretende medir para a questão

de se as relações empíricas entre scores de um teste se emparelham com relações

teóricas numa rede nomológica2 e, finalmente, para a questão de se interpretações e

acções baseadas em scores de testes são justificadas – não somente à luz de evidência

científica, mas com respeito a consequências sociais e éticas do seu uso (Borsboom,

Van-Heerden, & Mellenbergh, 2003).

Pasquali refere que desde o trabalho de Cronbach e Meehl dos meados do século

passado, o conceito de validade dos testes vem perdendo o seu sentido original. Embora

os autores quisessem precisamente salvar esse conceito, a introdução do modelo da rede

nomológica, concebida dentro da visão do positivismo lógico veio, na verdade, destruir

o conceito de validade, originalmente concebido por Kelly na década de 1920 e, depois,

por Cattell. O conceito de validade, foi totalmente descaracterizado com a definição do

mesmo dada pelo grande psicometrista Samuel Messick, em 1989. Pasquali reforça a

necessidade da redescoberta do conceito para salvar as bases da Psicometria (Pasquali,

2007).

Quanto a nós um teste psicológico é um conjunto constituído de comportamentos que o

sujeito deve exibir. Ele é um teste se todos os comportamentos envolvidos no conjunto

se referem à "mesma coisa" (construto), é a questão da unidimensionalidade. Ademais,

alguns sujeitos podem ser capazes de executar todos os comportamentos envolvidos,

2 nomological network




outros sujeitos, apenas alguns dos comportamentos e outros, ainda, nenhum dos

comportamentos.

A base da argumentação consiste em se entender que validade constitui uma

propriedade do instrumento de medida e que não tem nada a ver com a ideia de que ela

consistiria num julgamento sobre o significado dos scores de um teste, retomando,

assim, o sentido original que Kelly (1927) quis dar a esse conceito, ao afirmar que um

teste é válido quando mede aquilo que supostamente deve medir.

Recorrendo a um exemplo de Pasquali, imagine que construímos um metro, feito de

ferro, para medir o comprimento das coisas. Medimos um pedaço de pau e conseguimos

uma medida do mesmo. Em seguida, aquecemos o metro e medimos novamente o

pedaço de pau e a medida alterou-se (Pasquali, 2007). Coloca-se aqui uma questão; será

que na segunda vez que o utilizámos ele já não mede o comprimento? O mesmo se pode

passar com um arma que fica com a mira descalibrada.

Claro que sim, no entanto está medindo errado. É óbvio que o metro continua

medindo aquilo para o qual ele foi feito para fazer, isto é, medir comprimento. Isto

é validade. Continua medindo o comprimento, é um facto, no entanto está a faze-lo

sem precisão, erradamente, porque o metro, com o calor (factores perturbadores no

uso do instrumento) ficou descalibrado. Mas a presença de factores perturbadores é

corriqueira em qualquer empreitada científica (as chamadas variáveis estranhas ou

confounding variables). De qualquer forma, o instrumento estar calibrado ou não, é

questão de precisão, não de validade, porque ele continua medindo aquilo para o qual

ele foi construído. Assim, continua sendo verdadeiro que o metro mede comprimento

(validade), embora na prática ele o faça erradamente (precisão). Dessa forma, validade

responde a se algo é verdadeiro ou falso, enquanto precisão responde a se algo está

correcto ou errado. A primeira questão diz respeito a um problema ontológico e a

segunda a um problema psicométrico (de mensuração) ou metodológico. No caso dos

testes psicológicos, os dois problemas são relevantes e importantes, mas um não é o

outro. Assim, conclui-se que os parâmetros de validade e precisão são características

do instrumento de medida, do teste, e não da medida feita de um objecto. Esta última

é confiável e legítima se o instrumento que a produziu for válido (pertinente, relevante)

e preciso (calibrado). Quem garante a qualidade da medida é a qualidade do

instrumento. E a validade do instrumento diz respeito exclusivamente à pertinência do

instrumento com respeito ao objecto que se quer medir; é a questão da referência.




Existem algumas linhas matemáticas que referem que a Análise Factorial, pelo método

das Componentes Principais, pode não ser a técnica mais adequada quando temos uma

escala de medida dicotómica.

Para que não restem dúvidas que os dados provêm de uma população normal

multivariada, devemos fazer o Teste de esfericidade de Bartlett que testa a hipótese da

matriz das correlações ser a matriz da identidade com determinante igual a 1.

Resultados como os que podem ser observados no quadro que se segue demonstram que

o teste Bartlett tem associado um nível de significância inferior a 0,05, o que leva à

rejeição da hipótese da matriz das correlações na população ser a identidade, mostrando

que a correlação que existe é entre as variáveis.

Quadro 1: Teste KMO e Bartlett - GDS

Kaiser-Meyer-Olkin (KMO) 0,932

Teste da esfericidade de Bartlett Qui-quadrado (aproximação) 5994,603

gl 378

p 0,000

Se o nível de significância fosse superior a 0,05, dever-se-ia reconsiderar a utilização

deste modelo factorial.

Um outro indicador da força da relação, entre as variáveis, é o Coeficiente de

Correlação Parcial. O Kaiser-Meyer-Olkin (KMO), que varia entre zero e um, compara

as correlações simples com as correlações parciais observadas entre as variáveis. Sendo

que a decisão de uma Análise Factorial com um KMO <0,5 é inaceitável; entre [0,5 –

0,6[ é má; entre [0,6 – 0,7[ pouco razoável, mas aceitável; entre [0,7 – 0,8 [ aceitável;

entre [0,8 – 0,9[ boa decisão e de [0,9 a 1] muito boa decisão.

No nosso caso, acima apresentado pode observar-se um KMO de 0,932, o que revela

que a Análise Factorial tem uma adequação muito boa para usar na medida psicometrica

em análise.




A RECOLHA DOS DADOS

A terceira operação da fase de observação é a recolha dos dados. Esta constitui a

execução do instrumento de observação. Esta operação consiste em recolher ou reunir

concretamente as informações determinadas junto das pessoas ou das unidades de

observação incluídas na amostra.

Proceder-se-á por observação directa quando a informação procurada estiver

directamente disponível. O guião de observação destina-se então ao próprio observador,

e não a um eventual entrevistado. Por conseguinte, a sua redacção não está sujeita a

restrições tão precisas como, por exemplo, as do questionário. Não sendo uma

observação directa, a recolha de dados estatísticos existentes, de documentos escritos

(textos, opúsculos...) ou pictóricos (cartazes, fotografias...), levanta igualmente

problemas específicos que serão evocados no último ponto desta etapa.

Pelo contrário, a observação indirecta, por meio de questionário ou de guião de

entrevista, deve vencer a resistência natural ou a inércia dos indivíduos. Não basta

conceber um bom instrumento, é preciso ainda pô-lo em prática de forma a obter-se

uma proporção de respostas suficiente para que a análise seja válida. As pessoas não

estão forçosamente dispostas a responder, excepto se virem nisso alguma vantagem

(falar um pouco, por exemplo) ou se acharem que a sua opinião pode ajudar a fazer

avançar as coisas num domínio que consideram importante. O investigador deve,

portanto, convencer o seu interlocutor da importância da sua participação. É por isso

que geralmente se evita enviar um questionário pelo correio, confiando-o, de

preferência, se o custo não for excessivo, a inquiridores. O papel do inquiridor é, neste

caso, o de criar nas pessoas interrogadas uma atitude favorável, a disposição para

responderem francamente às perguntas e, por fim, entregarem o questionário

correctamente preenchido. Caso se trate de um questionário enviado por via postal, é

importante que a apresentação do documento não seja dissuasiva e que este seja

acompanhado por uma carta de introdução, curta, clara, concisa e motivante.

Antes de abordar, nas páginas seguintes, o panorama das principais categorias de

métodos de recolha de dados, é bom insistir na antecipação. Esta não é uma operação da

observação propriamente dita, mas deve ser uma preocupação constante do

investigador, ao elaborar o seu instrumento de observação. Na fase seguinte, a análise

das informações, os dados observados serão submetidos a diversas operações

estatísticas que visam dar--lhes a forma exigida pelas hipóteses de investigação. É por




isso que é necessário sublinhar que a escolha do instrumento de observação e a recolha

dos dados devem inscrever-se no conjunto dos objectivos e do dispositivo metodológico

da investigação.

A escolha de um método de inquérito por questionário junto de uma amostra de várias

centenas de pessoas impede que as respostas individuais possam ser interpretadas

isoladamente, fora do contexto previsto pelos investigadores. É, pois, preferível saber à

partida que os dados recolhidos nestas condições só fazem sentido quando tratados de

modo estritamente quantitativo, que consiste em comparar as categorias de respostas e

em estudar as suas correlações. Pelo contrário, outros processos de recolha de dados

porão de lado qualquer possibilidade de tratamento quantitativo e exigirão outras

técnicas de análise das informações reunidas.

A escolha dos métodos de recolha dos dados influencia, portanto, os resultados do

trabalho de modo ainda mais directo: os métodos de recolha e os métodos de análise dos

dados são normalmente complementares e devem, portanto, ser escolhidos em conjunto,

em função dos objectivos e das hipóteses de trabalho. Se os inquéritos por questionário

são acompanhados por métodos de análise quantitativa, os métodos de entrevista

requerem habitualmente métodos de análise de conteúdo, que são muitas vezes, embora

não obrigatoriamente, qualitativos. Resumindo, é importante que o investigador tenha

uma visão global do seu trabalho e não preveja as modalidades de nenhuma destas

etapas sem se interrogar constantemente acerca das suas implicações posteriores.

Precisemos, além disso, que as perguntas que constituem o instrumento de observação

determinam o tipo de informação que obteremos e o uso que dela poderemos fazer na

análise dos dados. Se nos interessamos, por exemplo, pelo sucesso escolar de alunos,

podem ser considerados três níveis de precisão na informação: insucesso ou sucesso, o

lugar (primeiro, segundo, terceiro..., último) e a percentagem de pontos obtidos em

relação ao total. A informação recolhida dependerá da pergunta que figura no

instrumento de observação. Ao fazer a análise, os dados qualitativos (o insucesso-

sucesso) não são tratados da mesma forma que os dados originais (o lugar) ou os

quantitativos (a percentagem).

Neste exemplo observamos uma vez mais a interdependência entre a observação e a

análise dos dados. Temos então de antecipar e de nos interrogar regularmente para cada

resposta prevista: «Será que a pergunta que coloco vai dar-me a informação e o grau de




precisão de que necessito na fase posterior?» Ou ainda: «Para que deve servir esta

informação e como vou poder medi-la e relacioná-la com as outras?»

Existem, de facto, regras muito precisas para a construção dos testes. É disso que

dissertaremos de seguida.

Apenas conhecemos correctamente um método de investigação depois de o termos

experimentado. Antes de escolhermos um é, portanto, indispensável asseguramo-nos,

junto de investigadores que dominem bem, da sua pertinência em relação aos objectivos

específicos de cada trabalho, às suas hipóteses e aos recursos de que dispomos. Os

panoramas que apresentamos não substitui, de forma alguma, esta maneira de proceder,

mas pensamos que pode ser útil para a preparar.

O termo «método» já não é aqui entendido no sentido lato de dispositivo global de

elucidação do real, mas num sentido mais restrito, o de dispositivo específico de recolha

ou de análise das informações (assunto desta sexta etapa), destinado a testar hipóteses

de investigação. Neste sentido restrito, a entrevista de grupo, o inquérito por

questionário ou a análise de conteúdo são exemplos de métodos de investigação.

No âmbito da aplicação prática de um método podem ser utilizadas técnicas específicas,

como, por exemplo, as técnicas de amostragem. Trata-se então de procedimentos

especializados que não têm uma finalidade em si mesmo. Da mesma forma, como já

referimos, os dispositivos metodológicos fazem necessariamente apelo a disciplinas

auxiliares, como, a matemática, a estatística, medicina, psicologia social…

Só serão aqui consideradas as grandes categorias de métodos que permitem recolher

informações para posterior análise, de forma a não nos perdermos em pormenores, que,

por serem tratados superficialmente, seriam de qualquer forma inúteis..

O INQUÉRITO POR QUESTIONÁRIO

Consiste em colocar a um conjunto de inquiridos, geralmente representativo de uma

população, uma série de perguntas relativas à sua situação social, profissional ou

familiar, às suas opiniões, à sua atitude em relação a opções ou a questões humanas e

sociais, às suas expectativas, ao seu nível de conhecimentos ou de consciência de um

acontecimento ou de um problema, ou ainda sobre qualquer outro ponto que interesse os

investigadores. O inquérito por questionário de perspectiva sociológica distingue-se da




simples sondagem de opinião pelo facto de visar a verificação de hipóteses teóricas e a

análise das correlações que essas hipóteses sugerem. Por isso, estes inquéritos são

geralmente muito mais elaborados e consistentes do que as sondagens. Dado o grande

número de pessoas geralmente interrogadas e o tratamento quantitativo das informações

que deverá seguir-se, as respostas à maior parte das perguntas são normalmente pré-

codificadas, de forma que os entrevistados devem obrigatoriamente escolher as suas

respostas entre as que lhes são formalmente propostas (Quivy & Campenhoudt, 1992).

O questionário chama-se «de administração indirecta» ou «heteroadministração»

quando o próprio inquiridor o completa a partir das respostas que lhe são fornecidas

pelo inquirido. Chama-se «de administração directa» ou «autoadministração» quando é

o próprio inquirido que o preenche. O questionário é então entregue em mão por um

inquiridor encarregado de dar todas as explicações úteis, ou endereçado indirectamente

pelo correio, online ou por qualquer outro meio equivalente. Os processos que não

implicam a presença do entrevistador merecem pouca confiança e só excepcionalmente

devem ser utilizados na investigação, dado que as perguntas são muitas vezes mal

interpretadas e o número de respostas é geralmente demasiado fraco. Em contra partida,

utiliza-se cada vez mais frequentemente o telefone neste tipo de questionários.

O inquérito é especialmente adequado no conhecimento de uma população enquanto tal:

as suas condições e modos de vida, os seus comportamentos, os seus valores ou as suas

opiniões. A análise de um fenómeno social que se julga poder apreender melhor a partir

de informações relativas aos indivíduos da população em questão, como o impacto de

uma política familiar ou a introdução da microinformática no ensino.

De uma maneira geral, os casos em que é necessário interrogar um grande número de

pessoas e em que se levanta um problema de representatividade. A vantagem deste

método é a possibilidade de quantificar uma multiplicidade de dados e de proceder, por

conseguinte, a numerosas análises de correlação. A grande limitação é a

superficialidade das respostas, que não permite a análises de certos processos, como por

exemplo a evolução do trabalho clandestino ou a das concepções ideológicas profundas.

Por conseguinte, os resultados apresentam-se muitas vezes como simples descrições,

desprovidas de elementos de compreensão penetrantes. A individualização dos

entrevistados, que são considerados independentemente das suas redes e relações

sociais. Para que o método seja digno de confiança devem ser preenchidas várias

condições: rigor na escolha da amostra, formulação clara e unívoca das perguntas,




correspondência entre o universo de referência das perguntas e o universo de referência

do entrevistado, atmosfera de confiança no momento da administração do questionário,

honestidade e consciência profissional dos entrevistadores. Na prática, as principais

dificuldades provêm, geralmente, da parte dos entrevistadores, que nem sempre estão

suficientemente formados e motivados para efectuarem este trabalho exigente e muitas

vezes desencorajador (Quivy & Campenhoudt, 1992).

COMPETENCIAS NECESSÁRIAS

1. Técnicas de amostragem.

2. Técnicas de redacção, de codificação e de exploração das perguntas, incluindo

as escalas de atitude.

3. Gestão de redes de entrevistadores.

4. Iniciação aos programas informáticos de gestão e análise de dados de inquéritos

(SPSS, SPAD, SAS...).

5. Estatística descritiva e análise estatística dos dados.

6. No caso mais frequente, em que o trabalho é efectuado em equipa e recorrendo a

serviços especializados, não é indispensável que todos os investigadores sejam

pessoalmente formados nos domínios mais técnicos.

A ENTREVISTA

Nas suas diferentes formas, os métodos de entrevista distinguem-se pela aplicação dos

processos fundamentais de comunicação e de interacção humana. Correctamente

valorizados, estes processos permitem ao investigador retirar das entrevistas

informações e elementos de reflexão muito ricos e variados. Ao contrário do inquérito

por questionário, os métodos de entrevista caracterizam-se por um contacto directo entre

o investigador e os seus interlocutores e por uma fraca directividade por parte daquele.

Instaura-se, assim, em princípio, uma verdadeira troca, durante a qual o entrevistado

exprime as suas percepções de um acontecimento ou de uma situação, as suas

interpretações ou as suas experiências, ao passo que, através das suas perguntas abertas

e das suas reacções, o investigador facilita essa expressão, evita que ela se afaste dos

objectivos da investigação e permite que o interlocutor aceda a um grau máximo de




autenticidade e de profundidade cujo conteúdo será objecto de uma análise de conteúdo

sistemática, destinada a testar as hipóteses de trabalho (Quivy & Campenhoudt, 1992).

A entrevista semidirectiva, ou semidirigida, é certamente a mais utilizada em

investigação social. É semidirectiva no sentido em que não é inteiramente aberta nem

encaminhada por um grande número de perguntas precisas. Geralmente, o investigador

dispõe de uma série de perguntas-guias, relativamente abertas, a propósito das quais é

imperativo receber uma informação da parte do entrevistado. Mas não colocará

necessariamente todas as perguntas pela ordem em que as anotou e sob a formulação

prevista. Tanto quanto possível, «deixará andar» o entrevistado para que este possa falar

abertamente, com as palavras que desejar e pela ordem que lhe convier. O investigador

esforçar-se-á simplesmente por reencaminhar a entrevista para os objectivos cada vez

que o entrevistado deles se afastar e por colocar as perguntas às quais o entrevistado não

chega por si próprio no momento mais apropriado e de forma tão natural quanto

possível.

A entrevista centrada, mais conhecida pela sua denominação inglesa, focused interview,

tem por objectivo analisar o impacto de um acontecimento ou de uma experiência

precisa sobre aqueles que a eles assistiram ou que neles participaram; daí o seu nome. O

entrevistador não dispõe de perguntas preestabelecidas, como no inquérito por

questionário, mas sim de uma lista de tópicos precisos relativos ao tema estudado. Ao

longo da entrevista abordará necessariamente esses tópicos, mas de modo livremente

escolhido no momento de acordo com o desenrolar da conversa. Neste quadro

relativamente flexível não deixará de colocar numerosas perguntas ao seu interlocutor.

Em certos casos, como no âmbito da análise de histórias de vidas, os investigadores

aplicam um método de entrevista extremamente aprofundado e pormenorizado, com

muito poucos interlocutores. Neste caso, as entrevistas, são muito mais longas, por isso

divididas em várias sessões (Quivy & Campenhoudt, 1992).

O método de entrevista é especialmente adequado na análise do sentido que os actores

dão às suas práticas e aos acontecimentos com os quais se vêem confrontados: os seus

sistemas de valores, as suas referências normativas, as suas interpretações de situações

conflituosas ou não, as leituras que fazem das próprias experiências, etc.; na análise de

um problema específico: os dados do problema, os pontos de vista presentes, o que está

em jogo, os sistemas de relações, o funcionamento de uma organização, etc.; na




reconstituição de um processo de acção, de experiências ou de acontecimentos do

passado.

Uma das vantagens deste método é o grau de profundidade dos elementos de análise

recolhidos uma vez que a flexibilidade e a fraca directividade da entrevista permite

recolher os testemunhos e as interpretações dos interlocutores, respeitando os próprios

quadros de referência (linguagem e as suas categorias mentais).

Mas se a flexibilidade pode trazer vantagens, também pode colocar limites e problemas,

pois o método pode por um lado intimidar aqueles que não consigam trabalhar com

serenidade sem técnicas directivas precisas, por outro pode levar a pensar que esta

relativa flexibilidade os autoriza a conversarem de qualquer maneira com os

interlocutores. Um outro problema é que a flexibilidade do método poder levar a

acreditar numa completa espontaneidade do entrevistado e numa total neutralidade do

investigador. As formulações do entrevistado estão sempre ligadas à relação específica

que o liga ao entrevistador e este último só pode, portanto, interpretá-las validamente se

as considerar como tais. A análise de uma entrevista deve, portanto, incluir uma

elucidação daquilo que as perguntas do investigador, a relação de troca e o âmbito da

entrevista induzem nas formulações do interlocutor. Considerar estes últimos

independentemente de um contexto tão marcante seria revelar uma grande ingenuidade

epistemológica (Quivy & Campenhoudt, 1992).


Conhecimento teórico e prático elementar dos processos de comunicação e de

interacção interindividual, formação prática nas técnicas de entrevista

A OBSERVAÇÃO DIRECTA

Métodos de investigação que capta os comportamentos no momento em que eles se

produzem e em si mesmos, sem a mediação de um documento ou de um testemunho.

O campo de observação do investigador é, em princípio, infinitamente, amplo e só

depende, em definitivo, dos objectivos do seu trabalho e das suas hipóteses de partida.

A partir delas, o acto de observar será estruturado, na maior parte dos casos, por uma

grelha de observação previamente constituída.




As modalidades concretas da observação em investigação social são muito diferentes,

consoante o investigador adopte, por exemplo, um método de observação participante

de tipo etnológico ou, pelo contrário, um método de observação não participante, cujos

processos técnicos são muito formalizados.

A observação participante de tipo etnológico é, logicamente, a que melhor responde, de

modo global, às preocupações habituais dos investigadores em ciências sociais. Consiste

em estudar uma comunidade durante um longo período, participando na vida colectiva.

O investigador estuda então os seus modos de vida, de dentro e pormenorizadamente,

esforçando-se por perturbá-los o menos possível. A validade do seu trabalho assenta,

nomeadamente, na precisão e no rigor das observações, bem como no contínuo

confronto entre as observações e as hipóteses interpretativas. O investigador estará

particularmente atento à reprodução ou não dos fenómenos observados, bem como à

convergência entre as diferentes informações obtidas, que devem ser sistematicamente

delimitadas. É a partir de procedimentos deste tipo que as lógicas sociais e culturais dos

grupos estudados poderão ser reveladas o mais claramente possível e que as hipóteses

poderão ser testadas e afinadas (Quivy & Campenhoudt, 1992).

Os métodos de observação não participante apresentam, por seu lado, perfis muito

diferentes, sendo o seu único ponto comum o facto de o investigador não participar na

vida do grupo, que, portanto, observa «do exterior». A observação tanto pode ser de

longa como de curta duração, feita à revelia ou com o acordo das pessoas em questão,

ou é ainda realizada com ou sem a ajuda de grelhas de observação pormenorizadas.

Estas grelhas definem de modo muito selectivo as diferentes categorias de

comportamentos a observar. As frequências e as distribuições das diferentes classes de

comportamento podem então eventualmente ser calculadas para estudar as correlações

entre estes comportamentos e outras variáveis destacadas pelas hipóteses.

O método é particularmente adequado à análise do não verbal e daquilo que a revela: as

condutas de instituídas e os códigos de comportamento, à relação com o corpo, os

modos de vida e os traços culturais, a organização espacial dos grupos e da sociedade,

etc. A autenticidade relativa dos acontecimentos em comparação com as palavras e com

os escritos, já que é mais fácil mentir com a boca do que com o corpo (Quivy &

Campenhoudt, 1992).




As dificuldades deste método estão relacionadas quer com a aceitação do observador

pelos grupos em questão, quer com o problema do registo. O investigador não pode

confiar unicamente na sua recordação dos acontecimentos apreendidos «ao vivo», dado

que a memória é selectiva e eliminaria uma grande variedade de comportamentos cuja

importância não fosse imediatamente aparente. Como nem sempre é possível, nem

desejável, tomar notas no próprio momento, a única solução consiste em transcrever os

comportamentos observados imediatamente após a observação. Na prática, trata-se

muitas vezes de uma tarefa muito pesada, devido à fadiga e as condições de trabalho por

vezes esgotantes.

O problema da interpretação das observações a utilização de grelhas de observação

muito formalizadas facilita a interpretação, mas, em contra partida, esta arrisca-se a ser

relativamente superficial e mecânica perante a riqueza e a cumplicidade dos processos

estudados.

A solução passa por usar este método como complemento de outros métodos, com

procedimentos técnicos mais precisos, ou ainda, quando é possível, na colaboração de

vários investigadores, o que confere uma certa intersubjectividade às observações e à

sua interpretação.





A única verdadeira formação em observação é a prática. Não bastam algumas semanas

de trabalho para tornar mais perspicaz o olhar do perito. É necessário um confronto

longo e sistemático entre a reflexão teórica inspirada na leitura dos bons autores, e os

comportamentos observáveis na vida colectiva para produzir os observadores mais

penetrantes.

RECOLHA DE DADOS PREEXISTENTES: DADOS SECUNDÁRIOS E DADOS DOCUMENTAIS

O investigador recolhe documentos por duas razões completamente diferentes. Ou

tenciona estudá-los por si próprios, como quando examina a forma como um pedido de

um exame de diagnóstico complementar influencia o auto-diagnóstico, ou espera

encontrar neles informações úteis para estudar outro objecto, como, por exemplo, na

investigação de dados estatísticos sobre o desemprego ou na busca de casos com

tuberculose nos arquivos de um hospital. No primeiro caso, os problemas encontrados

derivam da escolha do objecto de estudo ou da delimitação do campo de análise, e não

dos métodos de recolha de informações propriamente ditos. Assim, apenas

consideramos o segundo caso.

É frequente, o trabalho de um investigador necessitar de dados macrossociais, que

apenas organismos oficiais poderosos, como os institutos nacionais de estatística, têm

condições para recolher. Aliás, se estes organismos existem, é principalmente para

oferecerem aos responsáveis e aos investigadores dados abundantes e dignos de

confiança que aqueles não poderiam recolher por si próprios. Por outro lado, as

bibliotecas, os arquivos e os bancos de dados, sobre todas as suas formas, são ricos em

dados que apenas esperam pela atenção dos investigadores. É, portanto, inútil consagrar

grandes recursos para recolher aquilo que já existe, ainda que a apresentação dos dados

possa não ser totalmente adequada e deva sofrer algumas adaptações (Quivy &

Campenhoudt, 1992).




O MÉTODO CLÍNICO

Pressupõe a colheita, análise e síntese dos dados ou observações, assim como formular e

testar hipóteses, com o intuito de obter informação útil que será, depois, usada no

processo de decisão aplicado a cada indivíduo. A todo esse processo, desde a colheita da

informação até à decisão e discussão desta com o doente e o estabelecimento de um

plano terapêutico, dá-se o nome de Método Clínico. Este, tal como o Método Científico

na sua globalidade, tem evoluido ao longo do tempo e tem sido alvo de algumas

controvérsias (Faculdade de Medicina da Universidade do Porto, 2000).

O raciocínio clínico é um processo, ainda hoje, não totalmente compreendido. Sabe-se,

porém, que ele tem por base múltiplos factores, como a experiência e a aprendizagem, o

raciocínio dedutivo e indutivo, a interpretação de evidência científica, que é variável em

reprodutibilidade e validade, e a intuição que é um aspecto difícil de definir.

Com o objectivo de melhorar o raciocínio clínico, várias tentativas de análise

quantitativa dos vários factores nele envolvidos têm sido feitas (ex: estudo dos

processos cognitivos envolvidos no raciocínio clínico, criação de sistemas de apoio à

decisão, etc). Embora estas tentativas tenham sido úteis no avanço da compreensão do

raciocínio clínico, todas elas têm problemas teóricos ou práticos que limitam a sua

aplicabilidade à prática clínica diária. Estas tentativas de aplicação do rigor e lógica

inerentes ao método quantitativo têm, no entanto, proporcionado grandes avanços na

compreensão do raciocínio clínico, e permitiram identificar modos de melhorar este

processo, tornando-o mais eficaz e eficiente.

Usando um modelo simplificado, pode descrever-se o Método Clínico como um

processo dividido em pelo menos 3 fases.

HISTÓRIA CLÍNICA E EXAME FÍSICO

A primeira fase consiste na colheita da História Clínica, através de entrevista ou da

consulta de processo clínico. A História Clínica deve incluir a seguinte informação:

identificação do doente, motivo da consulta, história da doença actual, antecedentes

pessoais, história social e ocupacional, antecedentes familiares e a revisão de sintomas

por aparelhos e sistemas. Esta colheita de informação avança em função de um processo




iterativo de formulação e refutação de hipóteses diagnósticas, que levam, na maior parte

dos casos, a um diagnóstico correcto, já nesta fase.

Ainda nesta primeira fase tem lugar a realização do Exame Físico ou análise do registo

deste, com especial ênfase nos órgãos provavelmente envolvidos na doença actual. Este

exame deve ser completo e sistematizado e é guiado pelas hipóteses formuladas na

colheita da História Clínica.

Esta primeira fase é muito importante pois é nesta fase que se devem obter, de forma

rigorosa, completa, válida e precisa, os dados ou observações que estarão na base do

raciocínio que levará à formulação do diagnóstico. Esta colheita de dados ou

observações deve ser feita com "o rigor científico".

EXAMES AUXILIARES DE DIAGNÓSTICO

Numa segunda fase, analisa-se, se necessário, o conjunto de exames auxiliares do

diagnóstico que julguem pertinentes para a verificação das possibilidades diagnósticas

levantadas na fase anterior. O profissional deve conhecer, pormenorizadamente, as

características operacionais de cada exame (sensibilidade, especificidade, valores

preditivos e exactidão), as suas indicações específicas e os potenciais riscos e benefícios

que a sua utilização tem (Faculdade de Medicina da Universidade do Porto, 2000).

TRIANGULAÇÃO DOS DADOS CLÍNICOS E DOS EXAMES AUXILIARES DE DIAGNÓSTICO

Numa terceira fase faz-se a integração da informação proveniente das várias fontes

disponíveis (história clínica, exame físico e exames auxiliares de diagnóstico). Uma das

formas de fazer esta integração da informação é usando um método quantitativo

designado Análise Bayesiana. Este método permite, a partir do conhecimento da

probabilidade de um indivíduo ter uma doença antes de um qualquer exame ser

realizado (probabilidade pré-teste ou probabilidade antecedente), e tendo conhecimento

sobre as características do exame (sensibilidade e especificidade), calcular a

probabilidade de existência de doença após o conhecimento do resultado desse exame

(probabilidade pós-teste ou probabilidade posterior). O modelo matemático que,

provavelmente, mais se lhe adequa é o epidemiológico, mas chama-se a atenção para a

importância do raciocínio clínico na sua compreensão.




PROCESSO DE ELABORAÇÃO DOS DADOS

Na ciência factual, os dados são passíveis de serem submetidos a testes (são testáveis ou

contrastáveis) e corrigíveis, pelo que os dados científicos não são mais permanentes que

as ideias, hipóteses e teorias com as quais são produzidos.

Dados são evidências? A resposta é que toda evidência é um dado, mas nem todo dado é

evidência. São evidências os dados que são relevantes para uma ideia, ou seja, os dados

passam a ser evidência quando postos em relação com a hipótese formulada durante o

planeamento da investigação. Daqui se entende a expressão “investigação cientifica

baseada em evidencias” (Teixeira, 2001).

O conjunto de dados obtidos a partir do experimento constitui o grupo de dados brutos.

Os dados brutos podem conter qualquer informação. Há que refinar esses dados, com a

finalidade de se dispor de informação relevante e de uso geral. O refinamento faz parte

do processo de elaboração. Os seus estadios são:

Standartização, normalização ou normatização: os dados precisam ser apresentados de

acordo com critérios de aceitação geral (por exemplo, as unidades do Système

internacional d'Unités para registro dos dados de exames de laboratório clínico);

Exame crítico, na busca de erros de observação: de um lado, este exame obedece aos

critérios estabelecidos pela própria disciplina a que se filia o experimento; por outro

lado, os dados devem também ser examinados, criticamente, segundo considerações

teóricas referentes aos erros de observação;

Redução dos dados brutos às médias e à dispersão em torno das médias, com o que, ao

invés de lidarmos com inúmeros valores, passamos a lidar com um enunciado único,

que representa o conjunto todo;

Análise de tabelas; projecção dos dados em gráficos para análise de tendências,

descoberta de associações e de correlações, etc.

“As questões deverão ser formuladas de tal maneira que a pesquisa em bases de dados

se torne fácil e deverão ser divididas em grupos: questões sobre o doente, sobre a

intervenção, sobre a comparação entre estratégias e sobre os resultados com interesse. A

maioria das questões clínicas relacionam-se com perguntas sobre o tratamento,

prognóstico, diagnóstico, riscos, economia, qualidade. No que respeita à procura da




evidência, não é prático (ou sempre necessário) que os clínicos identifiquem e

assimilem criticamente toda a evidência relacionada a uma questão particular. O que é

mais prático é procurar revisões bem-feitas, sistemáticas e correctamente conduzidas da

literatura científica as quais se constituem, normalmente, como base de dados de

revisões clínicas e são apresentadas de uma forma elegante e de fácil consulta. A

pesquisa de bases de dados, tais como a Medline ou a Embase, pode ser completamente

frustrante, devido à maneira como os artigos são posicionados. Se não se usarem

estratégias selectivas de pesquisa para encontrar os artigos relacionados com as questões

formuladas, mais vale não perder esse tempo. No que respeita a avaliação da evidência,

após a identificação da evidência científica, torna-se necessário avaliar a sua validade e

relevância. Existem vários guias que auxiliam a revisão da literatura médica, quer de

uma forma genérica quer de uma forma especializada. Após se ter verificado a validade

desta informação, será então necessário decidir se essa evidência é relevante para um

doente particular. Ter, simplesmente, a evidência disponível não significa,

necessariamente, que ela está em uso (…)

PRATICA BASEADA EM EVIDENCIA

Implementar uma Prática Baseada em Evidencias (PBE) na prática clínica nem sempre é

fácil mas, quando funciona, é muito recompensador. A experiência sugere que o

processo se torna automático quando uma massa crítica dos médicos, enfermeiras e

fisioterapeutas, audiologistas, radiologistas, cardiopneumologistas e outros técnicos de

saúde são treinados e motivados para a sua aplicação. Uma maneira simples de começar

este processo é através da implementação, junto dos alunos ou estagiários, das rotinas

de revisão de artigos científicos a partir de um problema clínico concreto. Desde que

correctamente facilitado será possível, numa hora, apresentar criticamente um artigo

científico em pequenos grupos e discutir as suas implicações para a prática clínica. À

medida que o grupo vá tendo algum treino neste tipo de reuniões será possível discutir

mais do que um artigo por hora. As reuniões de discussão de casos clínicos funcionam

como uma boa fonte, boa para a elaboração de questões. A implementação das

indicações, protocolos de diagnóstico e tratamento, terá tanto mais êxito quanto maior

for o envolvimento de todo a equipa de saúde neste formato de formação. A utilização

deste modelo não só na formação pós-graduada, mas também na formação prégraduada

constituirá um elemento decisivo para uma futura prática baseada na evidência. (…)

Para os técnicos, esta prática permite-lhes estabelecer rotinas de desenvolvimento das




suas bases de conhecimento, aumentar a compreensão dos métodos de pesquisa e

promover a crítica sobre o uso desses dados, aumentar a confiança nos processos de

tomada de decisão, aumentar a literacia informática e as técnicas de pesquisa de dados,

melhorar os hábitos de leitura. Para as equipas terapêuticas propicia uma estrutura para

a resolução de problemas e para a formação, permitindo aos mais novos uma

contribuição útil para a equipa. Para os doentes assegura um uso mais eficaz dos

recursos e uma melhor comunicação com eles sobre o racional subjacente às tomadas de

decisão” (Teixeira, 2001, p. 7).

ESTUDO PILOTO

Antes da execução da experiência definitiva, um experimento praticamente idêntico a

esta, preliminar e exploratório, é usualmente realizado; ele é denominado estudo piloto.

O estudo piloto é útil em vários aspectos da investigação, orientando o pesquisador

quanto à constituição dos grupos de estudo, às características da solução desejada, à

adequação das técnicas utilizadas e à exequibilidade da pesquisa.

ESTRATÉGIAS ESTATISTICAS DE ANÁLISE DE DADOS

A maioria dos investigadores principiantes enfrenta sérias dificuldades quando tem de

usar a análise estatística. É apontado como prováveis causas o ensino de Estatística que,

frequentemente, tem um enfoque matemático ou de receita que não conduzem ao

aproveitamento desta ferramenta e o consequente despoletar de uma “ansiedade

matemática”, que pode levar os estudantes a evitar o seu uso. Essa situação conduz, não

raras vezes, à dependência de outros para seleccionar a estatística adequada ao seu

projecto. O objetivo desta lição é ajudar a ter uma idéia da potencialidade da estatística

apropriada a sua pesquisa.

Primeiro examine seu estudo, identifique o que quer com sua análise estatística,

devendo, para isso, especificar claramente as várias questões a que quer que sua análise

estatística responda (conhecer a associação ou verificar as diferenças). Comece por

escrever as suas questões de pesquisa e hipóteses. Depois identifique a variável

dependente e independente bem como os seus níveis de mensuração. Apos estar na




posse dessa informação consulte a figura que se segue e vai ver que tudo começa a ficar

mais fácil.

FIGURA 6: IDENTIFICAR OS TESTES ESTATISTICOS

Como segundo passo na escolha da estatística apropriada, verifique se sua variável

dependente é adequada para a estatística paramétrica. A estatística paramétrica

envolve pelo menos dois pressupostos iniciais: o primeiro é se a variável dependente

segue uma distribuição normal e, o segundo, é se os dados entre diferentes sujeitos são

independentes ou emparelhados/relacionados. Portanto, uma variável dependente

qualitativa ou categórica não se enquadra neste tipo de estatística, devendo usar o

enfoque da estatística não paramétrica.




Assim recorremos a estatística paramétrica quando analisamos variáveis

dependentes contínuas. Se essas variáveis violam os pressupostos e não tem como

corrigir essa violação, então deve utilizar a estatística não paramétrica. Só tem duas

opções: ou aprende a lidar com a Estatística não paramétrica ou então aumenta o

tamanho da amostra.

Examine cada variável dependente uma por uma nesse processo. Nem todas terão as

mesmas características. Um erro comum, por exemplo, é assumir que pode usar sempre

o mesmo teste estatístico se os grupos experimentais são equivalente em idade, género,

anos de estudos e outras variáveis demográficas. Idade e anos de estudo são duas

variáveis geralmente analisadas com estatística paramétrica. O género e a etnia são

variáveis nominais e por isto devem ser analisadas com Estatística não paramétrica.

Definir quais as estratégias estatísticas a utilizar exige o conhecimento das lições

anteriores. As mais robustas estratégias estatísticas exigem que as variáveis apresentem

propriedades intervalares para que sejam obtidos resultados fidedignos. Contudo na

investigação com seres humanos nem sempre é possível termos variáveis quantitativas,

por isso para cada teste estatístico paramétrico existe um equivalente não paramétrico

mas destes últimos existem vários que não tem equivalente paramétrico.

Por exemplo se tanto a nossa variável dependente (VD) quanto a independente (VI)

forem nominais e quisermos conhecer a associação entre elas podemos recorrer ao qui-

quadrado (x2) da independência; se ambas forem ordinais podemos recorrer ao rho de

spearman mas se forem quantitativas e cumprirem com os restantes pré-requisitos da

estatistica paramétrica (simétricas, mesocurticas e distribuição normal) podemos utilizar

o teste r de Pearson.

Se em vez de querermos ver umas associação ou correlação pretendermos verificar se

existem diferenças na distribuição de uma variável (VD) em função de outra com nivel

de mensuração nominal e dicotómica (VI) então podemos utilizar o teste t de Student

para amostras independentes (caso estejam cumpridos os prerequisitos impostos à VD

ié, quantitativa, simétrica e apresente distribuição aproximadamente normal) ou o seu

equivalente não paramétrico u de Mann-Whitney (caso não estejam cumpridos os pré-

requisitos da estatistica paramétrica mas a VD tenha um nivel de mensuração no

minimo ordinal).




Se a figura anterior não o deixou muito esclarecido experimente consultar o quadro que se segue. Otestes estatísticos paramétricos estão

assinados com um asterisco (*)

QUADRO 1: GRELHA DE DECISÃO DOS TESTES

Testes para uma amostra

NIVEIS DE MENSURAÇÃO

Nominal Ordinal Quantitativa

TESTE DE QUI-QUADRADO DA ADERÊNCIA TESTE DE KOLMOROGOV-SMIRNOV -TESTE DE KOLMOROGOV-SMIRNOV

-TESTE T PARA UMA AMOSTRA *

Variáveis Independentes

Qualitativas Quantitativa

Var

iáve

is D

ep

en

de

nte

s

Nominal

Nominal/ dicotomica Ordinal/ Grupo

TESTE DE QUI-QUADRADO DA INDEPENDENCIA


KAPPA DE COHEN

MACNEMAR

Q DE COCHRAN

Ordinal

TESTE DE QUI-QUADRADO DA INDEPENDENCIA RHO DE SPEARMAN

RHO DE SPEARMAN

TESTE DE U DE MANN-WHITNEY W DE WILCOXON; FRIEDMAN

TESTE DE H DE KRUSKAL-WALLIS KAPPA DE COHEN

MACNEMAR


Quantitativa

TESTE T DE STUDENT PARA DADOS INDEPENDENTES *

RHO DE SPEARMAN

TESTE T DE STUDENT PARA N EMPARELHADOS *

TESTE DE U DE MANN-WHITNEY W DE WILCOXON

TESTE ANOVA DE UM CRITÉRIO E RESPECTIVO POST-HOC * R DE PEARSON *

TESTE DE H DE KRUSKAL-WALLIS e U POR GRUPO

RHO DE SPEARMAN

TESTE ANOVA PARA MEDIDAS REPETIDAS *

TESTE FRIEDMAN




Supondo que suas variáveis dependentes tivessem uma distribuição normal ou que sua

amostra fosse suficientemente grande, deve verificar todas as possibilidades de análise:

univariada , bivariada, múltipla e multivariada, se for o caso. A análise univariada é

quando a variável é analisada per se, análise bivariada quando uma variável dependente

é relacionada com uma única variável independente, análise múltipla quando se analisa

uma variável dependente em função de várias variáveis independentes, e análise

multivariada, quando se analisa várias variáveis dependentes contínuas em função de

variáveis independentes categóricas ou quando se analisa a estrutura das variáveis,

visando a redução do número de variáveis.

O quadro anterior não esgota as analises estatísticas, aliás existem outras tantas quantas

as que apresentamos aqui, contudo mostra as mais utilizadas nas análises univariadas e

bivariadas.

“As técnicas utilizadas na avaliação psicológica têm provocado questionamentos nas

comunidades científicas e profissionais brasileiras, tanto no que se refere à qualidade

dos instrumentos, de maneira geral, ao uso que os psicólogos fazem dos instrumentos,

bem como em relação à validade geral dos resultados da avaliação psicológica. O

presente trabalho teve como objetivo identificar as principais informações psicométricas

a respeito dos instrumentos psicológicos presentes em seus manuais, tais como editora,

data de publicação, variável medida, padronização, validade e precisão” (Noronha,

Primi, & Alchieri, 2004, p. 1).

Existe, também, um conjunto de técnicas estatísticas comummente utilizadas na

avaliação das qualidades psicometricas das escalas. No quadro 2, nas colunas da direita

(tipo de estatísticas) podem observar-se as estatísticas mais utilizadas para verificar os

fenómenos descritos na primeira coluna.




QUADRO 2: GRELHA DE DECISÃO DOS TESTES PSICOMÉTRICOS

Tipo de estatisticas

Descritivas Análises Bivariadas Outras análises mais robustas

Para verificar a consistência temporal entre dois itens

Número de casos válidos, média e desvios padrão no caso

das variáveis quantitativas e frequências e percentagens

no caso das qualitativas

Pearson, Kappa de Cohen ou

Spearman dependendo do nível

de mensuração

Fornecer modelos matemáticos para a explicação de

teorias cognitivas e comportamentais Número de casos válidos, média e desvios padrão Não se aplica

Matriz de correlação e respectivos niveis de significancia;

Matriz determinante e inversa;

Matriz anti imagem;

Solução factorial inicial com as respectivas comunalidades, valores próprios e variancia explicada;

Medidas de adequação da amostra de Kaiser-Meyer-Olkin e de esfericidade de Bartlett's test;

Matriz factorial não rodada incluindo pesos factoriais, comunalidades e valores próprios; solução

factorial rodada incluindo padrão de rotação e matriz de transformação. No caso das rotações oblíquas

para além do padrão de rotação é necessária a matriz da estrutura, a matriz dos coeficientes factoriais e a

matriz da coovariancia.

Para além das estatísticas referidas, são úteis os gráficos: scree plot dos valores próprios e loading plot

dos primeiros factores.

Estudo da dimensionalidade e redução de variáveis Número de casos válidos, média e desvios padrão Não se aplica

Estudo da relação entre itens;

Identificar itens problemáticos (consistência interna;

reprodutibiliade, etc)

Número de casos válidos, média e desvios padrão

Coeficiente de correlação inter-

item e intraclass

Hotelling's T-square para a igualdade das médias e Teste de aditividade;

Tukey's;

Estimativas de fidedignidade

[Alpha de Cronbach (baseado na correlação média inter-item):

metade-metade de spearman-brown (split-half);

Guttman (limite inferior de fidedignidade);

modelo paralelo para variâncias iguais e para a igualdade das medias;

ANOVA (no caso de dados ordinais Friedman’s chi-square e coeficiente de concordância

de Kendall e no caso de dados dicotómicos a estatística Q de Cochran)]


Bibliografia

Aiken, L. R. (1982). Psychological testing and assessment (4.ª edição ed.). Boston:

Allier & Bacon, Inc.

Alferes, V. R. (2008, 08 21). Psicometria: Análise da consistência interna de Escalas

Somativas Dicotómicas. Retrieved 02 06, 2009, from SPSS: Programas e

rotinas complementares (syntax files):

http://www.fpce.uc.pt/niips/spss_prc/psicom/kr_20_21/kr_20_21.htm

American Psychological Association. (1985). Standards for educational and

psychological testing. Washington: American Psychological Association, Inc.

Anastasi, A. (1977). Testes psicológicos ( 2ª edição ed.). São Paulo: Editora

Pedagógica e Universitária Lda.

Anastasi, A. (1988). Psychological testing. New York: Macmillan Publishing

Company.

Borsboom, D., Van-Heerden, J., & Mellenbergh, G. J. (2003). Validity and truth.

Internal Report.

Bryant, F. B. (2000). Assessing the validity of measurement. In L. G. (Orgs.),

Reading and understanding more multivariate statistics (pp. 99-146).

Washington: American Psychological Association.

Bryman, A., & Cramer, D. (2003). Análise de dados em ciências sociais. Introdução

às técnicas utilizando o SPSS para windows (3ª Edição ed.). Oeiras: Celta.

Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by

the multitrait-multimethod matrix. Psychological Bulletin, pp. 81-105.

Cronbach, L. .., & Meehl, P. (1955). Construct validity in psychological tests.

Psychological Bulletin, 4, pp. 281-302.

Cronbach, L. J. (1949). Essentials of psychological testing.

Eco, U. (2002). Como se faz uma tese em ciências humanas (9 ed.). Lisboa: Editorial

Presença.

Emory, C. (1985). Business research methods The Irwin Series in Information and

Decision Sciences ( 3ª edição ed.). Illinois: Homewood.


Faculdade de Medicina da Universidade do Porto. (2000). Medicina e Ciência - Do

Método Científico ao Método Clínico. (Serviço de Bioestatística e Informática

Médica) Retrieved Fevereiro 9, 2009, from MedStatWeb: um curso de

estatistica médica na Web:

http://stat2.med.up.pt/cursop/print_script.php3?capitulo=medicina_ciencia&nu

mero=6&titulo=Medicina%20e%20Ci%C3%83%C2%AAncia

Freeman, F. (1980). Teoria e Prática dos Testes Psicológicos (2ª Edição ed.). Lisboa:

Fundação Calouste Gulbenkian.

Golden, C. J., Sawicki, R. F., & Franzen, M. D. (1984). Test construction. In M. H. G.

Goldstein, Handbook of psychological Assessment. New York: Pergaman

Press.

Guilford, J. P. (1946). New standards for test evaluation. Educational and

Psychological Measurement,, pp. 427-439.

Gulliksen, H. (1950). Intrinsic validity. American Psychologist, pp. 511-517.

Haynes, S. N., Richard, D. C., & Kubany, E. S. (1995). Content validity in

psychological assessment: A functional approach to concepts and methods.

Psychological Assessment, 3, pp. 238-247.

ITC-International Test Commission. (2008). International Test Commission

Guidelines Index. Retrieved Fevereiro 09, 2010, from International Test

Commission: http://www.intestcom.org/guidelines/index.php

Janis, I. L. (1965). The problem of validating content analysis. In N. L. H. D.

Lasswell, Language of politics. Cambridge: MIT Press.

Kline, P. (1987). A handbook of test construction: Introduction to psychometric

design. London: Routledge Kegan & Paul.

LAP- Laboratório de Avaliação Psicológica. (2007). Introdução à Psicometria (curso

on-line). Retrieved Janeiro 5, 2010, from LAP- Laboratório de Avaliação

Psicológica: http://www.lap-am.org/ativ_concluida1.html

Marx, R., Bombardier, C., Hogg-Johnson, S., & Wright, J. (1999, Fevereiro).

Clinimetric and Psychometric Strategies for Development of a Health

Measurement Scale. Jourrnal of Clinical Epidemiology, 52 (2), pp. 105-111.


Matos, M. (1994, Janeiro). Normas para apresentação de dissertações: Bases

Essenciais. Retrieved Janeiro 2009, from paginas.fe.up.pt/~mam/normas.pdf

Messick, S. (1989). Validity. Em R. Linn (Org.), Educational measurement (3ª Edição

ed.). New York: American Council on Education and Macmillan Publishing

Company.

Mosier, C. (1947). A critical examination of the concepts of face validity. Educational

and Psychological Measurement, 7, pp. 191-205.

Mosier, C. (1951). Problems and designs of cross-validation. Educational and

Psychological Measurement, 11, pp. 5-12.

Noronha, A. P., Primi, R., & Alchieri, J. C. (2004, Dezembro). Psychometrics

parameters: an analysis of the psychological tests commercialized in Brazil.

Psicologia: ciência e profissão, 24(4), pp. 88-89.

Nunnally, J. C. (1978). Tests and measurements. New York: McGraw-Hill.

Pasquali, L. (2007). Validade dos Testes Psicológicos: Será Possível Reencontrar o

Caminho? Psicologia Teoria e Pesquisa, 23, pp. 099-107.

Passarelli, B. (1995). Teoria das Múltiplas Inteligências aliada à Multimídia na

Educação: Novos Rumos Para o Conhecimento. Retrieved 02 17, 2009, from

http://www.futuro.usp.br/producao_cientifica/artigos/multiplasintelig.pdf

Pocinho, M. T. (2007). Factores socioculturais, depressão e suicidio no idoso

alentejano. Tese de Doutoramento, ICBAS, Ciências Biomédicas, Porto.

Prieto, G., & Muñiz, J. (2000, Novembro). Un modelo para evaluar la calidad de los

tests utilizados en España. Retrieved Fevereiro 02, 2009, from Papeles del

Psicólogo: http://www.cop.es/tests/modelo.htm.

Quivy, R., & Campenhoudt, L. V. ( 1992). Manual de Investigação em Ciências

Sociais. Lisboa: Gradiva.

Teixeira, J. M. (2001). Medicina baseada na evidência. Saúde Mental, III(Editorial),

pp. 5-8.

Weber, R. P. (1990). Basic content analysis (2.ª Edição ed.). Newbury Park: Sage

Publications.


White, E., Armstrong, B., & Saracci, R. (1992). Principles of Exposure Measurement

in Epidemiology. New York: Oxford University Press.

Wright, J. G., & Feinstein, A. (1992). A comparative contrast of clinimetric and

psychometric methods for constructing indexes and rating scales. Journal

Clinical Epidemiology, 45, 1201-1218.


ANEXOS:


INTERNATIONAL TEST COMMISSION

INTERNATIONAL TEST COMMISSION

INTERNATIONAL GUIDELINES

FOR TEST USE

Version 2000


The Council of the International Test Commission (ITC) formally adopted the

Guidelines at its June 1999 meeting in Graz, Austria.

The European Federation of Professional Psychologists Associations’ Task Force on

Tests and Testing also endorsed the Guidelines at its July 1999 meeting in Rome.

The Guidelines were officially published at the General Meeting of the ITC on 24

July, 2000 in Stockholm. The Guidelines are copyright of the ITC, 1999. The ITC is a

non-stock corporation incorporated in the USA.

For further information on the ITC or for permission to quote from or reproduce the

contents of this document, please contact the Secretary of the ITC:

Prof Jacques Grégoire, ITC Secretary,

Université catholique de Louvain,

Faculté de Psychologie,

Place du Cardinal Mercier, 10,

1348 Louvain-la-Neuve,

Belgium.

Email: [email protected]

For further information regarding the Guidelines, contact:

Prof Dave Bartram, ITC President,

SHL Group plc, The Pavilion, 1 Atwell Place,

Thames Ditton, KT7 0NE, Surrey, England.

Email: [email protected]




See also the ITC website (from which copies of the Guidelines can be obtained):

http://www.intestcom.org

Contents

Acknowledgements 11

Introduction and background 13

The need for international Guidelines 13

Development of the Guidelines 15

The Guidelines 19

Key purpose 19

Scope of the Guidelines 19

Who the Guidelines are for 21

Contextual factors 22

Knowledge, Understanding, and Skill 23

1 Take responsibility for ethical test use 27

1.1 Act in a professional and ethical manner 27

1.2 Ensure they have the competence to use tests 27

1.3 Take responsibility for their use of tests 28

1.4 Ensure that test materials are kept securely 28

1.5 Ensure that test results are treated confidentially. 29

2 Follow good practice in the use of tests 30

2.1 Evaluate the potential utility of testing in an assessment situation 30

2.2 Choose technically sound tests appropriate for the situation 30

2.3 Give due consideration to issues of fairness in testing 31

2.4 Make necessary preparations for the testing session 33

2.5 Administer the tests properly 34

http://www.intestcom.org/


2.6 Score and analyse test results accurately 35

2.7 Interpret results appropriately 36

2.8 Communicate the results clearly and accurately to relevant others 37

2.9 Review the appropriateness of the test and its use 38

References 39

Appendix A: Guidelines for an outline policy on testing. 41

Appendix B: Guidelines for developing contracts between parties involved in the

testing process. 43

Appendix C: Points to consider when making arrangements for testing people with

disabilities or impairments 46

Appendix D. Conditions governing the translation of the ITC Guidelines on Test Use.

49


Acknowledgements

The Guidelines were prepared for the ITC Council by Professor Dave Bartram. The

author is grateful for the assistance provided by Iain Coyne in the execution of this

project and is grateful to the following individuals who took part in the 1997 Dublin

workshop and who provided such valuable input to the development of the present

Guidelines.

Ms Dusica Boben, Produktivnost, SLOVENIA;

Mr Eugene Burke, British Psychological Society, England;

Dr Wayne Camara, The College Board, USA;

Mr Jean-Louis Chabot, ANOP, FRANCE;

Mr Iain Coyne, University of Hull, England;

Dr Riet Dekker, Swets and Zeitlinger, Netherlands;

Dr Lorraine Eyde, US Office of Personnel Management, USA;

Prof Rocio Fernandez-Ballesteros, EAPA, SpAIN;

Mr Ian Florance, NFER-NELSON, England;

Prof Cheryl Foxcroft, Test Commission of South Africa, South Africa;

Dr John Fremer, The College Board, USA;

Ms Kathia Glabeke, Commissie Psychodiagnostiek, BELGIUM;

Prof Ron Hambleton, University of Massachusetts at Amherst, USA;

Dr Karin Havenga, Test Commission of South Africa, South Africa;

Dr Jurgen Hogrefe, Hogrefe & Huber Verlagsgruppe, Germany;

Mr Ralf Horn, Swets and Zeitlinger, Germany;

Mr Leif Ter Laak, Saville and Holdsworth Ltd, England;

Dr Pat Lindley, British Psychological Society, England;

Mr Reginald Lombard, Test Commission of South Africa, South Africa;

Prof Jose Muniz, Spanish Psychological Association, Spain;


Ms Gill Nyfield, Saville & Holdsworth Ltd, England;

Dr Torleiv Odland, Norsk Psykologforening, Norway;

Ms Berit Sander, Danish Psychologists’ Association,DENMARK;

Prof Francois Stoll, Federation Suisse des Psychologues, Switzerland.

The author is also grateful to the many other individuals and organisations who

provided feedback during the various stages of consultation and in conference

presentations.


Introduction and background

The need for international Guidelines

The focus of the International Test Commission (ITC) project is on guidelines for

good test use and for encouraging best practice in assessment. The work so far carried

out by the ITC to promote good practice in test adaptations (Hambleton, 1994; Van de

Vijver, F. & Hambleton, R., 1996) is an important step towards assuring uniformity in

the quality of tests adapted for use across different cultures and languages. At its

meeting in Athens in 1995, the ITC Council accepted a proposal to broaden this

concern to include guidelines on the fair and ethical use of tests, from which standards

for training and specifying the competence of test users could be derived.

There are a number of reasons why guidelines on test use are needed at an

international level.

Countries differ greatly in the degree, if any, of statutory control they can exercise

over the use of testing and its consequences for those tested. Some national

professional societies have statutory registration of psychologists, others do not; some

have mechanisms for the control of standards of test use by non-psychologists, others

do not. The existence of a set of internationally-accepted guidelines would provide

national psychological associations and other relevant professional bodies and

organisations with a degree of support in the endeavours of such organisations to

develop standards in countries where such standards are currently either lacking in

some respect or non-existent.

Patterns of access, in terms of the rights to purchase or use test materials, vary greatly

from country to country. In some countries, access is restricted to psychologists, in

others to users registered with formally approved national test distributors, in yet

others, test users may be free to obtain materials without restriction from suppliers in

their country or directly from suppliers abroad.


A number of well-known instruments have appeared on the Internet in violation of

copyright, without acknowledgement of the test authors or publishers, and without

regard to issues of test security.

Within the occupational testing arena, the greater international mobility of labour has

increased the demand for tests to be used on job applicants from a number of different

countries - often with the tests being administered in one country on behalf of a

potential employer in another country.

Development work is being carried out in the USA and in the UK on the use of

Internet for distance- or remote-assessment in both occupational and educational

settings. This raises a whole host of issues relating to standards of administration and

control over the testing process, including test security.

Aim and objectives

The long-term aim of this project includes the production of a set of guidelines that

relate to the competencies (knowledge, skills, abilities and other personal

characteristics) needed by test users. These competencies are specified in terms of

assessable performance criteria. These criteria provide the basis for developing

specifications of the evidence of competence that would be expected from someone

seeking qualification as a test user. Such competencies need to cover such issues as:

professional and ethical standards in testing,

rights of the test taker and other parties involved in the testing process,

choice and evaluation of alternative tests,

test administration, scoring and interpretation,

report writing and feedback.

Insofar as they directly relate to test use, the Guidelines also have implications for:

standards for test construction,

standards for user-documentation - e.g., technical and user manuals,


standards for regulating the supply and availability of tests and information about

tests.

The present Guidelines represent the work of specialists in psychological and

educational testing (i.e. psychologists, psychometricians, test publishers and test

developers) drawn from a number of countries. The intention of this document is not

to ‘invent’ new guidelines, but to draw together the common threads that run through

existing guidelines, codes of practice, standards and other relevant documents, and to

create a coherent structure within which they can be understood and used.

Development of the Guidelines

The Guidelines should be considered as benchmarks against which existing local

standards can be compared for coverage and international consistency. By using the

Guidelines as benchmarks or the basis from which to develop locally applicable

documents (e.g. standards, codes of practice, statements on test taker rights), a high

level of consistency across national boundaries will be promoted.

Work on the Guidelines began by drawing together materials concerned with test

standards, codes of practice, test use, etc., from a number of countries3. While

drawing on all of these sources, the present Guidelines have been particularly

influenced by:

The Australian Psychological Society (APS) Supplement to guidelines on the use of

Psychological Tests (Kendall et al., 1997).

The British Psychological Society (BPS) Level A and Level B standards for

occupational test use (Bartram, 1995, 1996).

The American Educational Research Association (AERA) , American Psychological

Association (APA), & National Council on Measurement in Education (NCME)

(1985) Standards for educational and psychological testing.

3 A list of all the materials that informed this process is available on request from the authors.


American Association for Counseling and Development (AACD) Responsibilities of

Users of Standardized Tests (Schafer, W.D, 1992).

The CPA (Canadian Psychological Association, 1987) Guidelines for Educational and

Psychological Testing.

The APS document has been particularly valuable as it pulls together much of what is

contained in the BPS and American publications as well as drawing on South African

National Institute for Psychological Research (NIPR) publications and various

publishers’ guidance for test users. It also embodies much of what has come out of

Joint Committee on Testing Practices (JCTP) Test User Qualifications Working

Group’s (TUQWG) seminal work on a data-based approach to promoting good test

use (e.g., Eyde et al, 1988, 1993; Moreland et al., 1995), and the work of the JCTP on

the Code of Fair Testing Practices in Education (JCTP, 1988; Fremer, Diamond, &

Camara, 1989). Appendix B drew from the more recent work of the JCTP (JCTP,

2000) on test taker rights and responsibilities.

The content of the primary sources was analysed and statements categorised under 14

main headings. Where appropriate single statements were written to capture the

common meaning of a number of statements from different sources. Statements were

also modified in format such that they provided completion of a common stem (e.g.:

“Competent test users will endeavour to....”, or “Competent test users can....”).

This initial structure of 14 main sections and their content was embodied in the first

draft Framework Document. This formed the material for an international workshop

held in Dublin in July 1997. The purpose of the ITC Workshop was to consider and

critically evaluate all aspects of a framework document, with a view to producing a

draft set of guidelines that would have international currency and acceptance. During

the workshop, the Framework Document was examined in detail, with refinements

being proposed in terms of form, structure and content. Following the workshop, the

document was extensively revised (Version 2.0) and circulated to all those who

attended for comment. A draft consultation document (Version 3.1) was prepared that

incorporated all the comments and suggestions submitted regarding Version 2.0.


Copies of the Version 3.1 consultation document and a structured response form were

widely circulated to key individuals and organisations for comment. A total of 200

were distributed. A total of 28 detailed responses were received including ‘corporate’

responses from the APA, the BPS and some other European professional associations.

In the summer of 1998 the Guidelines were revised in the light of these comments,

and 200 copies (Version 4.1) were sent out for further consultation. A total of 18

formal responses were received to this second round of consultation. In addition,

supportive informal comments were provided by many recipients of the consultation

documents by email or in meetings.

In producing the current version of the Guidelines (Version 2000), every effort has

been made to take account of all these responses. Without exception, the responses

were helpful and constructive.4

These Guidelines are to be seen as supportive rather than constraining. We need to

ensure that the Guidelines embody universal key principles of good test use, without

attempting to impose uniformity on legitimate differences in function and practice

between countries or between areas of application.

The proposed structure differentiates three main aspects of competence:

Professional and ethical standards of good practice that affect the way in which the

process of testing is carried out and the way in which test users interact with others

involved in the process.

The knowledge, understanding and skills relating to the process of testing: what test

users need to be able to do.

4 A detailed report on the results of the first consultation was submitted to the ITC Council meeting in

August, 1998. A report on the second consultation together with Version 5.0 of the Guidelines was

submitted to the ITC Council when it met in June 1999. Version 2000 contains some minor editorial

amendments to Version 5.0.


The knowledge and understanding that are necessary to inform and underpin the

process of testing.

These three components differ, yet are inextricably inter-twined in practice.

The Guidelines start from a key purpose. This can be characterised as the ‘mission

statement’ for test users. It provides the focus from which the guidelines are

developed. Each guideline defines an aspect of test user competence that contributes

to the key purpose.

Together with the key purpose, the scope statement describes to whom the Guidelines

apply, the forms of assessment to which they relate, and the assessment contexts.

This document contains:

Key purpose and scope statements.

Specifications of test user competencies in relation to ethical test use.

Specifications of test user competencies in relation to good practice in the use of tests.


The Guidelines

Key purpose

A competent test user will use tests appropriately, professionally, and in an ethical

manner, paying due regard to the needs and rights of those involved in the testing

process, the reasons for testing, and the broader context in which the testing takes

place.

This outcome will be achieved by ensuring that the test user has the necessary

competencies to carry out the testing process, and the knowledge and understanding

of tests and test use that inform and underpin this process.

Scope of the Guidelines

Any attempt to provide a precise definition of a ‘test’ or of ‘testing’ as a process, is

likely to fail as it will tend to exclude some procedures that should be included and

include others that should be excluded. For the purpose of these Guidelines, the terms

‘test’ and ‘testing’ should be interpreted broadly. Whether an assessment procedure is

labelled a ‘test’ or not is immaterial. These Guidelines will be relevant for many

assessment procedures that are not called ‘tests’ or that seek to avoid the designation

‘test’. Rather than provide a single definition, the following statements attempt to

map out the domain covered by the Guidelines.

Testing includes a wide range of procedures for use in psychological, occupational

and educational assessment.

Testing may include procedures for the measurement of both normal and abnormal or

dysfunctional behaviours.

Testing procedures are normally designed to be administered under carefully

controlled or standardised conditions that embody systematic scoring protocols.


These procedures provide measures of performance and involve the drawing of

inferences from samples of behaviour.

They also include procedures that may result in the qualitative classification or

ordering of people (e.g., in terms of type).

Any procedure used for ‘testing’, in the above sense, should be regarded as a ‘test’,

regardless of its mode of administration; regardless of whether it was developed by a

professional test developer; and regardless of whether it involves sets of questions, or

requires the performance of tasks or operations (e.g., work samples, psycho-motor

tracking tests).

Tests should be supported by evidence of reliability and validity for their intended

purpose. Evidence should be provided to support the inferences that may be drawn

from the scores on the test. This evidence should be accessible to the test user and

available for independent scrutiny and evaluation. Where important evidence is

contained in technical reports that are difficult to access, fully referenced synopses

should be provided by the test distributor.

The test use Guidelines presented here should be considered as applying to all such

procedures, whether or not they are labelled as ‘psychological tests’ or ‘educational

tests’ and whether or not they are adequately supported by accessible technical

evidence.

Many of these Guidelines will apply also to other assessment procedures that lie

outside the domain of ‘tests’. They may be relevant for any assessment procedure that

is used in situations where the assessment of people has a serious and meaningful

intent and which, if misused, may result in personal loss or psychological distress (for

example, job selection interviews, job performance appraisals, diagnostic assessment

of learning support needs).

The Guidelines do not apply to the use of materials that may have a superficial

resemblance to tests, but which all participants recognise are intended to be used only


for purposes of amusement or entertainment (e.g., life-style inventories in magazines

or newspapers).

Who the Guidelines are for

The Guidelines apply to the use of tests in professional practice. As such they are

directed primarily towards:

The purchasers and holders of test materials;

Those responsible for selecting tests and determining the use to which tests will be

put;

Those who administer, score or interpret tests;

Those who provide advice to others on the basis of test results (e.g., recruitment

consultants, educational and career counsellors, trainers, succession planners);

Those concerned with the process of reporting test results and providing feedback to

people who have been tested.

The Guidelines will be of relevance to others involved in the use of tests as defined

above. These include:

the developers of tests,

the suppliers of tests,

those involved in the training of test users,

those who take tests and their relevant others (e.g., parents, spouses, partners),

professional bodies and other associations with an interest in the use of psychological

and educational testing, and

policy makers and legislators.


While aimed primarily at professional practice, most aspects of the good practice

embodied in the Guidelines will also be of relevance to those who use tests solely for

research purposes.

The Guidelines are not intended to cover every type of assessment technique (e.g.,

unstructured or semi-structured interviews, assessed group activities) or every

situation in which assessment occurs (e.g., employment assessment centres). Yet

many of the Guidelines are likely to be applicable in assessment situations and for

purposes more general than those concerned primarily with psychological and

educational testing (for example, the use of assessment centres for employmee

placement or selection, semi-structured and structured interviews, or assessment for

selection, career guidance and counselling).

Contextual factors

The Guidelines are applicable internationally. They may be used to develop specific

local standards through a process of contextualisation. It is recognised that there are

many factors which affect how standards may be managed and realised in practice.

These contextual factors have to be considered at the local level when interpreting the

Guidelines and defining what they would mean in practice within any particular

setting.

The factors that need to be considered in turning Guidelines into specific standards

include:

social, political, institutional, linguistic, and cultural differences between assessment

settings;

the laws of the country in which testing is taking place;

existing national guidelines and performance standards set by professional

psychological societies and associations;

differences relating to individual versus group assessment;


differences related to the test setting (educational, clinical, work-related and other

assessment);

who the primary recipients of the test results are (e.g., the test-takers, their parents or

guardian, the test-developer, an employer or other third party);

differences relating to the use of test results (e.g., for decision-making, as in selection

screening, or for providing information to support guidance or counselling); and

variations in the degree to which the situation provides opportunity for the accuracy

of interpretations to be checked in the light of subsequent information and amended if

needed.

Knowledge, Understanding, and Skill

Knowledge, understanding and skill underpin all the test user competencies. The

nature of their content and level of detail are likely to vary between countries, areas of

application and as a function of the level of competence required to use a test.

The Guidelines do not contain detailed descriptions of these. However, when applying

the Guidelines for use in specific situations the relevant knowledge, skills, abilities

and other personal characteristics will need to be specified. This specification is part

of the process of contextualisation, through which generic guidelines are developed

into specific standards. The main areas descriptions of knowledge, understanding and

skills need to cover include the following.

Relevant declarative knowledge.

This includes:

knowledge of basic psychometric principles and procedures, and the technical

requirements of tests (e.g., reliability, validity, standardisation);


knowledge of tests and measurement sufficient to enable the proper understanding of

test results;

knowledge and understanding of relevant theories and models of ability, of

personality or other psychological constructs, or of psychopathology, as necessary to

properly inform the choice of tests and the interpretation of test results; and

knowledge of the tests and the test suppliers relevant to one’s area of practice.

Instrumental knowledge and skills

These include:

knowledge and skills relating to specific assessment procedures or instruments,

including the use of computer-based assessment procedures;

specialised knowledge of and practitioner skills associated with using those tests that

are within one’s repertoire of assessment tools; and

knowledge and understanding of the construct or constructs underlying test scores,

where this is important if valid inferences are to be drawn from the test results.

The Guidelines cover:

General personal task-related skills

This includes:

the performance of relevant activities such as test administration, reporting, and the

provision of feedback to test takers and other clients;

oral and written communication skills sufficient for the proper preparation of test

takers, test administration, the reporting of test results, and for interaction with

relevant others (e.g., parents, or organisational policy makers); and


interpersonal skills sufficient for the proper preparation of test takers, the

administration of tests, and the provision of feedback of test results.

Contextual knowledge and skills

This includes:

knowing when and when not to use tests;

knowing how to integrate testing with other less formal components of the assessment

situation (e.g., biographical data, unstructured interview and references etc.); and

knowledge of current professional, legal, and ethical issues relating to the use of tests,

and of their practical implications for test use.

Task management skills

This includes:

knowledge of codes of conduct and good practice relating to the use of tests, test data,

the provision of feedback, the production and storage of reports, the storage of and

responsibility for test materials and test data; and

knowledge of the social, cultural, and political context in which the test is being used,

and the ways in which such factors might affect the results, their interpretation and the

use to which they are put.

Contingency management skills

This includes:

knowing how to deal with problems, difficulties, and breakdowns in routine;

knowing how to deal with a test taker's questions during test administration etc.; and


knowing how to deal with situations in which there is the potential for test misuse or

for misunderstanding the interpretation of test scores.


1 Take responsibility for ethical test use

Competent test users should:

1.1 Act in a professional and ethical manner

1.1.1 Promote and maintain professional and ethical standards.

1.1.2 Have a working understanding of current professional and ethical issues and

debates relating to the use of tests in their field of application.

1.1.3 Implement an explicit policy on testing and test use.5

1.1.4 Ensure that people who work for or with them adhere to appropriate

professional and ethical standards of behaviour.

Conduct communications with due concern for the sensitivities of the test taker and

other relevant parties.

Represent tests and testing in a positive and balanced manner in communications with

and through the media.

1.1.7 Avoid situations in which they may have or be seen to have a vested interest in

the outcome of the assessment, or where the assessment might damage the

relationship with their client.

1.2 Ensure they have the competence to use tests

1.2.1 Work within the limits of scientific principle and substantiated experience.

1.2.2 Set and maintain high personal standards of competence.

1.2.3 Know the limits of their own competence and operate within those limits.

5 An example policy outline is attached as Appendix A.


1.2.4 Keep up with relevant changes and advances relating to the tests they use, and

to test development, including changes in legislation and policy, which may impact on

tests and test use.

1.3 Take responsibility for their use of tests

1.3.1 Only offer testing services and only use tests for which they are qualified.

1.3.2 Accept responsibility for the choice of tests used, and for the recommendations

made.

1.3.3 Provide clear and adequate information to participants in the testing process

about the ethical principles and legal regulations governing psychological testing.

1.3.4 Ensure that the nature of the contract between test-taker and tester is clear and

understood.6

1.3.5 Be alert to any unintended consequences of test use.

1.3.6 Endeavour to avoid doing harm or causing distress to those involved in the

testing process.

1.4 Ensure that test materials are kept securely

1.4.1 Ensure secure storage of and control access to test materials

1.4.2 Respect copyright law and agreements that exist with respect to a test

including any prohibitions on the copying or transmission of materials in electronic or

other forms to other people, whether qualified or otherwise.

1.4.3 Protect the integrity of the test by not coaching individuals on actual test

materials or other practice materials that might unfairly influence their test

performance.

1.4.4 Ensure that test techniques are not described publicly in such a way that their

usefulness is impaired

6 An example ‘contract’ between test user and test taker is attached as Appendix B.


1.5 Ensure that test results are treated confidentially.

1.5.1 Specify who will have access to results and define levels of confidentiality.

1.5.2 Explain levels of confidentiality to individuals before tests are administered.

1.5.3 Limit access to results to those with a right to know.

1.5.4 Obtain the relevant consents before releasing results to others.

1.5.5 Protect data kept on file so that only those who have a right of access can

obtain them.

1.5.6 Establish clear guidelines as to how long test data are to be kept on file.

1.5.7 Remove names and other personal identifiers from databases of results that are

archived, for research use, development of norms or other statistical purposes.


2 Follow good practice in the use of tests

2.1 Evaluate the potential utility of testing in an assessment situation

Competent test users will:

2.1.1 Produce a reasoned justification for the use of tests.

2.1.2 Ensure there has been a thorough analysis of the client’s needs, reasons for

referral, or of the diagnostic category, condition, or job for which assessment is being

used.

Establish that the knowledge, skills, abilities, aptitudes or other characteristics, which

the tests are intended to measure, are correlates of relevant behaviours in the context

about which inferences are to be drawn.

Seek other relevant collateral sources of information.

2.1.5 Assess the advantages and disadvantages of using tests compared with other

sources of information.

2.1.6 Ensure that full use is made of all available collateral sources of information.

2.2 Choose technically sound tests appropriate for the situation


2.2.1 Examine current information covering the range of potentially relevant tests

(e.g., from specimen sets, independent reviews, expert advice), before selecting a test

to use.

2.2.2 Determine that the test’s technical and user documentation provides sufficient

information to enable evaluation of the following:

a) scope or coverage and representativeness of test content, appropriateness of

norm groups, difficulty level of content etc.;


b) accuracy of measurement and reliability demonstrated with respect to relevant

populations;

c) validity (demonstrated with respect to relevant populations) and relevance for

the required use;

d) freedom from systematic bias in relation to the intended test taker groups;

e) acceptability to those who will be involved in their use, including perceived

fairness and relevance;

f) practicality, including time required, costs, and resource needs.

2.2.3 Avoid the use of tests that have inadequate or unclear supporting technical

documentation;

2.2.4 Use tests only for those purposes where relevant and appropriate validity

evidence is available.

2.2.5 Avoid judging a test solely on the basis of face value, test-user testimonials, or

advice from those with a vested commercial interest.

2.2.6 Respond to requests from relevant interested parties (e.g. test takers, parents,

managers) by providing sufficient information to allow them to understand why the

test was chosen.

2.3 Give due consideration to issues of fairness in testing

When tests are to be used with individuals from different groups (e.g., groups

differing in terms of gender, cultural background, education, ethnic origin, or age),

competent test users will make all reasonable efforts to ensure that:

2.3.1 The tests are unbiased and appropriate for the various groups that will be

tested.

2.3.2 The constructs being assessed are meaningful in each of the groups

represented.

Evidence is available on possible group differences in performance on the test.

Evidence relating to differential item functioning (DIF) is available, where relevant.


2.3.5 There is validity evidence to support the intended use of the test in the various

groups.

2.3.6 Effects of group differences not relevant to the main purpose (e.g., differences

in motivation to answer, or reading ability) are minimised.

In all cases, Guidelines relating to the fair use of tests are interpreted in the context of

local policy and legislation.7

When testing in more than one language (within or across countries8), competent test

users will make all reasonable efforts to ensure that:

2.3.8 Each language or dialect version has been developed using a rigorous

methodology meeting the requirements of best practice.

2.3.9 The developers have been sensitive to issues of content, culture and language.

2.3.10 The test administrators can communicate clearly in the language in which the

test is to be administered.

2.3.11 The test taker’s level of proficiency in the language in which the test will be

administered is determined systematically and the appropriate language version is

administered or bilingual assessment is performed, if appropriate.

When tests are to be used with people with disabilities, competent test users will make

all reasonable efforts to ensure that:

2.3.12 Advice is sought from relevant experts on the potential effects of the various

disabilities on test performance.

2.3.13 Potential test takers are consulted and their needs and wishes are given proper

consideration.

7 The Guidelines in this section focus on what is ‘best practice’. However, in many countries, issues

relating to the fair use of tests must also take account of national laws (e.g., the Americans with

Disabilities Act, 1990, in the USA, or the Race Relations Act, 1976, in the UK).

8 These Guidelines relate not only to different national languages and dialects, but also to special forms

of communication, such as sign language, used to overcome the effects of forms of disability.


2.3.14 Adequate arrangements are made when test takers include people with

hearing, visual or motor impairments, or other disabilities (e.g., learning impairments,

dyslexia .).

2.3.15 Use of alternative assessment procedures, rather than modifications to tests, is

considered (e.g., other more suitable tests, or alternative structured forms of

assessment).

2.3.16 Relevant professional advice is sought if the degree of modification required

for use by those with disabilities is beyond the experience of the test user.

2.3.17 Modifications, when necessary, are tailored to the nature of the disability and

are designed to minimize impact on score validity.

2.3.18 Information regarding the nature of any modifications made to a test or testing

procedure is provided to those who interpret or act upon the test scores whenever the

withholding of such information might otherwise result in biased interpretation or an

unfair decision.

2.4 Make necessary preparations for the testing session

The competent test user will make all reasonable efforts to:

2.4.1 Provide relevant parties in a timely manner with clear information concerning

the purpose of testing, ways in which they might best prepare for the test session, and

the procedures to be followedr.

2.4.2 Advise test takers of the linguistic or dialectic groups for which the test is

considered appropriate.

2.4.3 Send test takers approved practice, sample, or preparation materials where

these are available and where this is consistent with recommended practice for the

tests concerned.

2.4.4 Explain clearly to test takers their rights and responsibilities9.

9 See Appendix B.


2.4.5 Gain the explicit consent of test takers or their legal guardians or

representatives before any testing is done.

2.4.6 Explain, when testing is optional, the consequences of taking or not taking the

test to relevant parties so that they can make an informed choice.

2.4.7 Make the necessary practical arrangements by ensuring that:

a) preparations conform to those stipulated in the publisher’s manual;

b) locations and facilities for testing have been arranged well in advance, and the

physical environment is accessible, safe, quiet, free from distractions and appropriate

for the purpose;

c) sufficient materials are available and have been checked to ensure there are no

marks left by previous users on question booklets or answer sheets;

d) staff who will be involved in the administration are competent;

e) appropriate arrangements have been made for the testing of people with

disabilities10.

2.4.8 Anticipate likely problems and counteract them through thorough preparation

of materials and instructions.

2.5 Administer the tests properly

The competent test user will:

2.5.1 Establish rapport by welcoming test-takers and briefing them in a positive

fashion.

2.5.2 Act to reduce test-taker anxiety and avoid creating or reinforcing unnecessary

anxiety.

2.5.3 Ensure potential sources of distraction (e.g., wristwatch alarms, mobile

phones, pagers) are removed.

2.5.4 Ensure test-takers have the materials they require for taking the test before it

begins.

10 See Appendix C.


2.5.5 Administer tests under appropriate supervised conditions.

2.5.6 Wherever possible, administer test instructions in the primary language of the

test takers, even where the test content is designed to provide evidence of knowledge

or skills in a non-primary language.

2.5.7 Adhere strictly to the directions and instructions as specified in the test manual

while making reasonable accommodations for persons with disabilities.

2.5.8 Read instructions clearly and calmly.

2.5.9 Provide adequate time for examples to be completed.

2.5.10 Observe and record deviations from test procedures.

2.5.11 Monitor and record response times accurately where appropriate.

2.5.12 Ensure all materials are accounted for at the end of each testing session.

2.5.13 Administer tests by modes that permit adequate and appropriate levels of

supervision and authentication of the identity of the test takers.

2.5.14 Ensure those assisting the administration have had proper training.

2.5.15 Ensure test takers are not left unattended or subjected to distracting activities

during a supervised test session.

2.5.16 Provide appropriate assistance to test takers who show signs of undue distress

or anxiety.

2.6 Score and analyse test results accurately


2.6.1 Follow carefully the standardised procedures for scoring.

2.6.2 Carry out appropriate raw score conversions to other relevant types of scale.

2.6.3 Choose scale types relevant to the intended use of the test scores.

2.6.4 Check score scale-conversions and other clerical procedures for accuracy.

2.6.5 Ensure that invalid conclusions are not drawn from comparisons of scores with

norms that are not relevant to the people being tested or are outdated.


2.6.6 Compute, where appropriate, composite scores using standard formulae and

equations.

2.6.7 Employ procedures to screen test results to recognise improbable or

unreasonable scores.

2.6.8 Clearly and accurately label scales in reports, and provide clear identification

of norms, scales types, and equations used.

2.7 Interpret results appropriately


2.7.1 Have a good professional understanding of the test’s theoretical or conceptual

basis, technical documentation and guidance on the use and interpretation of the scale

scores.

2.7.2 Have a good understanding of the scales used, the characteristics of the norm

or comparison groups, and the limitations of the scores.

2.7.3 Take steps to minimise the effects on test interpretation of any biases the test

interpreter may have towards members of the test taker’s cultural group.

2.7.4 Use appropriate norm or comparison groups where available.

2.7.5 Interpret results in the light of available information about the person being

tested (including age, gender, schooling, culture and other factors) with due regard for

the technical limitations of the test, the assessment context, and the needs of those

with a legitimate interest in the outcome of the process.

2.7.6 Avoid over-generalising the results of one test to traits or human

characteristics which are not measured by the test.

2.7.7 Consider each scale’s reliability, error of measurement and other qualities

which may have artificially lowered or raised results when interpreting scores.

2.7.8 Give due consideration to the available evidence of validity, with respect to

the construct being measured for members of the test takers’ relevant demographic

groups (e.g., cultural, age, social class, and gender groups).


2.7.9 Use passing scores (cut-scores) in test interpretation only when evidence of the

validity for the pass scores is available and supports its use.

2.7.10 Be aware of negative social stereotyping that may pertain to members of the

test taker’s group (e.g., cultural group, age, social class, and gender) and avoid

interpreting tests in a manner that perpetuates such stereotyping.

2.7.11 Take into account any individual or group variations from standard procedures

in test administration.

2.7.12 Take into account any evidence of prior experience with the test where there

are data available relating to the effect of such experience on test performance.

2.8 Communicate the results clearly and accurately to relevant others


2.8.1 Identify appropriate parties who may legitimately receive test results.

With the informed consent of the test takers, or their legal representatives, produce

written or oral reports for relevant interested parties.

Ensure that the technical and linguistic levels of any reports are appropriate for the

level of understanding of the recipients.

2.8.4 Make clear that the test data represent just one source of information and

should always be considered in conjunction with other information.

2.8.5 Explain how the importance of the test results should be weighted in relation

to other information about the people being assessed.

2.8.6 Use a form and structure for a report that is appropriate to the context of the

assessment.

2.8.7 When appropriate, provide decision-makers with information on how results

may be used to inform their decisions.

2.8.8 Explain and support the use of test results used to classify people into

categories (e.g., for diagnostic purposes or for job selection).


2.8.9 Include within written reports a clear summary, and when relevant, specific

recommendations.

2.8.10 Present oral feedback to test takers in a constructive and supportive manner.

2.9 Review the appropriateness of the test and its use


2.9.1 Monitor and periodically review changes over time in the populations of

individuals being tested and any criterion measures being used.

2.9.2 Monitor tests for evidence of adverse impact.

2.9.3 Be aware of the need to re-evaluate the use of a test if changes are made to its

form, content, or mode of administration.

2.9.4 Be aware of the need to re-evaluate the evidence of validity if the purpose for

which a test is being used is changed.

2.9.5 Where possible, seek to validate tests for the use to which they are being put,

or participate in formal validation studies.

2.9.6 Where possible, assist in updating information regarding the norms, reliability

and validity of the test by providing relevant test data to the test developers,

publishers or researchers.


References

American Educational Research Association, American Psychological Association, &

National Council on Measurement in Education. (1985). Standards for Educational

and Psychological Testing. Washington DC: American Psychological Association.

Bartram, D. (1995). The Development of Standards for the Use of Psychological

Tests in Occupational Settings: The Competence Approach. The Psychologist, May,

219-223.

Bartram, D. (1996). Test Qualifications and Test Use in the UK: The Competence

Approach. European Journal of Psychological Assessment, 12, 62-71.

Canadian Psychological Association. (1987). Guidelines for Educational and

Psychological Testing. Ottawa: Canadian Psychological Association.

Eyde, L. D., Moreland, K. L. & Robertson, G. J. (1988). Test User Qualifications: A

Data-based Approach to Promoting Good Test Use. Report for the Test User

Qualifications Working Group. Washington DC: American Psychological

Association.

Eyde, L. D., Robertson, G. J., Krug, S. E. et al (1993). Responsible Test Use: Case

Studies For Assessing Human Behaviour. Washington DC: American Psychological

Association.

Fremer, J., Diamond, E. E. & Camara, W. J. (1989). Developing a Code of Fair

Testing Practices in Education. American Psychologist, 44, 1062-1067.

Hambleton, R. (1994). Guidelines for adapting educational and psychological tests: A

progress report. European Journal of Psychological Assessment, 10, 229-244.

Joint Committee on Testing Practices. (1988). Code of Fair Testing Practices in

Education. Washington DC: Joint Committee on Testing Practices.

Joint Committee on Testing Practices. (2000). Rights and Responsibilities of Test

Takers: Guidelines and Expectations. Washington DC: Joint Committee on Testing

Practices.


Kendall, I., Jenkinson, J., De Lemos, M. & Clancy, D. (1997). Supplement to

Guidelines for the use of Psychological Tests. Australian Psychological Society.

Moreland, K. L., Eyde, L. D., Robertson, G. J., Primoff, E. S. & Most, R. B. (1995).

Assessment of Test User Qualifications: A Research-Based Measurement Procedure.

American Psychologist, 50, 14-23.

Schafer, W. D. (1992). Responsibilities of Users of Standardized Tests: RUST

Statement Revised. Alexandria, VA: American Association for Counseling and

Development.

Van de Vijver, F. & Hambleton, R. (1996). Translating tests: some practical

guidelines. European Psychologist , 1, 89-99.


Appendix A: Guidelines for an outline policy on testing.

The following guidelines relate to the need for organizations to consider their policy on

testing in a systematic manner and to ensure that everyone involved is clear as to what

the policy is. The need for an explicit policy on testing is not confined to large

organisations. Small and medium-sized enterprises that use testing, as well as large

ones, should pay regard to testing policy in the same way as they do to health and

safety, equal opportunities, disability and other areas relating to good practice in the

management, treatment and care of personnel.

While the following considerations or requirements may need to be adapted for use by

individual test users operating as sole professional practitioners, it remains important

that they have a clear understanding of their own policy and can communicate it to

others.

A policy on testing is produced in order to:

- ensure personal and organisational aims are met;

- ensure that potential misuse is avoided;

- demonstrate commitment to good practice;

- ensure test use is appropriate for its purpose;

- ensure tests do not discriminate unfairly;

- ensure evaluations are based on comprehensive, relevant information;

- ensure tests are only used by qualified staff.

A policy on testing will need to cover most if not all the following issues:

- proper test use;

- security of materials and scores;

- who can administer tests, score and interpret tests;


- qualification requirements for those who will use the tests;

- test user training;

- test taker preparation;

- access to materials and security;

- access to test results and test score confidentiality issues;

- feedback of results to test takers;

- responsibility to test takers before, during and after test session;

- responsibilities & accountability of each individual user.

Any policy needs to be regularly reviewed and updated as advances in testing, or

changes in practice occur.

Relevant parties need to have access to and be informed about the policy on testing.

Responsibility for any organisation’s testing policy should reside with a qualified test

user who has the authority to ensure implementation of and adherence to the policy.


Appendix B: Guidelines for developing contracts between parties involved in the testing

process.

Contracts between the test user and test takers should be consistent with good practice,

legislation and the test user’s policy on testing. The following is provided as an example

of the sort of matters such a contract might cover. The details will vary as a function of

the assessment context (e.g., occupational, educational, clinical, forensic) and local or

national regulations and laws.

Contracts between test user, test takers and other parties are often implicit and unspoken

(at least in part). Making clear the expectations, roles and responsibilities of all parties

can help to avoid misunderstanding, harm, and litigation.

For their part, the test user will endeavour to:

b.1 inform test takers of their rights regarding how their test scores will be used and

their rights of access to them11;

b.2 give adequate prior warning of any financial charges that may be entailed by the

testing process, who will be responsible for their payment, and when payment will be

due;

b.3 treat test takers with courtesy, respect and impartiality regardless of race, gender,

age, disability, etc.;

b.4 use tests of proven quality, appropriate for the test takers, and appropriate for the

assessment purpose;

b.5 inform test takers prior to testing about the purpose of the assessment, the nature

of the test, to whom test results will be reported and the planned use of the results;

11 Legislation varies between countries on this issue. For example, the current UK Data Protection Act

provides rights of access to data stored on computer different from those for data written on paper.


b.6 give advance notice of when the test will be administered, and when results will

be available, and whether or not test takers or others may obtain copies of the test, their

completed answer sheets, or their scores12;

b.7 have a trained person administer the test and have the results interpreted by a

qualified person;

b.8 ensure test takers know if a test is optional and, when it is, the consequences of

taking or not taking the test;

b.9 ensure test takers understand the conditions, if any, under which they may re-

take tests, have tests re-scored, or have their scores cancelled;

b.10 ensure test takers know that they will have their results explained to them as

soon as possible after taking the test in easily understood terms;

b.11 ensure test takers understand that their results are confidential to the extent

allowed by law and best practice;

b.12 inform test takers who will have access to their results, and the conditions which

scores will be released;

b.13 ensure that test takers are aware of the procedures for making complaints or

notifying problems;

The test user will inform test-takers that they are expected to:

b.14 treat others with courtesy and respect during the testing process;

b.15 ask questions prior to testing if uncertain about why the test is to be

administered, how it will be administered, what they will be required to do and what

will be done with the results;

b.16 inform an appropriate person about any condition that they believe might

invalidate the test results or which they would wish to have taken into consideration;

12 While tests and answer sheets are not normally passed on to others, there is some variation between

countries in practice relating to what test takers or others are permitted to have. However, there is much

greater variation in the expectations of test takers concerning what information they will be given. It is

important that contracts make clear what they will not be given as well as what they will.


b.17 follow the instructions of the test administrator;

b.18 be aware of the consequences of not taking a test if they choose not to take it,

and be prepared to accept those consequences;

b.19 ensure that, if required to pay for any the testing service(s), payment is made by

the agreed date.


Appendix C: Points to consider when making arrangements for testing people with

disabilities or impairments

Considerable care and expertise is needed when the mode of administration of a test has

to be changed to accommodate the needs of people with disabilities. As always, local

and national law and practice13 need to be considered, and the individual’s rights to

privacy must be respected. In seeking information regarding types and levels of

disability, inquiries should only seek information relating to each person’s ability to

undertake the activities required to complete the test. Particular care needs to be

exercised in relation to employment testing14.

There is no simple rule of thumb that can be used to ensure that a test is administered

fairly for people with all types of disability. It is a matter of professional judgement as

to whether it is better to use some alternative form of assessment, or to modify the test

or its mode of administration. In practice, it is rarely possible to norm modified tests on

sufficient samples of people with equivalent disability in order to ensure comparability

of the test with the standardised version. However, where data exist on, for example, the

effects of changing time limits, use of Braille or audiotape spoken versions of tests, such

data should guide the user in making the necessary accommodations. While full

standardization of a modified version may not be possible, pilot testing on small

samples of individuals should be carried out whenever practical.

Given the dearth of information about the performance of people with disabilities on

tests (whether modified or not), it is often more appropriate for test result to be used in a

more qualitative manner. They can be used to give an indication of the characteristic

13 In the United States, for example, attention must be paid to the provisions of the Americans with

Disabilities Act (1990). In the UK, the Disability Discrimination Act (1995), Employment Code of

Practice states that “employers are required to revise tests – or the way the results of such tests are

assessed – to take account of specific disabled candidates.”

14 For detailed guidance on this in the United States, see Eyde, Nestor, Heaton and Nelson (1994).


being assessed (ability, motivation, personality, etc.), which can be supplemented and

supported by information gathered using other methods.

For individual assessment, the assessor can usually tailor the assessment procedures to

the capabilities of the person who is being assessed. However, particular issues arise in

group testing (e.g., for selection into employment). Here there may be practical

difficulties involved in varying the mode of administration for particular individuals

within a group administration setting. Furthermore, all parties may see differences in

treatment as being unfair. For example if more time is given for test completion, those

with the disability may be conscious that they are being treated ‘differently’, and those

without the disability may feel that the extra time provides an unfair advantage.

Advice on special needs can usually be obtained from relevant disability organisations

as well as the individual test takers. It is generally helpful (where the law permits) to ask

the individual directly in a non-threatening and supportive way if there are any

considerations that need to be taken into account15. In many cases such consultation

will enable suitable modifications to be made to the test taking environment without

requiring changes to the test itself.

The following outline protocol provides a general guide to the process of deciding

whether to modify testing and how to carry out the modification. Essentially, disability

may contribute no variance to test scores, contribute construct relevant variance or

construct irrelevant variance. In the first case, no modifications are necessary. In the

final case, modifications should be aimed at removing the irrelevant source of variance

(by suitable modification of the test conditions or substitution of a more suitable test).

For the second case (construct relevant variance), however, modification to the test will

affect the relevance of the test scores.

15 In the UK, the Disability Discrimination Act (1995) also places some obligation on the individual to

raise awareness of their needs.


Is the disability likely to have an effect upon test performance? Many people have

disabilities that would not affect test performance. In such cases, it would be

inappropriate to make accommodations for them.

If the disability is likely to affect test performance, then is the effect on performance

incidental to the construct being measured? For example, a person with an arthritic hand

may have trouble with a speeded test which involves writing. If the ability to perform

manual tasks rapidly is part of the construct being measured, then the test should not be

changed. However, if the purpose is to assess visual checking speed, then an alternative

mode of response would be appropriate.

When the particular disability is incidental to the construct being measured but is likely

to affect the individual’s performance on the test, then modification of the procedure

may be considered.

Users should always consult the test manual and the publisher for guidance on

modification and for information regarded alternative formats and procedures.

Users should also consult relevant disability organisations for advice and guidance on

the possible implications of a specific disability, relevant literature or documentation,

and the sort of adaptations or accommodations that may prove helpful.

Any modifications made to the test or test administration procedures should be carefully

documented along with the rationale behind the modification.


Appendix D. Conditions governing the translation of the ITC Guidelines on Test Use.

The following conditions apply to official versions of the International Test

Commission (ITC) Guidelines. The conditions delegate authority for checking the

quality and accuracy of translation to the local national Psychological Association.

There is only to be one official translation in each country.

Copyright of the original version remains vested in the ITC. The ITC will give

permission for an official version to be produced under the auspices of the local national

Psychological Association, subject to a copy being lodged with the ITC and the

Psychological Association taking responsibility for the accuracy of the translation.

A letter formally approving the accuracy of the translation, from the relevant officer of

the local national Psychological Association, must be lodged with the ITC.

The ITC will reserve the right to distribute copies of that translation itself without

payment to the Psychological Association, and will want to have the guidelines

available through the ITC website.

The official version should be referred to as:

"International Test Commission (ITC) Guidelines on Test Use: [Language] Version.

Translation authorised by the [full name of the Psychological Association]"

The official version should have both the logo of the Psychological Association and that

of the ITC clearly displayed.

The Guidelines themselves should be made available either free of charge or on a not-

for-profit basis. Locally developed supporting documents, applications, qualification

procedures, etc that build on the Guidelines may be charged for on a commercial basis.

Normal copyright rules apply, and permission will need to be sought by people wishing

to publish extracts. In relation to the locally translated version, the ITC delegates the

giving of permission for this to the local Psychological Association responsible for the

translation. A notice to this effect should appear on the Guidelines document.

TITULO

NOME COMPLETO

Trabalho realizado no âmbito da disciplina de Psicometria do curso de Psicologia

para servir de elemento de avaliação prática

Docente: Professora Doutora ____________________________________

Coimbra, mês de ano

Índice

Resumo (titulo/cabeçalho 1) .............................................................................. 1

Introdução (titulo/cabeçalho 1) ........................................................................... 1

Material e métodos (titulo/cabeçalho 1) ............................................................. 3

Resultados (titulo/cabeçalho 1) ........................................................................... 3

Discussão e conclusão (titulo/cabeçalho 1) ......................................................... 5

Bibliografia (titulo/cabeçalho 1) ......................................................................... 8

Nota prévia

Chamo-me Margarida Pocinho, sou autora do guião que aqui lhe apresento. Utilizei

como exemplos do que fui dizendo o artigo propriedades psicométricas da Motor

Activity Log Saliba et al., de 2008 disponível a partir do endereço electrónico

http://www2.pucpr.br/reol/index.php/RFM?dd1=2066&dd99=view e aconselho que:

Antes de começar a escrever o artigo projete-o isto é, esboce-o. O propósito do

esboço é dividir a escrita do artigo inteiro num número de tarefas menores, por isso

comece por organizar os vários tópicos e argumentos de forma lógica, o que permitirá

identificar lacunas no trabalho antes da escrita do artigo.

O guião que se segue ajudá-lo-á.

Escreva o artigo em partes. Não tente escrever o artigo inteiro de uma só vez. Ao

contrário, trate cada seção como um mini texto. Não se preocupe com as gralhas e

edições. Faz isso o fim.

Apos terminar a primeira versão do texto, esqueça-o por uns dias. É preciso

distanciação para fazer uma revisão do que se escreveu, caso contrário vai ler o que

devia lá estar e não o que lá está.

Quando estiver na maxima energia, reveja o texto várias vezes até sentir que não é

possível melhorar mais. Olhe para o trabalho como um critico severo, embora

respeitador, e não como um autor.

Para melhor legibilidade, a maior parte.

Os artigos científicos com frases constituídas com 15 a 20 palavras e parágrafos

com aproximadamente 150 palavras são considerados óptimos em termos de leitura. Por

isso corte as palavras desnecessárias e escreva de forma consistente do começo ao fim

do artigo. Isto é muito importante, em especial no caso de artigos escritos por mais de

um autor.

Artigo de Revisão

1

Autor (e-mail:xxxxxxx) Ano

Título e subtítulo

Nome do (s) autor (es);

O título é o menor resumo de uma obra e quando é eficaz “vende” o artigo ao leitor

imediatamente determinando se ele irá ou não lê-lo. É a primeira coisa que se lê e serve

como cartão de apresentação. Não pode ser ambiguo e o tamanho recomendado é de 10

a 12 palavras. Os nomes científicos devem estar por extenso evitando-se usar

abreviaturas e siglas; já que podem ter diferentes significados para diferentes pessoas

Resumo (titulo/cabeçalho 1)

Resumo na língua do texto e palavras chave;

Abstrat (em Inglês) e Key-words.

É uma versão condensada do artigo pelo que não deve acrescentar dados novos.. Ele

destaca os pontos principais, descreve concisamente o conteúdo. Deve ser conciso e

fácil de ler. É a segunda seção lida (a primeira é o titulo)

O resumo deve comunicar apenas a informação essencial. Retire palavras ou frases

que sejam apenas informação de suporte, revisão da literatura e evite a descrição

detalhada dos métodos.

Peça a um colega para ler o resumo (de preferência alguém que não esteja

familiarizado com o seu trabalho) e pergunte-lhe se faz sentido.

Um bom resumo contem as palavras chave.

Introdução (titulo/cabeçalho 1)

Breve apresentação do tema em estudo (de 300 a 500 palavras) e dos aspectos mais

relevantes da investigação. O objetivo deve fornecer informações necessárias para o

entendimento do resto do artigo; resumir o problema em estudo, discutir as pesquisas

anteriores sobre o tema e explicar o que é feito no artigo, o porquê e o como.

Progrida do geral para o específico: do problema no mundo real para a literatura

pertinente e, depois, para a pesquisa feita. Escreva no tempo presente, com exceção da

descrição daquilo que foi feito ou descoberto no estudo relatado no artigo, que deve ser

escrito no passado. Deve aqui definir o objectivo do estudo

Guião para Artigo de Revisão

2


Exemplo de uma Introdução

No Brasil, o Acidente Vascular Encefálico (AVE) apresenta um importante impacto na saúde pública, pois além

de ser altamente prevalente, está associado a elevados índices de morbidade e incapacidade (1, 2), gerando custo

considerável para o sistema de saúde e para o indivíduo e seus familiares (3). Comumente, o AVE compromete os

diferentes níveis da Classificação Internacional de Funcionalidade, Incapacidade e Saúde (3) e a percepção de

qualidade de vida dos indivíduos (4), sendo considerado a maior causa de incapacidade crônica em países

desenvolvidos e em desenvolvimento (1, 2). Dentre as incapacidades geradas pelo AVE, a alteração da função dos

membros superiores (MMSS) é uma das maiores queixas dos indivíduos, devido ao comprometimento da destreza

durante a execução de importantes atividades manuais de vida diária (5). Usualmente, a dificuldade em usar o

membro superior (MS) mais afetado pode levar ao “aprendizado do não uso”, caracterizado pela adoção

compensatória de maior uso do MS não afetado e diminuição do uso do MS afetado durante a realização das

atividades de vida diária (AVD’s) (6, 7, 8, 9), aumentando ainda mais as incapacidades associadas ao MS mais

afetado, e, consequentemente, aos MMSS (9). Apesar do elevado número de intervenções destinadas ao aumento da

habilidade motora do MS mais afetado (5, 10), os estudos tipicamente avaliam o impacto da recuperação dos MMSS

destes indivíduos por medidas específicas à estrutura e função do corpo e/ou globais de atividade e/ ou participação,

sem enfatizar, especificamente, os efeitos do uso do MS mais afetado nas AVD’s (7, 11). Com o objetivo de avaliar a

habilidade motora do MS afetado no dia a dia do indivíduo e, assim, fornecer informações sobre a função e a

utilização espontânea do MS acometido após o AVE (9), foi desenvolvido, em 1986, o instrumento padronizado

Motor Activity Log(MAL) (11), considerando o “aprendizado do não uso”(6, 8, 9, 11) e a requisição funcional do

MS mais afetado nas AVD’s (11). Desde que foi proposta (9), a MAL tem sido frequentemente utilizada em estudos

relacionados à reabilitação dos MMSS após o AVE (6, 7, 8, 9) e reconhecida como um importante instrumento para

fornecer informações sobre a função do MS acometido (6, 7, 8, 9, 11). A versão original consta de 14 itens (MAL-14)

que abordam o uso do MS afetado em AVD’s (6). Entretanto, para possibilitar a avaliação de indivíduos com grande

comprometimento do MS mais afetado, uma versão com 30 itens (MAL-30) foi desenvolvida substituindo 4 itens da

MAL-14 e acrescentando 16 itens que também estão relacionados às AVD’s (6, 12). Ambas as versões da MAL

devem ser aplicadas sob a forma de entrevista, que podem ser realizadas com o indivíduo ou com o seu cuidador (12),

e englobam duas subescalas ordinais para a graduação das atividades, com seis pontos em cada: uma relacionada à

quantidade de uso (QT) e outra à qualidade do uso (QL) (12). Considerando a escala QT, a pontuação varia de “não

usa o MS mais afetado” (pontuação 0) a “usa o MS mais afetado da mesma forma que usava antes da história de

AVE” (pontuação 5). Para a QL, a pontuação varia de “o MS mais afetado não é usado de forma alguma para a

atividade” (pontuação 0) a “sua habilidade de usar o MS mais afetado é tão boa quanto era antes do AVE” (pontuação

5). A pontuação total é obtida com o cálculo da média para cada uma das subescalas. Quanto maior a média obtida

nas subescalas, melhor a qualidade e quantidade de uso do MS mais afetado na realização das AVD’s. Uma grande

vantagem da MAL é que na situação em que alguma atividade não se aplica ao indivíduo, como pentear o cabelo para

indivíduos calvos, o item pode ser descartado e o cálculo da média é feito com os itens restantes (12). Considerando

que não foi encontrado nenhum instrumento desenvolvido e/ou adaptado para a Língua Portuguesa (Brasil) que avalie

a habilidade motora do MS afetado no dia a dia do indivíduo, fornecendo informações sobre a função e a utilização

espontânea do MS acometido após o AVE, somado a elevada prevalência dos comprometimentos funcionais

associados às alterações dos MMSS em indivíduos acometidos pelo AVE (5)e a importância de uma avaliação

sistematizada para a tomada de decisão clínica, que inclua o uso de testes e medidas com propriedades psicométricas

adequadas e que informem sobre a funcionalidade e a incapacidade humana (13), o objetivo deste estudo foi: realizar


3


uma revisão bibliográfica sistemática sobre as propriedades psicométricas já estabelecidas sobre o uso da MAL em

indivíduos com história de AVE, bem como avaliar suas potencialidades para utilização na população brasileira.

Material e métodos (titulo/cabeçalho 1)

Descrição da amostra/ participantes, materiais/instrumentos e procedimentos de

investigação adoptados.

Exemplo da metodologia

Inicialmente, foram realizadas buscas nas bases de dados eletrônicas MEDLINE, LILACS, SciELO e PEDro,

com a expressão “Motor Activity Log”. O resumo de todos os estudos encontrados com as buscas foram lidos por

dois examinadores independentes para que fossem selecionados aqueles que atendessem aos seguintes critérios de

inclusão: ter avaliado alguma propriedade psicométrica da MAL (independente da versão) em uma população de

adultos (idade igual ou superior a 20 anos) com história de AVE e ter sido publicado até dezembro de 2006. Não

houve restrição quanto ao idioma de publicação. Além disso, em todos os artigos selecionados, foi realizada uma

busca manual ativa na lista de referências apresentada, pelos dois examinadores, também de forma independente,

considerando os mesmos critérios de inclusão

Resultados (titulo/cabeçalho 1)

Apresentação da informação obtida a partir da análise dos dados. As tabelas devem

ser numeradas sequencialmente e antes de aparecerem, devem ser apresentadas.

Exemplo de resultados

Foram encontrados 55 estudos na base de dados MEDLINE e 16 na PEDro, dos quais apenas 1 foi diferente

daqueles encontrados na MEDLINE. Nenhum estudo foi encontrado nas outras duas bases de dados eletrônicas

pesquisadas, totalizando, assim, 56 analisados. Desses, apenas três atenderam aos critérios de inclusão pré-

estabelecidos. Na busca manual realizada nesses estudos selecionados, não foram encontrados outros que fossem

diferentes e que atendessem aos critérios de inclusão, permanecendo, assim, a análise dos três estudos. Dentre esses

três estudos analisados, dois avaliaram as propriedades psicométricas da MAL-14 (7, 8) e um avaliou as propriedades

psicométricas da MAL-30 (6). Todos avaliaram a consistência interna e a confiabilidade teste-reteste (6, 7, 8), dois

avaliaram a responsividade (7, 8) e a estabilidade (6, 7) e todos avaliaram a validade (6, 7, 8). Desta forma, para as

duas versões da MAL, foi investigada a consistência interna, a confiabilidade teste-reteste e a validade (6, 7, 8). A

responsividade só foi investigada para a MAL-14 (7, 8). Nos três estudos, as subescalas da MAL-14 e da MAL-30

foram administradas sob forma de entrevista feita diretamente com os indivíduos com história de AVE (6, 7, 8) e, em

dois estudos, também foram aplicadas aos cuidadores desses indivíduos (6, 7) (Tabela 1).


4


Todos os estudos que investigaram a consistência interna da MAL utilizaram o teste estatístico á Cronbach.

Quando aplicada aos indivíduos, o áCronbach da subescala QL da MAL-14 variou de 0,87 a 0,91 e da QT variou de

0,82 a 0,88. Quando aplicada aos cuidadores, foram de 0,82 e 0,95 para QL e QT, respectivamente (7, 8). Para a

MAL-30, a consistência interna foi de 0,94 para ambas as subescalas quando aplicada aos indivíduos e de 0,95

quando aplicada aos cuidadores. Para avaliar a confiabilidade teste-reteste da MAL-14 aplicada aos indivíduos, Van

Der Lee et al. (8) realizaram duas avaliações pré-intervenção, com intervalo de uma semana, e utilizaram o teste

estatístico Bland and Altman. Foram reportados os valores de -0,61 a 0,71 para QL e de -0,70 a 0,85 para QT.

Uswatte et al. (7) também avaliaram a confiabilidade teste-reteste da MAL-14 aplicada aos indivíduos e, além disso,

a confiabilidade quando aplicada aos seus cuidadores, correlacionando os resultados da avaliação pré-intervenção

com os da pós-intervenção pela Correlação de Pearson. Os valores encontrados foram de r=0,91 para a QL e de

r=0,44 para QT, quando aplicada aos indivíduos, e de r=0,50 para QL e r=0,61 para QT, quando aplicada aos

cuidadores. Em um outro estudo (6) que avaliou a confiabilidade teste-reteste das subescalas da MAL-30 aplicadas

aos indivíduos e cuidadores, pelo Coeficiente de Correlação Intraclasse (CCI), considerando avaliações pré e pós-

intervenção em um grupo controle (tratamento convencional), foram relatados valores de CCI=0,82 para QL e

CCI=0,79 para a QT, quando aplicada aos indivíduos, e de CCI=0,72 para QL e CCI=0,66 para QT quando aplicada

aos cuidadores. Os dois estudos que avaliaram a MAL-14 (7, 8) também investigaram a sua responsividade, sendo

que no estudo de Van Der Lee et al. (8) foi determinada a responsividade da QT e QL pela razão entre a média da

diferença de duas avaliações pós-intervenção (uma semana de intervalo) com o desvio padrão da média da diferença

das duas avaliações pré-intervenção. O resultado para a QT foi de 1,9 e para a QL de 2,0, o que foi considerado

adequado. Uswatte et al. (7) determinaram a responsividade por meio de dois estudos. No primeiro, aplicaram a

MAL-14 em indivíduos que participaram da Terapia de Contenção do Membro Superior (TCMS) e nos seus

cuidadores. A responsividade foi calculada pela razão da média da diferença da TCMS com desvio padrão da média

da diferença no grupo controle (exercícios globais) e os valores foram de 4,5 para QL e de 3,2 para QT, considerando

a avaliação dos indivíduos, e 3,0 para QL e 4,3 para QT, considerando a avaliação dos cuidadores. No segundo

estudo, avaliaram a responsividade da QL e QT aplicados aos indivíduos que realizaram Terapia de Contenção


5


Automatizada (TCA) por meio da razão da média da diferença do grupo de TCA com desvio padrão da média da

diferença no grupo controle do estudo 1. Os resultados encontrados foram de 5,0 para a QL e 3,8 para a QT. A

estabilidade da escala foi determinada em dois estudos pelo teste t de studentpareado (6, 7). Para QL e QT da MAL-

14 e da MAL-30 aplicada aos indivíduos e seus cuidadores, foram utilizados os dados da avaliação pré e pós-

intervenção do grupo controle. Os valores encontrados para a MAL-14 aplicada aos indivíduos foram de 0,1±0,4 para

QL e de 0,1±0,5 para QT. Quando aplicada aos cuidadores foram de 0,2±0,5 para QL e de 0,1±0,4 para QT. Todos

estes valores encontrados tanto para os indivíduos quanto para os cuidadores não foram estatisticamente

significativos, confirmando a estabilidade do instrumento. Para as subescalas da MAL-30 aplicadas aos indivíduos, os

valores foram de 0,30,5 (p=0,02) para QL e de 0,3±0,6 (p=0,04) para QT, e aplicada aos cuidadores foram de 0,4±0,7

(p=0,02) para QL e 0,4±0,7 (p=0,05) para QT (Tabela 1). Esse valores de pnão foram considerados significativos,

pois, neste estudo, foi realizada correção de Bonferroni devido às múltiplas comparações feitas. Desta forma, foi

confirmada a estabilidade do instrumento, apesar de ter sido relatado que houve uma tendência de mudança. Para a

análise da validade da MAL-14, Van Der Lee et al. (8) realizaram uma avaliação pré-intervenção determinando a

validade de construto transversal entre a QT e a QL e entre a MAL-14 e o teste Action Research Arm (ARA), pela

Correlação de Spearman. Foram relatados resultados de r=0,95 (p=0,001) e r=0,63, (p<0,001), respectivamente. Além

disso, foi investigada a validade de construto longitudinal, também pela Correlação de Spearman,entre a diferença

das avaliações pré e pós-intervenção da MAL-14 com o teste ARA e a Global Change Rating(GCR). Não foi

reportada correlação significativa com a ARA (p=0,16 para QT e QL) nem com a GCR (p=0,20 para QT e p=0,22

para QL)

A validade convergente da MAL-14 foi investigada pelo CCI dos resultados das avaliações pré e pós-

intervenção entre a QL aplicada aos indivíduos e aos cuidadores. A subescala QL apresentou CCI=0,52 (p<0,01) nas

avaliações realizadas na pré-intervenção e CCI=0,70 (p<0,001) na comparação dos dados da última avaliação pré-

intervenção com os dados da avaliação pós-intervenção. Já a validade concorrente da subescala QL com o

acelerômetro foi avaliada pela Correlação de Pearson, tendo resultados de r=0,70 (p<0,05) para as avaliações pré-

intervenção e de r=0,91 (p<0,01) para as avaliações pós-intervenção (7). Na análise da validade convergente das

subescalas da MAL-30 aplicadas aos indivíduos e cuidadores, foi realizada Correlação de Pearsonentre as avaliações

pré-intervenção de QT e QL com o domínio da escala Stroke Impact Scale(SIS) relacionada à função da mão, e entre

QT e QL com a razão da medida do acelerômetro do MS mais afetado com o MS menos afetado (6). A validade

discriminativa entre as subescalas da MAL-30 foi avaliada pelo domínio que mede a mobilidade da escala SIS e a

medida do MS menos afetado do acelerômetro. Os resultados encontrados para a validade convergente com a SIS,

considerando a aplicação da escala nos indivíduos, foram de r=0,72 (p<0,01) para QL e de r=0,68 (p<0,01) para QT;

com o acelerômetro foi de r=0,52 (p<0,01) para QL e de r=0,47 (p<0,01) para QT. A validade discriminativa da QL e

QT com a SIS e acelerômetro foram igualmente de r=0,14 (p<0,01). Para os cuidadores, a validade convergente da

QL com a SIS foi de r=0,40 (p<0,01) e da QT de r=0,35 (p<0,01). Com o acelerômetro foi de r=0,61 (p<0,01) para

QL e de r=0,57 (p<0,01) para QT. A validade discriminativa da QL e QT com a SIS foi de r=0,07 e r=0,10,

respectivamente, valores não significativos, e com o acelerômetro de r=0,23 (p<0,001) e r=0,25 (p<0,001),

respectivamente (Tabela 1).

Discussão e conclusão (titulo/cabeçalho 1)

A discussão é a reflexão sobre os resultados e articulação com o(s) modelo(s)

teóricos e a investigação contemplados na revisão da literatura. A conclusão é a síntese


6


das principais conclusões e reflexão global sobre o significado da investigação no que

diz respeito às implicações teóricas e práticas. Resposta à pergunta de partida.

Exemplo de discussão e considerações finais

Apesar do pequeno número de estudos encontrados que investigaram as propriedades psicométricas das versões

da MAL, todas aquelas consideradas fundamentais para qualquer instrumento de avaliação (14,15) foram reportadas e

com um grau positivo de consenso entre os diferentes estudos que investigaram propriedades semelhantes (6, 7, 8).

De acordo com a literatura pesquisada, as versões da MAL apresentaram propriedades psicométricas adequadas para

a avaliação da quantidade e qualidade de uso do MS afetado em indivíduos acometidos pelo AVE. Especificamente, a

MAL-14 e a MAL-30 apresentaram-se internamente consistentes, com adequadas confiabilidade teste-reteste (6, 7,

8), estáveis (6, 7) e válidas (6, 7, 8). Além disso, a MAL-14 também apresentou-se responsiva (7, 8). A consistência

interna refere-se à dimensão com que os itens de um instrumento apresentam homogeneidade ao medir vários

aspectos de um mesmo fenômeno (14, 15). O teste estatístico comumente utilizado e mais indicado para a avaliação

da consistência interna é o á Cronbach (14,15), o qual foi utilizado em todos os dois estudos que investigaram a

consistência interna da MAL-14 e no estudo que investigou a consistência interna da MAL-30. Os valores reportados

para ambas as versões da MAL foram adequados e considerados excelentes quando a escala foi aplicada tanto aos

indivíduos quanto aos cuidadores (6, 7, 8). As versões da MAL também obtiveram adequada confiabilidade teste-

reteste para as subescalas aplicadas aos indivíduos (6, 7, 8) e aos cuidadores (6, 7). No estudo de Uswatte et al. (8), os

valores de confiabilidade das subescalas da MAL-14, apesar de significativos, foram considerados baixos pelos

autores. Entretanto, segundo Salter et al. (14), esses valores de confiabilidade podem ser considerados adequados

dependendo do desfecho que é avaliado, como aqueles relacionados à função, como verificado pela MAL. Esses

desfechos são passíveis de variações, e como dependem da respostas dos indivíduos avaliados, estão sujeitos aos

erros ao acaso, constituindo fatores que podem limitar a estabilidade entre as medidas e, assim, contribuir para uma

menor confiabilidade (14, 15). Outra questão importante de ser considerada ao analisar os resultados deste estudo está

relacionada a suas limitações metodológicas. Os dados empregados nos testes estatísticos foram referentes às

avaliações pré e pós-intervenção, o que não é indicado para avaliar a confiabilidade, pois o grande intervalo de tempo

entre as medidas e a presença de um fator que pode levar à mudança comprometem a estabilidade e,

consequentemente, a confiabilidade. Além disso, o teste estatístico utilizado foi a Correlação de Pearson, que reporta

somente o grau de correlação e não avalia a concordância (15). Se por um lado essas questões limitam conclusões

sobre a confiabilidade da MAL-14, o resultado de outro estudo que também investigou a confiabilidade teste-reteste

deste instrumento permitem que essas conclusões sejam obtidas. A confiabilidade da MAL-14 foi avaliada por

métodos considerados mais adequados, como o teste estatístico Bland and Altman, e as diferenças entre as duas

medidas pré-intervenção apontaram adequada concordância e sem tendências a erros sistemáticos. No estudo de

Uswatte et al. (6), a confiabilidade teste-reteste da MAL-30 foi adequada e com resultados excelentes quando a

mesma foi aplicada aos indivíduos. Neste estudo, o teste estatístico utilizado, o CCI, é frequententemente apontado

como mais adequado, pois avalia a concordância entre as medidas (15). Outro fator que deve ser considerado ao

analisar esses resultados é o maior número de itens da MAL-30 (15), que possivelmente pode estar relacionado com o

aumento da confiabilidade desta versão (6, 15). Outra característica importante que um instrumento deve apresentar

está relacionada à medida da mudança, quando há alteração na condição inicial do indivíduo, relacionada ao desfecho

que o instrumento avalia (14, 15). Na ausência de alteração na condição inicial do indivíduo, espera-se um

comportamento estável do instrumento, e com a variação da sua condição inicial, espera-se uma mudança paralela no

desfecho avaliado (15). Esses dois comportamentos foram observados na MAL (6, 7, 8). A estabilidade na situação


7


de ausência de mudança na condição inicial do indivíduo foi observada na MAL-14 (7) e na MAL-30 (6) pela

comparação da diferença entre as médias da pontuação inicial e final em um grupo de indivíduos que não recebeu

nenhum programa de intervenção voltado para recuperação específica da função do MS afetado (6, 7). É importante

destacar que a tendência de aumento na pontuação da MAL-30 observada no estudo de Uswatte et al. (6), a qual não

foi significativa, pode ter ocorrido pela mudança espontânea que geralmente ocorre nos indivíduos após o

acometimento pelo AVE (1), principalmente se considerarmos que havia a possibilidade de aumento do uso do MS

mais afetado após a reabilitação tradicional. Já a responsividade à mudança também foi investigada em dois estudos

que realizaram diferentes programas de intervenções voltados para a recuperação da função do MS afetado (7, 8),

porém ambos utilizaram a MAL-14. Os resultados encontrados foram satisfatórios (7, 8). A validade, propriedade que

está relacionada ao grau no qual as medidas de um instrumento refletem o que ele se intenciona a medir (14, 15),

também foi investigada. Para a avaliação da validade relacionada a critério, que é considerada a mais prática e mais

objetiva dentre os diferentes tipos de validade, espera-se que o teste, ao qual o teste alvo será comparado, seja

considerado padrão ouro (15). Além disso, para a avaliação da validade relacionada a critério do tipo concorrente, as

medidas dos dois testes devem ser tomadas relativamente no mesmo tempo (15). No caso da MAL-14, o instrumento

utilizado como critério para avaliação da sua validade concorrente foi o acelerômetro (7), que permite avaliar de

forma objetiva o uso do MS afetado no dia a dia do indivíduo e apresenta adequadas propriedades psicométricas,

porém, fornece medidas numéricas relacionadas à aceleração (16), as quais são bem diferentes das medidas

fornecidas pela MAL. Apesar disso, a correlação da QL da MAL-14 com o acelerômetro apresentou valores

adequados, pois foi utilizado o teste de Correlação de Pearson, que permite estabelecer apenas a associação entre as

medidas e não uma concordância, uma vez que as mesmas são bastante distintas (15). O outro tipo de validade

investigado para a MAL-14 e a MAL-30 foi a validade de construto, que reflete a capacidade de um instrumento em

medir um fenômeno abstrato ou um construto (15). É um processo de avaliação indicado para instrumentos como a

MAL devido as dificuldades existentes para se correlacionar testes que medem desfechos de função com testes

padrão-ouro, devido a ausência dos mesmos (15). Uma maneira de avaliar a validade de construto de um instrumento

é correlacionando as suas medidas com a de outros testes de construtos semelhantes e, também, de construtos

diferentes, determinando, assim, o que o instrumento mede bem como o que ele não mede. Isso é verificado pela

validade de construto convergente, na qual medidas relacionadas ao mesmo construto irão produzir resultados

altamente correlacionados, e pela discriminativa, na qual são observadas baixas correlações em medidas que avaliam

construtos diferentes (15). No estudo de Van Der Lee et al. (8) houve uma razoável correlação para a validade de

construto transversal da MAL-14 com a ARA e uma correlação sem significância estatística entre as mudanças da

pontuação da MAL pré e pós-intervenção com as mudanças na ARA e no GCR. Uswatte et al. (7)discutem os

resultados encontrados, visto que a MAL e a ARA avaliam construtos diferentes, sendo a ARA uma medida de

habilidade motora e a MAL de uso espontâneo do MS mais afetado nas AVD’s em domicílio. Em relação à MAL e à

GCR, ambas são escalas de percepção do indivíduo, mas a MAL avalia como e quanto os indivíduos usam seu MS

em AVD’s e a GCR avalia a percepção de melhora do seu MS, dificultando a comparação dos resultados (7). Além

disso, o uso de avaliações globais retrospectivas, como a GCR, não têm sido consideradas como válidas (17). Em um

estudo realizado por Dromerick et al. (18) para avaliar a relação entre a limitação motora e uso dos MMSS nas

AVD’s reportada pelos indivíduos com história de AVE, também foi enfatizada a diferença nos desfechos avaliados

pela MAL e a ARA. No estudo de Uswatte et al. (7) a validade convergente da subescala QL da MAL-14 aplicada

aos indivíduos foi estabelecida. A pontuação da mudança dessa escala demonstrou forte correlação e concordância

com as medidas da QL aplicada aos cuidadores. Da mesma forma foi demonstrado que as subescalas da MAL-30

aplicadas, tanto nos indivíduos com história de AVE quanto nos seus cuidadores, apresentam validade convergente e

discriminativa quando comparada com a SIS e o acelerômetro (6). Assim como o acelerômetro, a escala SIS


8


apresenta adequadas propriedades psicométricas (19), e a MAL-30 demonstrou adequada correlação com o domínio

que avalia a função da mão, ao contrário quando comparada com o domínio de mobilidade (6). Além dos resultados

positivos sobre as propriedades psicométricas da MAL e consenso observado nos três estudos incluídos nesta revisão

é importante destacar que esses resultados também foram avaliados quando o instrumento foi aplicado aos cuidadores

dos indivíduos com história de AVE (6, 7). O instrumento desenvolvido apenas para ser aplicado sob a forma de

entrevista com o indivíduo pode ter a sua aplicabilidade limitada, uma vez que indivíduos com história de AVE

podem apresentar sérios problemas cognitivos ou de comunicação (7, 13, 14). As evidências existentes sobre

adequadas propriedades psicométricas, quando as subescalas foram aplicadas aos cuidadores (6, 7), apontam para a

possibilidade do seu uso nesses casos específicos, ampliando, assim, a aplicabilidade da MAL. Além disso, Uswatte

et al. (11) reiteram a aplicabilidade da MAL para avaliar especificamente o uso espontâneo do MS afetado nas

AVD’s, o que não pode ser analisado por medidas específicas de estrutura e função do corpo e/ou medidas globais de

atividade e/ou participação. E, como apontado por vários estudos (6, 7, 8), o comprometimento motor do MS mais

afetado não implica necessariamente em alteração do seu uso nas AVD’s. Muitas vezes, a limitação do uso do MS

afetado pode estar associado a outros fatores como o “aprendizado do não uso”(11). Com base nos resultados do

presente estudo, a MAL-14 e a MAL-30 demonstraram ser instrumentos internamente consistentes, confiáveis e com

adequada validade concorrente, de construto transversal, convergente e discriminativa para avaliação do uso do MS

mais afetado nas AVD’s em indivíduos com história de AVE. Além disso, a responsividade, investigada apenas para

a MAL-14, também foi observada. Considerando o desfecho que o instrumento avalia, a importância do mesmo para

a população a qual se destina e, principalmente, para os profissionais da reabilitação, as adequadas propriedades

psicométricas já estabelecidas para a MAL e as vantagens associadas à adaptação transcultural de instrumentos, é

necessário o desenvolvimento de estudos para a adaptação transcultural para a Língua Portuguesa (Brasil), assim

como para a validação da MAL nessa população, para que a mesma possa ser utilizada nos indivíduos brasileiros.

Bibliografia (titulo/cabeçalho 1)

Lista de referências bibliográficas segundo uma ordem específica e que contem

elementos descritivos de documentos, que permitem a sua identificação. Seguir as

normas mais recentes da APA (www.apa.org). Aconselho a utilização do Mendeley

desktop

Livro:

Saliba, V. A., Penaforte, I., Júnior, C., Danielli, C., Morais, C. De, & Teixeira-salmela,

L. F. (2008). propriedades psicométricas da Motor Activity Log : uma revisão

sistemática da literatura. Fisioterapia em Movimento, 21(3), 59–67. Retrieved from

http://www2.pucpr.br/reol/index.php/RFM?dd1=2066&dd99=view

Artigo em revista/ jornal científico sem doi

http://www.apa.org/


9


Pocinho, M., Farate, C., & Dias, C. A. (2010). Validação Psicométrica da Escala UCLA-

Loneliness para Idosos Portugueses. Interações: sociedade e novas modernidades, (18), 65–77.

Artigo em revista/ jornal científico com doi

Pocinho, M. T. S., Farate, C., Dias, C. a., Lee, T. T., & Yesavage, J. a. (2009). Clinical and

Psychometric Validation of the Geriatric Depression Scale (GDS) for Portuguese Elders.

Clinical Gerontologist, 32(2), 223–236. doi:10.1080/07317110802678680

Poster em proceedings book

Ponciano, E., Pocinho, M., Moita, E., Monteiro, H., & Indmarch, I. (2006). Effects of

Fluvoxamine, Fluoxetine and Placebo on Psychomotor Performance in Healthy

Volunteers. ICPE (p. 45).

Teses em biblioteca de universidade não disponível online

Pocinho, M. T. S. (2000). Peso, insatisfação corporal, dietas e patologia alimentar: um

contributo para a sua compreensão. Dissertação de Mestrado apresentada ao Instituto

Superior Miguel Torga .

Teses em repositório

Saliba, V. A., Penaforte, I., Júnior, C., Danielli, C., Morais, C. De, & Teixeira-salmela, L. F.

(2008). propriedades psicométricas da Motor Activity Log : uma revisão sistemática da

literatura. Fisioterapia em Movimento, 21(3), 59–67. Retrieved from

http://www2.pucpr.br/reol/index.php/RFM?dd1=2066&dd99=view

Documentos em páginas web

Pocinho, Margarida. (2009). Estatistica: teoria e exercicios passo a passo. Volume I. ISMT.

Retrieved January 1, 2010, from http://docentes.ismt.pt/~m_pocinho/Sebenta_estatistica

I.pdf

http://docentes.ismt.pt/~m_pocinho/Sebenta_estatistica%20I.pdf

http://docentes.ismt.pt/~m_pocinho/Sebenta_estatistica%20I.pdf

Guião para apresentação das características psicométricas de uma escala

10

TRABALHO PRÁTICO 1. RECOLHA DE DADOS PARA VALIDAÇÃO DA ESCALA QUE ESCOLHEU E ELABORAÇÃO DE

UMA BASE DE DADOS COM OS INQUÉRITOS QUE ADMINISTROU.

2. ANÁLISE PSICOMÉTRICA

FOLHA INICIAL: IDENTIFICAÇÃO DO/A ALUNO/A

CONTEÚDO – ESTRUTURAR DE ACORDO COM OS PONTOS SEGUINTES:

1) Nível/escala de medida das variáveis:

Apresente a classificação de todas as variáveis que introduziu na base de dados, justificando o nível de

medida de cada uma delas.

2) Preparação das variáveis para as análises definitivas

Calcule com recurso ao menu transform os scores da escala

Se aplicável, recodificar as variável de acordo com os pontos de corte

3) Estatísticas descritivas

Determine as medidas de tendência central e de dispersão que considerar indicadas e interprete os

resultados

Determine correlações entre os itens e interprete os resultados

4) Análise psicométrica

Calcule a consistência interna

Calcule a consistência temporal.

Calcule a consistência inter juízes

Estude a dimensionalidade

Apresente os resultados psicométricos e interprete-os de forma adequada

Guião para apresentação das características psicométricas de uma escala

11

5) Elaboração da apresentação

Titulo

Equipa de investigação

Enquadramento

Apresentar da Escala

A escala …..

Referencial teórico e mapa do construto

Trajetória de desenvolvimento

DOMINIOS

Desenvolvimento e revisão de itens

Estrutura do e conteúdo da escala

Pré-testes, estudo-piloto e aplicação da escala …..

Propriedades psicométricas avaliadas

Validade dimensional – análise fatorial exploratória

Validade de construto – comparações de grupos extremos

e teste de associação com construtos correlacionados

Consistência interna e confiabilidade teste-reteste

Coeficiente alfa de Cronbach, r, rho ou Kappa ponderado

Resultados preliminares

Limitações

Referências

Exercícios praticos

12

Módulo prático

Utilize sua base de dados e no SPSS faça as análises que considerar necessárias à para dar resposta as perguntas que se seguem e passe a informação para esta folha:

Qual o valor de KMO da escala? ______________________________

O que significa _________________________________________________________

_____________________________________________________________________

Qual o resultado do Bartlett test e o que significa _____________________________

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

O que mostra a análise das componentes principais com rotação varimax?

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

Exercícios praticos

13

E os eigenvalues?

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

_____________________________________________________________________

Exercícios teoricos

14

1. O Psicólogo psicometrista possui, no seu âmbito de actuação e formação, características que lhe permitem manusear os testes psicológicos de acordo com alguns critérios básicos. Quais são

V F a) Um curso superior b) Fidedignidade c) Validade d) Padronização e) Médias f) Avaliação psicológica

2. A psicometria é uma metodologia Quantitativa que por sua vez é conjunto de métodos que apela para procedimentos matemáticos, mesmo no estudo dos fenómenos sociais e humanos, cujo objectivo primordial é

V F a) Estudo dos fenómenos sociais b) Estudo dos fenómenos psicológicos c) Estudo dos fenómenos humanos d) Matemática

e) Cálculo

f) Análise factorial

3. Como se chama a técnica para se reduzir o número de variáveis de uma base de dados, identificando o padrão de correlações ou de covariância entre elas e gerando um número menor de novas variáveis latentes, não observadas, calculadas a partir dos dados brutos

V F a) R de pearson b) Análise das componentes principais c) Análise factorial d) Análise de clusters


15

e) Alfa de cronbach f) Matriz anti-imagem

4. Para que serve um KMO

V F a) Para simbolizar Kaiser-Meyer-Olkin b) Medida de covariância c) Medida de fidedignidade d) Medida de adequação da análise fatorial e) Medida de adequação da amostra f) Para simbolizar Kruskal-Macnemar-Order

5. Para que serve o Bartlett test

V F a) Para saber em quantas dimensões se divide um

teste

b) É uma matriz de correlação c) Avaliar se a matriz de correlação da população

é uma matriz de identidade

d) Examinar a hipótese de que as variáveis não

estão correlacionadas na população.

e) Para avaliar a consistência temporal f) Para avaliar o tamanho da matriz

6. Numa consistência interna obteve um alfa foi 0,083. O que pode suscitar este resultado?

V F a) Consistência interna muito boa b) Consistência interna boa c) Consistência interna razoável d) Consistência interna fraca


16

e) Consistência interna inadmissível f) Consistência interna muito boa

7. Quais as fases que envolvem a construção de um teste psicológico em psicometria

V F a) Construção dos itens b) Estudo da consistência interna c) Redução dos itens d) Padronização e) Aferição f) Validação

8. Dos métodos que se seguem, quais são os psicométricos

V F a) Teste reteste b) Alfa de Cronbach c) Consistência interna d) Correlação e) Metade-metade guttman f) Kuder-Richardson

9. No estudo da dimensionalidade, que método de rotação devo utilizar quando desejo encontrar factores independentes

V F a) Promax b) rotação oblíqua c) Rotação ortogonal varimax promax


17

d) direct oblimin e) guttman f) split-half

10. Quais os passos, no SPSS, que deve utilizar para proceder a uma análise factorial

V F a) Analyse/data redution/ factor b) Pedir KMO c) Pedir o teste Barttlet d) Pedir a matriz anti-imagem e) Pedir o alfa de Cronbach f) Pedir matriz de correlações

11. Quais os passos que deve utilizar para verificar se o instrumento tem consistência interna

V F a) Analyse/ scale/ reliability b) Inversão dos itens se houver itens invertidos c) Analyse/data redution/ factor d) Pedir o teste Barttlet e) Pedir a matriz anti-imagem f) Pedir o alfa de Cronbach

12. Quais os passos que deve utilizar para verificar se o instrumento tem consistência temporal

V F


18

a) Analyse/ scale/ reliability/split-half b) Pedir a matriz anti-imagem c) Pedir o alfa de cronbach d) Analyse/ Compare means/pair sample t test e) Analyse/data redution/ factor f) Passar o teste duas vezes ao mesmo sujeito

13. Quais os passos que deve utilizar para verificar se o instrumento tem consistência interjuizes

V F a) Analyse/ scale/ reliability/split-half b) Pedir a matriz anti-imagem c) Pedir o alfa de cronbach d) Analyse/ Compare means/pair sample t test e) Analyse/data redution/ factor f) Passar o teste duas vezes ao mesmo sujeito


19

manual psicometria 2013-2014

Documents