validade e confiabilidade de testes diagnÓsticos

VALIDADE E CONFIABILIDADE

DE

TESTES DIAGNÓSTICOS

VARIAÇÃO BIOLÓGICA DAS POPULAÇÕES HUMANAS

Teste - distinção entre indivíduos com resultados normais e anormais – distribuição das características nas populações humanas.

Figura – resultados do teste de tuberculina – grande grupo com 0 mm (sem enduração) e outro em torno de 20 mm – curva bimodal.

Separação dos indivíduos:

- sem experiência anterior com tuberculose (sem enduração) – à esquerda

- com experiência anterior com a tuberculose (em torno de 20 mm) – à direita

- maioria pode ser distinguida – alguns no centro “zona cinza” que podem pertencer a qualquer uma das curvas.

Característica com distribuição bimodal – fácil separar a maioria em dois grupos – doentes e saudáveis, por exemplo.

Maioria das características – distribuição unimodal (Figura) – nenhum nível óbvio distingue os hipertensos dos normotensos.

Distribuições unimodais ou bimodais – fácil distinguir os valores extermos normais e anormais – incerteza em casos que estão na “zona cinza” nos dois tipos de curvas.

Confiabilidade (reprodutibilidade ou precisão) – consistência de resultados quando a medição ou exame se repete – exemplo: dois microscopistas lêem, independentemente um do outro, as mesmas lâminas de malária e chegam ao mesmo diagnóstico – nível máximo de confiabilidade – ambos podem estar errados.

Validade (ou acurácia) – grau em que o exame é apropriado para medir o verdadeiro valor daquilo que é medido, observado ou interpretado – exemplo: ECG é um teste de maior validade, comparado à auscultação cardíaca com estetoscópio para detecção de alterações cardiovasculares da doença de Chagas.

CONFIABILIDADE E VALIDADE

RELAÇÃO ENTRE CONFIABILIDADE E VALIDADE

valor verdadeiro

valor verdadeirovalor verdadeiro

valor verdadeiro

Acurácia

Precisão

Precisão

Precisão

Precisão

Acurácia Acurácia

Acurácia

a) Alta precisão e alta acurácia

b) Alta precisão e baixa acurácia

c) Baixa precisão e alta acurácia

d) Baixa precisão e baixa acurácia

Generalização para os testes diagnósticos:

- teste de baixa confiabilidade – baixa validade – de pouca utilidade

- teste de alta confiabilidade – não assegura alta validade – exame pode ser reproduzível (resultados idênticos ou próximos quando repetidos), mas não ser capaz de discriminar corretamente as diversas situações – todos exames podem estar errados.

Confiabilidade e validade – necessárias para avaliar a qualidade de um exame diagnóstico e a informação produzida.

CONFIABILIDADE DE UM TESTE DIAGNÓSTICO

Definição - consistência ou concordância de resultados quando a mensuração ou o exame se repete, em condições idênticas.

Fatores que contribuem para a variação entre os resultados do teste:

- variação intrasujeito (nos elementos individuais)

- variação interobservador (entre aqueles que estão lendo os resultados do teste)

VARIAÇÃO INTRASUJEITO

- valores obtidos na medição de muitas característica humanas – variam no tempo e em função das condições sob as quais os testes são conduzidos

- importante considerar as condições em que o teste foi realizado, incluindo a hora do dia.

VARIAÇÃO INTEROBSERVADOR

Variação entre observadores – dois ou mais examinadores podem não produzir os mesmos resultados.

Exemplo: pesquisa pioneira sobre diagnóstico radiológicos publicada em 1947 (Birkelo et al. 1947) – cinco radiologistas examinaram, isoladamente, centenas de radiografias para diagnóstico de tuberculose – 137 com pelo menos um diagnóstico positivo com avaliação de concordância:

- os cinco concordaram em apenas 27 radiografias, quatro em 17, três em 17 e dois em 23

- em 47 radiografias, um diagnosticou tuberculose e os outros quatro apontaram resultado negativo

- examinadas novamente por um dos radiologistas – encontrou 59 casos de tuberculose na primeira avaliação e 78 na segunda – cinco positivas passaram a ser negativas.

Discordâncias – encontradas em todas as avaliações realizadas.

Consciência do problema – nível de confiabilidade como preocupação constante dos profissionais de saúde – deve ser medido, suas conseqüências sobre os resultados das investigações devem ser avaliadas e providências devem ser tomadas para mantê-lo no mais alto grau possível.

ESTIMATIVAS DA CONFIABILIDADE

Variáveis expressas em categorias

Concordância total – exemplo: dois radiologistas foram instruídos para categorizarem radiografias em anormais, duvidosas ou normais para tuberculose (Tabela).

Radiologista 2 Radiologista 1Total

Anormal Duvidosa Normal

Anormal 33 5 14 52

Duvidosa 9 27 8 44

Normal 13 7 159 179

Total 55 39 181 275

Concordância total = (33 + 27 + 159) * 100 / 275 = 80%

Maioria das pessoas testadas possui resultados negativos – provável concordância entre observadores.

Concordância – pode ser alta apenas em função do grande número de achados negativos nos quais os observadores concordam – desconsiderar os rotulados como negativos pelos dois observadores.

Radiologista 2Radiologista 1

TotalAnormal Normal

Anormal 33 14 47

Normal 13 159 172

Total 46 173 219

Concordância total

= (33 + 159) *100 / 219 = 87%

Concordância (sem negativos para ambos)

= 33 * 100 / (33 + 13 + 14) = 55%

ESTATÍSTICA KAPPA

Se dois observadores usarem critérios completamente diferentes para denominar os sujeitos como positivos ou negativos – pode-se esperar um concordância somente devida ao acaso.

Resposta à pergunta – Em que extensão a concordância entre dois observadores excede o nível de concordância devido ao acaso?

)acaso pelo somente esperada Conc.(%100)acaso pelo somente esperada Conc.()observada Conc.(Kappa

EXEMPLO DE CÁLCULO DO KAPPA

Tabela – Classificação de 100 casos com sorologia positiva para dengue em dengue clássico ou dengue hemorrágico por dois clínicos com base na aplicação da prova do laço.

Classificação Clínico ATotal

Clínico B Clássico Hemorrágico

Clássico 50 20 70 (70%)

Hemorrágico 10 20 30 (70%)

Total 60 (60%) 40 (40%) 100 (100%)

Porcentagem de concordância entre os dois clínicos

= (50 + 20) * 100 / 100 = 70%

Questão: se os dois clínicos utilizassem critérios diferentes – quanto de concordância seria obtida somente devida ao acaso?



Clássico 70*60% = 42 70 – 42 = 28 70

Hemorrágico 30*60% = 18 30 – 18 = 12 30

Total 60 (60%) 40 (40%) 100

Porcentagem de concordância devida ao acaso

= (42 + 12) * 100 / 100= 54%

Kappa = (70% - 54%) / (100% - 54%) = 0,35



Clássico 50 (a) 20 (b) 70 (70%)

Hemorrágico 10 (c) 20 (d) 30 (70%)

Total 60 (60%) 40 (40%) 100 (100%)

Fórmula para cálculo da porcentagem de concordância devida ao acaso

%)54(54,0100

40306070)(

))(())([(22

dcba

dbdccabaPe

KAPPAInforma a proporção de concordância além da esperada pelo acaso.

A medida vale 0 quando a concordância é igual ao que seria esperado pelo acaso e 1 quando há um perfeita concordância.

Para valores intermediários Landis e Koch (1997) propuseram as seguintes interpretações:

Kappa ConcordânciaMenor que 0 Ruim

0,00 – 0,20 Fraca

0,21 – 0,40 Sofrível

0,41 – 0,60 Regular

0,61 – 0,80 Boa

0,81 – 0,99 Ótima

Fonte: Landis JR, Koch GG 1997. The measurement of observer agreement for categorical data. Biometrics 33: 159-174.

CUIDADOS NA INTERPRETAÇÃO DE KAPPA

1. Tipo de evento e outros fatores

Nível de confiabilidade

-depende do tipo de evento

- de numerosos fatores relacionados ao examinador, ao procedimento em teste e ao ambiente onde as observações são feitas.

Alterações – fazer variar a concordância entre duas mensurações.

Elevação da confiabilidade:

- definição clara do evento

- regras inequívocas de mensuração

- esquemas de classificação apropriados (todos casos com local onde ser colocado, sem ambigüidade)


2. Prevalência

Afeta o resultado – baixas prevalências associadas a baixos níveis de confiabilidade – kappa depende da concordância devida ao acaso.

É possível encontrar baixos níveis de confiabilidade devido à baixa prevalência e não a erros substanciais relacionados ao procedimento diagnóstico empregado.

Informar a prevalência junto com o nível de confiabilidade.

Comparar os resultados de testes em populações onde o evento tem a mesma prevalência.


3. Independência da avaliação

Avaliações independentes umas das outras.

Examinador ao repetir exame – deve ignorar os resultados prévios.

Em muitas situações, um exame afeta o subseqüente – exames não podem ser muito próximos:

- inquéritos recordatórios sobre consumo de alimentos em uma investigação de surto de diarréia.

- anamneses repetidas em um indivíduo sobre o mesmo assunto

ESTIMATIVAS DA CONFIABILIDADEVariáveis expressas de forma contínua

Desvio padrão

Informa sobre o nível de confiabilidade.

Quanto menor – mais próximos estão os resultados uns dos outros.

Coeficiente de variação - CV

Desvio padrão dividido pela média.

Facilita comparações – resultado não tem unidade e é expresso em porcentagem.

Quanto menor o CV melhor o nível de confiabilidade

REFERÊNCIAS CONSULTADAS

Gordis L. Epidemiologia. 2º Edição. Rio de Janeiro: Revinter, 2004.

Pereira MG. Epidemiologia. Teoria e prática. Rio de Janeiro: Guanabara Koogan, 1995.

REFERÊNCIAS CITADAS, MAS NÃO CONSULTADAS

Birkelo CC, Chamberlain WE, Phelps OS et al. Tuberculosis case finding: the effectiveness of various roentgenographic and photographic methods. Journal of the American Medical Association 1947; 133:359-366. (Pereira 1995).

validade e confiabilidade de testes diagnÓsticos

Documents