validade e confiabilidade de testes diagnÓsticos
TRANSCRIPT
VALIDADE E CONFIABILIDADE
DE
TESTES DIAGNÓSTICOS
VARIAÇÃO BIOLÓGICA DAS POPULAÇÕES HUMANAS
Teste - distinção entre indivíduos com resultados normais e anormais – distribuição das características nas populações humanas.
Figura – resultados do teste de tuberculina – grande grupo com 0 mm (sem enduração) e outro em torno de 20 mm – curva bimodal.
Separação dos indivíduos:
- sem experiência anterior com tuberculose (sem enduração) – à esquerda
- com experiência anterior com a tuberculose (em torno de 20 mm) – à direita
- maioria pode ser distinguida – alguns no centro “zona cinza” que podem pertencer a qualquer uma das curvas.
Característica com distribuição bimodal – fácil separar a maioria em dois grupos – doentes e saudáveis, por exemplo.
Maioria das características – distribuição unimodal (Figura) – nenhum nível óbvio distingue os hipertensos dos normotensos.
Distribuições unimodais ou bimodais – fácil distinguir os valores extermos normais e anormais – incerteza em casos que estão na “zona cinza” nos dois tipos de curvas.
Confiabilidade (reprodutibilidade ou precisão) – consistência de resultados quando a medição ou exame se repete – exemplo: dois microscopistas lêem, independentemente um do outro, as mesmas lâminas de malária e chegam ao mesmo diagnóstico – nível máximo de confiabilidade – ambos podem estar errados.
Validade (ou acurácia) – grau em que o exame é apropriado para medir o verdadeiro valor daquilo que é medido, observado ou interpretado – exemplo: ECG é um teste de maior validade, comparado à auscultação cardíaca com estetoscópio para detecção de alterações cardiovasculares da doença de Chagas.
CONFIABILIDADE E VALIDADE
RELAÇÃO ENTRE CONFIABILIDADE E VALIDADE
valor verdadeiro
valor verdadeirovalor verdadeiro
valor verdadeiro
Acurácia
Precisão
Precisão
Precisão
Precisão
Acurácia Acurácia
Acurácia
a) Alta precisão e alta acurácia
b) Alta precisão e baixa acurácia
c) Baixa precisão e alta acurácia
d) Baixa precisão e baixa acurácia
Generalização para os testes diagnósticos:
- teste de baixa confiabilidade – baixa validade – de pouca utilidade
- teste de alta confiabilidade – não assegura alta validade – exame pode ser reproduzível (resultados idênticos ou próximos quando repetidos), mas não ser capaz de discriminar corretamente as diversas situações – todos exames podem estar errados.
Confiabilidade e validade – necessárias para avaliar a qualidade de um exame diagnóstico e a informação produzida.
CONFIABILIDADE DE UM TESTE DIAGNÓSTICO
Definição - consistência ou concordância de resultados quando a mensuração ou o exame se repete, em condições idênticas.
Fatores que contribuem para a variação entre os resultados do teste:
- variação intrasujeito (nos elementos individuais)
- variação interobservador (entre aqueles que estão lendo os resultados do teste)
VARIAÇÃO INTRASUJEITO
- valores obtidos na medição de muitas característica humanas – variam no tempo e em função das condições sob as quais os testes são conduzidos
- importante considerar as condições em que o teste foi realizado, incluindo a hora do dia.
VARIAÇÃO INTEROBSERVADOR
Variação entre observadores – dois ou mais examinadores podem não produzir os mesmos resultados.
Exemplo: pesquisa pioneira sobre diagnóstico radiológicos publicada em 1947 (Birkelo et al. 1947) – cinco radiologistas examinaram, isoladamente, centenas de radiografias para diagnóstico de tuberculose – 137 com pelo menos um diagnóstico positivo com avaliação de concordância:
- os cinco concordaram em apenas 27 radiografias, quatro em 17, três em 17 e dois em 23
- em 47 radiografias, um diagnosticou tuberculose e os outros quatro apontaram resultado negativo
- examinadas novamente por um dos radiologistas – encontrou 59 casos de tuberculose na primeira avaliação e 78 na segunda – cinco positivas passaram a ser negativas.
Discordâncias – encontradas em todas as avaliações realizadas.
Consciência do problema – nível de confiabilidade como preocupação constante dos profissionais de saúde – deve ser medido, suas conseqüências sobre os resultados das investigações devem ser avaliadas e providências devem ser tomadas para mantê-lo no mais alto grau possível.
ESTIMATIVAS DA CONFIABILIDADE
Variáveis expressas em categorias
Concordância total – exemplo: dois radiologistas foram instruídos para categorizarem radiografias em anormais, duvidosas ou normais para tuberculose (Tabela).
Radiologista 2 Radiologista 1Total
Anormal Duvidosa Normal
Anormal 33 5 14 52
Duvidosa 9 27 8 44
Normal 13 7 159 179
Total 55 39 181 275
Concordância total = (33 + 27 + 159) * 100 / 275 = 80%
Maioria das pessoas testadas possui resultados negativos – provável concordância entre observadores.
Concordância – pode ser alta apenas em função do grande número de achados negativos nos quais os observadores concordam – desconsiderar os rotulados como negativos pelos dois observadores.
Radiologista 2Radiologista 1
TotalAnormal Normal
Anormal 33 14 47
Normal 13 159 172
Total 46 173 219
Concordância total
= (33 + 159) *100 / 219 = 87%
Concordância (sem negativos para ambos)
= 33 * 100 / (33 + 13 + 14) = 55%
ESTATÍSTICA KAPPA
Se dois observadores usarem critérios completamente diferentes para denominar os sujeitos como positivos ou negativos – pode-se esperar um concordância somente devida ao acaso.
Resposta à pergunta – Em que extensão a concordância entre dois observadores excede o nível de concordância devido ao acaso?
)acaso pelo somente esperada Conc.(%100)acaso pelo somente esperada Conc.()observada Conc.(Kappa
EXEMPLO DE CÁLCULO DO KAPPA
Tabela – Classificação de 100 casos com sorologia positiva para dengue em dengue clássico ou dengue hemorrágico por dois clínicos com base na aplicação da prova do laço.
Classificação Clínico ATotal
Clínico B Clássico Hemorrágico
Clássico 50 20 70 (70%)
Hemorrágico 10 20 30 (70%)
Total 60 (60%) 40 (40%) 100 (100%)
Porcentagem de concordância entre os dois clínicos
= (50 + 20) * 100 / 100 = 70%
Questão: se os dois clínicos utilizassem critérios diferentes – quanto de concordância seria obtida somente devida ao acaso?
Classificação Clínico ATotal
Clínico B Clássico Hemorrágico
Clássico 70*60% = 42 70 – 42 = 28 70
Hemorrágico 30*60% = 18 30 – 18 = 12 30
Total 60 (60%) 40 (40%) 100
Porcentagem de concordância devida ao acaso
= (42 + 12) * 100 / 100= 54%
Kappa = (70% - 54%) / (100% - 54%) = 0,35
Classificação Clínico ATotal
Clínico B Clássico Hemorrágico
Clássico 50 (a) 20 (b) 70 (70%)
Hemorrágico 10 (c) 20 (d) 30 (70%)
Total 60 (60%) 40 (40%) 100 (100%)
Fórmula para cálculo da porcentagem de concordância devida ao acaso
%)54(54,0100
40306070)(
))(())([(22
dcba
dbdccabaPe
KAPPAInforma a proporção de concordância além da esperada pelo acaso.
A medida vale 0 quando a concordância é igual ao que seria esperado pelo acaso e 1 quando há um perfeita concordância.
Para valores intermediários Landis e Koch (1997) propuseram as seguintes interpretações:
Kappa ConcordânciaMenor que 0 Ruim
0,00 – 0,20 Fraca
0,21 – 0,40 Sofrível
0,41 – 0,60 Regular
0,61 – 0,80 Boa
0,81 – 0,99 Ótima
Fonte: Landis JR, Koch GG 1997. The measurement of observer agreement for categorical data. Biometrics 33: 159-174.
CUIDADOS NA INTERPRETAÇÃO DE KAPPA
1. Tipo de evento e outros fatores
Nível de confiabilidade
-depende do tipo de evento
- de numerosos fatores relacionados ao examinador, ao procedimento em teste e ao ambiente onde as observações são feitas.
Alterações – fazer variar a concordância entre duas mensurações.
Elevação da confiabilidade:
- definição clara do evento
- regras inequívocas de mensuração
- esquemas de classificação apropriados (todos casos com local onde ser colocado, sem ambigüidade)
CUIDADOS NA INTERPRETAÇÃO DE KAPPA
2. Prevalência
Afeta o resultado – baixas prevalências associadas a baixos níveis de confiabilidade – kappa depende da concordância devida ao acaso.
É possível encontrar baixos níveis de confiabilidade devido à baixa prevalência e não a erros substanciais relacionados ao procedimento diagnóstico empregado.
Informar a prevalência junto com o nível de confiabilidade.
Comparar os resultados de testes em populações onde o evento tem a mesma prevalência.
CUIDADOS NA INTERPRETAÇÃO DE KAPPA
3. Independência da avaliação
Avaliações independentes umas das outras.
Examinador ao repetir exame – deve ignorar os resultados prévios.
Em muitas situações, um exame afeta o subseqüente – exames não podem ser muito próximos:
- inquéritos recordatórios sobre consumo de alimentos em uma investigação de surto de diarréia.
- anamneses repetidas em um indivíduo sobre o mesmo assunto
ESTIMATIVAS DA CONFIABILIDADEVariáveis expressas de forma contínua
Desvio padrão
Informa sobre o nível de confiabilidade.
Quanto menor – mais próximos estão os resultados uns dos outros.
Coeficiente de variação - CV
Desvio padrão dividido pela média.
Facilita comparações – resultado não tem unidade e é expresso em porcentagem.
Quanto menor o CV melhor o nível de confiabilidade
REFERÊNCIAS CONSULTADAS
Gordis L. Epidemiologia. 2º Edição. Rio de Janeiro: Revinter, 2004.
Pereira MG. Epidemiologia. Teoria e prática. Rio de Janeiro: Guanabara Koogan, 1995.
REFERÊNCIAS CITADAS, MAS NÃO CONSULTADAS
Birkelo CC, Chamberlain WE, Phelps OS et al. Tuberculosis case finding: the effectiveness of various roentgenographic and photographic methods. Journal of the American Medical Association 1947; 133:359-366. (Pereira 1995).