… il processo diagnostico è un processo imperfetto...

1

… Il processo diagnostico è un

processo imperfetto che conduce ad una

probabilità di malattia, piuttosto che

alla certezza ...

(F. di Orio - Elementi di Metodologia Epidemiologica Clinica - Piccin, 1994)

2

Epidemiologia

Misure

3

Validità di un test diagnostico

La validità di un test diagnostico è una misura relativa

Questa è calcolata attraverso il confronto tra il test in esame,

definito index test, ed un altro test di comprovata validità

Il test di comprovata validità è definito Reference Standard

La scelta del Reference Standard è uno dei principali problemi

metodologici in materia di test diagnostici

4

Test diagnostico

Affidabilità

Riproducibilità Validità

Concordanza

Sensibilità

Specificità

Valore Predittivo Positivo

Valore Predittivo Negativo

5

Valutare la performance complessiva di un test

Curva ROC (Receiver Operating Characteristic curve)

- Per ogni valore di cut-off studiato, si riportano su un piano

cartesiano i valori di sensibilità (ordinate) e il tasso di falsi

positivi, cioè 1-specificità, del test (ascisse).

- Si ottiene la valutazione grafica e matematica della performance

complessiva del test e del cut-off che fornisce il risultato migliore

e/o più appropriato alla situazione clinica specifica

6

5% 10% 15% 20% 25%..........

1-specificità

sen

sib

ilit

à

100%

80%

60%

40%

20%

- ≥ 50 ng/mL

- ≥ 75 ng/mL

- ≥ 100 ng/mL

-≥ 125 ng/mL

- ≥ 150 ng/mL

Sensibilità e Specificità del test per la ricerca del sangue occulto nelle

feci (FOBT), ai fini dell’identificazione di ca colorettaleLevi Z. et al., Ann Intern Med, 2007

7

0.0

00.2

50.5

00.7

51.0

0

Sensiti

vity

0.00 0.25 0.50 0.75 1.001 - Specificity

Area under RO C curve = 0.8926

Sensibil ità e Spec ifici tà per differenti cut off

Sangue Occulto nelle Feci (Emog lo bina Umana) e Ca del Colon

Curva ROC

8

Valutare la performance complessiva di più test

Curva ROC (Receiver Operating Characteristic curve)

- Il confronto delle curve ROC di più test consente la valutazione

comparativa, grafica e matematica, di due o più test.

-Il test che identifica l’area maggiore al di sotto della propria curva,

offre la migliore performance.

- Un’area di ampiezza maggiore non significa migliori performance

per ogni valore di cut-off

9

Levi Z. et al., Ann Intern Med, 2007

10

Confrontare le performance di due test – Curva ROC

0.00

0.25

0.5

00.

75

1.00

Sensiti

vity

0.00 0.25 0.50 0.75 1.001-Specif icity

FOBT ROC area: 0.8926 Guaiaco ROC area: 0.6889

Re ference

Sangue Occulto nel le Feci (Emoglobina Umana vs. Guaiaco)

11

Rapporti di Verosimiglianza

(Likelihood Ratio - LR)

- Sono misure sintetiche di performance che offrono l’opportunità

di classificare il test con un indice che tiene conto

contemporaneamente di sensibilità e specificità

- E’ calcolabile un LR positivo (+) e negativo (-)

- Alti valori del LR + e bassi valori del LR – indicano buone

performance, cioè buoni rapporti tra sensibilità e specificità del

test

- La misura di LR maschera il contributo separato che sensibilità e

specificità del test hanno fornito per il raggiungimento del suo

valore.

12

Rapporti di Verosimiglianza

(Likelihood Ratio - LR)

LR +Probabilità di ottenere un risultato positivo in un malato,

rispetto alla probabilità di ottenere lo stesso risultato in un

soggetto sano

LR -Probabilità di ottenere un risultato negativo in un malato,

rispetto alla probabilità di ottenere lo stesso risultato in un

soggetto sano

LR + = Sensibilità / 1 - Specificità

LR - = 1 - Sensibilità / Specificità

Si tratta del rapporto tra l’incidenza di risultati positivi (nei

malati rispetto ai non malati), o negativi.

13

Buona specificità, il test è utile per confermare la

malattia quando il risultato è positivo

LR+ �� = test SpIn

Buona sensibilità, il test è utile per escludere la

malattia quando il risultato è negativo

LR- �� = test SnOut

14

LR, prevalenza di malattia e probabilità post test

Esiste una correlazione tra:

- prevalenza della malattia nella popolazione sottoposta al test

- LR del test (per uno specifico valore di cut-off)

- predittività del test (es. probabilità di malattia in caso di risultato

positivo o negativo)

L’algoritmo che lega questa tre grandezze è graficamente

rappresentato dal nomogramma di Fagan

Prevalenza = 60%

Probabilità Post test (se

positivo) = 96.8%

Probabilità post test (se

negativo) = 4.7%

Ossimetria per la diagnosi di OSA

SE = 90/210 = 42.8%;

Sp = 139/139 = 97.8%

LR + = SE / 1-Sp = 19.45

LR - = 1-SE / Sp = 0.58

Prevalenza = 6%

Probabilità Post test (se

positivo) = 56.2%

Probabilità post test (se

negativo) = 3.6%

Prevalenza OSA territorio Prevalenza OSA Ospedale III liv

17

Ospedale

Territorio

Test positivo

OSA by

PSG

Y N Tot

Oxim + 9 7 16

- 12 321 333

Tot 21 328 349

OSA by

PSG

Y N Tot

Oxim + 90 3 93

- 120 136 256

Tot 210 139 349

18

LR=1, indica uguali valori di sensibilità (veri positivi) e falsi

positivi, cioè somiglia alla probabilità di identificare

correttamente la condizione, pari a quella ottenibile con il lancio

di una moneta

20% 40% 60% 80% 100%

1-specificità

100%

80%

60%

40%

20%

sensi

bil

ità

21

Come migliorare Sensibilità e Specificità

Uso di test multipli

Test in serie Test in parallelo

Migliorare la Sensibilità. Test in parallelo

operatore logico OR

Widjaja E, FDG-PET and magnetoencephalography in presurgical workup of children with localization-related nonlesional epilepsy, Epilepsia, 2013

Valutare la validità di FDG-PET e MEG per la localizzazione lobare in

pazienti con epilessia non lesionale ed esito chirurgico Engel I

… for FDG-PET/MEG, if the results of one or both of the tests

were concordant, the tests were considered as concordant….

SE Sp PPV NPV

MEG 85.0%

(61.1-96.0)

99.1%

(94.2-99.9)

94.4%

(70.6-99.7)

97.3%

91.6-99.3)

FDG-PET 65.0%

(40.9-83.7)

94.4%

(87.8-97.7)

68.4%

(43.5-86.4)

93.6%

(86.8-97.2)

FDG-PET/MEG 95.0% ↑

(73.1-99.7)

93.5% ↓

(86.6-97.1)

73.1% ↓

(51.9-87.6)

99.0% ↑

(93.9-99.9)

Test 1 OR Test 2

Test 2

+ -

Test 1

+ pos pos

- pos neg

Migliorare la Specificità. Test in serie

operatore logico AND

Widjaja E, FDG-PET and magnetoencephalography in presurgical workup of children with localization-related nonlesional epilepsy, Epilepsia, 2013



… the combined FDG-PET+MEG was considered concordant if

both tests were concordant…

SE Sp PPV NPV

MEG 85.0%

(61.1-96.0)

99.1%

(94.2-99.9)

94.4%

(70.6-99.7)

97.3%

91.6-99.3)

FDG-PET 65.0%

(40.9-83.7)

94.4%

(87.8-97.7)

68.4%

(43.5-86.4)

93.6%

(86.8-97.2)

FDG-PET+MEG 55.0% ↓

(32.0-76.2)

100.0% ↑

(95.7-100)

100% ↑

(67.9-100)

92.3% ↓

(85.5-96.2)

Test 1 AND Test 2

Test 2

+ -

Test 1

+ pos neg

- neg neg

26

Migliorare i Valori Predittivi

A parità di Prevalenza:

- Aumentiamo la Specificità per aumentare i VPP

- Aumentiamo la Sensibilità per aumentare i VPN

A parità di Sensibilità e Specificità:

- Aumentiamo la Prevalenza per aumentare i VPP

27

Percorsi diagnostici

28

Epidemiologia delle demenze

La prevalenza di demenza in soggetti di età > 64 anni è

pari al 4 %

Test cognitivi brevi (MMSE) dotati di sensibilità pari al

70% e specificità pari al 75%, (diagnosi di sindrome

demenziale)

Ferri CP, Lancet 2005, Feldman HH, CMAJ 2008, Tombaugh TN, J Am Geriatr Soc 1992

29

Sindrome demenziale

Si No Totale

MMSE

< 25 2800 (VP) 24000 (FP) 26800

≥ 25 1200 (FN) 72000 (VN) 73200

Totale 4000 96000 100000

Diagnosi di demenza in popolazione di età > 64 anni

Probabilità pre-test di sindrome demenziale = 4 %

LR + = Se / 1-Sp = 0.7 / 0.25 = 2.8

Probabilità post test (se positivo) = 2800 / 26800 = 10.4 %

LR+ �� = test SpIn

30

Il 5 % circa delle demenze non è di origine degenerativa, ma è

invece attribuibile a neoplasie, idrocefalo normoteso e ematomi

subdurali, che è opportuno escludere, dal momento che

necessitano di interventi terapeutici e atteggiamenti clinici

completamente diversi da quelli richiesti da altri tipi di

demenza.

TC e MRI sono dotati di Sensibilità pari al 95 % e Specificità

pari al 90 % per l’identificazione di tali lesioni.

31

Lesioni focali

Si No Totale

MRI - TC

lesioni focali 1273 2546 3819

non lesioni focali 67 22914 22981

Totale 1340 25460 26800

Probabilità pre-test di lesioni focali = 5 %

LR - = 1-Se / Sp = 0.05 / 0.9 = 0.055

Probabilità post-test (se negativo) = 67 / 22981 = 0.3 %

LR- �� = test SnOut

32

Epidemiologia clinica

Gli studi epidemiologici

33

Studi diagnostici

- Studi di correlazione

Indagano la correlazione tra un parametro di malattia e un altro

parametro di cui si intende studiare l’utilizzabilità in ambito clinico

- Studi di accuratezza diagnostica

Si tratta di studi in cui è sottoposto a valutazione un test diagnostico

(o più di uno), al fine di verificarne la capacità di identificare

correttamente una determinata condizione o malattia

Studi efficacia diagnostica

-Si tratta di studi in cui è verificata l’efficacia di un determinato

procedimento diagnostico nel modificare favorevolmente la

prognosi di una determinata condizione o malattia

34

Gli studi di efficacia diagnostica sono disegnati come RCT, dal

momento che il procedimento diagnostico è considerato quale

intervento e un determinato outcome di malattia è considerato quale

esito.

Negli studi di efficacia diagnostica il complesso diagnosi-terapia è

trattato come un’unica entità, della quale si cerca di studiare

l’efficacia.

L’efficacia dimostrata riguarda, quindi, il complesso diagnosi-

terapia.

Non è possibile separare la diagnosi dalla terapia e tentare di inferire

l’efficacia di una delle due componenti, una volta dimostrata

l’efficacia del complesso.

36

Comparative effectiveness of MRI in breast cancer trial: a

randomised controlled trial. Lancet 2010

1625 soggetti candidati all’intervento di

resezione chirurgica locale di ca mammario

817 assegnati alla valutazione pre-

chirurgica con MRI + tripla valutazione

clinica, radiologica (mx e eco) e

citologica

808 assegnati alla valutazione pre-

chirurgica con tripla valutazione

clinica, radiologica (mx e eco) e

citologica

816 soggetti analizzati 807 soggetti analizzati

Proporzione di re-interventi, di successive mastectomie e di

mastectomie iniziali non appropriate

37

-Donne di età > 18, con diagnosi di carcinoma mammario confermata da biopsia,

candidate ad interventi di ampia escissione locale dopo tripla valutazione.

-Randomizzazione con minimizzazione per età (< > 50 anni), densità del tessuto

mammario (classi ACR-BI-RADS), consulente chirurgo.

-Mx, Eco e MRI somministrate in modo standardizzato.

-Il braccio no-MRI fu avviato a intervento così come pianificato.

-Il braccio MRI fu rivalutato e eventuali disaccordi con la precedente tripla

valutazione furono risolti con team multidisciplinare e l’intervento fu pianificato

secondo appropriatezza. Lo studio dei margini di escissione fu condotto secondo

direttive del chirurgo, decise prima dell’arruolamento. I reperti MRI furono

rivalutati da un esperto in cieco che assicurò la omogeneità di esecuzione e lettura

tra i centri.

-Rivalutazioni a 6 mesi del tasso di re-interventi (escissioni locali o mastectomie).

-Rivalutazioni a 12 mesi delle mastectomie evitabili a causa di reperti MRI

falsamente positivi (lesioni falsamente multifocali, lesioni di dimensioni

sovrastimate).

38

La MRI ri-classifica casi di ca mammario già candidati

all’escissione locale ampia, nell’ipotesi di una più precisa

definizione di malattia.

Gli extra casi identificati dalla MRI come candidati alla

mastectomia potrebbero rappresentare una parte dello spettro di

malattia con diversa responsività alle terapie.

E’ pertanto necessario testare l’accuratezza della MRI in

associazione all’effetto delle terapie.

40

Se il nuovo test ha una migliore specificità, in assenza di altre

controindicazioni (es. sicurezza, costi, invasività, ecc), è ragionevole usare

il nuovo test senza necessità di ulteriori valutazioni del complesso

diagnosi-terapia.

Se il nuovo test ha una migliore sensibilità è necessario verificare la

risposta alla terapia dei casi diagnosticati dal nuovo test.

E’ possibile che i casi diagnosticati dal nuovo test (e non identificati dal

vecchio test) siano in possesso di caratteristiche cliniche che li rendono

meno (o più) sensibili alla terapia.

A questo punto è necessario verificare la sensibilità di tali casi al

trattamento in vari modi (valutazione dei dati del RCT di origine,

valutazione caratteristiche cliniche degli extra casi, ecc).

In assenza di risultati conclusivi è necessario ri-testare il complesso

diagnosi-terapia (nuovo RCT)

Disponibilità di un nuovo test

42

Gli studi di accuratezza diagnostica sono disegnati come studi

cross-sectional (di prevalenza) e si basano sul confronto tra un test

(index test) che si intende studiare e un altro test (reference

standard) che si assume classifichi correttamente la condizione o

malattia di interesse.

Luogo e modalità di arruolamento dei pazienti sono essenziali,

dal momento che condizionano la prevalenza e lo spettro di

malattia nello studio e quindi la performance del test.

Tempi e modalità di somministrazione dei test (index e reference)

possono introdurre distorsioni nella valutazione di accuratezza.

Gli studi di accuratezza diagnostica consentono il calcolo di Se, Sp,

VPP, VPN.

43

A Quantitative Immunochemical Fecal Occult Blood Test for

Colorectal Neoplasia, Ann Intern Med. 2007;146:244-255.

1000 pazienti consecutivi

I-FOBT (index test)

Colonscopia (reference test)

Sensibilità, Specificità, Valore Predittivo Positivo, Valore

Predittivo Negativo, per diversi livelli di emoglobina fecale

44

Sono arruolati 1000 pazienti consecutivi afferenti al centro di

endoscopia perché sintomatici o ad alto rischio di ca colorettale.

A ciascun paziente è somministrato il test per la ricerca del sangue

occulto nelle feci (FOBT in tre somministrazioni con uso del

valore più elevato) e viene effettuata una colonscopia (le 56

colonscopie incomplete sono escluse dallo studio)

In caso di reperimento di neoformazioni colorettali viene

effettuata una biopsia o rimozione e il polipo viene classificato

per dimensioni, tipologia e displasia (patologi in cieco rispetto

all’esito del FOBT). Sono definite le neoplasie clinicamente

significative (cancro e adenomi ad alto grado di displasia).

45

Utilizzando un cut off di 100 ng/ml il LR + risulta pari a 8.59

consentendo, in caso di test positivo, un “aumento” di

informazione significativo.

-Probabilità pre-test = 1.7 %

-LR + = 8.59

-Probabilità post test = 12.9 %

A parità di tutte le altre condizioni, una prevalenza (probabilità

pre-test) di 1.5 /1000 (qual è quella della popolazione generale),

consentirebbe un guadagno di informazione diverso.

-Probabilità pre-test = 0.15 %

-LR + = 8.59

-Probabilità post-test = 1.28 %

46

Popolazione

afferente al

centro di

endoscopia

Popolazione

generale

47

La prevalenza della popolazione afferente al centro di endoscopia

condiziona i valori predittivi e, in ultima analisi, la performance

del test.

Si tratta, in ogni caso, di una prevalenza “reale”, è, come tale,

utilizzabile nella clinica.

Il disegno di studio cross-sectional, consente il calcolo di Se, Sp,

VPP, VPN.

48

Gli studi di accuratezza diagnostica beneficiano talvolta di un

approccio del tipo caso-controllo.

In questo caso il disegno prevede la selezione di un gruppo di

“malati” e di un gruppo di “non malati”.

I malati e i non malati sono classificati in base ai risultati di un

test assunto quale reference standard.

I due gruppi sono confrontati relativamente ai risultati di un

determinato test di cui si vuole studiare la performance (index

test).

49

Studi di accuratezza diagnostica

popolazione

campione

index testreference

standard

Sensibilità, Specificità,

VPP, VPN

Malati

(reference standard

positivo)

non Malati

(reference standard

negativo)

index test

(recupero informazioni test in studio, oppure

somministrazione dopo l’arruolamento)

Sensibilità, Specificità

(VPP e VPN ?)

prospettico retrospettivo

50

prospettico vs. retrospettivo

Negli studi prospettici pazienti sospettati di essere portatori della

condizione di interesse sono arruolati e poi sottoposti all’index

test e al reference standard.

Negli studi retrospettivi sono ricercati i risultati dei test cui sono

stati, in passato, sottoposti pazienti portatori e non portatori della

condizione di interesse.

Negli studi retrospettivi non è possibile calcolare valori predittivi

“reali”, dal momento che la prevalenza è “decisa” dallo

sperimentatore

51

Kodama N et al., Diagnosis of Alzheimer-type dementia:

measurement of hippocampal and ventricular areas in MR

images, Magn Reson Med Sci 2002: 1(1):14-20

-Diagnosi di demenza attraverso la misurazione di atrofia

cerebrale e ippocampale in MRI volumetrica

-73 soggetti arruolati: 22 controlli non malati; 51 probable AD

-Index test = MRI

-Reference standard = diagnosi clinica criteri NINCS-ADRDA

-Sensibilità=90.2%; Specificità=81.8%

-Prevalenza =51/73=69.9%

52

Strumenti

Valutazione di qualità degli studi diagnostici

53

La valutazione di qualità degli studi diagnostici si giova di diversi

strumenti, in gran parte mutuati da una checklist realizzata da un

gruppo di ricercatori con metodo Delphi.

The development of QUADAS: a tool for the quality

assessment of studies of diagnostic accuracy included in

systematic reviews

Penny Whiting*1, Anne WS Rutjes2, Johannes B Reitsma2,

Patrick MM Bossuyt2 and Jos Kleijnen1,

BMC Medical Research Methodology 2003, 3:25

Si tratta di 14 items che indagano le dimensioni della qualità di

uno studio diagnostico ritenute importanti dal gruppo di lavoro e

selezionate a seguito di procedure reiterate di consenso.

54

The QUADAS tool

55

Was the spectrum of patients representative of the patients

who will receive the test in practice ?

-Si riferisce al rischio di spectrum bias

- Attiene ai problemi di generalizzabilità che si pongono

quando i pazienti inclusi nello studio sono diversi da quelli

della pratica clinica all’interno della quale si vuole utilizzare

il test

- La diversità riguarda le caratteristiche demografiche,

cliniche e la gravità di malattia

- Le stime di accuratezza diagnostica ottenute con una

popolazione possono essere non confermate in popolazioni

con malattia meno grave (es. pazienti ospedalizzati vs.

pazienti non ospedalizzati)

56

Su 137 pazienti con AD (confermata mediante osservazione

clinica dopo due anni di follow-up) e 178 pazienti affetti da

altri tipi di demenza, è testata la performance di SPECT

transaxial vs. 3D-SSP SPECT

Uchida Y. Diagnosis of Dementia Using Perfusion SPECT

Imaging at the Patient’s Initial Visit to a Cognitive Disorder

Clinic Clin Nucl Med 2006;31(12):764-73

Transaxial 3D-SSP p

Severe dementia 0.75 0.90 0.002

Mild dementia 0.64 0.88 0.001

La perfomance è sempre migliore nei pazienti più gravi

57

Were selection criteria clearly described ?

-Si riferisce alla esplicita e chiara definizione dei criteri di

inclusione e esclusione dei partecipanti allo studio

- La chiarezza dei criteri di inclusione aiuta a contestualizzare

i risultati e a risolvere i problemi di generalizzabilità

58

Is the reference standard likely to correctly classify the target

condition ?

-E’ un punto cruciale per la qualità dello studio diagnostico,

poiché si assume che il reference standard abbia sensibilità e

specificità pari al 100%.

- Le valutazioni di accuratezza diagnostica dell’index test si

fondano sulla validità del reference test

- L’index test non può mai ambire al confronto con il

reference test, cioè non è possibile conoscere il contributo

aggiuntivo che l’index fornisce rispetto al reference in

materia di accuratezza diagnostica

59

Uchida Y. Diagnosis of Dementia Using Perfusion SPECT

Imaging at the Patient’s Initial Visit to a Cognitive Disorder

Clinic Clin Nucl Med 2006;31(12):764-73

Il reference test clinico non consente di stabilire il contributo

fornito dalla SPECT alla diagnosi, in aggiunta alla valutazione

clinica

Su 137 pazienti con AD (confermata mediante osservazione

clinica dopo due anni di follow-up) e 178 pazienti affetti da

altri tipi di demenza, è testata la performance di SPECT

transaxial vs. 3D-SSP SPECT

60

Is the time period between reference standard and index test

short enough to be reasonably sure that the target condition

did not change between the two test ?

- Si riferisce al rischio di disease progression bias

- Idealmente i due test (index e reference) dovrebbero essere

somministrati in tempi ravvicinati

- In assenza di tale requisito è possibile che lo stato di salute

del soggetto muti (da malattia a guarigione, da malattia

meno grave a malattia più grave) con conseguente

distorsione delle stime di accuratezza diagnostica

- Il bias che ne consegue è frequente negli studi di

accuratezza diagnostica riferiti a malattie croniche che si

basano sul follow up per ottenere la conferma diagnostica

61

Si tratta di uno studio retrospettivo che utilizza la diagnosi

autoptica come reference standard

Si basa su 46 pazienti (31 con AD)

Valuta il contributo della FDG-PET alla diagnosi differenziale

tra AD e FTD

63

Did the whole sample or a random selection of the sample,

receive verification using a reference standard ?

- Si riferisce al rischio di partial verification bias, o work-

up bias, o selection bias, o sequential ordering bias

- Quando non tutti i pazienti ricevono una conferma

diagnostica con il reference standard, si pone il problema del

verification bias

- I pazienti testati con il reference dovrebbe essere selezionati

in modo random

- …e comunque la selezione non dovrebbe essere influenzata

dal risultato dell’index test

64

Did patients receive the same reference standard regardless of the

index test result ?

- Si riferisce al rischio di differential verification bias

- Si verifica quando alcuni risultati dell’index test sono

confermati da un reference standard diverso da quello adottato

per altri risultati dell’index test

- E’ tipico di studi in cui soltanto i positivi all’index test sono

sottoposti a conferme diagnostiche con esami più invasivi (es.

biopsia).

- E’ una variante (meno grave) del partial verification bias

65

Was the reference standard independent of the index test (i.e. the

index test did not form part of the reference standard) ?

- Si riferisce al rischio di incorporation bias

- Si verifica quando il test index è parte del reference standard,

cioè quando il risultato dell’index test è usato per ottenere la

conferma diagnostica

- Tende ad aumentare l’accordo tra index e reference e quindi a

sovrastimare l’accuratezza diagnostica

- L’assenza di cecità tra risultato dell’index e del reference test

non è sinonimo di incorporation bias

66

Was the execution of the index test described in sufficient detail to

permit replication of the test ?

Was the execution of the reference standard described in

sufficient detail to permit replication of the test ?

- Conoscere le modalità di somministrazione dei due test aiuta a

comprendere criticamente i risultati e a implementare l’uso del

nuovo test nella pratica clinica

67

Were the index test results interpreted without knowledge of the

results of the reference standard ?

Were the reference standard results interpreted without knowledge

of the results of the reference standard ?

- E’ l’equivalente della cecità negli studi interventistici e si

riferisce al review bias

- La distorsione potenziale delle stime di accuratezza è

proporzionale al grado di soggettività che affligge la lettura dei

test

68

Were the same clinical data available when test results were

interpreted as would be available when the test is used in practice ?

- Si riferisce all’influenza esercitata dalla conoscenza di notizie

cliniche, anamnestiche, ecc., sulla interpretazione del risultato del

test

- I risultati dello studio possono essere influenzati nella misura in

cui la lettura del risultato del test è soggetta a interpretazione

- La performance stimata nello studio può non essere riprodotta

nella pratica clinica, se le conoscenze disponibili non sono le

stesse.

69

Were uninterpretable / intermediate test results reported ?

- La presenza di risultati indeterminati o borderline può alterare

le stime di accuratezza se tali risultati sono associati alla

presenza/assenza malattia

- L’occorrenza casuale di tali risultati non altera le stime di

accuratezza

70

Were withdrawals from the study explaned ?

- E’ possibile che le stime di accuratezza risultino distorte nella

misura in cui i persi al follow up (prima della disponibilità dei

risultati dei test) risultino selezionati per caratteristiche connesse

alla performance del test

71

Manuale NICE 2009

Methodology checklist: the QUADAS tool for studies of diagnostic test accuracy

72

Si compone di 4 domini:

- selezione dei pazienti

- index test

- reference test

- flow e timing

Per ogni dominio è valutato il rischio di bias e per i primi tre

domini è valutata l’applicabilità (generalizzabilità o validità

esterna)

73

FDG-PET and magnetoencephalography in presurgical workup of

children with localization-related nonlesional epilepsy

Epilepsia, 2013



FDG-PET and magnetoencephalography in presurgical workup of

children with localization-related nonlesional epilepsy

Epilepsia, 2013

-65 pazienti arruolati tra aprile 2008 e ottobre 2011, con “suspected

localization-related intractable epilepsy” (video EEG), MR normale e

FDG-PET e MEG.

-24/65 intracranial electroencephalography (IEEG) monitoring

(decisione su IEEG basata su scalp video EEG, MRI, FDG-PET, MEG)

-20/24 pazienti sottoposti a resezione chirurgica

-2 sottoposti a resezione chirurgica senza IEEG



Selezione dei pazienti

76

1) Campione random o consecutivo di pazienti

Pazienti inviati a chirurgia sulla base dei risultati di MEG e PET. 2

pazienti inviati a chirurgia senza IEEG (validità attesa e osservata 100%)

2) Disegno caso-controllo evitato ?

Si

3) Esclusioni inappropriate (sovrastima applicability, validità

esterna)Pazienti con esito Engel II-IV esclusi (inclusi in analisi sensitività).

Pazienti inviati a chirurgia sulla base dei risultati di MEG e/o PET.

Selezione dei pazienti

78

1) Were the index test results interpreted without knowledge of the

results of the reference standard?

Si, l’ordine di somministrazione assicura la cecità rispetto al

reference standard. Soltanto per la PET, è inoltre garantita la cecità

rispetto alle informazioni cliniche e all’EEG

2) If a threshold was used, was it prespecified?

Non applicabile

3) Are There Concerns That the Index Test, Its Conduct, or Its

Interpretation Differ From the Review Question? Lettura della MEG affidata ad esperto nella tecnologia (curva di

apprendimento ?)

Index test

Reference standard

1) Is the reference standard likely to correctly classify the target

condition ?

Non è chiara la scelta del reference standard (localizzazione lobare

da resezione chirurgica ? Esito Engel I ?. Gli autori riferiscono circa il

reference Engel I, ma effettuano analisi di sensitività includendo pazienti

con Engel II-IV, trattati come “negativi alla localizzazione lobare”.

2) Were the reference standard results interpreted without

knowledge of the results of the index test?

Si

3) Are There Concerns That the target condition as defined by the

reference standard does not match the Question ? No

Flow and timing

-65 pazienti arruolati tra aprile 2008 e ottobre 2011, con “suspected

localization-related intractable epilepsy” (video EEG), MR normale e

FDG-PET e MEG.

-24/65 intracranial electroencephalography (IEEG) monitoring

(decisione su IEEG basata su scalp video EEG, MRI, FDG-PET, MEG)

-20/24 pazienti sottoposti a resezione chirurgica

-2 sottoposti a resezione chirurgica senza IEEG

-l’intervallo tra index e reference è appropriato

-tutti i pazienti ricevono un reference

-tutti i pazienti ricevono lo stesso reference

-non tutti i pazienti sono inclusi in analisi [(20/24)+2 senza IEEG)]

83

E’ infine disponibile lo strumento STARD

(Standards for Reporting of Diagnostic Accuracy)

Clinical Chemistry, 2003; 49:7-18; http://www.stard-statement.org/

Si compone di 25 items e indaga la qualità nel reporting (non nella

conduzione) degli studi di accuratezza diagnostica. In particolare:

-ricerca bibliografica

-obiettivi dello studio

-popolazione e criteri di inclusione

-campionamento

-allestimento database

-razionale del reference standard

-tecnica e lettura dell’index e reference

-training dei “lettori” dei test

-cecità nelle letture

-analisi statistica di validità e riproducibilità

-descrizione popolazione

-flow diagram

-intervallo index-reference

-severità di malattia

-eventi avversi

-risultati anomali del test

-trasferibilità

… il processo diagnostico è un processo imperfetto...

Documents