Specificità e sensibilità

August 9, 2021

Supponiamo che un test venga usato per stabilire se delle persone sono malate.

Diremo che una persona testata è rossa se è malata e verde se è sana.
Diremo che il test è rosso se trova che la persona testata è malata, e che è verde se trova che è sana.

Quel che vogliamo da un test è che funzioni. Ma che significa dire che un test di questo tipo, funziona? Per funzionare, e quindi essere utile, un test deve soddisfare non una, ma due proprietà:

Il test deve essere rosso quando il testato è effettivamente rosso. Questa proprietà si chiama sensibilità.
Il test deve essere verde quando il testato è verde. Questa proprietà si chiama specificità.

Una sola delle due proprietà non basta. Come osservato qui, un test farlocco che è sempre rosso avrebbe una sensibilità perfetta se usato su un gruppo di persone rosse (effettivamente malate). Direbbe il vero, ma sarebbe come la verità proclamata da un orologio il cui quadrante è fisso sulle 23 se lo si andasse a consultare sempre... alle 23. Allo stesso modo, un test fasullo che desse sempre verde come risultato risulterebbe altamente specifico se usato su un gruppo di persone “verdi” (cioè, sane).

Qualunque test è caratterizzato da una certa sensibilità e da una certa specificità, e solo leggendo insieme questi valori si può dire quanto veritiero sia il test in questione:

“the diagnostic power of any test is determined by both its sensitivity and its specificity“

Le due proprietà, sensibilità e specificità, sono frutto di un compromesso che definisce le caratteristiche del test. Posso aumentare la probabilità che un test sia sensibile, cioè capace di rilevare correttamente casi “rossi”, ma questo va a scapito della sua capacità di rilevare correttamente casi “verdi”, e viceversa.

Per capire meglio come questo sia vero, immaginiamo che il test sia effettuato facendo un certo numero di prelievi, ad esempio dal naso di una persona. Chiamiamo n questo numero di prelievi. Ogni prelievo sarà indiziario del possibile stato del paziente: avremo prelievi “rossi” e prelievi “verdi”.

I test si possono fare in molte maniere. Un modo di condurre il test è, ad esempio, di verificare se almeno uno dei prelievi è rosso. Il “colore” (cioé, il risultato finale) del test” sarà rosso se almeno uno dei prelievi è rosso:

SE almeno un prelievo è rosso ALLORA il test è rosso ALTRIMENTI il test è verde

Questo test equivale al seguente:

SE tutti i prelievi sono verdi ALLORA il test è verde ALTRIMENTI il test è rosso

Ogni test è caratterizzato da certe proprietà. Questo che ho appena formulato, ad esempio, è un test ad elevata sensibilità: la probabilità che un paziente sia rosso e che il test sia verde è bassa. Questo evento si chiama “falso negativo”. Se i prelievi sono fatti in maniera indipendente, e se chiamiamo p la probabilità che un prelievo fallisca, il test fornirà un falso negativo con probabilità pⁿ, che è un numero piuttosto piccolo se n è grande. È difficile che un paziente rosso sfugga al test, perché questo avvene solo quando tutti i prelievi dicono che il paziente non è affetto dalla condizione in esame.

Il prezzo da pagare per la sensibilità di questo test è nella sua specificità. Basta che un solo prelievo sia erroneamente rosso perchè un paziente sano sia dichiarato malato. Si noti in particolare che la specificità del test diminuisce col numero di prelievi.

Per ovviare a questo problema, si potrebbe utilizzare un test diverso. Ad esempio, il colore del test sarà verde se almeno uno dei prelievi è verde:

SE almeno un prelievo è verde ALLORA il test è verde ALTRIMENTI il test è rosso

Questo test equivale al seguente:

SE tutti i prelievi sono rossi ALLORA il test è rosso ALTRIMENTI il test è verde

Questo secondo test è caratterizzato da una elevata specificità: se il paziente non è affetto dalla condizione, è altamente probabile che il test sia veritiero, perché è necessario che tutti i prelievi siano in errore perché il test sia in errore. Si dirà che il test fornisce un numero basso di “falsi positivi. Come si può capire, il prezzo da pagare per un test siffatto è nella sensibilità del test, che diminuisce grandemente — specialmente quando il numero di prelievi aumenta.

Quel che si deve fare per raggiungere quanto più possibile “la verità”, è trovare un compromesso ottimale tra specificità e sensibilità — tra la probabilità di individuare correttamente l'individuo malato e la probabilità di individuare correttamente l'individuo sano.

Un test migliore dei due quì proposti potrebbe considerare la maggioranza dei prelievi. Anch'esso sarebbe caratterizzato da una certa specificità ed una certa sensibilità. Ma a parità dell'algoritmo (a parità della logica utilizzata per giudicare i prelievi), è il numero di prelievi che fa pendere la bilancia verso la specificità ovvero verso la sensibilità.

È dunque opportuno sottolineare due cose che riguardano questo tipo di test statistici:

1) Il test non dice “la verità”. Il test fornisce una interpretazione dei dati raccolti; interpretazione che si basa su un compromesso tra due possibili errori di valutazione. 2) Se si vuole mentire con un test, facendo propendere per una condizione generale di una popolazione, è sufficiente cambiare il numero di prelievi per far propendere verso una “verità” piuttosto che un'altra.