door: Klaas Faber
Het lijkt erop dat het grote publiek een ongekend hoog vertrouwen heeft
in de resultaten van anti-dopingonderzoek. Veel hoger bijvoorbeeld dan het
vertrouwen in de kwaliteit van de dagelijks geleverde zorg. Dit verschil is
enigzins verrassend omdat het in beide gevallen om de vruchten van empirische
wetenschap gaat. Men dient zich dan ook te realiseren dat er best wel
vraagtekens geplaatst kunnen worden bij het imago van onfeilbaarheid van
anti-dopinglaboratoria.
Een tamelijk groot vraagteken betreft de kans op fout positieven
voor een dopingtest. Die kans wordt namelijk doorgaans verkeerd ingeschat, zoals
hieronder wordt geïllustreerd aan de hand van een simpele test op lichaamseigen
stoffen. N.B. De gevolgen van die verkeerde inschatting zitten niet per sé in
het derde cijfer achter de komma. De juiste inschatting kan makkelijk leiden tot
een fractie fout positieven die tientallen malen hoger uitvalt!
Aangezien deze uitleg universeel geldig is, want het betreft elementaire
statistiek, biedt deze ook de mogelijkheid om meer ingewikkelde scenario's te
behandelen. Een zeer actueel voorbeeld daarvan, waarop ik later terugkom, is het
biologisch paspoort.
De beslissende rol van het test resultaat
Vervolging
geschiedt op basis van een abnormaal testresultaat. Om te bepalen wat
abnormaal is, heeft men uiteraard een besliscriterium nodig. Voor lichaamseigen
stoffen zoals nandrolon geldt een drempelwaarde. Een testresultaat onder die
waarde wordt gezien als normaal, daarboven als abnormaal. Een normaal resultaat
is uiteraard OK, abnormaal (te hoog) is foute boel: manipulatie. Voor andere
typen testen kan het besliscriterium ingewikkelder zijn, maar in principe
verandert hierdoor niets voor de huidige uitleg.
Kans op fout positieven wordt verkeerd ingeschat
Hoe gaat
het laboratorium te werk om die kans in te schatten? Er wordt een grote groep
getest, waarvan bekend is dat er geen doping (nandrolon) wordt gebruikt. Het
besliscriterium (normaal of abnormaal?) wordt zodanig ingesteld dat slechts een
kleine fractie als abnormaal wordt beoordeeld – zeg 0.1%. Het laboratorium
concludeert vervolgens dat je 99.9% zeker bent van gebruik van doping als er een
abnormaal testresultaat wordt gevonden.
Dat hier een flinke denkfout wordt gemaakt, blijkt reeds als je dat op
bovenstaande controlegroep toepast. Er is geen doping gebruikt en derhalve is
iedere abnormale uitslag een fout positieve. Met andere woorden: bij een
abnormale uitslag ben je nog steeds zeker van onschuld. Logisch!
Hoe de kans op fout positieven in het algemeen uit te rekenen is, wordt in
het volgende gedeelte uitgelegd. Die uitleg vraagt om aandachtig lezen. Echter,
op het eind van de rit volgt een aardige beloning: een beter begrip van dit
aspect van dopingtesten dan blijkbaar aanwezig bij menig anti-dopingonderzoeker.
Niet voor niets is op dit moment voor geen enkele test bekend wat de kans op
fout positieven is!
Elementaire statistiek
Voor het schatten van de kans op
fout positieven moet men drie kansen kennen, zie onderstaand schema:
Kansen die de berekening ingaan (rood) versus kansen die eruit komen
(blauw). De groote van de afzonderlijke blokken is vooral illustratief bedoeld,
dus niet geheel correct naar schaal. Met name de kans op fout positieven is
i.h.a. zo klein dat het op correcte schaal slechts een dun lijntje zou
worden.
Die drie kansen zijn als het ware nodig om de populatie van atleten volledig
uit te kunnen splitsen:
1. incidentie: nodig om de populatie te splitsen
in dopers en non-dopers;
2. specificiteit: nodig om de non-dopers te
splitsen in correct negatief en fout positief; en
3. gevoeligheid: nodig
om de dopers te splitsen in correct positief en fout negatief.
Nog even ter herinnering: een abnormaal testresultaat leidt tot de conclusie
positief. In dit stadium kan natuurlijk geen onderscheid gemaakt worden tussen
correct positief en fout positief. Het is derhalve zaak om vóóraf, dus vóór de
introductie van een test, de inschatting te maken dat de fractie fout positieven
acceptabel is.
Rekenvoorbeeld
Dan nu een rekenvoorbeeld. Ga uit van een
populatie van 10000 atleten en
1. incidentie = 10%. Er zijn derhalve
1000 dopers en 9000 non-dopers.
2. Specificiteit = 99.9%. Dit geeft 0.1%
kans op abnormaal resultaat voor non-doper.
3. gevoeligheid = 5%.
Dit geeft direkt de kans op abnormaal resultaat voor doper.
De specificiteit is dan heel behoorlijk. De gevoeligheid is zo-zo, want veel
kleiner dan de optimale waarde van 100%. Echter, bij een grotere pakkans zal het
snel niet meer gebruikt worden.
Het resultaat is: 0.1% x 9000 = 9 fout positieven en 5% x 1000 = 50 correct
positieven. Totaal is 9 + 50 = 59 abnormale testresultaten. De kans op fout
positief is derhalve 9 / 59 = 15%, terwijl de kans op schuld (correct positief)
volgt als 50 / 59 = 85%. Is dat voldoende voor vervolging?
Wat is goed genoeg voor vervolging?
In het strafrecht
zijn ‘verbale’ schalen in omloop. Een bekende is van K. Hummel (1983):
Praktisch bewezen: |
99.80% |
– |
99.90% |
Extreem waarschijnlijk: |
99.10% |
– |
99.79% |
Zeer waarschijnlijk: |
95.00% |
– |
99.09% |
Waarschijnlijk: |
90.00% |
– |
94.99% |
Onbeslist: |
80.00% |
– |
89.99% |
Niet nuttig: |
minder dan 80.00% |
|
|
Het huidige resultaat (85%) is dus onbeslist. Voor het verhogen van dit
percentage ligt het voor de hand om aan de gevoeligheid van de test te werken.
Het is eenvoudig te controleren dat met een gevoeligheid van 10% (i.p.v. 5%) het
resultaat 92% zou zijn: waarschijnlijk. Dat is nog steeds een stuk minder
zwart-wit dan wat het laboratorium op dit moment rapporteert, namelijk praktisch
bewezen. De fractie fout positieven blijkt dan namelijk nog steeds 8% / 0.1% =
80 maal groter te zijn dan hetgeen het laboratorium opgeeft!
Conclusies
Op dit moment worden twee kansen met elkaar
verward, namelijk de kans op een abnormaal testresultaat en de kans
op een fout positief. Terwijl de eerste eigenlijk een berekening in moet,
zodat de tweede uit die berekening kan komen, worden ze abusievelijk aan elkaar
gelijk gesteld. Dit is uiteraard volkomen onjuist en bovendien zeker niet zonder
gevolgen. Met name wordt hierdoor de kans op een fout positief systematisch te
laag – te optimistisch dus – ingeschat.
Klaas Faber is in 1994 aan de Radboud Universiteit te Nijmegen
gepromoveerd in de chemometrie. Hierop volgden twee jaar onderzoek in de VS.
Tussen 1996 en 2002 heeft hij chemometrisch en statistisch advies gegeven binnen
het Nederlands Forensisch Instituut (Rijswijk) en de Agrotechnology and Food
Sciences group (Wageningen). Vanaf 2002 voert hij deze activiteiten zelfstandig
uit, zie www.chemometry.com. Daarnaast onderhoudt
hij contacten met meer dan tien verschillende universiteiten voor het verder
ontwikkelen en toepassen van methoden voor onderzoek.