Kans op fout positieven verkeerd berekend voor dopingtesten

door: Klaas Faber

Het lijkt erop dat het grote publiek een ongekend hoog vertrouwen heeft in de resultaten van anti-dopingonderzoek. Veel hoger bijvoorbeeld dan het vertrouwen in de kwaliteit van de dagelijks geleverde zorg. Dit verschil is enigzins verrassend omdat het in beide gevallen om de vruchten van empirische wetenschap gaat. Men dient zich dan ook te realiseren dat er best wel vraagtekens geplaatst kunnen worden bij het imago van onfeilbaarheid van anti-dopinglaboratoria.

Een tamelijk groot vraagteken betreft de kans op fout positieven voor een dopingtest. Die kans wordt namelijk doorgaans verkeerd ingeschat, zoals hieronder wordt geïllustreerd aan de hand van een simpele test op lichaamseigen stoffen. N.B. De gevolgen van die verkeerde inschatting zitten niet per sé in het derde cijfer achter de komma. De juiste inschatting kan makkelijk leiden tot een fractie fout positieven die tientallen malen hoger uitvalt!

Aangezien deze uitleg universeel geldig is, want het betreft elementaire statistiek, biedt deze ook de mogelijkheid om meer ingewikkelde scenario's te behandelen. Een zeer actueel voorbeeld daarvan, waarop ik later terugkom, is het biologisch paspoort.

De beslissende rol van het test resultaat
Vervolging geschiedt op basis van een abnormaal testresultaat. Om te bepalen wat abnormaal is, heeft men uiteraard een besliscriterium nodig. Voor lichaamseigen stoffen zoals nandrolon geldt een drempelwaarde. Een testresultaat onder die waarde wordt gezien als normaal, daarboven als abnormaal. Een normaal resultaat is uiteraard OK, abnormaal (te hoog) is foute boel: manipulatie. Voor andere typen testen kan het besliscriterium ingewikkelder zijn, maar in principe verandert hierdoor niets voor de huidige uitleg.

Kans op fout positieven wordt verkeerd ingeschat
Hoe gaat het laboratorium te werk om die kans in te schatten? Er wordt een grote groep getest, waarvan bekend is dat er geen doping (nandrolon) wordt gebruikt. Het besliscriterium (normaal of abnormaal?) wordt zodanig ingesteld dat slechts een kleine fractie als abnormaal wordt beoordeeld – zeg 0.1%. Het laboratorium concludeert vervolgens dat je 99.9% zeker bent van gebruik van doping als er een abnormaal testresultaat wordt gevonden.

Dat hier een flinke denkfout wordt gemaakt, blijkt reeds als je dat op bovenstaande controlegroep toepast. Er is geen doping gebruikt en derhalve is iedere abnormale uitslag een fout positieve. Met andere woorden: bij een abnormale uitslag ben je nog steeds zeker van onschuld. Logisch!

Hoe de kans op fout positieven in het algemeen uit te rekenen is, wordt in het volgende gedeelte uitgelegd. Die uitleg vraagt om aandachtig lezen. Echter, op het eind van de rit volgt een aardige beloning: een beter begrip van dit aspect van dopingtesten dan blijkbaar aanwezig bij menig anti-dopingonderzoeker. Niet voor niets is op dit moment voor geen enkele test bekend wat de kans op fout positieven is!

Elementaire statistiek
Voor het schatten van de kans op fout positieven moet men drie kansen kennen, zie onderstaand schema:

Kansen die de berekening ingaan (rood) versus kansen die eruit komen (blauw). De groote van de afzonderlijke blokken is vooral illustratief bedoeld, dus niet geheel correct naar schaal. Met name de kans op fout positieven is i.h.a. zo klein dat het op correcte schaal slechts een dun lijntje zou worden.

Die drie kansen zijn als het ware nodig om de populatie van atleten volledig uit te kunnen splitsen:
1. incidentie: nodig om de populatie te splitsen in dopers en non-dopers;
2. specificiteit: nodig om de non-dopers te splitsen in correct negatief en fout positief; en
3. gevoeligheid: nodig om de dopers te splitsen in correct positief en fout negatief.

Nog even ter herinnering: een abnormaal testresultaat leidt tot de conclusie positief. In dit stadium kan natuurlijk geen onderscheid gemaakt worden tussen correct positief en fout positief. Het is derhalve zaak om vóóraf, dus vóór de introductie van een test, de inschatting te maken dat de fractie fout positieven acceptabel is.

Rekenvoorbeeld
Dan nu een rekenvoorbeeld. Ga uit van een populatie van 10000 atleten en
1. incidentie = 10%. Er zijn derhalve 1000 dopers en 9000 non-dopers.
2. Specificiteit = 99.9%. Dit geeft 0.1% kans op abnormaal resultaat voor non-doper.
3. gevoeligheid = 5%. Dit geeft direkt de kans op abnormaal resultaat voor doper.

De specificiteit is dan heel behoorlijk. De gevoeligheid is zo-zo, want veel kleiner dan de optimale waarde van 100%. Echter, bij een grotere pakkans zal het snel niet meer gebruikt worden.

Het resultaat is: 0.1% x 9000 = 9 fout positieven en 5% x 1000 = 50 correct positieven. Totaal is 9 + 50 = 59 abnormale testresultaten. De kans op fout positief is derhalve 9 / 59 = 15%, terwijl de kans op schuld (correct positief) volgt als 50 / 59 = 85%. Is dat voldoende voor vervolging?

Wat is goed genoeg voor vervolging?
In het strafrecht zijn ‘verbale’ schalen in omloop. Een bekende is van K. Hummel (1983):

Praktisch bewezen:	99.80%	–	99.90%
Extreem waarschijnlijk:	99.10%	–	99.79%
Zeer waarschijnlijk:	95.00%	–	99.09%
Waarschijnlijk:	90.00%	–	94.99%
Onbeslist:	80.00%	–	89.99%
Niet nuttig:	minder dan 80.00%

Het huidige resultaat (85%) is dus onbeslist. Voor het verhogen van dit percentage ligt het voor de hand om aan de gevoeligheid van de test te werken. Het is eenvoudig te controleren dat met een gevoeligheid van 10% (i.p.v. 5%) het resultaat 92% zou zijn: waarschijnlijk. Dat is nog steeds een stuk minder zwart-wit dan wat het laboratorium op dit moment rapporteert, namelijk praktisch bewezen. De fractie fout positieven blijkt dan namelijk nog steeds 8% / 0.1% = 80 maal groter te zijn dan hetgeen het laboratorium opgeeft!

Conclusies
Op dit moment worden twee kansen met elkaar verward, namelijk de kans op een abnormaal testresultaat en de kans op een fout positief. Terwijl de eerste eigenlijk een berekening in moet, zodat de tweede uit die berekening kan komen, worden ze abusievelijk aan elkaar gelijk gesteld. Dit is uiteraard volkomen onjuist en bovendien zeker niet zonder gevolgen. Met name wordt hierdoor de kans op een fout positief systematisch te laag – te optimistisch dus – ingeschat.

Klaas Faber is in 1994 aan de Radboud Universiteit te Nijmegen gepromoveerd in de chemometrie. Hierop volgden twee jaar onderzoek in de VS. Tussen 1996 en 2002 heeft hij chemometrisch en statistisch advies gegeven binnen het Nederlands Forensisch Instituut (Rijswijk) en de Agrotechnology and Food Sciences group (Wageningen). Vanaf 2002 voert hij deze activiteiten zelfstandig uit, zie www.chemometry.com. Daarnaast onderhoudt hij contacten met meer dan tien verschillende universiteiten voor het verder ontwikkelen en toepassen van methoden voor onderzoek.

Kans op fout positieven verkeerd berekend voor dopingtesten

Meer over:

Blijf op de hoogte