Skip Navigation LinksHome-Nieuws-Column XL-Item

Fietsen wielrenners harder na een kleine bloedtransfusie? 4 juni 2019

door: Bram Brouwer

Eind 2018 meldden de nieuwsmedia dat volgens Deens onderzoek wielrenners na een kleine bloedtransfusie (50% van een normale dosis) al 5% sneller fietsen in tijdritten. Als dat klopt, dan kan mijn proefschrift[1] over rode bloedceldoping (RBC-doping) bij het oud papier. RBC-doping omvat alle middelen en methoden om de hoeveelheid rode bloedcellen in het bloed van gezonde goed getrainde atleten te verhogen. Bloedtransfusie (bloeddoping) is zo’n methode. Aangenomen wordt dat duuratleten met extra rode bloedcellen beter presteren. Mijn proefschrift beschreef dat de aannames hiervoor onaannemelijk zijn en vooral zijn gebaseerd op een combinatie van feiten, mythes, verzinsels, en drogredeneringen.[2] Dit lijkt voldoende reden te zijn de Deense studie[3] te beoordelen op haar robuustheid.

Op hun maximale duursnelheid[4] moeten wielrenners veel extra watts leveren om weinig harder te fietsen. Dat komt door het bijna derdemacht verband tussen fietssnelheid en de daarvoor benodigde watts. Zo moeten renners bij 45 km/uur zo’n 16% meer watts leveren om 5% harder te fietsen. Zo’n enorme verbetering maakt de bewering bij voorbaat al onwaarschijnlijk.

Accepteren we de stelling dat meer rode bloedcellen automatisch tot betere duurprestaties leidt, dan presteren duuratleten het best als ze dood zijn

RBC-doping
Met RBC-doping stijgt het aantal rode bloedcellen in het bloed, ook bij gezonde mensen. Iedere rode bloedcel kan een vaste hoeveelheid zuurstof binden, zodat bloed met meer rode bloedcellen meer zuurstof kan binden. Dat betekent echter niet dat dergelijk bloed automatisch ook meer zuurstof door het lichaam transporteert en ook niet dat gezonde wielrenners daarmee harder kunnen fietsen.[1] Accepteren we de stelling dat meer rode bloedcellen automatisch tot betere duurprestaties leidt, dan presteren duuratleten het best als ze dood zijn.

Als bloed alleen nog rode bloedcellen bevat kan het theoretisch de maximale hoeveelheid zuurstof binden. Maar dat bloed is zo dik dat het niet meer circuleert en dus geen zuurstof transporteert, zodat de renner overlijdt. Om zuurstof bij gezonde mensen optimaal te transporteren volstaat het natuurlijk evenwicht tussen de bloeddikte en de capaciteit van het hart- en vaatstelsel om bloed te circuleren. Beter dan optimaal is onmogelijk.[1; 5; 6] De denkfout is dat de hoeveelheid zuurstof die het bloed kan binden wordt verward met de hoeveelheid zuurstof die het kan transporteren.

XL20ColumnXLBB-FOTO-1Aan de hand van de Deense studie[7] leg ik vereenvoudigd uit hoe zo’n studie wordt opgezet en hoe we de robuustheid ervan kunnen beoordelen, met in de wetenschap algemeen geaccepteerde methoden. Desondanks is het mogelijk dat u een stukje nog eens moet herlezen.

De Deense studie 
De Deense studie was een gerandomiseerd, dubbelblind en gecontroleerd experiment met negen gezonde goedgetrainde mannelijke wielrenners. Die werden willekeurig in twee zo gelijk mogelijke groepen ingedeeld: de experimentele en de controlegroep. Onderzocht werd of de deelnemers na een kleine bloedtransfusie beter presteerden. Zowel de deelnemers als de onderzoekers weten niet wie in welke groep zit (dubbelblind). Vervolgens werd bij de deelnemers in de experimentele groep bloed afgenomen, waardoor hun prestatieniveau afnam. De deelnemers in de controlegroep kregen een fake bloedafname.

Aangenomen werd dat vier weken na de bloedafname het prestatieniveau was hersteld, waarna beide groepen in het laboratorium werden getest (pretest) op een sprint- en een time-trial-test. Vervolgens kreeg de experimentele groep een echte kleine bloedtransfusie met autoloog, bij de renner zelf afgenomen, bloed. De controlegroep kreeg een schijntransfusie. Daarna werden de deelnemers opnieuw getest (posttest). Aansluitend werd per groep bepaald in hoeverre de prestaties in de posttests was veranderd vergeleken met die in de pretests. Het verschil in verandering tussen beide groepen wordt dan gezien als het echte experimentele effect.

Drie maanden later werd het experiment herhaald, waarbij de experimentele en de controlegroep wisselden. Met deze ongebruikelijke opzet verdubbelde het aantal deelnemers.

De Denen rapporteren een flinke overschatting van het experimentele resultaat

De Deense resultaten
In de time-trail-test met zeven deelnemers (twee uitvallers) nam de gemiddelde prestatie in de experimentele groep statistisch significant toe met 10 watt van 213 (±35) watt in de pretest naar 223 (±38) watt in de posttest. In de controlegroep steeg het gemiddeld vermogen niet statistisch significant met 1 watt van 223 (±42) naar 224 (±46) watt. Het verschil in verandering tussen de groepen (het experimentele effect) is dan plus 9 watt. Tussen haakjes staan de standaardafwijkingen. Die bespreek ik later.

Aan de hand van deze resultaten concludeerden de onderzoekers dat de deelnemers op de time-trail-test in watts 5% beter presteerden, na een kleine bloedtransfusie. In werkelijkheid is dat 4,2%[8], ofwel maar liefst 16% minder.[9] Met andere woorden, de Denen rapporteren een flinke overschatting van het experimentele resultaat. Volgens de Deense onderzoekers hadden kleine bloedtransfusies geen invloed op de sprinttest, zodat we die verder buiten beschouwing laten.

Conclusie: de Deense onderzoekers lijken, ondanks hun overschatting, gelijk te hebben, zodat mijn proefschrift bij het oud papier kan. Maar zoals vaak, niets is wat het lijkt.

XL20ColumnXLBB-FOTO-2Eerste beoordeling: het 95%-betrouwbaarheidsinterval
De waarden tussen haakjes zijn, zoals gezegd, de standaardafwijkingen of standaarddeviaties (SD) in een populatie: een groep organismen van dezelfde soort binnen een bepaald gebied. De SD toont hoe individuele waarden binnen de populatie zijn verspreid.

Bijvoorbeeld: in 2004 had de populatie volwassen Nederlandse mannen een gemiddelde lengte van 181 (±7,5) cm. Met de SD kunnen we dan berekenen dat 95% van die mannen tussen de 166[10] en 196 cm[11] lang was. Bij SD = 2 cm zouden die grenzen 177 en 185 cm zijn. Dus als de SD kleiner is, liggen de individuele waarden dichter rond het populatiegemiddelde.

In studies die de lengte van volwassen Nederlandse mannen gebruiken, is het onmogelijk de hele populatie van ongeveer zes miljoen volwassen Nederlandse mannen op te nemen. We nemen dan een steekproef van bijvoorbeeld honderd willekeurige mannen uit die populatie. Hun gemiddelde lengte is vrijwel zeker ongelijk aan het populatiegemiddelde en varieert op basis van toeval rond dat populatiegemiddelde. Het steekproefgemiddelde is dan een schatting van het populatiegemiddelde.

Met een steekproef kunnen we dus nooit het populatiegemiddelde van een variabele (zoals lengte) meten. Maar met de standaardfout (SD van de steekproef) kunnen we wel de onder- en bovengrens bepalen waartussen de gemiddelde lengte van die populatie mannen zich met 95% zekerheid bevindt: het 95%-betrouwbaarheidsinterval. Als de standaardfout niet bekend is, kunnen we die uit de standaardafwijking en steekproefomvang (aantal deelnemers in de steekproef) berekenen. Steekproefgemiddelden binnen het betrouwbaarheidsinterval moeten we als toevallig beschouwen.

Als de steekproefomvang toeneemt, wordt het betrouwbaarheidsinterval kleiner, waardoor het steekproefgemiddelde betrouwbaarder wordt. Die verbeterde betrouwbaarheid verloopt echter volgens de wet van de verminderde meeropbrengst, zoals weergegeven in figuur 1.

XL20ColumnXLBB-FIGUUR-1Figuur 1. Wet van de verminderde meeropbrengst grafisch weergegeven.


De deelnemers in de Deense studie zijn een zeer kleine steekproef uit de populatie volwassen gezonde getrainde mannelijke wielrenners. We zagen dat de deelnemers in de pretest van de experimentele groep gemiddeld 213 (±35) watt leverden en dat dat een schatting is van het werkelijke populatiegemiddelde. We kunnen nu de standaardfout berekenen en vervolgens het 95%-betrouwbaarheidsinterval. In deze pretest ligt het werkelijke gemiddeld vermogen dan met 95% zekerheid tussen de 186 en 239 watt. Vervolgens berekenen we de 95%-betrouwbaarheidsintervallen van de overige tests. Figuur 2 geeft ze grafisch weer.

XL20ColumnXLBB-FIGUUR-2Figuur 2. De 95%-betrouwbaarheidsintervallen in de Deense studie naar de effecten van kleine bloedtransfusies op de prestatie van duuratleten.


Figuur 2 toont dat zowel in de experimentele als de controlegroep de gemiddelde testresultaten binnen het geel gemarkeerde gebied vallen waarin de 95%-betrouwbaarheidsintervallen van de pre- en de posttest elkaar overlappen. Alle experimentele resultaten binnen die gebieden moeten we als toevallig beschouwen. Bij een andere steekproef kunnen ze iedere andere waarde binnen de gemarkeerde gebieden aannemen. De Deense studieresultaten kunnen dan zelfs negatief zijn.

Samengevat: de Deense onderzoekers mogen, in tegenstelling tot wat ze rapporteerden, op basis van de 95%-betrouwbaarheidsintervallen niet aannemen dat atleten na een kleine bloedtransfusie 5% beter presteren op een time-trail-test in het laboratorium. Dat renners met zo’n kleine transfusie beter presteren in echte tijdritten is dan nog veel onwaarschijnlijker. Het is zelfs mogelijk dat zo’n transfusie dit soort prestaties benadeelt.

Heuberger en zijn collega’s bekritiseerden de Denen. Volgens hen kan het pretestverschil veroorzaakt zijn door de volgorde van bloedafname en pretests

Tweede beoordeling: de effectgrootte
Voor de tweede beoordeling van het Deense onderzoek berekenen we de effectgroottes. Dat is een dimensieloos statistisch kengetal dat de grootte van het effect van een interventie aangeeft en vaak wordt aangeduid met triviaal (onbeduidend), klein (niet met het blote oog waarneembaar), matig (net waarneembaar), groot, zeer groot en enorm. Effectgroottes kunnen zowel positief als negatief zijn.[o.a. 12; 13; 14] Bijvoorbeeld bij een studie naar pijnstillers verwachten we negatieve effectgroottes (afnemende pijn) voor een positief studieresultaat.

Ook hier speelt de steekproefomvang een cruciale rol. Bij een zeer kleine steekproefomvang, zoals in de Deense studie, worden effectgroottes sterk overschat. Daar zijn correctiemethoden voor ontwikkeld. Omdat studies als de Deense vaak als bewijs worden gebruikt in juridische dopingkwesties, gebruik ik de strengste in 2009 door Durlak geïntroduceerde correctiemethode.[15-19][20] 

XL20ColumnXLBB-FOTO-3Voor het beoordelen van de Deense studie zijn drie effectgroottes belangrijk:

  1. De deelnemers zijn willekeurig ingedeeld in twee zo gelijk mogelijke groepen. De effectgrootte over de pretests in die groepen moet dan triviaal zijn, zodat er geen noemenswaardig beginverschil tussen de groepen is. In de Deense studie is deze effectgrootte klein, zodat niet uitgesloten is dat een initieel pretestverschil de studieresultaten beïnvloedde. Heuberger en zijn collega’s bekritiseerden de Denen.[21] Volgens hen kan het pretestverschil veroorzaakt zijn door de volgorde van bloedafname en pretests en dat kan de Deense studieresultaten mogelijk volledig verklaren. 
     
  2. De effectgrootte over de pre- en de posttest in de experimentele groep is klein. Dat wil zeggen, als we alleen uitgaan van de experimentele groep, dan is het effect van kleine bloedtransfusies op de time-trail-test minimaal en mogelijk ontstaan door het beginverschil in de pretest (zie punt 1). Het is bijvoorbeeld ook denkbaar dat de tijd tussen de bloedafname en de pretest te kort was, waardoor de bloedwaarden (bloedarmoede) van de deelnemers in de experimentele groep nog niet volledig waren hersteld. De relatief lage pretestresultaten in deze groep zou hier een aanwijzing voor kunnen zijn. De transfusie rondt dat herstel dan af, waarna de renners beter presteren. Die verbetering ontstaat dan door het genezen van een eerder door de bloedafname kunstmatig gecreëerde bloedarmoede. Zie ook de bij punt 1 besproken opmerkingen van Heuberger en zijn collega’s.[21]
     
  3. De belangrijkste effectgrootte is die over het verschil in prestatietoename (9 watt) tussen de experimentele en de controlegroep. Deze effectgrootte is triviaal, ofwel onbeduidend.
     

Samengevat, op basis van de effectgroottes kunnen we opnieuw niet vaststellen dat de deelnemers in de Deense studie met een kleine bloedtransfusie beter presteren op de time-trail-test, laat staan dat ze daarmee beter presteren in echte tijdritten.

De media hadden ongelijk dat wielrenners na een kleine bloedtransfusie 5% sneller fietsen in tijdritten

XL20ColumnXLBB-FOTO-4Derde beoordeling: de CLES
Als derde en laatste methode voor het beoordelen van de Deense studie gebruik ik de in 1992 door McGraw en Wong geïntroduceerde common language effect size of CLES.[22; 23] Dit kengetal schat de waarschijnlijkheid dat een interventie daadwerkelijk tot het verwachte effect leidt, zoals prestatieverbetering op de time-trial-test door kleine bloedtransfusies. Hier is wederom de CLES van 7,6% over het verschil tussen de experimentele en de controlegroep (9 watt) van belang.

Samengevat: als een kleine bloedtransfusie, ondanks de twee voorgaande aanvullende analyses, de prestaties van renners op de time-trail-test alsnog verbetert, dan is de kans dat die verbetering daadwerkelijk optreedt slechts 7,6%.

Conclusie
De media hadden ongelijk dat wielrenners na een kleine bloedtransfusie 5% sneller fietsen in tijdritten. Dat onderzochten de Denen niet, maar ze lijken dat in hun publicatie wel te suggereren. De Denen vroegen zich af of getrainde wielrenners na een kleine bloedtransfusie significant beter presteerden op een time-trail-test in het laboratorium en stelden vast dat ze dat doen met 5%. Maar met de aanvullende analyses valt deze bewering door de mand. De Deense studieresultaten zijn toeval en mocht er desondanks toch een echt effect zijn, dan treedt dat nauwelijks op.

Conclusie: De Denen tonen niet aan dat getrainde wielrenners na een kleine bloedtransfusie beter presteren op een time-trail-test, laat staan dat ze beter presteren in echte tijdritten.

Reacties uit de antidopingwereld op mijn proefschrift toonden aan dat dergelijke organisaties niet blij zijn met publicaties die hun ideeën over prestatieverbetering door RBC-doping ondermijnen

Afsluitend
Waarom deden de Denen die aanvullende analyses niet zelf? Dat weet ik niet, zodat ik daarover slechts kan speculeren. Wisten ze niet beter of was er sprake van jumping to the conclusion?[24] Mensen denken dan te snel over voldoende informatie te beschikken voor een weloverwogen oordeel. Die denkfout kan ontstaan als ‘voorlopige’ bevindingen passen bij wat de onderzoekers of hun opdrachtgevers vooraf al dachten. De Deense studie werd deels gefinancierd door het Partnership for Clean Competition and Anti-Doping Denmark.[7] Reacties uit de antidopingwereld op mijn proefschrift toonden aan dat dergelijke organisaties niet blij zijn met publicaties die hun ideeën over prestatieverbetering door RBC-doping ondermijnen. En, onderzoekers willen graag ook hun volgende studie gefinancierd hebben, zodat druk op een positieve uitkomst van de studie door de financier, bewust of onbewust, denkbaar is.

XL20ColumnXLBB-FOTO-5Een andere mogelijkheid is publicatiebias. Wetenschappelijke tijdschriften accepteren publicaties met geen resultaat vaak niet, omdat die niets aan de wetenschap zouden toevoegen. Dat is een ernstige denkfout, waardoor wetenschappelijke bevindingen sterk worden overschat. Geen resultaten zijn net zo belangrijk als resultaten. Maar door publicatiebias zullen onderzoekers nauwelijks gemotiveerd zijn om bij geen resultaat een artikel te schrijven dat waarschijnlijk niet geaccepteerd wordt. Hierdoor zijn veel wetenschappelijke bevindingen fout.[25]

Anderzijds is de publicatiedruk voor wetenschappers tegenwoordig hoog. Als je dan een studie met een resultaat hebt, moet je dat niet weg analyseren. De besproken denkfouten sluiten elkaar niet uit. Tot slot: ik laat mijn proefschrift voorlopig nog in mijn boekenkast staan.

De analyse die in deze column is beschreven is gebaseerd op deze datasheet.

Referentielijst & noten

  1. Brouwer, B. (2015). De mythe van de rode bloedcel: Verbetert erythropoëtine (epo) of bloeddoping de prestaties van wielrenners en andere duuratleten? (Ph.D. thesis). Rotterdam/Heerlen: 2010 Uitgevers/Open Universiteit. isbn: 978-94-90951-17-7
  2. Lodewijkx, H. F. M. (2014). The Epo Fable in Professional Cycling: Facts, Fallacies, and Fabrications. Sports Medicine & Doping Studies, 3(3), 1-13. doi: org/10.4172/2161-0673.1000141
  3. Waar ik in deze column over wielrenners spreek, gaat hetzelfde op voor wielrensters.
  4. De maximale duursnelheid is de maximale snelheid die een wielrenners langdurig kan volhouden, bv. een uur of langer. Bij een hoger snelheid zullen de spieren verzuren, waardoor hij na korte tijd zijn inspanning moet verminderen.
  5. Brouwer, B. (2015). Een ongemakkelijke waarheid: Over prestatieverhoging door epo en bloeddoping. Sportgericht, 69(4), 6-10. 
  6. Brouwer, B. (2015). Waarom Lance Armstrong zijn tourzeges op eigen kracht behaalde. Sportknowhowxl. Retrieved 17-11, 2015, from here.
  7. Bejder, J., Andersen, A. B., Solheim, S. A., Gybel-Brask, M., Secher, N. H., Johansson, P. I., & Nordsborg, N. B. (2019). Time Trail Performance Is Sensitive to Low-Volume Autologous Blood Transfusion. Medicine & Science in Sports & Exercise, 51(4), 692-700. doi: 0.1249/MSS.0000000000001837
  8. 9 / 213 x 100% = 4,23%
  9. Feitenlijk moeten we over een stijging van 5%-punt spreken. Dat is de absolute verschil tussen twee percentages. Een daling van 5% naar 4% is dan is dan een daling van 1%-punt en van 20%.
  10. Ondergrens = gemiddelde – 2 x SA
  11. Bovengrens = gemiddelde + 2 x SA
  12. Cohen, J. (1989). Statistical power analysis for the behavioral science. Hilsdale, NJ: Lawrence Earlbaum. isbn: 978-0121790509
  13. Rosenthal, R., Rosnow, R. L., & Rubin, D. B. (2000). Contrast and Effect Sizes in Behavioral Research: A Correlational Approach. Cambridge: Cambridge University Press. 
  14. Hopkins, W. G. (2004). How to interpret changes in an athletic performance test. Sportscience, 8, 1-7. 
  15. Deeks, J. J. (2001). Systematic reviews of evaluations of diagnostic and screening tests. In M. Egger, G. D. Smith & D. Altman (Eds.), Systematic Reviews in Health Care: Meta-Analysis in Context (pp. 248-282). London: BMJ Publishing Group. (Reprinted from: In File). 
  16. Deeks, J. J., & Altman, D. G. (2001). Effect measures for meta-analysis of trials with binary outcomes. In M. Egger, G. D. Smith & D. Altman (Eds.), Systematic Reviews in Health Care: Meta-Analysis in Context (pp. 313-335). London: BMJ Publishing Group. (Reprinted from: In File). 
  17. Deeks, J. J., Altman, D. G., & Bradburn, M. J. (2001). Statistical methods for examining heterogeneity and combining results from several studies in meta-analysis. In M. Egger, G. D. Smith & D. Altman (Eds.), Systematic Reviews in Health Care: Meta-Analysis in Context (pp. 285-312). London: BMJ Publishing Group. (Reprinted from: In File). 
  18. Durlak, J. A. (2009). How to Select, Calculatie, and Interpret Effect Sizes. Journal of Pediatric Psychology. doi: 10.1093/jpepsy/jsp004
  19. Grissom, R. J., & Kim, J. J. (2005). Effect sizes for research. A broad practical approch. Mahwah: Erlbaum. 
  20. See here
  21. Heuberger, J. A. A. C. (2019). Inappropriate Study Design Produces Spurious Effects of Autologous Blood Transfusion. Medicine & Science in Sports & Exercise, 51(July). 
  22. McGraw, K., & Wong, S. P. (1992). A Common language effect size Statistic. Psychological Bulletin, 111(2), 361-365. 
  23. Vargha, A., & Delaney, H. D. (2000). A critique and Improvement of the CL Common language Effect Size Statistics of McGraw and Wong. Journal of Educational end Behavioral Statistics, 25(2), 101-132. 
  24. Rassin, E. (2007). Waarom ik altijd gelijk heb: Over tunnelvisie Schiedam: Scriptum Psychologie. isbn: 9789055945634 
  25. Loannidis, J. P. A. (2005). Why Most Published Research Findings Are False. PLoS Medicine, 2(8), 0696-0701. doi: 10.1371/journal.pmed.0020124

Dr. Bram Brouwer is ruim 35 jaar schaatstrainer en was één van de eerste gediplomeerde Nederlandse wielrentrainers. Hij heeft vijftien jaar professioneel duursporters begeleid en is psychologie gaan studeren aan de Open Universiteit. Hier studeerde hij in 2009 cum laude af als arbeids- en organisatiepsycholoog op het onderwerp ‘Doping als drogreden’ en behaalde de basisaantekening sportpsychologie. Bram is gepromoveerd op zijn proefschrift ‘De mythe van de rode bloedcel’, waarin hij de argumenten onderzocht die zouden aantonen dat epo- en bloeddoping duurprestaties sterk bevorderen. Ook is Brouwer auteur, adviseur/coach en verzorgt hij lezingen over diverse onderwerpen. Voor meer informatie: brambrouwer@outlook.com of www.brambrouwer.nl. Twitter: @DrBramBrouwer

« terug

Reacties: 0

Reactie toevoegen

Naam*
E-mailadres*
Reactie*
Stuur mij een e-mail als er een nieuwe reactie wordt geplaatst