Liegen met de waarheid | Fouten, misvattingen en pseudowetenschap

Wetenschappers die verslag doen over naïeviteit, domheid, manipulatie en bedrog in de hedendaagse wetenschapsbeoefening... voorwaar geen alledaagse gebeurtenis! Hans-Peter Beck-Bornholdt, professor biofysica en radiobiologie, en Hans-Hermann Dubben, een biofysicus verbonden aan een universitair ziekenhuis, gaan er hard tegen aan. En dat is kennelijk ook nodig. Aan de hand van onthutsende voorbeelden, vooral uit het medisch wetenschappelijk onderzoek, maken ze duidelijk dat nogal wat onderzoek en publicaties statistisch gezien onbetrouwbaar of fout zijn. Ze zetten uiteen hoe misvattingen, dwalingen en bedrieglijke voorstellingen ontstaan, zich verspreiden als besmettelijke ziekten en niettegenstaande afdoende weerlegging toch in universitaire leerboeken kunnen belanden.

Statistisch inzicht is ook voor medisch onderzoek van groot belang. Toevallige onderzoeksresultaten moeten zorgvuldig onderscheiden worden van systematische oorzakelijke verbanden. Maar dat niet iedere uitslag of vaststelling statistisch significant is wordt vaak over het hoofd gezien. In de wetenschappelijke literatuur wordt een gebeurtenis significant (betekenisvol) genoemd als de waarschijnlijkheid dat ze op toeval berust, de kans dat men dwaalt, minder dan vijf procent bedraagt. Die norm heeft geen diepere grond, gewoon een afspraak over een foutmarge. Maar hij wordt ondertussen wel verabsoluteerd. 'Significant' is 'volkomen betrouwbaar' gaan betekenen; de vijf procent wordt verwaarloosd, men doet alsof er géén risico meer bestaat. Overigens is er een wereld verschil tussen vijf procent kans dat een aspirientje niet werkt, en hetzelfde risico bij de keuze tussen twee therapieën voor een dodelijke ziekte.

Om toevallige en systematische gebeurtenissen uit elkaar te halen zijn grote aantallen vaststellingen nodig. Alleen dan kan met enige zekerheid bepaald worden of er bijvoorbeeld een verband bestaat tussen leukemie en wonen in de buurt van hoogspanningskabels, kerncentrale of verbrandingsoven. Onderzoekers en politiekers die in het nieuws willen komen nemen niet zelden genoegen met een klein aantal vaststellingen. Als met het oog op de nakende verkiezingen moet worden aangetoond dat een dure voorlichtingscampagne over de gevaren van autorijden onder invloed vruchten heeft afgeworpen, kan men uitpakken met die ene controle van enkele honderden automobilisten die minder diep in het glaasje gekeken hebben. Een mogelijk uitzonderlijk, toevallig deel wordt uit zijn context gelicht. Soms wordt bij alcoholcontroles gewoon zo lang gecontroleerd tot men een steekproef van 500 overhoudt waarin het aantal overtreders laag genoeg ligt. Men liegt met de waarheid. De grens tussen vergissing, onwetendheid en bedrog is niet altijd even duidelijk. Midden juni nog tekende een twintigtal Belgische wetenschappers terecht protest aan tegen het 'geruststellende' onderzoek naar schadelijke gevolgen van de verbrandingsoven in Wilrijk. De conclusie van de bevoegde ministers - weinig of geen gevaar voor de volksgezondheid - was gebaseerd op het medisch onderzoek van slechts twintig kinderen. Vanuit statistisch oogpunt is dat een aanfluiting van wetenschap.

Ook de gevallen van de gekke koeienziekte (BSE, Creutzfeldt-Jakobsyndroom) die in Groot-Brittannië bij mensen zijn vastgesteld, zijn mogelijk niet significant. De ogenschijnlijke toename van ziektegevallen zou wel eens het gevolg kunnen zijn van de verhoogde waakzaamheid bij de Britse overheid. Dubben en Beck-Bornholdt vestigen er de aandacht op dat de ziekte bij runderen wordt veroorzaakt door het eten van dierlijk voedsel, meer bepaald vlees van met scrapie besmette schapen. Merkwaardig genoeg wordt het verband tussen schapenvlees en het risico van BSE bij de mens tot op heden verwaarloosd.

Bij medisch wetenschappelijk onderzoek moeten dus veel patiënten betrokken worden. Om met enige zekerheid een therapeutisch verschil vast te stellen tussen twee verschillende behandelingswijzen heb je al snel 2800 zieken nodig. Maar met de meeste onderzoeken zijn zelden meer dan 320 patiënten gemoeid. Dat doet meer aan kansspel denken dan aan serieus onderzoek. Grote megatrials, waarbij verscheidene ziekenhuizen betrokken zijn, brengen weer andere gevaren met zich mee. Het dilemma luidt: hoe preciezer de afbakening van de vraagstelling, des te minder patiënten krijgt men samen en des te onnauwkeuriger het antwoord; hoe onpreciezer de vraag, hoe meer patiënten en des te nauwkeuriger het antwoord.

Bij de meeste onderzoeken wordt met meerdere waarschijnlijkheden gewerkt. Bij de besluitvorming wordt niet altijd voldoende rekening gehouden met het verhoogd risico dat dat inhoudt. Vergelijk het met een bergbeklimmer die een klimtouw gebruikt dat uit aan elkaar geknoopte stukken bestaat. Iedere knoop is relatief betrouwbaar, de kans dat hij lost is hooguit vijf procent. Dat betekent uiteraard niet dat het wel snor zit met de veiligheid van onze alpinist! Hoe meer knopen, hoe kleiner de waarschijnlijkheid dat de koord het houdt. Bij twee knopen daalt de veiligheid al van vijfennegentig naar negentig procent, bij twintig knopen is dat nog slechts zesendertig. Wil men bij een touw met twintig knopen het risico tot vijf procent beperken, dan mag de waarschijnlijkheid dat één van de knopen lost niet hoger zijn dan een kwart procent. Bij medisch onderzoek is dat niet anders. Hoe meer onafhankelijke parameters (knopen) bij een onderzoek betrokken zijn, hoe meer er fout kan lopen. Als de foutmarge voor een medisch onderzoek met tien parameters maar vijf procent mag zijn, dan moet het risico voor elke factor worden teruggebracht tot 0,5% (vijf procent gedeeld door tien). En dit is een vereenvoudigde voorstelling van zaken. Bij klinische studies komen veel meer factoren kijken die de kans op foute interpretaties vergroten. De opdeling van patiënten in afzonderlijk geanalyseerde subgroepen (volgens geslacht, leeftijdsgroep...), de wijze waarop de behandeling wordt geëvalueerd (genezingsgraad, bijwerkingen, overlevingsduur...). Bij het onderzoek zelf wordt daar doorgaans rekening mee gehouden, maar bij publicatie van de resultaten worden dikwijls alleen de significante tests en positieve uitslagen prijsgegeven. Op die wijze kan zelfs een significant verband bewezen worden tussen een bepaalde ziekte (of therapie) en de stand van de sterren; kan men ook aantonen dat honden eieren leggen.

Statistici hebben het in dit verband over een fishing expedition. Hoe meer parameters worden gebruikt, hoe groter de kans dat men ergens iets significants vindt; bij twintig parameters is die al zeer reëel. De jacht op significantie heeft tot een vloed nutteloze publicaties geleid, het werkelijk relevant onderzoek wordt daaronder bedolven. Desinformatie heet dat. Consequente en correcte aanwending van statistische methoden zou er kunnen toe bijdragen dat er een eind komt aan dit "alchemistisch tijdperk waarin bijna elke reeks gegevens tot significante vaststellingen leidt". Het verlagen van de foutmarge van vijf naar een kwart procent - de vroegere norm - zou al een hele stap in de goede richting zijn.

Beck-Bornholdt en Dubben hebben er anderhalve jaargang Radiotherapy and Oncology, een gezaghebbend medisch tijdschrift, op nagekeken. Eén derde van het daarin opgenomen klinisch onderzoek blijkt statistisch onbetrouwbare resultaten te presenteren. De uitgever van het tijdschrift wees hun gefundeerde kritiek als irrelevant af. Uitzonderlijk is dat niet. Sommige van hun kritieken werden pas gepubliceerd nadat de bekritiseerde onderzoekers met hun misleidende voorstelling de nodige fondsen hadden binnen gereven voor een megaproject. Recent gebeurde dat nog met een kritiek waarin ze gesjoemel met de grafische voorstelling van een nieuwe bestralingstherapie aan de kaak stelden. Door de tijdsas van een diagram willekeurig in te korten was de voortijdige dood van enkele patiënten die met de nieuwe methode waren behandeld volledig uit het zicht verdwenen.

De grafische voorstelling van onderzoeksresultaten heeft doorgaans meer invloed op het voorschrijfgedrag van artsen dan de uiteenzetting zelf. Diagrammen correct interpreteren is dan ook van groot belang, maar dat lukt niet goed los van het tekstgedeelte. Een groep artsen die vijf verschillende grafische voorstellingen van dezelfde medische onderzoeksresultaten te zien kreeg, had totaal niet door dat ze vijf keer hetzelfde zagen, ook al werden alle gegevens aangereikt om dat in te zien.

Een ander merkwaardig verschijnsel dat onderzoekers wel eens parten speelt is stage migration. Door dit fenomeen worden de resultaten van een therapie ogenschijnlijk beter zonder dat de behandeling verbeterd is. Dat ligt aan de almaar verbeterende diagnostische middelen. Doordat bijvoorbeeld grootte en ernst van tumoren nauwkeuriger kunnen worden vastgesteld, verhuizen enkele gezwellen die vroeger werden ingedeeld bij T1, de minst erge groep, naar T2. Aldus wordt T1 ontlast van zijn zwaarste tumoren en krijgt T2 er enkele relatief minder erge bij. Idem dito voor de gezwellen in de grensgebieden tussen T2/T3 en T3/T4. Met als resultaat dat de prognose in alle groepen verbetert zonder dat er iets wezenlijks is veranderd. De diagnose is verbeterd, niet de therapie. Als een groep patiënten bij wie de T-stadia zijn vastgesteld met de nieuwste diagnostische middelen op dezelfde wijze wordt behandeld als een groep zieken bij wie met een verouderde diagnostiek werd gewerkt, dan zal de eerste groep alleen daardoor al betere resultaten laten zien.

Ook de begripsverwarring tussen aantal en aandeel zorgt voor effecten die er geen zijn. Kanker en aandoeningen van hart en bloedvaten zijn momenteel de grootste killers in industrielanden. Als de laatste doodsoorzaak door een wondermiddel kon worden uitgeschakeld dan zou het aandeel van de kankerdoden stijgen. Maar daar mag natuurlijk niet uit afgeleid worden dat het wondermiddel de kans op kanker doet stijgen. Nog een voorbeeld uit de praktijk. Een wetenschappelijk onderzoek uit 1995 toont aan dat in industrielanden borstkanker de laatste twintig jaar almaar dodelijker is geworden voor vrouwen boven de vijftig. Tienmaal hoger dan bij andere vrouwen. De onderzoekers wijten dat aan schadelijke omgevingsfactoren en een ongezonde levenswijze. Dat in de beschouwde periode en landen ook de levensverwachting is gestegen, zagen ze over het hoofd. En dat is vanzelfsprekend vooral van belang voor de groep boven de vijftig, waar nu relatief meer tachtig- en negentigjarigen in voorkomen dan vroeger. Het verhoogde risico kan dus net zo goed (mee) veroorzaakt worden door een leeftijdsgebonden factor.

Begin jaren negentig signaleerden Zweedse wetenschappers een negatief verband tussen borstkanker en linkshandigheid. Bij een groep van 395 vrouwen met borstkanker hadden ze slechts 6 linkshandigen aangetroffen, hetzij 1,5%, duidelijk minder dan de 5% linkshandige Zweedse vrouwen. Ze vergaten wel na te gaan hoevelen als linkshandige geboren waren maar dat als kind moesten afleren. Er zijn daarenboven andere verklaringen mogelijk. Uit Amerikaans onderzoek blijkt dat linkshandigen om nog onbekende redenen (meer ongevallen?) gemiddeld negen jaar minder lang leven dan rechtshandigen. En de kans op borstkanker neemt nu eenmaal met de jaren toe.

Veel van deze misvattingen en foutieve conclusies worden in de hand gewerkt door een wetenschapspolitiek die kwantiteit en snelle resultaten beloont. Wie een nieuw effect of middel vindt is binnen, wie er geen vindt doet niet mee. Een politiek waardoor bedenkelijke methodes en praktijken een kans krijgen. Data dredging bijvoorbeeld, het met behulp van sterke computers uitbaggeren van reusachtige gegevensbanken. Als je maar lang genoeg bepaalde levensmiddelen door bepaalde ziektegroepen jaagt, heb je een goede kans ergens een opvallend verband te vinden, "bijvoorbeeld tussen melkverbruik en premature geboortes, rode kool en groene staar, leverkaas en eksterogen". De personal computer heeft simulatie en het maken van modellen en diagrammen aanzienlijk vereenvoudigd, maar die worden dikwijls zonder kennis van zaken geïnterpreteerd en zonder zorgvuldige controle gepubliceerd. Velen getroosten zich de moeite niet meer om modellen en uitkomsten kritisch te bevragen, aan de realiteit te toetsen, even stil te staan bij wat misschien impliciet verondersteld werd. Lange tijd, tot in 1996, werd de bestralingsdosis van kwaadaardige tumors berekend volgens een model waarin stilzwijgend was aangenomen dat tumorcellen zich niet vermeerderen, wat biologisch gezien volslagen onzin is.

Om als onderzoeker aan de bak te komen moet je opvallen, significante resultaten publiceren. Publish or perish, dat is de stelregel. Resultaat: een ware stortvloed van publicaties. In biomedische vakbladen verschijnen per jaar liefst vier miljoen artikels, waarvan vele compleet waardeloos. Ook specialisten kunnen de toevloed aan (vermeend) nieuwe inzichten niet meer volgen. In het minst slechte geval bladert men door een onderzoek, bekijkt een inhoudstafel, leest een samenvatting. Niet weinigen baseren zich op besprekingen van wetenschappelijk onderzoek in plaats van het artikel of boek zelf te lezen. Het klakkeloos overnemen van gegevens, zonder raadpleging van de oorspronkelijke bron, veroorzaakt steeds verdergaande verschrijvingen. Liefst tien procent van de literatuurverwijzingen in wetenschappelijke studies zijn fout. Kun je je voorstellen wat er inhoudelijk allemaal misloopt! Het volksgeloof dat spinazie uitzonderlijk veel ijzer bevat zou op zo'n verschrijving teruggaan. Door een fout geplaatste komma in de samenvatting van het oorspronkelijke onderzoek werd de hoeveelheid ijzer erin vertienvoudigd. Toch bevat deze bladgroente niet meer ijzer dan kool of broccoli. Arme Popeye! Maar goed, omdat het spinazieverbruik in de VS dankzij hem met 33% is gestegen, heeft hij toch een standbeeld gekregen (Crystal City, Texas).

Onderzoek met een negatief resultaat (de nieuwe therapie werkt minder goed dan de oude) wordt minder makkelijk wereldkundig gemaakt dan onderzoek met een gunstige uitslag. Deze publication bias zorgt ervoor dat de wetenschappelijke gemeenschap een enigszins vertekend beeld krijgt van de werkelijkheid en dat nogal wat onderzoek nodeloos wordt herhaald. Veel gebeurt zonder dat men er zich rekenschap van geeft. Maar bedrog en gesjoemel, gaande van het weglaten van een negatief onderzoeksresultaat tot het uitvinden van positieve, zijn niet echt zeldzaam. In de voorbije decennia zou dat alleen maar verergerd zijn, mogelijk omdat wetenschap niet langer een roeping is maar een beroep waar veel geld en macht mee gemoeid zijn. Het bovenstaande geldt ook voor de menswetenschappen, zoals ik uit eigen ervaring kan getuigen (zie daarover mijn artikel 'De prijs van vrijheid' in Streven, juni 1996).

Aan de lectuur van dit even voortreffelijk als alarmerend boek zijn ook gevaren verbonden. De auteurs beseffen dat, ze moedigen hun lezers aan alles sceptisch te benaderen, "twijfel aan alles, ook aan ons". Maar in dit tijdperk van gemakzuchtig postmodernisme waarin sommigen veel of alle wetenschappelijke kennis als onbetrouwbaar afschilderen, had toch enige expliciete aandacht mogen gaan naar het feit dat de medische wetenschap kennis en inzicht oplevert waar mensen hun voordeel mee gedaan hebben én doen. Men moet zich realiseren dat in dit boek een negatieve selectie van wetenschappelijk onderzoek aan bod komt en dat daardoor een enigszins vertekend beeld ontstaat.

Het is een onderhoudend en leesbaar boek. Niettegenstaande de ernst van het onderwerp brengt de bitse humor je meermaals aan het lachen. Zonder het te merken steek je heel wat op, ook van statistiek. Vrees niets, ook ik heb daar altijd een broertje aan dood gehad. Te wiskundige verklaringen worden in enkele voetnoten behandeld en die hoef je echt niet gelezen te hebben om te kunnen volgen. Geïnteresseerden en doordouwers komen aan hun trekken in een theoretisch aanhangsel. De lezer wordt ook herhaaldelijk uitgenodigd een en ander zelf uit te proberen, zelf teerlingen gooien, kant en klare tabellen invullen, alles zelf nagaan. Onder het motto dat wie zelf gemanipuleerd heeft sneller andermans manipulaties zal doorhebben, is ook een hoofdstukje voorzien waarin je met de waarheid leert liegen. Kortom, zoals de ondertitel aangeeft, foute informatie leren onderkennen door dwarsdenken.

 

Beck-Bornholdt, Hans-Peter & Dubben, Hans-Hermann  - Der Hund, der Eier legt. Erkennen von Fehlinformation durch Querdenken, Reinbek, Rowohlt, 1997, 256 blz.

Gepubliceerd in De Morgen, 3 juli 1998