Trial By Error: een nietszeggend antwoord van Chalder op het commentaar van Hughes-Tuller over valse data-analyse

26 mei 2022.

Vorig jaar publiceerde Trudie Chalder, professor in de cognitieve gedragstherapie aan het King College in Londen, weer een van haar uiterst incompetente wetenschappelijke artikelen. Dit is zo een statistisch betwist werk dat het werkelijk verbijsterend is, zelfs voor Professor Chalders extreem lage normen. Een team van zogezegd deskundige onderzoekers heeft de beschrijvingen van hun eigen gegevens zo erg verknoeid dat het artikel letterlijk onbegrijpelijk is geworden. Toen het werd gepubliceerd, tweetten Mark Vink en Keith Geraghty erover, respectievelijk hier en hier.

285 had CBT and 28 GET
on average they received 16.5 treatment sessions

The authors fail to mention that:
There is no improvement in: fatigue
fear avoidance
catastrophing
symptoms focusing
all or nothing behaviour
avoidance/resting behaviour
/1 pic.twitter.com/VMSF4TojAZ
— Mark Vink, MD (@Huisarts_Vink) December 8, 2021

ok this is this something @davidtuller1 and others have homed in on: if 55% were working at baseline and only 53% were working at baseline & follow up – so how can 9% more people be working ? its actually 2.54% more employed (6% drop out of work from baseline work) pic.twitter.com/EZ8F9jwfTZ
— Dr Keith Geraghty (@keithgeraghty) December 10, 2021

Mijn vriend en collega Brian Hughes, een hoogleraar psychologie aan de Nationale Universiteit van Ierland, Galway, en ik schreven een brief aan het wetenschappelijk tijdschrift Occupational Medicine, waarin we de ongenuanceerdheid van het artikel uitlegden. Gezien het feit dat het zo’n verdomde puinhoop is, stelden we voor dat het artikel zou worden ingetrokken. Dit was een ambitieus verzoek. En natuurlijk is dat niet gebeurd.

Deze week publiceerde het vakblad zowel onze brief als het antwoord van de auteurs – dat even onnauwkeurig is als het artikel zelf. Ze suggereren dat de fouten geen aanleiding tot diskwalificatie zijn, maar beweren dat hun taalgebruik op sommige plaatsen gewoon “minder precies is dan het had kunnen zijn.” Deze verklaring is belachelijk. De bewoordingen die zij in het hele artikel hebben gebruikt, zijn statistisch onjuist – niet alleen “onnauwkeurig.” Ze suggereerden dat ze “graag” de vermeende “minder nauwkeurige” manier van werken willen corrigeren. Goh, bedankt, Trudie!

Brian heeft op zijn blog, The Science Bit, een bericht geschreven over dit valse antwoord. Dus ik ga niet de moeite nemen om dat te doen. Ik zal gewoon onze brief opnieuw posten, samen met hun antwoord, zodat geïnteresseerde lezers zelf kunnen zien hoe deze onderzoekers de zaken hebben verdraaid. Deze gebeurtenissen zijn ook een slechte zaak voor de peerreviewprocessen van het wetenschappelijke tijdschrift, die in dit geval spectaculair hebben gefaald, en voor het oordeel van de redacteur, Steven Nimmo, een specialist in bedrijfsgeneeskunde bij de Plymouth Hospitals NHS Trust.

En beleidsmakers in het Verenigd Koninkrijk besteden aandacht aan deze mensen? Echt waar? Wow.

**********

Onze brief aan Occupational Medicine

Geachte Heer,

Onlangs verscheen in Occupational Medicine een wetenschappelijk artikel van Stevelink e.a. [1], getiteld “Chronic fatigue syndrome and occupational status: a retrospective longitudinal study” [Chronisch vermoeidheidssyndroom en beroepsstatus: een retrospectieve longitudinale studie]. Helaas bevat het artikel grote technische en methodologische fouten die dringende redactionele aandacht verdienen.

Om samen te vatten: de studie begon met 508 deelnemers. Het primaire resultaat was beroepsstatus. Veel deelnemers waren gestopt bij de follow-up – slechts 316, of 62%, verstrekten follow-upgegevens. Van deze 316 meldde 88% geen verandering in de beroepsstatus. Als groep ervoeren de deelnemers geen of slechts onbetekenende veranderingen in een reeks secundaire uitkomsten, waaronder vermoeidheid en fysieke functie. De slechte follow-upscores op vermoeidheid en fysieke functie alleen al wijzen erop dat de groep, collectief, ernstig gehandicapt bleef na de behandeling.

In verschillende delen van het artikel geven de auteurs een onjuiste beschrijving van hun eigen statistische bevindingen. Zij maken een steeds terugkerende elementaire fout in hun presentatie van percentages. De auteurs gebruiken herhaaldelijk de constructie “X% van de patiënten die Y deden op bij aanvang” terwijl zij de constructie “X% van alle 316 patiënten (d.w.z. degenen die follow-upgegevens verstrekten)” hadden moeten gebruiken. Deze steeds terugkerende fout met betrekking tot de kernbevindingen ondermijnt de verdienste en integriteit van het gehele artikel.

In het Abstract stellen de auteurs bijvoorbeeld dat “53% van de patiënten die [bij aanvang] werkten, [bij follow-up] bleven werken.” Dit is niet juist. Uit hun eigen gegevens (tabel 2) blijkt dat 185 patiënten (d.w.z. 167 + 18) aan het werk waren bij aanvang van de studie, en dat 167 patiënten aan het werk waren op beide tijdstippen. Met andere woorden, het percentage dat continu werkte was in feite 90% (d.w.z. 167 van de 185). De “53%” waarnaar de auteurs verwijzen, is het percentage van de steekproef dat op beide tijdstippen werkte (d.w.z. 167 van de 316), wat een compleet andere subgroep is. Ofwel hebben zij het percentage waarover zij schreven verkeerd begrepen, ofwel hebben zij hun eigen bevinding verkeerd weergegeven door deze aan het verkeerde percentage te koppelen.

Deze fout wordt doorgetrokken in het hoofdstuk ‘Belangrijkste leerpunten’, waar de auteurs stellen dat ‘meer dan de helft van de patiënten die bij aanvang werkten, in staat waren om tijdens de follow-upperiode aan het werk te blijven…’ Hoewel 90% zeker ‘meer dan de helft’ is, lijkt het duidelijk dat deze formulering opnieuw ten onrechte verwijst naar de subgroep van 53%.

Dezelfde fout wordt gemaakt met de andere belangrijke bevindingen. In het Abstract staat bijvoorbeeld dat “van de patiënten die bij aanvang niet werkten, 9% bij follow-up weer aan het werk was.” Maar zoals hierboven, is dit onjuist. In totaal werkten 131 patiënten (d.w.z. 104 + 27) niet bij aanvang en 27 werkten niet bij aanvang maar wel bij de follow-up. Dit is 21%, niet 9%. Nogmaals, de auteurs lijken hun eigen bevindingen verkeerd te begrijpen. De “9%” waarnaar zij verwijzen is een percentage van de steekproef van 316; het is niet, zoals zij beweren, een percentage van die subgroep van de steekproef die aanvankelijk werkloos was. Deze onjuiste conclusie van “9%” staat ook in de “Belangrijkste leerpunten” en in de discussie.

En opnieuw stellen de auteurs in het Abstract dat “van degenen die bij de aanvang van het onderzoek werkten, 6% niet in staat was bij de follow-up te blijven werken”, een bewering die zij herhalen in het gedeelte over “Belangrijkste leerpunten” en in de Discussie. Ook deze bewering is onjuist. Opnieuw interpreteren de auteurs een percentage van de steekproef van 316 ten onrechte alsof het een percentage van een gerichte subgroep zou zijn. In dit geval denken zij dat zij verwijzen naar een percentage van de patiënten die bij aanvang werkten, maar eigenlijk verwijzen zij naar een percentage van de volledige groep die follow-upgegevens verstrekte.

De auteurs presenteren de ruwe frequentiegegevens in tabel 2. De lezers kunnen zelf zien hoe hun steekproef van 316 patiënten is onderverdeeld in vier subgroepen (d.w.z. “werkend bij aanvang en follow-up”; “niet-werkend bij aanvang en follow-up”; “gestopt met werken bij follow-up”; “weer aan het werk bij follow-up”). Uit tabel 2 blijkt duidelijk dat de beschrijving in het corpus van het document niet overeenstemt met de feitelijke gegevens.

Het valt niet te ontkennen dat de tekst van dit document vol staat met elementaire technische fouten, zoals beschreven. Onvermijdelijk wordt het verhaal vertekend doordat de auteurs er niet in slagen hun eigen bevindingen te begrijpen en correct uit te leggen. Het is ons onduidelijk hoe deze elementaire en voor de hand liggende fouten niet zijn opgemerkt tijdens de peerreview. Hoewel we de identiteit van de peerreviewers niet kennen, speculeren we dat groepsdenken en vooringenomenheid een rol zullen hebben gespeeld. Per slot van rekening is het over het algemeen aannemelijk dat collegiale toetsers aannemen dat de auteurs hun eigen berekeningen hebben begrepen.

Er zijn verschillende andere kenmerken van dit artikel die zorgen baren. Deze omvatten het volgende:

De auteurs verklaren dat zij de deelnemers hebben geëvalueerd aan de hand van richtlijnen van het National Institute for Health and Care Excellence (NICE) van het Verenigd Koninkrijk. (Vermoedelijk verwijzen zij naar de NICE-richtlijn uit 2007, niet naar de herziening gepubliceerd in oktober 2021). Maar de referentie voor deze verklaring is een document uit 1991 waarin de zogenaamde “Oxford-criteria” worden uiteengezet, een casusdefinitie die aanzienlijk verschilt van de NICE-richtlijnen van 2007. Bovendien stellen de auteurs in een eerder door Occupational Medicine gepubliceerd artikel over hetzelfde deelnemerscohort – “Factors associated with work status in chronic fatigue syndrome” [Factoren geassocieerd met werkstatus bij chronisch vermoeidheidssyndroom] – expliciet dat deze patiënten werden gediagnosticeerd aan de hand van de Oxford-criteria. Deze inconsistentie is niet onbelangrijk, omdat de verschillen tussen deze twee diagnostische benaderingen wezenlijke implicaties hebben voor de wijze waarop de bevindingen moeten worden geïnterpreteerd. De verwarring van de auteurs over deze kwestie is moeilijk te begrijpen en doet fundamentele vragen rijzen over de geldigheid van hun onderzoek.
Volgens tabel 1 waren er geen veranderingen of geen significante veranderingen in de gemiddelde scores voor vermoeidheid, lichamelijk functioneren en verscheidene andere secundaire uitkomsten tussen de voorlopige steekproef van 508 en de uiteindelijke follow-up van 316. De auteurs erkennen zelf dat de patiënten die voor de follow-up afhaakten, waarschijnlijk een slechtere gezondheid hadden dan degenen die bleven. Daarom vertroebelt het feit dat tabel 1 gecombineerde gemiddelden voor de gehele voorlopige steekproef presenteert – d.w.z. gecombineerde gemiddelden voor patiënten die afhaakten en voor degenen die niet afhaakten – de zaak. De presentatie van gecombineerde uitgangsscores voor alle patiënten maskeert elke afname die voor deze variabelen optrad in de subgroep die werd gevolgd. Het zou veel beter geweest zijn om de basisgegevens van de 316 opgevolgde patiënten te isoleren en alleen te presenteren. Dit zou de onderzoeksvraag van de auteurs beter hebben weerspiegeld en zou de lezers in staat hebben gesteld gelijke feiten met elkaar te vergelijken.
Ten slotte stellen de auteurs dat “studies naar CVS weinig nadruk hebben gelegd op arbeidsresultaten, waaronder terugkeer naar het werk na ziekte”. Zij verzuimen echter opvallend de PACE-trial te vermelden, een grootschalig Brits onderzoek naar interventies voor CVS. De PACE-studie omvatte de arbeidsstatus als een van de vier objectieve uitkomsten, waarbij uit de gegevens bleek dat de gebruikte interventies – dezelfde als in de studie van de arbeidsgeneeskunde – geen effect hadden op de arbeidsuitkomsten. Deze eerdere bevinding is zo belangrijk voor het huidige artikel dat het bijzonder merkwaardig is dat de auteurs ervoor hebben gekozen deze weg te laten. Dit is des te verontrustender omdat de corresponderende auteur van dit artikel een van de hoofdonderzoekers van de PACE-studie zelf was.

Auteurs van onderzoekspapers zijn verplicht om baanbrekende bevindingen uit eerdere studies aan te halen die directe implicaties hebben voor de beoogde onderzoeksvraag. Door dit niet te doen – vooral wanneer er sprake is van overlappend auteurschap – wordt ver tekortgedaan aan de gebruikelijke normen die in wetenschappelijke rapportage worden verwacht.

Zelfs als we deze bijkomende zaken buiten beschouwing laten, maken de technische fouten die de rapportage van percentages in dit artikel ondermijnen, de belangrijkste conclusies zinloos. De zinnen die gebruikt worden om de bevindingen te beschrijven, zijn eenvoudigweg onjuist, en de hele strekking van het artikel is daardoor besmet. Wij zijn van mening dat het toestaan dat de auteurs een correctie van deze zinnen publiceren alleen maar meer verwarring zou scheppen.

We roepen het vakblad dan ook op het artikel in te trekken.

1.Stevelink SAM, Mark KM, Fear NT, Hotopf M, Chalder T. Chronic fatigue syndrome and occupational status: a retrospective longitudinal study. Occup Med (Lond). 2021. doi:10.1093/occmed/kqab170.

**********

Chalder et al. antwoorden met nog meer onzinnig gebazel

Geachte Heer,

Dank u voor uw verzoek om te reageren op het commentaar van professor Brian Hughes en dr. David Tuller op ons artikel Chronic fatigue syndrome and occupational status: a retrospective cohort study. Wij hebben hun opmerkingen zorgvuldig overwogen en onze analyses gecontroleerd. Hoewel we erkennen dat er op bepaalde punten enige verduidelijking nodig is, blijven we bij onze gegevens en de belangrijkste bevindingen van het artikel.

Commentaar: onjuiste beschrijving van statistische bevindingen, gebruikmakend van “X% van patiënten die Y deden bij aanvang” terwijl ze de constructie “X% van alle 316 patiënten (d.w.z. degenen die follow-upgegevens verstrekten)” hadden moeten gebruiken.

Antwoord: we hebben aan het begin van het onderdeel Resultaten duidelijk gemaakt dat we alleen de 316 patiënten in onze analyses hebben opgenomen voor wie we basislijn- en follow-upgegevens hebben over onze uitkomst van belang, namelijk werkstatus. We hebben dit ook duidelijk vermeld in het onderdeel Methoden van het abstract.

We herhalen ook in paragraaf 2 van de resultaten dat “119/316 (38%) rapporteerden dat zij bij aanvang met ziekteverlof waren van hun werk”.

Wij zijn het daarom niet eens met de kritiek.

Commentaar: onjuiste beschrijving van statistische bevindingen. In het Abstract stellen de auteurs bijvoorbeeld dat “53% van de patiënten die werk hadden [bij aanvang], aan het werk bleven [bij follow-up]”. Dit is niet juist. Uit hun eigen gegevens (tabel 2) blijkt dat 185 patiënten (d.w.z. 167 + 18) aan het werk waren bij aanvang van de studie, en dat 167 patiënten op beide tijdstippen aan het werk waren. Met andere woorden, het percentage dat continu werkte was in feite 90% (d.w.z. 167 van de 185). De “53%” waarnaar de auteurs verwijzen, is het percentage van de steekproef dat op beide tijdstippen werkte (d.w.z. 167 van de 316), wat een geheel andere subgroep is.

Antwoord: we rapporteerden over het aandeel patiënten met CVS in relatie tot onze belangrijkste uitkomst van betekenis: veranderingen in werkstatus in de loop van de follow-up. Deze percentages werden berekend op basis van de totale steekproef en weergegeven in tabel 2. We zijn het er echter mee eens dat de formulering in de samenvatting minder nauwkeurig was dan ze had kunnen zijn. De 53% werd afgeleid van de totale steekproef wanneer gekeken werd naar alle categorieën van ons belangrijkste resultaat (bleef werken wanneer gekeken werd naar de totale steekproef), maar zoals aangegeven zou het beter zijn geweest om de formulering aan te passen of als alternatief alle patiënten die werkten bij aanvang (n = 185) als noemer te gebruiken. Wij zijn bereid dit te corrigeren.

Commentaar: de auteurs geven aan dat de patiënten voldeden aan de NICE-criteria voor CVS, terwijl in hun vorige artikel, ook gepubliceerd in Occupational Medicine, werd gesuggereerd dat zij voldeden aan de Oxford-criteria. Deze inconsistentie is niet onbelangrijk, omdat de verschillen tussen deze twee diagnostische benaderingen inhoudelijke implicaties hebben voor hoe de bevindingen moeten worden geïnterpreteerd.

Antwoord: wij verontschuldigen ons voor deze fout. Wij hadden moeten zeggen dat alle patiënten voldeden aan de NICE-criteria voor CVS. Een deel voldeed ook aan de Oxford-criteria. We brengen graag een correctie in het manuscript aan.

Commentaar: volgens tabel 1 waren er geen veranderingen of geen betekenisvolle veranderingen in de gemiddelde scores voor vermoeidheid, lichamelijk functioneren en meerdere andere secundaire uitkomsten tussen de voorlopige steekproef van 508 en de uiteindelijke follow-upsteekproef van 316. De auteurs erkennen zelf dat de patiënten die voor de follow-up afhaakten, waarschijnlijk een slechtere gezondheid hadden dan degenen die bleven. Daarom vertroebelt het feit dat tabel 1 gecombineerde gemiddelden voor de gehele voorlopige steekproef presenteert – d.w.z. gecombineerde gemiddelden voor patiënten die afhaakten en voor degenen die niet afhaakten – de zaak. De presentatie van gecombineerde uitgangsscores voor alle patiënten maskeert eventuele achteruitgang die zich voor deze variabelen hebben voorgedaan in de subgroep die werd opgevolgd.

Antwoord: het doel van dit artikel was de veranderingen in werkstatus te onderzoeken van de basislijn tot de follow-up bij de 316 patiënten die bij beide gelegenheden een werkstatus hadden. Tabel 1 beschrijft de basislijnresultaten voor de patiënten van de volledige uitgangssteekproef vergeleken met de subgroep die met succes werd opgevolgd. Uit de gegevens in tabel 1 blijkt dat de gegevens voor alle bij de uitgangssituatie verzamelde gegevens vergelijkbaar waren, behalve voor de beroepsstatus, die wij in de resultaten hebben besproken. Wij hebben dit ook in de discussie becommentarieerd en een waarschuwing toegevoegd over de interpretatie van de resultaten. Er is niets onjuist in onze presentatie van de resultaten in tabel 1.

Een andere manier om deze resultaten te presenteren, is het vergelijken van de basisscores voor degenen die alleen over basisgegevens beschikten met degenen die over uitgangs- en follow-upgegevens beschikten (zie tabel 1, beschikbaar als Supplementaire Data op Occupational Medicine Online). Uit deze bevindingen blijkt dat er geen verschillen waren tussen deze groepen wat betreft geslacht, leeftijd, burgerlijke staat en slechts een minimaal significant verschil in opleiding (P = 0,043). Het belangrijkste is dat er geen verschil werd gevonden tussen de twee groepen met betrekking tot de vraag of de deelnemers meldden dat hun werk fysiek zwaar was, emotioneel zwaar, depressie-/angstsymptomen, scores op de werk- en sociale aanpassingsschaal, ernst van de vermoeidheid of een van hun antwoorden op de cognitieve en gedragsmatige antwoordenvragenlijst, behalve voor catastroferende gedachten. Er was echter een grotere kans dat patiënten de follow-up niet haalden als ze bij aanvang slechter lichamelijk functioneren meldden en langer aan CVS leden (gemiddeld 5,8 jaar in de groep die de follow-up niet haalde, versus 4,8 jaar in de groep die bij beide gelegenheden gegevens verstrekte).

De resultaten in tabel 2 beantwoorden aan het doel van het huidige artikel en de inzichten uit tabel 1 (beschikbaar als Supplementaire Data op Occupational Medicine Online) veranderen niets aan de interpretatie van onze bevindingen.

Commentaar: de auteurs stellen dat “studies naar CVS weinig nadruk hebben gelegd op arbeidsuitkomsten, waaronder terugkeer naar het werk na ziekte”. Ze verzuimen echter opvallend de PACE-trial te vermelden, een spraakmakende grootschalige Britse studie naar interventies voor CVS. De PACE-studie omvatte de werkgelegenheidsstatus als een van de vier objectieve uitkomsten, waarbij uit de gegevens bleek dat de gebruikte interventies – dezelfde als in de studie van de arbeidsgeneeskunde – geen effect hadden op de arbeidsuitkomsten. De omissie is des te verontrustender omdat de auteur van het artikel hoofdonderzoeker was van de PACE-studie zelf.

Reactie: het doel van de huidige studie was om factoren te onderzoeken die samenhangen met veranderingen in werkstatus in de loop van de tijd bij patiënten met CVS en er werd niet gekeken naar de effectiviteit van de behandeling. De behandeling was niet specifiek gericht op werkresultaten en effectiviteit viel buiten het bereik van het huidige artikel. Wij hebben niet eerder naar het artikel verwezen omdat wij het niet gepast vonden.

We merkten op dat de auteurs voorstelden het artikel in te trekken. Wij staan achter de resultaten die in ons artikel worden beschreven; we willen echter graag de gelegenheid krijgen om de kwestie van de definitie van gevallen te corrigeren en zijn graag bereid om de andere punten te verduidelijken die de redactie nodig acht.

Met vriendelijke groeten