Home » Nieuwsartikels » David Tuller » Trial By Error: Chalder stelt nuluitkomsten weer voor als succes; Tack & Tuller reageren + Brief Struthers

Trial By Error: Chalder stelt nuluitkomsten weer voor als succes; Tack & Tuller reageren + Brief Struthers

Geplaatst door Zuiderzon
op 06/10/2021

Laatste bijwerking op 06/10/2021

Bron:

David Tuller, DrPH, Virology Blog

| 16985 x gelezen

Trial By Error: nuluitkomsten weer voorgesteld als succes in CGT-studie van Prof. Trudie Chalder

19 juni 2021.

Trudie Chalder, een professor in de cognitieve gedragstherapie (CGT) aan King’s College in Londen, heeft onlangs weer een spraakmakend artikel gepubliceerd: de belangrijkste resultaten voor “doeltreffendheid” van een proef met CGT voor patiënten met zogenaamde “aanhoudende lichamelijke klachten” (ALK) in de tweedelijnszorg. Zoals gebruikelijk bij deze groep onderzoekers, is het niet goed afgelopen. Maar ondanks nulresultaten voor de primaire uitkomst, stellen professor Chalder en haar gelijkgestemde collega’s de bevindingen in een positief daglicht in hun artikel, gepubliceerd in Psychological Medicine.

(Psychological Medicine publiceerde ook de onzinnige herstelpaper uit 2013 van het PACE-team; Professor Chalder was een van de drie hoofdonderzoekers voor deze klassieker van waarschijnlijk wetenschappelijk wangedrag, waarbij deelnemers slechter konden worden op de primaire uitkomsten en toch als “hersteld” konden worden geacht. Toen ik dit een paar jaar geleden bij de redactie aanhaalde, werd mij geadviseerd om de PACE-studie te repliceren, maar in plaats daarvan eiste ik de onmiddellijk intrekking in een brief aan het vakblad met meer dan 100 ondertekenaars.)

De nieuwe studie, die de PRINCE Secondary Trial heet, staat los van een andere studie met mensen met aanhoudende lichamelijke symptomen in de eerste lijn: de PRINCE Primary Trial. Beide maken deel uit van de lopende campagne van professor Chalder en haar collega’s om een bewijsbasis te bieden als rechtvaardiging voor de uitbreiding van psychologische diensten voor iedereen die aan ALK lijdt, een categorie die ook vaak wordt aangeduid als “somatisch onverklaarde lichamelijk klachten” (SOLK). Voor professor Chalder en haar collega’s omvatten ALK en SOLK chronisch vermoeidheidssyndroom, prikkelbaredarmsyndroom, fibromyalgie en vrijwel alles wat niet eenvoudig klinisch beoordeeld en gediagnosticeerd kan worden en dat kan worden geïnterpreteerd als veroorzaakt en/of in stand gehouden door psychologische factoren, door experts die vatbaar zijn voor dergelijke interpretaties.

Laten we eerst opmerken dat PRINCE Secondary een niet-geblindeerd onderzoek is dat steunt op zelfgerapporteerde uitkomsten – een onderzoeksopzet dat vol zit met potentiële en feitelijke vertekening. Dit is niet enkel de mening van mensen die een hekel hebben aan de PACE-studie en die geloven dat Psychological Medicine veel onzinnig onderzoek publiceert. Zoals ik heb opgemerkt, publiceerde de huidige hoofdredacteur van het Journal of Psychosomatic Research, samen met zijn twee voorgangers, eerder dit jaar een redactioneel artikel waarin ze duidelijk aangaven dat subjectieve uitkomsten onderhevig waren aan enorme vertekening in onderzoeken die niet streng geblindeerd zijn. (Dat betekent niet dat het vakblad gestopt is met publiceren van dergelijk problematisch onderzoek, zoals recent werk van Professor Chalders PACE-collega, Professor Peter White.)

Voortgaand op deze lovenswaardige stellingname van het Journal of Psychosomatic Research zouden eventuele positieve resultaten van PRINCE Secondary meteen verdacht zijn. Maar in dit geval is dat is niet eens aan de orde, gezien de nulresultaten voor de primaire uitkomst – de Werk- en Sociale Aanpassingsschaal (WSAS) na 52 weken. (De uitstekende blog CBT Watch heeft een kritiek op de studie gepubliceerd.)

PRINCE Secondary was volgens het onderzoeksprotocol “een RCT ontworpen om de werkzaamheid en kosteneffectiviteit te evalueren van een transdiagnostische cognitieve gedragsinterventie voor volwassenen met ALK in de tweede lijn”. De interventie – “door de therapeut geleverde transdiagnostische CGT” of TDT-CGT – werd aangeboden naast de standaard medische zorg (SMZ). Het is speciaal ontwikkeld om de volgende problemen aan te pakken, zoals uiteengezet in het gepubliceerde artikel: “Patiënten met ALK kunnen nutteloze cognities en gedrag ontwikkelen die bijgevolg kunnen leiden tot een vermindering van het dagelijks functioneren, een verminderde levenskwaliteit en een verhoogde vatbaarheid voor het ontwikkelen van depressie en angst.” De vergelijkingsarm kreeg alleen SMZ.

Het protocol prees de studie aan als een belangrijk initiatief: “De studie PRINCE Secondary zal de eerste studie wereldwijd zijn die de werkzaamheid en kosteneffectiviteit onderzoekt van een protocollaire, transdiagnostische benadering… Als het doeltreffend blijkt te zijn, dan kan deze behandelingsbenadering het algehele functioneren van patiënten met ALK aanzienlijk verbeteren en kan het leiden tot aanzienlijke economische voordelen op lange termijn voor de NHS.”

Dat laatste punt is belangrijk. Professor Chalder en veel van haar collega’s promoten de uitbreiding van het programma Toegang tot Psychologische Therapieën Verbeteren van de National Health Service voor mensen met SOLK. Na deze publicatie zal het moeilijk zijn om PRINCE Secondary aan te halen als bewijs dat CGT voor SOLK een “werkzame” behandeling is – integendeel, de resultaten ondermijnen zulke beweringen. Maar dat zal professor Chalder of andere leden van de ideologische CGT-brigade er waarschijnlijk niet toe brengen hun eigen beweringen over hun favoriete interventies in twijfel te trekken. [In onderzoek verwijzen “werkzaamheid” en “werkzaam” naar hoe interventies presteren in gecontroleerde onderzoeken zoals klinische onderzoeken; “doeltreffendheid” en “doeltreffend” verwijzen naar hoe interventies in de echte wereld presteren.]

**********

Laten we het woord “werkzaam” vergeten en in plaats daarvan het woord “nuttig” gebruiken

Het protocol voor de PRINCE Secondary Trial, gepubliceerd in BMC Psychiatry, verklaarde duidelijk: “De werkzaamheid zal worden beoordeeld door het verschil tussen de armen te onderzoeken in de primaire uitkomstmaten Werk- en Sociale Aanpassingsschaal (WSAS) 52 weken na randomisatie.” De studie zelf merkt op dat de WSAS “werd gekozen als de primaire uitkomst omdat de focus van de therapie gericht was op processen die zouden kunnen resulteren in een vermindering van de impact van symptomen.” Met andere woorden, de TDT-CGT was specifiek gericht op het beïnvloeden van de cognitieve en gedragsfactoren waarvan werd aangenomen dat ze ALK-patiënten ervan weerhielden om volledig deel te nemen aan hun werk- en sociale leven.

Oké, dan. Na zorgvuldige evaluatie van alle eerdere studies en mogelijke uitkomstmaten met het oog op het ontwikkelen van een gezaghebbend protocol, bepaalden de onderzoekers hoe zij wilden dat het effect van hun interventie definitief zou worden gemeten. De WSAS is een schaal van 40 punten. De onderzoekers berekenden dat een verschil van 3,6 punten of meer op de schaal als klinisch significant zou worden beschouwd. Dat wil zeggen, elke verandering van minder dan 3,6 punten zou van onbeduidend klinisch voordeel zijn voor een individu – het zou in wezen betekenisloos zijn en zich niet vertalen in een merkbare verbetering.

Na 52 weken was de gemiddelde WSAS-score van degenen die de interventie kregen slechts 1,48 punten lager dan degenen die dat niet deden. (Lagere WSAS-scores duiden op verbetering.) De p-waarde was 0,139 – ver verwijderd van de 0,05-drempel die nodig was om als statistisch significant te worden beschouwd. Dus de WSAS-bevindingen op 52 weken waren zowel klinisch als statistisch niet significant. Bovendien viel het gehele betrouwbaarheidsintervalbereik (-3,44 tot 0,48) onder de aangegeven drempel van 3,6 punten voor klinische significantie. Dit zijn echt eenduidige resultaten. Ze kunnen in ieder geval niet gebruikt worden als promo voor het gebruik van CGT als behandeling voor ALK en SOLK.

Daarom is de conclusie van het abstract van de paper zo opvallend en zo bizar. De conclusie van een abstract is wat veel mensen die een paper diagonaal lezen, zich waarschijnlijk vooral zullen herinneren. Dit is de volledige conclusie van het abstract: “We hebben voorlopig bewijs dat TDT-CGT + SMZ nuttig kan zijn voor mensen met een reeks ALK’s. Er is echter verder onderzoek nodig om de effecten aan het einde van de behandeling te maximaliseren of te behouden.”

Iedereen die de tijd neemt om de paper grondig door te nemen, kan niet anders dan verbijsterd zijn over deze conclusie. Deze grootschalige proef werd goedgekeurd omdat veel eerder onderzoek, zoals beschreven in het protocol, voldoende “voorlopig bewijs” had opgeleverd van het soort dat in de conclusie wordt genoemd. Tenzij ik het fout heb gelezen, stelde het protocol niet voor om meer “voorlopig bewijs” te produceren dat de TDT-CGT-interventie “nuttig zou kunnen zijn”. PRINCE Secondary werd voorgesteld in het protocol en ontving financiering op basis van het idee dat het harde gegevens zou opleveren over “de werkzaamheid en kosteneffectiviteit” van de interventie. (De paper in Psychological Medicine bevatte geen gegevens over “kosteneffectiviteit”.)

Opgemerkt moet worden dat “nut” niet hetzelfde is als “werkzaamheid” en niet wordt gedefinieerd in het protocol of de studie zelf. Een interventie kan op de een of andere manier “nuttig” zijn als ondersteunende strategie, terwijl het geen “werkzaamheid” heeft als een feitelijke behandeling. In deze proef werd de methode voor het beoordelen van de “werkzaamheid” van de behandeling duidelijk aangegeven; de resultaten bereikten die statistiek niet, dus de behandeling kan niet als “werkzaam” worden omschreven. Als vage vervanging klinkt ‘nut’ positief, maar kan het min of meer alles betekenen – net als in dit geval.

In het rapport wijzen de onderzoekers acht secundaire uitkomsten aan. Zij noemen marginale verbeteringen in drie van deze resultaten als indicatie van mogelijk “nut”. Maar de resultaten suggereren op zijn best het volgende: door mensen acht sessies aanmoediging en aandacht te geven, kunnen zij hun antwoorden op sommige – maar niet de meeste – vragenlijsten met één of twee stappen verbeteren, vergeleken met degenen die niet acht weken lang dergelijke aanmoediging en aandacht krijgen. Dat is alles. Expansieve interpretaties van “nut” zijn niet gerechtvaardigd.

Laten we deze secundaire resultaten wat gedetailleerder bekijken. De eerste is de WSAS na 20 weken, die een verschil van 2,41 punten tussen de groepen rapporteerde. Dit is nog steeds onder de drempel van 3,6 punten om klinisch significant te zijn. En zoals verwacht vanwege de vooringenomenheid die inherent is aan zelfgerapporteerde uitkomsten in niet-geblindeerde onderzoeken, werd zelfs dit minimale schijnbare effect niet gehandhaafd na 52 weken. (De WSAS na 20 weken werd in feite niet vermeld als een secundaire uitkomst in het protocol.)

Andere resultaten waren ook niet indrukwekkend. Vijf van de acht vermelde secundaire uitkomsten leverden geen statistisch significante bevindingen op. Twee anderen deden dat wel. De interventiegroep behaalde een verschil van 1,51 punten met de vergelijkingsgroep op de 30-puntenschaal Patient Health Questionnaire 15 en een verschil van 0,55 punten op de 9-puntenschaal Global Clinical Impression. Deze minimale gerapporteerde verbeteringen leveren geen overtuigend bewijs voor de interventie, aangezien ze ruim binnen het bereik van de reacties vallen die men zou verwachten van het soort vooringenomenheid in een niet-geblindeerd onderzoek met subjectieve uitkomsten, waar de redacteurs van het Journal of Psychosomatic Research onlangs over schreven.

******

Het probleem van meerdere vergelijkingen

En er is nog een ander probleem. Wanneer auteurs meerdere vergelijkingen maken, vergroten ze de kans dat ze enkele resultaten krijgen die per toeval statistische significantie bereiken. Om dat goed te maken, is het gebruikelijk om de resultaten te corrigeren of aan te passen met standaard statistische stappen, waarvan de Bonferroni-correctie de meest bekende is. Toch houden de PRINCE-onderzoekers niet van die aanpak. Het is te streng voor hun behoeften, dus besloten ze het achterwege te laten. Dit is wat ze zeggen:

“In dit hele artikel presenteren we niet-gecorrigeerde p-waarden. Methoden voor het corrigeren van de familiale fout door methoden zoals de Bonferroni-correctie staan bekend als voorzichtig. Als men echter een methode zou gebruiken die de valse ontdekkingsgraad controleert, zoals de Benjamini-Hochberg-procedure, dan bleven de verschillen op PHQ-15, WSAS op 20 weken en CGI statistisch significant en kunnen daarom als ontdekkingen worden beschouwd na correctie voor alle negen uitkomsten (acht secundaire plus primaire uitkomst).”

“Mijn creatieve interpretatie van deze uitspraak: onze bevindingen zijn zwak, maar ze zijn nog zwakker zijn dan ze lijken te zijn in onze rapportage. Daarom hebben we niet de moeite genomen om p-waarden te berekenen en te presenteren die rekening hielden met en gecorrigeerd werden voor het aantal tests dat we deden om statistisch significante resultaten te vinden. Ook is de standaardmethode om te corrigeren voor meerdere tests in een onderzoek als dit echt heel ingewikkeld, dus we gaan ze niet gebruiken. Maar we kunnen je verzekeren dat we met een correctiemethode die wij beter vinden, deze resultaten toch “ontdekkingen” kunnen noemen! (We presenteren die gecorrigeerde resultaten niet, maar geloof ons – deze studie is een succes.)

In de conclusie van een abstract moet op zijn minst een poging worden gedaan om de bevindingen op te nemen voor het primaire resultaat – de belangrijkste resultaten. De conclusie van Chalder en collega’s had onomwonden moeten vermelden dat de interventie niet doeltreffend was. In deze context is het een belediging voor de lezers om prioriteit te geven aan de uiterst bescheiden niet-gecorrigeerde resultaten van een minderheid van secundaire uitkomsten boven de nulresultaten van de primaire uitkomst. Wat een zielige manier om slecht nieuws weg te moffelen.

Bovendien is het niet eerlijk van de onderzoekers om te beweren dat deze magere gegevens “voorlopig bewijs” vormen voor de interventie, terwijl het primaire resultaat een flop was. De roep om verder onderzoek om te bestuderen hoe deze effecten kunnen worden gehandhaafd of uitgebreid, is ongegrond. De interventie heeft niet de voorspelde en gewenste effecten opgeleverd. Dat is de enige geloofwaardige interpretatie van deze rampzalige resultaten.

Peerreviewers en redacteurs van vakbladen hebben de taak om op te treden als bescherming tegen onjuiste voorstellingen. In dit geval heeft het systeem gefaald. Een conclusie waarin geen melding wordt gemaakt van de nulresultaten voor het primaire resultaat, is onaanvaardbaar – dit had nooit gepubliceerd mogen worden.

Trial By Error: Tack en ik schrijven naar Psych Medicine; Struthers schrijft naar Medical Research Council

David Tuller, DrPH, Virology Blog, 24 juli 2021.

Een recent onderzoek naar cognitieve gedragstherapie (CGT) voor patiënten met “aanhoudende lichamelijke klachten” (ALK), een categorie die ook “somatisch onverklaarde lichamelijke klachten” wordt genoemd, rapporteerde nulresultaten voor de primaire uitkomst. Deze nulresultaten werden niet vermeld in de conclusie van het abstract, dat in plaats daarvan gericht was op minimaal gerapporteerde voordelen voor een minderheid van secundaire uitkomsten. Dat is echt niet oké! De studie werd gepubliceerd in Psychological Medicine– een vakblad dat nauwe banden heeft met de PACE-onderzoekers en andere leden van de ideologische CGT-brigade.

Ik heb een brief aan het vakblad geschreven samen met Michiel Tack, een ME/cvs-patiënt die op zijn blog ME/CFS-skeptic scherp commentaar geeft op onderzoek. De brief werd niet enkel ingediend als correspondentie, maar werd ook op een preprintserver geplaatst. De meeste preprintservers dienen als publicatielocatie voor onderzoek, niet voor correspondentie, maar het leek ons een goed idee om de brief ook daar te posten.

In het verleden heb ik nooit veel moeite gedaan om formele correspondentie in te dienen bij vakbladen. Het interesseert me niet zo hoe lang ik moet wachten tot de redacteurs besluiten om het al dan niet te publiceren. Ook lijken vakbladen liever brieven te publiceren waarin wordt gewezen op ernstige gebreken in artikelen, dan dat ze die ernstige gebreken zelf corrigeren. Dus in plaats daarvan stuurde ik meestal rechtstreeks brieven naar redacteurs over mijn bedenkingen. Vervolgens postte ik de brieven op Virology Blog of Facebook. Soms hebben deze interventies een passende reactie opgeleverd; soms ook niet. Het grote voordeel van formele correspondentie daarentegen is dat het – in tegenstelling tot blogposts – wordt opgenomen in het officiële wetenschappelijke archief, wordt geïndexeerd in databanken en kan worden geciteerd.

De beschikbaarheid van een preprintoptie doorbreekt in feite een beetje de wurggreep die de vakbladen hebben op het publieke debat. In het tijdperk van het coronavirus zijn preprints een essentieel onderdeel geworden van het ecosysteem van de wetenschapscommunicatie. Het is niet langer uitgesloten dat een artikel (of een brief) wordt ingediend bij een vakblad, en dat het tegelijkertijd op een preprintserver wordt geplaatst.

Dit is een deel van onze brief:

PRINCE Secondary was een gerandomiseerde studie om de werkzaamheid en kosteneffectiviteit te testen van door een therapeut geleverde, transdiagnostische cognitieve gedragstherapie (TDT-CGT) voor patiënten met aanhoudende lichamelijke klachten (ALK). (Chalder et al., 2021) 324 ALK-patiënten werden gerandomiseerd om ofwel TDT-CGT plus standaard medische zorg (SMZ) of alleen SMZ te ontvangen. Het primaire resultaat van de studie was de gemiddelde score op de Werk- en Sociale Aanpassingsschaal (WSAS) bij de opvolgingsbeoordeling op 52 weken na de randomisatie. De proef omvatte ook een aantal secundaire uitkomsten.

In de conclusie van het abstract stellen de auteurs dat de studie “voorlopig bewijs levert dat TDT-CGT + SMZ nuttig kan zijn voor mensen met een reeks ALK’s.” Deze verklaring is misleidend omdat het de nulbevindingen van de primaire uitkomst van het onderzoek negeert. Hoewel de interventiegroep een bescheiden voordeel op de WSAS rapporteerde ten opzichte van de SMZ-groep, was dit niet statistisch of klinisch significant. Voor de WSAS wezen de auteurs op een reductie van -3,6 als een minimaal klinisch relevant verschil (MKRV). Na 12 maanden lag het gemiddelde voor de interventiegroep -1,48 punten lager dan voor de SMZ-groep, met een 95% betrouwbaarheidsinterval van -3,44 tot 0,48. De betrouwbaarheidsinterval sloot dus uit wat de auteurs vooraf hadden gedefinieerd als het MKRV. Dit geeft aan dat de studie voldoende statistische kracht had om sterk en bruikbaar bewijs van werkzaamheid te leveren, maar dat dit niet is gelukt.

Je kunt de rest hier lezen [in het Engels, n.v.d.r.].

**********

Een brief aan de Britse Medical Research Council

Drie zomers geleden stuurde ik aan The Lancet een open brief over de PACE-studie die enige aandacht trok. De brief veroordeelde de “onaanvaardbare methodologische tekortkomingen” van de studie en vroeg om een volledig onafhankelijke beoordeling van de gegevens. Meer dan 100 wetenschappers, clinici, academici en andere experts van over de hele wereld ondertekenden de brief, samen met tien parlementsleden en meer dan 70 patiënten- en belangenorganisaties.

The Times (UK) schreef er een artikel over. BMJ volgde met een kort verslag op zijn eigen nieuwssite. Door die negatieve aandacht werd de Britse Medical Research Council, de belangrijkste financier van de PACE-studie, in zijn hemd gezet. Professor Fiona Watt, de uitvoerende voorzitter van de MRC, gaf een halfslachtige verdediging van PACE die gedeeltelijk steunde op de methodologisch gebrekkige Cochranereviews van CGT en graduele oefentherapie voor ME/cvs. (Cochrane beschouwt dit als interventies voor CVS.)

Caroline Struthers, die zichzelf “burgerwetenschapper en patiëntgerichte onderzoeksenthousiasteling” noemt en die op Twitter commentaar geeft als @healthy_control, is Cochrane onafgebroken onder druk blijven zetten om transparanter te zijn over de gekende problemen van deze reviews. Dankzij haar doorzettingsvermogen heeft Cochrane onlangs zijn pagina’s vernieuwd om zijn eigen adviezen over de reviews beter zichtbaar te maken voor lezers.

Haar volgende logische stap was om professor Watt op deze en andere recente ontwikkelingen te wijzen, in het licht van Watts verdediging van PACE in 2018.

Hier volgen een paar belangrijke paragrafen uit de recente brief van Struthers:

De review Cognitieve gedragstherapie voor chronisch vermoeidheidssyndroom bij volwassenen heeft intussen een noot van de redactie gekregen, waarin staat dat ze verouderd is, niet zal worden bijgewerkt en niet mag worden gebruikt voor klinische besluitname. Dat kan je moeilijk bewijs volgens de gouden standaard noemen.

De review Oefentherapie voor chronisch vermoeidheidssyndroom is in 2019 gewijzigd en bevat een noot van de redactie met een link naar een nieuwsartikel waarin wordt erkend dat een geheel nieuwe aanpak nodig is. Cochranes hoofdredacteur zegt in het nieuwsartikel dat de “… gewijzigde review nog steeds gebaseerd is op een onderzoeksvraag en een reeks methoden uit 2002 en het bewijs weerspiegelt van studies die definities van ME/cvs uit de jaren negentig toepasten”. Ook niet meteen bewijs volgens de gouden standaard.

Je kan de rest hier lezen [in het Engels, n.v.d.r.].