5 juli 2024.
De CODES-studie onderzocht cognitieve gedragstherapie (CGT) als behandeling voor dissociatieve aanvallen (DS), een subcategorie van wat nu functionele neurologische stoornis (FNS) wordt genoemd. De interventie bestond uit een CGT-kuur die specifiek ontworpen was om de verschillende factoren aan te pakken waarvan werd aangenomen dat ze de aanvallen uitlokken. (Ik heb CODES eerder bekritiseerd hier, hier en hier.)
De studie was echter een flop, met nulresultaten voor het zelfgerapporteerde primaire resultaat: minder aanvallen 12 maanden na randomisatie. In feite, wat een grote schande moet zijn geweest voor de onderzoekers, rapporteerde de groep die de interventie niet kreeg zelfs een grotere vermindering van het aantal aanvallen dan de groep die de interventie wel kreeg, hoewel dit verschil statistisch niet significant was.
(In het verleden werden aanvallen waarvan niet werd aangenomen dat ze door abnormale elektrische signalen waren veroorzaakt, doorgaans “psychogene niet-epileptische aanvallen” genoemd. De nieuwe term is minder beledigend bedoeld; patiënten hebben er vaak een hekel aan als ze te horen krijgen dat hun toestand psychologisch bepaald is).
Sinds de publicatie van deze nulbevindingen van CODES in 2020, hebben FNS-experts geprobeerd deze opnieuw te formuleren, onder meer door te suggereren dat het verminderen van aanvallen toch niet het meest geschikte of relevante primaire resultaat was. De onderzoekers stelden dit zelf aan de orde in het eerste artikel waarin de CODES-resultaten werden gerapporteerd. In een begeleidend commentaar propageerde een collega van de onderzoekers een soortgelijk idee, wat suggereerde dat metingen voor de levenskwaliteit misschien een beter primair resultaat waren dan het verminderen van aanvallen.
Nu zijn ze er weer mee bezig. In een nieuwe paper genaamd “Reflections on the CODES trial for adults with dissociative seizures: what we found and considerations for future studies” [Reflecties op de CODES-studie voor volwassenen met dissociatieve aanvallen: wat we vonden en overwegingen voor toekomstige studies], deze maand gepubliceerd door BMJ Neurology Open, presenteren de belangrijkste CODES-studies aanvullende analyses van de onderzoeksgegevens en proberen ze te beargumenteren dat de resultaten eigenlijk niet zo slecht waren. Het artikel bevat de volgende zin: “Over het geheel genomen ondersteunt inspectie van onze gegevens niet de suggesties van anderen dat onze behandeling de frequentie van dissociatieve aanvallen niet duurzaam heeft verlaagd.”
Dit is een bizarre opmerking. Het impliceert uiteraard dat de gegevens van CODES het idee ondersteunen dat de gespecialiseerde behandeling in feite “de frequentie van dissociatieve aanvallen duurzaam vermindert”. CODES heeft echter geen bewijs geleverd dat de behandeling zoiets deed. Het primaire doel van het onderzoek was niet eens om te onderzoeken of deelnemers in de interventiegroep een verminderde aanvalsfrequentie hadden, maar of de interventie voordeel opleverde – dat wil zeggen, of degenen die de interventie kregen, het beter deden dan degenen die dat niet deden. En dat gebeurde niet.
In CODES ondervonden beide armen enige vermindering van de aanvallen, maar de interventie leverde wat dat betreft geen voordelen op. De vermindering in aanvalsfrequentie kan niet worden toegeschreven aan de interventie, ook al lijken de onderzoekers nu anders te beweren.
(Misschien interpreteer ik bovenstaande zin verkeerd, maar dat denk ik niet.Ik denk dat de onderzoekers echt geloven, ondanks het bewijs, dat hun studie enig effect van de interventie heeft aangetoond).
Met 368 deelnemers was CODES de grootste klinische studie tot nu toe naar een behandeling voor FNS. De hoofdauteur was de feitelijk en wiskundig uitgedaagde Trudie Chalder, een professor in cognitieve gedragstherapie aan het King’s College in Londen (KCL). Het persbericht van KCL bedroog het publiek door de rampzalige bevindingen voor het primaire resultaat te verbergen en in plaats daarvan de studie aan te prijzen als een groot succes – een bewering die gebaseerd was op enkele subjectieve secundaire resultaten met bescheiden positieve bevindingen die in werkelijkheid helemaal niets te betekenen hadden.
Het nieuwe artikel legt uit dat, in het CODES-model, “dissociatieve aanvallen in stand worden gehouden door een vicieuze cirkel van gedragsmatige, cognitieve, affectieve, fysiologische en sociale factoren waarvan angst en vermijding bijzonder in het oog springen.” Dit kader, zo merkt het artikel op, “leent zich voor de toepassing van CGT-interventies, in het bijzonder geleidelijke blootstelling aan gevreesde (vermeden) situaties en technieken om aanvallen te onderbreken en onder controle te houden”.
In het nieuwe artikel geven de onderzoekers, misschien onbedoeld, een aanwijzing waarom CGT voorbestemd was om te mislukken. Zoals ze uitleggen, was vermindering van aanvallen zes maanden na het einde van de behandeling de primaire uitkomst in een pilootstudie naar CGT voor dissociatieve aanvallen, gepubliceerd in 2010: “In de piloot-RCT [gerandomiseerde gecontroleerde studie] was er 6 maanden na de behandeling een waargenomen verschil postrandomisatie in het voordeel van de DS-CGT-groep, maar er kon niet worden aangetoond dat dit statistisch significant was.”
Precies – de pilootstudie had nul resultaten. En toch waren de onderzoekers in staat om financiers ervan te overtuigen dat het bewijs een test van de interventie in een grootschalig onderzoek rechtvaardigde. Is er iets mis met dit beeld? Waarom is iemand verrast dat de volledige studie ook nulresultaten had voor de vermindering van aanvallen bij follow-up?
In het nieuwe artikel presenteren de onderzoekers opnieuw creatieve redenen om de nulbevindingen van CODES opnieuw te interpreteren. Ze merken op dat de CODES-vergelijkingsgroep meer opleverde dan de standaardzorg die patiënten buiten de studiecontext zouden hebben gekregen. De deelnemers in de vergelijkingsgroep ontvingen een deel van de verklarende informatie en copingbegeleiding die beschikbaar was voor de deelnemers in de interventiegroep, ook al ontvingen ze niet de actieve CGT-component van de interventie. Vanuit het perspectief van de onderzoekers lijken de nulresultaten voor de primaire uitkomst dus te betekenen dat beide armen voordeel hadden van de benadering die de interventie belichaamde – niet dat de interventie ineffectief was.
(Ik denk dat ik hun punt begrijp, maar ik weet het niet zeker.)
**********
Primaire en secundaire uitkomsten
De nieuwe paper bevat een lange discussie over de keuze van het primaire resultaat. De onderzoekers vermelden eerst dat financiers dit eisten, ook al hebben ze zelf een lange geschiedenis in het verdedigen van het verminderen van aanvallen als primair resultaat. In de pilootstudie verwierpen de onderzoekers expliciet het idee dat andere maatstaven geschikter zouden kunnen zijn. Vermoedelijk namen ze die stap na zorgvuldige overweging van andere mogelijkheden.
Dit is wat ze schreven in de pilootstudie:
“Onze CGT-benadering is gebaseerd op de veronderstelling dat PNES dissociatieve reacties op arousal vertegenwoordigen, die optreden wanneer de persoon wordt geconfronteerd met angstige of ondraaglijke omstandigheden.Ons behandelingsmodel legt de nadruk op technieken om aanvallen te verminderen, vooral in de eerste behandelsessies. Hoewel het nut van remissie van aanvallen als uitkomstmaat in twijfel wordt getrokken, zijn aanvallen de reden waarom patiënten worden doorverwezen voor behandeling.”
Die redenering is nog steeds logisch. Aangezien de onderzoekers de interventie specifiek ontworpen hebben om vermindering van aanvallen te bereiken op basis van hun hypothetische begrip van de etiologische stoornis, is het niet meteen duidelijk waarom vermindering van aanvallen niet het primaire resultaat zou zijn. Als ze deze maatstaf nu toch niet zo belangrijk vinden, stellen ze dan ook de biopsychosociale theorieën in vraag die ten grondslag lagen aan de totstandkoming van de interventie? Zo niet, waarom niet?
Het mislukken van een interventie zou slimme onderzoekers ertoe moeten brengen hun aannames in twijfel te trekken, maar dat lijkt niet gebeurd te zijn met CODES. De onderzoekers lijken nog steeds te geloven dat het onderzoek als een succes gezien moet worden, en maken zich sterk over het feit dat negen van hun 16 secundaire metingen statistisch significante resultaten hadden. Maar laten we duidelijk zijn: dit was een ongeblindeerde studie die zich baseerde op zelfgerapporteerde (of, in één geval, door een arts gerapporteerde) resultaten – een studieopzet die onderhevig is aan een enorme hoeveelheid mogelijke vertekening. Het zou onverwacht zijn als de interventiegroep alleen op grond van vooringenomenheid bescheiden betere resultaten rapporteerde.
(De primaire uitkomst en drie van de secundaire uitkomsten hadden betrekking op de rapportage van het aantal aanvallen door patiënten. Het zelf rapporteren van aanvallen heeft de schijn en ook enkele aspecten van objectiviteit, maar is nog steeds subjectief en mogelijk beïnvloed door vooringenomenheid).
Mijn collega Philip Stark, een professor in de statistiek aan de UC Berkeley, maakte de volgende beoordeling van CODES:
“De studie ondersteunde de primaire klinische uitkomst niet, alleen secundaire uitkomsten die subjectieve beoordelingen door de proefpersonen en hun artsen omvatten, die hun behandelstatus kenden. Dit is een situatie waarin het placebo-effect zeer waarschijnlijk verward wordt met de werkzaamheid van de behandeling. In de opzet van de studie werd duidelijk geen poging gedaan om verstoring door het placebo-effect te verminderen. Als gevolg hiervan is het niet duidelijk of CGT op zichzelf verantwoordelijk is voor de waargenomen verbeteringen in secundaire uitkomsten.”
Ik heb de beoordeling van professor Stark uitgelicht in een post uit 2020, die ook mijn eigen observaties over de secundaire uitkomsten bevatte. Hier is de relevante passage:
“De onderzoekers namen 16 secundaire uitkomsten op in de studie, gemeten via vragenlijsten of de dagboeken met aanvallen, en rapporteerden statistisch significante bevindingen voor negen van hen: hinder door aanvallen, langste periode van aanvalsvrije dagen in de laatste zes maanden, gezondheidsgerelateerde levenskwaliteit, psychologisch leed, werk en sociale aanpassing, aantal somatische symptomen, zelfgerapporteerde algehele verbetering, door de clinicus gerapporteerde algehele verbetering, en tevredenheid over de behandeling. Hoewel veel van deze bevindingen bescheiden waren, leek de reeks indrukwekkend.
“Toch vormden de zeven resultaten die geen statistisch significant effect hadden, ook een indrukwekkende reeks: ernst van de aanval, vrijheid van aanvallen in de laatste drie maanden, vermindering van de aanvalsfrequentie met meer dan 50% ten opzichte van de uitgangswaarde, angst, depressie en zowel mentale als fysieke schalen op een ander instrument dat de gezondheidsgerelateerde levenskwaliteit beoordeelde dan het instrument dat positieve resultaten opleverde.
“Bij het ontleden van deze bevindingen meldden CGT-deelnemers dat de aanvallen minder hinderlijk waren dan in de SMC-groep [standaard medische zorg], maar niet minder ernstig. Ze rapporteerden voordelen op één instrument voor gezondheidsgerelateerde levenskwaliteit, maar niet op twee afzonderlijke schalen op een ander instrument voor gezondheidsgerelateerde levenskwaliteit. Ze rapporteerden minder psychologisch leed, maar niet minder angst en depressie. Vanuit dat oogpunt lijken de resultaten enigszins willekeurig, met bevindingen die misschien afhankelijk zijn van hoe een bepaald instrument dit of dat construct invult.
“Als onderzoekers 16 pakken spaghetti tegen de muur gooien, zullen er waarschijnlijk een paar blijven plakken. Hoe groter het aantal secundaire uitkomsten in een onderzoek, hoe waarschijnlijker het is dat één of meer uitkomsten positieve resultaten opleveren, al is het maar bij toeval. Daarom zou het logisch zijn voor onderzoekers om zo veel mogelijk pakjes spaghetti tegen de muur te gooien, tenzij ze een statistische boete moeten betalen voor het vergroten van hun kansen op schijnbaar succes.
“De standaard statistische straf houdt rekening met het grotere aantal uitkomsten met een procedure die correctie (of aanpassing) voor meervoudige vergelijkingen (of analyses) wordt genoemd. In dergelijke omstandigheden kunnen statistische formules worden gebruikt om de criteria aan te scherpen voor wat moet worden beschouwd als statistisch significante resultaten, dat wil zeggen resultaten waarvan het zeer onwaarschijnlijk is dat ze door toeval zijn ontstaan.
“Het CODES-protocol maakte geen melding van correctie voor dit grote aantal analyses, of vergelijkingen. Het statistische analyseplan van CODES bevatte het volgende, onder het kopje “methode voor het omgaan met meervoudige vergelijkingen: “Er is slechts één primaire uitkomst, en er zal geen formele aanpassing van p-waarden voor meervoudige testen worden toegepast. Voorzichtigheid is echter geboden bij het interpreteren van de talrijke secundaire uitkomsten.
“Met andere woorden, de onderzoekers besloten om geen routinematige statistische test uit te voeren ondanks hun brede scala aan secundaire uitkomsten. Het is eerlijk om dit een twijfelachtige keuze te noemen, of op zijn minst een die afwijkt van de aanpak die wordt bepleit door veel deskundigen op het gebied van studieopzet en statistici, zoals professor Stark, mijn collega van Berkeley. Een zelfvermaning om voorzichtig te zijn “bij het interpreteren van de talrijke secundaire uitkomsten” is geen geschikt substituut voor een aanvaardbare statistische strategie om de potpourri van opgenomen metingen aan te pakken.
“Ondanks dit verval lijkt het erop dat iemand – misschien een peerreviewer? – vraagtekens zette bij de beslissing om deze statistische stap volledig weg te laten. Een paragraaf diep begraven in het artikel vermeldt de resultaten na het corrigeren voor meervoudige vergelijkingen, zonder verder commentaar op de implicaties. Van de negen secundaire uitkomsten die aanvankelijk statistisch significant waren, overleefden er slechts vijf deze strengere analyse: langste periode van aanvalsvrije dagen in de laatste zes maanden, werk en sociale aanpassing, zelfgerapporteerde algehele verbetering, door artsen gerapporteerde algehele verbetering en tevredenheid over de behandeling.
“Laten we duidelijk zijn: dit zijn vrij magere bevindingen, vooral omdat het zelfgerapporteerde metingen zijn in een studie met open onderzoeksopzet. Het is bijvoorbeeld begrijpelijk en zelfs te verwachten dat wie die CGT kreeg, meer “tevredenheid over de behandeling” rapporteert dan wie het niet kreeg. Het is ook begrijpelijk dat een deelnemer die een behandeling kreeg en de arts die deze deelnemer behandelde, de gezondheid van de deelnemer eerder als verbeterd zouden beoordelen dan in vergelijking met de SMC-groep. En een cursus CGT zou individuen met medische problemen goed kunnen helpen zich aan te passen aan hun problematische toestand in werk- en sociale situaties.
“Niets van dit alles betekent dat de kernaandoening zelf behandeld is – vooral omdat wie geen CGT kreeg betere resultaten had voor het primaire resultaat van vermindering van aanvallen na 12 maanden.”
********
Zelfs terwijl ze al hun aanvullende analyses presenteren, negeren de CODES-onderzoekers de waarschuwing die ze zelf in hun protocol hebben opgenomen, namelijk dat “voorzichtigheid geboden is bij het interpreteren van de talrijke secundaire uitkomsten”. Zoals dit laatste artikel laat zien, hebben ze die zorgvuldigheid niet in acht genomen. Het nieuwe artikel vermeldt niet eens dat slechts vijf van de secundaire uitkomsten statistisch significant waren na aanpassing voor meerdere vergelijkingen – een veelzeggende omissie. Het geheel leest als een wanhopige poging om hun interventie te portretteren als een interventie met een betekenisvol effect. De CODES-gegevens vertellen een ander verhaal.
© David Tuller voor Virology Blog. Vertaling admin, redactie NAHdine, ME-gids.