Home » Nieuwsartikels » Wetenschappelijk » De BMJ-review over interventies voor long covid

De BMJ-review over interventies voor long covid

Geplaatst door admin
op 23/02/2025

Laatste bijwerking op 23/02/2025

Bron:

| 2776 x gelezen

Eerder deze week werd een nieuwe systematische review van interventies voor langdurige/long covid gepubliceerd in de BMJ. Hierin worden cognitieve gedragstherapie (CGT) en lichamelijke en geestelijke gezondheidsrevalidatie aanbevolen en wordt beweerd dat er met matige zekerheid bewijs is dat deze twee interventies de symptomen van long covid verbeteren. Helaas kent de review meerdere problemen die de conclusie ervan twijfelachtig maken. Het zou ons niet verbazen als er een correctie zou volgen. In deze blogpost geven we een overzicht van de belangrijkste problemen.

Geen pooling van gegevens

De review van Zeraatkar en collega’s vat de gegevens samen van 24 studies bij volwassenen met long covid. Acht studies testten fysieke activiteit of revalidatie, en drie richtten zich op gedragsinterventies zoals CGT. De samenvatting stelt dat CGT vermoeidheid en concentratieproblemen vermindert en dat lichamelijke en geestelijke revalidatie leidt tot meer herstel, minder depressie en een betere kwaliteit van leven.

Het overzicht wekt de indruk dat er meerdere studies zijn die deze effecten hebben gevonden, maar dat is niet het geval. Alle genoemde effecten zijn gebaseerd op slechts één studie. Er heeft geen pooling [het combineren van de resultaten van verschillende studies voor statistische bewerking in een meta-analyse om te komen tot een schatting van het globale effect] of synthese van resultaten plaatsgevonden. Voor elke uitkomst waren er gegevens van slechts één studie. In het geval van CGT was dat een Nederlandse studie genaamd ReCover en voor revalidatie was dat de REGAIN-studie. De review herhaalt de bevindingen van deze studies. Het is nogal misleidend dat het abstract dit niet verduidelijkt. Reviews vermelden normaal gesproken het aantal studies en deelnemers voor elke uitkomst, wat PRISMA (een richtlijn voor het rapporteren van systematische reviews) aanbeveelt.

Onbetekende effecten aanbevelen

Hoewel elke uitkomst gebaseerd is op één enkele studie, hebben de beoordelaars de behandelingseffecten opnieuw berekend met behulp van samenvattende statistieken. Ze deden als het ware een meta-analyse met slechts één studie. Dit leidt tot andere schattingen dan in de studiepublicaties, omdat deze laatste toegang hadden tot de volledige dataset (in plaats van alleen de gemiddelden en standaarddeviaties) en konden controleren voor covariabelen, stratificatievariabelen en basiswaarden.

De review beweert bijvoorbeeld dat REGAIN revalidatie “waarschijnlijk symptomen van depressie vermindert” op basis van een gemiddeld verschil op de HADS-schaal van -1,5 punten (95% betrouwbaarheidsinterval: -2,41 tot -0,59). De REGAIN-studie rapporteerde echter een lagere schatting van -0,952 (95% CI: -1,675 tot -0,229). Dit is lager dan het minimaal belangrijke verschil (MID) van 1,5 punten, wat suggereert dat het zo klein was dat het waarschijnlijk niet klinisch significant was. Een ander voorbeeld: de review claimt dat REGAIN “waarschijnlijk de kwaliteit van leven verbetert” gebaseerd op een schatting van 0,04 punten (95% CI: 0,00 tot 0,08) op de PROMIS 29+2 Profile v2.1 vragenlijst. De REGAIN trial rapporteerde echter een verschil van slechts 0,03 punten (95% CI: 0,01 tot 0,06), wat lager was dan de MID van 0,04. Met andere woorden, de review doet (tamelijk sterke) aanbevelingen op basis van verschillen die in het oorspronkelijke onderzoeksrapport niet klinisch significant waren.

Onnauwkeurigheid

De bovenstaande voorbeelden illustreren de absurditeit van de aanbevelingen, maar het grootste probleem van de review ligt in de manier waarop met onnauwkeurigheid werd omgegaan. Het gaat niet om de puntschattingen, maar om de betrouwbaarheidsintervallen, de getallen tussen haakjes. Deze geven het bereik aan van de resultaten die we zouden kunnen krijgen als het onderzoek meerdere keren zou worden herhaald. Hoe groter de steekproefgrootte, hoe kleiner het betrouwbaarheidsinterval en hoe nauwkeuriger onze schatting. Als een betrouwbaarheidsinterval waarden bevat die onder de MID liggen, zijn we er minder zeker van dat de interventie zinvol is. In dat geval raden de GRADE-richtlijnen aan om de zekerheid van het bewijs met één of meer niveaus te verlagen.

De BMJ-review gebruikte deze GRADE-benadering voor het beoordelen van uitkomsten van hyperbare zuurstoftherapie en transcraniële directe stroomstimulatie. Deze effecten hadden een laag risico op vertekening, maar omdat ze niet erg precies waren, werden ze gedegradeerd voor imprecisie met twee niveaus. Ze gingen van bewijskracht met hoge zekerheid naar lage zekerheid.

Interventie	Uitkomst	Schatting en CI	MID	Does CI cross MID?	Gedowngraded voor onnauwkeurigheid?
Hyperbare zuurstoftherapie	BSI-18 (0-72) Mental health 10 weeks	-7.1 (-12.23 to -1.97)	6.2	Yes	Two levels
Transcraniële stimulatie	MFIS fatigue (0-84) 5 weeks	-12.4 (-17.33 to -7.47)	7.48	Yes	Two levels
ReCOVer CGT	CIS-Concentration (5-35) 24 weeks	−5.2 (−7.97 to -2.43)	3.4	Yes	No
REGAIN revalidatie	HADS-depression (0-21) 52 weeks	-1.5 (-2.41 to -0.59)	1.5	Yes	No
REGAIN revalidatie	PROPr quality of life (0.022 – 1) 52 weeks	0.04 (0 to 0.08)	0.04	Yes	No

Het vreemde is dat de beoordelaars deze regel niet hebben toegepast op de resultaten van CGT en REGAIN-revalidatie die in het abstract worden genoemd. Hun betrouwbaarheidsintervallen overschrijden de MID, wat suggereert dat ze ook zouden moeten zijn gedegradeerd voor imprecisie. Zoals de bovenstaande tabel laat zien, is het geen close call: een iets andere keuze voor een MID zou geen groot verschil hebben gemaakt omdat de effecten klein zijn en de betrouwbaarheidsintervallen groot. Toch hebben Zeraatkar en collega’s deze uitkomsten helemaal niet gedegradeerd vanwege onnauwkeurigheid.

Voor sommige schattingen liggen de betrouwbaarheidsintervallen volledig boven de MID. In dat geval raden de GRADE-richtlijnen aan om te controleren of de steekproefomvang groot genoeg was. Het komt vaak voor dat grote effecten in eerste onderzoeken niet worden gerepliceerd wanneer meer gegevens worden verzameld. GRADE stelt voor om te bepalen of er genoeg informatie is verstrekt om vertrouwen te hebben in de resultaten door de ‘optimale informatiegrootte’ (OIS) te berekenen. De OIS is de steekproefgrootte die nodig is om een klein effect te testen in een enkel onderzoek met 80% betrouwbaarheid. Voor continue uitkomsten zijn dit ongeveer 800 deelnemers (400 in elke arm).

De BMJ-review paste deze redenering toe op de uitkomst van de kwaliteit van leven van transcraniële directe stroomstimulatie. Het effect was groot en de betrouwbaarheidsintervallen (8,86 tot 20,74) lagen volledig boven de MID van 6,66. Omdat het onderzoek echter slechts 70 deelnemers omvatte, werd het met twee niveaus verlaagd vanwege ‘zeer ernstige imprecisie’. Het CGT-onderzoek had echter een vergelijkbare schatting en een steekproefgrootte van 114 die niet veel groter was. Toch kreeg dit onderzoek helemaal geen lagere beoordeling voor onnauwkeurigheid.

Interventie	Uitkomst	Schatting en CI	MID	Steekproefgrootte	Steekproefgrootte lager dan OIS	Gedowngraded voor imprecisie
Transcraniële stimulatie	World Health Organization quality of life questionnaire (0-100) 5 weeks	14.8 (8.86 to 20.74)	6.66	70	Yes	Two levels
ReCOVer CGT	CIS-Fatigue (8-56) 24 weeks	-8.4 (-13.11 to -3.69)	3	114	Yes	No
REGAIN revalidatie	Recovery/ Improvement (per 1000 participants) 52 weeks	161 (61 to 292)	50	442	Yes	No

Hetzelfde geldt voor de uitkomst herstel/verbetering voor REGAIN-revalidatie. Met een basisrisicopercentage van 0,9 zou de OIS voor een klein effect ongeveer 910 deelnemers zijn, veel meer dan de 442 in de REGAIN-studie. Het lijkt er dus op dat deze uitkomst ook gedegradeerd had moeten worden vanwege onnauwkeurigheid. Dit is niet erg verrassend. Deze resultaten kwamen van één onderzoek met een bescheiden steekproefgrootte, dus logischerwijs hebben we niet veel vertrouwen in de resultaten.

Hoog risico op vertekening

De inconsistentie in de manier waarop met onnauwkeurigheid werd omgegaan, is nogal een groot probleem. Downgraden met twee niveaus (of niet) heeft een grote impact, aangezien er slechts vier niveaus zijn in het GRADE-systeem. De uitkomsten van gerandomiseerde onderzoeken beginnen met hoge zekerheid, maar kunnen worden gedegradeerd tot bewijs met matige, lage of zeer lage zekerheid. Het niet downgraden van de resultaten van CGT en REGAIN maakt daarom het verschil.

De uitkomsten voor CGT en REGAIN werden beoordeeld met een hoog risico op vertekening. Dit betekent dat ze waarschijnlijk vertekend zijn door zwakke punten in de onderzoeksopzet. Beide onderzoeken waren open-label en gebruikten subjectieve vragenlijsten. Patiënten wisten wie de interventie kreeg en degenen in de controlegroep kregen niet dezelfde hoeveelheid zorg en aandacht. Daarom weerspiegelen de eindpunten van de onderzoeken waarschijnlijk vertekeningen in de rapportage en placebo-effecten. Zeraatkar en collega’s hebben dit risico van vooringenomenheid in hun beoordeling meegenomen door de uitkomsten met slechts één niveau te verlagen.

Dit verklaart de aanbevelingen van de review. De resultaten over hyperbare zuurstoftherapie en transcraniële stimulatie hadden een laag risico op vertekening. Maar omdat ze (terecht) zijn gedegradeerd vanwege hun onnauwkeurigheid, vormen ze slechts bewijs met lage zekerheid. De CGT- en REGAIN-uitkomsten hadden een hoog risico op vertekening, maar omdat ze niet werden gedegradeerd vanwege hun onnauwkeurigheid, vormen ze slechts bewijs met lage zekerheid. Met andere woorden, het probleem met imprecisie heeft geleid tot een omkering in die zin dat de beoordeling nu uitkomsten met een hoog risico op vertekening aanbeveelt, terwijl vergelijkbare schattingen met een laag risico op vertekening worden genegeerd.

Het doen van aanbevelingen op basis van een enkele studie met een hoog risico op vertekening is nogal controversieel en verre van de beste praktijk. Sommige onderzoekers hebben betoogd dat onderzoeken met een hoog risico op vertekening moeten worden uitgesloten van reviews omdat de kans te groot is dat ze verkeerde antwoorden geven.

Er zijn ook redenen om aan te nemen dat de CGT- en REGAIN-uitkomsten twee niveaus lager hadden moeten worden ingeschaald vanwege hun risico op vertekening. In het geval van CGT moedigt de behandeling patiënten actief aan om hun symptomen anders te bekijken en te rapporteren, bijvoorbeeld door niet langer te focussen op vermoeidheid of door catastroferen te vermijden. Dit betekent dat het risico op vertekening uitzonderlijk groot is als je subjectieve uitkomsten gebruikt zoals een vermoeidheidsvragenlijst.

In de REGAIN-studie zijn er andere problemen. Er was bijvoorbeeld een hoog uitvalpercentage, dat hoger was in de interventiegroep (27%) vergeleken met de controlegroep (21%). De herstel/verbeteringspercentages die de review berekende, houden geen rekening met deze deelnemers. Normaal gesproken zou men een intention-to-treat (ITT)-analyse gebruiken die alle deelnemers omvat in de groep waarin ze gerandomiseerd zijn. De BMJ-review berekende herstel/verbetering echter op basis van beschikbare gevallen, wat het ongelukkige gevolg heeft dat herstelpercentages er vaak beter uitzien als meer deelnemers afhaken.

De REGAIN-studie rekruteerde ook patiënten die uit het ziekenhuis waren ontslagen vanwege ernstige COVID-19, wat niet representatief is voor de longcovidpopulatie. In dergelijke gevallen biedt GRADE de mogelijkheid om te downgraden voor ‘indirectheid’. De review deed dit niet met het argument dat “er geen bewijs is dat op dit moment suggereert dat de effecten van de interventie verschillend kunnen zijn op basis van de ernst van de acute COVID-19-infectie.” Naar onze mening is de wetenschap dat je steekproef niet representatief is voor de doelpopulatie, voldoende om de bewijszekerheid te verlagen.

Cherry picking

Een ander probleem is dat de review 28 uitkomsten uit de REGAIN-studie heeft gehaald en deze heeft gescand op een significant effect. Door puur toeval zouden sommige van deze schattingen de MID kunnen overschrijden. Proeven specificeren gewoonlijk primaire uitkomsten en corrigeren hun schattingen voor het aantal uitgevoerde testen om valspositieven te voorkomen (Type I-fout). De BMJ-review hield hier echter geen rekening mee.

Als we het voorbeeld van REGAIN en depressie nemen, was de puntschatting voor de HADS-subschaal gelijk aan de MID van 1,5 punten op het 52-weken-tijdstip. Maar op 12 weken na beëindiging van de behandeling was de schatting slechts -0,7 (95% CI: -1,59 tot 0,19), wat duidt op geen effect. De REGAIN-studie omvatte ook een PROMIS-depressieschaal, die suggereerde dat de interventie waarschijnlijk geen belangrijk effect had op depressie op beide tijdstippen. Hieruit concludeert de review dat REGAIN-revalidatie “waarschijnlijk symptomen van depressie vermindert”. Dit is geen goede weergave van de gegevens. Waarom zou het effect alleen zichtbaar zijn op de ene depressieschaal en niet op de andere? Waarom zou het effect afwezig zijn na de behandeling en vele weken later verschijnen bij de langetermijn follow-up? Een meer waarschijnlijke verklaring is dat dit een valspositieve bevinding is.

Systematische reviewers wordt geadviseerd om rekening te houden met het risico van type I-fouten wanneer ze bevindingen interpreteren die gebaseerd zijn op meervoudige vergelijkingen. Zeraatkar en collega’s lijken het tegenovergestelde te hebben gedaan door alle 28 uitkomsten te scannen op een significant effect en aanbevelingen te doen voor vrijwel elke uitkomst die de MID-drempel overschrijdt, zelfs als ander bewijs dit tegenspreekt.

Er is een bijkomend probleem met het herstel/verbeteringsresultaat van REGAIN. De review benadrukt deze bevinding door te stellen dat “naar schatting 161 meer patiënten per 1000 (95% CI 61 meer tot 292 meer) een betekenisvolle verbetering of herstel ervaren.” Het probleem is dat deze uitkomst niet werd geregistreerd in de studieregistratie, en er zijn meerdere manieren waarop het geanalyseerd had kunnen worden. Het onder de aandacht brengen van een secundaire uitkomst die niet geregistreerd is omdat deze een groter effect laat zien dan andere uitkomsten, is een twijfelachtige aanpak die lijkt op cherry picking.

Objectieve resultaten negeren

Tot slot is er het probleem dat de review alleen subjectieve uitkomsten bevat, zoals vragenlijsten over symptomen. De auteurs rechtvaardigen deze beslissing als volgt:

“Onze review was gebaseerd op zelfgerapporteerde metingen in plaats van observaties door gezondheidswerkers of biomarkers. Deze aanpak is gerechtvaardigd omdat de symptomen van langdurige covid, zoals vermoeidheid, subjectief worden ervaren en er geen objectieve laboratoriummetingen zijn vastgesteld om voordeel te voorspellen in termen van hoe patiënten met langdurige covid zich voelen of functioneren.”

Dit lijkt slecht beargumenteerd. Symptomen zoals vermoeidheid worden altijd subjectief ervaren en het gebrek aan biomarkers voor long covid betekent niet dat je geen objectieve resultaten kunt opnemen zoals actigrafie, werkgelegenheid of fitheidstests. Het is belangrijk om deze objectieve resultaten op te nemen omdat ze betrouwbaarder zijn dan symptoomvragenlijsten in onderzoeken waar blindering niet mogelijk is.

ME/cvs-patiënten hebben eerder gevraagd om objectieve uitkomsten in reviews op te nemen. Het beste voorbeeld is de Cochrane-review over graduele oefentherapie voor ME/cvs. Deze review negeerde objectieve uitkomsten die aantoonden dat patiënten niet verbeterden of fitter werden na oefentherapie. Het was het onderwerp van veel controverse, en een lopende petitie, ondertekend door 11.300 mensen en 76 ME/cvs-organisaties, riep op tot intrekking. Het is belangrijk om niet opnieuw dezelfde fout te maken in reviews over langdurige covid. Het opnemen van objectieve resultaten lijkt misschien niet belangrijk nu er nog maar een paar studies zijn, maar dat kan in de toekomst wel zo zijn.

Conclusie

De review van Zeraatkar en collega’s zit vol inconsistenties. Er zijn verschillende snelle reacties en blogartikelen (hier en hier) gepubliceerd, waarin veel van de problemen die we in dit artikel hebben besproken, worden belicht.

Het is een ‘levende review’, wat betekent dat het regelmatig zal worden bijgewerkt als er nieuwe informatie beschikbaar komt. Hopelijk biedt dat de mogelijkheid om correcties aan te brengen. De auteurs “verwachten dat de levende systematische review een betrouwbaar referentiepunt zal worden voor nationale en internationale beroepsverenigingen en gezaghebbende organisaties die van plan zijn om richtlijnen op te stellen voor de behandeling van long covid.” Het is zeer waarschijnlijk dat deze review een grote impact zal hebben op longcovidpatiënten wereldwijd. Daarom is het belangrijk om de zaken goed te regelen.