Trial By Error: brief aan BMJ met verzoek om correctie in studie naar fysiek en mentaal revalidatieprogramma voor langdurige COVID

11 maart 2024.

Vorige maand publiceerde The BMJ een studie naar een revalidatie-interventie voor langdurige Covid waarin de auteurs beweringen deden die niet door de gegevens werden bevestigd. De studie heette “Clinical effectiveness of an online supervised group physical and mental health rehabilitation programme for adults with post-covid-19 condition (REGAIN study): multicentre randomised controlled trial” [“Klinische effectiviteit van een online gesuperviseerd groepsprogramma voor fysieke en mentale revalidatie voor volwassenen met een postcovid-19-aandoening (REGAIN-studie): multicentrisch gerandomiseerd gecontroleerd onderzoek”.] en werd geleid door onderzoekers van de University of Warwick in Coventry, Engeland. (Ik heb het hier bekritiseerd.) In het bijzonder verklaarde het artikel dat de interventie “klinisch effectief” was, ook al voldeden de resultaten voor de primaire uitkomst niet aan de erkende drempel voor een “minimaal belangrijk” of “klinisch belangrijk” verschil.

Deze tegenstrijdigheid werd opgemerkt in zowel een commentaar op het Science For ME-forum als in een snelle reactie bij het artikel zelf. Vandaag stuurde ik de volgende brief naar de hoofdredacteur van The BMJ, Dr. Kamran Abbasi. Ik stuurde professor Gordon McGregor, de hoofdauteur, en mijn elf medeondertekenaars een cc.

**********

Geachte Dr. Abbasi,

In februari publiceerde The BMJ (British Medical Journal) “Clinical effectiveness of an online supervised group physical and mental health rehabilitation programme for adults with post-covid-19 condition (REGAIN study): multicentre randomised controlled trial,” van McGregor et al [1]. In het onderzoek werden 585 patiënten met langdurige symptomen na een ziekenhuisopname voor covid-19 toegewezen aan een acht weken durende interventie, bestaande uit meer dan tien online sessies van een uur, of aan “gebruikelijke zorg”, bestaande uit een online consult van een half uur.

De studie was niet geblindeerd en baseerde zich uitsluitend op subjectieve uitkomsten – een studieopzet die gegarandeerd een onbekende hoeveelheid vertekening zou genereren. Het primaire resultaat, gezondheidsgerelateerde levenskwaliteit na drie maanden, werd beoordeeld met de voorkeursscore (PROPr) afgeleid van het Patient-Reported Outcomes Measurement Information System (PROMIS) [2]. Hoewel er geen biomarkers beschikbaar zijn voor een “postcovid-19-aandoening”, hadden de auteurs ervoor kunnen kiezen om onder hun secundaire uitkomsten een of meer objectieve metingen van het functioneren op te nemen, zoals de zes minuten looptest, een stappentest voor fitheid, een actigrafie om de afgelegde afstand te beoordelen, of de arbeidsstatus.

Gezien de vertekening die inherent is aan de onderzoeksopzet, is het verrassend dat de bevindingen voor de primaire uitkomst toch zo slecht waren dat de auteurs zich blijkbaar genoodzaakt voelden om ze verkeerd weer te geven. In de belangrijkste intention-to-treatanalyse rapporteren de auteurs een gemiddeld verschil in PROPr-scores tussen de interventiearm en de gebruikelijke zorgarm van 0,03 na zowel drie als twaalf maanden. (Dit laatste was een secundaire uitkomst.) In de conclusie van het abstract stellen de auteurs dat de interventie “klinisch effectief was in het verbeteren van de gezondheidsgerelateerde levenskwaliteit na drie en twaalf maanden in vergelijking met gebruikelijke zorg” bij “volwassenen met een postcovid-19-aandoening”.

Om te beginnen is het ongepast dat de auteurs de bevindingen van patiënten die met covid-19 in het ziekenhuis zijn opgenomen, extrapoleren naar het veel grotere aantal patiënten met langdurige symptomen die niet in het ziekenhuis zijn opgenomen. Afgezien van deze ernstige interpretatiefout ondersteunt het gerapporteerde verschil van 0,03 in PROPr-scores tussen de twee groepen niet de bewering van de auteurs dat de interventie “klinisch effectief” was.

In de beschrijving van PROPr in de methodesectie merken de auteurs op dat “net als bij andere op voorkeur gebaseerde metingen zoals het EuroQol 5 dimensie 5 niveau (EQ-5D-5L)-instrument, een verschil van 0,03 tot 0,05 als klinisch belangrijk wordt beschouwd.” De verwijzing naar deze verklaring, een officiële pagina met veelgestelde vragen (FAQ) voor de PROMIS-metingen die in het onderzoek werden gebruikt, spreekt de bewering van de auteurs dat “een verschil van 0,03 tot 0,05 als klinisch belangrijk wordt beschouwd” voor PROPr [3] echter expliciet tegen.

Hier is de uitleg uit de FAQ die door de auteurs wordt geciteerd:

“Het minimaal belangrijke verschil voor PROPr is niet formeel geëvalueerd, maar we raden momenteel aan om 0,04 te gebruiken. De meeste op voorkeuren gebaseerde metingen hebben drempelwaarden voor minimaal belangrijke verschillen tussen 0,03 en 0,05. De huidige voortgang suggereert dat een minimaal belangrijk verschil van 0,04 passend zou zijn, hoewel een conservatieve schatting van 0,08 (de helft van een standaardafwijking in de PROPr-dataset) ook zou kunnen worden gebruikt.”

Met andere woorden, de bewering van de auteurs in het gedeelte over de methoden dat de momenteel erkende drempel voor een “klinisch belangrijk” of “minimaal belangrijk” verschil voor PROPr hetzelfde is als voor andere op voorkeuren gebaseerde metingen, is categorisch onjuist [4, 5]. In het discussiegedeelte van het artikel erkennen de auteurs dit, maar geven vervolgens een irrelevante reden om toch klinische effectiviteit te claimen.

Zoals ze schrijven: “Onderzoek dat is voltooid sinds we met deze studie begonnen, suggereert een minimaal belangrijk verschil van 0,04 op de PROPr-score tussen groepen. Onze waargenomen verschillen van 0,03 (95% betrouwbaarheidsinterval 0,01 tot 0,05) na drie maanden en 0,03 (0,01 tot 0,06) na twaalf maanden zijn kleiner dan deze suggestie. De analyse van het gemiddelde causale effect liet echter een groter effect zien van 0,05 (0,01 tot 0,09) na drie maanden en 0,06 (0,01 tot 0,10) na twaalf maanden, wat suggereert dat het werkelijke effect, bij degenen die de interventie volledig naleven, deze drempel zou kunnen overschrijden.”

Dit argument is onhoudbaar. De auteurs kunnen geen klinische effectiviteit claimen voor hun algehele bevindingen als deze claim alleen van toepassing is op een subgroep van hun steekproef die volledig aan de eisen voldoet en niet wordt bevestigd door de intentie-to-treatanalyse. Het artikel – en in het bijzonder de conclusie in het abstract dat de interventie “klinisch effectief” was voor gezondheidsgerelateerde levenskwaliteit – moet worden gecorrigeerd om aan te geven dat de primaire resultaten niet voldeden aan de drempel voor “klinisch belangrijk” of “minimaal belangrijk” verschil, aanbevolen voor de betreffende maatstaf.

Met vriendelijke groet,

David Tuller (corresponderend auteur)
Center for Global Public Health
University of California, Berkeley
Berkeley, California, USA
davetuller@berkeley.edu

Nicola Baker
School of Health Sciences
University of Liverpool
Liverpool, England, UK

Todd Davenport
Department of Physical Therapy
University of the Pacific
Stockton, California, USA

David Davies-Payne
Department of Radiology
Starship Children’s Hospital
Auckland, New Zealand

Jonathan Edwards
Department of Medicine
University College London
London, England, UK

Mark Faghy
Human Sciences Research Centre
University of Derby
Derby, England, UK

Keith Geraghty
Centre for Primary Care and Health Services Research
Faculty of Biology, Medicine and Health
University of Manchester
Manchester, England, UK

Mady Hornig
Department of Epidemiology
Columbia University Mailman School of Public Health
New York, New York, USA

Brian Hughes
School of Psychology
University of Galway
Galway, Ireland

Leonard Jason
Center for Community Research
DePaul University
Chicago, Illinois, USA

Asad Khan
North West Lung Centre
Manchester University Hospitals
Manchester, England, UK

David Putrino
Department of Rehabilitation Medicine
Icahn School of Medicine at Mt Sinai
New York, New York, USA.

John Swartzberg
Division of Infectious Diseases and Vaccinology
School of Public Health
University of California, Berkeley
Berkeley, California, USA

1. McGregor G, Sandhu H, Bruce J, et al. Clinical effectiveness of an online supervised group physical and mental health rehabilitation programme for adults with post-covid-19 condition (REGAIN study): multicentre randomised controlled trial. BMJ 2024;384;e076506

2. Dewitt B, Jalal H, Hanmer J. Computing PROPr Utility Scores for PROMIS® Profile Instruments. Value Health 2020;23:370-8

3. PROPr: The PROMIS-Preference Score. What is this minimally important difference for PROPr? https://www.proprscore.com/faqs/; 2023

4. ME/CFS Skeptic. Thread: Clinical effectiveness of an online group physical & mental health rehab programme for post-covid-19 condition REGAIN study, 2024, McGregor+. Science for ME [Internet]; 9 Feb 2024; #23. Accessed at: https://www.s4me.info/threads/clinical-effectiveness-of-an-online-group-physical-mental-health-rehab-programme-for-post-covid-19-condition-regain-study-2024-mcgregor.37174/page-2#post-514588

5. Louise S. Rapid Response: Re: Clinical effectiveness of an online supervised group physical and mental health rehabilitation programme for adults with post-covid-19 condition (REGAIN study): multicentre randomised controlled trial — Conclusions are concerning. BMJ; 13 Feb 2024. Accessed at: https://www.bmj.com/content/384/bmj-2023-076506/rr