Home » Nieuwsartikels » David Tuller » Geen “herstel” in de PACE-studie, blijkt uit nieuwe analyse

Geen “herstel” in de PACE-studie, blijkt uit nieuwe analyse

Geplaatst door ME-Gids
op 21/09/2016

Laatste bijwerking op 21/09/2016

Bron:

| 15824 x gelezen

Virology Blog, 21 september 2016

In oktober vorig jaar postte Virology Blog David Tullers 14.000 woorden tellende onderzoek over de vele tekortkomingen van de PACE-studie (link naar artikel), dat meldde dat cognitieve gedragstherapie en graduele oefentherapie konden leiden tot “verbetering” en “herstel” van ME/CVS. De eerste resultaten, die van “verbetering”, werden gepubliceerd in The Lancet in 2011; een follow-upstudie over “herstel” werd gepubliceerd in het tijdschrijft Psychological Medicine in 2013.

Het onderzoek door Dr. Tuller, een docent in volksgezondheid en journalistiek aan UC Berkeley, bouwde voort op de indrukwekkende analyses die ME/CVS-patiënten al uitgevoerd hadden. Zijn werk hielp de geloofwaardigheid verwoesten van de PACE-studie als een voorbeeld van wetenschappelijk onderzoek. In februari postte Virology Blog een open brief (link) aan The Lancet en haar redacteur, Richard Horton, met de boodschap dat de tekortkomingen van de studie “geen plaats hebben in gepubliceerd onderzoek.” Verrassend genoeg zijn de PACE-auteurs, The Lancet en anderen in de medische en academische gevestigde orde van het VK de studie met veel overtuiging blijven steunen, ondanks de flagrante methodologische en ethische gebrekkigheden ervan.

Vandaag publiceer ik met vreugde een belangrijke nieuwe analyse van de data van de PACE-studie – een analyse waarvan de auteurs niet wilden dat je ze te zien kreeg. De resultaten moeten voor eens en voor altijd een einde maken aan de vraag of de enorme aanpassingen aan beoordelingsmethodes in het midden van de PACE-studie de onderzoekers de kans gaven om betere resultaten te rapporteren dan ze anders hadden kunnen doen. Hoewel het antwoord duidelijk werd uit het rapport van Dr. Tuller, maakt de nieuwe analyse het argument onbetwistbaar.

ME/CVS-patiënten ontwikkelden en schreven deze baanbrekende analyse met advies van twee academische coauteurs. Het werd opgesteld met data verkregen via een “vrijheid-van-informatie”-aanvraag, met heroïsche volharding ingediend door een Australische patiënt, Alem Matthees. Aangezien de auteurs al hun “herstelcriteria” drastisch afzwakten lang nadat de trial begonnen was, zonder goedkeuring van het comité voor de nieuwe definitie van “herstel”, was het volkomen voorspelbaar dat de resultaten volgens het protocol gespecificeerd slechter zouden zijn. Nu weten we precies hoe veel slechter.

Volgens de nieuwe analyse lagen de “herstel”percentages in de studiearmen voor graduele oefentherapie en cognitieve gedragstherapie rond de 5% en waren ze niet statistisch significant. De PACE-auteurs daarentegen speelden het klaar om statistisch significante “herstel”percentages van 22% te rapporteren voor hun favoriete behandelingen. Gezien de resultaten berekend werden op de voorgeselecteerde protocolmetriek waarvoor ze studiegoedkeuring en -financiering kregen, is het nu aan de PACE-auteurs om uit te leggen waarom iemand hun gepubliceerde resultaten zou moeten aanvaarden als correct, betrouwbaar of gerechtvaardigd.

De volledige tekst van de analyse staat hieronder. Een PDF is ook beschikbaar (link naar pdf [in het Engels, n.v.d.r.]).

Een voorlopige analyse van “herstel” van chronisch vermoeidheidssyndroom in de PACE-studie met gebruik van individuele data van deelnemers

Woensdag 21 september 2016

Alem Matthees (1), Tom Kindlon (2), Carly Maryhew (3), Philip Stark (4), Bruce Levin (5).

Perth, Australië. alem.matthees@gmail.com
Information Officer, Irish ME/CFS Association, Dublin, Ierland.
Amersfoort, Nederland.
Associate Dean, Wiskunde en Fysica; Professor, Department Statistiek; University of California, Berkeley, Californië, VSA.
Professor Biostatistiek en Voormalig Hoofd Leerstoel, Departement Biostatistiek, Mailman School of Public Health, Columbia University, New York, VSA.

Samenvatting

De PACE-studie testte behandelingen voor chronisch vermoeidheidssyndroom, maar de gepubliceerde “herstel”percentages waren gebaseerd op drempelwaarden die in belangrijke mate afweken van het gepubliceerde studieprotocol. Individuele data van deelnemers op een selectie van maatstaven werden kortgeleden vrijgegeven onder de Wet op de Vrijheid van Informatie, en maakten het mogelijk om een nieuwe analyse te maken van de herstelpercentages in overeenstemming met de drempelwaarden aangegeven in het gepubliceerde studieprotocol. Het herstelpercentage berekend met deze drempelwaarden is 3,1% voor gespecialiseerde medische zorg alleen; voor de aanvullende therapieën is het 6,8% voor cognitieve gedragstherapie, 4,4% voor graduele oefentherapie en 1,9% voor adaptieve pacingtherapie. Deze nieuwe analyse toont aan dat de eerder gerapporteerde herstelpercentages gemiddeld viervoudig opgeblazen werden. Bovendien, in tegenstelling tot de door de studieonderzoekers gepubliceerde paper, zijn de herstelpercentages in de groepen met cognitieve gedragstherapie en graduele oefentherapie niet beduidend hoger dan met gespecialiseerde medische zorg alleen. De gevolgen van deze bevindingen worden besproken.

Inleiding

De PACE-studie was een grote multicentrische studie van therapeutische behandelingen voor chronisch vermoeidheidssyndroom (CVS) in het Verenigd Koninkrijk (VK). De studie vergeleek drie therapieën die elk toegevoegd werden aan gespecialiseerde medische zorg (GMZ): cognitieve gedragstherapie (CGT), graduele oefentherapie (GET) en adaptieve pacingtherapie (APT). [1] Voortaan wordt GMZ alleen aangeduid als ‘GMZ’, GMZ plus CGT als ‘CGT’, GMZ plus GET als ‘GET’ en GMZ plus APT als ‘APT’. Resultaten bestonden uit twee zelfgerapporteerde primaire maatstaven (vermoeidheid en fysiek functioneren) en een mix van zelfgerapporteerde en objectieve secundaire maatstaven. De cohoofdonderzoekers zijn doorwinterde behandelaars en voorstanders van de CGT- en GET-benadering, terwijl APT een sterk geformaliseerde en aangepaste versie was van een alternatieve benadering van energiemanagement.

Nadat grote veranderingen aangebracht werden aan de in het protocol gespecificeerde “herstel”criteria, rapporteerden White et al. (2013) dat als men “een allesomvattende en voorzichtige definitie van herstel” gebruikte, CGT en GET in verband stonden met beduidend verhoogde herstelpercentages van 22% op de vervolgevaluatie na 52 weken, in vergelijking met slechts 8% voor APT en 7% voor GMZ [2]. Deze cijfers werden echter niet afgeleid van het gepubliceerde studieprotocol (White et al., 2007 [3]), maar in plaats daarvan werd een grondig herziene versie gebruikt die zware kritiek kreeg omdat ze overdreven laks en slecht onderbouwd was (bv. [4]). Zo veroorzaakten de wijzigingen bijvoorbeeld een overlap tussen de toelatingscriteria van de studie voor ernstig invaliderende vermoeidheid en het nieuwe “normale bereik”. Deelnemers aan de studie konden bijgevolg ingedeeld worden als hersteld, zonder klinisch significante verbetering in zelfgerapporteerd fysiek functioneren of vermoeidheid, en in sommige gevallen zonder welke verbetering dan ook op deze uitkomstmaten. Ongeveer 13% van de deelnemers voldeed bij aanvang zowel aan de toelatingscriteria voor “significante invaliditeit” als aan de herziene herstelcriteria voor normaal zelfgerapporteerd fysiek functioneren. De verantwoording die men gaf voor het aanpassen van de hersteldrempel voor fysiek functioneren, was blijkbaar gebaseerd op een foute interpretatie van eenvoudige samenvattende statistiek [5, 6] en de auteurs gaven ook een foute beschrijving van hun gereviseerde drempel als zijnde strikter dan in eerder onderzoek [2]. Deze fouten zijn niet gecorrigeerd, ondanks het beleid van het publicerende tijdschrift dat dit soort fouten verbeterd moet worden, wat resulteerde in een groeiende vraag naar een volledig onafhankelijke nieuwe analyse van de resultaten van de PACE-studie. [7, 8].

Meer dan zes jaar na voltooiing van de dataverzameling voor de vervolgevaluatie op 52 weken hebben de PACE-onderzoekers nog steeds geen herstelpercentages gepubliceerd zoals gedefinieerd in het studieprotocol. Queen Mary University of London (QMUL), die de studiedata bezit en de thuisbasis is van de hoofdonderzoeker, heeft ook geen toelating gegeven om de data te bekijken voor analyse van deze resultaten. Na een Vrijheid-van-Informatie-aanvraag (FOIA [of Freedom of Information Act, n.v.d.r.]) voor een selectie uit de studiedata bekrachtigde de Information Tribunal een eerdere beslissing van de Information Commissioner en beval de vrijgave van de data (zie zaak EA/2015/0269). Op 9 september 2016 gaf QMUL de gevraagde data vrij [9]. Gezien de openbare aard van de datavrijgave en de grote publieke interesse in de kwestie van “herstel” van CVS in de PACE-studie brengen wij een preliminaire analyse uit waarin we de algemene drempelwaarden gebruiken die vastgesteld waren in het gepubliceerde studieprotocol. De onderliggende data werden ook beschikbaar gesteld [10], terwijl meer gedetailleerde en complete analyses op later tijdstip gepubliceerd zullen worden.

Methodes

Maatstaven en criteria

Gebruik makend van de variabelen uit de FOIA-dataset is “herstel” van CVS in de PACE-studie hier geanalyseerd op basis van de belangrijkste uitkomstmaten omschreven door White et al. (2013) in de “cumulatieve criteria voor herstel in de studie” [2]. Deze maatstaven zijn: (i) de Chalder Fatigue Questionnaire [Chalder Vragenlijst Vermoeidheid, n.v.d.r.] (CFQ); (ii) een verkorte versie van de SF-36 subschaal fysiek functioneren (SF-36); (iii) de Clinical Global Impression Scale [Klinische Globale Impressieschaal, n.v.d.r.] (CGI); en (iv) de Oxford-criteria voor CVS. Wij zullen echter, in plaats van de afgezwakte drempels gebruikt in hun analyse, de drempels gebruiken die aangegeven stonden in het gepubliceerde studieprotocol van White et al. (2007) [3]. Een vergelijking tussen de verschillende drempels voor elke uitkomstmaat wordt voorgesteld in Tabel 1.

Waar opvolgingsdata voor zelfgerapporteerde CGI-scores ontbraken, hebben we, in tegenstelling tot de benadering van White et al., geen door dokters gequoteerde scores geïmputeerd, omdat het studieprotocol stelde dat alle primaire en secundaire resultaten “ofwel zelfgerapporteerd ofwel objectief zijn om het risico te beperken op observatiebias” van niet-geblindeerde evaluatoren. We bespreken de minimale invloed van deze imputatie hieronder. Deelnemers waarvoor geen data over herstelcriteria bij vervolg op 52 weken bestonden, werden geclassificeerd als niet hersteld.

Statistische analyse

White et al. (2013) voerden een available-case-analyse uit [analyse per tijdstip voor alle beschikbare personen, n.v.d.r.] die de weggevallen deelnemers uitsloot uit de noemers van elke groep [2]. Dit is niet de aanbevolen manier van werken in klinisch onderzoek, waar de voorkeur doorgaans uitgaat naar intention-to-treat-analyse (die alle gerandomiseerde deelnemers meerekent). Een available-case-analyse overschat mogelijk reële behandelingseffecten omdat het deelnemers die tegen de vervolgevaluatie uitvielen niet meetelt. Verloop van studiedeelnemers kan voorkomen om verschillende redenen, waaronder het niet kunnen verdragen van de voorgeschreven behandeling, de indruk dat er geen voordeel is en ongewenste bijwerkingen. Dus: een available-case-analyse houdt enkel rekening met de patiënten die bereid en in staat waren om de voorgeschreven behandelingen te doorstaan. Niettemin hebben we beide soorten analyses hier voorgesteld ter vergelijking. We stellen een voorlopige verkennende analyse voor van frequentie en percentage van deelnemers die voldoen aan alle herstelcriteria in elke groep, gebaseerd op het intention-to-treat-principe, alsook de available-case-subgroep.

Noch het gepubliceerde studieprotocol [3], noch het gepubliceerde plan voor statistische analyse [11] specificeerden een methode voor het bepalen van de statische significantie van de verschillen in herstelpercentages tussen behandelingsgroepen. In hun gepubliceerde paper over herstel introduceerden White et al. (2013) logistische regressieanalyses voor paarsgewijze vergelijkingen van de studiearmen, met aanpassing voor de baseline stratificatievariabelen van behandelingscentrum, vervulling van de London ME-criteria, en het lijden aan depressie [2]. Het is echter aangetoond dat logistische regressie soms niet geschikt is als analysemethode in de context van gerandomiseerd onderzoek [12]. Terwijl Fishers exacte toets de voorkeur geniet, zou een meer rigoureuze benadering de stratificatievariabelen ook in rekening nemen, maar die maakten spijtig genoeg geen deel uit van de beschikbare FOIA-dataset. Niettemin zijn er redenen om aan te nemen dat de invloed van het meerekenen van stratificatievariabelen minimaal zou zijn op onze analyse: de stratificatievariabelen waren ongeveer gelijkmatig verdeeld tussen de groepen [1] en een poging om de voordien gepubliceerde [2] odds ratio en 95%-betrouwbaarheidsintervallen te repliceren met behulp van logistische regressie, maar zonder stratificatievariabelen, leverde resultaten op die erg leken op de voordien gepubliceerde resultaten (zie Tabel 3).

Om die reden tonen wij herstelpercentages voor elke groep en vergelijken we de geobserveerde percentages voor elke actieve behandelingsarm met die van de GMZ-arm via Fishers exacte toets. De betrouwbaarheidsintervallen voor herstelpercentages in elke groep en comparatieve odds ratios zijn exacte 95%-betrouwbaarheidsintervallen berekend via de point-probability-methode [13]. Met het oog op directe vergelijking met gepubliceerde resultaten van White et al. (2013) stellen we ook resultaten voor van logistische regressieanalyse die enkel de behandelingsarm bevatte als een voorspellende variabele, met de gebruikelijke betrouwbaarheidsintervallen van ongeveer 95%.

Resultaten

Voor onze analyse van “herstel” in de PACE-studie waren alle data beschikbaar voor 89% tot 94% van de deelnemers, afhankelijk van de behandelingsgroep en uitkomstmaat. Percentages zijn berekend zowel voor intention-to-treat als op basis van available-case. Het imputeren van ontbrekende zelfgerapporteerde CGI-scores met door dokters gequoteerde CGI-scores maakte geen verschil in de intention-to-treat-analyse, gezien er geen deelnemers waren met ontbrekende zelfgerapporteerde CGI-scores met een evaluatiecijfer van 1, vereist voor herstel. In de available-case-analyse had dit als enige effect dat de CGT-noemer verminderde met 1, en de evaluatiescore voor die deelnemer was 3, “een beetje beter”, en dus niet hersteld. Tabel 2 geeft de resultaten en Figuur 1 vergelijkt onze herstelpercentages met die van White et al. (2013):

N.v.d.r. SMC = GMZ, CBT = CGT

Legende. SMC = GMZ = standaard gespecialiseerde medische zorg, APT = adaptieve pacingtherapie, CBT = CGT = cognitieve gedragstherapie, GET = graduele oefentherapie

De CGT-, GET- en APT-groepen toonden geen statistisch significant voordeel op de GMZ-groep in geen enkele van bovenstaande analyses, en ook geen empirisch herstelpercentage dat algemeen beschouwd kan worden als voldoende (het hoogst vastgestelde percentage was 7,7%). In de intention-to-treat-analyse was de exacte p-waarde 0,14 voor de chi-kwadraattoets met drie vrijheidsgraden op geen algemene verschillen tussen de vier groepen. In de available-case-analyse was de p-waarde 0,10. Gezien het aantal vergelijkingen zou een correctie voor meervoudig testen gepast zijn, maar aangezien geen van de niet-gecorrigeerde p-waarden significant waren op het p<0,05-niveau, zou deze voorzichtigere benadering de conclusies niet veranderen. Onze bevindingen zijn dus tegenstrijdig met de conclusies van White et al. (2013), dat CGT en GET significant meer verband hielden met “herstel” op 52 weken dan de GMZ-groep [2]. Niettegenstaande maken de erg lage herstelpercentages het heel erg moeilijk om statistisch significante verschillen waar te nemen tussen de groepen (zie het onderdeel Beperkingen). De veelvuldige wijzigingen in de herstelcriteria hebben de inschatting van herstel opgeblazen met een factor van ongeveer 2,3 tot 5,1, afhankelijk van de groep, met een gemiddelde van 3,8 maal opgeblazen.

Beperkingen

Gebrek aan statistische kracht

Bij het ontwerpen van de PACE-studie en het bepalen van het noodzakelijke aantal deelnemers werden de krachtanalyses van de onderzoekers niet gebaseerd op inschattingen van herstel, maar op de voorspelling van relatief hoge percentages van klinische verbetering in de groepen met aanvullende therapie in vergelijking met GMZ alleen [3]. De erg lage herstelpercentages kondigen echter een extra moeilijkheid aan voor de significantietoetsen, omwille van onvoldoende statistische kracht om bescheiden maar klinisch belangrijke verschillen tussen groepen waar te nemen. Bijvoorbeeld in de vergelijking CGT vs. GMZ via intention-to-treat zou een echte odds ratio van 4,2 noodzakelijk zijn om Fishers exacte toets 80% kracht te geven om significantie te bevestigen, gezien de waargenomen marges. Als we aannemen dat GMZ een kans heeft van 3,1%, zou een odds ratio van 4,2 overeengekomen zijn met een herstelkans van 11,8%, wat in de studie niet bereikt werd.

Wij vonden dat het voor onze voorlopige analyse belangrijk was om gevolg te geven aan de in het protocol aangegeven herstelcriteria, die zinvoller zijn dan de herziene drempels. Bijvoorbeeld: het voordien vereiste niveau van fysiek functioneren zou betekenen dat een “hersteld” persoon op zijn minst de meest normale activiteiten zou kunnen uitvoeren, maar misschien beperkingen heeft bij enkele van de items op de SF-36-vragenlijst over gezondheid, zoals zwaar sporten, trappenlopen of vooroverbuigen. De herziene drempel die White et al. (2013) gebruikten, betekent dat een “hersteld” iemand beperkingen kon blijven hebben op vier tot acht van de tien items, afhankelijk van de graad van ernst. Wij stelden vast dat als we de herziene herstelcriteria gebruikten, 8% (7/78) van de “herstelde” deelnemers nog steeds voldeden aan de toelatingscriteria voor “significante invaliditeit”.

Het afzwakken van de hersteldrempels vergroot de statistische kracht om verschillen tussen groepen op te sporen omdat het de gebeurtenisprecentages (in dit geval: “herstel”) frequenter maakt (in dit geval: minder dicht bij nul), maar het leidt ook tot het meerekenen van patiënten die nog steeds o.a. significante ziektegerelateerde belemmeringen hebben in fysieke capaciteit, zoals in de SF-36 fysieke functie-score. Wij stellen dat, als significante verschillen tussen groepen niet opgemerkt kunnen worden in steekproefgroepen van ongeveer n=160 per groep, dit mogelijk aantoont dat CGT en GET de herstelpercentages simpelweg niet wezenlijk verhogen.

Gebrek aan data over stratificatievariabelen

Om de kans te vergroten op toekenning of afdwinging, vroeg de FOIA-aanvraag een “strikt minimum” aan variabelen, omdat te veel variabelen vragen, of variabelen vragen waarvan men denkt dat ze het risico verhogen op re-identificeren van deelnemers, de kans op een ingewilligde FOIA-aanvraag verkleind zou hebben. Dit was een aanvaardbaar compromis, gezien QMUL voordien alle aanvragen had tegengehouden voor de in het protocol aangegeven herstelpercentages en de onderliggende data om ze te berekenen. Daarom ontbreken sommige niet cruciale variabelen van de dataset verworven via de FOIA, maar er zijn redenen om aan te nemen dat dit weinig effect zou hebben op de resultaten.

Toewijzing van de deelnemers aan de PACE-studie was gestratificeerd [1]: “De eerste drie deelnemers van elke van de zes klinieken werden toegewezen via eenvoudige randomisering. Vervolgens werd toewijzing gestratificeerd per centrum, alternatieve criteria voor chronisch vermoeidheidssyndroom en myalgische encefalomyelitis en depressie (majeure of mineure depressieve episode of dysthymie), met computergegenereerde probabilistische minimalisering.”

Dit betekent dat testen op statistische significantie, uitgaande van eenvoudige randomisering, resulteren in p-waarden die slechts bij benadering gelden en schattingen zijn van effectgrootte die mogelijk vertekend zijn. De FOIA-dataset bevat geen stratificatievariabelen. Hoewel het ontbreken van deze variabelen de geschatte behandelingseffecten en de p-waarden of betrouwbaarheidsniveau’s mogelijk ietwat beïnvloed heeft, verwachten we dat de verschillen minimiem zullen zijn; een conclusie die ondersteund wordt door onderstaande Tabel 3. Tabel 1 van de publicatie van de resultaten van de hoofdstudie (White et al., 2011) toont aan dat de stratificatievariabelen ongeveer gelijkmatig verdeeld waren tussen de groepen [1]. We hebben de percentages van het in de studie vernoemde “herstel” herhaald zoals eerder gepubliceerd door White et al. (2013) [2]. We hebben ook geprobeerd om hun eerder gerapporteerde logistische regressie te herhalen zonder de stratificatievariabelen, en de resultaten waren wezenlijk dezelfde (zie Tabel 3), wat doet vermoeden dat de aanpassingen geen significante invloed zouden hebben op de resultaten van onze eigen analyse van herstel.

Als QMUL of de onderzoekers van de PACE-studie vinden dat verdere bijstelling noodzakelijk is om vertrouwen te krijgen in de resultaten, dan nodigen wij hen uit om analyses te presenteren die stratificatievariabelen omvatten of de ruwe data vrij te geven voor die variabelen zonder onnodige restricties.

Gebrek aan gegevens over alternatieve ME/CVS-criteria

Voor dezelfde redenen die beschreven staan in het vorige onderdeel, bevat de FOIA-dataset geen van de variabelen over het vervullen van de CVS-criteria van CDC of de London ME-criteria (myalgische encefalomyelitis). Die maakten deel uit van de oorspronkelijke definitie van herstel, maar wij stellen dat ze overbodig zijn omdat:

(a) hoewel onze definitie van herstel minder strikt is zonder de alternatieve ME/CVS-criteria, deze bijkomende criteria geen significant effect hadden op de resultaten gerapporteerd door White et al. (2013) [2]; (b) aan de alternatieve ME/CVS-criteria gebruikt in de studie enkele bedenkelijke wijzigingen aangebracht werden [14], die in geen enkele andere studie gebruikt zijn, en dus de mogelijkheid tot vergelijking en validering tussen studies onderling ernstig beperkt; (c) de Oxford-criteria voor CVS de gevoeligste en minst specifieke (meest omvattende) criteria zijn, dus zij die voldoen aan alle andere aspecten van de herstelcriteria zullen hoogstwaarschijnlijk niet voldoen aan alternatieve ME/CVS-criteria; (d) alle deelnemers eerst werden gescreend met de Oxford-criteria voor CVS, aangezien dit de primaire insluitingsdefinitie was, terwijl de aanvullende insluitingscriteria niet tot de toelatingseisen behoorden [1].

Bespreking

Het is belangrijk dat patiënten, medische beroepsbeoefenaars en onderzoekers correcte informatie hebben over de kansen op herstel van CVS. Aangezien definitieve uitkomstmaten ontbreken, moeten herstelcriteria aanvaardbare normen vooropstellen die herstel van goede gezondheid benaderen, in overeenstemming met wat men doorgaans beschouwt als herstel van ziekte [15]. Bijgevolg hebben de aanpassingen die de onderzoekers van de PACE-studie maakten, nadat de studie al goed op gang was, ervoor gezorgd dat de herstelcriteria te laks werden om nog iets te concluderen over de doeltreffendheid van CGT en GET als revaliderende behandelingen voor CVS. Deze analyse, gebaseerd op het gepubliceerde studieprotocol, toont aan dat de grote aanpassingen aan de drempels voor herstel de schatting naar herstel gemiddeld met een viervoud opgeblazen heeft. QMUL publiceerde kortgeleden de primaire “herstel”resultaten van de PACE-studie zoals aangegeven in het protocol [16] en dat toonde ook een gelijkaardig verschil aan tussen de hoeveelheid deelnemers ingedeeld als verbeterd, in vergelijking met de posthoc cijfers eerder gepubliceerd in The Lancet in 2011 [1]. Uit deze resultaten blijkt duidelijk dat de aanpassingen aan het protocol niet miniem of nietsbetekenend waren, gezien ze enorme verschillen opleverden die verder onderzoek behoeven.

Het protocol van de PACE-studie werd gepubliceerd met de implicatie dat aanpassingen onwaarschijnlijk waren [17], en hoewel de studieonderzoekers hun analyse van herstel beschrijven als vooraf gespecificeerd, worden er geen aanpassingen vermeld aan de herstelcriteria in het plan van statistische analyse dat werd afgerond kort vóór het opheffen van de blindering van de studiedata [11]. De daaropvolgende verwarring was te verwachten, gezien de timing en aard van de substantiële wijzigingen die aangebracht werden aan de herstelcriteria [18]. De eindpunten van een studie veranderen is ongebruikelijk en is slechts zelden aanvaardbaar; bovendien is het wellicht niet aan de studieonderzoekers om te beslissen of eindpunten herzien worden [19, 20]. Sleutelaspecten van vooraf geregistreerd ontwerp en analyse worden vaak genegeerd in latere publicaties en positieve resultaten zijn vaak een product van overdreven soepele normen voor ontwerp en data-analyse [21, 22].

Zoals gemeld in een recent redactioneel artikel in BMJ van hoofdredacteur Fiona Godlee (3 maart 2016), als er voldoende twijfel bestaat om onafhankelijke heranalyse te rechtvaardigen [23]: “zou zo’n onafhankelijke heranalyse en publieke toegang tot geanonimiseerde data sowieso de regel moeten zijn, en niet de uitzondering, wie de studie ook financiert.” De PACE-studie levert een goed voorbeeld van de problemen die kunnen ontstaan als onderzoekers de toelating hebben om wezenlijk af te wijken van het studieprotocol zonder voldoende verantwoording of controle. Daarom stellen wij voor dat een grondige, transparante en onafhankelijke heranalyse wordt uitgevoerd om meer helderheid te scheppen over de resultaten van de PACE-studie. In afwachting van een uitgebreide toetsing of doorlichting van de studiedata lijkt het verstandig om de gepubliceerde studieresultaten te beschouwen als mogelijk ongeldig, alsook de medische teksten, reviewartikels en beleidslijnen gebaseerd op die resultaten.

Dankwoord

Dit artikel schrijven in een zodanig korte tijdspanne zou niet mogelijk zijn geweest zonder de uiteenlopende en waardevolle bijdragen van patiënten en anderen die ervoor kozen niet genoemd te worden als auteurs.

Verklaringen

AM diende een FOIA-aanvraag in en nam deel aan de gerechtelijke procedures om de dataset te verkrijgen. TK is lid van het comité van de Irish ME/CFS Association (vrijwillige functie).

Referenties

White PD, Goldsmith KA, Johnson AL, Potts L, Walwyn R, DeCesare JC, Baber HL, Burgess M, Clark LV, Cox DL, Bavinton J, Angus BJ, Murphy G, Murphy M, O’Dowd H, Wilks D, McCrone P, Chalder T, Sharpe M; PACE trial management group. Comparison of adaptive pacing therapy, cognitive behaviour therapy, graded exercise therapy, and specialist medical care for chronic fatigue syndrome (PACE): a randomised trial. Lancet. 2011 Mar 5;377(9768):823-36. doi: 10.1016/S0140-6736(11)60096-2. Epub 2011 Feb 18. PMID: 21334061. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3065633/
White PD, Goldsmith K, Johnson AL, Chalder T, Sharpe M. Recovery from chronic fatigue syndrome after treatments given in the PACE trial. Psychol Med. 2013 Oct;43(10):2227-35. doi: 10.1017/S0033291713000020. PMID: 23363640. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3776285/
White PD, Sharpe MC, Chalder T, DeCesare JC, Walwyn R; PACE trial group. Protocol for the PACE trial: a randomised controlled trial of adaptive pacing, cognitive behaviour therapy, and graded exercise, as supplements to standardised specialist medical care versus standardised specialist medical care alone for patients with the chronic fatigue syndrome/myalgic encephalomyelitis or encephalopathy. BMC Neurol. 2007 Mar 8;7:6. PMID: 17397525. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2147058/
A list of articles by David Tuller on ME/CFS and PACE at Virology Blog. http://www.virology.ws/mecfs/
Kindlon T, Baldwin A. Response to: reports of recovery in chronic fatigue syndrome may present less than meets the eye. Evid Based Ment Health. 2015 May;18(2):e5. doi: 10.1136/eb-2014-101961. Epub 2014 Sep 19. PMID: 25239244. http://ebmh.bmj.com/content/18/2/e5.long
Matthees A. Assessment of recovery status in chronic fatigue syndrome using normative data. Qual Life Res. 2015 Apr;24(4):905-7. doi: 10.1007/s11136-014-0819-0. Epub 2014 Oct 11. PMID: 25304959. http://link.springer.com/article/10.1007%2Fs11136-014-0819-0
Davis RW, Edwards JCW, Jason LA, et al. An open letter to The Lancet, again. Virology Blog. 10 februari 2016. http://www.virology.ws/2016/02/10/open-letter-lancet-again/
#MEAction. Persbericht: 12,000 signature PACE petition delivered to the Lancet. http://www.meaction.net/press-release-12000-signature-pace-petition-delivered-to-the-lancet/
Queen Mary University of London. Statement: Disclosure of PACE trial data under the Freedom of Information Act. 9 September 2016 Statement: Release of individual patient data from the PACE trial. http://www.qmul.ac.uk/media/news/items/smd/181216.html
FOIA request to QMUL (2014/F73). Dataset file: https://sites.google.com/site/pacefoir/pace-ipd_foia-qmul- 2014-f73.xlsx Readme file: https://sites.google.com/site/pacefoir/pace-ipd-readme.txt
Walwyn R, Potts L, McCrone P, Johnson AL, DeCesare JC, Baber H, Goldsmith K, Sharpe M, Chalder T, White PD. A randomised trial of adaptive pacing therapy, cognitive behaviour therapy, graded exercise, and specialist medical care for chronic fatigue syndrome (PACE): statistical analysis plan. Trials. 2013 Nov 13;14:386. doi: 10.1186/1745-6215-14-386. PMID: 24225069. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4226009/
Freedman DA. Randomization Does Not Justify Logistic Regression. Statistical Science. 2008;23(2):237–249. doi:10.1214/08-STS262. https://arxiv.org/pdf/0808.3914.pdf
Fleiss JL, Levin B, Paik MC. Statistical methods for rates and proportions. 3rd ed. Hoboken, N.J: J. Wiley; 2003. 760 p. IBSN: 978-0-471-52629-2. (Wiley series in probability and statistics). http://au.wiley.com/WileyCDA/WileyTitle/productCd-0471526290.html
Matthees A. Treatment of Myalgic Encephalomyelitis/Chronic Fatigue Syndrome. Ann Intern Med. 2015 Dec 1;163(11):886-7. doi: 10.7326/L15-5173. PMID: 26618293.
Adamowicz JL, Caikauskaite I, Friedberg F. Defining recovery in chronic fatigue syndrome: a critical review. Qual Life Res. 2014 Nov;23(9):2407-16. doi: 10.1007/s11136-014-0705-9. Epub 2014 May 3. PMID: 24791749. http://link.springer.com/article/10.1007%2Fs11136-014-0705-9
Goldsmith KA, White PD, Chalder T, Johnson AL, Sharpe M. The PACE trial: analysis of primary outcomes using composite measures of improvement. 8 September 2016. http://www.wolfson.qmul.ac.uk/images/pdfs/pace/PACE_published_protocol_based_analysis_final_8th_Sept_2016.pdf
BMC editor’s comment on [Protocol for the PACE trial] (Versie: 2. Datum: 31 januari 2007) http://www.biomedcentral.com/imedia/2095594212130588_comment.pdf
UK House of Lords. PACE Trial: Chronic Fatigue Syndrome/Myalgic Encephalomyelitis. 6 February 2013. http://www.publications.parliament.uk/pa/ld201213/ldhansrd/text/130206-gc0001.htm
Evans S. When and how can endpoints be changed after initiation of a randomized clinical trial? PLoS Clin Trials. 2007 Apr 13;2(4):e18. PMID 17443237. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1852589/
Moher D, Hopewell S, Schulz KF, Montori V, Gøtzsche PC, Devereaux PJ, Elbourne D, Egger M, Altman DG. CONSORT 2010 explanation and elaboration: updated guidelines for reporting parallel group randomised trials. BMJ. 2010 Mar 23;340:c869. doi: 10.1136/bmj.c869. PMID: 20332511. http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2844943
Simmons JP, Nelson LD, Simonsohn U. False-positive psychology: undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychol Sci. 2011 Nov;22(11):1359-66. doi: 10.1177/0956797611417632. Epub 2011 Oct 17. PMID: 22006061. http://pss.sagepub.com/content/22/11/1359.long
Wagenmakers EJ, Wetzels R, Borsboom D, van der Maas HL, Kievit RA. An Agenda for Purely Confirmatory Research. Perspect Psychol Sci. 2012 Nov;7(6):632-8. doi: 10.1177/1745691612463078. PMID: 26168122. http://pps.sagepub.com/content/7/6/632.full
Godlee F. Data transparency is the only way. BMJ 2016;352:i1261. (Gepubliceerd 3 maart 2016) doi:http://dx.doi.org/10.1136/bmj.i1261 http://www.bmj.com/content/352/bmj.i1261

Eén reactie

asje schreef:

22 september 2016 om 22:38

Nu nog cijfers over, soms grote, soms blijvende, achteruitgang bij CGT/GET. Want het gaat nog verder dan ‘geen verbetering’… Of die ergens uit te halen zijn??

Login om te reageren