Trial By Error, vervolgd: vragen voor Dr. White en zijn collega’s van de PACE-studie

Lijst vragen, 1 september 2015:

Ik post deze lijst letterlijk, hoewel ik, als ik vandaag mijn best zou doen, nog enkele vragen zou toevoegen, terugtrekken of herformuleren. (Ik zou een of twee statistische concepten verkeerd weergegeven kunnen hebben.) De lijst is geenszins limitatief. Patiënten en onderzoekers zouden gemakkelijk op de proppen kunnen komen met een groot aantal extra items. Het PACE-team lijkt veel te verantwoorden hebben.

In juni [2015] verklaarde een rapport in opdracht van de National Institutes of Health, dat de Oxford-criteria “teruggetrokken” moeten worden, omdat de casusdefinitie vooruitgang belemmerde en mogelijk schade veroorzaakte. Zoals jullie weten, heerst de bezorgdheid dat de definitie zo non-specifiek is, dat deze leidt tot heterogene onderzoekspopulaties, die mensen bevatten met vele ziekten naast ME/cvs. Hoe reageren jullie op deze bezorgdheid?

In gepubliceerde opmerkingen na de presentatie van Dr. White in Bristol afgelopen najaar [2015], schreef Dr. Jonathan Edwards: “Wat Dr. White niet leek te begrijpen is, dat een simpele reden voor het niet accepteren van de conclusie is, dat een ongeblindeerde studie in een situatie waar eindpunten subjectief zijn, waardeloos is.” Wat is jullie reactie op Dr. Edwards standpunt?

De nieuwsbrief voor PACE-deelnemers van december 2008 bevatte een artikel over de Britse NICE-richtlijnen. Het artikel stelde dat de aanbevolen behandelingen, “gebaseerd op het best beschikbare bewijs”, twee van de interventies bevatten die werden bestudeerd – CGT en GET. (Het artikel noemde niet dat PACE-onderzoeker Jessica Bavinton ook deel uitmaakte van de richtlijnencommissie van NICE.) Dezelfde nieuwsbrief bevatte enthousiaste getuigenissen van tevreden deelnemers over hun positieve resultaten van de “therapie” en “behandeling”, maar bevatte geen getuigenissen van deelnemers met negatieve resultaten. Volgens de grafiek die de rekruteringsstatistieken in dezelfde nieuwsbrief illustreert, stonden er nog 200 of meer deelnemers op de lijst om een of meer van hun beoordelingen te ondergaan na publicatie van de nieuwsbrief.

Waren jullie bezorgd dat het publiceren van dergelijke uitspraken de overige onderzoeksdeelnemers bevooroordeeld zou maken? Zo niet, waarom niet? Een professor in de biostatistiek van Columbia vertelde mij dat het voor onderzoekers “het hoogtepunt van amateurisme in klinisch onderzoek” was om dergelijke informatie te publiceren tijdens de studie, en dat jullie op zijn minst de antwoorden voor en na het verspreiden van de nieuwsbrief hadden moeten onderzoeken, om jullie ervan te verzekeren dat er geen vooringenomenheid was als gevolg van de uitspraken. Wat is jullie reactie hierop? Ook, zou het artikel over de NICE-richtlijnen moeten hebben meegedeeld dat Jessica Bavinton in de commissie zat en daarom een dubbele rol speelde?

In jullie protocol beloofden jullie om zich te houden aan de Verklaring van Helsinki. De verklaring eist dat het verkrijgen van geïnformeerde toestemming (informed consent) vereist dat toekomstige deelnemers “adequaat geïnformeerd” moeten zijn over “alle mogelijke belangenconflicten” en “institutionele banden van de onderzoeker”. In de Lancet en andere tijdschriften vermeldden jullie financiële en adviserende banden met verzekeringsmaatschappijen als “belangenconflicten”. Maar studiedeelnemers die ik heb geïnterviewd, zeiden dat zij niet achter deze “belangenconflicten” waren gekomen tot nadat zij de studie hadden voltooid. Zij voelden dat dit hun rechten als deelnemers op geïnformeerde toestemming, schond. Een iemand eiste dat haar data uit de studie moesten worden verwijderd na dat feit. Ik heb deelnemersinformatie en toestemmingsformulieren beoordeeld, waaronder deze van versie 5.0 van het protocol, en geen enkele bevat de bekendmakingen die door de Verklaring van Helsinki werden geëist.

Waarom besloten jullie om toekomstige deelnemers niet te informeren over jullie “belangenconflicten” en”institutionele banden” als onderdeel van het proces van geïnformeerde toestemming? Geloven jullie dat deze omissie in strijd is met bepalingen van de Verklaring van Helsinki inzake bekendmaking aan deelnemers? Kunnen jullie documenteren dat PACE-deelnemers ingelicht werden over jullie “mogelijke belangenconflicten” en “institutionele banden” gedurende het proces van geïnformeerde toestemming?

Voor zowel vermoeidheid als fysiek functioneren toonden jullie drempels voor “normal range” (normaalwaarden) (Lancet) en “herstel” (Psych Med) een hogere mate van invalideit aan dan de toelatingscriteria, wat betekent dat deelnemers vermoeid of fysiek geïnvalideerd genoeg konden zijn om deel te kunnen nemen, maar tegelijkertijd “hersteld”. 13% van de steekproef bevond zich al “binnen normal range” op fysiek functioneren, vermoeidheid of beide bij de start, volgens informatie die werd verkregen onder een verzoek tot Vrijheid van Informatie (FOI).

Kunnen jullie de logica van die overlap verklaren? Waarom maakten de papers in de Lancet en Psych Med geen specifieke melding hiervan of bespraken de implicaties van de overlappingen, of maakten bekend dat 13% van de studie steekproef reeds bij aanvang “binnen normal range” waren op een indicator? Geloven jullie dat dergelijke overlappingen de interpretatie van de resultaten beïnvloeden? Zo niet, waarom niet? Welke specifieke toezichtcommissie keurde deze uitkomstresultaten goed? Of werd het niet door een commissie goedgekeurd, omdat het een post hoc analyse was?

Jullie hebben deze “normal ranges” verklaard als het product van het nemen van de gemiddelde waarde +/- 1 x de standaarddeviatie van de scores van representatieve populaties – de standaardbenadering om normaalwaarden te verkrijgen wanneer gegevens normaal verdeeld zijn. Echter de waarden in beide bronnen waaraan wordt gerefereerd (Bowling voor fysiek functioneren en Chalder voor vermoeidheid) zijn geclusterd in de richting van de gezondere einden, zoals beide papers duidelijk maken, dus de conventionele formule levert geen accurate “normal range” op. In een paper uit 2007 maakte Dr. White melding van dit probleem van scheve populaties en de uitdaging die zij vormden voor de berekening van normal ranges.

Waarom maakten jullie geen gebruik van andere methodes voor het bepalen van normal ranges uit jullie geclusterde datasets van Bowling en Chalder, zoals ze baseren op percentielen? Waarom maakten jullie geen melding van de zorgen of beperking van het gebruik maken van conventionele methodes in de PACE-papers, zoals Dr. White deed in de paper van 2007? Is deze toepassing van conventionele statistische methodes voor niet-normaal verdeelde data de reden waarom jullie dergelijke brede normale waarden hadden, die uiteindelijk een overlap vertoonden met de toelatingscriteria voor vermoeidheid en fysiek functioneren?

Volgens het protocol zouden de belangrijkste bevindingen uit de primaire metingen aantallen zijn van “positieve uitkomsten”/”algeheel verbeterden”, die individueel niveau mogelijk gemaakt zouden hebben. In plaats daarvan was de belangrijkste bevinding een vergelijking van de gemiddelde prestaties van de samengevoegde groepsresultaten, die geen belangrijke informatie verschaften over hoeveel er beter of slechter werden. Wie keurde deze specifieke verandering goed? Waren jullie bezorgd over het verliezen van de beoordelingen op individueel niveau?

De andere twee methoden voor het inschatten van primaire uitkomsten waren beide post hoc analyses. Zijn jullie het er mee eens dat post hoc analyses veel minder gewicht in de schaal leggen dan vooraf gespecificeerde resultaten? Heeft een specifieke toezichtcommissie van PACE de post hoc analyses goedgekeurd?

De verbetering die vereist was om een “klinisch bruikbaar voordeel” te bereiken, werd gedefinieerd als 8 punten op de schaal SF-36 en 2 punten op de continue scoring op de vermoeidheidsschaal. In het protocol werden categorische drempels voor een “positieve uitkomst” aangewezen als 75 op de SF-36 en 3 op de vermoeidheidschaal van Chalder, op deze manier bereikte men dat er een toename vereist was van ten minste 10 punten op de SF-36 en 3 punten (bimodaal) voor vermoeidheid. Zijn jullie het met mij eens dat de protocolmeting van deelnemers vereiste dat zij sterkere verbeteringen lieten zien om de “positieve uitkomst”-scores te bereiken dan het post hoc “klinisch bruikbaar voordeel”?

Toen jullie jullie protocol in 2007 in BMC Neurology publiceerden, voegde het tijdschrift een “redactioneel commentaar” toe dat er bij de lezers op aandrong om de gepubliceerde papers te vergelijken met het protocol om “te verzekeren dat er geen afwijkingen van het protocol zouden voorkomen tijdens de studie.” Het commentaar riep lezers op om “contact op te nemen met de auteurs” in het geval van dergelijke veranderingen. Bij het vragen om de resultaten uit het protocol, volgden patiënten en anderen de suggestie in het redactioneel commentaar dat werd toegevoegd aan jullie protocol. Waarom hebben jullie geweigerd om de data op verzoek vrij te geven? Kunnen jullie uitleggen waarom Queen Mary verzoeken om resultaten volgens het originele protocol als “ergerlijk” heeft beschouwd?

In gevallen waar protocolwijzigingen absoluut noodzakelijk zijn, voeren onderzoekers vaak gevoeligheidsanalyses uit om de invloed van de veranderingen in te schatten, en/of publiceren de bevindingen van zowel originele als gewijzigde sets van aannames. Waarom hebben jullie besloten om geen enkele van deze standaardbenaderingen te gebruiken?

Jullie hebben in jullie antwoord op correspondentie in de Lancet duidelijk gemaakt dat de paper uit 2011 niet over “herstel” ging. Waarom refereerde Dr. Chalder dan op de persconferentie uit 2011 aan de “normal ranges”-data alsof dit aantoonde dat patiënten “terug naar normaal” waren gegaan – d.w.z. dat zij “herstelden”? En aangezien jullie volgens de klachtencommissie input hadden in het begeleidende commentaar in de Lancet voorafgaand aan publicatie, waarom hebben jullie de schrijvers dan niet afgeraden om een “herstel”percentage van 30% te verklaren? Zijn jullie het eens met het commentaar dat PACE een “strikt criterium voor herstel” gebruikte, gezien het feit dat in beide primaire uitkomsten deelnemers konden verslechteren en worden meegeteld als “hersteld”, of “terug naar normaal” in de woorden van Dr. Chalder?

Een groot deel van de berichtgeving in de pers focuste zich op “herstel”, ondanks dat de paper geen dergelijke claim deed. Waren jullie ook maar bezorgd dat de media de resultaten fout interpreteerde of overinterpreteerde, en voelden jullie enige verantwoordelijkheid daarvoor, gezien het feit dat Dr. Chalders uitspraak van “terug naar normaal” en de claim uit het commentaar van een “herstel”percentage van 30% de voornaamste bronnen van deze claims waren?

Jullie veranderden jullie scoringsmethode voor vermoeidheidsuitkomsten van bimodaal naar continu halverwege de studie, maar haalden geen referenties aan ter staving hiervan dat ervoor gezorgd kan hebben dat jullie van gedachten veranderd waren sinds het protocol. Concreet legden jullie niet uit dat de FINE-studie voordelen voor haar interventie rapporteerde, slechts in een post hoc heranalyse van haar vermoeidheidsdata, gebruikmakend van continue scoring.

Waren de FINE-bevindingen de aanzet voor de wijzigingen in scoring in jullie paper? Zo ja, waarom werd deze reden niet genoemd of aangehaald? Zo niet, welke specifieke verandering bevorderde jullie besluit halverwege de studie om het protocol op deze manier te veranderen? En gezien het feit dat de FINE-studie gepromoot werd als de “zusterstudie” van PACE, waarom werden deze studie en haar negatieve bevindingen niet genoemd in de tekst van de paper in de Lancet? Geloven jullie dat die bevindingen irrelevant zijn voor PACE? Voorts, aangezien de Likert-stijl analyse van vermoeidheid al een secondaire uitkomst was bij PACE, waarom hebben jullie niet simpelweg zowel bimodale als continue analyses verstrekt in plaats van het helemaal laten vallen van de bimodale scoring?

Het “benodigde aantal om te behandelen” (NNT) voor CGT en GET was 7, zoals Dr. Sharpe aangaf in een Australisch radio-interview na de publicatie in de Lancet. Maar op basis van de “normal range” data, was de NNT voor standaard medische zorg (SMC) ook 7, aangezien deze deelnemers een percentage van 15% bereikten van het “binnen normale waarden” zijn, die de helft van het percentage vertegenwoordigen die wordt ervaren onder de revalidatiebehandelingen.

Is dat wat Dr. Sharpe bedoelde in het radio-interview toen hij zei: “Wat deze studie niet in staat was te beantwoorden, is hoeveel beter deze behandelingen zijn dan helemaal geen enkele behandeling hebben?” Zo niet, wat bedoelde Dr. Sharpe? Was de studie niet ontworpen om dezelfde vraag te beantwoorden die Dr. Sharpe aanhaalde? Omdat elk van de rehabilatieve interventiegroepen evenals de SMC-groep een NNT van 7 had, zou het dan accuraat zijn om de “normale waarden” te interpreteren als bewijs dat CGT en GET even goed werkten als SMC, maar niet beter?

De PACE-paper werd alom geïnterpreteerd, op basis van jullie bevindingen en uitspraken, als bewijs dat “pacing” niet effectief is. Toch beschrijven patiënten “pacing” als een individuele, flexibele, zelfhulpmethode om zich aan te passen aan de ziekte. Zou het verpakken en operationaliseren ervan als een “behandeling” toegepast door een “therapeut” haar aard veranderen en daarom ook haar impact ervan? Waarom denken jullie dat het bewijs van adaptieve pacingtherapie (APT) geëxtrapoleerd kan worden naar wat patiënten zelf “pacing” noemen? Ook, gezien ullie partnerschap met Action4ME in het ontwikkelen van APT, hoe verklaren jullie dat de organisatie de bevindingen verwierp in de verklaring die werd uitgebracht nadat de studie was gepubliceerd?

In jullie reactie op correspondentie in de Lancet erkenden jullie een vergissing in het beschrijven van de Bowling steekproef als een “beroepsactieve leeftijd” in plaats van een “volwassen” populatie – een vergissing die de interpretatie van de bevindingen verandert. Het vergelijken van de PACE-deelnemers met een ziekere groep maar deze verkeerd labelen als een gezondere groep, doet de PACE-resultaten er beter uitzien dan zij waren; het percentage van deelnemers die “binnen normale waarden” scoorde, zou duidelijk nog lager geweest zijn dan wanneer zij werkelijk waren vergeleken met de echte populatie van “werkende leeftijd”, in plaats van de grotere en meer geïnvalideerde “volwassen” populatie. Toch is de Lancet paper zelf niet gecorrigeerd, zodat huidige lezers worden voorzien van verkeerde informatie over de meting en interpretatie van een van de twee primaire uitkomsten van de studie.

Waarom is de paper niet gecorrigeerd? Geloven jullie dat iedereen die de paper leest ook de correspondentie leest, en het daarbij onnodig maakt om de paper zelf te corrigeren? Of denken jullie dat de vergissing onbelangrijk is en daarom geen correctie in de paper zelf vereist? Het beleid van de Lancet roept op tot correcties – geen vermeldingen in correspondentie – van vergissingen die de interpretatie of reproduceerbaarheid beïnvloeden. Zijn jullie het er niet mee eens dat deze fout de interpretatie of reproduceerbaarheid beïnvloedt?

In onze briefwisseling in de New York Times vier jaar geleden, argumenteerden jullie dat PACE “robuust” bewijs verstrekte voor behandeling met CGT en GET “ongeacht hoe de ziekte gedefinieerd is”, op basis van de analyses van twee subgroepen. Echter Oxford verlangt dat vermoeidheid de primaire klacht is – een vereiste die geen deel uitmaakt van beide van jullie andere twee subgroepen casusdefinities. (“Vermoeidheid” op zich maakt helemaal geen onderdeel uit van de ME-definitie, omdat postexertionele malaise het kernsymptoom is; de CDC vereist uiteraard “vermoeidheid”, maar niet dat dit het primaire symptoom is, en patiënten kunnen klachten hebben als postexertionele malaise of cognitieve problemen als hun “primaire” klacht.

Gezien die discrepantie, waarom geloven jullie dat de bevindingen van PACE geëxtrapoleerd kunnen worden naar anderen, “ongeacht hoe de ziekte is gedefinieerd”, zoals jullie schreven in de New York Times? Is het jullie aanname dat iedereen die voldeed aan de andere twee criteria, automatisch zou worden geselecteerd door de Oxford-criteria, ondanks de discrepanties in de casusdefinities?

Geen van de meerdere uitkomsten die jullie in het protocol aanhaalden als “objectief”, ondersteunde de subjectieve uitkomsten die verbetering suggereerde (behalve de extreem bescheiden verbetering in de zes minuten-wandeltest voor de GET-groep)? Maakt dit gebrek aan objectieve ondersteuning voor verbetering en herstel jullie bezorgd? Zou het falen van de objectieve metingen vragen opwerpen over de vraag of mensen daadwerkelijk enige voordelen of verbeteringen in de prestaties hebben bereikt?

Als het dragen van de actometer als een te grote last werd beschouwd voor patiënten om aan het eind van de studie te dragen, wanneer verondersteld wordt dat velen van hen verbeterd zouden zijn, waarom was het dan niet te veel een last voor patiënten aan het begin van de studie? Achteraf bekeken, gezien het feit dat jullie objectieve bevindingen faalden, betreuren jullie dat jullie deze beslissing hebben genomen?

In jullie antwoord op correspondentie na publicatie van de paper in Psych Med, noemden jullie meerdere problemen met de “objectiviteit” van de zes minuten-wandeltest, die vergelijking met andere studies ongeldig maakten. Toch startte PACE met het beoordelen van mensen met behulp van deze test, toen de studie begon met de aanwerving in 2005, en de ernstige beperkingen – de korte gangen waarbij de patiënten meer moesten omdraaien dan standaard was, de beslissing om de patiënten niet aan te moedigen tijdens de test, etc. etc. – worden waarschijnlijk snel duidelijk.

Waarom beschreven jullie dan in het gepubliceerde protocol in 2007, de wandeltest als een “objectieve” meting van functioneren? Gezien het feit dat de studie al twee jaar lang patiënten had onderzocht, waarom hebben jullie niet toen al de beperkingen van de test erkend en jullie gerealiseerd dat het duidelijk nutteloos was als een objectieve meting? Wanneer erkenden jullie eigenlijk deze beperkingen?

In de paper in Psych Med beschreven jullie “herstel” als herstel van slechts de huidige episode van de ziekte – een beperking van de term die niet wordt genoemd in het protocol. Omdat deze definitie beschrijft waar de meeste mensen aan zouden refereren als “remissie”, niet “herstel”, waarom hebben jullie in de eerste plaats gekozen om het woord “herstel” te gebruiken – in het protocol en in de paper? Zou de term “remissie” accurater zijn geweest en minder misleidend? Niet verrassend focuste de media-aandacht zich op “herstel”, niet op “remissie”. Waren jullie bezorgd dat deze verslaggeving lezers en kijkers een inaccurate indruk van de bevindingen zou geven, omdat maar weinig lezers of kijkers zouden begrijpen dat wat de paper in Psych Med onderzocht in feite “remissie” en niet “herstel” was, zoals de meeste mensen de termen zouden begrijpen?

In de definitie van “herstel” in Psychology Medicine, versoepelden jullie alle vier de criteria. Voor de eerste twee namen jullie de “normal range” scores aan voor vermoeidheid en fysiek functioneren uit de paper in The Lancet, met drempels voor “herstel” lager dan de toelatingscriteria. Voor de Clinical Global Impression (CGI) scale (schaal voor klinische globale beoordeling), was voor “herstel” in de paper in Psych Med een 1 of 2 vereist, in plaats van alleen een 1, zoals in het protocol. Voor het vierde element hebben jullie de enkele categorie opgesplitst van het niet voldoen aan elk van de drie casusdefinities, in twee categorieën – een minder strenge (“herstel in de studie”) dan de originele die werd voorgesteld in het protocol (nu hernoemd tot “klinisch herstel”).

Welke toezichtcommissie keurde de veranderingen goed in de algemene definitie van herstel uit het protocol, waaronder de versoepeling van alle vier de elementen van de definitie? Kunnen jullie referenties aanhalen voor jullie herziening van de CGI-schaal, en uitleggen welke nieuwe informatie deze herziening heeft bewerkstelligd na de studie? Kunnen jullie referenties geven voor de beslissing om het uiteindelijke “herstel”element in twee categorieën te splitsen, en uitleggen welke nieuwe informatie deze wijziging heeft ingegeven na de studie?

De paper in Psychological Medicine, die de originele “herstel”-drempel van 85 op de SF-36 afwees, stelde dat 50% van de populatie onder deze gemiddelde waarde zou scoren en dat het daarom geen passende afkapwaarde (cut-off) was. Maar die stelling haalt de gemiddelde en mediane waarden door elkaar; aangezien dat dit geen normaal verdeelde steekproef is en dat de mediaanwaarde veel hoger is dan het gemiddelde in deze populatie, is de stelling over 50% die onder 85 presteren, duidelijk fout.

Aangezien de bronpopulaties scheef waren en niet normaal verdeeld, kunnen jullie de bewering uitleggen dat 50% van de populatie zou presteren onder het gemiddelde? En aangezien deze redenering achter het verwerpen van de drempelwaarde 85 verkeerd is, kunnen jullie een andere reden geven waarom die drempel zo ver naar beneden diende bijgesteld te worden? Waarom is deze foutieve claim nooit gecorrigeerd?

Wat zijn de resultaten, volgens de protocoldefinitie van “herstel”?

De paper in PLoS One rapporteerde dat uit een gevoeligheidsanalyse bleek dat de bevindingen van de maatschappelijke kosten-batenanalyse van CGT en GET “robuust” zouden zijn zelfs wanneer informele zorg werd gemeten, niet door de vervangingskosten van een zorgmedewerker, maar door gebruik te maken van alternatieve aannames van minimumsalaris of geen enkele betaling. Toen lezers deze claim – dat de bevindingen “robuust” zouden zijn onder deze alternatieve aannames – ter discussie stelden, was hoofdauteur, Paul McCrone, het er in zijn antwoorden mee eens dat het veranderen van de waarden voor informele zorg in feite de uitkomsten zouden wijzigen. Hij bekritiseerde toen de alternatieve aannames omdat zij waren toegevoegd aan het statistische plan van PACE.

Waarom voegde de PLoS-paper een kennelijk inaccurate gevoeligheidsanalyse toe, die claimde dat de bevindingen van de maatschappelijke kosten-batenanalyse voor CGT en GET “robuust” waren onder de alternatieve aannames, ondanks dat dat niet het geval was? En als de alternatieve aannames “controversieel” en “beperkend” waren, zoals de hoofdauteur schreef in een van zijn geposte reacties, waarom voegde het PACE-team deze dan in de eerste plaats toe in het statistisch plan?