Home » Nieuwsartikels » Artikels » Oninterpreteerbaar: Fatale fouten in het PACE follow-uponderzoek van het chronisch vermoeidheidssyndroom

Oninterpreteerbaar: Fatale fouten in het PACE follow-uponderzoek van het chronisch vermoeidheidssyndroom

Geplaatst door ME-Gids
op 28/11/2015

Laatste bijwerking op 28/11/2015

Bron:

James Coyne, Mind the Brain

| 12072 x gelezen

James Coyne PhD , PLOS Blogs, 29 oktober 2015

Eerdere beslissingen door de groep van onderzoekers verhinderen follow-upevaluatie op lange termijn van CGT voor het chronisch vermoeidheidssyndroom (CVS).

Laat mij bij de start zeggen dat ik betwijfel of wij de PACE-onderzoekers verantwoordelijk kunnen houden voor de afschuwelijke krantenkoppen die zijn geschreven over hun follow-uponderzoek en over de commentaren die zij hebben geleverd in interviews.

The Telegraph schreeuwde

Patiënten met het Chronisch Vermoeidheidssyndroom ‘kunnen de symptomen van ME overwinnen met positief denken en sport’

Oxford University heeft ontdekt dat ME niet echt een chronische ziekte is

Mijn eigen ervaring met het leveren van kritiek op interpretatie door de media van wetenschappelijk onderzoek suggereert dat noch de onderzoekers noch zelfs journalisten controle hebben over de schokkend onnauwkeurige koppen die geplaatst worden boven verder niet zo uitzonderlijke mediaberichten. Aan de andere kant begint veel verwrongen en overdreven verslaggeving in de media met uitspraken die worden gedaan door onderzoekers en door persberichten van hun instituten.

Eén specifiek citaat dat wordt toegeschreven aan een PACE-onderzoeker is ongelukkig vanwege zijn potentieel om verkeerd te worden geïnterpreteerd door professionals, personen die lijden aan het chronisch vermoeidheidssyndroom en de mensen om hen heen die worden beïnvloed door hun functioneren.

“Het is niet juist om te zeggen dat deze mensen niet beter willen worden, maar zij raken opgesloten in een patroon en hun leven beperkt zich tot wat zij kunnen doen. Als je binnen je grenzen leeft, wordt dat een zichzelf vervullende voorspelling.”

Het suggereert dat eigenwijsheid de oorzaak is van het beperkte functioneren van degenen die aan CVS lijden. Dit is een belachelijke toepassing van het in diskrediet gebrachte concept van vechtlust tegenover het falen van kankerpatiënten om hun levensveranderende en levensbedreigende aandoening te overwinnen. Laten we het principe van liefdadigheid toepassen en aannemen dat dit niet de bedoeling is van de PACE-onderzoeker, vooral wanneer er zo veel meer is waarvoor wij hen verantwoordelijkheid moeten geven.

Lees hier een volledigere evaluatie die ik ondersteun van de verslaggeving van The Telepgraph over de PACE follow-upstudie.

Na een grondige lezing van het PACE follow-uponderzoek stel ik vast dat de gegevens die worden gepresenteerd, niet te interpreteren zijn. We kunnen tijdelijk afzien van kritisch denken en enkele basisregels voor het uitvoeren van gerandomiseerde onderzoeken met een controlegroep ( Randomized Controlled Trials of RCT’s), follow-uponderzoeken, en de analyse van daaruit afgeleide gegevens. Zelfs als we dat doen, moeten we toch sommige van de interpretaties die door PACE worden aangeboden, afwijzen als oneerlijk verdraaid om te passen in wat reeds een verwrongen positieve interpretatie was van de resultaten.

Het is belangrijk om op te merken dat de PACE follow-upstudie alleen zo goed kan zijn als de originele gegevens waarop het is gebaseerd. En in het geval van het PACE-onderzoek zelf heeft docent journalistiek en volksgezondheid David Tuller (UC Berkeley) recent in een kritische longread ( online diepteartikel, nvdr) met argumenten zulke onverdedigbare fouten blootgelegd, dat elk vervolg in wezen betekenisloos is. Beoordeel het zelf [1,2, 3]

Het rapport van deze week van hetPACE follow-uponderzoek op lange termijn en een commentaar zijn vrij verkrijgbaar op de website van The Lancet Psychiatry na gratis registratie. Ik moedig iedereen aan om een exemplaar te downloaden voordat men verder leest. Helaas zijn sommige cruciale details van het artikel zeer technisch en sommige details die cruciaal zijn voor het interpreteren van de resultaten zijn niet aangeleverd.

Ik zal praktische interpretaties leveren van de meest cruciale technische details zodat zij begrijpelijker worden voor de leek. Laat het me weten waar ik daar niet in slaag.

Wanneer een onderzoeker goed gewapend met een favoriete hypothese voor de dag komt…

Om het verder lezen van deze longread aan te moedigen, en om degenen tevreden te stellen die niet willen of kunnen verdergaan, zal ik mijn hoofdpunten onthullen:

De PACE-onderzoekers hebben elke kans verspeeld om tot een betekenisvol follow-uponderzoek op lange termijn te komen door het protocol te schenden en patiëntengetuigenissen over CGT uit te delen voordat het totale aantal patiënten dat nodig was voor de opbouw van het onderzoek zelfs maar compleet was.
Bovenop deze reeds fatale fout kwam nog een vrijblijvende aanbeveling voor behandeling na de behandelingsfase van het onderzoek. De onderzoekers registreerden niet duidelijk welke behandeling werd gevolgd door welke patiënten en of er een overlapping was in de behandeling die deelnemers kregen na het onderzoek.
De pogingen van de onderzoekers om methodologische problemen te corrigeren met statistische strategieën vervallen in voodoo-statistiek.
De primaire uitkomstmaat van de zelfgerapporteerde variabelen zijn vatbaar voor manipulatie, voorkeuren van de onderzoeker voor bepaalde behandelingen, groepsdruk, en te verwarren met geestelijke gezondheidsvariabelen.
De PACE-onderzoekers maakten gebruik van onduidelijkheden in het ontwerp en de uitvoering van hun onderzoek met zelfgenoegzame, zelfbevestigende bevooroordeeldheid.

The Lancet Psychiatry samenvatting/abstract van het artikel

Achtergrond.

Het PACE-onderzoek oordeelde dat cognitieve gedragstherapie (CGT) of graduele oefentherapie (GET) in combinatie met standaard specialistische medische zorg (SMC) een beter resultaat gaven dan adaptieve pacingtherapie (APT) of standaard specialistische medische zorg (SMC) alleen in het verbeteren van vermoeidheid en fysiek functioneren bij mensen met chronisch vermoeidheidssyndroom één jaar na randomisatie. In dit van tevoren gespecificeerd follow-uponderzoek hadden wij tot doel om de aanvullende behandelingen te evalueren die deelnemers na het onderzoek kregen en om de resultaten op de lange termijn (minstens twee jaar na randomisatie) te onderzoeken zowel binnenin als tussen de originele behandelingsgroepen van de oorspronkelijke deelnemers aan de PACE-studie.

Bevindingen

Tussen 8 mei 2008 en 26 april 2011 stuurden 481 (75%) deelnemers van het PACE-onderzoek vragenlijsten terug. De mediane tijd tussen randomisatie en follow-upvaluatie op lange termijn was 31 maanden (IQR 30-32; bereik 24-53). 210 (44%) van de deelnemers ontvingen een aanvullende behandeling (vooral CGT of GET) na het onderzoek; deelnemers die oorspronkelijk waren ingedeeld in SMC alleen (73 [63%] van 115) of APT (60 [50%] van 119) waren meer geneigd om aanvullende behandeling te zoeken dan degenen die oorspronkelijk waren toegewezen aan GET (41 [32%] van 127) of CGT (36 [31%] van 118; p<0.0001). Verbeteringen in vermoeidheid en fysiek functioneren die werden gerapporteerd door deelnemers die oorspronkelijk waren toegewezen aan CGT en GET werden volgehouden (vergelijkingen van vermoeidheid en fysiek functioneren binnenin de groep, respectievelijk bij de follow-upevaluatie op lange termijn in vergelijking met 1 jaar; CGT -2.2 2 [95% CI –3·7 to –0·6], 3·3 [0·02 to 6·7]; GET –1·3 [–2·7 to 0·1], 0·5 [–2·7 to 3·6]). Deelnemers die in het onderzoek ingedeeld waren bij APT en SMC alleen verbeterden over de follow-upperiode in vergelijking met 1 jaar (vermoeidheid en fysiek functioneren, respectievelijk APT –3·0 [–4·4 to –1·6], 8·5 [4·5 to 12·5]; SMC –3·9 [–5·3 to –2·6], 7·1 [4·0 to 10·3]). Er was weinig bewijs van verschillen in resultaten tussen de gerandomiseerde behandelingsgroepen bij de follow-up op lange termijn.

Interpretatie

De gunstige effecten van CGT en GET die na 1 jaar werden gezien, werden volgehouden bij de follow-upevaluatie op lange termijn gemiddeld 2,5 jaar na randomisatie. Resultaten van alleen SMC of APT verbeterden t.o.v. de resultaten na 1 jaar en waren bij de follow-upevaluatie op lange termijn vergelijkbaar met CGT en GET, maar deze gegevens moeten worden geïnterpreteerd in de context van aanvullende therapieën die gegeven zijn volgens de keus van de arts en de voorkeur van de patiënt na de laatste evaluatie van het onderzoek van 1 jaar. Toekomstig onderzoek zou onafhankelijke variabelen van reactie op CGT en GET moeten identificeren en ook betere behandelingen moeten ontwikkelen voor degenen die op geen van beiden reageren.

Let op de tegenstelling hier, die blijft bestaan doorheen de hele paper, het officiële persbericht van de Universiteit van Oxford, citaten van de PACE-onderzoekers aan de media, en verslaggeving in de media. Aan de andere kant wordt ons het volgende verteld:

Verbeteringen in vermoeidheid en fysiek functioneren gerapporteerd door deelnemers die oorspronkelijk waren toegewezen aan CGT en GET werden volgehouden….

Toch wordt ons ook het volgende verteld:

Er was weinig bewijs van verschil in resultaten tussen de gerandomiseerde behandelingsgroepen bij de follow-upevaluatie op lange termijn.

Aan welke bewering moet voorrang worden gegeven? Als we in het geval van de vervolgevaluatie nog kunnen spreken van een gerandomiseerd onderzoek (en we zullen zien dat dit niet het geval is), moet een gebrek aan verschillen tussen de groepen onderling bij de vervolgevaluatie voorrang krijgen boven de aanhoudende verandering binnenin de groepen ten opzichte van baseline. Dat is geen controversieel punt bij het interpreteren van klinisch onderzoek.

Bij de vervolgevaluatie moet men eerst een uitspraak doen over de verschillen tussen de groepen, die tegelijkertijd elke uitspraak over follow-uponderzoeksresultaten binnenin de verschillende groepen nuanceert. Waarom zou je je anders überhaupt nog bezighouden met een RCT?

De stelling in het onderdeel ‘Interpretatie’ van de samenvatting/abstract bevat een ongefundeerde verdraaiing ten gunste van de door de onderzoekers geprefereerde behandeling.

Resultaten met alleen SMC of APT verbeterden t.o.v. de resultaten van de studie van één jaar en waren vergelijkbaar met CGT en GET bij de follow-upevaluatie op lange termijn, maar deze gegevens moeten worden geïnterpreteerd in de context van aanvullende therapieën die zijn gegeven volgens de keus van de arts en de voorkeur van de patiënt na de eindevaluatie van de studie van één jaar.

Als we dan toch voorzichtig en gematigd willen zijn in onze uitspraken, zijn er veel andere verklaringen voor vergelijkbare resultaten in de behandelings- en controlegroepen die veel aannemelijker zijn. Simpel gezegd en zonder ongegronde veronderstellingen te maken, zijn alle eerder waargenomen verschillen in rook opgegaan. Poef! Welke voordelen van CGT en GET dan ook, worden niet aangehouden.

Hoe de PACE-onderzoekers de mogelijkheid tot een interpreteerbaar follow-uponderzoek vernietigden

Noch het artikel in The Lancet Psychiatry, noch om het even welke van de recente uitspraken door de PACE-onderzoekers erkende dat deze onderzoekers elke mogelijkheid tot zinvolle analyse van follow-upgegevens teniet hebben gedaan.

Voordat de behandelingsfase van het onderzoek zelfs maar was voltooid, en zelfs voor het totale aantal patiënten dat zou worden onderzocht was gerekruteerd, publiceerden de onderzoekers in december 2008 een nieuwsbrief, gericht aan deelnemers aan het onderzoek. Een artikel dat deelnemers passend herinnert aan de aanstaande follow-up van tweeënhalf jaar. Maar dan geeft het toe moeite te hebben met het werven van patiënten, maar voegt eraan toe dat aanvullende financiering is ontvangen van de MRC (Medical Research Council) om de werving uit te breiden. En dan verschijnen op blz. 3 van de nieuwsbrief enthousiaste getuigenissen over de effecten van hun behandeling.

“Deelname aan dit onderzoek heeft mij geweldig geholpen. (De behandeling) is nu een manier van leven voor mij, ik kan mij niet voorstellen hoe ik zonder zou kunnen functioneren. Ik heb niet anders dan lof en dank voor iedereen die betrokken is bij dit onderzoek.”

“Ik heb er echt van genoten om deel uit te maken van het PACE-onderzoek. Het heeft mij geholpen meer te weten te komen over mijzelf, vooral (de behandeling), en schadelijke factoren in mijn leven in de hand te houden. Het is moeilijk voor mij om in te schatten hoe effectief de behandeling was omdat 2007 een bijzonder spannend, vreemd en moeilijk jaar voor mij was, maar ik heb het gevoel dat ik het heb overleefd en dat het onderzoek mij heeft gewapend met de noodzakelijke hulpmiddelen om mij er doorheen te krijgen. Het deed mij ook geweldig goed om deel uit te maken van iets waar men de symptomen en ziekte begrijpt en dat aspect vond ik bijzonder aangenaam.”

Deze getuigenissen zijn een verschrikkelijke schending van het protocol. De opmerking over het patiëntenwervingsprobleem en de getuigenissen zijn een vraag om dankbaarheid en oefenen druk uit op de deelnemers om het onderzoek te steunen door een positief beeld te geven van hun resultaat. Men doet een halfslachtige poging om de omstandigheden te vermommen waaruit de getuigenissen afkomstig zijn. De verwijzingen naar een therapeut en het laatste citaat hierboven, “schadelijke factoren in mijn leven in de hand te houden”, laten er echter geen twijfel over bestaan dat de CGT en GET, die de voorkeur heeft van de onderzoekers, positieve resultaten boekt.

CVS-patiënten wenden zich waarschijnlijk vaker dan andere chronisch zieken tot elkaar voor steun omwille van de verbijsterende en vaak stigmatiserende reacties van de medische wereld. Deze getuigenissen werken als een soort van groepsdruk om het onderzoek positief te beoordelen.

Elke onderzoeksgroep die doelbewust het protocol op deze manier geweld aandoet, verdient verder diepgaand onderzoek naar andere overtredingen en bedreigingen van de geldigheid van hun resultaten.

Ik daag de verdedigers van de PACE-studie uit om andere precedenten aan te halen van dit soort manipulatie van deelnemers aan klinische onderzoeken. Wat zouden ze ervan denken als een farmaceutisch bedrijf dit had gedaan ter evaluatie van hun geneesmiddelen?

Het tenietdoen van randomisatie als verdere vernietiging van de interpreteerbaarheid van de follow-upresultaten

Om terug te komen op het Lancet Psychiatry artikel zelf, let op het volgende:

Na het voltooien van hun laatste onderzoeksresultaten, werd aan de studiedeelnemers een aanvullende PACE-therapie aangeboden als zij zich nog steeds niet goed voelden en hun PACE-dokter het ermee eens was dat dit nodig was. De keuze tussen de aangeboden behandelingen (APT, CGT of GET) werd gemaakt door de dokter van de patiënt, rekening houdend met zowel de voorkeur van de patiënt als met hun eigen mening over welke het nuttigst zou zijn. Deze keuzes werden gemaakt met kennis van de behandelingstoewijzing en – resultaten van de individuele patiënt, maar voordat de algemene onderzoeksresultaten bekend waren. Behandelingen werden gebaseerd op de handleidingen van het onderzoek, maar konden worden aangepast aan de behoeften van de patiënt.

Methodologisch onderlegde lezers zijn wellicht geïnteresseerd in een paper waarin ik bespreek hoe men rekening houdt met de voorkeuren van een patiënt in gerandomiseerd onderzoek, evenals een andere paper over klinisch onderzoek uitgevoerd samen met Duitse collega’s waarbij we de voorkeur van de patiënt betrokken in de evaluatie van antidepressiva en psychotherapie voor depressie in eerstelijnszorg. Patiëntenvoorkeur kan zeker worden opgenomen in klinisch onderzoek op een manier die de voordelen van randomisatie in stand houdt, maar niet op de manier zoals de PACE-auteurs dit hebben aangepakt.

Na het beëindigen van de behandelingen waar bepaalde patiënten willekeurig aan werden toegewezen, bood het PACE-onderzoek een complexe onderhandeling aan tussen patiënt en onderzoeksarts over verdere behandeling. Dit vernietigt de voordelen van een gerandomiseerd onderzoek voor de evaluatie van behandelingen. Elke focus op de langetermijneffecten van de aanvankelijke randomisatie wordt teniet gedaan door eventuele aanzienlijke afwijkingen van die randomisatie. Elke poging tot statistische correctie zal mislukken.

Vanuit ethisch oogpunt kunnen onderzoekers natuurlijk niet voorkomen dat deelnemers aan een onderzoek aanvullende behandeling zoeken. Maar in het geval van PACE moedigden de onderzoekers afwijkingen van de gerandomiseerde behandeling aan, maar hielden ze niet voldoende rekening met de beslissingen die werden genomen. Een alternatief zou zijn geweest om door te gaan met de gerandomiseerde behandeling, rekening houdend met elke overstap naar een andere behandelingsarm en de kwantificering daarvan.

Voodoo-statistiek in geval van onvolledige follow-upgegevens.

Tussen 8 mei 2008 en 26 april 2011 stuurden 481 (75%) deelnemers van het PACE-onderzoek vragenlijsten terug.

Dit is een erg goede retentiegraad van deelnemers aan een follow-up. Het ernstige probleem is dat noch

uitval van deelnemers aan het onderzoek, noch
of er sprake was van verdere behandeling, noch
of er sprake was van overstap naar een andere behandeling tijdens de follow-up dan die gekregen tegenover het eigenlijke onderzoek

aselect (random) is.

Bovendien zijn alle gegevens uit de follow-up beïnvloed door de aansporingen in de nieuwsbrief.

Geen enkele statistische controle kan de kwaliteit van de follow-upgegevens herstellen tot datgene wat bereikt zou zijn met het in stand houden van de oorspronkelijke randomisatie. Niets kan de aansporingen corrigeren.

Desondanks probeerden de onderzoekers de uitval van deelnemers bij de follow-up en de vervolgbehandeling te corrigeren. Zij beschreven hun inspanningen in een technisch complexe passage, die ik hierna zal uitleggen:

Wij onderzochten de verschillen in de gemeten resultaten tussen de oorspronkelijke gerandomiseerde behandelgroepen met lineaire ‘gemengde’ regressiemodellen met de metingen bij 12, 24 en 52 weken, en resultaatmetingen bij follow-up op lange termijn als afhankelijke variabelen en variërende intercepten en hellingen uitgezet in de tijd om rekening te houden met herhaalde metingen.

Wij voegden de volgende covariabelen toe aan de modellen: behandelgroep, stratificatievariabelen van het onderzoek (onderzoekscentrum en of de deelnemers voldeden aan de internationale criteria voor het chronisch vermoeidheidssyndroom, de Londense criteria voor myalgische encefalomyelitis, en de DSM IV-criteria voor depressieve stoornis), tijd verstreken sinds de originele randomisatie, interactieterm tijd maal behandelingsgroep, interactieterm follow-up op lange termijn maal behandelingsgroep, baselinewaarden van de resultaten en onafhankelijke variabele van ontbrekende gegevens (geslacht, opleidingsniveau, body mass index en lidmaatschap van een zelfhulpgroep voor patiënten), dus de verkregen verschillen tussen groepen werden aangepast voor deze variabelen.

Zowat de helft (44%; 210 van 479) van alle deelnemers aan de follow-upstudie rapporteerden dat zij aanvullende onderzoeksbehandelingen hadden ontvangen na hun laatste evaluatie na een jaar (tabel 2; appendix p. 2). Het aantal deelnemers dat aanvullende behandeling ontving verschilde tussen de originele behandelingsgroepen onderling, met meer deelnemers die aanvankelijk waren toegewezen aan SMC alleen (73 [63%] van 115) of aan APT (60 [50%] van 119) die aanvullende behandeling ontvingen dan degenen die waren toegewezen aan GET (41 [32%] van 127) of CGT (36 [31%] van 118; p<0.0001).

In het analyseplan van het onderzoek definieerden wij een voldoende aantal behandelingssessies als 10 tot een maximum van 15. Hoewel veel deelnemers in het follow-uponderzoek aanvullende behandeling hadden ontvangen, rapporteerden er maar weinig dat zij deze hoeveelheid hadden ontvangen (tabel 2). Het grootste gedeelte van de aanvullende behandeling die was geleverd op dit niveau, was ofwel CGT ofwel GET.

De “lineaire ‘gemengde’ regressiemodellen” worden steevast ingezet ter compensatie van ontbrekende gegevens door alle beschikbare gegevens te gebruiken om in te schatten wat ontbreekt. Het probleem is dat deze benadering ervan uitgaat dat alle ontbrekende gegevens willekeurig (random) zijn, maar dit is een onbewezen veronderstelling die waarschijnlijk niet geldt voor dit onderzoek.

Via het toevoegen van “covariabelen” probeert men ervoor te zorgen dat de geldigheid van de algemene analyses niet in het gedrang komt, door rekening te houden met wat er bekend is over de deelnemers. Dit zorgt voor verschillende valkuilen. Het is niet zeker dat de resultaten degelijker en betrouwbaarder zijn dan resultaten die bereikt worden zonder poging tot statistische controle. De best-practice voor publicatie is om de onaangepaste variabelen van de resultaten beschikbaar te stellen en de lezers te laten beslissen. Het grootste vertrouwen in de resultaten wordt verkregen wanneer er geen verschil is tussen de resultaten in de aangepaste en onaangepaste analyses.

Methodologisch onderlegde lezers zouden te rade kunnen gaan bij een uitstekend artikel door een specialist op het gebied van klinisch onderzoek, Helene Kramer, A Source of False Findings in Published Research Studies Adjusting for Covariates .

De effectiviteit van statistische controles hangt af van bepaalde assumpties waaraan moet worden voldaan over variatiepatronen binnen de controlevariabelen. Er is geen indicatie dat er diagnostische analyses werden uitgevoerd om te bepalen of er mogelijk controlevariabelen verwijderd moesten worden om een inbreuk te vermijden op assumpties over de multivariate verdeling van covariabelen. Met zo veel controlevariabelen zijn valse resultaten te verwachten. Schijnbare resultaten zouden radicaal kunnen veranderen door arbitraire optelling of aftrekking van controlevariabelen. Kijk hier voor een verdere toelichting op dit probleem.

We weten niet eens hoe deze verzameling aan covariate/controlevariabelen tot stand kwam, in plaats van eender welke andere verzameling. Het is bekend dat onderzoekers vaak verscheidene combinaties van controlevariabelen uitproberen en alleen diegenen presenteren die hun onderzoek er het beste uit doen zien. Lezers worden alleen beschermd tegen deze twijfelachtige onderzoekspraktijk met vooraf gespecificeerde analyses voordat de onderzoekers hun resultaten kennen – en in een ongeblindeerd onderzoek hebben onderzoekers vaak weet van de resultaatstrends lang voordat ze de eigenlijke cijfers zien.

Lees JP Simmons’ lachwekkende demonstratie dat het even luisteren naar “When I’m 64” van de Beatles onderzoeksdeelnemers anderhalf jaar ouder maakte dan het luisteren naar “Kalimba” – tenminste als onderzoekers de vrije hand krijgen om de resultaten te manipuleren die zij in een onderzoek willen zonder voorafgaande registratie van analyseplannen.

Tenslotte wordt de efficiëntie van complexe statistische controles erg overschat en hangt ze af van onrealistische veronderstellingen. Ten eerste wordt aangenomen dat alle relevante variabelen die gecontroleerd moeten worden, bekend zijn. Ten tweede, zelfs wanneer aan deze onrealistische veronderstelling is voldaan, wordt aangenomen dat alle statistische controlevariabelen foutloos zijn gemeten. Als dat niet het geval is, kunnen de resultaten veelzeggend lijken terwijl ze dat eigenlijk niet zijn. Lees een klassieke paper door Andrew Philips en George Davey Smith voor een verdere uitleg van het probleem van meetfouten die valse bevindingen voortbrengen.

Wat de onderzoekers beweren dat het onderzoek aantoont

In een intact klinisch onderzoek kunnen onderzoekers de resultaatgegevens analyseren met en zonder aanpassingen en lezers kunnen beslissen welke analyse de nadruk krijgt. Dit is echter verre van een intact klinisch onderzoek en deze resultaten zijn niet interpreteerbaar.

De onderzoekers doen niettemin de volgende beweringen in aanvulling op dat wat in de samenvatting/abstract werd gezegd.

In de resultaten stellen de onderzoekers het volgende:

De verbeteringen in vermoeidheid en fysiek functioneren die worden gerapporteerd door de deelnemers die toegewezen waren aan CGT of GET, werden volgehouden sinds hun laatste evaluatie in het onderzoek van één jaar.

Dit werd gevolgd door

De verbeteringen in beperkingen bij dagelijkse activiteiten en in waargenomen verandering in de algemene gezondheid die werden gezien na 1 jaar met deze behandelingen, werden ook volgehouden bij degenen die GET en CGT ontvingen (appendix 4). Deelnemers die oorspronkelijk toegewezen waren aan APT rapporteerden verdere verbeteringen in vermoeidheid, fysiek functioneren en beperkingen in dagelijkse activiteiten tussen de eindevaluatie van het onderzoek van 1 jaar en de follow-up op lange termijn, evenals diegenen die waren toegewezen aan alleen SMC (die ook verdere verbeteringen meldden in hun waargenomen verandering in algemene gezondheid; figuur 2; tabel 3; appendix p 4).

Als de onderzoekers hun RCT-ontwerp serieus zouden nemen, zouden zij voorrang verlenen aan het gebrek aan verschillen tussen de groepen bij de follow-up. Ze zouden niet de nadruk leggen op het aanhouden van de verbeteringen bij de GET- en CGT-groepen.

De onderzoekers vergroten de positieve draai die ze geven aan het onderzoek, in de openingszin van de Discussie

De belangrijkste bevinding van dit follow-uponderzoek op lange termijn van de deelnemers aan het PACE-onderzoek is dat de gunstige effecten van de revaliderende CGT- en GET-behandelingen op vermoeidheid en fysiek functioneren, die zijn waargenomen bij eindresultaten van het onderzoek van 1 jaar, volgehouden werden bij de follow-up op lange termijn, tweeënhalf jaar na randomisatie.

Dit is niet juist. De belangrijkste bevinding is dat de aan het einde van het onderzoek gerapporteerde voordelen van CGT en GET verloren zijn gegaan bij de follow-up op lange termijn. Aangezien een RCT bedoeld is om zich te focussen op verschillen tussen groepen onderling, is de uitspraak over het volhouden van de gunstige effecten post hoc.

De Discussie stelt verder

In zoverre de behoefte om aanvullende behandeling te zoeken een marker is voor aanhoudende ziekte, ondersteunen deze bevindingen de superioriteit van CGT en GET als behandelingen voor het chronisch vermoeidheidssyndroom.

Hier wordt een ongegronde en door eigenbelang ingegeven veronderstelling gemaakt, nl. dat de keuze voor behandeling vooral werd gestuurd door de noodzaak aan verdere behandeling, terwijl de besluitneming werd beïnvloed door voorkeuren van de onderzoekers, zoals gesteld in de nieuwsbrief. Onthou ook dat CGT een voor de studiedeelnemers nieuwe behandeling is en wellicht gekozen werd op basis van de nieuwigheid op zich, gezien de globaal matige verbetering in het onderzoek en gebrek aan verbetering in objectieve metingen. Of de onderzoekers nu een beperkt scala aan zelfgerapporteerde maatstaven hebben aangemerkt als primair of niet, de besluitvorming van de deelnemers kan aangestuurd zijn door andere, meer objectieve maatstaven.

Desondanks hebben de onderzoekers nog steeds geen gegevens bekendgemaakt die aantonen hoe beslissingen voor verdere behandeling werden genomen, als zulke gegevens al bestaan.

De onderzoekers feliciteren zichzelf verder met

Uit een verkennende analyse vloeide enig bewijs voort dat verbetering na de eindevaluatie van het onderzoek van één jaar geen verband hield met het ontvangen van aanvullende behandeling met CGT of GET, die gegeven werd volgens behoefte. Deze bevinding moet echter met voorzichtigheid worden geïnterpreteerd omdat het een post hoc subgroepanalyse betrof die niet toestaat een onderscheid te maken tussen patiënt en behandelingsfactoren zoals bij willekeurige toewijzing.

Maar waarom is deze analyse uitgelicht als verkennend en zegt men dat ze met voorzichtigheid moet worden geïnterpreteerd omdat het een post-hoc subgroepanalyse is, als post-hoc subgroepanalyses meestal zonder dergelijk voorbehoud worden aanbevolen?

De onderzoekers komen uiteindelijk toe aan een omschrijving van wat hun primaire bevinding zou moeten zijn, maar doen dit op een achteloze manier.

Tussen de originele groepen werden weinig verschillen gezien bij de follow-up op lange termijn. Deze samenloop van resultaten geeft de waargenomen verbetering weer bij degenen die oorspronkelijk waren toegewezen aan SMC en APT. De mogelijke redenen hiervoor zijn hierboven opgelijst.

Vervolgens wordt in de discussie een beperking van het onderzoek onthuld, die gemeld had moeten worden in de eerdere presentatie en bespreking van de resultaten

Aanvankelijk was de respons van de deelnemers onvolledig; sommige resultaatgegevens ontbraken. Als deze gegevens niet willekeurig ontbraken, zou dit hebben kunnen leiden tot overschattingen of onderschattingen van de eigenlijke verschillen tussen de groepen.

Dit minimaliseert de onwaarschijnlijkheid van de veronderstelling over willekeurig ontbrekende variabelen, én de problemen die veroorzaakt worden door de ingewikkelde pogingen om verwarringen statistisch te controleren.

En dan is er nog een ongegronde bewering die CVS-patiënten en de mensen die voor hen zorgen, zeker en vast van streek zal maken.

De resultaten waren allemaal zelfgerapporteerd, hoewel gediscussieerd kan worden of dit het meest toepasselijke meetinstrument is bij een aandoening die enkel bestaat uit symptomen.

Ik zou de lengte van deze toch al lange blogpost kunnen verdubbelen als ik dit volledig zou bespreken. Maar laat mij een aantal problemen aanstippen.

De zelfrapportering meet niet noodzakelijk subjectieve ervaring, maar enkele gedwongen keuze tussen een beperkt aantal stellingen.
Eén van de twee meetinstrumenten, de SF-36 fysieke gezondheidsschaal dwingt deelnemers te kiezen tussen een beperkt aantal uitspraken die zijn uitgekozen voor algemeen gebruik bij alle geestelijke en lichamelijke aandoeningen. Ondanks het wijdverbreide gebruik spreken bepaalde vragen op de SF-36 mekaar soms tegen en bestaat er verwarring met variabelen van geestelijke gezondheid. Wie toch nog geneigd is tot enthousiasme zou de items en antwoordopties van de SF-36 eens goed moeten onderzoeken. Stel jezelf de vraag of de verschillen in scores op een betrouwbare manier weergeven welke de belangrijkste klinische en persoonlijke veranderingen in ervaring en functioneren zijn, die in verband staan met het volledige scala aan symptomen van CVS?
De waarde van het andere meetinstrument, de Chalder Fatigue Scale, hangt sterk af van onderzoek dat wordt uitgevoerd door deze groep onderzoekers en is onvoldoende gevalideerd op vlak van gevoeligheid voor verandering in objectieve metingen van functioneren.
Dit soort zelfrapporteringen zijn onlosmakelijk verbonden met mentale veerkracht en niet-specifieke symptomen van geestelijke gezondheid met sterke, ongewenste correlatieve tendensen om negatieve uitspraken over zichzelf te ondersteunen die niet noodzakelijk overeenstemmen met objectieve metingen.

Hoewel het lang geleden is, herinner ik mij mijn eerste ontmoeting met Professor Simon Wessely nog goed. Het was op een besloten congres gesponsord door NIH om een consensus te ontwikkelen over het beoordelen van vermoeidheid door middel van vragenlijsten voor zelfrapportage. Ik luisterde naar veel onzin die niet goed doordacht was. Toen presenteerde ik dia’s die een geschiedenis toonden van mislukte pogingen om somatische klachten van psychische symptomen te onderscheiden via zelfrapportering. Veel later werd dit mijn diavoorstelling “Waarom blijven we op beren jagen, als we in het bos niks anders vinden dan uitwerpselen”.

Maar toen kwam professor Wessely later aan op de vergadering, en mopperde iets over jetlag en vluchtvertragingen. Zonder dia’s en met vernietigende humor stal hij de show van me door het verder doorprikken van elke illusie die ons nog restte dat we ooit tot betere zelfrapportering voor vermoeidheid zouden kunnen komen.

Ik vraag mij af wat hij nu zou zeggen.

Maar helaas, mensen die aan CVS lijden, hebben met veel meer af te rekenen dan vermoeidheid. Vraag het hen zelf maar.

[Wordt later vervolgd indien er interesse in is. In dat geval zal ik de verdwijning bespreken van objectieve metingen voor functioneren uit de PACE-studie en zul je ontdekken waarom je een 3D-bril nodig hebt als je rapporten wil vinden over deze resultaten).]

James Coyne

James C. Coyne (PhD) is professor in de gezondheidspsychologie aan het Universitair Medisch Centrum te Groningen in Nederland, waar hij wetenschappelijk schrijven en kritisch denken doceert.

Hij is ook gastprofessor aan het Institute for Health, Health Care Policy & Aging Research aan Rutgers, the State University of New Jersey. Dr. Coyne is Professor Emeritus Psychologie aan het departement Psychiatrie van het Abramson Cancer Center, waar hij ook directeur is van de afdeling Psycho-Oncologie. Bovendien is hij Senior Fellow aan het Leonard Davis Institute of Health Economics.

Hij werkte als extern wetenschappelijk adviseur mee aan een tiental door de Europese Commissie gefinancierde gemeenschapsgerichte programma’s ter verbetering van de zorg voor depressie in de samenleving.

Hij heeft meer dan 350 artikels en hoofdstukken geschreven, waaronder systematische reviews van screening voor angst en depressie in medische context en klassieke artikels over stress en coping, onderzoek bij stellen, en de interpersoonlijke aspecten van depressie. ISI Web of Science noemt hem een van de meest invloedrijke psychologen en psychiaters in de wereld.

Hij schrijft boeken, waaronder Screening for Depression in Clinical Settings: An Evidence-Based Review onder redactie van Alex Mitchell (Oxford University Press; 2009). Hij blogt ook en levert regelmatig een bijdrage aan de blog Science Based Medicine en de PLOS One Blog Mind the Brain.

Hij staat bekend om zijn levendige, controversiële lezingen waarin hij gebruik maakt van wetenschappelijk bewijs om veronderstellingen te toetsen over het optimaal verlenen van psychosociale zorg en zorg voor depressie aan medische patiënten.

Alle meningen van Professor Coyne behoren hem toe, en weerspiegelen niet noodzakelijk het standpunt van PLOS of andere institutionele banden.