Old Drupal 7 Site

Hvorfor er resultater fra organisert mammografiscreening så vanskelig å tolke?

Ragnhild Sørum Falk Om forfatteren
Artikkel

Mammografiscreening er debattert i vitenskapelige tidskrifter og i mediene de siste tiår. Forskerne er uenige om hvor store fordeler og ulemper screeningen innebærer. Det er en rekke metodiske utfordringer knyttet til evaluering av mammografiscreening. Jeg vil her beskrive og diskutere metoder som er benyttet i publiserte observasjonsstudier om overdiagnostikk og dødelighet etter innføring av organisert mammografiscreening i Norge.

Mammografiprogrammet startet i fire fylker i 1995/96 og ble gradvis utvidet til å omfatte alle landets fylker i 2004 (1). Hovedformålet med mammografiscreening er å redusere brystkreftdødeligheten. Overdiagnostikk, definert som brystkreft som ikke ville blitt diagnostisert i kvinnens levetid dersom hun ikke var blitt invitert/hadde møtt til screening (2), ses som den største ulempen.

Metodiske utfordringer

Det er mange metodiske utfordringer knyttet til evaluering av organiserte screeningprogrammer. Det bidrar til at forskerne kommer frem til ulike svar (3 – 6). Feltet er preget av store uenigheter og har vært gjenstand for mye debatt, også i Tidsskriftet (7, 8). Jeg vil her konsentrere meg om utfordringene knyttet til detaljnivået på dataene og lengden på oppfølgingstiden i de norske publikasjonene. Dette har vært kommentert for noen av studiene tidligere (9 – 11), men systematiseres og illustreres her ved nye beregninger og visuell fremstilling.

Flere andre faktorer er også avgjørende for de ulike resultatene (3 – 6), deriblant om effekten evalueres i et samfunnsperspektiv (for inviterte kvinner) eller i et kvinneperspektiv (for møtte kvinner), hva man forutsetter om situasjonen uten screening, hvilket mål som brukes på overdiagnostikk, om duktalt carcinoma in situ er inkludert i analysene eller ikke og om det er totaldødelighet eller brystkreftdødelighet som studeres.

Design og data

Det er to hovedtyper data: data på gruppenivå og data på individnivå. I studier der man bruker data på gruppenivå (økologiske studier), er det mer begrensede muligheter til å kontrollere for eventuelle konfunderende faktorer enn i studier der man anvender individdata som studieenhet (12). Dersom man bruker summariske tall som individdata, må man ha kontroll på de feil det kan medføre.

Kvinner i fødselskohorter som samsvarer med alderen 50 – 69 år inviteres til Mammografiprogrammet hvert annet år. På bakgrunn av to års screeningintervall og tidspunkt for fylkesvis innføring (opplysninger fra Kreftregisteret) vil den faktiske alder ved invitasjonstidspunktet variere fra 48 år til 73,3 år (falkappendiks). For å unngå feilklassifisering av kvinnenes invitasjonsstatus (invitert/ikke invitert) må data betraktes ut fra fødselskohort (parallellogrammer), ikke alder (kvadrater), siden kvinnene inviteres etter fødselskohort (fig 1).

/sites/default/files/2014--T-13-1655-01-Kom.svg

Figur 1  Kvinner inviteres etter fødselskohort (parallellogram) i Mammografiprogrammet. Tilnærming med alder (kvadrat) vil føre til upresise resultater. Eksemplet illustrerer hvordan kvinner født i 1950 og invitert i 2001 ikke korrekt kan tilnæmes som 51 år gamle kvinner

Powerpoint

Oppfølging

Ved screening kan diagnosen forskyves fremover i tid. Det forventes at man får en økt forekomst mens screeningen pågår og en reduksjon i forekomst etter endt screening. Lang oppfølgingstid er nødvendig, både for estimering av overdiagnostikk og dødelighet av brystkreft. Studier av overdiagnostikk viser at minst ti år oppfølgingstid etter avsluttet screening er nødvendig for å få med den forventede reduksjonen i forekomst blant screenede kvinner (4, 5). Dersom oppfølgingstiden er begrenset, må man ty til modelleringsteknikker for å justere for diagnoseforskyvningen (lead time).

Det tar tid fra (første) invitasjon til brystkreftdiagnose, og det går ytterligere tid før kvinner dør av sykdommen. Data fra Kreftregisteret viser at halvparten av dem som var 50 – 69 år ved diagnosetidspunktet for klinisk brystkreft og som døde av sykdommen i 1991 – 95, hadde levd mer enn 5,5 år med sykdommen. Siden formålet med screening er å oppdage svulstene i et asymptomatisk stadium, vil man trenge lengre oppfølgingstid for å estimere dødelighetseffekten av programmet.

Norske dødelighetsstudier

Det er publisert resultater fra tre studier på brystkreftdødelighet etter innføringen av Mammografiprogrammet (13 – 15).

Kalager og medarbeidere beregnet en reduksjon på 10 % i brystkreftdødelighet for inviterte kvinner sammenliknet med ikke-inviterte (13). De benyttet årsskiftet nærmest fylkets oppstartstdato som tilnærmet invitasjonstidspunkt for kvinnene i den inviterte gruppen. Dette medfører ut fra mine beregninger at en kvinne kan ha blitt klassifisert som invitert inntil 2,5 år før hun fikk sin første invitasjon til programmet (falkappendiks). De betraktet data i forhold til alder (fig 1, kvadrat). Kvinnene ble fulgt til utgangen av 2005, noe som innebærer at gjennomsnittlig oppfølgingstid er 2,2 år fra diagnosetidspunktet (13) og, etter min beregning, om lag 3,5 år fra invitasjonstidspunktet (falkappendiks).

Olsen og medarbeidere beregnet nedgangen i brystkreftdødelighet i de fire første fylkene til å være 11 % for inviterte kvinner (14). De fem fylkene som startet sist er brukt som kontrollfylker, mens de ti fylkene som startet i årene 1999 – 2001, ikke er regnet med. Kvinnene ble fulgt til utgangen av 2008. Dette medfører at gjennomsnittlig oppfølgingstid var 5,9 år fra invitasjonstidspunktet.

Hofvind og medarbeidere utførte en kohortstudie der individdata var basert på eksakt invitasjons- og oppmøtetidspunkt (15). Etter å ha korrigert for selvseleksjon beregnet de reduksjonen i brystkreftdødelighet til å være 43 % for kvinner som møtte til screening, sammenliknet med dem som ikke møtte. Invitasjonseffekten anslo de til å være 36 %. Kvinnene ble fulgt til utgangen av 2010, noe som gir en gjennomsnittlig oppfølgingstid på 8,3 år fra invitasjonstidspunktet og 5,7 år fra diagnosetidspunktet.

Norske overdiagnostikkstudier

Det er i dag publisert fem studier der man estimerer omfanget av overdiagnostikk etter innføringen av Mammografiprogrammet (16 – 20). De to eldste (16, 17) vil ikke bli omtalt her, da Zahl & Mæhlen har overlappende data og lengre oppfølgingstid (18).

Zahl & Mæhlen har gjort en økologisk tverrsnittsstudie (18). De konkluderte at 50 % av brystkrefttilfellene blant inviterte kvinnene i de fire første fylkene representerte overdiagnostikk. De betraktet tall i forhold til alder (fig 1, kvadrat) til utgangen av 2009 (fig 2, midtre panel). Det medfører ut fra mine beregninger, basert på data fra Statistisk sentralbyrå (21), at 48 % av personårene er feilaktig inkludert i perioden etter screening (falkappendiks). Andelen overdiagnostikk ble målt som ekstra brystkrefttilfeller i forhold til tilfeller uten screening i alderen 50 – 69 år.

/sites/default/files/2014--T-13-1655-02-Kom.svg

Figur 2  Oppfølging etter screening. Skjematisk illustrasjon av fødselskohorter invitert i de fire første fylkene i Mammografiprogrammet i perioden 1996 – 2009. Rosa område markerer kvinner som får invitasjon. Gult område markerer kvinner tidligere invitert. Blått område markerer kvinner som aldri ble invitert. Alle tre studiene der man evaluerer overdiagnosikk etter innføring av Mammografiprogrammet inkluderer kvinner i alderen 70 – 79 år i perioden etter screening (18 – 20). Den røde linjen markerer hvilke avgrensninger forfatterne har gjort. Ut fra populasjonsdata (21) og tidspunkt for oppstart av Mammografiprogrammet i de ulike fylkene (opplysninger fra Kreftregisteret) har jeg beregnet andelen personår innenfor den røde avgrensningen, som er tidligere invitert (falkappendiks). I Falk og medarbeideres studie (20) er det benyttet individdata – 100 % har vært invitert (venstre panel). Zahl & Mæhlen (18) studerte perioden 1998 – 2009 – 52 % har vært invitert (midtre panel). Kalager og medarbeidere (19) studerte perioden 1996 – 2005 – 29 % har vært invitert (høyre panel)

Powerpoint

Kalager og medarbeidere rapporterte at 15 – 25 % av brystkrefttilfellene blant inviterte kvinner var overdiagnostikk (19). De studerte forekomsten av brystkreft blant kvinner i studiegruppen sammenliknet med forekomsten i tre ulike kontrollgrupper. De betraktet kvinnene i forhold til alder (fig 1, kvadrat) til utgangen av 2005 (fig 2, høyre panel). Dette betyr ut fra mine beregninger at 71 % av personårene i de fire første fylkene er feilaktig inkludert i perioden etter screening (falkappendiks). For de øvrige fylkene beregnet jeg at denne andelen var enda høyere, 81 – 100 % (falkappendiks). Andelen overdiagnostikk ble målt som ekstra brystkrefttilfeller i forhold til tilfeller uten screening i alderen 50 – 79 år.

Vi utførte en kohortstudie med anonymiserte individdata (20). Kvinnene ble fulgt fra første invitasjon til utgangen av 2009 (fig 2, venstre panel). Oppmøtene for hver enkelt kvinne ble klassifisert i forhold til deres screeninghistorie. Andelen overdiagnostikk ble estimert for kvinner som følger de nasjonale anbefalingene om ti screeningundersøkelser når de er i alderen 50 – 69 år. Tidsperspektivet uten screening ble beregnet for alderen 50 år og eldre. Andel overdiagnostikk av brystkreft for inviterte kvinner ble estimert til 10 – 11 %.

Det er store forskjeller mellom disse studiene når det gjelder presisjon på dataene og oppfølgingstiden. Figur 1 illustrerer unøyaktighetene ved å betrakte alder i stedet for fødselskohort når man skal analysere dataene. Når man studerer perioden etter screening, er det en forutsetning at alle inkluderte kvinner har vært invitert tidligere slik at en eventuell reduksjon i forekomst skal kunne inntreffe. Dette er ikke oppfylt for to av studiene (fig 2). Målet på overdiagnostikk er definert for ulike kvinner og for forskjellig aldersgrupper i de tre studiene.

Oppsummering

Det er mange metodiske utfordringer knyttet til evaluering av Mammografiprogrammet, og resultatene må ses i lys av hvilken metode som er benyttet. Bruk av summariske tall kan medføre feilklassifisering av kvinnenes invitasjonsstatus. Det er derfor nødvendig å benytte individdata. Både ved evaluering av dødelighet og overdiagnostikk trengs lang oppfølgingstid for å gi korrekte estimater.

Jeg takker mine kolleger og veiledere Tor Haldorsen, Solveig Hofvind og Per Skaane for nyttige kommentarer til denne artikkelen.

Anbefalte artikler