I en longitudinell studie kan det mangle data på ett eller flere tidspunkt for noen av deltakerne. Fremskrivning fra siste observasjon (LOCF) er en enkel metode for å fylle ut manglende verdier, men den har vesentlige svakheter.
Manglende data kan skyldes deltakere som forsvinner ut av studien eller midlertidig uteblir ved ett eller flere oppfølgingstidspunkt. En metode for å håndtere manglende data i longitudinelle studier kalles fremskrivning fra siste observasjon (last observation carried forward, LOCF). I noen studier brukes måling ved utgangstidspunktet og én måling etter (baseline observation carried forward, BOCF). Disse metodene går ut på følgende: Dersom en verdi mangler, føres siste observerte verdi inn i de fremtidige verdier der denne mangler. Dette er illustrert i figur 1. I dette eksempelet ser vi at utfallsvariabelen øker med økende tid hos de enkelte deltakerne. I dette tilfellet vil metoden gi en systematisk underestimering av de manglende verdiene. Men hva gjelder generelt?
Figur 1 Fremskrivning fra siste observasjon (LOCF). A viser et komplett datasett for fire deltakere på tre tidspunkt. Dersom verdiene merket med X mangler og er ukjente, settes siste observerte verdi inn isteden (markert ved en pil i B).
Er metoden konservativ?
Metoden har vært mye brukt, blant annet i randomiserte kontrollerte forsøk. U.S. Food and Drug Administration har tidligere anbefalt metoden, idet den ble ansett som konservativ (1 , s. 16–17). Konservativ betyr skjevhet (bias) slik at effekten av behandlingen underestimeres. Men det viser seg at metoden kan gi skjevhet i begge retninger og at den kan medføre skjevhet også hvis data mangler helt tilfeldig (2 , s. 47–50). På forespørsel fra U.S. Food and Drug Administration ble det nedsatt et utvalg som skulle gi råd om håndtering av manglende data i kliniske forsøk. I utvalgets rapport fra 2010 anbefales det at verken LOCF- eller BOCF-prinsippene bør brukes for å håndtere manglende data, med mindre de underliggende forutsetningene er vitenskapelig underbygget (3 , s. 77).
I den omfattende Handbook of Missing Data Methodology fra 2015 står det: «LOCF er ikke gyldig under generelle forutsetninger, er ikke basert på statistiske prinsipper, den er ikke en fornuftig metode og bør ikke brukes» (4 , s. 40, forfatterens oversettelse). Metoden blir generelt frårådet også i andre nyere bøker om manglende data (1 , s. 16, 5 , s. 11, 6 , s. 59). Avslutningsvis vil jeg sitere Vickers & Altman (7 ): «LOCF er en attraktiv metode fordi den er enkel, men lite annet taler til dens fordel» (forfatterens oversettelse).
Bedre alternativer
Det finnes bedre alternativer for håndtering av manglende data. I en longitudinell studie kan for eksempel en lineær blandet modell-regresjonsanalyse være velegnet. Når denne metoden brukes, behøver man ikke å imputere manglende data. Alle data vil inngå i analysen, også fra deltakerne som mangler data på ett eller flere tidspunkt. Og resultatene er forventningsrette når data mangler betinget tilfeldig (5 , s. 130, 8 ).