I en klinisk studie har vi ofte flere målinger fra samme pasient, men det er pasienten som må være den primære analyseenheten, ikke hver enkelt måling. Å telle samme pasient flere ganger kan lede til feilaktige effektestimater og konklusjoner.
Figur 1 N = 5 eller N = 1? Målinger fra ulike ledd med artritt hos én og samme pasient kan være korrelert, noe som må tas hensyn til i statistiske analyser. Illustrasjon: CSA-Archive/iStock, endret av Tidsskriftet.
Et eksempel der man ofte har flere målinger fra samme pasient, er blodtrykksmålinger. Disse kan anses som repeterte forsøk på å måle en sann, underliggende verdi og er ikke uavhengige observasjoner. At det er individet som skal være enheten, blir enda tydeligere hvis vi virkelig setter det på spissen: Dersom vi skal studere om trøndere er tyngre enn Oslo-folk, er det opplagt en bedre forsøksplan å veie 100 tilfeldig utvalgte individer i hver by én gang og sammenligne gjennomsnittsvekten enn å veie ett individ fra hver by 100 ganger.
Flere observasjoner fra samme individ
Det kan synes som en selvfølge at man ikke skal la en pasient telle flere ganger, men slike feil har ikke vært uvanlige i medisinsk forskning (1 ). Det finnes utallige eksempler på situasjoner der man kan snuble når man skal avgjøre hva analyseenheten skal være. Parallelle prøver av plasmakonsentrasjon av et legemiddel er et typisk eksempel der hver prøve egentlig måler det samme. Målinger fra forskjellige lesjoner hos samme pasient har ikke nødvendigvis samme sanne verdi, men vi kan sjelden utelukke at de i noen grad er korrelert. Artritt og artrose er klassiske eksempler fordi pasienten ofte vil ha flere affiserte ledd. Psoriasisplakk kan også være fristende å telle separat, og ikke minst har et menneske mange tenner. Skal vi studere sammenhengen mellom eksponering i svangerskapet og utfall hos barnet, må vi ta hensyn til at utfall hos søsken neppe er uavhengige selv om ett barn var eksponert og det andre ikke.
I kliniske studier er det vanlig å gjøre repeterte målinger av samme symptom eller fenomen over tid. Igjen må enheten være pasienten, og vi må benytte metoder som tar hensyn til at målinger fra samme pasient ikke er uavhengige.
Konsekvenser
Det er to beslektede konsekvenser som oppstår dersom vi ikke tar hensyn til at data inneholder flere observasjoner fra samme individ. Først og fremst bryter vi med den gjennomgående antagelsen i statistiske analyser om at data skal være uavhengige. Det er sjelden mulig å verifisere at observasjoner fra samme individ ikke er korrelert. Det andre problemet er at utvalgsstørrelsen blåses kunstig opp, med en påfølgende underestimering av standardfeilen (SE). Dette kan lede til feilaktige slutninger om statistisk signifikans.
Noen ganger er det også prognostisk informasjon i hvor mange målinger en pasient bidrar med. De alvorligst syke vil kanskje bli hyppigere innlagt på sykehus, og de må ha overlevd den første innleggelsen for å kunne bli innlagt på nytt. Slike pasienter vil trolig være forskjellige fra de som bare er innlagt én gang. Dersom vi analyserer på innleggelsesnivå, og ikke på pasientnivå, vil vi kunne introdusere systematiske skjevheter (bias).
Analyser
Betyr det at vi ikke kan utnytte flere målinger fra samme pasient? Selvfølgelig ikke, men slike data må analyseres korrekt. Ofte ligger det ekstra informasjon i å ha tilgang til flere målinger, og med samme antall pasienter vil den statistiske styrken som regel øke noe sammenlignet med når vi bare har én observasjon fra hver pasient. Den aller enkleste tilnærmingen til å analysere slike data er å slå sammen observasjonene i summasjonsmål og for eksempel benytte gjennomsnittet av flere målinger fra samme pasient i videre analyser (2 ). Dersom vi er opptatt av endring over tid, kan vi beregne et stigningstall for hvert individ. Mer avanserte metoder vil kunne utnytte data bedre. Hvis det er like mange parallelle eller repeterte målinger for hver pasient, kan man benytte variansanalyse (ANOVA). God statistisk programvare gir tilgang til avanserte metoder som kan utnytte et ulikt antall observasjoner fra hver pasient, for eksempel «mixed models» (3 ). Det essensielle poenget er at man ved estimering av standardfeil benytter en metode som tar hensyn til at noen av observasjonene kommer fra samme individ og ikke kan betraktes som uavhengige.
Klynger
Et lignende problem oppstår når vi ikke kan rekruttere individer individuelt til en studie, men inkluderer for eksempel hele skoleklasser eller intervenerer på fastlegenivå og behandler alle elevene eller pasientene fra samme klynge likt. Da vil en analyse på individnivå lede til samme feil som beskrevet over: Data fra elever i samme skoleklasse vil være korrelert. I slike tilfeller er det skoleklassen eller fastlegen som er analyseenheten.