Tidsskriftet er et generelt medisinsk-vitenskapelig tidsskrift for norske leger. Til vitenskapelige artikler stilles det krav om presis og korrekt bruk av statistiske metoder. Det er en vanskelig balansegang å presentere leseverdige artikler av generell interesse for leger i klinisk arbeid samtidig som beskrivelsen av de statistiske metodene skal tilfredsstille en forsker som vil etterprøve undersøkelsene.
Hensikten med denne artikkelen er å gi forfattere veiledning i hvordan Tidsskriftets redaksjon ønsker statistikk presentert. Det gis retningslinjer for bruk av de ulike statistiske metoder, etterfulgt av råd om hva som skal presenteres og hvor i manuskriptet informasjonen om bruk av statistikk skal stå.
Definisjon av viktige begreper
Vi bruker begrepet «effektvariabel» for den eller de variablene som er utgangspunktet for studien og som er den eller dem vi ønsker å forklare. Videre bruker vi begrepet «effektmål» som en avledet størrelse fra effektvariabelen. Dette vil være den størrelsen som har klinisk betydning. Videre brukes begrepet «forklaringsvariabler» for demografiske variabler og de variablene som kan påvirke effektvariablene. Eksempelvis kan effektmålet være gjennomsnittlig endring i blodtrykk ved bruk av et blodtrykksreduserende medikament i en behandlingsgruppe i forhold til blodtrykket i en kontrollgruppe. Blodtrykksmålingene er da effektvariabelen, mens effektmålet er forskjellen i gjennomsnittlig endring av blodtrykket i behandlingsgruppen i forhold til kontrollgruppen. Et annet eksempel kan være at vi følger opp en eksponert og en ikke-eksponert gruppe og registrerer om deltakerne får en sykdom eller ikke. Effektvariabelen vil være om deltakerne får sykdommen eller ikke, men effektmålet kan være et oddsforhold eller relativ risiko. For begge eksemplene kan forklaringsvariablene være alder, kjønn og sykdomsstatus. Effektmålet er knyttet til en hypotese man vil teste for å se om effekten er statistisk signifikant eller ikke.
Hovedresultatene fra en statistisk analyse skal presenteres i tre deler:
Anslag på effektmålet, eventuelt med justering for konfundering (ramme 1).
Usikkerheten vedrørende effektmålet, i form av konfidensintervall (fortrinnsvis 95 %).
Resultater fra en eller flere hypotesetester, i form av p-verdier.
Ramme 1
Nullhypotese : Effekten av behandling eller prosedyre er null
Alternativ hypotese : Effekten av behandling eller prosedyre er forskjellig fra null
P-verdi : Sannsynligheten for å observere aktuell verdi eller mer ekstrem verdi når nullhypotesen er riktig. Denne sannsynligheten avspeiler hvorvidt utfallet gitt nullhypotesen skyldes tilfeldigheter
Signifikansnivå : Den grense man setter for at resultatet av en test skal være statistisk signifikant. Settes vanligvis til 0,05 (5 %)
Teststørrelse : En variabel med en kjent statistisk fordeling som gjør oss i stand til å teste nullhypotesen
Konfunderende variabel : En variabel sies å være konfunderende når den er assosiert med både effektvariabelen og en forklaringsvariabel
De to førstnevnte gjør oss i stand til å tolke den kliniske betydningen av resultatene og usikkerheten. P-verdien gir informasjon om i hvilken grad resultatet fra det undersøkte utvalget kan generaliseres.
Medisinske forskere setter som regel grensen for statistisk signifikant resultat til 0,05 (5 % signifikansnivå). Det er imidlertid ingen grunn til å redusere informasjonen som ligger i en p-verdi til det lite informative utsagnet signifikant/ikke-signifikant. Tidsskriftet ønsker derfor at p-verdier oppgis, uansett størrelse.
Presentasjon av resultater fra statistiske analyser
Presentasjon av resultater fra kliniske og epidemiologiske studier følger en forholdsvis fast struktur som er lik i de fleste tidsskrifter. Først er det en univariat eller beskrivende del, der man oppsummerer effektvariablene og forklaringsvariablene i figur- eller tabellform. Deretter følger en bivariat og eventuelt en multivariabel analyse, der man ser på sammenhengen mellom effektvariablene og én eller flere forklaringsvariabler.
I den første delen skal leseren få en kort beskrivelse av effekt- og forklaringsvariablene, enten i teksten eller i figurene/tabellene. I den andre delen – analysedelen – brukes statistiske metoder for å anslå effekter og disse effekters usikkerhet.
Tabeller og figurer
Tabeller skal gi en oversikt over nøkkeltall for effekt- og forklaringsvariablene. Som nøkkeltall velges størrelser som gir informasjon om utvalgets tyngdepunkt og variasjon. Nøkkeltallene til effektvariablene beregnes for de relevante grupper, som behandlingsgruppe/kontrollgruppe, diagnose osv. Når man skal rapportere nøkkeltall, må man skille mellom skjeve og symmetriske utvalg. Tyngdepunktet i et skjevfordelt utvalg oppsummeres best ved medianverdi, mens variasjonen oppsummeres ved ekstremverdiene eller kvartilverdiene. For symmetriske utvalg oppsummeres tyngdepunktet ved gjennomsnittet, mens standardavviket gir det beste bilde av variasjonen i utvalget.
I tillegg til nøkkeltall skal leseren få informasjon om hvor godt gruppene er balansert med henblikk på kjønn, alder og diagnose. Muligheten til å legge ut presise bakgrunnstall i nettversjonen av Tidsskriftet gjør at redaksjonen i stigende grad vil åpne for bruk av gode figurer i den trykte versjonen.
Det er viktig å spesifisere hvilken type data man har, siden effektmålet vil avhenge av dette. Vi skiller ofte mellom to ulike typer data. Kategoriske variabler faller i ulike kategorier, slik som blodtype (nominal) og grad av tilfredshet på en fempunkts skala (ordinal). Kontinuerlige variabler karakteriseres ved at man kan måle avstanden mellom de ulike verdiene (f.eks. blodtrykk, alder).
Kategoriske data presenteres sjelden i form av figurer, det gjøres fortrinnsvis i tabellform. Hvis det er mange kategorier, kan de vises ved hjelp av søylediagrammer. Det finnes mange typer figurer for visualisering av kontinuerlige variabler (fig 1). En god visualisering er boksplott (box-and-whiskers), fordi dette diagrammet viser de viktigste fordelingsegenskapene til et utvalg.
Øverst til venstre et søylediagram over antall døde i en gitt sykdomsgruppe fordelt på aldersgrupper. Øverst til høyre et boksplott for systolisk blodtrykk målt for en gruppe kvinner og en gruppe menn. Nederst til venstre et spredningsdiagram som viser sammenhengen mellom to kontinuerlige variabler. Nederst til høyre vises et Kaplan-Meier-diagram. Sannsynligheten for overlevelse er vist for brystkreft for tre grupper kvinner avhengig av histologiske funn
Parvise data og repeterte målinger visualiseres best ved hjelp av linjediagrammer. En slik figur viser en variabels verdi på hvert måletidspunkt. Hvis det er få pasienter (færre enn 12), kan rådata vises slik at hver pasient er representert med en linje. Hvis det er mange pasienter, anbefales det at man plotter gjennomsnittsverdien. For å vise usikkerheten kan man legge inn en vertikal linje som markerer standardfeil eller konfidensintervall til gjennomsnittet for hvert måletidspunkt. Se figur 2 som eksempel på et linjediagram (4 ).
Eksempel på figur for å visualisere en repetert måling. For tre tertiler er gjennomsnittlig BMI beregnet, med tilhørende konfidensintervall (4 )
Antall, prosent og gjeldende sifre
Som hovedregel bør både antall og prosent brukes. I store deskriptive studier der det ikke er brukt avanserte statistiske metoder, kan antall i de ulike gruppene være overflødig informasjon, men totalantallet må oppgis. Ved studier med 20 eller færre deltakere skaper prosentangivelser ofte mer forvirring enn de er til hjelp og bør da unngås.
Prosentangivelser skal vanligvis ikke oppgis med desimaler. Merk at i artikkelteksten bruker vi %-tegn, ikke «prosent» skrevet med bokstaver.
Leseren vil ofte ha problemer med å huske mer enn tre gjeldende sifre. Spesielt i artikkelteksten bør man være varsom med mange gjeldende sifre, f.eks. i omtalen av andre studier der verdien av effektmålet angis. For mange gjeldende sifre kan også gi et falskt inntrykk av høyt presisjonsnivå. Imidlertid må antall informanter i den foreliggende studien oppgis nøyaktig, selv om det innebærer mange gjeldende sifre.
Man må passe på at det er tydelig om man snakker om absolutt eller relativ endring. Når Arbeiderpartiet faller fra 25 % til 16 %, er det en relativ endring på 36 %, men en absolutt endring på 9 %. Generelt anbefales det at man bruker absolutt endring, siden denne verdien ofte er mer tolkbar enn relativ endring. Det er vanlig å se begrepet «prosentpoeng» brukt om absolutte endringer.
Overlevelsesdata
Overlevelsesdata beskriver tiden en pasient er i studien – helt fra inklusjon til enten død, til vedkommende trekker seg fra studien eller til siste oppfølging. Pasienter i de to siste kategoriene kalles sensurerte. Det er vanlig å visualisere overlevelsesdata ved hjelp av et Kaplan-Meier-diagram (fig 1). De størrelsene som skal rapporteres her, er antall pasienter i studien og antall sensurerte personer. Videre skal starttidspunkt og årsaker til at pasientene er sensurert beskrives. Det er vanlig å beregne median overlevelsestid (ofte for bestemte grupper). Alle disse anslagene skal rapporteres med korresponderende konfidensintervaller for å vise usikkerheten.
Sammenlikninger mellom grupper
Sammenlikninger mellom grupper er kanskje den vanligste problemstillingen i medisinsk forskning. En slik problemstilling oppstår f.eks. når resultater for en behandlingsgruppe settes opp mot resultatene for en kontrollgruppe.
Hvilken metode som brukes for å teste om det er forskjell mellom ulike grupper, avhenger av type data, antall grupper som skal sammenliknes og om gruppene er avhengige eller uavhengige. I tillegg vil antallet observasjoner og fordelingsegenskapene ha betydning for om man skal velge ikke-parametriske eller parametriske metoder. I tabell 1 gis det en oversikt over aktuelle tester for ulike problemstillinger, basert på Lang & Secic (1 ). Felles for alle metodene er en nullhypotese om at det ikke er noen forskjell mellom gruppene. Denne hypotesen skal testes mot en alternativ hypotese om at minst to av gruppene er forskjellige.
Tabell 1 En oversikt over ulike tester for avhengige og uavhengige utvalg. Fra Lang & Secic (1)
Antall grupper
Uavhengige utvalg
Avhengige utvalg (repeterte målinger)
Nominale data
2 eller flere
Khikvadrattest
McNemars test
Ordinale data
2
Mann-Whitneys U-test/khikvadrattest
Wilcoxons fortegnstest
3 eller flere
Loglineær modell/Kruskall-Wallis
ANOVA/Friedman
Kontinuerlige data
2
T-test/Mann-Whitneys U-test
Paret t-test/Wilcoxons fortegnstest
3 eller flere
ANOVA/Kruskall-Wallis
Repeterte målinger/Friedman
Resultater fra disse testene skal rapporteres som anslag på effektmål, effektmålenes usikkerhet og p-verdier fra hypotesetestene. Eksempelvis kan en studie av endring av blodtrykk rapporteres slik: Medikamentet reduserte diastolisk blodtrykk med i gjennomsnitt 4,3 mm Hg, fra 98,7 mm Hg til 94,4 mm Hg (95 % KI: 2,3 – 6,3, p = 0,017). For de ikke-parametriske testene skal medianverdier eller median differanse rapporteres sammen med ett av tre mål på usikkerhet. Disse er: ekstremverdier, kvartilverdier eller 95 % konfidensintervaller til medianverdien. Velges det siste, brukes avanserte metoder for anslå grensene i konfidensintervallet (5 ). I tillegg rapporteres p-verdien fra den aktuelle hypotesen. For tester der det ikke er naturlig å rapportere et effektmål, som fra en khikvadrattest, er det ofte tilstrekkelig å rapportere p-verdiene. For mer omfattende tabellanalyser skal teststørrelsen (ramme 1), antall frihetsgrader og p-verdier rapporteres for hver modell som tilpasses.
Resultater fra ANOVA-modeller og modeller for repeterte målinger skal skrives i en resultattabell. Disse modellene viser forskjeller mellom kategoriene til en variabel, der én kategori velges som referansekategori. Også her skal effektmål (differanser), usikkerhet (differansenes konfidensintervaller) og p-verdier rapporteres. I tabell 2 lar vi de ulike kolonnene representere navn på variablene, navn på de ulike kategoriene, anslag på effektmålet, konfidensintervall og p-verdi. For hver variabel begynner man først med en rad for variabelen. På denne linjen skal også p-verdien som er knyttet til en test om at minst to av kategoriene er ulike rapporteres. Deretter følger en linje for hver kategori til variabelen og resultatene for de ulike kategoriene. For p-verdiene som er knyttet til kategoriene, må det oppgis om disse er korrigert for simultane tester.
Tabell 2 Eksempel på resultattabell fra en ANOVA-modell. Modellen består av de to variablene «pasientgruppe» og «kjønn». Pasientgruppe deles inn i funksjonsfriske (referanse), pasient-gruppe 1 og pasientgruppe 2
Variabel
Kategori
Differanse
95 % KI
P-verdi
Gruppe
0,025
Friske (referanse)
0
Pasientgruppe 1
7,45
1,56 – 13,3
0,016
Pasientgruppe 2
2,45
–2,44 – 7,34
0,218
Kjønn
0,114
Kvinne (referanse)
0
Mann
–1,45
–6,34 – 3,44
0,114
Overlevelsestider presenteres ofte for to grupper. For å teste om det er forskjellig overlevelsestid i gruppene, utføres en logranktest. Det er nok bare å rapportere p-verdien fra denne testen.
Resultater fra analyser av sammenhenger mellom variabler (regresjonsmodeller)
I de fleste kliniske og epidemiologiske studier ønsker vi å presentere effektmålet for en gitt variabel justert for effekter av andre variabler som kan være konfunderende. Analysen følger en totrinns prosedyre:
Hva er sammenhengen mellom effektvariabelen og hver enkelt forklaringsvariabel (ujusterte effekter)?
Hva er den samlede sammenhengen mellom effektvariabelen og forklaringsvariablene (justerte effekter)?
Denne prosedyren er felles for de fleste modeller, uavhengig av hva slag type data og hvilken type design vi har valgt. Hva som er effektmålet, kan variere for de ulike modellene, men presentasjonen går parallelt. For lineære regresjonsmodeller er effektmålet den estimerte regresjonskoeffisienten. For logistisk regresjon, der effektvariabelen kun kan ta to verdier (f.eks. bedring, ikke-bedring), er effektmålet et oddsforhold. Ved Cox-regresjon, der effektvariabelen er overlevelsesdata (og informasjon om sensurering), er effektmålet insidensrateforhold eller relativ risiko. For alle disse modellene er effektmålene tolkbare og skal presenteres sammen med effektmålenes usikkerhet (95 % konfidensintervall) og p-verdier. De statistiske metodene er beskrevet i Altman (6 ).
Resultater fra analyser med én avhengig variabel og mer enn en uavhengig variabel skal presenteres på én av to følgende måter:
Presentasjon av resultatene fra begge trinnene i en og samme tabell. Resultatene fra trinn 1 presenteres i en bolk til venstre i tabellen, resultatene fra trinn 2 i en annen bolk til høyre (tab 3). Resultatene fra de bivariate analysene (trinn 1) kalles ujusterte, fordi man ikke har tatt hensyn til de andre forklaringsvariablene. Likeledes kaller vi resultatet fra den multivariable modellen (trinn 2) for justerte effekter, fordi de samlet forklarer variabiliteten til effektvariabelen. Når det gjelder de ujusterte effektene, kan alle forklaringsvariablene være med, om de er statistisk signifikante eller ikke. I den sammensatte modellen skal bare de forklaringsvariablene som er med i den endelige analysen være med. Viktige variabler som kjønn og alder kan være med selv om de ikke er statistisk signifikante. Leseren vil da få informasjon om hvilke forklaringsvariabler som er inkludert i modellen og om hvilke variabler som er viktige for å forklare effektvariabelens variabilitet.
Alternativt kan man presentere bare de justerte effektene, men her må man klart gjøre rede for hvilke variabler man har justert for. Denne måten er nyttig hvis man ønsker å vise resultater fra mer enn én multippel modell og kontrollerer for ulike variabler i de ulike modellene.
Tabell 3 Eksempel på presentasjon av resultater fra en logistisk regresjon. Den avhengige variabelen er tilfredshet/ikke-tilfredshet, de uavhengige variablene er kjønn, alder (tre nivåer) og diagnose (tre nivåer). Effektmålet blir oddsforhold (OR)
Ujusterte effekter
Justerte effekter
Variabel
OR
95 % KI
P-verdi
OR
95 % KI
P-verdi
Kjønn
Mann (referanse)
1,0
1,0
Kvinne
1,2
1,1 – 1,3
0,004
1,1
1,0 – 1,2
0,041
Alder (år)
20 – 39 (referanse)
1,0
Ikke inkludert
40 – 59
1,4
0,8 – 1,5
0,123
Over 60
1,7
1,1 – 2,5
0,034
Diagnose
Diagnose 1 (referanse)
1,0
1,0
Diagnose 2
0,5
0,4 – 0,6
0,009
0,6
0,5 – 0,7
0,010
Diagnose 3
3,5
0,4 – 10,5
0,345
2,8
0,6 – 8,7
0,389
Multivariate metoder
I tillegg til metodene som er vist ovenfor, der vi ser på én effektvariabel, finnes det metoder der man ser på mange effektvariabler samtidig. Eksempler på dette er korrelasjonsanalyse, faktoranalyse og prinsipalkomponentanalyse (principal component analysis, PCA).
Korrelasjonsanalyse. En korrelasjonskoeffisient er et symmetrisk mål for sammenhengen mellom to kontinuerlige variabler. Her er det vanlig å beregne en p-verdi som er knyttet til en nullhypotese om at det ikke er noen (lineær) sammenheng mellom variablene. Hvis man har flere enn to effektvariabler, kan man finne korrelasjonskoeffisienter mellom alle par av variablene. Disse kan presenteres som en tabell der hver variabel blir representert både som rad og kolonne. For hver celle i tabellen fremkommer den estimerte korrelasjonskoeffisienten mellom radvariablene og kolonnevariablene med en tilhørende p-verdi.
Faktoranalyse og prinsipalkomponentanalyse. Faktoranalyse og prinsipalkomponentanalyse er metoder for å forklare et sett av variabler ved et mindre sett av underliggende eller latente variabler. Prinsipalkomponentanalyse forklarer variablene ved å finne et sett (av noen av variablene) som best forklarer variasjonen i det opprinnelige settet. Faktoranalyse finner et sett (av faktorer) som best forklarer korrelasjonen mellom de opprinnelige variablene. Det må rapporteres om man anvender faktoranalyse eller prinsipalkomponentanalyse. Uansett hvilken metode man bruker, forklares sammenhengen mellom variablene via faktorladninger, kommunaliteter og unike varianser. En faktoranalyse brukes enten for å utforske data i en beskrivende undersøkelse (eksplorativt) eller for å bekrefte eller avkrefte en på forhånd antatt sammenheng mellom ulike variabler (konfirmatorisk). For eksplorative modeller bør kravet til hva som skal rapporteres være mindre strengt enn for konfirmatoriske modeller. For konfirmatoriske modeller anbefaler vi at det gjøres klart hvilken modell som tilpasses og eventuelt hvilken hypotese som er knyttet til denne modellen. Det anbefales at faktorladninger rapporteres som tabell. Det bør rapporteres testobservator for de ulike modellene, med en resulterende p-verdi knyttet til de hypotesene som testes. Unike varianser eller komunaliteter bør også rapporteres.
Hvor skal informasjonen stå i manuskriptet?
Ingen studier er helt like, og det kan finnes grunner til å fravike hovedprinsippene vi beskriver her, men dette bør være gjennomtenkt.
Innledning
I siste avsnitt i innledningen må det tydelig fremgå hva hensikten med studien er, gjerne i form av hvilke effektmål som skal bestemmes og hvilke hypoteser som skal testes.
Materiale og metode
I denne delen beskrives studien slik den var planlagt. Først karakteriseres den populasjonen man har hatt til hensikt å undersøke, utvalget av inkluderte individer og hva man har gjort for å komme frem til dette utvalget. Deretter skal det gjøres rede for hva man har ønsket å undersøke, og hvilken metode som er brukt til å hente inn informasjon (spørreskjemaer, intervjuer, kliniske undersøkelser, laboratorieundersøkelser).
Til slutt beskrives de statistiske metodene. Her er det sentralt å få med hvilke(n) observasjon(er) som er effektvariabler (det man skal måle) og hvilke egenskaper, eksponeringer eller annet som brukes som uavhengige variabler (forklaringsvariabler). Videre skal det oppgis hvilke statistiske metoder og hvilke tester som ble brukt. Man trenger ikke argumentere for valg av kjente metoder (f.eks. t-test ved kontinuerlige data). For mindre kjente metoder skal det oppgis en referanse til litteratur om den valgte metoden. For regresjonsmodeller der man velger en strategi for å finne en modell med justerte effekter, bør denne strategien nevnes her (vi vil anbefale en trinnvis metode som «forward selection» eller «backward elimination»). Hvilken metode man har valgt for å korrigere for multippel testing, skal også oppgis. Valg av statistisk programvare skal rapporteres. Brukes ikke standard programvare, skal en referanse til programvaren angis i litteraturlisten.
Resultater
Resultatkapitlet skal beskrive studien slik det gikk. Her omtaler man innledningsvis hvor mange (enten det er personer, journaler eller annet) som til slutt gav informasjon. Om nødvendig presenteres et flytdiagram som gir en oversikt over hvor mange man hadde til hensikt å få informasjon fra, hvilke man mistet, med forklaring på hvorfor, og hvor mange man hadde tilbake for statistisk analyse (fig 3) (4 ).
Eksempel på flytdiagram fra en studie der forfatterne følger kroppsmasseutvikling fra ungdom til voksen alder (4 )
Materialet beskrives først med de viktigste egenskapene som er relevante for studien (univariat analyse). Man bør ha en god grunn hvis man skal utelate kjønnsfordeling og aldersfordeling. Dersom to hovedgrupper sammenliknes gjennom hele artikkelen, bør de beskrives atskilt, fortrinnsvis i kolonner ved siden av hverandre i en tabell.
Deretter presenteres krysstabeller mellom den eller de viktigste uavhengige variablene og effektvariabelen (bivariat analyse). Fordi moderne statistikkprogrammer gjør det enkelt å studere mange variabler samtidig, ser vi ofte at forfattere hopper over dette mellomtrinnet. For forståelsen av materialet er imidlertid bivariate krysstabeller ofte av stor verdi. Først til slutt presenteres eventuelt analyser der mange variabler er med i analysen samtidig (multivariable metoder, f.eks. multippel regresjon).
Det må fremgå av alle analyser hvor mange som inngår i de ulike statistiske analysene, da det ikke alltid vil være like mange i hele arbeidet.
Resultatavsnittet skal ikke inneholde tolking av dataene, heller ikke forsøk på å forklare manglende data. Dette hører diskusjonen til. Ofte er det innlysende ut fra det som står under «materiale og metode».
Diskusjon
Diskusjonskapitlet bør begynne med drøfting av hovedresultatene. Et sentralt punkt i diskusjonen skal være i hvilken grad undersøkelsens resultater er representative for den studiepopulasjonen man ønsket å beskrive, og muligheten for å generalisere utover dette må også vurderes (7 ). En diskusjon uten dette elementet kan ikke aksepteres. Å presisere nærmere hva som ellers må inngå i en slik diskusjon, faller utenfor formålet med denne artikkelen. Hvorvidt funnene fra undersøkelsen har klinisk eller praktisk betydning, må også drøftes.