Er dataene normalfordelt?

Stian Lydersen; Eva Skovlund

doi:10.4045/tidsskr.20.0067

Er dataene normalfordelt?

Medisin og tall

Stian Lydersen, Eva Skovlund Om forfatterne

Se alle artikler

Stian Lydersen

E-post: stian.lydersen@ntnu.no

Stian Lydersen er dr.ing. og professor i medisinsk statistikk ved Regionalt kunnskapssenter for barn og unge – psykisk helse og barnevern (RKBU Midt-Norge) ved Institutt for psykisk helse, NTNU.

Forfatteren har fylt ut ICMJE-skjemaet og oppgir ingen interessekonflikter.

Se alle artikler

Eva Skovlund

Eva Skovlund er professor i medisinsk statistikk ved Institutt for samfunnsmedisin og sykepleie, NTNU, og seniorforsker ved Folkehelseinstituttet.

Forfatteren har fylt ut ICMJE-skjemaet og oppgir ingen interessekonflikter.

Artikkel

Enkelte statistiske metoder, som for eksempel t-test, forutsetter at dataene er tilnærmet normalfordelt. Hvordan kan man sjekke om denne forutsetningen holder?

La oss se på et eksempel: I en artikkel i Medisin og tall brukte vi regresjonsanalyse for å analysere data fra en randomisert kontrollert studie (1). Når man benytter lineær regresjon, er en viktig antagelse at restleddene (residualene), altså avstandene mellom hver observasjon og den estimerte regresjonslinjen, er normalfordelt. Et histogram av residualene fra analysen i (1) er vist i figur 1 sammen med normalfordelingskurven. Er tilnærmingen til normalfordelingen akseptabel? Avvik fra normalfordelingen rundt midten av tallområdet er ikke viktig i denne sammenhengen. Det som kan ødelegge, er avvik i «halene» til fordelingen, for eksempel at fordelingen har noen ekstremt høye eller lave verdier. Dette kan undersøkes ved hypotesetesting eller ved visuell vurdering av et egnet plott.

Figur 1 Histogram over residualene fra regresjonanalysen i (1).

Hypotesetesting om normalfordeling

Det finnes flere alternative tester for normalfordeling. Kolmogorov-Smirnovs test er blant de mest kjente. Men denne testen vektlegger avvik mellom de observerte dataene og normalfordelingen like mye gjennom hele tallområdet, altså både midt i fordelingen og i «halene». Shapiro-Wilks test, derimot, legger mer vekt på avvik i halene. Flere sammenlikninger konkluderer med at Shapiro-Wilks test har høyere statistisk styrke enn andre tester i de fleste aktuelle situasjoner (2, 3).

Hypotesetester om normalfordeling har imidlertid begrenset nytteverdi i denne sammenhengen. Slike tester har generelt lav styrke (4, s. 94), og i forholdsvis små utvalg vil vesentlige avvik fra normalfordelingen forbli uoppdagede. Og i svært store utvalg vil avvik fra normalfordelingen uten praktisk betydning kunne bli statistisk signifikante.

QQ-plott

Plotting av data kan gi bedre innsikt i avvik fra normalfordelingen. Men det kan være vanskelig å vurdere et histogram med den tilpassede normalfordelingskuven, som vist i figur 1. Det vil alltid være noe avvik mellom histogrammet og normalfordelingskurven. Et mer egnet plott er et QQ-plott (av engelsk quantile-quantile), som vist i figur 2. På den ene aksen vises de faktiske observasjonene og på den andre aksen de verdiene man ville fått hvis dataene var perfekt normalfordelt. Dersom dataene stemmer godt med en normalfordeling, vil punktene ligge nær diagonalen som er tegnet i figuren. Tilpasningen anses ofte som akseptabel hvis man kan dekke punktene med en «tykk blyant» (5, s. 216). Dette er tilfellet i figur 2. Figur 3 viser et QQ-plott for en sterkt høyreskjev fordeling: Her er forutsetningen om normalfordeling klart brutt.

Figur 2 QQ-plott av residualene fra regresjonanalysen i (1). Punktene viser de observerte verdiene. Den heltrukne diagonalen viser en perfekt normalfordeling.

Figur 3 QQ-plott for et datasett som ikke er normalfordelt. Punktene viser de observerte verdiene. Den heltrukne diagonalen viser en perfekt normalfordeling.

Enkelte forskere bruker et PP-plott (probability-probability) for å sammenlikne data med normalfordelingen. Mens QQ-plottet er basert på de observerte verdiene, er PP-plottet basert på de tilhørende sannsynlighetene. Et PP-plott er mindre egnet til å påvise avvik i halene i fordelingen, som er det mest problematiske i denne sammenhengen.

Hva bør rapporteres?

Dersom man vil sjekke om data er normalfordelt med en hypotesetest, anbefaler vi Shapiro-Wilks test. Men visuell vurdering av et QQ-plott er etter vårt syn vel så godt egnet.

Litteratur

Skovlund E, Lydersen S. Analyser av data fra randomiserte studier. Tidsskr Nor Legeforen 2018; 138: 1855.

Yap BW, Sim CH. Comparisons of various types of normality tests. J Stat Comput Simul 2011; 81: 2141–55. [CrossRef]

Wijekularathna DK, Manage ABW, Scariano SM. Power analysis of several normality tests: A Monte Carlo simulation study. Commun Stat Simul Comput 2019; 17. doi: 10.1080/03610918.2019.1658780. [CrossRef]

Zar JH. Biostatistical analysis. 5th ed utg. Upper Saddle River, N.J: Prentice-Hall/Pearson, 2010.

Montgomery DC, Runger GC. Applied Statistics and Probability for Engineers. 6 utg: Wiley, 2014.

Kommentarer

(0)

Denne artikkelen ble publisert for mer enn 12 måneder siden, og vi har derfor stengt for nye kommentarer.

Publisert: 17. august 2020

Utgave 11, 18. august 2020

Tidsskr Nor Legeforen 2020

doi: 10.4045/tidsskr.20.0067

Old Drupal 7 Site

Hovedmeny

Er dataene normalfordelt?

Hypotesetesting om normalfordeling

QQ-plott

Hva bør rapporteres?

Kommentarer

Anbefalte artikler