Korrelasjonen er relativ

Stian Lydersen

doi:10.4045/tidsskr.20.0483

Korrelasjonen er relativ

Medisin og tall

Stian Lydersen Om forfatteren

Se alle artikler

Stian Lydersen

E-post: stian.lydersen@ntnu.no

Stian Lydersen er dr.ing. og professor i medisinsk statistikk ved Regionalt kunnskapssenter for barn og unge – psykisk helse og barnevern (RKBU Midt-Norge) ved Institutt for psykisk helse, NTNU.

Forfatteren har fylt ut ICMJE-skjemaet og oppgir ingen interessekonflikter.

Artikkel

Korrelasjonskoeffisienten er et mye brukt mål på sammenheng mellom to variabler. Men ikke alle er klar over at den er et relativt mål som avhenger av hvor homogent datamaterialet er.

La oss se på et eksempel: Figur 1 viser høyde og vekt for 166 personer. Pearsons korrelasjonskoeffisient er et mål på grad av lineær sammenheng mellom de to variablene. Korrelasjonen er per definisjon et tall mellom −1 og 1. Dersom punktene ligger perfekt på en rett linje med positivt stigningstall, vil korrelasjonen være lik 1. Dersom det ikke er noen sammenheng, vil korrelasjonen være 0, og dersom punktene ligger perfekt på en linje med negativt stigningstall, vil korrelasjonen være −1 (1).

Figur 1 Høyde og vekt for 166 personer: Korrelasjonen r mellom høyde og vekt er 0,77 for utvalget under ett, men bare hhv. 0,46, 0,41 og 0,42 for gruppene med høyde under 170 cm, fra 170 cm til 180 cm, og 180 cm eller mer.

Regresjon vs. korrelasjon

Den rette linjen som er tilpasset datasettet i figur 1, kalles regresjonslinjen og har her stigningstall lik 0,96. Det betyr at for hver cm høyere en person er, kan vi i gjennomsnitt forvente at vedkommende er 0,96 kg tyngre. Dette stigningstallet kalles den ustandardiserte regresjonskoeffisienten, eller bare regresjonskoeffisienten. Korrelasjonen mellom høyde og vekt er lik 0,77, noe som de fleste vil anse som en sterk korrelasjon.

La oss dele datamaterialet i tre grupper etter høyde: under 170 cm, fra 170 cm til 180 cm, og 180 cm eller mer. Korrelasjonen innenfor hver av disse tre gruppene blir hhv. 0,46, 0,41 og 0,42, altså systematisk vesentlig lavere enn for datasettet under ett. Dette er nærmere forklart i (2).

Hvis vi derimot gjør en lineær regresjonsanalyse for hver av gruppene separat, får vi stigningstall på hhv. 0,91, 1,05 og 0,96. Disse er i samme størrelsesorden som stigningstallet for datasettet under ett, som er 0,96. Den «sanne» underliggende sammenhengen mellom variablene fanges best opp ved stigningstallet, som ikke endrer seg systematisk når vi deler opp i undergrupper med mindre variasjon i forklaringsvariabelen. Men usikkerheten i estimatet blir større: Et 95 % konfidensintervall for datasettet under ett er (0,83 til 1,08), og i undergruppene undergruppene henholdsvis (0,37 til 1,46), (0,41 til 1,68) og (0,45 til 1,48). De bredere konfidensintervallene for undergruppene skyldes både mindre utvalgsstørrelse og mindre variasjonsbredde i forklaringsvariabelen.

Årsaken til at korrelasjonskoeffisienten blir lavere, er at denne er et relativt mål som står i forhold til hvor homogent datamaterialet er. Jo mer homogent datamaterialet er, jo mindre er variasjonen. I hver av de tre gruppene er variasjonen mindre enn i det totale datamaterialet, og korrelasjonen blir mindre.

Istedenfor å beregne regresjonskoeffisienten basert på høyde og vekt, kunne man standardisert variablene først. Den standardiserte høyden fås ved å trekke fra gjennomsnittet, som er 176,45 cm i eksempelet i figur 1, og så dele på standardavviket, som er 8,77. Tilsvarende kan man regne ut standardisert vekt. Den standardiserte regresjonskoeffisienten, som fås for de standardiserte variablene, vil være identisk lik Pearsons korrelasjonskoeffisient i lineær regresjon med én forklaringsvariabel slik som her. Innen adferdsvitenskapene er det ikke uvanlig å rapportere standardiserte regresjonskoeffisienter, men dette er blitt en del kritisert i de senere år (3).

Det er viktig å være klar over at korrelasjonskoeffisienten er et relativt mål som avhenger av hvor homogent datamaterialet er, altså hvor stor spredning det er i forklaringsvariabelen. Også andre relative mål, som Cohens d og andre standardiserte effektstørrelser, har slike begrensninger (3). I en artikkel fra 2005 rapporteres det om en jevnt økende bruk av forskjellige statistiske analysemetoder i The New England Journal of Medicine i perioden 1978–2005, men en jevnt avtakende bruk av korrelasjonsanalyser (4). Dette kan sees som en positiv utvikling: Ofte vil det være mest hensiktsmessig å oppgi et mål på originalskalaen, som for eksempel en ustandardisert regresjonskoeffisient, istedenfor eller i tillegg til korrelasjonskoeffisienten.

Litteratur

Pripp AH. Pearsons eller Spearmans korrelasjonskoeffisienter. Tidsskr Nor Legeforen 2018; 138. doi: 10.4045/tidsskr.18.0042. [CrossRef]

Bland JM, Altman DG. Correlation in restricted ranges of data. BMJ 2011; 342: d556. [PubMed][CrossRef]

Lydersen S. Er effekten liten eller stor? Tidsskr Nor Legeforen 2020; 140. doi: 10.4045/tidsskr.19.0665. [CrossRef]

Horton NJ, Switzer SS. Statistical methods in the journal. N Engl J Med 2005; 353: 1977–9. [PubMed][CrossRef]

Kommentarer

Ikke glem «total sum of squares»

10.11.2020

Arne Høiseth

Noen av de forhold som Lydersen trekker frem (1) ble omtalt i Tidsskriftet allerede i 1990 (2). Det ble da påpekt at korrelasjonskoeffisienten (R) ble feilaktig benyttet til å beskrive overensstemmelser og målepresisjon.

Les mer

Kommentarer

(1)

Denne artikkelen ble publisert for mer enn 12 måneder siden, og vi har derfor stengt for nye kommentarer.

Publisert: 9. november 2020

Utgave 16, 10. november 2020

Tidsskr Nor Legeforen 2020

doi: 10.4045/tidsskr.20.0483

Old Drupal 7 Site

Hovedmeny

Korrelasjonen er relativ

Regresjon vs. korrelasjon

Kommentarer

Anbefalte artikler