Korrelasjonskoeffisienten er et mye brukt mål på sammenheng mellom to variabler. Men ikke alle er klar over at den er et relativt mål som avhenger av hvor homogent datamaterialet er.
La oss se på et eksempel: Figur 1 viser høyde og vekt for 166 personer. Pearsons korrelasjonskoeffisient er et mål på grad av lineær sammenheng mellom de to variablene. Korrelasjonen er per definisjon et tall mellom −1 og 1. Dersom punktene ligger perfekt på en rett linje med positivt stigningstall, vil korrelasjonen være lik 1. Dersom det ikke er noen sammenheng, vil korrelasjonen være 0, og dersom punktene ligger perfekt på en linje med negativt stigningstall, vil korrelasjonen være −1 (1 ).
Figur 1 Høyde og vekt for 166 personer: Korrelasjonen r mellom høyde og vekt er 0,77 for utvalget under ett, men bare hhv. 0,46, 0,41 og 0,42 for gruppene med høyde under 170 cm, fra 170 cm til 180 cm, og 180 cm eller mer.
Regresjon vs. korrelasjon
Den rette linjen som er tilpasset datasettet i figur 1, kalles regresjonslinjen og har her stigningstall lik 0,96. Det betyr at for hver cm høyere en person er, kan vi i gjennomsnitt forvente at vedkommende er 0,96 kg tyngre. Dette stigningstallet kalles den ustandardiserte regresjonskoeffisienten, eller bare regresjonskoeffisienten. Korrelasjonen mellom høyde og vekt er lik 0,77, noe som de fleste vil anse som en sterk korrelasjon.
La oss dele datamaterialet i tre grupper etter høyde: under 170 cm, fra 170 cm til 180 cm, og 180 cm eller mer. Korrelasjonen innenfor hver av disse tre gruppene blir hhv. 0,46, 0,41 og 0,42, altså systematisk vesentlig lavere enn for datasettet under ett. Dette er nærmere forklart i (2 ).
Hvis vi derimot gjør en lineær regresjonsanalyse for hver av gruppene separat, får vi stigningstall på hhv. 0,91, 1,05 og 0,96. Disse er i samme størrelsesorden som stigningstallet for datasettet under ett, som er 0,96. Den «sanne» underliggende sammenhengen mellom variablene fanges best opp ved stigningstallet, som ikke endrer seg systematisk når vi deler opp i undergrupper med mindre variasjon i forklaringsvariabelen. Men usikkerheten i estimatet blir større: Et 95 % konfidensintervall for datasettet under ett er (0,83 til 1,08), og i undergruppene undergruppene henholdsvis (0,37 til 1,46), (0,41 til 1,68) og (0,45 til 1,48). De bredere konfidensintervallene for undergruppene skyldes både mindre utvalgsstørrelse og mindre variasjonsbredde i forklaringsvariabelen.
Årsaken til at korrelasjonskoeffisienten blir lavere, er at denne er et relativt mål som står i forhold til hvor homogent datamaterialet er. Jo mer homogent datamaterialet er, jo mindre er variasjonen. I hver av de tre gruppene er variasjonen mindre enn i det totale datamaterialet, og korrelasjonen blir mindre.
Istedenfor å beregne regresjonskoeffisienten basert på høyde og vekt, kunne man standardisert variablene først. Den standardiserte høyden fås ved å trekke fra gjennomsnittet, som er 176,45 cm i eksempelet i figur 1, og så dele på standardavviket, som er 8,77. Tilsvarende kan man regne ut standardisert vekt. Den standardiserte regresjonskoeffisienten, som fås for de standardiserte variablene, vil være identisk lik Pearsons korrelasjonskoeffisient i lineær regresjon med én forklaringsvariabel slik som her. Innen adferdsvitenskapene er det ikke uvanlig å rapportere standardiserte regresjonskoeffisienter, men dette er blitt en del kritisert i de senere år (3 ).
Det er viktig å være klar over at korrelasjonskoeffisienten er et relativt mål som avhenger av hvor homogent datamaterialet er, altså hvor stor spredning det er i forklaringsvariabelen. Også andre relative mål, som Cohens d og andre standardiserte effektstørrelser, har slike begrensninger (3 ). I en artikkel fra 2005 rapporteres det om en jevnt økende bruk av forskjellige statistiske analysemetoder i The New England Journal of Medicine i perioden 1978–2005, men en jevnt avtakende bruk av korrelasjonsanalyser (4 ). Dette kan sees som en positiv utvikling: Ofte vil det være mest hensiktsmessig å oppgi et mål på originalskalaen, som for eksempel en ustandardisert regresjonskoeffisient, istedenfor eller i tillegg til korrelasjonskoeffisienten.