Noen av mine venner med naturvitenskapelig utdannelse med grunnleggende kunnskap i matematikk, leser medisinske arbeider når de kjeder seg, da ler de nesten hver gang de ser en p-verdi. Tidsskriftets leder (1) gir et betimelig og verdifullt bidrag til å redusere våre arbeiders muntrasjonsverdi. Definisjonen på en p-verdi kan imidlertid fort bli uforståelig abstrakt (2). Jeg vil forsøke en praktisk tilnærming:
En av flere forutsetninger for å beregne en p-verdi er at objektene (pasienter) er trukket tilfeldig fra et (uendelig) stort antall objekter. Da estimerer man den generelle, eller «sanne» verdien, basert på et tilfeldig utvalg. P-verdien sier da noe om sannsynligheten for at estimatet er noenlunde det man hadde fått om en hadde målt alle objektene.
Har man et lite univers (egne pasienter) ender man ofte opp med å inkludere nesten alle. Da har man ikke et estimat, men et måleresultat og p-verdiene er meningsløse. Hvorvidt man kan generalisere slike resultater, noe p-verdien gir en illusjon om, kan kreve nøyere vurderinger. Som påpekt den gang man skrev Lægeforen. (3), og som også lederen (1) påpeker, det er ikke p-verdien som bestemmer om resultatet (effektestimatet) er av betydning.
Følgende påstand videreformidles imidlertid i lederen (1): «Skal man vurdere klinisk relevans gir et effektestimat med tilhørende konfidensintervall mye mer informasjon enn en p-verdi.» Denne påstanden har vært forfektet i Tidsskriftet tidligere (4). Kan noen gjøre rede for forskjellen i informasjon gitt i et søylediagram med streker for konfidensintervallene og et søylediagram kun med p-verdier? Jeg tror man blander sammen konfidensintervaller og spredningsparametere, som diskutert tidligere (5).
Helt korrekt påpeker lederen at hvis en vurderer behandlingseffekter og har 100 effektparametere (endepunkter), vil en i gjennomsnitt få 5 % signifikante resultater når behandlingen ikke har noen effekt. Å stille mange spørsmål oppfattes som å fiske etter signifikans. Dette har ført til retningslinjene om at en ved hvert forsøk kun skal ha ett primært endepunkt (6). Men, kan Tidsskriftet forklare hvorfor det å innhente data 100 ganger for å vurdere 100 spørsmål er sikrere enn stille 100 spørsmål ved en eneste innhenting av data. Begge fremgangsmetoder gir jo samme antall misvisende signifikante funn. En tilsvarende illusjon om økt pålitelighet gjør seg gjeldende når en hevder at alle spørsmål må være stilt på forhånd.
Det andre som bidrar til å underholde mine venner er hvordan p-verdier presenteres. P-verdiene har så lav presisjon at den tradisjonelle bruken av tre tall etter siste null (p= 0,0272) gir en meningsløs illusjon av høy presisjon. Tidsskriftene krever visstnok denne underholdende presentasjonsformen. Å skape illusjoner er en viktig del av underholdningsindustrien, men behøver det å anvendes i medisinske vitenskapelige publikasjoner?
Arne Høiseth
arnhois@online.no
1. Skovlund E. Spørs først, regn siden. Tidsskr Nor Legeforen. 2013; 133: 10.
2. Samuelsen CH. Riktig definisjon av p-verdi? Tidsskr Nor Legeforen. 2013; 133: 500 og Skovlunds svar.
3. Høiseth A. Er statistiske analyser egnet ved vurdering av målinger? Tidsskr Nor Lægeforen. 1990; 110: 1968-71.
4 G Aamodt, P Laake. Statistikk i medisinsk forskning. Tidsskr Nor Lægeforen. 2006; 126: 189.
5. Høiseth A. Statistiskk og Tidsskriftet. Tidsskr Nor Lægeforen. 2006; 126: 188.
6. Skovlund E. God planlegging gir bedre forskning. Tidsskr Nor Legeforen. 2013; 133: 495.