Sammenliknende erfaring er en absolutt betingelse for den eksperimentelle og vitenskapelige medisin,
ellers vandrer legen på måfå og blir offer for tusen illusjoner.
Claude Bernard (1)
Det eldste kontrollerte kliniske forsøk vi kjenner i medisinen er datert 1898. Den danske legen Johannes Fibiger
vurderte effekten av serumbehandling ved difteri (2). Pasienter som ble innlagt den ene dagen, fikk serumbehandling,
mens de som ble innlagt neste dag ikke fikk noen behandling. Forsøket, som varte et helt år, omfattet 484 pasienter som
ble innlagt ved Blegdamshospitalet med difteri. Åtte pasienter døde i behandlingsgruppen mot 30 i den like store
kontrollgruppen.
Interessen for å bruke den eksperimentelle design i medisinsk forskning også utenfor laboratoriet våknet imidlertid
først for alvor etter den annen verdenskrig. I 1948 presenterte The UK Medical Research Council resultatene av
streptomycinbehandling ved tuberkulose bedømt ved hjelp av et randomisert forsøk (3). “Its importance cannot be
exaggerated. It opened up a new world of evaluation and control which will, I think, be the key to a rational health
service,” skrev epidemiologen Archie Cochrane (1909-88) senere om streptomycinforsøket (4). Den britiske statistikeren
Austin Bradford Hill (1897-1991) må tilskrives mye av æren for de systematiske bestrebelsene på å etablere pålitelige
kontrollgrupper i vurderingen av medisinske behandlingsformer. Han var influert av Ronald A. Fischers arbeider i
1920-årene. Fischer (1890-1962), som arbeidet med landbruksforskning, introduserte eksperimentet som evalueringsform,
oppfant variansanalysen og var antakelig den første som brukte uttrykket randomisering (5).
Hvorfor vurdere effekten av medisinske handlinger?
På godt og vondt er legeyrket handlingsorientert; leger vil gjerne “gjøre noe” for sine pasienter. Forsøkene på å
svare på “Hva kan vi gjøre med det?” utgjør derfor en stor del av kunnskapsvolumet i praktisk medisin.
Når vi griper inn for å påvirke det naturlige forløp av ulike helseplager, er det viktig å være sikker på at vi gjør
mer nytte enn skade. Av og til er virkningen så åpenbar og dramatisk at erfaring basert på noen få observasjoner er
tilstrekkelig som begrunnelse. Hvis vi ikke får stoppet alvorlige blødninger, dør pasientene. Antibiotika ved meningitt
redder liv.
Erfaring er imidlertid en dårlig veiviser når effektene er moderate eller små. Hvis noe hjelper én av ti eller én av
300, er det ikke lett å skille ut effekten av tiltaket fra den naturlige biologiske variasjon og de tilfeldigheter som
påvirker alt en pasient kan feile. Ikke sjelden står mye på spill. I 1981 publiserte Horwitz & Feinstein en
pasient-kontroll-studie som tydet på at profylakse med lidokain normaliserte arytmier og reduserte dødeligheten etter
hjerteinfarkt (6). Lidokain var allerede i utstrakt bruk for denne indikasjonen. Det tok ti år før ekspertene lot seg
overbevise om at denne terapiformen faktisk tar flere liv enn den redder (7, 8). Effekten er i samme størrelsesorden
som den positive virkningen av acetylsalisylsyre og streptokinase ved akutt hjerteinfarkt. På 1980-tallet døde årlig
trolig 20000-70000 pasienter med hjerteinfarkt pga. behandling med lidokain i USA (7).
Det er først og sist det uetiske ved å utsette pasienter for fare pga. intervensjoner med ukjent effekt som dikterer
behovet for pålitelige vurderinger av det vi gjør. Det gjelder enten tiltaket brukes for å forebygge eller behandle,
enten “inngrepet” er teknisk eller består i en mellommenneskelig handling. Når alt kommer til alt, er alle forsøk på å
bedømme hva som virker, en gjetning vedrørende sannheten. Det er et faglig og etisk imperativ å gjøre eksplisitt
hvilket logisk og empirisk grunnlag gjetningen hviler på (9).
Hva er poenget med randomisering?
Tilfeldig fordeling av personer til henholdsvis intervensjon eller kontroll er viktig av en eneste grunn; det er den
eneste effektive måte å sikre sammenliknbarhet mht. prognose og respons på behandlingen. Ingen annen måte å etablere et
sammenlikningsgrunnlag på sikrer at kjente (og derfor ofte målbare) og ukjente (ikke-målbare) forhold som virker inn på
utfallet, er om lag likt fordelt mellom gruppene (10).
Randomisering er altså et forsøk på å minimalisere seleksjonsskjevhet. Denne design løser ikke problemer som kan
oppstå etter etableringen av de grupper som skal sammenliknes; f.eks. systematiske ulikheter i annen behandling som
tilbys (utover den som skal vurderes) eller skjevheter i hvordan utfallene blir målt.
Hvordan randomiseringen skjer, er viktig. Det var Thomas Chalmers (1917-95) og medarbeidere som først viste at det
ikke å skjule prosedyren for fordeling til intervensjon eller kontroll for dem som rekrutterer pasientene (concealment
of allocation), ofte resulterer i en skjevfordeling av prognostiske faktorer og derfor gir effektestimater som er
forskjellige fra (og oftere statistisk signifikante) enn de estimater man får når allokeringsprosedyren er skjult (11).
Denne feilkilden alene kan ha større effekt enn den vi håper behandlingen har (12).
Striden om ikke-randomisert effektforskning
Ikke alle deler synet på at randomisering er avgjørende for pålitelige effektvurderinger (13, 14). Kritikerne har
flere viktige innvendinger. Systematiske oversikter, bl.a. dem som lages av The Cochrane Collaboration (15), viser at
en rekke randomiserte forsøk er dårlig planlagt og gjennomført. I mange undersøkelser har man unnlatt å besvare
spørsmål og måle utfall som er viktige for pasientene. Av de skammelig få forsøk som finnes i verden om effekt av
schizofrenibehandling, har halvparten en oppfølgingstid på seks uker eller kortere (16). Og et randomisert forsøk kan
bare klargjøre at et tiltak har (eller ikke har) effekt. Andre metoder, bl.a. kvalitative design og
laboratorieforskning, må brukes for å forklare hvorfor og hvordan noe virker.
Det er også innlysende at spørsmålet må avgjøre hvordan man bør gå frem for å finne svaret. Hvis man lurer på hva
innvandrerkvinner tenker om prevensjon, vil ikke et randomisert forsøk gi svaret. Hvis spørsmålet er om staten bør eie
sykehusene, er randomisering en praktisk umulighet. Er man på jakt etter sjeldne bivirkninger, må man lete med andre
designer.
Det er imidlertid en heftig uenighet i medisinen for tiden om hvorvidt man kan nøye seg med ikke-randomiserte
effektvurderinger for å svare på spørsmål som kunne belyses med en randomisert design, men der det enten ikke er gjort
eller ikke er gjort godt nok. Etter min vurdering skyldes dette at mange leger og andre handlingsorienterte faggrupper
har en overdreven tro på effektene av det de driver med og ikke erkjenner klart nok at systematiske feil kan lede til
innføring av uvirksomme (bortkastede ressurser) eller farlige virkemidler. Inntil nylig var det f.eks. helt uklart hva
som var det beste legemiddelvalg for å kontrollere kramper ved eklampsi fordi det ikke fantes noen randomiserte forsøk.
100 års uenighet skyldtes den håpløse oppgave å tolke ukontrollerte pasientmaterialer og ikke-randomiserte
sammenlikninger. I 1995 ble dette spørsmålet besvart overbevisende (17), men ikke før bokstavelig talt millioner av
kvinner hadde betalt prisen for at ingen fagfolk hadde tatt seg sammen og organisert et tilfredsstillende forsøk.
Forskning skal opplyse beslutninger, ikke diktere dem
En viktig begrunnelse for å få frem gode effektvurderinger, er å kunne bli ferdig med spørsmålet om hva den
medisinske effekten er. Da er det mulig og meningsfullt å gå videre til et annet viktig spørsmål i klinisk medisin;
hvordan pasienter selv vil fargelegge kunnskapsbildet med meninger, følelser og opplevelser av hvilke utfall som er
viktig for dem.
Så lenge fagfolk faktisk ikke besitter et pålitelig bilde av hva som virker og hvor sterkt det virker, eller når man
tror mer på den forskning som er tilgjengelig enn det er grunnlag for, fungerer “kunnskap” tilslørende. Toneangivende
kvinnelige gynekologer gav i dagspressen nylig uttrykk for at flere norske kvinner burde bruke østrogen etter
menopausen og hevdet at allmennpraktikeres tilbakeholdenhet trolig skyldtes at “de ikke er helt oppdatert på
forskningsresultater” (18). Eksemplet illustrerer at diskusjonen om design er noe mer enn en akademisk øvelse. Kunnskap
om effekter av østrogensubstitusjon fra kohort- og pasient-kontroll-undersøkelser tyder på en positiv effekt på hjerte-
og karsykdom (ett unngått tilfelle av hjertesykdom per 50 behandlede etter ti år) og en viss økning i forekomsten av
brystkreft (ett tilfelle per 100 behandlede etter 15 år) (19, 20). Ikke bare er dette moderate effekter (som knapt
kaller på sterke anbefalinger), det er også upålitelige estimater (21).
Kunnskap er makt og bør deles med andre. Upålitelig kunnskap vanskeliggjør en nødvendig demokratisering av
medisinen, der publikum blir en mer aktiv deltaker i medisinske beslutninger (22). Derfor har uenigheten om hva som er
pålitelig kunnskap om effekt av helsetjenester, viktige implikasjoner for relasjonen mellom lege og pasient og
forholdet mellom fag og politikk.
Arild Bjørndal