At en metode gir rett svar, betyr ikke at metoden er rett.
Statistikk gir oss muligheten til å si noe om de mange ved å studere de få. Ved å telle og måle får vi innsikt i hvordan noe er, ikke bare hvordan vi tror det er. Det gir oss til og med muligheten til å kikke inn i fremtiden. Men da må det gjøres på rett måte. Hvis ikke, blir ikke spådommen rett. Dette er historien om verdens mest mislykkede – og mest lærerike – meningsmåling.
The Literary Digest var et amerikansk ukemagasin, opprettet i 1890 (1 ). I 1916 ville de forsøke noe ingen hadde forsøkt før dem, nemlig å forutsi vinneren av det amerikanske presidentvalget senere samme år. Fremgangsmåten deres var enkel. Via nettverket sitt sendte de ut postkort der mottagerne kunne krysse av for hvem de ønsket som president og sende tilbake til redaksjonen. The Literary Digest mottok flere tusen kort, og opptellingen viste flertall for republikaneren Woodrow Wilson. Noen måneder senere vant også Wilson presidentvalget. Med tilsvarende fremgangsmåte prikket The Literary Digest inn korrekt vinner av presidentvalgene også i 1920, 1924, 1928 og 1932 (1 ). Metoden virket bunnsolid.
En monumental meningsmåling
Men bunnsolid var den ikke, noe som ble smertelig klart under 1936-valget. Redaksjonen mottok svimlende 2,4 millioner kort: en av tidenes største – og dyreste – meningsmålinger. Og tallenes tale var klar: Republikaneren Alfred Landon kom til å vinne klart over demokraten Franklin D. Roosevelt. Sjokket ble derfor stort da Roosevelt vant en brakseier med 62 % mot 38 % av stemmene. The Literary Digest ble gjort til skamme, og magasinet gikk etter hvert konkurs (2 ).
Mange har siden forsøkt å forklare hva som gikk galt, og det er gjerne den amerikanske depresjonen i 1930-årene som får skylden (1 ). Amerikanere flest hadde dårlig råd. Menneskene som The Literary Digest nådde ut til gjennom sitt nettverk, satt akkurat litt bedre i det – med tilhørende større sannsynlighet for å stemme republikansk. Utvalget på 2,4 millioner var enormt, men det var ikke representativt for de stemmeberettigede. En metode som hadde gitt korrekt svar i to tiår, viste seg like fullt å ikke holde mål.
Harry S. Truman holder opp The Chicago Daily Tribunes berømte forsideglipp fra 3. november 1948. Foto: Byron Rollins/NTB scanpix
Gallups strategi
1936 var et spesielt år for meningsmålinger ikke bare fordi The Literary Digest feilet, men fordi de det året ikke var alene om å forsøke å kikke inn i fremtiden ved hjelp av tall. Den unge samfunnsforskeren George Gallup (1901–84) var også på banen. Men istedenfor å samle mange individer, samlet Gallup strategisk. Basert på svarene fra kun 50 000 amerikanere klarte han å korrekt forutse Roosevelt som vinner av valget – og The Literary Digests blunder (1 ).
Nøkkelen til Gallups suksess lå i en forbedret metode. Utvalget på 50 000 var betydelig mindre enn The Literary Digests 2,4 millioner, men det var bedre balansert. Gallup benyttet såkalt kvotesampling, en variant av stratifisert sampling: Ved å identifisere sentrale undergrupper i befolkningen basert på karakteristikker som kjønn, alder og etnisitet, og så samle inn svar fra bestemte kvoter fra disse, kunne han designe et utvalg som stemte bedre overens med populasjonen (1 ).
Gallup var den nye kongen av meningsmålinger. Med sin mer raffinerte metode prikket han inn korrekt valgresultat også i 1940 og 1944. I 1948 stilte Thomas Dewey mot Harry Truman, og Gallups utregninger viste at Dewey kom til å vinne valget (1 ). Da hadde Gallup i de tre foregående valgene levert så gode resultater at The Chicago Daily Tribune ikke engang tok seg bryet med å vente på valgresultatet, men trykket like godt Gallups spådom på forsiden: «Dewey defeats Truman». Bortsett fra at det gjorde han ikke.
Viktigheten av tilfeldighet
Hva hadde gått galt for Gallup? For å kunne generalisere funn må utvalget være representativt for populasjonen. Gallups stratifiserte samplingmetode var designet for å lage utvalg som stemte bedre overens med populasjonen, og metoden hadde tilsynelatende også gjort det i årevis.
Men heller ikke Gallups metode var feilfri. Metoden baserte seg på å identifisere viktige undergrupper i befolkningen og så samle data fra disse. Men hva som faktisk er de viktige undergruppene, hva som er de sentrale karakteristikkene i en populasjon som man må ta hensyn til, er alltid et diskusjonsspørsmål. Det vil alltid kunne være noe man ikke har tenkt på eller målt, eller noe man har tenkt på, men som ikke var slik man trodde. Utfordringen med å skulle designe «et representativt utvalg» er at vi må ha en idé om hva det er vi vil representere. Vi ender dermed opp med å putte vår egen – og fagområdets for tiden rådende – oppfatning av problemet inn i selve studiedesignet.
For å komme seg rundt dette må man trekke fra populasjonen uten å skule til kjente eller ukjente faktorer man tenker at kan påvirke resultatet. Den eneste måten å gjøre det på er ved å trekke helt tilfeldig. Ethvert forsøk på å omgå tilfeldighetsaspektet når man designer en studie vil før eller siden feile. Det er bare et spørsmål om tid.
Uten randomisering som del av studiedesignet har du ingen garanti for at et utvalg er representativt. Størrelse kan ikke kompensere for dette. Du kan samle inn data fra millioner av individer og fortsatt bomme på egenskapene til populasjonen du ønsker å generalisere til. Det eneste et stort, ikke-randomisert utvalg kan garantere deg, er et veldig presist estimat av feil tall.