Old Drupal 7 Site

Erik Ganesh Iyer Søegaard, Zhanna Kan Om forfatterne

Kommentarer

(6)
Denne artikkelen ble publisert for mer enn 12 måneder siden, og vi har derfor stengt for nye kommentarer.
Ley Muller
Om forfatteren

Hei, spennende artikkel - takk. Jeg har et par spørsmål fra et statistisk perspektiv, og som innvandrer selv (på forhånd, beklager språkfeil).
1) Hvor mange smittetilfeller var det i disse bydelene? (Altså ikke per 100 000 innbyggere, men faktisk antall. Jeg lette etter N men kunne ikke finne det).
2) Hva med "model fit" av deres justerte analyse?
3) Har dere testet for multicollinearity? Figur 1A og Figur 1C viser en tett sammenheng mellom innvandrerandel og den avhengige variabelen, og mellom husstandstetthet og den avhengige variabelen. Har dere sørget for at disse to uavhengige variablene ikke er korrelert med hverandre?
4) Appendix 1 var fint, takk. Men det peker på at dere har målt både "confounders", "mediators", og "moderators", og satt alt i en regresjonsanalyse. Appendix 1 viser at dere tenker at innvandrerandel påvirker både sosioøkonomisk status og husstandstetthett - i så fall skal man også ta hensyn til innvandrerandelens unike påvirkning på disse to andre uavhengige variablene.

Fernando Boix
Om forfatteren

Som den forrige kommentaren til artikkelen peker på, finner man en høy korrelasjon mellom de variablene som har vært brukt som prediktorvariabler. Dette innebærer en betydelig multikollinearitet (graden av lineær sammenheng mellom flere forklaringsvariabler i en multippel regresjonsmodell). Multikollinearitet er et godt kjent problem i lineær regresjonsanalyse. Multikollinearitet kan øke variansen til koeffisientestimatene og påvirke den statistiske signifikans av uavhengige variabler (1).
Koeffisientestimatene blir da ustabile og følsomme for mindre endringer i modellen. Dette innebærer at valg av egnede prediktorer basert på deres statistiske signifikans blir problematisk og kan føre til falske konklusjoner.

Under diskusjonen, drøfter forfatterne mulige svakheter med studien, men ikke multikollinearitet. Dersom problemer med multikollinearitet ikke har blitt riktig adressert er ikke konklusjonene som trekkes pålitelige nok. Da må man være forsiktig med anbefalinger til bruk i helsepolitikkøyemed.

Litteratur:
1) The problem of multicollinearity. In: Understanding Regression Analysis. Springer, Boston, MA. (1997) https://doi.org/10.1007/978-0-585-25657-3_37).

Halvor Langeland
Om forfatteren

Takk for en spennende artikkel som forsøker å belyse viktige elementer i håndtering av smittsomme sykdommer, her covid. I denne sammenheng er det riktig å også ta med «politisk ukorrekte» variabler om de ansees som viktige for å slå ned smitten. Mange forklaringsvariabler korrelerer, men å ta med ekstremt sterkt (rho>0.9) korrelerte variabler i en multivariabel regresjonsanalyse gir store utfordringer med tolkningen.
Personlig tror jeg det hadde blitt bedre å utelatt innvandrer i den multivariable regresjonsanalysen og heller kommentert etterpå at innvandrer i Oslo er sterkt korrelert med både å være trangbodd og ha lav sosioøkonomisk status, og derfor forklarer hvorfor de er utsatte som gruppe.
Jeg er litt overrasket over at fagfellevurderingen ikke har kommenterte dette?
Det er spesielt viktig å være nøye når man kommer til konklusjoner som kan være potensielt stigmatiserende.

Erik Ganesh Iyer Søegaard, Zhanna Kan
Om forfatterne

Takk for mange tilbakemeldinger gjennom Tidsskriftet og andre kanaler. Et hyppig forekommende spørsmål har vært test for multikollinearitet. Under fagfellevurdering og manuskriptbearbeiding ble også eksterne statistikere konsultert.

Cut-off for toleranse for multikollinearitet var satt til <0,1. Innvandrerandel, husstandstetthet og sosioøkonomisk status var i grenseland (0.1-0.2). Imidlertid hadde ingen av dimensjonene varianseandeler over 0,9 i kollinearitetsdiagnostikken. Vi endte med å beholde regresjonsanalysen med forbehold og nyansering av tolkningene som er tatt inn. Vi ønsker igjen å understreke at vår undersøkelse er preliminær og at den bør etterfølges med mer avanserte analyser, helst på individnivå.

På spørsmålet om kulturelle faktorer kan ha betydning for smitte, er det også andre kilder som peker i denne retningen. FHI skriver at «forskjellene vi observerer i bekreftet smitte forklares i liten grad av» forskjellige sosioøkonomiske faktorer (1). Boforhold er riktignok ikke med i disse analysene. Den samme rapporten viser også stor forskjell mellom hvert fødeland i Norge. Grupper med omtrent samme sosioøkonomisk situasjon varierer betydelig seg imellom i smitteforekomst.

Det kan være at norsk og nordisk kultur skiller seg spesielt ut. Sørover i Europa ser det ut til at forskjellene blir mindre og mindre, og i Italia har utenlandsfødte bare omtrent halvparten av smitteratene som etniske italienere (2). Atferd som er dypt iboende, ubevisst og automatisert fra barndommen som for eksempel naturlig nærhet til andre, gjestfrihet og kontakt, kollektivisme og inkludering, familiebånd og tro, kan være vanskelig å endre for en hel gruppe over tid. Slike elementer ved en kultur kan være risikofaktorer for smitte uavhengig av smitteverntiltak og vilje til å etterleve disse.

Vi ønsker ikke å stigmatisere eller utsette noen gruppe for usaklig forskjellsbehandling. Det er likevel mye som tyder på at tiltakene ikke fungerer godt nok for alle. Det kan hende at en annen vaksineprioritering kunne ført til mindre smitte totalt. Ved hovedsakelig lokalisert smitte har WHO tidligere anbefalt å prioritere disse områdene for vaksinering (3).

Litteratur:

1)
Indseth T, Godøy A, Kjøllesdal M et al. Covid-19 etter fødeland fra mars 2020 til februar 2021. Oslo: Folkehelseinstituttet, 2021. https://www.fhi.no/publ/2021/covid-19-etter-fodeland-fra-mars-2020-til-f... Hentet 1.4.2021

2)
Scarpetta S, Dumont JC, Liebig T. What is the impact of the COVID-19 pandemic on immigrants and their children? Paris: OECD, 2020. http://www.oecd.org/coronavirus/policy-responses/what-is-the-impact-of-t... Hentet 1.4.2021

3)
World Health Organization. Roadmap for prioritizing population groups for vaccines against COVID-19. An Approach to Inform Planning and Subsequent Recommendations Based Upon Epidemiologic Setting and Vaccine Supply Scenarios. Genève: WHO, 2020. https://www.who.int/immunization/sage/meetings/2020/october/Session03_Ro... Hentet 4.4.2021

Ashley Elizabeth Muller, Erika Gubrium, Jørgen Dahlberg, Ariana Guilherme Fernandes
Om forfatterne

Denne artikkelen er et illustrerende eksempel på at innvandrere blir beskyldt for smittespredning av Covid-19, noe som dels forankres i en bred (og stigmatiserende) oppfatning av spesifikke etniske grupper.

Vi retter søkelyset særlig på tre problematiske forhold:

1) Forfatterne velger å «predikere» infeksjonsrater i bydeler i Oslo gjennom å analysere offentlig tilgjengelig data på tre høyst kollineære variabler som ble samlet inn under samme periode (innvandrerandel, sosioøkonomisk status og husstandstetthet).  Dette uten a) å starte med en hypotese, b) en analyseplan som viste at de ikke «fisket» for statistiske signifikante variabler, c) å rapportere N underveis, eller d) å rapportere om disse variablene ble samlet på de samme individene i det hele tatt.

Gjennom å ta med tre tett koblede variabler i samme regresjon måler forfatterne i prinsippet det samme forholdet flere ganger.  Det er i slike tilfeller ikke mulig å skille hva som henger tettest sammen med den avhengige variabelen. Den klassiske risikoen for slik multikollineæritet er at noen variabler feilaktig fremstår som ikke statistisk signifikante i analysen, mens andre fremstår signifikante. I dette tilfellet virker det som at to av variablene (sosioøkonomisk status og husstandstetthet) ikke er statistisk signifikante og at det kun er innvandrerandel som er signifikant. Til tross for at de anerkjenner at de har brukt høyt korrelerte variabler velger forfatterne likevel å rapportere at innvandrerdel alene korrelerer med smitte, og at lav sosioøkonomisk status og husstandstetthet ikke gjør det. I den mest velvillige fortolkningen viser forfatternes bivariate analyser uheldige, men ikke overraskende, sammenhenger mellom smitte og tre like indikatorer av byområder med levekårsutfordringer: innvandrerandel, sosioøkonomisk status og husstandstetthet.

2) Forfatterne kobler disse mangelfulle resultatene til stigmatiserende anførsler ved å knytte etnisitet og kultur til det som åpenbart blir oppfattet å være et negativt forhold i dagens samfunn, nemlig smittespredning. De foreslår at den økte infeksjonen kan være forårsaket av «kulturell/etnisk bakgrunn», «andre normer for fysisk og sosial nærhet» og «systematiske misforståelser om smitte og smittebegrensede tiltak». Uten hold i data anfører forfatterne på denne måten at bydeler i Oslo med høy innvandrerandel er infiserte fordi innvandrere ikke forstår betydningen av hygiene eller sosial distansering fordi de er etniske og kulturelt forskjellige. Påstanden er således åpenbart diskriminerende.

3) Forfatterne avslutter artikkelen med å skrive at de «enkelt og raskt har funnet sammenhenger som kan være nyttige for bl.a. helsemyndighetene». Det vil si at man heller bør fokusere på innvandrerandelen for å redusere smitte, fremfor på andre underliggende faktorer slik som sosioøkonomisk status eller husstandstetthet. Her ligger det mest problematiske med studien: det er ikke utenkelig at dette blir brukt av politiker. Men norske helsemyndigheter trenger forskning som er transparent, bruker hensiktsmessige metoder og som ikke faller for fristelsen å bruke stigmatiserende forklaringer som ikke har hold i datagrunnlaget.  

Vi synes det er overraskende at denne artikkelen slapp gjennom til publisering.

Christer Thrane
Om forfatteren

Det er viktig å kartlegge hva som kan forklare sosiale helseforskjeller. Derfor er det fortjenestefullt at Søegaard og Kan  bringer denne tematikken over på utbredelsen av covid-19-smitte i Oslo (1). I en analyse basert på aggregerte tall for Oslos 15 bydeler, finner de sterke korrelasjoner mellom tre uavhengige variabler og smittegrad: (A) Bydeler med en høyere andel av innvandrere har mer smitte enn bydeler med en lavere andel innvandrere. (B) Bydeler med en høyere andel av folk med høy sosioøkonomisk status har mindre smitte enn bydeler med en lavere andel av folk med høy sosioøkonomisk status. (C) Bydeler med en høyere andel av folk som bor trangbodd, har mer smitte enn bydeler med en lavere andel av folk som bor trangbodd.

Så gjør forfatterne en multippel regresjonsanalyse, uten at motivet er eksplisitt. Jeg antar de ønsket å si noe om de relative effektene av de nevnte uavhengige variablene, siden senere kommentarer og konklusjon er at kun innvandrerandel har en signifikant effekt i den multiple analysen. Denne multiple regresjonen burde imidlertid ikke vært rapportert, siden konklusjonene fra denne i beste fall er tvilsomme og i verste fall  er direkte gale.

Grunnen er at forfatterne ikke har data som kan belegge en slik konklusjon. Her er det flere momenter: (A) Analysen er basert på aggregerte tall for 15 bydeler. Det finnes ingen enighet i litteraturen om hvor mange observasjoner (her: bydeler) som trengs for å gjøre en multippel regresjon med tre uavhengige variabler. Men flere anbefalinger peker mot minst 10–20 observasjoner per uavhengige variabel, noe som i dette tilfellet minimum tilsier 30 observasjoner (2). En annen anbefaling er 50 + 8 observasjoner per uavhengige variabel, dvs. 74 som et minimum (3). (B) Vel så viktig er at de uavhengige variablene ikke bør være sterkt korrelerte, altså at det foreligger multikollinaritet. Søegaard og Kan oppgir korrelasjonene (innvandrerandel vs. sosioøkonomisk status = −0,916; innvandrerandel vs. husstandstetthet = 0,948; sosioøkonomisk status vs. husstandstetthet = −0,883), men uten å trekke konsekvensen av dette, dvs. å legge bort tanken om å rapportere en multippel regresjon. (C) Få observasjoner forsterker problemet med multikollinaritet (4). I sum gir A–C at koeffisientene til forfatternes multiple regresjon ikke er til å stole på og at man heller ikke kan vektlegge dens p-verdier.  

Søegaard og Kans bruk av statistisk signifikans kan også bemerkes. Bydelsdataene er en populasjon heller enn et tilfeldig utvalg. Signifikansvurderinger kan da forsvares ved å se på dataene som et tilfeldig utvalg fra en tenkt superpopulasjon. Men hva denne eventuelt skal være, er uklart. Alternativt kan signifikansvurderinger søkes i modellbasert statistisk teori (5), men det er ingen spor etter dette. Dermed får den statistiske analysen et skjær av øvelsen «å late som man har et utvalg fordi man ønsker å benytte signifikanstester».

Jeg har delvis reanalysert dataene fra Søegaard og Kan (appendiks 1). To av variablene forfatterne benytter, finnes som rådata i deres tabell 1, sammen med variablene gjennomsnittlig inntekt og andel trangbodde i bydelene. Jeg bruker de sistnevnte som proksier for henholdsvis sosioøkonomisk status og husstandstetthet (forfatterne bruker her to indekser som ikke finnes i deres tabell 1). Denne forskjellen spiller liten rolle, siden det er en høy korrelasjon mellom indeksene og mine proksier (appendiks 1). Tabell 1 i appendikset viser tre bivariate regresjoner mellom smittegrad og de tre uavhengige variablene samt en multippel regresjonsanalyse.

Resultatene for panel A i tabell 1 forteller at en høyere innvandrerandel i bydel samvarierer sterkt positivt med smittegrad for bydel, som vist i figur 1 (appendiks 1). Panel B i tabell 1 viser en negativ samvariasjon mellom smittegrad og gjennomsnittsinntekt (b = −3,36), mens panel C viser en positiv samvariasjon (b = 144,50) mellom smittegrad og andel trangbodde.

Panel D er den multiple regresjonen. Jeg finner omtrent det samme som Søegaard og Kan, men det er flere symptomer på multikollinaritet: (A) Korrelasjonene blant mine uavhengige variabler ligger i intervallet −0,81 til 0,92 (ikke vist), dvs. de er lavere enn hos Søegaard og Kan. Multikollinaritetsproblemet er derfor større hos dem enn hos meg. (B) Standardfeilene er inflaterte i den multiple regresjonen, for innvandrerkoeffisienten øker den fra 2,77 til 7,04, mens den tilsvarende økningen er fra 19,76 til 40,62 for trangboddkoeffisienten. (C) Koeffisienten for trangbodd går fra å være sterkt positiv (144,5) til å bli markant negativ (−36,2), noe som er urimelig. (D) VIF-verdiene, målet på grad av multikollinaritet, indikerer nettopp dette med verdier over 2,5, 5 og 10. Ingen er enige om hva som sikkert definerer multikollinaritet, og alle nevnte terskelverdier benyttes i litteraturen. De fleste vil imidlertid si at terskelen flyttes nedover ved få observasjoner. I sum peker A–D mot multikollinaritet, noe som sammen med de for få observasjonene gjør at vi ikke kan stole på at koeffisientene er korrekte uttrykk for de uavhengige variablenes relative effekter, alt annet likt. Dette rammer i større grad Søegaard og Kans analyse enn min, siden korrelasjonene blant deres uavhengige variabler er større enn blant mine.

Vi bør ikke være redde for å belyse ubehagelige sannheter på sykdoms- og helsefeltet. Søegaard og Kans analyser, og min delvise replikasjon av disse, tilsier at smittegradsvariasjonen for covid-19 blant Oslos bydeler samvarierer med andel innvandrere, sosioøkonomisk status og husstandstetthet. Men ikke mer. Å forsøke å rangere deres relative forklaringskraft er dømt til å mislykkes i en analyse med 15 observasjoner. Innvandrerandel kan være viktigere enn sosioøkonomisk status og husstandstetthet for å forklare forskjellene i smitteandel mellom bydelene i Oslo (6), slik Søegaard og Kans konklusjon mer enn antyder. Men dette trenger vi altså større og bedre data for å kunne belegge enn det forfatterne har.

Litteratur

1. Søegaard EGI, Kan Z. Koronasmitte i Oslos bydeler. Tidsskr Nor Legeforen. DOI: 10.4045/tidsskr.20.1022. https://tidsskriftet.no/2021/03/kort-rapport/koronasmitte-i-oslos-bydeler Lest 26.3.2021.

2. Harrell FE jr. Regression Modeling Strategies. New York, NY: Springer Forlag, 2001.

3. Tabachnick BG, Fidell LS. Using Multivariate Statistics. 5. utg. Boston, MA: Pearson Education Inc, 2007.

4. Allison PD. Multiple Regression. A Primer. Thousand Oaks, CA: Pine Forge Press, 1999.

5. Aaberge R, Laake P. Om statistiske teoriar for tolking av data. Tidsskrift for samfunnsforskning 1984; 25: 156-186.

6. Kjøllesdal M, Indset T, Arnesen T. Covid-19 og innvandrere: Hva sier tallene? Forskersonen 28.3.2021. https://forskersonen.no/covid19-innvandring-kronikk/covid-19-og-innvandrere-hva-sier-tallene/1835255 Lest 28.3.2021.