Når forskerne tester for eksempel hvor godt en medisin virker, er det lett å tro at enkelte statistiske mål forteller mer enn de gjør. 800 forskere advarer i et opprop mot misbruk og misforståelser av statistikken. (Illustrasjonsfoto: Shutterstock/NTB scanpix)

Statistisk signifikans:
800 forskere advarer mot misbruk av metode

Forskere bak opprop krever endring.

– Jeg håper kommentaren i Nature vil gjøre at forskerne endelig våkner opp, skriver Sandra Hamel i en e-post til forskning.no. Hun er førsteamanuensis ved UiT Norges arktiske universitet.

Hamel er blant de 800 forskerne fra mer enn 50 land som har signert et opprop mot statistisk signifikans i tidsskriftet Nature.

Et vanlig verktøy i forskningen blir misbrukt, mener de.

Lei av misbruk

Det er umulig å bestemme akkurat hvor grensen går for når et forskningsresultat er sikkert nok. Det er en glidende skala av usikkerhet.

Likevel setter forskere ofte en slik grense. Havner resultatet innenfor denne grensen, blir det sett på som gyldig.

Hvis ikke, kaster de gjerne studien sin i søppelbøtta. Andre fikler med statistikken for å komme under grensen – les mer om det i denne artikkelen på forskning.no.

Nettopp dette har mange sett seg lei på: at en tilfeldig valgt grense skal bestemme om et funn er signifikant, og at forskere tolker den som at funnet er sikkert.

Forskerne bak oppropet vil pensjonere begrepet.

«Misbruket av statistisk signifikans har skadet forskningsmiljøene og de som er avhengige av vitenskapelige råd», skriver forskerne som jobber med alt fra biologi til psykologi og medisin.

– Det største problemet er at forskerne, som mange andre, ser verden i svart-hvitt, mener Sandra Hamel i Tromsø. Hun er en av forskerne bak oppropet mot statistisk signifikans. (Foto: privat)

Kan få konsekvenser for samfunnet

Grensen setter forskerne med et tall som kalles p-verdi. I statistikkens verden viser p-verdien i praksis hvor usikre forskerne er på om det de har funnet ut kan skyldes tilfeldigheter.

De vil for eksempel gjerne vise at det faktisk er flere i Norge som får influensa om vinteren enn om sommeren – ikke at de studerte bare de stakkars få som hadde influensa den vinteren. Det er alltid en fare for at forskerne tilfeldigvis ender opp med å forske på noen som ikke representerer befolkningen.

– Det største problemet er at forskerne, som mange andre, ser verden i svart-hvitt, skriver Hamel, som jobber ved Institutt for arktisk og marin biologi.

Men dette var aldri tanken bak p-verdien, mener hun.

– Det er der det er misbruk.

Noe som egentlig skal vise fram usikkerheten i forskningen, blir altså brukt som et skråsikkert svar.

Det kan føre til at politikere som støtter seg til forskning kan ende opp med å ta beslutninger på feil grunnlag. De risikerer også å gå glipp av viktige forskningsresultater som blir sortert bort.

Problemet med p

Hamel og mange med henne har kjempet mot dette i flere år.

Nå har de samlet krefter for å gjøre kål på praksisen.

Forskerne bak oppropet viser til tidsskriftet The American Statistician, som har viet en hel utgave til problemstillingen.

«Forskningsverdenen har gått berserk» erklærer forskerne bak en av de 43 artiklene.

lederplass står det: «Det er på tide å fullstendig slutte å bruke begrepet «statistisk signifikant».

Det gjenstår å se om de lykkes. For misbruket av p-verdien er svært utbredt, konkluderer en annen artikkel i tidsskriftet.

Når forskere i biomedisin oppgir p-verdi i artiklene sine, bruker de den i 96 prosent av artiklene på denne måten – for å slå fast at et funn er gyldig fordi det havner innenfor den mest brukte grensen på fem prosent.

Tidsskrifter trykker oftest artikler som konkluderer med en sammenheng.

Misforstår statistikken

P-verdien er et tall som viser hvor mange prosent sannsynlighet det er for at forskeren får et bestemt resultat i undersøkelsen sin selv om det ikke er slik i hele gruppa som han prøver å si noe om.

Er verdien bare fem prosent, er sjansen liten for at han er på bærtur. P-verdien kan være alt mellom 0 og 100 prosent. Jo lavere verdi, desto bedre.

Men hvorfor i all verden skulle et resultat bli regnet som skikkelig solid om sjansen er fire prosent, men ikke om den er seks prosent?

– Man risikerer å forkaste interessante resultater fordi p-verdien ikke «er signifikant», skriver overlege Preben Aavitsland ved Folkehelseinstituttet i en e-post til forskning.no.

Også Aavitsland mener at vi bør slutte å bruke statistisk signifikans.

Forskerne risikerer å kaste interessante resultater, ifølge Preben Aavitsland ved Folkehelseinstituttet. (Foto: FHI)

Forteller ikke sannheten

Det finnes flere sider ved misbruket av p-verdien.

– Når folk hører «statistisk signifikant», tenker de «har betydning», eller «er et viktig resultat», eller noe i den duren. Det er en uheldig sammenblanding, skriver Torstein Låg, som er fagansvarlig ved psykologi- og jusbiblioteket ved UiT. Han har lite til overs for begrepet.

Ofte tolker forskerne selv for mye inn i p-verdien. Den forteller oss nemlig ikke om svaret de har funnet er sant.

«Ingen p-verdi kan avdekke troverdigheten, forekomsten, sannheten eller viktigheten av en sammenheng eller effekt», som The American Statistician melder på lederplass.

Samme resultat – ulik konklusjon

For eksempel sier ikke p-verdien hvor sterk en sammenheng er.

Forskerne bak oppropet viser til et eksempel der forskere skulle måle om noen betennelsesdempende medisiner kunne forstyrre hjerterytmen.

To studier fant nøyaktig samme effekt: det var 20 prosent større sjanse for hjerteproblemer hos pasientene som fikk slike medisiner.

Den ene studien konkluderte med at bruk av medisiner og hjerteproblemer var knyttet sammen, mens den andre konkluderte med at det ikke var noen sammenheng.

Hvordan kunne de trekke så ulike konklusjoner?

Fordi forskerne bak den ene studien oppnådde en p-verdi som var statistisk signifikant, mens de andre ikke fikk det.

Ser vi nærmere på usikkerheten rundt resultatene, viser den første studien at de som tar medisinene, har mellom 9 og 33 prosent høyere risiko, mens den andre viser at risikoen er mellom 3 og 48 prosent. Nettopp denne usikkerheten bør forskerne formidle, mener forskerne bak oppropet.

Det første resultatet er altså mer presist enn det andre. Men det andre resultatet viser også en risiko. Det blir feil å konkludere med at medisinene ikke kan forstyrre hjertet.

Vil fokusere mer på effekten

Flere av forskerne som forskning.no har vært i kontakt med, synes de bør konsentrere seg mer om hvor sterk sammenhengen er mellom det de studerer, ikke bare om det finnes en sammenheng.

Øystein Sørensen er førsteamanuensis ved Universitetet i Oslo (UiO) og jobber med psykologi. Han nevner et tenkt eksempel der forskning viser at de som trener, lever lenger enn de som ikke trener.

Om effekten av trening er 0,01 år lengre levetid, betyr det noe helt annet for folkehelsa enn om de som trener lever fem år lenger.

– Dette kan ikke p-verdien fortelle oss noe som helst om, skriver Sørensen i en e-post.

Men den kan være bra brukt på riktig måte, mener han, sammen med andre mål.

Statistisk signifikans kan være en nyttig indikator på hvilke sammenhenger som er interessante når den kombineres med andre mål, synes Øystein Sørensen ved Universitetet i Oslo. (Foto: UiO)

Alternativ bruk

Vi trenger noen holdepunkter for å kunne avgjøre hva som er god forskning. Hva er alternativet til statistisk signifikans?

Å innse at p-verdien er en flytende størrelse, ikke en definert grense. Og å kombinere den med en rekke andre mål som kan fortelle mer om forskningsfunnet, lyder det i en av artiklene i The American Statistician.

Forskerne bør ikke kvitte seg med p-verdien, understreker forskerne bak oppropet.

Men ofte betyr det mer hvordan studien er laget og hvordan forskerne forklarer funnene sine.

– Må omfavne usikkerheten

Kulturen for signifikanstesting har gjort at mange forskere tar på skylapper og prøver å unngå å håndtere usikkerhet. Men i den virkelige verden sender statistikken ut ganske rotete beskjeder, melder lederartikkelen i The American Statistician.

Forskerne må være flinke til å fortelle at resultatene de presenterer, er usikre. De må lære seg å omfavne usikkerheten, oppfordrer forskerne bak oppropet i Nature.

Simen Gaure mener dette ikke er så lett for oss mennesker. Han er matematiker og forsker på Frischsenteret.

– Folk er ikke komfortable med usikkerhet. De vil helst at forskere skal si ja eller nei, sier Gaure.

– Prinsippet med statistiske undersøkelser er at du skal ta høyde for usikkerhet, og da kan du ikke lage et ja/nei-svar! Vi må godta at verden er vanskelig.

Referanser:

Valentin Amrhein mfl: Scientists rise up against statistical significance. Nature 567, 20. mars 2019. Doi: 10.1038/d41586-019-00857-9.

Harlan Campbell og Paul Gustafson: The World of Research Has Gone Berserk: Modeling the Consequences of Requiring «Greater Statistical Stringency» for Scientific Publication. The American Statistician, vol. 73, nr. 1, online 20. mars 2019. Doi: 10.1080/00031305.2018.1555101.

John P. A. Ioannidis: What Have We (Not) Learnt from Millions of Scientific Papers with P Values? The American Statistician, vol. 73, nr. 1, online 20. mars 2019. Doi: 10.1080/00031305.2018.1447512.

Blakeley B. McShane mfl: Abandon Statistical Significance. The American Statistician, vol. 73, nr. 1, online 20. mars 2019. Doi: 10.1080/00031305.2018.1527253.

Ronald L. Wasserstein mfl: Moving to a World Beyond «p < 0.05». The American Statistician, vol. 73, nr. 1, online 20. mars 2019. Doi: 10.1080/00031305.2019.1583913.

Powered by Labrador CMS