Det statistiske målet p-verdi er ute i hardt vær internasjonalt. Det er på tide med et oppgjør også blant norske forskere, mener kronikkforfatterne. (Foto: Shutterstock)

- Bruk hodet, ikke statistiske analyser som ofte villeder og misforstås

KRONIKK: Internasjonalt foregår det et oppgjør med det statistiske målet p-verdi. Det er på tide at også norske forskere begynner å bruke hodet, i stedet for å lene seg på denne typen usikre statistiske analyser.

Publisert

Det er krise i sosialpsykologien. Mange av de klassiske studiene lar seg ikke replisere; Marshmallow-effekten, Stanford prison experiment og den endeløse suppebollen har alle måttet flytte til vitenskapens skraphaug. Der er det mange som mener at også det statistiske målet p-verdier hører hjemme. Og ikke minst skadelig forskningspraksis.

Det som har skjedd er at p-verdier, som vi litt sleivete kan si er et statistisk mål på sannsynlighet, blir tatt for sannheter. Er p-verdien lavere enn den tilfeldig satte grensen på 5 prosent, så oppfattes dette som et viktig funn om at noe har en effekt. Problemet er at dette ikke nødvendigvis stemmer.

Hvis du virkelig vil forstå hvordan p-verdier fungerer, så les mer i denne saken: Hva er p-verdi og hva betyr statistisk signifikant?

Som psykologiutdannede forskere engasjerer dette oss, særlig når vi opplever at mange akademikere viser problematikken en kald skulder. Selv jobber vi ved Transportøkonomisk institutt (TØI), og syns krisen bør ha konsekvenser utover psykologiens bredder.

Å trikse med data

Krisen i sosialpsykologien startet da den nederlandske forskeren Diederik Stapel ble tatt i forskningsjuks i 2011. Men i motsetning til Stapel, som bare fant på data, er det mindre åpenbart hvordan de andre sosialpsykologiske eksperimentene har trådd feil. Når det gjelder eksperimentet med den endeløse suppebollen, ble eksperimentets far, Brian Wansink, tatt i noe man kaller p-hacking.

P-hacking, eller datafisking, er et annet beist å hanskes med enn ren juks og fabrikkering. Men det er ikke så veldig langt fra det heller.

P-hacking er når forskere misbruker dataanalyse eller datainnsamling for å finne såkalt statistisk signifikante mønstre i data – altså alt som har en p-verdi på under 5 prosent. Wansink hadde kjørt haugevis av signifikantstester på haugevis av data, og slik kommet fram til sine signifikante resultater. Det skal mye til å ikke finne i det minste noen signifikante resultater med denne fremgangsmåten. Da dette ble kjent, ble flere av hans mest siterte artikler trukket tilbake.

Problemets omfang, i sosialpsykologien spesielt, blir kanskje best eksemplifisert gjennom Open Science Foundation sitt forsøk på å gjenta 100 studier publisert i anerkjente psykologiske tidsskrifter i 2015. Å gjenta studiene gikk bra, men i under halvparten av tilfellene fikk man samme resultat som de opprinnelige studiene. Bare en av tre gjentatte studier hadde signifikante resultater – mot nesten alle i det opprinnelige materialet. Dette satte virkelig spørsmål om forskningspraksis i sentrum.

Statistisk signifikant er ikke nødvendigvis relevant

Det har blitt foreslått mange mekanismer som bidrar til at sosialpsykologisk forskning virker så vaklende. Til syvende og sist er jo dette forskning på mennesker og mennesker er slettes ikke alltid rasjonelle aktører. Men dette alene burde ikke hindre forskere i å produsere resultater som kan gjentas.

Det mange peker på som en viktig endring for fremtidig forskning, er å omfavne usikkerhet. «P» i «p-verdi» står tross alt for probability, ikke plain truth, og forteller oss ikke om en hypotese er sann eller ei. Allikevel har den altså lett for å bli tolket slik.

I vitenskapelige publikasjoner kreves det for eksempel ofte at man skiller mellom signifikante («effekt») og ikke-signifikante («ingen effekt») resultater. Dermed unngår man å bruke sitt eget hode. Har man for eksempel en veldig stor effekt A som ikke er signifikant, og en veldig liten men signifikant effekt B, må konklusjonen ifølge signifikans-logikken være at det finnes en effekt B, men ikke A. Og følgelig at effekt B er større og viktigere enn effekt A. Dette er så klart tøysete, all den tid effekt A faktisk er større.

Det er estimater, ikke sannheter

Tre forkastede studier:

«Marshmallow-effekten» beskriver hvordan barn som i større grad er i stand til å utsette belønning (f.eks. å ikke spise én marshmallow plassert foran dem) ved løfte om fremtidig større belønning (f.eks. fem marshmallows) hadde bedre forutsetninger for å lykkes på mange arenaer senere i livet.

Les mer: Berømt psykologiforsøk er gjort på nytt

«Stanford prison experiment» ble gjennomført av Zimbardo i 1971. Frivillige deltakere ble tildelt roller som enten fanger eller vakter, og deres oppførsel ble formet av rollene de ble tildelt. Eksperimentet varte flere dager før det ble avbrutt grunnet frykt for deltakernes liv og helse.

Les mer: Forskerne bak det berømte Stanford-eksperimentet løy

«Den endeløse suppebollen» viste hvordan mennesker bruker visuelle hint for å bestemme hvor mye vi spiser. Deltakerne i eksperimentet ble delt i to grupper som begge skulle spise suppe. En gruppe måtte fylle bollen selv, mens den andre fikk bollen fylt på automatisk og skjult nedenifra. De som ikke så at suppebollen gradvis ble tom, spiste ifølge studien mer enn de som måtte fylle bollen selv.

Les mer: Berømt spisevane-forsker tatt for uredelighet

I stedet for å la p-verdier være målet fremfor alle andre, mener vi at det som kalles effektstørrelser og konfidensintervaller bør få en mer fremtredende plass. Disse statistiske målene tar høyde for at de er estimater, og unngår å lokke forskere til å konkludere at de har eller ikke har funnet en effekt. Effektstørrelse ser på hvor stor en effekt eller sammenheng er, og konfidensintervaller er en måte å angi feilmargin av denne effekten.

Forskjellen på en ren signifikansbasert tolkning og en tolkning ut fra effektstørrelse og konfidensintervall, kan illustreres med følgende eksempel: En bilvei får lavere fartsgrense, og ulykkesregistreringer viser at den også har fått færre ulykker. Antall ulykker som inngår i analysen er imidlertid forholdsvis liten. Derfor er effekten ikke statistisk signifikant, selv om antall ulykker har gått ned med 17%.

En signifikansbasert tolkning må være at det å sette ned fartsgrensa ikke har hatt noen effekt. Ved bruk av effektstørrelser og konfidensintervaller åpner man derimot for å diskutere hvor mye lavere risikoen for ulykker blir med ulike reduksjoner i fart, og hvor stor feilmargin dette estimatet har. Ved bruk av p-verdier åpner man kun for å se på om en gitt fartsreduksjon har en statistisk signifikant effekt på ulykkesrisiko. Hva vil vel dette bety rent praktisk – ingen effekt = fartsgrensereduksjon virker ikke?

Ikke bare sosialpsykologiens problem

Ressurser for å takle disse problemene blir stadig mer tilgjengelige ettersom flere bøker, artikler og blogger blir skrevet om temaet. En artikkel publisert i Frontiers in Psychology har en sjekkliste forskere kan bruke for å unngå problemer med p-hacking.

I 2016 kom American Statistical Association med en uttalelse om statistisk signifikans og p-verdier. Her understreker de blant annet at «Vitenskapelige konklusjoner og beslutninger om bruk av tiltak bør ikke utelukkende være basert på om en p-verdi ligger over eller under en viss grense.»

Selv om krisen hittil har hatt størst faglig tilhørighet i sosialpsykologien betyr ikke det at ikke lignende problemer finnes i andre fagfelt, for eksempel transportforskningen. På en måte ligger psykologien her foran, ved å ha identifisert og anerkjent problemene. P-hacking og misbruk av p-verdier kan likeså godt være skjulte problemer i andre felt. Dette kan ha alvorlige konsekvenser for hva som publiseres og hvordan resultater fra empirisk forskning brukes i praksis. Kanskje vil vi ikke vite omfanget av potensielle problemer som dette før man får store replikasjonsinnsatser i andre fagfelt.

Mens vi venter på avsløringer, kan vi anbefale to enkle spørsmål som du kan stille deg når du leser om forskningsresultater:

(1) Vet de hva de driver med – eller har de helt enkelt lett etter signifikante resultater til de fant noen?

(2) Henger resultatene fortsatt på greip når man ser på effektstørrelse og usikkerhet istedenfor signifikans?

Powered by Labrador CMS