Kunne en maskin gjort det like bra? (Foto: Guschenkova / Shutterstock / NTB scanpix)

Kunstig intelligens var like god som leger til å oppdage sykdom på bilder, ifølge gjennomgang av forskning

Men egentlig vet vi altfor lite til å kunne si om det samme gjelder i praksis, sier kommentator.

Det mangler ikke på spådommer om kunstig intelligens (AI) i mediene. Nylig hevdet for eksempel en norsk gründer at AI vil utkonkurrere hudleger innen 2021, ifølge E24. Intelligente systemer skal kunne analysere bilder av huden og treffe like sikre diagnoser som leger, mener gründeren.

Men hva vet vi egentlig om forholdet mellom menneskelig og kunstig intelligens, og hvordan de to fungerer i en virkelig situasjon?

Omtrent like bra

Xiaoxuan Liu fra University Hospital Birmingham og kollegaene hennes har samlet sammen det som finnes av forskning på nettopp dette.

Forskerne gikk igjennom de største arkivene over medisinsk forskning. De søkte opp studier hvor leger og intelligente maskiner skulle lete etter tegn til sykdom på medisinske bilder av pasienten. På den måten er det mulig å sammenligne prestasjonene til menneske og maskin.

Men det var ikke mange studier å finne. Til slutt endte Liu og kollegaene opp med bare 14 undersøkelser som faktisk sammenlignet leger og maskiner.

Etter å ha analysert resultatene, konkluderte forskerne med at prestasjonene var omtrent like bra.

Hvor mye vekt man skal legge på den konklusjonen er imidlertid en helt annen sak, mener både Liu og kommentator Tessa S. Cook fra University of Pennsylvania.

Kan være skjevpublisering

Med så få studier, er resultatene temmelig usikre, skriver Cook i en kommentar i The Lancet.

Særlig tatt i betraktning at forskere har en tendens til å publisere oppsiktsvekkende funn som bekrefter hypotesene deres, mens kjedelige resultater som peker i motsatt retning gjerne blir liggende i skuffen.

Det er ikke umulig at vi får høre mer om AI-systemene som gjorde det bra enn om de som funka dårlig.

Stor forskjell på et enkelt bilde og en diagnoseprosess

I tillegg kan en menneskelig lege kanskje legge inn andre hensyn.

Hva er for eksempel konsekvensene av å feilaktig si at det er sykdom, sammenlignet med konsekvensene av å feilaktig si at ikke er sykdom? Slike spørsmål kan påvirke konklusjonen i tvilstilfeller.

Gartners kurve over teknologi og forventninger. Når en teknologi først vies oppmerksomhet, stiger forventingene til himmels, før de faller til et skuffelsens bunnpunkt. Derfra viser det seg at situasjone ikke var så ille likevek, og forventningene stabiliserer seg på et realistisk nivå. (Illustrasjon: Gartner Inc.)

En annen sak er at de enkle sammenligningene av bildevurdering ikke sier noe om en hel diagnoseprosess, der stadig mer informasjon blir tilgjengelig ettersom legen utforsker saken igjennom prøver og pasientmøter.

Mot toppen av hype-kurven?

Cook er redd for at dagens hurra-stemning rundt kunstig intelligens får folk til å tro at Lius resultater viser at maskindiagnoser er bedre enn legenes. Hva skal vi med leger, når vi har maskiner, liksom?

Det er antagelig for tidlig å trekke noen bastante konklusjoner, skriver Cook, som mener kunstig intelligens for øyeblikket raser oppover mot toppen av Gartners Hype Cycle-kurve. Der når entusiasme og overdrevne forventninger et maksimum, før vi innser realitetene og styrter ned mot skuffelse og desillusjon.

Etter det når vi forhåpentligvis et mer stabilt stadium, hvor vi utforsker en realistisk bruk av den nye teknologien.

Referanse:

Xiaoxuan Liu, m.fl., A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis, The Lancet, September 2019. Sammendrag.

Powered by Labrador CMS