Ved å lære datamaskiner å sile ut relevant informasjon fra store mengder pasientdata, kan leger spare tid og pasienter få mer personlig tilpasset behandling.
– Hvis man kan bruke en datamaskin til å velge ut bare relevant informasjon og rangere de viktigste parameterne for resultatet av for eksempel kreftbehandling, kan vi spare både tid og penger, sier Anna Jenul.
Hun er stipendiat ved Norges miljø- og biovitenskapelige universitet (NMBU), der hun har utviklet maskinlæringsmetoder som kan brukes til å identifisere faktorer som påvirker behandlingsresultatet for pasienter.
Bruker datamaskiner for å sile ut relevant informasjon
Når helsevesenet behandler pasienter, henter de inn store mengder med data fra mange ulike kilder. For en kreftpasient, kan leger se på sykdomshistorie, laboratorietester, blodprøver, medisinske bilder, genuttrykk og behandlingsinformasjon. Disse dataene kan brukes til å forstå sykdommen bedre, stille mer nøyaktige prognoser og velge best mulig behandling. Innhenting av så mye data fører til såkalte høydimensjonale og heterogene datasett der bare deler av informasjonen som finnes i dataene faktisk er relevant for behandlingen.
Men det er ingen enkel oppgave å finne frem relevant informasjon. Se for deg at du har en oversikt med flere tusen ulike variabler foran deg, og skal velge ut bare de som er viktige for å vurdere prognosen til en pasient.
– Gjennom bare én enkelt blodprøve kan man måle kanskje 50 ulike parameter, der bare noen få faktisk betyr noe for behandlingsresultatet. Vi jobber med å få datamaskiner til å fjerne all den informasjonen vi ikke trenger, sier Anna Jenul.
For å gjøre det enda mer komplisert, er pasientdataene ofte basert på små pasientgrupper der klassiske statistiske metoder ofte ikke er tilstrekkelige til å se komplekse sammenhenger i dataene. Helsepersonell trenger å forstå komplekse sammenhenger for å kunne ta informerte beslutninger om videre behandling av pasienten.
Alt dette kan datamaskinene hjelpe til med.
Kan finne mønstre og sammenhenger
For å løse problemet knyttet til høydimensjonale datasett, bruker man gjerne variabelseleksjon. Det vil si at man finner en undergruppe av data som gir relevant informasjon (målinger) fra de innsamlede dataene i et spesifikt prediksjonsproblem. For eksempel kan en klinisk variabel som beskriver sykdomsstadiet være relevant for å forutsi hvor lenge en pasient vil leve, mens høyden til pasienten vil være irrelevant.
Datamaskinen kan også lettere finne relevante sammenhenger mellom variablene. For eksempel kan diabetes alene være irrelevant for et sykdomsforløp, mens den kan bli relevant hvis pasienten både har diabetes og høyt blodtrykk.
– De maskinlæringsmetodene vi har utviklet, gjør at legene kan få hjelp til å finne sammenhenger og mønstre i dataene, og tolke dataene. Denne innsikten kan de bruke til å tilpasse behandlingen til hver enkelt pasient, sier Jenul.
Nye modeller for valg av variabler
I doktorgradsavhandlingen presenterer Jenul to nye tilnærminger for valg av variabler, som er skreddersydd for høydimensjonale helsedatasett med små pasientgrupper: Repeated Elastic Net Technique for feature selection (RENT) og User-Guided Bayesian Framework for feature selection (UBayFS). Mens RENT henter ut informasjon kun fra datasettet, kan UBayFS legge til informasjon og kunnskap fra eksperter i tillegg til informasjon fra dataene. Slik skal datamaskinene kunne velge de variablene som er relevante for sykdommen.
Jenuls modeller presterer godt sammenlignet med eksisterende modeller på feltet.
– Eksperimentelle resultater viser at både RENT og UBayFS har konkurransedyktig prediktiv ytelse på flere datasett, samtidig som de er robuste, sier Jenul.
Modellene hennes kan brukes til å forbedre arbeidsflyten i klinikker ved å optimalisere prediksjoner av behandlingsresultatet sammen med innsikt i de påvirkende faktorene i modellene. Dette gir mulighet for mer individuelle pasientbehandlingsplaner og har på sikt et stort potensial for bedre beslutningsstøtte for leger i klinisk praksis.
Anna Jenul forsvarer sin doktorgradsavhandling «Data- og ekspertdreven variabelseleksjon for prediktive modeller i helsevesenet – Mot økt tolkbarhet i underbestemte maskinlæringsproblemer» fredag 21. april 2023. Se disputasoppslaget her.