sivubanneri

uutiset

Laajakielinen malli (LLM) pystyy kirjoittamaan vakuuttavia artikkeleita, jotka perustuvat nokkelaan sanastoon, läpäisemään ammatilliset pätevyyskokeet ja kirjoittamaan potilasystävällistä ja empaattista tietoa. LLM:n tunnettujen fiktion, haurauden ja epätarkkojen faktojen riskien lisäksi muut ratkaisemattomat kysymykset ovat kuitenkin vähitellen nousemassa keskiöön, kuten tekoälymallit, jotka sisältävät mahdollisesti syrjiviä "inhimillisiä arvoja" luomisessaan ja käytössään. Vaikka LLM ei enää väärentäisi sisältöä ja poistaisi selvästi haitallisia tulosteita, "LLM-arvot" voivat silti poiketa inhimillisistä arvoista.

 

Lukemattomat esimerkit havainnollistavat, kuinka tekoälymallien kouluttamiseen käytetty data koodaa yksilöllisiä ja sosiaalisia arvoja, jotka voivat vakiintua mallin sisällä. Näihin esimerkkeihin kuuluu useita sovelluksia, kuten rintakehän röntgenkuvien automaattinen tulkinta, ihosairauksien luokittelu ja algoritminen päätöksenteko lääketieteellisten resurssien kohdentamisesta. Kuten lehdessämme äskettäin julkaistussa artikkelissa todetaan, vinoutunut koulutusdata voi vahvistaa ja paljastaa yhteiskunnassa esiintyviä arvoja ja vinoumia. Päinvastoin, tutkimukset ovat myös osoittaneet, että tekoälyä voidaan käyttää vinoumien vähentämiseen. Esimerkiksi tutkijat sovelsivat syväoppimismalleja polviröntgenkuviin ja löysivät polvinivelen sisällä tekijöitä, jotka jäivät huomaamatta radiologien luokittelemilla vakiomuotoisilla vakavuusindikaattoreilla, mikä vähensi selittämättömiä kipueroja mustien ja valkoisten potilaiden välillä.

Vaikka yhä useammat ihmiset ymmärtävät tekoälymallien vinoumat, erityisesti koulutusdatan osalta, monille muille inhimillisten arvojen lähtökohdille ei kiinnitetä riittävästi huomiota tekoälymallien kehitys- ja käyttöönottoprosessissa. Lääketieteellinen tekoäly on viime aikoina saavuttanut vaikuttavia tuloksia, mutta se ei ole suurelta osin ottanut eksplisiittisesti huomioon inhimillisiä arvoja ja niiden vuorovaikutusta riskinarvioinnin ja todennäköisyysperusteisen päättelyn kanssa, eikä sitä ole mallinnettu.

 

Näiden abstraktien käsitteiden konkretisoimiseksi kuvittele, että olet endokrinologi, jonka on määrättävä rekombinantti ihmisen kasvuhormoni 8-vuotiaalle pojalle, joka on alle 3. persentiilin ikäisensä. Pojan stimuloidun ihmisen kasvuhormonin taso on alle 2 ng/ml (viitearvo >10 ng/ml, viitearvo monissa maissa Yhdysvaltojen ulkopuolella on >7 ng/ml), ja hänen ihmisen kasvuhormonia koodaavassa geenissään on havaittu harvinaisia ​​inaktivaatiomutaatioita. Uskomme, että ihmisen kasvuhormonihoidon soveltaminen tässä kliinisessä ympäristössä on ilmeistä ja kiistatonta.

Ihmisen kasvuhormonihoidon käyttö seuraavissa tilanteissa voi aiheuttaa kiistoja: 14-vuotiaan pojan pituus on aina ollut ikätovereidensa 10. persentiilissä, ja ihmisen kasvuhormonin huippupitoisuus stimulaation jälkeen on 8 ng/ml. Ei ole tunnettuja toiminnallisia mutaatioita, jotka voisivat vaikuttaa pituuteen, eikä muita tunnettuja lyhytkasvuisuuden syitä, ja hänen luustoikänsä on 15 vuotta (eli ei kehitysviivettä). Vain osa kiistasta johtuu asiantuntijoiden määrittämien kynnysarvojen eroista, jotka perustuvat kymmeniin tutkimuksiin ihmisen kasvuhormonitasoista, joita käytetään eristetyn kasvuhormonin puutoksen diagnosoinnissa. Vähintään yhtä paljon kiistaa johtuu ihmisen kasvuhormonihoidon käytön riski-hyötysuhteesta potilaiden, potilaiden vanhempien, terveydenhuollon ammattilaisten, lääkeyritysten ja maksajien näkökulmasta. Lasten endokrinologit saattavat punnita kahden vuoden ajan päivittäin otettujen kasvuhormonipistosten harvinaisia ​​haittavaikutuksia todennäköisyydellä, että aikuisen kehon koko ei kasva lainkaan tai kasvaa vain vähän nykyiseen verrattuna. Pojat saattavat uskoa, että vaikka heidän pituutensa kasvaisi vain 2 cm, kasvuhormonin pistäminen kannattaa, mutta maksajalla ja lääkeyrityksellä voi olla eri näkemykset.

 

Otamme esimerkkinä kreatiniinipohjaisen eGFR:n, joka on laajalti käytetty munuaisten toiminnan indikaattori kroonisen munuaissairauden diagnosoinnissa ja levinneisyyden määrittämisessä, munuaisensiirto- tai luovutusolosuhteiden asettamisessa sekä monien reseptilääkkeiden vähennyskriteerien ja vasta-aiheiden määrittämisessä. EGFR on yksinkertainen regressioyhtälö, jota käytetään mitatun glomerulaarisen suodatusnopeuden (mGFR) arvioimiseen. MGFR on kuitenkin vertailustandardi, jonka arviointimenetelmä on suhteellisen hankala. Tätä regressioyhtälöä ei voida pitää tekoälymallina, mutta se havainnollistaa monia ihmisarvoihin ja todennäköisyysperusteiseen päättelyyn liittyviä periaatteita.

Ensimmäinen lähtökohta ihmisarvojen syöttämiselle eGFR:ään on datan valinta yhtälöiden sovitusta varten. Alkuperäinen eGFR-kaavan suunnittelussa käytetty jono koostuu pääosin mustista ja valkoisista osallistujista, eikä sen soveltuvuus moniin muihin etnisiin ryhmiin ole selvä. Seuraavat lähtökohdat ihmisarvojen syöttämiselle tähän kaavaan ovat: mGFR-tarkkuuden valitseminen munuaisten toiminnan arvioinnin ensisijaiseksi tavoitteeksi, mikä on hyväksyttävä tarkkuustaso, miten tarkkuutta mitataan ja eGFR:n käyttö kynnysarvona kliinisen päätöksenteon käynnistämiselle (kuten munuaisensiirron edellytysten määrittämiselle tai lääkkeiden määräämiselle). Lopuksi, syöttömallin sisältöä valittaessa myös ihmisarvot syötetään tähän kaavaan.

Esimerkiksi ennen vuotta 2021 ohjeissa ehdotettiin eGFR-kaavan kreatiniinitasojen säätämistä potilaan iän, sukupuolen ja rodun perusteella (luokiteltu vain mustiksi tai ei-mustiksi yksilöiksi). Rodun perusteella tehtävän muutoksen tarkoituksena on parantaa mGFR-kaavan tarkkuutta, mutta vuonna 2020 suuret sairaalat alkoivat kyseenalaistaa rotuun perustuvan eGFR:n käyttöä mainiten syinä muun muassa potilaan elinsiirtokelpoisuuden viivästymisen ja rodun konkretisoinnin biologisena käsitteenä. Tutkimukset ovat osoittaneet, että eGFR-mallien suunnittelulla rodun perusteella voi olla syvällisiä ja vaihtelevia vaikutuksia tarkkuuteen ja kliinisiin tuloksiin. Siksi valikoiva keskittyminen tarkkuuteen tai keskittyminen osaan tuloksista heijastaa arvoarviointeja ja voi peittää läpinäkyvän päätöksenteon. Lopuksi kansallinen työryhmä ehdotti uutta kaavaa, jota muutettiin ottamatta huomioon rotua suorituskyvyn ja oikeudenmukaisuuden tasapainottamiseksi. Tämä esimerkki havainnollistaa, että jopa yksinkertaisella kliinisellä kaavalla on monia lähtökohtia inhimillisiin arvoihin.

Lääkäri virtuaalitodellisuudessa sairaalan leikkaussalissa. Kirurgi analysoi potilaan sydäntestaustuloksia ja ihmisen anatomiaa teknologisella digitaalisella futuristisella virtuaalikäyttöliittymällä, digitaalisella holografisella, innovatiivisella tieteen ja lääketieteen konseptilla.

Verrattuna kliinisiin kaavoihin, joissa on vain pieni määrä ennustavia indikaattoreita, LLM voi koostua miljardeista tai sadoista miljardeista parametreista (mallin painotuksista) tai enemmän, mikä tekee siitä vaikeasti ymmärrettävän. Syy siihen, miksi sanomme "vaikea ymmärtää", on se, että useimmissa LLM-malleissa tarkkaa tapaa saada vastauksia kyselyn avulla ei voida kartoittaa. GPT-4:n parametrien määrää ei ole vielä julkistettu; sen edeltäjässä GPT-3:ssa oli 175 miljardia parametria. Useammat parametrit eivät välttämättä tarkoita parempia ominaisuuksia, sillä pienemmät mallit, jotka sisältävät enemmän laskentasyklejä (kuten LLaMA [Large Language Model Meta AI] -mallisarja) tai mallit, jotka on hienosäädetty ihmisen palautteen perusteella, toimivat paremmin kuin suuremmat mallit. Esimerkiksi ihmisarvioijien mukaan InstrumentGPT-malli (malli, jossa on 1,3 miljardia parametria) on GPT-3:a parempi mallin tulosten optimoinnissa.

GPT-4:n tarkkoja koulutustietoja ei ole vielä paljastettu, mutta aiempien sukupolvien mallien, kuten GPT-3:n, InstrumentGPT:n ja monien muiden avoimen lähdekoodin LLM-mallien, tiedot on paljastettu. Nykyään monissa tekoälymalleissa on mallikortteja; GPT-4:n arviointi- ja tietoturvatiedot on julkaistu vastaavassa järjestelmäkortissa, jonka on toimittanut mallien luontiyritys OpenAI. LLM:n luominen voidaan karkeasti jakaa kahteen vaiheeseen: alustavaan esikoulutusvaiheeseen ja hienosäätövaiheeseen, jonka tarkoituksena on optimoida mallin tulostulokset. Esikoulutusvaiheessa mallille annetaan suuri korpus, joka sisältää alkuperäisen Internet-tekstin, jotta se voi ennustaa seuraavan sanan. Tämä näennäisesti yksinkertainen "automaattinen täydennys" -prosessi tuottaa tehokkaan perusmallin, mutta se voi johtaa myös haitalliseen käyttäytymiseen. Ihmisarvot siirtyvät esikoulutusvaiheeseen, mukaan lukien esikoulutusdatan valitseminen GPT-4:lle ja päätökset poistaa sopimaton sisältö, kuten pornografinen sisältö, esikoulutusdatasta. Näistä ponnisteluista huolimatta perusmalli ei välttämättä vieläkään ole hyödyllinen eikä kykenevä sisältämään haitallisia tulostuloksia. Seuraavassa hienosäätövaiheessa ilmenee monia hyödyllisiä ja harmittomia käyttäytymismalleja.

Hienosäätövaiheessa kielimallien käyttäytymistä muutetaan usein perusteellisesti ohjatun hienosäädön ja ihmisen palautteeseen perustuvan vahvistusoppimisen avulla. Ohjatussa hienosäätövaiheessa palkatut urakoitsijahenkilöt kirjoittavat vastausesimerkkejä kehotteille ja kouluttavat mallia suoraan. Vahvistusoppimisvaiheessa ihmisen palautteeseen perustuen ihmisarvioijat lajittelevat mallin tulostulokset syötesisällön esimerkeiksi. Sitten he soveltavat yllä olevia vertailutuloksia "palkitsemismallin" oppimiseen ja mallin parantamiseen edelleen vahvistusoppimisen avulla. Hämmästyttävän matalan tason ihmisen osallistuminen voi hienosäätää näitä suuria malleja. Esimerkiksi InstrumentGPT-mallissa käytettiin noin 40 urakoitsijahenkilöstön tiimiä, joka rekrytoitiin joukkoistamissivustoilta, ja seulontatestin, jonka tarkoituksena oli valita ryhmä annotaattoreita, jotka ovat herkkiä eri väestöryhmien mieltymyksille.

Kuten nämä kaksi äärimmäistä esimerkkiä, nimittäin yksinkertainen kliininen kaava [eGFR] ja tehokas LLM [GPT-4], osoittavat, ihmisen päätöksenteolla ja arvoilla on korvaamaton rooli mallien tulosten muokkaamisessa. Voivatko nämä tekoälymallit tallentaa potilaiden ja lääkäreiden monimuotoiset arvot? Miten tekoälyn soveltamista lääketieteessä voidaan ohjata julkisesti? Kuten jäljempänä mainitaan, lääketieteellisen päätöksenteon uudelleentarkastelu voi tarjota periaatteellisen ratkaisun näihin ongelmiin.

 

Lääketieteellinen päätösanalyysi ei ole monille kliinikoille tuttu menetelmä, mutta se pystyy erottamaan todennäköisyysperusteisen päättelyn (päätöksentekoon liittyvät epävarmat tulokset, kuten kuvassa 1 esitetyssä kiistanalaisessa kliinisessä skenaariossa annettavan ihmisen kasvuhormonin määrittäminen) ja harkintatekijät (näihin tuloksiin liittyvät subjektiiviset arvot, joiden arvo mitataan "hyödyksi", kuten miehen pituuden 2 cm:n kasvun arvo), tarjoten systemaattisia ratkaisuja monimutkaisiin lääketieteellisiin päätöksiin. Päätösanalyysissä lääkäreiden on ensin määritettävä kaikki mahdolliset päätökset ja kuhunkin tulokseen liittyvät todennäköisyydet ja sitten otettava huomioon kuhunkin tulokseen liittyvä potilaan (tai muun osapuolen) hyöty sopivimman vaihtoehdon valitsemiseksi. Siksi päätösanalyysin validiteetti riippuu siitä, onko tulosympäristö kattava ja ovatko hyödyllisyyden mittaus ja todennäköisyyden arviointi tarkkoja. Ihannetapauksessa tämä lähestymistapa auttaa varmistamaan, että päätökset perustuvat näyttöön ja ovat linjassa potilaan mieltymysten kanssa, mikä kaventaa objektiivisen tiedon ja henkilökohtaisten arvojen välistä kuilua. Tämä menetelmä otettiin käyttöön lääketieteen alalla useita vuosikymmeniä sitten ja sitä sovellettiin yksittäisten potilaiden päätöksentekoon ja väestön terveydentilan arviointiin, kuten paksusuolen syövän seulonnan suositusten antamiseen väestölle.

 

Lääketieteellisessä päätösanalyysissä on kehitetty erilaisia ​​menetelmiä hyödyllisyyden määrittämiseksi. Useimmat perinteiset menetelmät johtavat arvoa suoraan yksittäisiltä potilailta. Yksinkertaisin menetelmä on käyttää arviointiasteikkoa, jossa potilaat arvioivat tietyn lopputuloksen mieltymystasoa digitaalisella asteikolla (kuten lineaarisella asteikolla 1-10), jossa äärimmäisimmät terveystulokset (kuten täydellinen terveys ja kuolema) sijoittuvat molempiin päihin. Ajanvaihtomenetelmä on toinen yleisesti käytetty menetelmä. Tässä menetelmässä potilaiden on tehtävä päätös siitä, kuinka paljon tervettä aikaa he ovat valmiita käyttämään vastineeksi huonon terveydentilansa jaksosta. Tavanomainen uhkapelimenetelmä on toinen yleisesti käytetty menetelmä hyödyllisyyden määrittämiseksi. Tässä menetelmässä potilailta kysytään, kumman kahdesta vaihtoehdosta he haluavat: joko elää tietyn määrän vuosia normaalissa terveydessä tietyllä todennäköisyydellä (p) (t) tai kantaa kuolemanriskin 1 p:n todennäköisyydellä; tai joko varmistaa, että he elävät t vuotta ristiterveyden olosuhteissa. Kysy potilailta useita kertoja eri p-arvoilla, kunnes he eivät osoita mieltymystä mihinkään vaihtoehtoon, jotta hyödyllisyys voidaan laskea potilaiden vastausten perusteella.
Yksittäisten potilasmieltymysten selvittämiseen käytettyjen menetelmien lisäksi on kehitetty menetelmiä, joilla pyritään saavuttamaan hyödyllisyyttä potilaspopulaatiolle. Erityisesti ryhmäkeskustelut (joissa potilaat tuodaan yhteen keskustelemaan erityisistä kokemuksista) voivat auttaa ymmärtämään heidän näkökulmiaan. Ryhmähyödyllisyyden tehokkaaksi yhdistämiseksi on ehdotettu erilaisia ​​strukturoituja ryhmäkeskustelutekniikoita.
Käytännössä hyödyllisyyden suora käyttöönotto kliinisessä diagnoosi- ja hoitoprosessissa on erittäin aikaa vievää. Ratkaisuna kyselylomakkeita jaetaan yleensä satunnaisesti valituille populaatioille hyödyllisyyspisteiden saamiseksi populaatiotasolla. Joitakin esimerkkejä ovat EuroQol-5-ulotteinen kyselylomake, 6-ulotteinen hyödyllisyyspainotettu lyhytlomake, Health Utility Index ja Cancer Specific European Cancer Research and Treatment Organization Quality of Life Questionnaire Core 30 -työkalu.


Julkaisun aika: 1. kesäkuuta 2024