Mokslininkai išbandė dirbtinio intelekto diagnostiką – rezultatai nustebino

Mokslininkai išbandė dirbtinio intelekto diagnostiką – rezultatai nustebino

Dainius Venslovas
Mokslininkai išbandė dirbtinio intelekto diagnostiką – rezultatai nustebino

Keliuose didžiuosiuose Europos ir JAV medicinos centruose išbandytos dirbtinio intelekto sistemos parodė, kad algoritmai tam tikrose užduotyse geba pasivyti ar net aplenkti gydytojų komandų tikslumą, o kitose – dar klumpa dėl menkai matomų duomenų klaidų. Tai svarbu ne tik technologijų entuziastams: sėkmingai integruota DI diagnostika galėtų trumpinti eiles, padėti spręsti specialistų trūkumą ir greičiau aptikti rimtas ligas, tačiau kartu kelia klausimų dėl patikimumo, skaidrumo ir atsakomybės, kai sprendimai priimami esant ribotai informacijai arba netipiniams pacientų atvejams.

Tyrimų grupės, vertinusios šiuolaikines kompiuterinio matymo ir kalbos modelių sistemas, daugiausia dėmesio skyrė radiologijai, dermatologijai, kardiologijai ir akių ligų diagnostikai. Pasak specialistų, ten, kur užduotis aiškiai apibrėžta, pavyzdžiui, aptikti konkrečius pakitimus mamogramose ar atpažinti diabetinės retinopatijos požymius tinklainės nuotraukose, įspūdingi skaičiai pasiekiami jau dabar. Vis dėlto algoritmams pritrūksta lankstumo, kai duomenys skiriasi nuo tų, kuriais jie mokyti: kito gamintojo aparatūra, neįprasti vaizdiniai artefaktai ar pacientų grupės, mažai atstovautos pradiniame rinkinyje. Tokiais atvejais tikslumas krenta, o klaidos tampa sunkiau nuspėjamos.

Ne viena komanda pabrėžė netikėtą rezultatą: DI įrankiai, sukurti kaip pagalbininkai, pasirodė geriau nei tie, kurie bando perimti visą sprendimų priėmimą. Klinikinėse situacijose efektyviausias modelis – „žmogus su DI“, kai gydytojas mato argumentuotą algoritmo siūlymą, gauna pasitikėjimo balą ir aiškiai pažymėtas vaizdo sritis. Toks derinys sumažina peržiūros laiką, tačiau išlaiko galutinę atsakomybę pas specialistą. Tuo pat metu pastebėta, kad per didelis pasikliovimas automatika gali sukurti klaidingą saugumo jausmą: jeigu modelis sistemingai klysta dėl specifinio triukšmo, o įspėjamieji signalai nepakankamai išryškinti, klaidos gali likti nepastebėtos.

Dermatologijoje ir pirminėje sveikatos priežiūroje išbandyti vaizdų atpažinimo sprendimai neretai pranoko tikrojo laiko triage sistemas pagal jautrumą retoms, bet pavojingoms būklėms. Tačiau išsamiau įsigilinus, išaiškėjo svarbi sąlyga – klaidingai teigiamų rezultatų skaičius išauga, ypač kai duomenų kokybė prastesnė, o apšvietimas ar odos atspalvis labai varijuoja. Tai reiškia, kad nors pavojingi atvejai rečiau praleidžiami, pacientų srautas į specialistų kabinetus gali padidėti dėl nereikalingų konsultacijų. Pasak klinikinių informatikų, pusiausvyra tarp jautrumo ir specifiškumo turi būti derinama atsižvelgiant į vietos infrastruktūrą ir prieinamumą: tai, kas tinka didelėms klinikoms, nebūtinai veiksminga regioninėse įstaigose.

Radiologijos skyriuose ypač daug dėmesio skirta algoritmų gebėjimui „persistatyti“ – išlikti tiksliais, kai modelis perkeltas į kitą ligoninę ar šalį. Tyrėjai teigia, kad vien išlaikyti procentinį tikslumą nepakanka: klinikinei vertę kuria ir modelio kalibracija, t. y. kiek jo pasitikėjimo balai atitinka realią tikimybę. Net ir labai tikslus modelis, kurio pasitikėjimo skaičiai „perdrąsūs“ arba „per kuklūs“, gali klaidinti gydytoją rizikos įvertinimu. Todėl vis dažniau kartu su algoritmų testavimu atliekami ir darbo eigos eksperimentai – tikrinama, kaip keičiasi sprendimų priėmimo greitis, kiek rezultatų reikia papildomai peržiūrėti, kiek tyrimų pakartojama.

Kitas netikėtumas – dideli kalbos modeliai, apmokyti medicininiais duomenimis ir gydymo gairėmis, pasirodė naudingi ne tik administracinėms užduotims. Kontroliuojamoje aplinkoje jie padėjo suvienodinti tyrimo atsakų formuluotes, generavo pirminius aprašus, kuriuos radiologai koregavo, ir leido viename lange matyti nuoseklų paaiškinimą, kodėl ataskaitoje siūloma konkreti diferencinė diagnozė. Tuo pat metu ekspertai primena, kad tokie modeliai linkę „užtikrintai suklysti“, jei jiems trūksta konteksto arba jei klausimas yra už jų mokymo ribų. Dėl to kiekvienas generuotas tekstas turi būti patikrintas žmogaus, o sistemos turi veikti lokaliai arba per saugias sąsajas, kad būtų apsaugoti pacientų duomenys.

Lygiagrečiai diskutuojama apie šališkumo rizikas. Praktika rodo, kad net ir techniškai nepriekaištingas algoritmas gali veikti neteisingai konkrečioms populiacijoms, jei jas mokymo duomenyse atstovavo per mažai. Tokios klaidos dažnai subtilios, pavyzdžiui, sistemingas rizikos nuvertinimas tam tikro amžiaus ar etninėms grupėms. Siekiant to išvengti, diegiamos papildomos tikrinimo procedūros: išankstinė duomenų auditavimo ataskaita, nuolatinis veikimo stebėjimas ir galimybė „išjungti“ modelį, jei rodikliai nukrypsta nuo nustatytų ribų. Bioetikos specialistai akcentuoja, kad pacientai turėtų būti informuoti, kai jų duomenis analizuoja DI, o sprendimai – paaiškinami suprantama kalba.

Reguliacinė aplinka taip pat greitai bręsta. Sveikatos priežiūros įstaigos gauna aiškesnes gaires, kaip dokumentuoti klinikinį saugumą, kaip testuoti atnaujintas algoritmo versijas ir kaip užtikrinti, kad programos pokyčiai nevirstų neprognozuojamu elgesiu. Praktikai sako, kad vienas svarbiausių sėkmės veiksnių – iš anksto aprašytas modelio atnaujinimo planas: kada leidžiama persimokyti, kokiais duomenimis, kaip audituojami rezultatai ir kas atsako už galutinį patvirtinimą. Tai skamba biurokratiškai, bet be šių gairių sunku tikėtis mastelio – ypač viešosiose sistemose, kuriose sprendimai turi būti numatomi, o rizikos – valdomos.

Daug vilčių siejama su triage ir prioritetavimo sprendimais. Ten, kur darbuotojų trūksta, o užklausų apimtis didelė, DI galėtų automatiškai išskirti skubius atvejus ir nukreipti juos greitesnei apžiūrai. Pirmieji pilotiniai projektai rodo, kad net ir nedidelis laimėjimas, pavyzdžiui, 10–15 procentų greitesnė peržiūra, ilgainiui virsta apčiuopiamu poveikiu laukimo eilėms. Vis dėlto čia svarbus atsargumas: sistemos turi būti kuriamos taip, kad ne „nuplautų“ retesnių, bet sunkių atvejų į „mažos rizikos“ grupę. Sprendimų slenksčiai turi būti išbandomi realiomis sąlygomis, o prioritetavimo klaidų kaina – atvirai aptarta su klinikomis.

Ekonominis aspektas dar nėra iki galo aiškus. Vienos įstaigos teigia sutaupiusios dėl trumpesnio aprašų rengimo laiko ir mažiau kartotinių tyrimų, kitos pažymi naujas išlaidas – infrastruktūrai, duomenų saugojimui, kibernetiniam saugumui, personalo mokymams. Sveikatos ekonomistai rekomenduoja vertinti ne tik licencijų kainą, bet ir visą diegimo ciklą: projekto valdymą, integraciją su informacinėmis sistemomis, išbandymą, priežiūrą, draudimo reikalavimus. Kitaip tariant, tikrasis efektyvumas paaiškėja tada, kai technologija tampa kasdienybės dalimi ir praeina pirmasis entuziazmo etapas.

Svarbų vaidmenį vaidina ir pacientų pasitikėjimas. Žmonės nori žinoti, ar jų atvaizdai ir aprašai panaudoti modelių mokymui, ar jie gali atsisakyti ir ar tai turės įtakos gautoms paslaugoms. Aiškus informavimas, skaidrios privatumo politikos ir realios duomenų kontrolės galimybės – esminės prielaidos, kad inovacijos būtų priimtos be pasipriešinimo. Gydytojai, savo ruožtu, pabrėžia, kad DI neturėtų pakeisti klinikinės apžiūros ir pokalbio: technologija praplečia regėjimo lauką, bet nepakeičia santykio su žmogumi ir gebėjimo vertinti simptomų kontekstą.

Apibendrinant, išbandyta dirbtinio intelekto diagnostika atskleidė du lygiagrečius pasakojimus. Viename – ženkli pažanga tose srityse, kur duomenys struktūruoti, o užduotys aiškios; kitame – realaus pasaulio sudėtingumas, kuriame modeliai turi būti ne tik tikslūs, bet ir patikimi, paaiškinami, sąžiningi skirtingoms pacientų grupėms. Artimiausiais mėnesiais sprendimus lems ne vien algoritmų kreivės, o tai, kaip sėkmingai klinikos integruos šias sistemas į darbo eigą, kaip bus apmokomi specialistai, ir ar pacientai jausis įtraukti bei apsaugoti. Jei šie klausimai bus sprendžiami nuosekliai, technologija taps ne sensacija, o tylia kasdienybės pagalbininke, padedančia atpažinti ligas greičiau ir tiksliau, nei iki šiol. Jei ne – liks dar vienu perspėjimu, kad pažangiausi skaičiavimo įrankiai be aiškių taisyklių ir atsakomybės prielaidų nepasiteisina ten, kur svarbiausia – žmogaus sveikata.

Mokslininkai išbandė dirbtinio intelekto diagnostiką – rezultatai nustebino

Ar gali kompiuteris patikimiau nei gydytojas atpažinti ligą iš nuotraukos, širdies ritmo kreivės ar laboratorinių duomenų? Naujasis tyrėjų bandymas, kuriame dirbtinio intelekto algoritmai tikrinti realiomis klinikinėmis sąlygomis, parodė netikėtą vaizdą: kai kuriose užduotyse sistema priartėjo prie patyrusių specialistų lygio ir net juos aplenkė, tačiau susidūrusi su neįprastais atvejais dažniau klydo. Svarbiausia išvada – geriausiai veikia komanda, kurioje žmogus ir dirbtinis intelektas papildo vienas kitą, o ne konkuruoja.

Tyrimo autoriai pabrėžė, kad AI diagnostika labiausiai žiba ten, kur informacija yra struktūruota ir gausi: radiologijoje, dermatologijoje, kardiologijoje. Iš tūkstančių krūtinės ląstos rentgenogramų algoritmas mokėsi atpažinti plaučių uždegimo požymius, iš odos pažeidimų nuotraukų – piktybinius pakitimus, iš EKG kreivių – pavojingas aritmijas. Kai klinikinis vaizdas atitiko tipinius mokymo pavyzdžius, jautrumas – gebėjimas aptikti ligą – buvo labai aukštas. Tačiau tikrovėje diagnozės retai būna tokios tvarkingos: pacientai serga keliomis ligomis, naudoja vaistus, jų simptomai persidengia, o vaizdai – ne idealūs. Ten AI vis dar stringa, ypač kai susiduria su duomenimis, kurių niekada „neregėjo“.

Skamba sausa, kol nepamatai, kaip tai veikia gydytojo kabinete. Šeimos gydytoja pasakojo, kaip algoritmas, analizuojantis laboratorinių tyrimų ir gyvybinių funkcijų derinį, išskyrė pacientą, kurio būklė atrodė stabili. Sistemos pateiktas įspėjimas paskatino pakartotinius tyrimus ir galiausiai padėjo laiku nustatyti sepsio pradžią. Kitąkart ta pati sistema „išpūtė“ pavojų dėl netipinės, bet gerybinės odos dėmės, ir pacientui teko patirti bereikalingo nerimo valandas. Tai – dirbtinio intelekto diagnostikos dvilypumas šiandien: ji gali gelbėti laiką ir gyvybes, bet gali ir klaidinti, jei į ją žiūrima kaip į galutinę tiesą.

Sveikatos priežiūros profesionalams tokie rezultatai nėra staigmena. Jau kelerius metus aiškėja, kad algoritmai itin geri smulkiose, aiškiai apibrėžtose užduotyse. Jie skaičiuoja, lygina, braižo tikimybes, nepavargsta ir nebijo naktinių pamainų. Tačiau medicinoje svarbi ne tik pavienė išvada, o viso konteksto interpretavimas: paciento anamnezė, gretutinės ligos, socialiniai veiksniai, net tokios detalės kaip nuovargis ar baimė. Algoritmui tai – triukšmas, gydytojui – prasmingi signalai, padedantys sujungti paskiras dalis į vieną klinikinį paveikslą.

Kad suprastume, ką reiškia „veikia“ ar „klysta“, verta prisiminti du pagrindinius diagnostikos rodiklius – jautrumą ir specifiškumą. Jautrumas parodo, kiek sergančiųjų sistema atpažįsta, specifiškumas – kiek sveikųjų nepalaiko ligoniais. Puiki sistema turi abu šiuos rodiklius didelius, bet realybėje jie traukia į priešingas puses, ir reikia sąmoningai rinktis kompromisą. Skubiojoje pagalboje svarbiau nieko nepraleisti – leidžiama daugiau klaidingų aliarmų. Prevencinėje patikroje per daug klaidingų teiginių virsta pertekliniais tyrimais, eilėmis ir nerimu. Būtent čia žmogaus sprendimas lieka esminis: gydytojas turi suprasti, kada pasitikėti AI, o kada atsitraukti ir pasitikėti savo klinikine intuicija.

Tyrėjai atkreipė dėmesį ir į dar vieną jautrų klausimą – duomenų kilmę. DI „mąstymas“ priklauso nuo to, kuo jis buvo „maitinamas“. Jei sistema mokoma daugiausia iš vienos šalies ligoninių vaizdų, ji gali prasčiau veikti kitoje šalyje, kur pacientų demografinė sudėtis, įranga ar protokolai skiriasi. Tokį reiškinį specialistai vadina duomenų poslinkiu. Dėl jo algoritmas tampa tarsi puikus gido knygos skaitytojas, bet prastas keliautojas netikėtomis gatvėmis. Sprendimas nėra paprastas, bet aiškus: reikalingi plati, įvairi ir kokybiškai sužymėta duomenų bazė bei išankstinis patikrinimas tose aplinkose, kur sistema bus naudojama. Kitaip tariant, ne užtenka „mokėti“ diagnostiką laboratorijoje – ją reikia patvirtinti realiose klinikose.

Svarbu ir tai, kaip AI įsilieja į darbų seką. Tyrimas parodė, kad geriausi rezultatai pasiekiami ne tada, kai AI pakeičia gydytoją, o kai veikia kaip „antrasis skaitytojas“ arba triage įrankis. Pavyzdžiui, radiologijoje algoritmas pirmiausia peržiūri krūtinės rentgenogramas, o gydytojui pateikia sąrašą su pažymėtais vaizdais, kuriuose tikimybė rasti pavojingą radinį yra didžiausia. Taip sutaupoma brangaus specialisto laiko, gyvybiškai pavojingi atvejai peršokdomi į eilės priekį, o galutinį sprendimą vis tiek priima žmogus. Toks tandemas mažina automatizacijos šališkumo riziką – polinkį aklai sekti kompiuterio pasiūlymu – ir leidžia pasinaudoti stiprybėmis iš abiejų pusių.
Neatsiejama šio pokyčio dalis yra etika, skaidrumas ir reguliavimas. Medikai nori žinoti, ne tik ką sistema „pasakė“, bet ir kodėl. Paaiškinamo DI metodai pamažu padeda matyti, kuri vaizdo ar duomenų dalis labiausiai lėmė sprendimą, nors ir jie nėra tobuli. Pacientams tai suteikia daugiau pasitikėjimo: jei gydytojas gali suprantamai paaiškinti, kas slypi už algoritmo išvados, lengviau priimti sprendimus. Europoje įsigalint naujoms taisyklėms, kurios aukštos rizikos medicinos DI sprendimams kelia griežtus kokybės, saugos ir priežiūros reikalavimus, atsiranda ir aiškesnės atsakomybės ribos. O kas, jei AI suklysta? Atsakymas negali būti paliekamas vien programiniam kodui – būtina aiški klinikinė ir teisinė tvarka, kur sprendimas liktų gydytojo rankose, o technologijos tiekėjas prisiimtų savo dalį atsakomybės už įrankio kokybę.

Žinoma, technologija kainuoja. Ligoninėms reikės ne tik įsigyti licencijas, bet ir investuoti į saugų duomenų laikymą, IT infrastruktūrą, komandų mokymą. Tačiau yra ir kita pusė: jei AI padeda greičiau peržiūrėti tyrimus, trumpina laukimo laiką ir sumažina pakartotinių vizitų ar nereikalingų tyrimų skaičių, ilgainiui tai gali grąžinti investicijas. Ypač regionuose, kur trūksta specialistų, toks įrankis gali tapti atraminėmis „akimis“ ir „ausimis“, padedančiomis šeimos gydytojui laiku pastebėti rimtą bėdą ir nukreipti pacientą ten, kur jam geriausiai padės.
Ko ši istorija mus moko šiandien? Pirma, dirbtinis intelektas jau nebėra laboratorinė svajonė – tai veikiančios sistemos, kurios gali pagerinti diagnostiką, kai jos kruopščiai patikrintos ir protingai integruotos. Antra, jos nėra stebuklingas sprendimas: algoritmas neturi klinikinės intuicijos, nepažįsta žmogaus gyvenimo niuansų ir neatsako į klausimą „kodėl“ taip, kaip gali gydytojas. Trečia, tikrasis proveržis ateina tuomet, kai technologija sustiprina profesionalo sprendimą, o ne jį pakeičia.

Pacientams tai reiškia daugiau laiku pastebėtų ligų, greitesnį kelią prie specialistų ir aiškesnius atsakymus, ypač ten, kur eilės ilgos. Medikams – naują darbo kultūrą, kurioje reikia mokėti „kalbėtis“ su algoritmais, suprasti jų ribas ir privalumus. Sveikatos sistemai – pareigą užtikrinti saugą, lygybę ir pasitikėjimą, kad technologijų pažanga virstų realia nauda, o ne tik gražiais pažadais.

Taip, rezultatai nustebino. Ne todėl, kad AI stebuklingai pakeitė gydytojus, bet todėl, kad parodė aiškų kelią į brandesnę, išmanesnę mediciną. Jei eisime juo atsargiai ir atsakingai, laimės visi – nuo skubios pagalbos priimamųjų iki atokiausių ambulatorijų. O svarbiausia, laimės pacientai, dėl kurių šis darbas ir daromas.

Pasidalinkite šiuo straipsniu
Dainius yra smalsus sveikatos temų tyrinėtojas, kurio tikslas – sudėtingą medicininę informaciją paversti suprantama kiekvienam. Jis nuolat seka Pasaulio sveikatos organizacijos (PSO) ir Lietuvos institucijų rekomendacijas, kad skaitytojams pateiktų tik patikrintus faktus. Dainius negydo, o padeda susigaudyti informacijos gausoje – jis atrenka tai, kas svarbu, ir pateikia tai paprasta, aiškia žmonių kalba.
Komentarų: 0