ChatGPT poate fi mai eficient decât medicii în depistarea bolilor. Dar cât de important e cine pune diagnosticul?

AI în medicină

Dr. Adam Rodman, expert în medicină internă la Beth Israel Deaconess Medical Center din Boston (SUA), a fost multă vreme convins că chatboturile cu inteligență artificială (AI) îi vor ajuta pe medici să diagnosticheze bolile mai precis, mai ușor și mai rapid. Ei, bine, s-a înșelat!

Într-un studiu la elaborarea căruia dr. Rodman a fost implicat direct, medicii care au folosit ChatGPT-4 împreună cu resursele convenționale pentru a diagnostica diferite cazuri clinice s-au descurcat doar puțin mai bine decât cei care nu au avut acces la bot. Dar adevărata surpriză a fost că, singur, botul dezvoltat de OpenAI a fost mai eficient decât toți medicii participanți la studiul în cauză. „Am fost șocat“, a mărturisit dr. Rodman pentru The Washington Post.

ChatGPT a avut o medie de 90% a diagnosticelor puse corect după analiza unor rapoarte de caz, în condițiile în care medicii desemnați aleatoriu să folosească chatbotul au avut o acuratețe de 76%, iar cei aflați pe cont propriu – de 74%. Studiul a mai arătat însă și altceva decât performanța superioară a chatbotului – credința uneori neclintită a medicilor în diagnosticul pe care l-au pus, chiar și atunci când o inteligență artificială le-a sugerat cu argumente un altul, care s-a dovedit a fi corect.

Practic, studiul a relevat că, deși medicii au acces la instrumente AI concepute special pentru domeniul medical, puțini știu cum să le exploateze abilitățile. În consecință, au eșuat să profite de capacitatea inteligenței artificiale de a rezolva probleme complexe de diagnosticare. „Sistemele AI ar trebui să fie o extensie a medicilor, oferind o a doua opinie, extrem de valoroasă, cu privire la diagnostice. Dar se pare că mai avem un drum lung de parcurs înainte ca acest lucru să fie realizat“, mai spune dr. Rodman.

Publicat recent în JAMA Network Open, un jurnal medical de top din SUA, experimentul a implicat 50 de medici, rezidenți și curanți, activi în câteva dintre cele mai mari spitale americane. Subiecților testați li s-au oferit șase anamneze și au fost evaluați în funcție de capacitatea lor de a sugera diagnostice și de a le explica/motiva apoi.

Punctajele au fost acordate de experți medicali, care au văzut doar răspunsurile finale, fără să știe dacă sunt de la un medic cu ChatGPT, unul aflat pe cont propriu sau doar de la ChatGPT. Cazurile folosite în studiu s-au bazat pe pacienți reali și nu au fost niciodată publicate în jurnalele de specialitate. Ceea ce înseamnă că ChatGPT nu ar fi putut fi instruit anterior cu privire la ele. Deci, pe scurt, nu avea cum să trișeze.

Intuiție vs experiență vs logică rece

Deși complicate, niciunul dintre cazurile propuse nu a fost atât de rar, încât să poată fi considerat ceva nemaiauzit sau imposibil de diagnosticat. Cu toate acestea, în medie, medicii s-au descurcat mai rău decât chatbotul. Ce se întâmplă, s-au întrebat cercetătorii? Răspunsul pare să aibă o legătură directă cu modul în care medicii stabilesc un diagnostic. „Pare“, pentru că, explică dr. Andrew Lea, istoric al medicinei de la Brigham and Women’s Hospital (din Boston, SUA), „nu știm cu adevărat cum gândesc medicii“, intuiția și experiența personală fiind cel mai des invocate de aceștia în stabilirea unui diagnostic.

Subiectul e unul care îi preocupă de zeci de ani pe cercetători, care au încercat în tot acest răstimp să creeze programe de calculator care să poată gândi asemenea unui medic. Una dintre cele mai ambițioase încercări în acest sens a avut loc în anii 1970, la Universitatea din Pittsburgh (SUA). Informaticienii de acolo l-au recrutat pe dr. Jack Myers, care era cunoscut ca un maestru în diagnosticare. Avea memorie fotografică și petrecea 20 de ore pe săptămână în biblioteca medicală, încercând să învețe tot ce se știa în medicina momentului. Acesta a oferit aproximativ 3.500 de simptome ale peste 500 de boli, explicând amănunțit raționamentul pentru fiecare diagnostic pe care l-a pus în cazul acestora.

Informaticienii i-au transformat lanțurile logice în cod și a rezultat un program numit INTERNIST-1. Pentru a-l testa, cercetătorii au folosit cazuri publicate în New England Journal of Medicine. „Computerul a funcționat foarte bine. S-a descurcat mai bine decât, probabil, ar fi făcut-o un om“, detaliază dr. Lea. Dar INTERNIST-1 nu a fost lansat niciodată. Era greu de folosit și s-a considerat că nu e suficient de fiabil pentru uz clinic.

Cercetările au continuat însă. La mijlocul anilor 1990 existau aproximativ o jumătate de duzină de programe de calculator care încercau să pună diagnostice medicale. Niciunul nu a fost utilizat pe scară largă. Dilema rămasă fără răspuns a fost cât de important este să încerci să proiectezi programe de calculator pentru a pune diagnostice în același mod în care le pun oamenii. Contează atât de mult că un computer nu își poate explica detaliat o decizie cât timp diagnosticele pe care le pune sunt corecte?

„Oamenii sunt în general prea încrezători atunci când cred că au dreptate“

Conversația s-a schimbat odată cu apariția modelelor lingvistice de mari dimensiuni, cum este ChatGPT. Acestea nu (mai) încearcă în mod explicit să reproducă gândirea unui medic; abilitățile lor de diagnosticare provin din capacitatea lor de a prezice limbajul. Ce înseamnă asta concret? Dacă îi scrii, de exemplu, „simptomele gripei includ febră, tuse și…“, modelul va anticipa „… durere în gât“, deoarece acestea apar frecvent împreună în textele pe care a fost antrenat. În contextul diagnosticării, un astfel de model poate sugera posibile afecțiuni sau răspunsuri similare cu cele întâlnite în literatura medicală sau alte surse de text. Algoritmul nu înțelege contextul în mod real sau cauzal, ci doar oferă răspunsuri bazate pe probabilități statistice derivate din limbaj.

După șocul inițial, dr. Rodman a decis să cerceteze schimburile de mesaje dintre ChatGPT și partenerii săi umani pentru a vedea de ce aceștia din urmă nu s-au descurcat mai bine, deși au văzut diagnosticele și raționamentele chatbotului. Concluzia a fost că medicii au preferat să ignore argumentele când acesta le-a spus ceva cu care nu erau de acord.

„Nu e ceva surprinzător“, comentează dr. Laura Zwaan, care studiază raționamentul clinic și erorile de diagnostic la Centrul Medical Erasmus din Rotterdam. „Oamenii sunt în general prea încrezători atunci când cred că au dreptate“, adaugă aceasta.

Dar a existat și o altă problemă: mulți dintre medici nu au știut/nu știu cum să folosească un chatbot. Dr. Rodman spune că medicii au văzut în ChatGPT „un motor de căutare pentru întrebări direcționate, gen «Este ciroza un factor de risc pentru cancer? Care sunt posibilele diagnostice pentru durerea de ochi?». Doar o fracțiune dintre medici au realizat că ar putea literalmente să copieze și să insereze întregul istoric al cazului în fereastra de dialog cu chatbotul și să-i ceară acestuia să dea un răspuns cuprinzător la întreaga întrebare“.

Pe de altă parte, în ciuda progreselor evidente, AI este încă la început ca instrument de diagnosticare. Și, la fel ca în cazul majorității chatboturilor AI, s-a constatat că și cele folosite pentru medicină au uneori tendința să halucineze, adică să ofere informații și imagini false sau chiar inventate de ele, bazate pe o „înțelegere“ greșită a ceea ce trebuie să interpreteze. Această problemă ar putea fi însă rezolvată pe măsură ce instrumentele AI continuă să învețe; adică pe măsură ce preiau mai multe date și imagini și își revizuiesc algoritmii pentru a-și îmbunătăți acuratețea analizelor lor.

În ceea ce îl privește pe dr. Rodman, convingerea sa este că, la un moment dat, inteligența artificială va deschide o nouă eră a medicinei. În pofida a ceea ce ar putea sugera simptomele de moment.