Cum va arăta viitorul tehnologiei în contextul revoluției inteligenței artificiale
Modelele fundamentale precum BERT sau GPT-3 au stimulat progrese uluitoare în domeniul inteligenței artificiale (AI). Mai mult, aceste modele au niște abilități pe care creatorii lor nici nu le-au anticipat, scrie revista britanică The Economist.
Computerul Good, conceput să poată efectua 10 la puterea a 19-a calcule pe secundă – pe care Graphcore, creatorul britanic de cipuri, intenționează să-l construiască până în 2024, s-ar putea să aibă de suferit din cauza unui caz ridicol de subestimare nominală. Dacă acum un laptop de putere medie poate face o sută de miliarde de calcule pe secundă, ei bine, Good va fi de 100 de milioane de ori mai rapid decât acesta și de zece ori mai rapid decât Frontier, un monstru de 600 de milioane de dolari, care echipează laboratorul național american Oak Ridge, aflat în Top 500 al celor mai puternice supercomputere din lume.
Cu o memorie de patru petabiți (4.000 de terabiți), ce ar putea stoca echivalentul unei coloane de foi A4 care pe înălțime ar putea ajunge pe Lună, Good poartă numele lui Jack Good, cel care a colaborat cu Alan Turing la descifrarea codurilor de comunicare în timpul celui de-Al Doilea Război Mondial. În 1965, Good scria un articol-reper intitulat „Speculații privind prima mașină ultrainteligentă“. Ei bine, Graphcore ar vrea ca Good să fie acea mașină ultrainteligentă sau cel puțin să marcheze un pas major în respectiva direcție. Pentru asta este nevoie să construiești și să operezi modele de AI cu un număr uriaș de parametri – coeficienți aplicați diverselor calcule din program.
În urmă cu patru ani, un astfel de model (numit BERT, realizat de Google) includea 110 milioane de parametri. Astăzi, cele mai avansate programe de AI sunt de aproape 10.000 de ori mai puternice – cu peste 1.000 de miliarde de parametri. Caracteristicile incredibil de ambițioase ale computerului Good sunt date de dorința de a opera programe care să înglobeze în jur de 500.000 de miliarde de parametri.
Până de curând se credea că, pe măsură ce modelelor le sunt adăugați tot mai mulți parametri, va fi atins un punct din care nu va mai conta. Experimentele cu BERT au demonstrat contrariul.
Flexibilitate
Pe măsură ce sunt tot mai mari, au mai mulți parametri și sunt hrănite cu mai multe date, aceste modele devin tot mai performante. „A fost uluitor“, spune Oren Etzioni, chief executive officer al Institutului Allen pentru Inteligență Artificială, din Seattle (SUA). Așadar, noile modele au depășit cu mult ca performanță modele mai vechi de învățare automată pe taskuri precum sugerarea cuvintelor dintr-un e-mail sau identificarea verbală a unor lucruri dintr-o imagine, nemaivorbind de scrierea unor texte lirice.
Noile proprietăți decurg dintr-o altă trăsătură promițătoare – flexibilitatea. Generațiile anterioare ale sistemelor de inteligență artificială erau concepute cu un scop specific ce nu mai putea fi schimbat. Noilor modele li se pot atribui obiective diferite și pot vira de la un tip de problemă la altul destul de ușor, printr-un proces de reglaj fin. Tocmai datorită acestei calități sunt adesea numite modele fundamentale.
Această capacitate de a pune o paletă mai mare de instrumente pe un singur model schimbă nu doar ce poate face inteligența artificială, dar și cum funcționează ca model de business. La început, modelele AI erau foarte speculative și artizanale, dar acum devin tot mai predictibil de dezvoltat. „Putem spune că inteligența artificială trece în era sa industrială“, explică Jack Clark, cofondator al start-upului Anthropic.
Ceea ce se poate traduce și printr-un impact economic uriaș. În anii ’90, istoricii economiei au început să vorbească despre tehnologiile de uz general – general-purpose technologies (GPT-uri), tehnologii cu impact global – drept unul dintre factorii-cheie care au dus la creșterea productivității pe termen lung. Atributele majore ale acestor GPT-uri presupuneau o rapidă îmbunătățire a tehnologiei de bază, o aplicabilitate intersectorială și un efect de emulație – au fost astfel stimulate noi inovații în materie de produse, servicii asociate și practici de business. Să luăm exemplul motoarelor electrice, al celor cu abur sau al tipografiilor. Realizările noilor modele fac ca inteligența artificială să pară mai curând un astfel de GPT.
Pariu pe AI
Oren Etzioni estimează că peste 80% din cercetările dedicate inteligenței artificiale se concentrează acum pe modelele fundamentale. Este ponderea pe care o acordă din timpul dedicat inteligenței artificiale și Kevin Scott, chief technology officer (CTO) la Microsoft. Compania fondată de Bill Gates și Paul Allen are câteva modele solide, așa cum au și principalii rivali – Meta și Alphabet, companiile-mamă ale Facebook, respectiv Google. Și Tesla lucrează la dezvoltarea unui model fundamental uriaș pentru a-și susține planurile privind construcția de automobile autonome. Anul trecut, investitorii cu capital de risc din SUA au direcționat suma-record de 115 miliarde de dolari către companii de inteligență artificială, potrivit datelor PitchBook. În China, AI a devenit o prioritate națională.
Chiar dacă oferă beneficii clare, unii se tem că o răspândire precipitată a tehnologiei nu va face decât să consolideze concentrarea de putere politică și economică la nivelul palierelor de sus ale economiei, într-un mod care necesită o compensare. Totodată, pe măsură ce devin tot mai mari și mai sofisticate, există teama că aceste modele pot fi deturnate și folosite în scopuri reprobabile.
„Ce facem acum este să construim o supermașină înainte să fi inventat volanul“, avertizează antrepreno-rul britanic Ian Hogarth, coautorul popularului raport anual „State of AI“.
Deep machine learning
Pentru a înțelege de ce modelele fundamentale reprezintă „o schimbare de fază pentru AI“, în formularea lui Fei-Fei Li, codirector al Institutului Human Centered AI, din cadrul Universității Stanford (SUA), trebuie văzut și înțeles cât de diferite sunt față de cum erau în faza anterioară.
Toate modelele moderne de învățare automată (machinelearning) se bazează pe rețele neurale – programe care imită modul în care neuronii umani interacționează. Parametrii lor descriu valoarea conexiunilor dintre acești neuroni virtuali, valoare pe care modelele ajung să o dezvolte prin procesul de încercare și eroare, fiind antrenați să răspundă unor întrebări cu tipurile de răspunsuri dorite de cei care le-au conceput.
Decenii la rând, rețelele neurale au fost interesante teoretic, dar nu foarte utilizate concret. Saltul AI a avut loc din 2010, când computerele au devenit suficient de puternice pentru a rula astfel de rețele neurale mari, iar internetul a oferit volume imense de date de care aceste rețele au nevoie pentru a învăța. Exemplul cunoscut este cel al pozelor cu pisici folosite pentru a învăța un astfel de model să recunoască aceste animale. Sistemele create astfel au putut face ceea ce niciun program nu a mai reușit până la acel moment – să ofere o traducere în timp real a unui text, să interpreteze comenzi verbale sau să recunoască aceeași fizionomie în poze diferite.
Ceea ce a permis domeniului să facă noi progrese impresionante ține tot de creșterea puterii computerelor. Învățarea automată folosește microcipuri grafice (graphics processing units, GPU), dezvoltate pentru jocurile video de companii precum Nvidia. Importantă nu este doar puterea de procesare, ci mai ales capacitatea de a face numeroase calcule în paralel, exact cum este nevoie pentru rețelele neurale. Din 2010 încoace, plăcile grafice s-au dezvoltat într-un ritm uluitor.
Saltul 1.0
Revoluția conceptuală necesară pentru a folosi din plin aceste progrese a venit în 2017. În lucrarea „Este nevoie doar de atenție“, cercetători de la Google și de la Universitatea din Toronto (Canada) au descris noua arhitectură de software care urma să fie implementată de BERT (supercomputerul celor de la Google).
Au renunțat la toate mecanismele care lucrau secvențial cu datele primite și care erau anterior considerate esențiale. În schimb, au lucrat cu un singur mecanism care analiza totul dintr-odată. Noua abordare însemna că programele pot da atenție modelelor învățate, că sunt importante ca text, în loc să învețe cuvânt cu cuvânt. În această abordare, modelele sunt învățate folosind așa-numita tehnică de autosupervizare, care o înlocuiește pe cea bazată pe primirea de seturi de date predefinite. Pe măsură ce se adâncește în volume imense de text, sunt ascunse anumite cuvinte și apoi, pe baza contextului, deduc care a fost cuvântul ascuns. După miliarde de cicluri deducție-comparație-îmbunătățire, această abordare dă o nouă putere statistică faimoasei afirmații a lingvistului J.R. Firth – „Vei ști un cuvânt după compania (contextul) în care se află“.
S-a dovedit de atunci că aceste tehnici inteligente pot fi aplicate nu doar limbajului, ci tuturor tipurilor de date secvențiale, adică imaginilor, materialelor video și chiar seturilor mari de date moleculare.
În loc să deducă următoarea combinație de litere, modelul grafic precum Dall-E al companiei OpenAI poate anticipa un cluster de pixeli. GPT-ul versiunii 3 a modelului Dall-E – Dall-E 3 – a fost alimentat doar cu primele rânduri ale mai multor romane cunoscute și pus să le continue (de pildă, începutul romanului „Un veac de singurătate“, de Gabriel García Márquez).
Saltul 2.0
Descoperirea că aceste modele dau rezultate mai bune cu cât sunt mai mari a condus cercetările la o nouă abordare revoluționară. Descoperirea a fost făcută odată cu lansarea, în 2020, a modelului de GPT-3 al celor de la OpenAI (similar BERT). Versiunea anterioară, lansată în 2019, a fost alimentată cu 40 GB de date (7.000 de lucrări SF nepublicate), care aveau 1,5 miliarde de parametri. Versiunea a treia din 2020 a fost alimentată cu 570 GB (mult mai multe cărți și toată Wikipedia), volumul de informații având de data aceasta 175 de miliarde de parametri. Procesul de învățare a necesitat mult mai multe resurse, dar a reușit cu ușurință să depășească versiunea anterioară, dovedind abilități fără precedent.
Cea mai rapidă aplicabilitate a acestei abilități a fost scrierea automată de cod. Alimentat cu o mare parte din datele disponibile pe internet, GPT-3 a fost expus implicit la un volum imens de cod. S-a autoantrenat în programare la fel cum a făcut-o pentru a scrie texte într-o engleză coerentă.
Codex și Copilot, două servicii pe bază de GPT-3, încearcă să transforme brieful programatorilor (legat de ce vor să programeze) în codul care va executa ceea ce vor. Numai că nu funcționează mereu. De pildă, cei de la The Economist au încercat să genereze cu programul Copilot un carusel cu toate coperțile revistei pe o bucată muzicală de Wagner. S-a dovedit un fiasco. Dacă primește însă sarcini ușor descriptibile, bine delimitate, care pot fi transformate în blocuri de date, atunci rezultatele sunt mai bune.
Astăzi suntem în faza în care nu trece nici măcar o săptămână fără ca o firmă sau alta să anunțe un nou model. La început de aprilie, Google a lansat Palm, care lucrează cu 540 de miliarde de parametri, iar pe anumite zone depășește performanțele GPT-3. În mod remarcabil, poate explica glumele.
Proliferează și așa-numitele „modele multimodale“. În mai, DeepMind, start-upul deținut de Google, a lansat Gato, care poate rula jocuri video, controla un braț robotic și genera un text. Meta a început să dezvolte așa-numitul „Model global“, chiar mai ambițios, capabil să integreze și mimică, și gestică. Scopul este de a crea un motor capabil să alimenteze viitorul metavers al companiei.
Impact de business
Toate acestea sunt vești bune pentru producătorii de cipuri. Explozia tehnologiilor de inteligență artificială a transformat Nvidia într-unul dintre cei mai valoroși designeri de semiconductori din lume, cu o valoare de piață de 468 de miliarde de dolari.
La fel de extraordinar este și faptul că start-upurile pot transforma modelele fundamentale în produse. De pildă, BirchAI, care caută să automatizeze modul în care sunt documentate conversațiile din call centerele medicale, rafinează un model pe care unul dintre fondatorii săi, Yinhan Liu, l-a dezvoltat pe când lucra la Meta.
Există companii care deja folosesc GPT-3 pentru a livra o diversitate de servicii. Viable îl folosește pentru a-și ajuta clienții să analizeze și să selecteze feedbackurile de la consumatorii lor. Elicit își ajută clienții să răspundă direct unor întrebări de cercetare pe baza unor lucrări academice. OpenAi cere între 0,0008 și 0,06 dolari pentru 750 de cuvinte per răspuns, suma variind în funcție de calitate și de cât de repede au nevoie clienții de ele.
Totodată, modelele fundamentale pot fi folosite pentru a naviga prin informațiile unei companii – jurnalele interacțiunilor cu clienții sau pentru citirea informațiilor culese de la senzorii dintr-un magazin, comentează Dario Gil, directorul diviziei de cercetare a grupului IBM.
Fernando Lucini, de la Accenture, anticipează ascensiunea modelelor fundamentale industriale care vor ști bazele unui domeniu (bancar sau auto) și vor vinde această bază unor terți printr-o interfață API (application programming interface).
Semnale de alarmă
Tocmai prin prisma faptului că aceste tehnologii cu aplicabilitate generală vor deveni realitate, este bine să vedem de pe acum cum ar putea fi deturnate și folosite abuziv înainte să facă parte din viața de zi cu zi. Lucrarea „Despre pericolele repetițiilor stocastice. Pot fi prea mari modelele lingvistice?“, publicată în martie 2021, oferă o imagine bună a acestor temeri (după apariție, unul dintre autori, Timnit Gebru, și-a și pierdut slujba de la Google) și pun în discuție aspecte importante. Unul este că aceste modele pot adăuga mai puțină valoare decât pare, unele răspunsuri fiind pur și simplu repetări la întâmplare a ceea ce au în seturile de training. Un altul – unele inputuri, cum ar fi întrebări cu premise fără sens, conduc la răspunsuri contrafăcute, pure invenții, decât la acceptarea înfrângerii (omenescul „nu știu“).
Mai periculos poate fi următorul fapt – cantitatea de date din internet ingerată poate duce modelul către rute eronate de interpretare – pus să spună ceva despre musulmani, cresc șansele ca GPT-3 să adopte un narativ violent decât dacă referirea ar fi la o altă religie. Este ceva teribil pentru un model care se dorește fundamental pentru tot mai multe lucruri din viața noastră.
Producătorii de modele dezvoltă diverse tehnici prin care să-și protejeze inteligența artificială de potențiale derapaje. Unii pur și simplu limitează deja accesul la capacitatea totală a modelelor. Cei de la OpenAI integrează în model feedbackul utilizatorilor umani. Iar cercetătorii de la Stanford lucrează cu un soi de bisturiu virtual botezat „Reparatorul“, cu care pur și simplu îndepărtează „neuronii“ problematici.
O altă problemă ține de concentrare. Rolurile pe care deja le joacă, spre exemplu, Google și Microsoft – deopotrivă dezvoltatori de modele, dar și de proprietari de clouduri gigantice în care rulează aceste modele. Nimeni nu poate dezvolta un model fundamental într-un garaj. Graphcore vrea să vândă computere Good cu peste 100 de milioane de dolari bucata.
Executivii de la Nvidia vorbesc deja de modele a căror învățare va costa 1 miliard de dolari. Unele companii continuă să dezvolte modele open source, deci accesibile gratis. BERT este un exemplu, la fel – o versiune cu 30 de miliarde de parametri de la Meta.
Capital intensiv
Este însă nevoie de foarte multă putere pentru a rula chiar și ceva ce este deja considerat un model modest astăzi. Cele mari nu pot rula decât în cloud, iar a învăța un model nou necesită o putere computațională mai mare decât simpla rulare a modelelor existente (deja învățate).
Unii nu mai pot ține pasul, atrage atenția Jack Clark, de la Anthropic. OpenAI, fondată ca o organizație neguvernamentală, a pus bazele și unei companii în care se poate investi pentru a atrage astfel banii necesari pentru a putea rula modele mari (Microsoft, de pildă, a investit 1 miliard de dolari).
Nici măcar o universitate cu resursele financiare pe care le are Stanford nu-și permite să construiască astfel de supercomputere. Institutul său de AI face presiuni să primească o finanțare guvernamentală în cadrul programului „National Research Cloud“.
Pentru a mări miza, să luăm în calcul și posibilitatea ca modelele fundamentale chiar să devină platforme de uz general pe care să fie construite o serie întreagă de servicii. Istoria computerelor sugerează că, pe măsură ce sunt mai mulți utilizatori și dezvoltatori care migrează spre o anumită platformă – că e sistem de operare sau rețea socială –, cu atât aceasta devine mai atractivă și pentru alții. Iar câștigătorii iau aproape totul. În China avem deja doi campioni în materie de modele fundamentale – Ernie, creat de Baidu, și Wu Dao, iar în Franța este BigScience, lansat în această primăvară (un model cu 176 de miliarde de parametri, care în câteva luni va fi învățat peste 300 de miliarde de cuvinte din 46 de limbi).
Ei bine, toate aceste progrese vor deveni curând o chestiune de securitate națională. Copilot, de pildă, poate fi folosit să dezvolte „viruși“ (deși Microsoft susține că modelului nu i se permite să scrie anumite coduri). Guvernele vor vrea să monitorizeze aceste capabilități, unele chiar să le folosească. Modelele fundamentale care vor gândi strategii pentru companii pot fi folosite și pentru generali. Și dacă pot crea filme realiste, pot crea și dezinformare. Dacă pot crea artă, pot crea și propagandă.
Niciun expert în AI de azi nu crede că aceste modele ar dezvolta vreodată sentimente. Dar unii dezvoltatori de AI se tem totuși că unele modele ar putea ajunge să-și definească propriile procese.
Connor Leahy, unul dintre managerii proiectului open source Eleuther, pune problema așa: „Imaginați-vă că cineva de la Google construiește o inteligență artificială care poate construi la rându-i o altă AI mai bună, iar aceasta, la rândul ei, dezvoltă o a treia și mai bună și tot așa. Iar procesul ăsta se poate petrece foarte rapid“.
Noul creier
Algoritmii tot mai buni, computerele puternice, volumul gigantic de date, toate la un loc au alimentat revoluția proceselor de învățare automată.
- BIOLOGIE VS AI. Totul a pornit de la o singură celulă acum aproape patru miliarde de ani. Până azi, creierul uman rămâne cea mai incredibilă realizare a naturii – un dispozitiv de calcul extrem de complex, cu aproximativ 100 de miliarde de neuroni și peste 100.000 de miliarde de parametri într-un sistem de rețea neuronală biologică ce oferă un nivel de calcul neegalat încă de niciun computer cu siliciu.
- GPT-3. În aprilie, o recenzie apărută în The New York Times descria capacitățile GPT-3 – poate scrie proză originală la fel ca un om și cu greu poate cineva să facă diferența între cele două texte cu surse diferite. Ambiția celor de la Graphcore este de a dezvolta până în 2024 un supercomputer AI care să depășească această uluitoare capacitate a creierului.
Acest articol a apărut în numărul 143 al revistei NewMoney.
FOTO: Getty