Cum va arăta viitorul tehnologiei în contextul revoluției inteligenței artificiale

Modelele fundamentale precum BERT sau GPT-3 au stimulat progrese uluitoare în domeniul inteligenței artificiale (AI). Mai mult, aceste modele au niște abi­li­tăți pe care creatorii lor nici nu le-au anticipat, scrie revista britanică The Economist.

Computerul Good, conceput să poată efectua 10 la pu­terea a 19-a calcule pe secundă – pe care Graphcore, creatorul britanic de cipuri, intenționează să-l constru­iască până în 2024, s-ar putea să aibă de suferit din cauza unui caz ridicol de subestimare nominală. Dacă acum un laptop de putere medie poate face o sută de miliarde de calcule pe secundă, ei bine, Good va fi de 100 de milioane de ori mai rapid decât acesta și de zece ori mai rapid decât Frontier, un monstru de 600 de mili­oane de dolari, care echipează laboratorul na­țional american Oak Ridge, aflat în Top 500 al celor mai pu­ter­nice supercomputere din lume.

Cu o memorie de patru petabiți (4.000 de terabiți), ce ar putea stoca echivalentul unei coloane de foi A4 care pe înălțime ar putea ajunge pe Lună, Good poartă numele lui Jack Good, cel care a colaborat cu Alan Tu­ring la descifrarea codurilor de comunicare în timpul celui de-Al Doilea Război Mondial. În 1965, Good scria un articol-reper intitulat „Speculații privind prima ma­șină ultrainteligentă“. Ei bine, Graphcore ar vrea ca Good să fie acea mașină ultrainteligentă sau cel puțin să marcheze un pas major în respectiva direcție. Pentru asta este nevoie să construiești și să operezi mo­dele de AI cu un număr uriaș de parametri – coeficienți aplicați diverselor calcule din program.

În urmă cu patru ani, un astfel de model (numit BERT, realizat de Google) includea 110 milioane de pa­ra­metri. Astăzi, cele mai avansate programe de AI sunt de aproape 10.000 de ori mai puternice – cu peste 1.000 de miliarde de parametri. Caracteristicile incredibil de ambițioase ale computerului Good sunt date de dorința de a opera programe care să înglobeze în jur de 500.000 de miliarde de parametri.

Până de curând se credea că, pe măsură ce modelelor le sunt adăugați tot mai mulți parametri, va fi atins un punct din care nu va mai conta. Experimentele cu BERT au demonstrat contrariul.

Flexibilitate

Pe măsură ce sunt tot mai mari, au mai mulți parametri și sunt hrănite cu mai multe date, aceste modele devin tot mai performante. „A fost uluitor“, spune Oren Etzioni, chief executive officer al Institutului Allen pentru Inteligență Artificială, din Seattle (SUA). Așadar, noile modele au depășit cu mult ca per­for­manță modele mai vechi de învățare automată pe tas­kuri precum sugerarea cuvintelor dintr-un e-mail sau identificarea verbală a unor lucruri dintr-o imagine, nemaivorbind de scrierea unor texte lirice.

Noile proprietăți decurg dintr-o altă trăsătură promi­ță­toare – flexibilitatea. Generațiile anterioare ale sistemelor de inteligență artificială erau concepute cu un scop specific ce nu mai putea fi schimbat. Noilor mo­dele li se pot atribui obiective diferite și pot vira de la un tip de problemă la altul destul de ușor, printr-un proces de reglaj fin. Tocmai datorită acestei calități sunt adesea numite modele fundamentale.

Această capacitate de a pune o paletă mai mare de instrumente pe un singur model schimbă nu doar ce poate face inteligența artificială, dar și cum funcțio­nează ca model de business. La început, modelele AI erau foarte speculative și artizanale, dar acum devin tot mai predictibil de dezvoltat. „Putem spune că inte­li­gența artificială trece în era sa industrială“, explică Jack Clark, cofondator al start-upului Anthropic.

Ceea ce se poate traduce și printr-un impact econo­mic uriaș. În anii ’90, istoricii economiei au început să vorbească despre tehnologiile de uz general – general-purpose technologies (GPT-uri), tehnologii cu impact glo­bal – drept unul dintre factorii-cheie care au dus la creș­terea productivității pe termen lung. Atributele ma­jore ale acestor GPT-uri presupuneau o rapidă îmbu­nă­tă­țire a tehnologiei de bază, o aplicabilitate intersec­to­rială și un efect de emulație – au fost astfel stimulate noi inovații în materie de produse, servicii asociate și practici de business. Să luăm exemplul motoarelor elec­trice, al celor cu abur sau al tipografiilor. Realizările noilor modele fac ca inteligența artificială să pară mai curând un astfel de GPT.

Pariu pe AI

Oren Etzioni estimează că peste 80% din cercetările dedicate inteligenței artificiale se concen­trează acum pe modelele fundamentale. Este ponderea pe care o acordă din timpul dedicat inteligenței artificiale și Kevin Scott, chief tech­nology officer (CTO) la Microsoft. Compania fon­dată de Bill Gates și Paul Allen are câteva modele so­lide, așa cum au și principalii rivali – Meta și Alphabet, companiile-mamă ale Facebook, respectiv Google. Și Tesla lucrează la dezvoltarea unui model fundamental uriaș pentru a-și susține pla­nu­rile privind con­strucția de automobile autonome. Anul trecut, investitorii cu capital de risc din SUA au direcționat suma-record de 115 miliarde de dolari către companii de in­te­ligență artificială, potrivit datelor PitchBook. În China, AI a devenit o prioritate națională.

Chiar dacă oferă beneficii clare, unii se tem că o răs­pân­dire precipitată a tehnologiei nu va face decât să consolideze concentrarea de putere politică și eco­no­mică la nivelul palierelor de sus ale economiei, într-un mod care necesită o compensare. Totodată, pe măsură ce devin tot mai mari și mai sofisticate, există teama că aceste modele pot fi deturnate și folosite în scopuri re­­probabile.

Ce facem acum este să construim o supermașină înainte să fi inventat volanul“, avertizează antrepreno-rul britanic Ian Hogarth, coautorul popularului raport anual „State of AI“.

Deep machine learning

Pentru a înțelege de ce mo­delele fundamentale reprezintă „o schimbare de fază pentru AI“, în formularea lui Fei-Fei Li, codirector al Institutului Human Centered AI, din cadrul Uni­ver­sității Stanford (SUA), trebuie văzut și înțeles cât de di­fe­rite sunt față de cum erau în faza anterioară.

Toate modelele moderne de învățare automată (machinelearning) se bazează pe rețele neurale – programe care imită modul în care neuronii umani interacțio­nează. Parametrii lor descriu valoarea conexiunilor dintre acești neuroni virtuali, valoare pe care modelele ajung să o dezvolte prin procesul de încercare și eroare, fiind antrenați să răspundă unor întrebări cu ti­purile de răspunsuri dorite de cei care le-au conceput.

Decenii la rând, rețelele neurale au fost interesante teoretic, dar nu foarte utilizate concret. Saltul AI a avut loc din 2010, când computerele au devenit suficient de puternice pentru a rula astfel de rețele neurale mari, iar internetul a oferit volume imense de date de care aceste rețele au nevoie pentru a învăța. Exemplul cunoscut este cel al pozelor cu pisici folosite pentru a în­văța un astfel de model să recunoască aceste animale. Sistemele create astfel au putut face ceea ce niciun program nu a mai reușit până la acel moment – să ofere o traducere în timp real a unui text, să interpreteze comenzi verbale sau să recunoască aceeași fi­zionomie în poze diferite.

Ceea ce a permis domeniului să facă noi progrese impresionante ține tot de creșterea puterii computerelor. Învățarea automată folosește microcipuri grafice (graphics processing units, GPU), dezvoltate pentru jocurile video de companii precum Nvidia. Importantă nu este doar puterea de procesare, ci mai ales capacita­tea de a face numeroase calcule în paralel, exact cum este nevoie pentru rețelele neurale. Din 2010 încoace, plăcile grafice s-au dezvoltat într-un ritm uluitor.

Saltul 1.0

Revoluția conceptuală necesară pentru a folosi din plin aceste progrese a venit în 2017. În lucra­rea „Este nevoie doar de atenție“, cercetători de la Google și de la Universitatea din Toronto (Canada) au descris noua arhitectură de software care urma să fie implementată de BERT (supercomputerul celor de la Google).

Au renunțat la toate mecanismele care lucrau sec­ven­țial cu datele primite și care erau anterior conside­rate esențiale. În schimb, au lucrat cu un singur meca­nism care analiza totul dintr-odată. Noua abordare însemna că programele pot da atenție modelelor în­­­vă­­­țate, că sunt importante ca text, în loc să învețe cuvânt cu cuvânt. În această abordare, modelele sunt în­vățate folosind așa-numita tehnică de autosupervizare, care o înlocuiește pe cea bazată pe primirea de seturi de date predefinite. Pe măsură ce se adâncește în vo­lume imense de text, sunt ascunse anumite cuvinte și apoi, pe baza contextului, deduc care a fost cuvântul ascuns. După miliarde de cicluri deducție-comparație-îmbu­nă­tățire, această abordare dă o nouă putere sta­tistică fai­moasei afirmații a lingvistului J.R. Firth – „Vei ști un cu­­vânt după compania (contextul) în care se află“.

S-a dovedit de atunci că aceste tehnici inteligente pot fi aplicate nu doar limbajului, ci tuturor tipurilor de date secvențiale, adică imaginilor, materialelor video și chiar seturilor mari de date moleculare.

În loc să deducă următoarea combinație de litere, modelul grafic precum Dall-E al companiei OpenAI poate anticipa un cluster de pixeli. GPT-ul versiunii 3 a modelului Dall-E – Dall-E 3 – a fost alimentat doar cu primele rânduri ale mai multor romane cunoscute și pus să le continue (de pildă, începutul romanului „Un veac de singurătate“, de Gabriel García Márquez).

Saltul 2.0

Descoperirea că aceste modele dau rezultate mai bune cu cât sunt mai mari a condus cercetările la o nouă abordare revoluționară. Descoperirea a fost făcută odată cu lansarea, în 2020, a modelului de GPT-3 al celor de la OpenAI (similar BERT). Versiunea an­te­rioară, lansată în 2019, a fost alimentată cu 40 GB de date (7.000 de lucrări SF nepublicate), care aveau 1,5 miliarde de parametri. Versiunea a treia din 2020 a fost alimentată cu 570 GB (mult mai multe cărți și toată Wikipedia), volumul de informații având de data aceasta 175 de miliarde de parametri. Procesul de învă­țare a necesitat mult mai multe resurse, dar a reușit cu ușurință să depășească versiunea anterioară, dovedind abilități fără precedent.

Cea mai rapidă aplicabilitate a acestei abilități a fost scrierea automată de cod. Alimentat cu o mare parte din datele disponibile pe internet, GPT-3 a fost expus implicit la un volum imens de cod. S-a autoantrenat în programare la fel cum a făcut-o pentru a scrie texte într-o engleză coerentă.

Codex și Copilot, două servicii pe bază de GPT-3, încearcă să transforme brieful programatorilor (legat de ce vor să programeze) în codul care va executa ceea ce vor. Numai că nu funcționează mereu. De pildă, cei de la The Economist au încercat să genereze cu programul Copilot un carusel cu toate coperțile revistei pe o bucată muzicală de Wagner. S-a dovedit un fiasco. Dacă primește însă sarcini ușor descriptibile, bine deli­mitate, care pot fi transformate în blocuri de date, atunci rezultatele sunt mai bune.

Astăzi suntem în faza în care nu trece nici măcar o săp­tămână fără ca o firmă sau alta să anunțe un nou model. La început de aprilie, Google a lansat Palm, care lucrează cu 540 de miliarde de parametri, iar pe anumite zone depășește performanțele GPT-3. În mod remarcabil, poate explica glumele.

Proliferează și așa-numitele „modele multimodale“. În mai, DeepMind, start-upul deținut de Google, a lan­sat Gato, care poate rula jocuri video, controla un braț robotic și genera un text. Meta a început să dezvolte așa-numitul „Model global“, chiar mai ambițios, capabil să integreze și mimică, și gestică. Scopul este de a crea un motor capabil să alimenteze viitorul metavers al companiei.

Impact de business

Toate acestea sunt vești bune pentru producătorii de cipuri. Explozia tehnologiilor de inteligență artificială a transformat Nvidia într-unul dintre cei mai valoroși designeri de semiconductori din lume, cu o valoare de piață de 468 de miliarde de dolari.

La fel de extraordinar este și faptul că start-upurile pot transforma modelele fundamentale în produse. De pildă, BirchAI, care caută să automatizeze modul în care sunt documentate conversațiile din call centerele medi­cale, rafinează un model pe care unul dintre fondatorii săi, Yinhan Liu, l-a dezvoltat pe când lucra la Meta.

Există companii care deja folosesc GPT-3 pentru a livra o diversitate de servicii. Viable îl folosește pentru a-și ajuta clienții să analizeze și să selecteze feedbackurile de la consumatorii lor. Elicit își ajută clienții să răspundă direct unor întrebări de cercetare pe baza unor lucrări academice. OpenAi cere între 0,0008 și 0,06 dolari pentru 750 de cuvinte per răspuns, suma variind în funcție de calitate și de cât de repede au ne­voie clienții de ele.

Totodată, modelele fundamentale pot fi folosite pentru a naviga prin informațiile unei companii – jurna­lele interacțiunilor cu clienții sau pentru citirea informa­ții­lor culese de la senzorii dintr-un magazin, comen­tează Dario Gil, directorul diviziei de cercetare a grupului IBM.

Fernando Lucini, de la Accenture, anticipează ascensiunea modelelor fundamentale industriale care vor ști bazele unui domeniu (bancar sau auto) și vor vinde această bază unor terți printr-o interfață API (application programming interface).

Semnale de alarmă

Tocmai prin prisma faptului că aceste tehnologii cu aplicabilitate generală vor deveni realitate, este bine să vedem de pe acum cum ar pu­tea fi deturnate și folo­site abuziv înainte să facă parte din viața de zi cu zi. Lucrarea „Despre pericolele repetițiilor stocastice. Pot fi prea mari modelele lingvistice?“, publicată în martie 2021, oferă o imagine bună a acestor temeri (după apariție, unul dintre autori, Timnit Gebru, și-a și pierdut slujba de la Google) și pun în dis­cuție aspecte importante. Unul este că aceste modele pot adăuga mai puțină valoare decât pare, unele răs­pun­suri fiind pur și simplu repetări la întâmplare a ceea ce au în seturile de training. Un altul – unele inputuri, cum ar fi întrebări cu premise fără sens, conduc la răs­pun­­suri contrafăcute, pure invenții, decât la acceptarea înfrângerii (omenescul „nu știu“).

Mai periculos poate fi următorul fapt – cantitatea de date din internet ingerată poate duce modelul către rute eronate de interpretare – pus să spună ceva despre musulmani, cresc șansele ca GPT-3 să adopte un narativ violent decât dacă referirea ar fi la o altă religie. Este ceva teribil pentru un model care se dorește fundamental pentru tot mai multe lucruri din viața noastră.

Producătorii de modele dezvoltă diverse tehnici prin care să-și protejeze inteligența artificială de potențiale derapaje. Unii pur și simplu limitează deja accesul la capacitatea totală a modelelor. Cei de la OpenAI inte­grează în mo­del feedbackul utilizatorilor umani. Iar cercetătorii de la Stanford lucrează cu un soi de bistu­riu virtual bo­tezat „Reparatorul“, cu care pur și simplu îndepărtează „neuronii“ problematici.

O altă problemă ține de concentrare. Rolurile pe care deja le joacă, spre exemplu, Google și Microsoft – deopotrivă dezvoltatori de modele, dar și de proprie­tari de clouduri gigantice în care rulează aceste mo­dele. Nimeni nu poate dezvolta un model fundamental într-un garaj. Graphcore vrea să vândă computere Good cu peste 100 de milioane de dolari bucata.

Executivii de la Nvidia vorbesc deja de modele a căror învățare va costa 1 miliard de dolari. Unele companii continuă să dezvolte modele open source, deci accesibile gratis. BERT este un exemplu, la fel – o versiune cu 30 de miliarde de parametri de la Meta.

Capital intensiv

Este însă nevoie de foarte multă putere pentru a rula chiar și ceva ce este deja conside­rat un model modest astăzi. Cele mari nu pot rula de­cât în cloud, iar a învăța un model nou necesită o pu­tere computațională mai mare decât simpla rulare a mo­delelor existente (deja învățate).

Unii nu mai pot ține pasul, atrage atenția Jack Clark, de la Anthropic. OpenAI, fondată ca o organizație negu­ver­namentală, a pus bazele și unei companii în care se poate investi pentru a atrage astfel banii necesari pentru a putea rula modele mari (Microsoft, de pildă, a in­vestit 1 miliard de dolari).

Nici măcar o universitate cu resursele financiare pe care le are Stanford nu-și permite să construiască astfel de supercomputere. Institutul său de AI face presiuni să primească o finanțare guvernamentală în cadrul programului „National Research Cloud“.

Pentru a mări miza, să luăm în calcul și posibilitatea ca modelele fundamentale chiar să devină platforme de uz general pe care să fie construite o serie întreagă de servicii. Istoria computerelor sugerează că, pe mă­sură ce sunt mai mulți utilizatori și dezvoltatori care mi­grează spre o anumită platformă – că e sistem de ope­rare sau rețea socială –, cu atât aceasta devine mai atractivă și pentru alții. Iar câștigătorii iau aproape totul. În China avem deja doi campioni în materie de modele fundamentale – Ernie, creat de Baidu, și Wu Dao, iar în Franța este BigScience, lansat în această pri­măvară (un model cu 176 de miliarde de parametri, care în câteva luni va fi învățat peste 300 de miliarde de cuvinte din 46 de limbi).

Ei bine, toate aceste progrese vor deveni curând o ches­tiune de securitate națională. Copilot, de pildă, poate fi folosit să dezvolte „viruși“ (deși Microsoft sus­ține că modelului nu i se permite să scrie anumite coduri). Guvernele vor vrea să monitorizeze aceste capa­bi­lități, unele chiar să le folosească. Modelele fundamentale care vor gândi strategii pentru companii pot fi folosite și pentru generali. Și dacă pot crea filme rea­liste, pot crea și dezinformare. Dacă pot crea artă, pot crea și propagandă.

Niciun expert în AI de azi nu crede că aceste modele ar dezvolta vreodată sentimente. Dar unii dezvoltatori de AI se tem totuși că unele modele ar putea ajunge să-și definească propriile procese.

Connor Leahy, unul dintre managerii proiectului open source Eleuther, pune problema așa: „Imaginați-vă că cineva de la Google construiește o inteligență arti­fi­cială care poate construi la rându-i o altă AI mai bună, iar aceasta, la rândul ei, dezvoltă o a treia și mai bună și tot așa. Iar procesul ăsta se poate petrece foarte rapid“.

Noul creier

Algoritmii tot mai buni, computerele puternice, volumul gigantic de date, toate la un loc au alimentat revoluția proceselor de în­vă­țare automată.

  • BIOLOGIE VS AI. Totul a pornit de la o singură celulă acum aproape patru miliarde de ani. Până azi, creierul uman rămâne cea mai in­credibilă realizare a naturii – un dispozitiv de calcul extrem de complex, cu apro­ximativ 100 de miliarde de neuroni și peste 100.000 de miliarde de parametri într-un sistem de rețea neuronală bio­logică ce oferă un nivel de calcul neegalat încă de niciun computer cu siliciu.
  • GPT-3. În aprilie, o recenzie apărută în The New York Times descria capacitățile GPT-3 – poate scrie proză originală la fel ca un om și cu greu poate cineva să facă dife­rența între cele două texte cu surse dife­rite. Ambiția celor de la Graphcore este de a dezvolta până în 2024 un supercomputer AI care să depășească această uluitoare capacitate a creie­rului.

Acest articol a apărut în numărul 143 al revistei NewMoney.

FOTO: Getty