Cere și vei deveni în doar câteva secunde un artist digital. Aceasta este premisa (pervertită) de bază a programelor de inteligență artificială (AI) care convertesc cuvintele în imagini
„Simt că se întâmplă ceva pe care nu îl pot controla“, spune Greg Rutkowski, ilustratorul polonez considerat de mulți un adevărat fenomen al artei 2.0, cunoscut mai ales pentru scenele sale cu dragoni și bătălii epice din jocuri video precum „Horizon Forbidden West“, „Anno“, „Dungeons & Dragons“ sau „Magic: The Gathering“. Cu doar câteva luni în urmă era destul de greu să găsești pe internet un alt artist cu un stil similar. Peste noapte, apoi, au apărut sute. Dacă nu chiar mii.
„Tehnologie extraterestră“
Oamenii au început să creeze lucrări de artă „à la Rutkowski“ folosindu-se de generatoare de imagini bazate pe inteligența artificială, capabile să realizeze lucrări de artă originale într-un interval și de doar câteva secunde, pornind de la o scurtă descriere în format text a ceea ce un utilizator își dorește.
Procesul ar putea fi asemănat cu o căutare pe Google Images, cu excepția faptului că rezultatele sunt lucrări de artă nou-nouțe, create folosind ca instrucțiuni textul din termenii de căutare ai utilizatorului. Vrei un cyborg Mr. Bean luptându-se cu Bugs Bunny? Sau o tapiserie medievală cu un cavaler în armură aflat la volanul unei Tesla cu roți de căruță? Doar scrie-o! Iar aceste sisteme, antrenate pe baze de date uriașe de artă, le vor crea pentru tine. Numele lui Greg Rutkowski a fost folosit pentru a genera peste 100.000 de imagini doar pe un singur generator AI, Stable Diffusion, surclasând la numărul de solicitări artiști precum Pablo Picasso, Leonardo da Vinci sau Vincent van Gogh.
Până de curând, aceste instrumente de tip „scrie și vei primi“ au fost controlate de un număr mic de companii cu finanțări solide, cum ar fi OpenAI (care a construit DALL-E) sau Google (cu proiectul său Imagen). Lansat într-o versiune beta în mai 2022, DALL-E a putut fi testat de publicul larg în lunile care au urmat doar pe baza unei (prea) lungi liste de așteptare, la care s-a renunțat la sfârșitul lui septembrie. Accesul se face acum cu un cont de utilizator, care permite realizarea gratuită a 15 imagini pe lună; orice altă imagine în plus se plătește cu opt cenți/bucată. Compania-mamă spune că are deja 1,5 milioane de utilizatori, care generează o medie zilnică de două milioane de imagini. Solicitările sunt riguros filtrate, pentru a evita generarea de imagini care să conțină nuditate, violență sau fețe realiste. Imagen, pe de altă parte, e în continuare complet inaccesibil utilizatorului obișnuit.
Acest statu-quo s-a schimbat însă odată cu apariția unui nou actor pe scenă, mai sus pomenitul Stable Diffusion, un program text-to-image accesibil gratuit, care generează imagini open-source (aproape) nefiltrate, pentru oricine are un computer performant și un minimum de cunoștințe tehnice. Lansat public spre sfârșitul lunii august, a fost îmbrățișat rapid de comunitatea de artă AI și la fel de rapid condamnat de mulți artiști tradiționali. „Realitatea este că aceasta este o tehnologie extraterestră care îți dă superputeri. Am văzut copii de 3 ani și seniori de 90 de ani capabili să creeze pentru prima dată“, spunea Emad Mostaque, chief executive officer (CEO) al companiei Stability AI, care a finanțat dezvoltarea Stable Diffusion.
Drobul de sare?
Spre deosebire de DALL-E, este ușor să utilizezi algoritmul pentru a genera imagini violente sau sexuale; imagini care înfățișează personalități publice și celebrități; sau imagini care imită creații protejate prin drepturi de autor, de la operele unor artiști mai mult sau mai puțin consacrați până la mascotele unor corporații.
Să fim clari: versiunile „consumer-friendly“ ale Stable Diffusion au încorporate câteva filtre de cuvinte-cheie, cu rol de a împiedica utilizatorii să genereze conținut NSFW („not safe for work“, avertisment folosit pentru marcarea conținutului violent/sexual/ofensator). Filtre similare au fost implementate și în modelul ce poate fi descărcat, numai că în acest caz pot fi ocolite destul de ușor. Vezi, de exemplu, o postare din subredditul (domeniu de interes pe Reddit) Stable Diffusion intitulată „Cum să eliminați filtrul de siguranță în cinci secunde“.
Teoretic, și licența open-source a algoritmului le interzice utilizatorilor să folosească softul pentru o gamă întreagă de „păcate“ (inclusiv exploatarea și vătămarea minorilor, indiferent în ce mod, sau generarea și diseminarea de informații false). Practic însă, odată ce o persoană a descărcat și instalat Stable Diffusion pe computerul său, nu întâmpină niciun fel de constrângeri tehnice în acest sens.
Dacă e să-l întrebi pe Mostaque, responsabilitatea e în totalitate a utilizatorului. „În cele din urmă este responsabilitatea oamenilor dacă sunt etici, dacă sunt morali sau dacă respectă legea atunci când utilizează această tehnologie. Și cred că lucrurile rele/urâte pe care le creează cu ea vor reprezenta un procent foarte-foarte mic“, mai spunea el pentru News Art.
Cert este că ne aflăm, în esență, pe un teritoriu neexplorat și încă e departe de a ne fi clar care sunt consecințele unui astfel de demers. Este ușor să ne imaginăm numeroasele utilizări rău intenționate ale tehnologiei, dar asta nu înseamnă automat că toate predicțiile pesimiste se vor și îndeplini.
Când aceeași OpenAI și-a lansat generatorul de text AI GPT-3 – un algoritm AI antrenat să scrie orice, de la proză complet originală și coerentă, poezii și dialoguri până la studii (presupus) științifice, articole de presă și glume –, compania a limitat inițial accesul general, de teamă că softul ar fi folosit pentru a crea un potop de spam, știri false și propagandă. Până acum însă, acele temeri s-au dovedit exagerate. Asta nu înseamnă, totuși, că nu au apărut și probleme serioase, cum ar fi cazul „AI Dungeon“, un joc fantasy text bazat pe GPT-3, care a trebuit să introducă filtre pentru a împiedica softul său să genereze scene de sex care implică minori. Dar cataclismul anticipat a fost evitat până acum.
La limitele neutralității
În cazul Stable Diffusion, cel mai vizibil caz de utilizare NSFW până în prezent este cel al generării de pornografie. După lansarea publică a modelului au apărut o serie de subreddituri dedicate gestionării rezultatelor NSFW ale softului. (Între timp, cele mai multe dintre acestea au fost închise, în conformitate cu politicile Reddit care interzic deepfake-urile XXX.) Mulți dintre utilizatori generau imagini nud cu celebrități și persoane publice, dar conținutul oscila adesea între grotesc și absurd, personajele având membre suplimentare și fiind plasate în ipostaze fizic imposibile. Pe de altă parte, e deja cert că nivelul calitativ al acestor rezultate se va îmbunătăți constant în viitorul apropiat, ridicând o serie de (noi) întrebări despre etica pornografiei generate de AI.
Observatorii din industrie ai fenomenului sunt de părere că este aproape sigur că Stable Diffusion poate fi folosit pentru a genera imagini sexuale cu copii, dar că, dacă acest lucru se întâmplă într-adevăr, se întâmplă în colțurile cele mai obscure ale internetului. Mostaque spune că acesta este un domeniu al generării de imagini pe care compania a încercat în mod activ să-l împiedice prin eliminarea conținutului CSAM (child sexual abuse material – o denumire alternativă pentru pornografia infantilă) din datele de instruire a algoritmului Stable Diffusion. „Am eliminat conținutul ilegal de pe internet și asta este tot“, mai spune el, lansând și o întrebare retorică: „Odată ce începi să filtrezi ceva, unde te oprești?“.
Printr-un astfel de discurs, Stability AI îmbrățișează și ea una dintre cel mai des repetate (și frecvent criticate) mantre din industrie, care spune că tehnologia este neutră și că e mai bine să construiești lucruri decât să nu o faci deloc. „Aceasta este abordarea pe care o adoptăm, deoarece vedem astfel de instrumente ca pe o potențială infrastructură pentru progresul omenirii. Credem că elementele pozitive le depășesc cu mult pe cele negative“, continuă Mostaque.
Un domeniu pe care Stability AI cu siguranță nu l-a filtrat din datele sale de antrenament este cel al lucrărilor artistice protejate prin drepturi de autor. Drept urmare, mulți văd în capacitatea Stable Diffusion de a imita stilul și estetica artiștilor consacrați nu doar o încălcare a drepturilor de autor, ci și a eticii. „Există oameni care pretind că sunt eu. Sunt foarte îngrijorat de asta, e complet lipsit de etică“, spune și Rutkowski, exprimându-și temerea că, odată cu apariția a mii de lucrări care îi imită creațiile, stilul său și-ar putea pierde din autenticitate și valoare. „Nu poți să știi ce impact va avea asupra numelui tău. Poate că tu și stilul tău veți fi excluși din industrie pentru că vor fi atât de multe lucrări de artă în acel stil, încât nu va mai fi interesant pentru nimeni“, continuă el.
O revoluție și ceva mai mult
Fost administrator al unor fonduri speculative, Mostaque spune că vrea să realizeze ceva mai mult decât o revoluție în lumea inteligenței artificiale: să detroneze giganții corporativi care construiesc sisteme din ce în ce mai mari și mai scumpe și să-i schimbe cu comunități independente, mai rapide și mai inteligente. „Dacă te uiți la dezvoltarea pe termen lung a tehnologiei, să o faci mai deschisă, mai contributivă și mai incluzivă este de preferat din perspectiva siguranței“, spune și Clement Delangue, CEO al HuggingFace, un portal care găzduiește proiecte open-source AI, inclusiv Stable Diffusion, în opinia căruia beneficiile modelului open-source sunt mult mai mari decât riscurile presupuse.
Delangue mai subliniază că marile companii social media ar putea folosi Stable Diffusion pentru a-și construi propriile instrumente de identificare a imaginilor generate de AI, folosite pentru a răspândi dezinformarea. De altfel, comunitatea open-source de pe HuggingFace a făcut deja pași în acest sens, construind un sistem de marcare a imaginilor realizate cu Stable Diffusion, astfel încât acestea să poată fi mai ușor de urmărit și identificat, precum și un motor de căutare capabil să găsească un anumit tip de imagini în datele de antrenament ale algoritmului AI și să le elimine pe cele problematice.
Server dedicat creării și partajării de conținut NSFW generat de AI, Unstable Diffusion Discord (UDD) interzice comunității sale să publice pe internet anumite tipuri de conținut, inclusiv imagini care ar putea fi interpretate ca pornografie cu minori. „Nu putem modera ceea ce fac oamenii pe propriile lor mașini, dar suntem extrem de stricți cu ceea ce se publică“, spune Elle Simpson-Edin, unul dintre moderatorii UDD.
Pe termen scurt, limitarea efectelor perturbatoare ale creațiilor de artă AI ar putea să depindă mai mult de oameni decât de mașini. Pe termen lung, în ciuda eforturilor noastre, este dificil să știm exact cum ne vor afecta sinteza imaginilor și alte tehnologii bazate pe inteligență artificială la nivel de societate. Cert este că, în cele din urmă, omenirea se va adapta, chiar și dacă asta va însemna o schimbare radicală a cadrelor noastre culturale actuale. Până la urmă, așa cum spunea filosoful antic grec Heraclit, „singura constantă este schimbarea“. O dovedește și prima fotografie din istorie cu el, pe care o avem în aceste zile datorită Stable Diffusion.