El e DeepSeek, start-upul chinezesc care a cutremurat industria AI

DeepSeek
DeepSeek

Acțiunile marilor companii din tehnologie s-au prăbușit. Giganți precum Meta și Nvidia s-au confruntat cu o avalanșă de întrebări cu privire la viitorul lor. Și totul s-a întâmplat din cauza unui start-up chinezesc de inteligență artificială (AI) puțin cunoscut, numit DeepSeek.

„DeepSeek R1 este un moment Sputnik al industriei AI“, scria într-un mesaj postat pe X investitorul american de capital de risc Marc Andreessen, referindu-se la data de 4 octombrie 1957, când fosta URSS a lansat primul satelit artificial care a orbitat Pământul și a luat complet prin surprindere Statele Unite, demonstrându-și astfel avansul tehnologic în cursa spațială.

Pe Pământul zilelor noastre, DeepSeek este un start-up fondat și deținut de fondul chinezesc de investiții High-Flyer, ambele conduse de Liang Wenfeng, un antreprenor extrem de retras. Scopul său este să construiască tehnologii de inteligență artificială similare cu ChatGPT al OpenAI sau Gemini al Google, astfel că, până în 2021, DeepSeek a achiziționat mii de cipuri de calculator de la producătorul american Nvidia, care sunt o parte fundamentală a oricărui efort de a crea sisteme puternice AI.

În China, start-upul este cunoscut pentru recrutarea agresivă de doctoranzi de la universități de top, oferind salarii mari și oportunitatea de a lucra la proiecte de cercetare de ultimă oră. De asemenea, DeepSeek angajează și persoane fără background în informatică, pentru a-și îmbunătăți tehnologia în înțelegerea unei game largi de subiecte.

În ultimii ani, DeepSeek a lansat mai multe modele de limbaj de mari dimensiuni, care stau la baza tehnologiilor unor chatboturi precum ChatGPT și Gemini.

Pe 10 ianuarie a lansat prima sa aplicație gratuită de chatbot, bazată pe un nou model, numit DeepSeek-V3. După cum se autodescrie, acesta este „un asistent virtual, bazat pe tehnologii de procesare a limbajului natural și învățare automată. Sunt aici să te ajut cu informații, răspunsuri la întrebări, să discutăm pe diverse subiecte și să încerc să fiu cât mai util posibil“.

De ce a reacționat piața acum?

Când DeepSeek și-a prezentat modelul DeepSeek-V3, la sfârșitul anului trecut, acesta a demonstrat că poate concura de la egal la egal cu chatboturile produse de OpenAI, Google sau Microsoft. Doar acest lucru ar fi fost ceva impresionant, dar cutremurul s-a produs când echipa din spatele său a dezvăluit că a folosit doar o fracțiune din cipurile de calculator pe care companiile americane de top din AI s-au bazat pentru a-și antrena sistemele.

OpenAI, Microsoft sau Google își antrenează de regulă chatboturile cu supercalculatoare care folosesc până la 16.000 de cipuri sau chiar mai mult. Inginerii DeepSeek au dezvăluit că au nevoie pentru a obține aceleași performanțe de doar aproximativ 2.000 de cipuri Nvidia.

La fel ca alte companii AI din China, DeepSeek a fost afectată de interdicțiile de export de hardware impuse de SUA. Pentru a-și antrena unul dintre modelele sale mai recente, compania a fost forțată să folosească cipuri Nvidia H800, o versiune mai puțin puternică a cipului H100, disponibil doar pentru companiile americane.

De ce este atât de importantă performanța obținută de DeepSeek?

Începând cu sfârșitul anului 2022, când OpenAI a declanșat boomul AI, retorica predominantă a fost că cele mai puternice sisteme de inteligență artificială pot fi construite doar cu investiții de miliarde de dolari în cipuri specializate. Apriori, asta însemna că doar companii de talia Microsoft, Google și Meta, toate din Statele Unite, își pot permite să construiască tehnologii de top. Acum, inginerii DeepSeek au explicat că au nevoie doar de aproximativ șase milioane de dolari pentru puterea de calcul necesară antrenării noului lor sistem.

Cum a reușit DeepSeek să-și construiască tehnologia cu mai puține cipuri AI?

Întregul proces a fost explicat într-o documentație amplă făcută publică de DeepSeek, despre care ingineri americani de top în AI spun că este impresionantă. Pe scurt, compania chinezească a descoperit o metodă mai eficientă de analiză a datelor.
Sistemele de top AI își dobândesc abilitățile identificând anumite modele/tipare în cantități uriașe de date, inclusiv text, imagini și sunete. DeepSeek a eficientizat și simplificat acest proces, recurgând la o metodă numită de cercetători „mixtură de experți“ (mixture of experts – MoE).

Concret, e o tehnică folosită în AI pentru a face un model mai inteligent și mai eficient, împărțind o sarcină între mai mulți „experți“ specializați. Ce înseamnă asta? În loc să ai un singur model AI care face totul, ai mai multe submodele („experți“), fiecare specializat pe un anumit tip de date sau probleme. Un alt model, numit „dispecer“ (gating network), decide care experți trebuie activați pentru fiecare intrare nouă. Ulterior, răspunsurile experților selectați sunt combinate pentru a obține rezultatul final.

De ce e util? Nu toți experții sunt activați simultan, ceea ce economisește resurse. Fiecare expert se antrenează pe un subset specific de date, ceea ce duce la decizii mai precise și o performanță mai bună.

Metoda a fost folosită și de Google și OpenAI, dar DeepSeek a făcut acest lucru într-un mod care i-a permis să folosească mai puțină putere de calcul. „A devenit foarte clar că alte companii, nu doar cineva ca OpenAI, pot construi astfel de sisteme“, spune Tim Dettmers, cercetător la Allen Institute for Artificial Intelligence din Seattle și profesor de Informatică la Universitatea Carnegie Mellon, specializat în construirea de sisteme eficiente AI. „DeepSeek a folosit metode pe care oricine le poate reproduce.“

Practic, metoda DeepSeek a pus serios sub semnul întrebării posibilitatea ca marile companii americane să-și mențină un avans semnificativ în AI. Mulți experți cred că tehnologia AI va deveni doar un alt (același) produs, vândut de o mulțime de companii.

Este la fel de bună tehnologia DeepSeek ca sistemele OpenAI și Google?

Conform testelor standard de performanță, DeepSeek-V3 poate răspunde la întrebări, rezolva probleme de logică și scrie propriile programe de calculator cel puțin la fel de eficient ca orice alt produs de top al momentului aflat pe piață. Dacă e să dăm credit testelor interne ale DeepSeek, V3 ar depășește atât modelele disponibile public, cum ar fi Llama de la Meta, cât și modelele „închise“, care pot fi accesate doar printr-o API (application programming interface), cum ar fi GPT-4o al OpenAI.

Chiar înainte ca DeepSeek să-și lanseze tehnologia, OpenAI a dezvăluit un nou sistem, numit OpenAI o3, care părea mai puternic decât DeepSeek-V3, fiind conceput să „raționeze“. Industria AI americană era convinsă în acel moment că DeepSeek nu a construit și un astfel de model.

Pe 20 ianuarie, compania chineză a lansat propriul model de raționament, numit DeepSeek R1, care, de asemenea, i-a impresionat pe experți. Fiind un model de raționament, R1 își verifică eficient propriile fapte, ceea ce îl ajută să evite unele capcane care, în mod normal, ar putea deruta alte modele. Comparativ cu un model clasic, cele de raționament au nevoie de un timp de gândire – de până la câteva secunde – pentru a oferi o soluție. Avantajul este că tind să fie mai fiabile în domenii precum fizică, știință și matematică.

Există, totuși, un dezavantaj pentru R1, DeepSeek V3 și alte modele DeepSeek. Fiind dezvoltate în China, acestea sunt evaluate de autoritatea chineză de reglementare a internetului pentru a se asigura că răspunsurile lor „întruchipează valorile socialiste fundamentale“. În aplicația de chatbot DeepSeek, de exemplu, R1 nu va răspunde la întrebări despre Piața Tiananmen sau autonomia Taiwanului.

Pe măsură ce și-au dat seama de importanța și performanța noii tehnologii DeepSeek, investitorii au intrat în panică. Cea mai afectată a fost Nvidia, a cărei valoare de piață a scăzut cu 600 de miliarde de dolari. Totalizate, pierderile celor șapte magnifici din tehnologie – Alphabet, Amazon, Apple, Meta, Microsoft, Nvidia și Tesla – s-au ridicat la aproximativ 1.000 de miliarde de dolari, dintr-o capitalizare cumulată de 17.000 de miliarde de dolari.

Există implicații pentru politicile comerciale ale SUA?

Pentru a menține poziția de lider a Statelor Unite în cursa globală AI, Administrația Biden a stabilit reguli care limitează numărul de cipuri puternice care pot fi vândute Chinei și altor rivali. Dar performanța obținută de DeepSeek a ridicat întrebări despre consecințele neintenționate ale restricțiilor comerciale ale guvernului american, care, practic, i-au forțat pe cercetătorii din China să devină creativi, folosind o gamă largă de instrumente disponibile gratuit pe internet. Unii experți continuă să susțină restricțiile comerciale ale Statelor Unite, spunând că acestea au fost introduse recent și că vor avea un efect mai mare asupra capacității Chinei de a crea AI pe măsură ce vor trece anii.

Tehnologia DeepSeek înseamnă că SUA și-au pierdut poziția dominantă în AI?

Răspunsul momentului pare să fie că nu. Mai ales că lumea încă nu a văzut modelul OpenAI o3, a cărui performanță la testele standard a fost mai impresionantă decât orice altceva de pe piață. Dar experții sunt îngrijorați că China avansează rapid în sistemele AI open-source.
Ca multe alte companii, DeepSeek a împărtășit codul sursă al sistemului său cu alte companii și cercetători. Ceea ce le permite și altora să construiască și să distribuie propriile produse, folosind aceeași tehnologie. Acest gen de abordare este și o parte a motivului pentru care DeepSeek și alte companii din China au reușit să construiască rapid și ieftin sisteme competitive AI.

În lumea AI, open-source-ul a câștigat teren în 2023, când Meta și-a împărtășit sistemul AI Llama. La acea vreme, mulți au presupus că ecosistemul open-source va înflori doar dacă companii precum Meta – adică firme-gigant cu centre de date pline de chipuri specializate – continuă să își deschidă tehnologiile.

Mulți experți au susținut că marile companii americane nu ar trebui să facă acest lucru, deoarece tehnologiile lor ar putea fi folosite pentru a răspândi dezinformare sau pentru a provoca alte daune grave. Unii legislatori americani au explorat posibilitatea de a împiedica sau limita această practică.

Dar alți experți au susținut că, dacă autoritățile de reglementare îngrădesc progresul tehnologiei open-source în Statele Unite, China va câștiga un avantaj semnificativ. Dacă cele mai bune tehnologii open-source vor veni din China, acești experți susțin că, inevitabil, și cercetătorii, și companiile americane vor ajunge în cele din urmă să își construiască pe baza acestora propriile sisteme. Pe termen lung, acest lucru ar putea plasa China în centrul cercetării și dezvoltării AI, ceea ce ar putea accelera eforturile sale de a construi o gamă largă de tehnologii AI, inclusiv arme autonome și alte sisteme militare.