DeepSeek: il modello di IA cinese che ha superato le sanzioni statunitensi

La comunità AI è entusiasta di DeepSeek R1, un nuovo modello di ragionamento open source.

Il modello è stato sviluppato dalla startup cinese di intelligenza artificiale DeepSeek, che afferma che R1 corrisponde o addirittura supera ChatGPT o1 di OpenAI su diversi benchmark chiave (metriche, standard o suite di test), ma funziona a una frazione del costo.

“Questa potrebbe essere una vera svolta pareggiatrice, ottima per ricercatori e sviluppatori con risorse limitate, soprattutto quelli nel Sud del mondo”, afferma Hancheng Cao, assistente professore di sistemi informativi presso la Emory University.

Il successo di DeepSeek è tanto più notevole se si considerano le restrizioni cui devono far fronte le società cinesi di intelligenza artificiale, le cui importazioni di chip all’avanguardia sono controllate dagli Stati Uniti. Ma le prime prove mostrano che queste misure non funzionano come previsto. Invece di indebolire le capacità di intelligenza artificiale della Cina, le sanzioni sembrano spingere startup come DeepSeek a innovare in modi che diano priorità all’efficienza, alla condivisione delle risorse e alla collaborazione.

Secondo Zihan Wang, ex dipendente di DeepSeek e attuale studente di dottorato in informatica presso la Northwestern University, per creare R1, DeepSeek ha dovuto rielaborare il proprio processo di formazione per ridurre la pressione sulle sue GPU, una varietà rilasciata da Nvidia per il mercato cinese che è limitata nelle prestazioni alla metà della velocità abituale dei suoi prodotti di punta.

DeepSeek R1 è stato elogiato dai ricercatori per la sua capacità di gestire compiti di ragionamento complessi, in particolare in matematica e programmazione. Il modello utilizza un approccio di “catena di pensiero” simile a quello utilizzato da ChatGPT o1, che consente di risolvere i problemi elaborando le query passo dopo passo.

Dimitris Papailiopoulos, ricercatore principale presso il laboratorio di ricerca AI Frontiers di Microsoft, afferma che ciò che lo ha sorpreso di più dell’R1 è la sua semplicità ingegneristica. “DeepSeek cercava risposte precise anziché dettagliare ogni passaggio logico, riducendo significativamente i tempi di calcolo mantenendo un elevato livello di efficienza”, afferma.

DeepSeek ha anche rilasciato sei versioni più piccole di R1 sufficientemente piccole da poter essere eseguite localmente sui laptop. Afferma che uno di loro supera addirittura l’o1-mini di OpenAI in alcuni benchmark. “DeepSeek ha ampiamente replicato o1-mini e lo ha reso open source”, ha twittato il CEO di Perplexity Aravind Srinivas. DeepSeek non ha risposto alla richiesta di commento del MIT Technology Review.

Nonostante il brusio che circonda R1, DeepSeek rimane relativamente sconosciuto. Con sede a Hangzhou, in Cina, è stata fondata nel luglio 2023 da Liang Wenfeng, un alunno dell’Università di Zhejiang con esperienza in ingegneria elettronica e tecnologia dell’informazione. È stato incubato da High-Flyer, un hedge fund fondato da Liang nel 2015. Come Sam Altman di OpenAI, Liang mira a costruire un’intelligenza generale artificiale (AGI), una forma di intelligenza artificiale in grado di eguagliare o addirittura battere gli esseri umani in una serie di compiti.

La formazione di modelli linguistici di grandi dimensioni (LLM) richiede un team di ricercatori altamente qualificati e una notevole potenza di calcolo. In una recente intervista con il media cinese LatePost, Kai-Fu Lee, un imprenditore veterano ed ex capo di Google China, ha affermato che solo i “giocatori di alto livello” in genere vengono coinvolti nella costruzione di modelli fondamentali come ChatGPT poiché richiede molte risorse. La situazione è ulteriormente complicata dai controlli statunitensi sulle esportazioni di semiconduttori avanzati. La decisione di High-Flyer di avventurarsi nell’intelligenza artificiale, tuttavia, è direttamente correlata a questi vincoli. Molto prima delle sanzioni previste, Liang ha acquisito una sostanziosa scorta di chip Nvidia A100, un tipo ora vietato dall’esportazione in Cina. L’agenzia di media cinese 36Kr stima che l’azienda abbia più di 10.000 unità in stock, ma Dylan Patel, fondatore della società di consulenza per la ricerca sull’intelligenza artificiale SemiAnalysis, stima che ne abbia almeno 50.000. Riconoscere il potenziale di questi stock per l’addestramento dell’intelligenza artificiale è ciò che ha portato Liang a creare DeepSeek, che è stata in grado di utilizzarli in combinazione con chip di minore potenza per sviluppare i suoi modelli.

Giganti della tecnologia come Alibaba e ByteDance, così come una manciata di startup con investitori dalle tasche profonde, dominano lo spazio cinese dell’intelligenza artificiale, rendendo difficile la competizione per le piccole e medie imprese. Una società come DeepSeek che non ha intenzione di raccogliere fondi è rara.

Zihan Wang, un ex dipendente di DeepSeek, ha dichiarato al MIT Technology Review di aver avuto accesso ad abbondanti risorse informatiche e alla libertà di sperimentare quando ha lavorato presso DeepSeek, “un lusso che pochi neolaureati avrebbero in qualsiasi azienda”.

In un’intervista con 36Kr nel luglio 2024, Liang ha affermato che un’ulteriore sfida che le aziende cinesi devono affrontare oltre alle sanzioni sui chip è che le loro tecniche di ingegneria dell’intelligenza artificiale tendono a essere meno efficienti. “Noi [la maggior parte delle aziende cinesi] dobbiamo consumare il doppio della potenza di calcolo per ottenere gli stessi risultati. In combinazione con le lacune nell’efficienza dei dati, ciò potrebbe significare la necessità di richiedere una potenza di calcolo fino a quattro volte maggiore. Il nostro obiettivo è colmare continuamente queste lacune”, ha affermato.

Ma DeepSeek ha trovato il modo di ridurre l’utilizzo della memoria e accelerare il calcolo senza sacrificare significativamente la precisione. “Il team ama trasformare una sfida hardware in un’opportunità di innovazione”, afferma Wang.

Lo stesso Liang rimane profondamente coinvolto nel processo di ricerca di DeepSeek, eseguendo esperimenti con il suo team. “L’intero team condivide una cultura collaborativa e una dedizione alla ricerca hardcore”, afferma Wang.

Oltre a dare priorità all’efficienza, le aziende cinesi stanno adottando sempre più i principi dell’open source. Alibaba Cloud ha lanciato più di 100 nuovi modelli di intelligenza artificiale open source, supportando 29 lingue e servendo molteplici applicazioni tra cui codifica e matematica. Allo stesso modo, startup come Minimax e 01.AI hanno reso i loro modelli open source.

Secondo un libro bianco pubblicato lo scorso anno dall’Accademia cinese delle tecnologie dell’informazione e della comunicazione, un istituto di ricerca affiliato allo stato, il numero di grandi modelli linguistici di intelligenza artificiale nel mondo ha raggiunto 1.328, di cui il 36% originario della Cina. Ciò posiziona la Cina come il secondo maggior contributore all’intelligenza artificiale, dietro agli Stati Uniti.

“Questa generazione di giovani ricercatori cinesi si identifica fortemente con la cultura open source perché ne trae grandi benefici”, afferma Thomas Qitong Cao, assistente professore di politica tecnologica alla Tufts University.

“I controlli sulle esportazioni statunitensi hanno sostanzialmente messo le aziende cinesi in un angolo dove devono essere molto più efficienti con le loro risorse informatiche limitate”, afferma Matt Sheehan, ricercatore di intelligenza artificiale presso il Carnegie Endowment for International Peace. “Probabilmente in futuro assisteremo a un forte consolidamento legato alla mancanza di computer”.

Questo potrebbe aver già cominciato ad accadere. Due settimane fa, Alibaba Cloud ha annunciato di aver collaborato con la startup 01.AI con sede a Pechino, fondata da Kai-Fu Lee, per unire team di ricerca e creare un “laboratorio di modellazione industriale su larga scala”.

“È naturale ed efficiente dal punto di vista energetico che una sorta di divisione del lavoro emerga nel settore dell’intelligenza artificiale”, afferma Cao, il professore di Tufts. “La rapida evoluzione dell’intelligenza artificiale richiede agilità da parte delle aziende cinesi per sopravvivere”.

( fontes: MIT Technology Review)