Segreti dietro l’IA cinese

DeepSeek ha raggiunto qualcosa di spettacolare nel giro di pochi mesi, offrendo un enorme shock al mercato azionario degli Stati Uniti. La compagnia AI ha rilasciato un rivale selvaggiamente impressionante CHATGPT chiamato Deep -Week AIE è diventato virale poche settimane fa. Nessun’altra società di intelligenza artificiale ha raggiunto ciò che ha fatto DeepSeek, nemmeno Google.

La parte più impressionante period che, a causa delle sanzioni statunitensi, DeepSeek non aveva accesso alle ultime GPU per lo sviluppo dell’intelligenza artificiale. Quindi hanno escogitato strumenti software program per formare un’intelligenza artificiale e i modelli di ragionamento di Openai a una frazione del costo. Questa impresa ha asciugato $ 1 trilione di dollari dal mercato azionario degli Stati Uniti, poiché gli investitori sono stati spaventati dal fatto che l'{hardware} non avrebbe continuato a essere la cosa più importante nello sviluppo dell’IA.

Mentre quelle preoccupazioni potrebbero essere state esagerate, DeepSeek non si ferma. La società prevede di lanciare Un grande aggiornamento del modello di ragionamento di DeepSeek R2e si affretta a farlo uscire entro maggio. La Cina è ancora vietata dall’accesso alle ultime chip, quindi DeepSeek R2 Growth si baserà su qualsiasi scorta GPU DeepSeek potrebbe aver contrabbandato, nonché ottimizzazioni del software program.

Ma non sono solo un software program o {hardware} in cui DeepSeek potrebbe eccellere quando competono contro Openi e altre aziende di AI occidentali. Un rapporto che descrive in dettaglio i piani non confermati di DeepSeek per il rilascio di R2 può anche rivelare la salsa segreta che ha reso possibili le scoperte di DeepSeek R1. Apparentemente, le persone che lavorano in Deepseek lo adorano grazie a una cultura aziendale e pratiche commerciali che sono uncommon tra le grandi aziende tecnologiche cinesi.

Da quando è uscito Deepseek R1, Openi ha rilasciato nuovi modelli di ragionamento, tra cui O3-Mini e O3-Mini-Excessive. Openi prevede inoltre di rilasciare GPT-4.5 nelle prossime settimane, con un aggiornamento GPT-5 più grande da seguire. Ciò potrebbe spiegare la pressione su Deep -Week per affrettare i propri aggiornamenti.

Per ReutersR2 arriverà prima di maggio, poche settimane prima del previsto. Il nuovo modello dovrebbe essere ancora migliore nella codifica rispetto a R1 e presumibilmente introdurrà il supporto per il ragionamento multilingue.

DeepSeek R2 dovrebbe continuare a utilizzare innovazioni software program che DeepSeek già impiegate per i suoi modelli esistenti. La tecnologia MOE-of-Consultants (MOE) consente a DeepSeek di attivare solo le parti di un modello AI richiesto per gestire un’attività. Poi c’è l’attenzione latente multihead (MLA), che consente a DeepSeek AI di elaborare molti aspetti di un immediate contemporaneamente.

Tutto ciò accade senza accesso all’ultimo {hardware}, ma DeepSeek sta ancora assistendo a grandi guadagni di efficienza rispetto ai rivali. Il rapporto rileva che le stime degli analisti secondo cui DeepSeek i prezzi potrebbero essere da 20 a 40 volte più economici degli strumenti CHATGPT. Ciò mette pressione su Openi e Google per tagliare i prezzi per Chatgpt e Gemini, rispettivamente.

DeepSeek continuerà a non essere in grado di acquistare le stesse chip Nvidia a cui le aziende di intelligenza artificiale hanno accesso. Gli Stati Uniti potrebbero diventare ancora più difficili sui divieti di chip in futuro, e non sarei sorpreso se il DeepSeek R2 dell’aggiornamento alimenta ulteriormente le future decisioni di divieto.

Sto speculando qui, ma si basa su cosa Reuters Rapporti sulla cultura dell’azienda DeepSeek. Sembra che le persone che lavorano lì siano davvero coinvolte nel progetto, ed è tutto a causa di come Liang Wenfeng gestisce il crew.

DeepSeek IPhone App. Fonte immagine: App Retailer

Wenfeng è un miliardario di 40 anni che ha impiegato per la prima volta AI per il frigorifero, un hedge fund quantitativo. L’alta friggi ha reinvestito il 70% degli utili nella ricerca AI prima che Chatgpt fosse un prodotto virale. Alcuni anni fa, la società ha acquistato due cluster di supercomputer AI. Ciò includeva Fireplace-Flyer II, che includeva 10.000 chip Nvidia A100.

Quelle patatine furono vietate dall’acquisto in Cina nel 2022 e Deepseek li usò per addestrare i modelli di AI Deepseek. Le voci dicono che la società potrebbe aver introdotto nascosto decine di migliaia di chip aggiuntivi da allora, ma è qualcosa che probabilmente non sarà mai confermato.

Torna a Wenfeng, il fondatore di Deepseek ha creato l’azienda come laboratorio di ricerca piuttosto che una società di intelligenza artificiale a scopo di lucro. Ha istituito un diverso stile di gestione, evitando la tradizionale cultura del lavoro “996” da altre aziende tecnologiche. Questo si riferisce alle “9 alle 21 sei giorni alla settimana”. Nel frattempo, i ricercatori di Deepseek lavorano di 8 ore.

Sarà interessante sapere se Wenfeng ha mantenuto invariato il suo stile di gestione mentre spingeva lo sviluppo di DeepSeek R2, in particolare considerando l’affermazione del rapporto secondo cui la società vuole far uscire il modello R2 prima del previsto. Non posso fare a meno di chiedermi se lavorare di 8 ore per questo sia sufficiente per questo.

Il rapporto rivela inoltre che Wenfeng ha reclutato giovani ingegneri freschi da scuola, lavorando fianco a fianco con loro e permettendo loro di assumere la proprietà di progetti di ricerca in profondità. Questi ingegneri sono anche molto ben pagati. I knowledge scienziati senior advert alto frigio potrebbero guadagnare circa 1,5 milioni di yuan all’anno o circa $ 206.000. Questo è circa il doppio del tasso di concorrenti.

Tutto ciò non vuol dire che gli ingegneri dei chatgpt non piacciono il loro lavoro o non sono pagati profumatamente. Ma abbiamo sentito parlare Dozzine di dirigenti di alto rango E ex co-fondatori che hanno lasciato l’azienda per iniziare le proprie iniziative AI. Inoltre, non dovremmo aspettarci lo stesso livello di trasparenza da parte delle società cinesi. IL Reuters Il rapporto potrebbe dipingere un’immagine più rosa di quanto non sia in realtà.

Tuttavia, il rapporto rileva anche che DeepSeek è diventato rapidamente una storia di successo in Cina, che Pechino abbraccia pienamente. Non sono solo gli ingegneri di Deepseek che potrebbero amare l’azienda. Il governo potrebbe aver indagato sugli acquisti di chip AI di Excessive-Flyer alcuni anni fa, tra cui quel cluster da 10.000 chip, ma Deepseek è ora immensamente popolare. Deepseek AI è ora integrato in varie aree.

Circa 13 importanti governi delle città e 10 compagnie energetiche di proprietà statale ora usano Deepseek AI. Anche i giganti tecnologici come Baidu, Lenovo e Tencent hanno iniziato advert adottarlo.

Mentre Reuters ‘ La storia non può essere confermata, sembra che Deepseek stia crescendo in popolarità con le aziende cinesi e il governo e quel tipo di supporto può migliorare ulteriormente la capacità dell’azienda di competere contro Openi, Google e altre grandi aziende di intelligenza artificiale.

Nel frattempo, il mondo occidentale è pronto advert implementare i divieti di DeepSeek. Non è sorprendente. DeepSeek potrebbe essere diventato virale e Reuters Dipinge un’ottima immagine dei meccanismi interni dell’azienda, ma l’IA ha ancora problemi che i mercati occidentali non possono tollerare.

Paesi come Italia e Corea del Sud hanno già annunciato i divieti su Deepseek AI. Il governo degli Stati Uniti sta anche rimuginando un divieto più ampio. Il divieto è correlato alla privateness dei dati degli utenti. Tutti i dati DeepSeek vanno in Cina. DeepSeek ha anche altri problemi, tra cui una diffusa censura di argomenti legati alla Cina e problemi di sicurezza generali di intelligenza artificiale.

Con tutto ciò che è in mente, è chiaro che il rilascio di DeepSeek R2 in arrivo da maggio non può scioccare i mercati come ha fatto il suo predecessore. Ma sarà certamente interessante vedere come R2 compete contro Chatgpt, Gemini e altri arrivano la primavera.