Allora iniziamo con il dire:
Il 26 dicembre DeepSeek ha rilasciato V3, un modello con 671 miliardi di parametri che:
- È stato addestrato su 8 trilioni di token
- Raggiunge performance paragonabili a GPT-4 e Claude
- È stato addestrato in soli 2 mesi
- È costato solo $5.57 milioni (contro i $500+ milioni spesi per modelli come LLaMA 3.1)
Ok poi?
Secondo i benchmark le performance sono simili (in certi casi anche superiori) ai giganti del settore ad una frazione del costo.
Tutto vero quindi?
Non proprio.
DeepSeek ha raggiunto questi risultati grazie alla Model Distillation, basata sulla conoscenza di GPT-4o.
La model distillation è il processo di trasferimento della conoscenza da un modello di grandi dimensioni a uno più piccolo.
In pratica, lo possiamo dire? Emm hanno copiato, già!
Poi funziona così bene?
Sicuramente come dicono molti esperti fra i modelli Open Source è quello che lavora meglio, ma per gli altri? ChatGPT, Claude, Gemini etc.?
Anche qui no,
A parte che secondo alcuni sembra che sia stato allenato per performare specificatamente nei test per i benchmark, in modo da fare NOTIZIA! Se se esci da quelli i problemi si vedono eccome.
Poi entrando nel dettaglio:
Il nuovo modello DeepSeek R1 v3 ha un vantaggio temporaneo perché è stato migliorato combinando due tecniche avanzate:
- CoT (Chain of Thought): Aiuta il modello a “pensare passo per passo”.
- MoE (Mixture of Experts): Permette al modello di usare solo alcune parti specifiche per risolvere un compito.
Tuttavia, prima del suo lancio, AliBaba aveva già presentato un modello simile chiamato “qwq”. Entrambi i modelli hanno prestazioni simili e non è facile decidere quale sia il migliore, soprattutto se si valutano problemi reali invece dei soliti test tecnici.
In Cina, hanno migliorato un vecchio modello di OpenAI (livello “o1”), focalizzandosi in modo molto intelligente sulla qualità dei dati di allenamento. Quindi, più che una rivoluzione, è un passo avanti temporaneo. I risultati futuri dipenderanno dai prossimi modelli come “o3” o successivi.
Attenzione alle false promesse: Alcuni sostengono che DeepSeek R1 si possa usare su un normale PC grazie al supporto open source. Ma per far funzionare la versione più potente (con 671 miliardi di parametri), servono server enormi con molte GPU Nvidia. Quindi, per chi usa l’app mobile, le risposte arrivano comunque da potenti cluster di GPU Nvidia.
In breve: DeepSeek R1 v3 è un interessante progresso, ma non è rivoluzionario come la stampa strombazza.