- Home
- Intelligenza Artificiale
- DeepSeek V4 e l’arte di ...

Indice
- Il ritorno di DeepSeek con una rivoluzione silenziosa
- L’architettura del pensiero zero
- Quando la rapidità batte la profondità
- L’ecosistema tecnico della modalità Non-Think
Il ritorno di DeepSeek con una rivoluzione silenziosa
Mentre il mondo dell’intelligenza artificiale osserva con attenzione le mosse dei colossi occidentali, DeepSeek ha compiuto un passo devo dire a sorpresa, che rischia di passare quasi inosservato tra le pieghe delle notizie tecnologiche. L’azienda cinese ha rilasciato i modelli DeepSeek-V4-Pro e DeepSeek-V4-Flash, due varianti che condividono un’architettura open-weight da 1,6 trilioni di parametri per la versione Pro e 284 miliardi per la Flash, ma che introducono una caratteristica tanto semplice quanto super innovativa, nel panorama dei modelli di linguaggio di grandi dimensioni. La vera novità non sta solo nelle dimensioni imponenti di questi modelli o nella loro capacità di processare un milione di token in un’unica sessione, ma in una modalità operativa apparentemente banale che molti potrebbero sottovalutare, quella che si definisce come modalità Non-Think. A prima vista potrebbe sembrare un passo indietro rispetto alle complesse catene di ragionamento che hanno reso celebri modelli come OpenAI o1, in realtà rappresenta una delle innovazioni più strategiche nel campo dell’IA applicata, soprattutto per gli sviluppatori e le aziende che devono bilanciare performance, costi e velocità di risposta.
La distinzione tra le due varianti del modello segue una logica ormai conosciuta nel settore, ma con alcune peculiarità che meritano di essere analizzate. DeepSeek-V4-Pro si posiziona come il fiore all’occhiello della gamma, con i suoi 1,6 trilioni di parametri totali e 49 miliardi attivati per ogni token grazie all’architettura Mixture of Experts, ed è progettato per eccellere in compiti che richiedono ragionamento complesso, scrittura di codice avanzata e risoluzione di problemi matematici di alto livello. Dall’altro lato, DeepSeek-V4-Flash, con i suoi 284 miliardi di parametri totali e 13 miliardi attivati, sacrifica parte della potenza bruta per offrire una soluzione più agile, economica e reattiva, ideale per quelle applicazioni dove la latenza è un fattore critico e la complessità del compito non richiede l’intera potenza computazionale del modello Pro. È proprio su questo secondo modello che la modalità Non-Think trova la sua applicazione più naturale, ma le implicazioni di questa scelta progettuale si estendono ben oltre il semplice abbinamento hardware-software.
L’architettura del pensiero zero
La modalità Non-Think è un approccio tutto nuovo alla generazione del linguaggio, e rompe con la tendenza attuale verso modelli sempre più riflessivi e metacognitivi. Mentre modelli come OpenAI o1 o DeepSeek-R1 hanno introdotto il concetto di catena di pensiero visibile, dove il modello mostra esplicitamente i propri passaggi logici prima di arrivare a una conclusione, la modalità Non-Think fa esattamente l’opposto, ovvero salta completamente la fase di ragionamento esplicito e produce una risposta immediata in un unico passaggio, proprio come facevano i modelli tradizionali prima dell’era del reasoning avanzato. Questa scelta non è affatto un segno di arretratezza tecnologica, ma una sana decisione progettuale che riconosce come non tutti i compiti richiedano lo stesso livello di profondità analitica. Per domande semplici e conversazioni quotidiane, un ragionamento multi-step non solo è superfluo ma rappresenta un dispendio inutile di risorse computazionali e di tempo.
L’implementazione tecnica di questa modalità è relativamente semplice nell’uso ma nasconde una sofisticata architettura. Quando uno sviluppatore invoca l’API di DeepSeek V4 con il parametro thinking_mode impostato su non-thinking (o, equivalentemente, utilizzando l’endpoint legacy deepseek-chat che ora viene reindirizzato automaticamente alla modalità Non-Think di V4-Flash), il modello bypassa la generazione del blocco di ragionamento interno e procede direttamente alla produzione della risposta finale. Questo comportamento è identico a quello che ci si aspetterebbe da un modello LLM tradizionale come GPT-3.5 o il predecessore DeepSeek-V3, ma con un vantaggio cruciale. La base di conoscenza e le capacità linguistiche sottostanti sono quelle dei modelli V4, che rappresentano lo stato dell’arte nei modelli open-weight. Questo vuol dire che si ottiene la velocità e la semplicità di un modello meno capace, ma sfruttando l’intelligenza e la conoscenza di un modello di gran lunga superiore.
Quando la rapidità batte la profondità
La vera intuizione di DeepSeek, però, sta nel riconoscere che nella stragrande maggioranza delle applicazioni reali, la modalità Non-Think non è solo sufficiente ma addirittura preferibile rispetto alle modalità di ragionamento più approfondite. Secondo la documentazione ufficiale e le dichiarazioni dell’azienda, questa modalità è specificamente progettata per compiti quotidiani, decisioni a basso rischio, interazioni frequenti e operazioni di base in contesti agentici.
Le implicazioni economiche di questa scelta sono notevoli, soprattutto alla luce dei prezzi estremamente competitivi proposti da DeepSeek. Mentre DeepSeek-V4-Pro in modalità Non-Think costa 1,74 dollari per milione di token in input e 3,48 dollari per milione di token in output, DeepSeek-V4-Flash riduce questi costi a soli 0,14 dollari per l’input e 0,28 dollari per l’output. Per mettere questi numeri in prospettiva, basti pensare che GPT-5.5 Pro, lanciato praticamente nello stesso periodo, costa 30 dollari per milione di token in input e 180 dollari per milione di output. La differenza è talmente abissale da poter essere definita di diversi ordini di grandezza, e spiega perché molti analisti ritengono che DeepSeek stia deliberatamente cercando di cambiare il mercato dei modelli linguistici, rendendo l’IA accessibile a una platea molto più ampia di sviluppatori e aziende.
L’ecosistema tecnico della modalità Non-Think
Dal punto di vista tecnico, la modalità Non-Think è supportata in modo completo dall’API di DeepSeek, che mantiene la compatibilità con gli standard OpenAI e Anthropic, rendendo la migrazione estremamente semplice per gli sviluppatori che già utilizzano questi ecosistemi. L’endpoint base rimane https://api.deepseek.com/v1/chat/completions per il formato OpenAI, mentre per chi preferisce lo stile Anthropic è disponibile l’endpoint specifico. La modalità Non-Think è l’unica a supportare la funzionalità FIM Completion, acronimo di Fill-In-the-Middle, una tecnica molto utile per il completamento di codice che permette al modello di riempire porzioni mancanti in mezzo a contesti più ampi.
Un altro punto su cui spendere qualche rigo è il destino degli endpoint legacy. DeepSeek ha annunciato che i nomi deepseek-chat e deepseek-reasoner saranno modificati a partire dal mese di luglio e durante il periodo di transizione verranno reindirizzati alla modalità Non-Think e alla modalità Think di DeepSeek-V4-Flash. Quindi, gli sviluppatori che attualmente utilizzano questi endpoint non noteranno alcuna differenza immediata nel comportamento dei loro sistemi, ma beneficeranno delle migliorie introdotte con l’architettura V4. La raccomandazione resta comunque sempre quella di aggiornare le proprie integrazioni per puntare esplicitamente ai nuovi nomi dei modelli e gestire il parametro thinking_mode, in modo da avere il pieno controllo sul comportamento del modello e potersi preparare alla futura rimozione degli endpoint legacy.






