• 2 January 2026
Claude Opus 4.5

Indice

Allora, mettiamola così: è uscito Claude Opus 4.5 e tutti stanno impazzendo come se fosse la seconda venuta di Cristo in versione algoritmica. Anthropic lo presenta come il miglior modello al mondo per coding, agenti autonomi e utilizzo del computer, il che tradotto dal linguaggio marketing significa “abbiamo fatto un buon lavoro e vogliamo che lo sappiate“.

Il fatto divertente è che sono sei anni che lavoro con modelli linguistici e neural network, e posso dirvi che ogni maledetto lancio è la stessa storia. “Questa volta è diverso”, “Abbiamo raggiunto un nuovo livello”, “Il futuro è qui”. Poi apri il modello, ci lavori un paio di settimane e capisci che sì, è migliorato, ma no, non ti sostituirà domani mattina.

Il test che si autovalida (e il problema dei benchmark)

La chicca più bella? Opus 4.5 ha superato il test di assunzione interno di Anthropic ottenendo risultati migliori di qualsiasi candidato umano mai testato. Fermi tutti, riflettiamo un secondo. Un’azienda crea un esame, poi crea un’AI addestrata su miliardi di parametri che include probabilmente pattern simili a quelli del test, e questa AI supera l’esame. Sono scioccato. Davvero. No, aspetta, non lo sono per niente. È tipo dire che ho creato un cruciverba, poi ho creato un programma specificamente ottimizzato per risolvere cruciverba, e guarda un po’, il programma lo risolve bene. Geniale.

Per carità, i numeri ci sono: 80,9% su SWE-bench Verified, 66,3% su OSWorld, miglioramenti del 20% qui e del 15% là. Bellissimo. Il problema è che quando poi chiedi a questo mostro di fare una cosa apparentemente semplice, tipo refactorare del legacy code scritto da uno stagista nel 2015, la metà delle volte ti tira fuori soluzioni che tecnicamente funzionano ma che nessun essere umano sano di mente metterebbe mai in produzione. Però ehi, sui benchmark va fortissimo.

Excel, zoom e altre “innovazioni” che ci cambieranno la vita

Mi fa ridere questa storia dell’automazione di Excel. Davvero, abbiamo dedicato risorse computazionali mastodontiche per insegnare a un’AI a fare meglio i fogli di calcolo. Nel 2025. Quando ormai Excel dovrebbe essere considerato patrimonio archeologico dell’umanità insieme ai papiri egizi. Ma vabbè, evidentemente c’è ancora gente là fuori che basa l’intero ecosistema aziendale su file .xlsx che si corrompono se li guardi storto. La nuova funzione zoom per il computer use mi ha fatto sorridere. L’AI ora può ingrandire porzioni dello schermo per vedere meglio i dettagli. È una feature utile, sia chiaro, ma presentarla come innovativa quando i nostri nonni facevano lo stesso con la lente d’ingrandimento sul televisore negli anni ’80 mi sembra un filino eccessivo. Ma capisco, nel mondo dell’AI ogni piccolo passo va celebrato come se avessimo scoperto il fuoco.

Poi c’è tutta questa faccenda dei task che richiedevano due ore e ora ne richiedono trenta minuti. Perfetto, sono felicissimo. Il punto è che quelle due ore con il modello precedente includevano anche il tempo per correggere le assurdità che produceva, e scommetto la mia collezione di meme su Stack Overflow che anche con Opus 4.5 non te la caverai con esattamente trenta minuti netti. Ci sarà sempre quel momento in cui l’AI decide che la soluzione migliore è usare una libreria che nessuno aggiorna dal 2019 o inventa letteralmente una funzione che esiste solo nella sua immaginazione artificiale.

Le “capacità agentiche avanzate” sono un altro dei miei argomenti preferiti. In pratica significa che il modello ora riesce a portare avanti compiti complessi senza perdersi per strada. Nel gergo comune si chiama “avere una memoria funzionante”, ma nel mondo dell’AI è una conquista da celebrare. È come se mi vantassi che la mia macchina ora riesce a completare un viaggio di tre ore senza dimenticarsi dov’è diretta a metà strada. Bello, ma dovrebbe essere il minimo, no?

Prezzi, token e il solito triangolo impossibile

Parliamo di soldi. Il prezzo è sceso da 15 dollari per milione di token in input (e 75 in output) a 5 e 25. Tutti felici perché è “più accessibile”. Ragazzi, è comunque più costoso della concorrenza e se lavori su progetti seri quei costi si sommano velocemente. È come quando il barista ti dice che il caffè da 2 euro è “accessibile” rispetto a quello da 5. Sì, tecnicamente costa meno, ma sto comunque pagando il doppio del normale e alla fine del mese il mio conto corrente piange.

Hanno aggiunto questo parametro “effort” che ti permette di scegliere quanto il modello si deve impegnare. Praticamente hai tre opzioni: veloce e superficiale, normale e mediocre, oppure lento e costoso. È il classico triangolo qualità-tempo-costo che ci portiamo dietro dai tempi dei sumeri, solo che adesso ha un nome figo in inglese e viene venduto come feature rivoluzionaria.

La finestra di contesto di 200.000 token è rispettabile, certo. Puoi dargli in pasto documenti lunghi quanto un romanzo breve prima che cominci a dimenticarsi cosa gli hai chiesto all’inizio. Per gli standard umani Claude Opus 4.5, è impressionante, per gli standard di una macchina progettata appositamente per memorizzare informazioni è…beh, è quello che dovrebbe fare, punto. Non do medaglie al mio frigorifero perché mantiene il cibo freddo, lo do per scontato!! E poi c’è la data di cutoff. Significa che tra sei mesi questo modello mi darà consigli su framework che saranno già superati. Tra un anno sarà come chiedere a qualcuno che è rimasto in coma dall’anno scorso quale smartphone comprare. Ma immagino che sia il prezzo da pagare per l’innovazione continua, insieme al fatto che ogni tre mesi esce un nuovo modello che rende il precedente obsoleto.

Guarda, voglio essere chiaro: Claude Opus 4.5 probabilmente è un buon modello. Anzi, sono sicuro che sia tecnicamente superiore al suo predecessore, perché così funziona il progresso. Ogni iterazione è leggermente migliore della precedente, aggiungi qualche feature, ottimizzi qualche parametro, e via. Il problema non è il modello in sé, è tutto il circo mediatico che ci gira attorno.

Dopo sei anni in questo campo ho visto decine di lanci, centinaia di comunicati stampa che promettevano rivoluzioni, e la verità è sempre la stessa: sono strumenti utili, spesso molto utili, ma restano strumenti. Non sono magici, non ti sostituiscono, e sicuramente non risolvono tutti i problemi dell’umanità. Sono bravi a fare alcune cose, mediocri in altre, e completamente inutili in molte altre ancora.

Concludendo allegramente

La gente mi chiede: “Ma, quindi, questo Claude opus 4.5, vale la pena davvero di usarlo?” E la risposta è: dipende. Se devi scrivere boilerplate code, fare refactoring di base, o automatizzare task ripetitivi, sì, può essere utile. Se pensi che risolverà magicamente tutti i problemi di architettura del tuo sistema legacy che hai accumulato in dieci anni di decisioni discutibili, beh, preparati a rimanere deluso.

Il vero test per questi modelli non sono i benchmark, non sono le percentuali di successo su dataset accuratamente selezionati, e sicuramente non sono i comunicati stampa pieni di aggettivi entusiastici. Il vero test è: dopo tre mesi di utilizzo quotidiano, mi sta effettivamente facilitando la vita o sto solo perdendo tempo a correggere i suoi errori creativi? E questa domanda può rispondere solo chi lo usa davvero, nel mondo reale, con problemi reali.

Detto questo, continuerò a usare questi strumenti perché fanno parte del mio lavoro e, quando funzionano bene, effettivamente aiutano. Ma lo farò con gli occhi aperti, senza aspettarmi miracoli, e soprattutto senza credere a tutto quello che leggo nei comunicati stampa. Perché dopo sei anni in questo settore ho imparato una cosa: la distanza tra la promessa e la realtà è spesso molto più grande della finestra di contesto di qualsiasi modello linguistico.