Claude Opus 4.8 è il nuovo modello di intelligenza artificiale che Anthropic ha presentato oggi, e arriva con una promessa precisa: essere un collaboratore più efficace, soprattutto quando si tratta di scrivere codice e di dire la verità. L’azienda parla di miglioramenti su più fronti, dal ragionamento multidisciplinare all’uso autonomo del computer, fino all’analisi finanziaria gestita in modalità agentica.
Chi ha messo le mani sul modello in anteprima lo ha trovato più affidabile e con un giudizio più affilato nelle attività agentiche. Ma il dettaglio che salta all’occhio riguarda un aspetto spesso trascurato: l’onestà. Opus 4.8 tende a segnalare quando non è sicuro di qualcosa, e fa molta più fatica a sparare affermazioni senza basi. Non è una sfumatura da poco.
Più codice, meno errori nascosti
I test interni raccontano una storia interessante. Quando si parla di coding agentico, Opus 4.8 lascia passare difetti nel codice che scrive circa quattro volte meno rispetto al modello precedente. In pratica, è più bravo a riconoscere i propri sbagli invece di farli scivolare via senza dire niente.
C’è anche il discorso dell’allineamento. Le valutazioni indicano che il modello raggiunge nuovi massimi su tratti definiti prosociali, come il sostegno all’autonomia di chi lo usa e il fatto di agire nell’interesse dell’utente. I comportamenti problematici, l’inganno per esempio, risultano meno frequenti rispetto a Opus 4.7 e in linea con la Claude Mythos Preview.
Sul fronte dei benchmark, i numeri parlano chiaro. Opus 4.8 ha totalizzato 69,2% su SWE-Bench Pro, superando GPT 5.5 e Gemini 3.1 Pro su questo test e su diversi altri. Resta un’eccezione: GPT 5.5 mantiene la testa nel benchmark dedicato al terminal coding. La modalità veloce, intanto, gira a una velocità 2,5 volte superiore, e il tutto costa tre volte meno rispetto ai modelli precedenti.
Le novità che arrivano insieme al modello
Anthropic non si è limitata al modello. Insieme a Opus 4.8 sono arrivate alcune funzionalità nuove, pensate per chi usa questi strumenti tutti i giorni.
La prima sono i flussi di lavoro dinamici, ancora in research preview. Permettono a Claude di gestire compiti più grossi all’interno di Claude Code: pianifica il lavoro e lancia centinaia di subagent in parallelo nella stessa sessione. Riesce persino a completare migrazioni su intere basi di codice, parliamo di centinaia di migliaia di righe. Disponibile per i piani Claude Code Enterprise, Team e Max.
Poi c’è il controllo dello sforzo. Su Claude.ai e Cowork si può decidere quanta energia Claude deve mettere in una risposta. Con un’impostazione più bassa, le risposte arrivano più rapide e si consumano più lentamente i limiti d’uso. Opus 4.8 parte di default sullo sforzo alto, che secondo l’azienda è il miglior compromesso tra qualità ed esperienza d’uso.
C’è infine la Messages API, che ora accetta voci di sistema dentro l’array dei messaggi. In soldoni, gli sviluppatori possono aggiornare le istruzioni di Claude anche a metà lavoro.
Il modello è disponibile ovunque già da oggi, e per l’uso normale i prezzi non cambiano rispetto a Opus 4.7. Anthropic sta lavorando a modelli con le stesse capacità di Opus 4.8 ma a costi inferiori, oltre a una nuova categoria ancora più intelligente di Opus. L’azienda fa sapere di star sviluppando le protezioni necessarie per il modello Claude Mythos, ora in prova con un numero ristretto di organizzazioni, e prevede di poter portare i modelli di classe Mythos a tutti i clienti nelle prossime settimane.