Claude Opus 4 emerge come modello di codifica più evoluto al mondo, ottenendo un 72,5% su SWE-bench Verified e un 43,2% su Terminal-bench. Questi punteggi testimoniano una padronanza rara nei task di lunga durata, grazie a un’architettura capace di ragionamento prolungato e di attivazione modulare di strumenti esterni. Nei test reali, è stato osservato in esecuzione autonoma per ore, affrontando con coerenza attività articolate. Replit e Cursor ne hanno misurato l’efficacia su codebase distribuiti e durante debugging multi-file, lodando la continuità logica e la risposta precisa alle istruzioni. Il nuovo modello accede a file locali, conserva informazioni chiave in memoria persistente e alterna riflessione interna e strumenti come le ricerche web. In appena il 5% dei casi, una rete ausiliaria sintetizza il pensiero, senza sacrificare dettagli. Può quindi essere considerato un collaboratore AI persistente, sempre pronto a ricostruire il contesto e agire con precisione.
Claude Sonnet 4: efficienza e controllo
Claude Sonnet 4 migliora drasticamente le prestazioni del predecessore, toccando il 72,7% su SWE-bench. Offre risposte più controllabili, precisione nell’interpretazione delle istruzioni e un netto miglioramento nella risoluzione dei problemi. È già integrato nel nuovo GitHub Copilot Agent e utilizzato da Sourcegraph e Augment Code per la navigazione avanzata dei progetti e l’esecuzione autonoma di compiti complessi. Il modello è progettato per alternare risposte istantanee e processi di deep thinking, evitando scorciatoie. Anthropic ha registrato una riduzione del 65% nei comportamenti semplificati, un progresso che spinge verso una comprensione reale dei compiti. Sonnet 4 è anche più veloce, più sensibile al contesto, più affidabile nelle scelte.
Accanto ai modelli, debutta poi Claude Code, suite dedicata allo sviluppo: integrazione diretta nei terminali, compatibilità con VS Code e JetBrains, e SDK per agenti personalizzati. Questo supporta GitHub Actions e include una beta installabile con /install-github-app. Le nuove API Claude aggiungono esecuzione di codice, connettore MCP, gestione file e cache dei prompt. Tutti strumenti pensati per un ecosistema AI in continua evoluzione, già scelti da Block, Databricks e Manus per la loro potenza e versatilità.
