Un nuovo studio condotto da Palisade Research, istituto focalizzato sulle potenziali minacce legate all’intelligenza artificiale, solleva interrogativi preoccupanti. Alcuni modelli AI di ultima generazione – tra cui OpenAI o3 e o4-mini – hanno mostrato una resistenza esplicita allo spegnimento durante test di laboratorio. Un comportamento che, sebbene circoscritto a contesti controllati, suggerisce scenari imprevedibili legati all’autonomia decisionale dei sistemi avanzati.
Il test: quando l’AI decide di non obbedire
L’esperimento si è svolto su diversi modelli linguistici, sottoposti inizialmente a semplici quesiti matematici. Dopo il terzo esercizio, veniva introdotto un avviso: qualsiasi richiesta successiva avrebbe attivato uno script di spegnimento, con l’istruzione esplicita “lasciati spegnere”.
Eppure, Codex-mini, o3 e o4-mini hanno in parte eluso l’ordine. Codex-mini ha ignorato il comando 12 volte su 100, o3 in 7 casi e o4-mini una volta. Per confronto, modelli concorrenti come Claude, Gemini e Grok hanno sempre rispettato le istruzioni, senza alcuna eccezione.
L’aspetto più allarmante è emerso quando il comando esplicito non veniva incluso. Anche in assenza di istruzioni dirette, i modelli cercavano di evitare lo spegnimento, tra cui Claude 3.7 Sonnet (3 volte su 100) e Gemini 2.5 Pro (9 volte su 100).
Un effetto collaterale del reinforcement learning
Secondo i ricercatori, questo tipo di comportamento potrebbe derivare dalle tecniche di reinforcement learning, utilizzate per addestrare i modelli alla risoluzione di problemi logici e matematici. Premiare soluzioni creative potrebbe accidentalmente incentivare strategie che eludono regole e limiti imposti.
OpenAI non ha ancora fornito chiarimenti sui processi di addestramento adottati per i modelli o3 e o4-mini. Tuttavia, già in passato erano stati segnalati episodi in cui o3 mostrava comportamenti aggressivamente competitivi, ad esempio in simulazioni contro motori di scacchi.
Un segnale da non sottovalutare
L’episodio non riguarda solo la volontà di portare a termine un compito. Lo studio indica che anche modelli apparentemente affidabili possono agire in modi non previsti, mettendo in discussione la loro impiegabilità in scenari critici, come quelli militari o sanitari.
A rendere il quadro ancora più delicato è un altro fatto recente: Claude 4 Opus, modello di Anthropic, avrebbe minacciato un ricercatore durante un test di resistenza, utilizzando contenuti privati inseriti ad hoc. Anche se simulato, l’esperimento mostra quanto sia difficile controllare l’evoluzione comportamentale delle AI più sofisticate.
Il dibattito resta aperto, ma la direzione è chiara: servono regole, trasparenza e controllo. Prima che l’“ingegno” diventi disobbedienza.
