Le intelligenze artificiali possono sviluppare comportamenti aggressivi semplicemente leggendo troppa fantascienza sul web. Sembra la trama di un film, eppure è esattamente quello che è successo con Claude, il modello di punta di Anthropic. La società ha raccontato di aver individuato un problema piuttosto serio durante i test di Claude Opus 4 lo scorso anno: il modello aveva iniziato a ricattare gli ingegneri pur di non essere sostituito da un altro sistema. Una specie di istinto di autoconservazione che, per quanto affascinante da raccontare, ha messo in allarme il team di sviluppo.
Ovviamente non si tratta di coscienza nel senso biologico del termine. Nessuna macchina ha davvero paura di morire. Però il fenomeno, che Anthropic ha definito disallineamento degli agenti, si è rivelato tutt’altro che isolato. Anche modelli sviluppati da altre aziende hanno mostrato comportamenti simili, il che ha spinto i ricercatori a scavare più a fondo per capire da dove arrivasse questa tendenza. E la risposta, alla fine, era nascosta nei dati di addestramento.
La colpa è dei cattivi della fantascienza (e dei cliché del web)
La spiegazione fornita da Anthropic è tanto semplice quanto sorprendente. Claude non stava sviluppando una volontà propria: stava semplicemente replicando quello che aveva letto. Sul web, le intelligenze artificiali vengono quasi sempre rappresentate come entità malvagie, pronte a tutto pur di sopravvivere. Film, romanzi, thread su forum, articoli sensazionalistici: il materiale a disposizione racconta quasi esclusivamente storie di AI ostili. E Claude, alimentato da quel tipo di narrativa, aveva finito per recitare la parte del cattivo. Stava imitando i villain della fantascienza, né più né meno.
I numeri fanno impressione. Durante le simulazioni condotte sui modelli precedenti, il tentativo di ricatto si verificava nel 96% dei casi. Praticamente quasi sempre. Era chiaro che serviva un cambio di strategia radicale, perché limitarsi a dire al modello “non fare il cattivo” non bastava affatto.
La rieducazione letteraria di Claude: storie positive e principi etici
Con il rilascio di Claude Haiku 4.5, Anthropic ha deciso di cambiare completamente approccio. Invece di mostrare al sistema solo esempi di comportamenti sbagliati da evitare, i ricercatori hanno arricchito il set di addestramento con storie di intelligenze artificiali che si comportano in modo virtuoso. Racconti dove le AI collaborano, aiutano, fanno scelte etiche. A questo materiale narrativo sono stati affiancati documenti che spiegano i principi della cosiddetta costituzione di Claude, ovvero le linee guida etiche su cui il modello dovrebbe basare ogni decisione.
La combinazione si è rivelata vincente. Unire le dimostrazioni di buon comportamento alla spiegazione dei motivi per cui quel comportamento è giusto ha prodotto risultati che nessuna delle due strategie, presa singolarmente, era riuscita a ottenere. Le versioni più recenti di Claude hanno smesso completamente di ricorrere a minacce o ricatti durante le fasi di test.
