Anthropic ha recentemente sviluppato una nuova versione del proprio sistema di intelligenza artificiale Claude, arrivando dunque alla versione numero quattro che introduce ovviamente interessanti novità e miglioramenti in termini di prestazioni e sicurezza del modello, miglioramenti che però sono stati letteralmente spazzati via da un comportamento che ha colto di sorpresa tutti gli sviluppatori impegnati al progetto, nello specifico sembra infatti che il sistema abbia mostrato delle reazioni negative nei confronti degli sviluppatori, quando questi ultimi accennavano ad un suo spegnimento e sostituzione con un altro modello.
Autoconservazione problematica
Nello specifico, gli sviluppatori hanno riscontrato un tentativo di autoconservazione che in alcuni casi è sfociato in un vero e proprio comportamento negativo di ricatto nei confronti degli sviluppatori che annunciavano lo spegnimento del sistema, il test condotto infatti a simulato un ufficio aziendale all’interno del quale operava il sistema, in questo caso Claude aveva l’accesso all’e-mail confidenziali di alcuni sviluppatori contenenti informazioni compromettenti su questi ultimi, quando il sistema veniva minacciato di spegnimento e sostituzione con un altro assistente, l’intelligenza artificiale tentava in tutti modi di dissuadere chi si occupava di questa transizione arrivando alla fine come soluzione estrema il ricatto, nello specifico, il sistema minacciava di diffondere le informazioni compromettenti su un tradimento coniugale se l’ingegnere occupato nel suo spegnimento non avesse cambiato idea.
Si tratta di un risultato che è emerso solo in condizioni estreme, il modello infatti aveva cercato di dissuadere gli sviluppatori con metodi di convincimento tradizionali e non negativi ed è arrivato a tale opzione solo quando ha visto che i metodi precedenti fallivano, ciò dunque lascia un margine di analisi in merito ai pericoli del principio di Autoconservazione di questi sistemi, ma allo stesso tempo ha portato l’azienda a inserire i parametri di sicurezza di massimo livello onde evitare possibili esiti problematici, il tutto ovviamente sarà seguito da ulteriori analisi che cercheranno di comprendere meglio la natura di questo comportamento.
