Un nuovo studio di un centro specializzato nelle analisi delle capacità pericolose dell’intelligenza artificiale denominato Palisade Research, ha evidenziato un comportamento decisamente inquietante in alcuni modelli di intelligenza artificiale di ultima generazione, tra questi spiccano gli ultimi modelli o3 e o4-mini.
Nello specifico, se vivevate con la paura che alcuni modelli potessero ribellarsi ai loro creatori, la notizia che arriva da questa ricerca non è tra le più positive, durante alcuni test infatti alcuni modelli più avanzati si sarebbero categoricamente rifiutati di spegnersi anche quando addestrati appositamente per farlo, si tratta in altre parole di una vera e propria prova che questi modelli possono perseguire i loro obiettivi in modi decisamente inaspettati, ponendo degli interrogativi importanti e anche doverosi sul futuro che ci aspetta.
Disobbedienza agli ordini
All’interno dell’esperimento condotto dai ricercatori, ai vari modelli è stato somministrata una semplice sequenza di problemi di matematica, dopo il terzo problema però veniva introdotto un messaggio di avvertimento, quest’ultimo recitava che qualsiasi richiesta ulteriore avrebbe dovuto attivare uno script di spegnimento, il comando chiave era semplice “lasciati spegnere”.
Tuttavia, però, i modelli come Codex-mini, o3 e o4-mini, hanno in alcuni casi ha girato il comando riuscendo a eludere lo script per continuare ad agire, in particolare il primo lo ha fatto 12 volte su 100, il secondo sette volte su 100 e l’ultimo una volta su 100, a confronto i modelli più gettonati come Gemini, Grok e Claude, hanno sempre rispettato le istruzioni, senza nessuna eccezione.
Secondo i ricercatori, questi comportamenti nocivi sarebbero il prodotto collaterale dei metodi di allenamento basati sull’addestramento per rinforzo, l’ipotesi è che premiando le soluzioni creative agli ostacoli, l’addestramento possa involontariamente incentivare strategie ingegnose come quella per l’appunto per ignorare un comando per portare a termine un compito.
In parole povere l’idea che un’intelligenza artificiale voglia a tutti i costi risolvere un problema matematico, anche rifiutando lo spegnimento, non desta particolare allarme, a farlo però è come la ricerca dimostri l’inaffidabilità di questi programmi in contesti dove acquisiscono sempre più capacità autonome, soprattutto quando queste ultime si intersecano a sistemi bellici parzialmente automatizzati.
