La sicurezza nell’intelligenza artificiale è una battaglia che non finisce mai. Ogni volta che viene sviluppato un nuovo sistema di protezione, qualcuno cerca di aggirarlo. L’ultimo capitolo di questa storia arriva da Anthropic, che ha annunciato i suoi “constitutional classifiers“, una tecnologia che promette di bloccare il 95% dei tentativi di jailbreak. Un risultato che suona incredibile, ma che porta con sé la solita domanda: siamo davvero di fronte a una svolta o è solo un altro aggiornamento in una lunga serie di miglioramenti?
I constitutional classifiers contro il jailbreak
L’idea alla base è un’evoluzione del concetto di Constitutional AI, un sistema in cui l’IA si regola da sola seguendo principi etici predefiniti, senza dipendere esclusivamente dall’intervento umano. I constitutional classifiers spingono questa idea ancora più avanti, creando un ulteriore strato di sicurezza che esamina sia le richieste fatte all’IA sia le risposte che genera, bloccando tentativi di manipolazione prima ancora che possano avere successo. Funzionano come una sorta di doppio filtro: prima analizzano ciò che viene chiesto, poi controllano se la risposta sta rispettando le regole.
Una delle cose più interessanti è il modo in cui questi classificatori vengono addestrati. Non si basano solo su dataset etichettati a mano, ma utilizzano una “costituzione” scritta in linguaggio naturale per generare automaticamente esempi di prompt dannosi. In pratica, il sistema simula i tentativi di jailbreak più comuni e li usa per imparare a riconoscere nuovi attacchi. Per renderli ancora più efficaci, Anthropic ha messo in campo un’IA che cerca attivamente nuovi modi per violare le protezioni, un approccio che aiuta il sistema a prepararsi a minacce ancora sconosciute.
I risultati dei test interni sembrano impressionanti. Su 10.000 tentativi di jailbreak, un modello senza protezione veniva ingannato nell’86% dei casi, mentre con i constitutional classifiers attivi, il tasso di successo degli attacchi è crollato al 4,4%. Anche dopo due mesi di test da parte di esperti indipendenti, non è stato trovato un metodo universale per aggirare la sicurezza. Questo non significa che il sistema sia inattaccabile, ma dimostra che rende le cose decisamente più complicate per chi vuole sfruttare l’IA in modo improprio.
La nuova frontiera della sicurezza IA
Tuttavia, anche il miglior sistema di protezione ha i suoi punti deboli. Alcuni attacchi riescono ancora a funzionare sfruttando parafrasi intelligenti o richieste molto lunghe e complesse. Invece di chiedere direttamente qualcosa di proibito, si possono trovare modi più sottili per arrivare allo stesso risultato. E la storia della sicurezza informatica insegna che, prima o poi, nuove tecniche di attacco verranno fuori.
Quindi, i constitutional classifiers sono un passo avanti importante, ma non sono la fine del problema. La sicurezza dell’IA è destinata a rimanere una sfida continua, dove ogni nuova difesa porta inevitabilmente alla nascita di nuovi attacchi. Anthropic ha reso più difficile violare i suoi modelli, ma la battaglia è tutt’altro che finita.