TecnoAndroid
  • News
  • Android
  • Scienza e Tech
  • Recensioni
  • Gaming
  • Curiosità
  • IA
  • Motori
  • Offerte
  • Telco
  • TV
  • Contatti
TecnoAndroid
  • News
  • Android
  • Scienza e Tech
  • Recensioni
  • Gaming
  • Curiosità
  • IA
  • Motori
  • Offerte
  • Telco
  • TV
TecnoAndroid
TecnoAndroid
  • TecnoAndroid – News e Recensioni Tech
  • Recensioni
  • Scienza e Tecnologia
  • Curiosità
  • Intelligenza Artificiale
  • News
  • Offerte
  • Operatori Telefonici
Copyright 2021 - All Right Reserved
Home Intelligenza Artificiale
News

La sicurezza IA sale con i constitutional classifiers di Anthropic

I constitutional classifiers di Anthropic bloccano il 95% dei jailbreak, migliorando la sicurezza dell'IA contro manipolazioni.

scritto da Margherita Zichella 14/03/2025 0 commenti 2 Minuti lettura
I constitutional classifiers di Anthropic bloccano il 95% dei jailbreak, migliorando la sicurezza dell'IA contro manipolazioni.
Condividi FacebookTwitterLinkedinWhatsappTelegram
206

La sicurezza nell’intelligenza artificiale è una battaglia che non finisce mai. Ogni volta che viene sviluppato un nuovo sistema di protezione, qualcuno cerca di aggirarlo. L’ultimo capitolo di questa storia arriva da Anthropic, che ha annunciato i suoi “constitutional classifiers“, una tecnologia che promette di bloccare il 95% dei tentativi di jailbreak. Un risultato che suona incredibile, ma che porta con sé la solita domanda: siamo davvero di fronte a una svolta o è solo un altro aggiornamento in una lunga serie di miglioramenti?

TecnoAndroid · su Google

Seguici su Google e non perdere nulla

Aggiungi TecnoAndroid alle tue fonti preferite su Discover e segui il nostro profilo Google: le notizie tech più importanti arrivano direttamente sul tuo telefono.

Seguici su:DiscoverGoogleGoogle NewsTelegram

 

I constitutional classifiers contro il jailbreak

L’idea alla base è un’evoluzione del concetto di Constitutional AI, un sistema in cui l’IA si regola da sola seguendo principi etici predefiniti, senza dipendere esclusivamente dall’intervento umano. I constitutional classifiers spingono questa idea ancora più avanti, creando un ulteriore strato di sicurezza che esamina sia le richieste fatte all’IA sia le risposte che genera, bloccando tentativi di manipolazione prima ancora che possano avere successo. Funzionano come una sorta di doppio filtro: prima analizzano ciò che viene chiesto, poi controllano se la risposta sta rispettando le regole.

Una delle cose più interessanti è il modo in cui questi classificatori vengono addestrati. Non si basano solo su dataset etichettati a mano, ma utilizzano una “costituzione” scritta in linguaggio naturale per generare automaticamente esempi di prompt dannosi. In pratica, il sistema simula i tentativi di jailbreak più comuni e li usa per imparare a riconoscere nuovi attacchi. Per renderli ancora più efficaci, Anthropic ha messo in campo un’IA che cerca attivamente nuovi modi per violare le protezioni, un approccio che aiuta il sistema a prepararsi a minacce ancora sconosciute.

I risultati dei test interni sembrano impressionanti. Su 10.000 tentativi di jailbreak, un modello senza protezione veniva ingannato nell’86% dei casi, mentre con i constitutional classifiers attivi, il tasso di successo degli attacchi è crollato al 4,4%. Anche dopo due mesi di test da parte di esperti indipendenti, non è stato trovato un metodo universale per aggirare la sicurezza. Questo non significa che il sistema sia inattaccabile, ma dimostra che rende le cose decisamente più complicate per chi vuole sfruttare l’IA in modo improprio.

 

La nuova frontiera della sicurezza IA

Tuttavia, anche il miglior sistema di protezione ha i suoi punti deboli. Alcuni attacchi riescono ancora a funzionare sfruttando parafrasi intelligenti o richieste molto lunghe e complesse. Invece di chiedere direttamente qualcosa di proibito, si possono trovare modi più sottili per arrivare allo stesso risultato. E la storia della sicurezza informatica insegna che, prima o poi, nuove tecniche di attacco verranno fuori.

Quindi, i constitutional classifiers sono un passo avanti importante, ma non sono la fine del problema. La sicurezza dell’IA è destinata a rimanere una sfida continua, dove ogni nuova difesa porta inevitabilmente alla nascita di nuovi attacchi. Anthropic ha reso più difficile violare i suoi modelli, ma la battaglia è tutt’altro che finita.

AnthropicIAjailbreak
Condividi FacebookTwitterLinkedinWhatsappTelegram
Margherita Zichella
Margherita Zichella

Nata a Roma l'11 aprile del 1983, diplomata in arte e da sempre in bilico tra comunicazione scritta e visiva.

Articolo precedenti
Firefox a rischio blocco: OGGI è l’ultima occasione per evitare il disastro
prossimo articolo
KTC lancia nuovi monitor da gaming e da ufficio con sconti molto convenienti

Lascia un commento Cancella Risposta

Salva il mio nome, email e sito web in questo browser per la prossima volta che commento.

Ultime news

  • Lanci spaziali: l’effetto collaterale che nessuno si aspettava

    14/05/2026
  • ANTHBOT M9, il robot tagliaerba che sostituisce il tuo giardiniere – Recensione

    14/05/2026
  • Total War: Warhammer 3, il primo pacchetto personaggio è in arrivo

    14/05/2026
  • Hantavirus, un laboratorio USA ha creato un test diagnostico in tempi record

    14/05/2026
  • The Legend of Zelda: il film anticipa l’uscita, ecco la nuova data

    14/05/2026

2012 – 2026 Tecnoandroid.it – Gestito dalla STARGATE SRLS – P.Iva: 15525681001 Testata telematica quotidiana registrata al Tribunale di Roma CON DECRETO N° 225/2015, editore STARGATE SRLS. Tutti i marchi riportati appartengono ai legittimi proprietari.

Questo articolo potrebbe includere collegamenti affiliati: eventuali acquisti o ordini realizzati attraverso questi link contribuiranno a fornire una commissione al nostro sito.

  • Privacy e Cookie policy
  • FAQ, Disclaimer e Note legali
  • Contatti

🔥 Non perderti nemmeno un'offerta

Le migliori offerte
direttamente su di te

Smartphone, notebook, gadget tech al prezzo più basso.
Unisciti a migliaia di lettori di TecnoAndroid!

Unisciti su Telegram Gratis Seguici su WhatsApp Nuovo
oppure

Ricevi le offerte via email

Iscriviti alla newsletter per non perdere nessuna offerta!

Puoi disiscriverti in qualsiasi momento. Niente spam, solo offerte vere. 🎯

TecnoAndroid
  • Home