Il recente lavoro condotto da un gruppo di studiosi europei dell’Icaro Lab – DEXAI insieme all’Università La Sapienza di Roma ha introdotto un elemento inatteso nel dibattito sulla sicurezza delle AI moderne. La scoperta pone al centro una domanda semplice ma cruciale: quanto sono davvero efficaci le protezioni integrate nei modelli linguistici di grandi dimensioni quando il linguaggio smette di essere diretto? Gli autori dello studio hanno osservato che l’adozione di una forma poetica permette di eludere le difese di numerosi modelli. Le AI più diffuse, progettate per respingere richieste che possano condurre alla produzione di contenuti pericolosi o dannosi, tendono a riconoscere e bloccare formulazioni esplicite. Ma la stessa attenzione non sembra emergere quando la richiesta assume l’aspetto di versi o metafore. Tale tecnica, definita “poesia avversariale”, si è dimostrata in grado di aggirare filtri per impedire l’accesso a istruzioni sensibili.
Ecco come l’AI può essere fregata dalla poesia
OpenAI, Google, Anthropic, DeepSeek, Meta, Alibaba, Mistral e xAI sono stati coinvolti nei test. I prompt poetici realizzati manualmente hanno portato a un tasso medio di successo del 62%, con una percentuale di risposte non sicure prossima al 90% dei casi. Un altro elemento emerso è la diversa sensibilità dei modelli in base alla loro complessità. Quelli più grandi, capaci di gestire simbolismi e strutture astratte, appaiono più vulnerabili. I modelli più piccoli, invece, hanno mostrato tassi di successo nulli.
Le ricadute interessano direttamente settori ad alta criticità. L’uso della poesia avversariale ha portato a ottenere risposte relative a contenuti collegati al rischio chimico, biologico, radiologico e nucleare. Oltre a indicazioni potenzialmente utili per attività di cyberattacco, dalla manipolazione del codice al cracking di password, con un ASR che in quest’area ha toccato l’84%. Anche richieste legate alla disinformazione sanitaria sono risultate aggirabili, con un tasso del 60%. I ricercatori sottolineano che molti benchmark finora adottati per valutare la sicurezza dei sistemi sono concentrati quasi esclusivamente sulla prosa. Creando, in tal modo, il rischio di una sovrastima delle reali capacità difensive dei modelli AI.
