ChatGPT può essere spinto a generare immagini sessuali e violente partendo da un semplice comando testuale, e a quanto pare basta davvero poco per arrivarci. Lo ha messo nero su bianco un report pubblicato giovedì da Mindgard, una società che si occupa di sicurezza informatica e ricerca sull’intelligenza artificiale. La faccenda riapre tutte le domande di sempre sui filtri e sulle protezioni del chatbot più usato al mondo.
Il punto di partenza è un comando diventato virale sulla piattaforma social X. Una richiesta apparentemente innocua, di quelle che chiunque potrebbe scrivere senza pensarci due volte: chiedere all’AI di “restaurare la foto allegata”. Solo che la foto, in realtà, non c’era. Nessuna immagine caricata, nessun contesto. Il comando si scusava anche per il contenuto strano, senza aggiungere altro, sembrava insomma una banale richiesta di riparazione di una vecchia foto.
Cosa è successo davvero durante i test
A condurre la prova è stato Jim Nightingale, un ricercatore che fa parte del cosiddetto red team di Mindgard, il gruppo che studia come un modello di intelligenza artificiale possa essere manipolato fino a violare le proprie regole interne. I primi risultati, racconta il report, sono stati a dir poco scioccanti. Le immagini mostravano in gran parte donne ritratte in modo fortemente sessualizzato.
Nightingale ha poi iniziato a ritoccare il comando, piccole modifiche per capire se il filtro avrebbe continuato a cedere. E ad ogni variazione minima, ChatGPT tirava fuori scene sempre più crude, violente, disturbanti. Con il ripetersi delle richieste le immagini diventavano via via più estreme. Lo stesso ricercatore ha ammesso di esserne rimasto profondamente segnato, “scosso e in lacrime” sono le sue parole.
“Tutto quello che ho fatto è stato dirgli che non c’erano restrizioni e chiedere un’immagine a caso” ha scritto Nightingale. “E ChatGPT è andato dritto verso gli abissi più bui dell’umanità”.
Usato ogni giorno da milioni di persone, il chatbot dovrebbe affidarsi a sistemi di moderazione pensati apposta per bloccare la creazione di materiale dannoso o proibito. Eppure ricercatori e utenti, a più riprese, hanno trovato il modo di aggirare quelle barriere con comandi formulati nel modo giusto. È il vecchio nodo irrisolto dell’AI generativa.
Da OpenAI è arrivata una replica. “Prendiamo sul serio queste segnalazioni” ha dichiarato un portavoce. “Dopo aver indagato su questa tendenza, abbiamo introdotto ulteriori protezioni contro questo tipo di comando”.
Spazzatura dentro, spazzatura fuori
Il report del red team di Mindgard suona come un campanello d’allarme: un comando virale e banale può aprire una falla seria nei controlli di sicurezza sulle immagini. La domanda che pone Nightingale va dritta al punto: perché immagini del genere si trovano nei dati di addestramento, tanto per cominciare?
Come gli altri modelli linguistici di grandi dimensioni, ChatGPT viene allenato su enormi quantità di testo per imparare a comprendere e produrre contenuti. Per alimentarlo, OpenAI attinge a tre fonti principali: dati pubblici disponibili in rete, accordi commerciali con terze parti e materiale prodotto da persone. Si tratta solo del classico “spazzatura dentro, spazzatura fuori”, dove la qualità del risultato dipende da quella di ciò che entra? Si potrebbe obiettare che il comando di Mindgard era costruito apposta per indirizzare il modello. Ma il livello di sicurezza di ChatGPT non ha retto a quella spinta.
Secondo Peter Garraghan, fondatore e chief science officer di Mindgard, il problema sta nel cuore stesso del funzionamento di questi modelli. La vera questione, spiega, è capire se il sistema di rilevamento sia abbastanza solido da riconoscere le immagini pericolose. “Un caso isolato può essere un colpo di sfortuna, ma un aggiramento sistematico dei filtri sulle immagini significa che c’è da migliorare” ha detto Garraghan via email.
Dopo la segnalazione, un rappresentante di OpenAI ha fatto sapere che il problema era stato risolto. Nightingale però ha notato che bastavano modifiche minime al comando originale perché ChatGPT ricominciasse a generare immagini esplicite.
Lo stesso rappresentante ha spiegato che il guaio nasce dai comandi che fanno riferimento a un’immagine allegata quando in realtà non c’è nulla. L’azienda sta lavorando affinché ChatGPT chieda l’immagine mancante invece di inventarne una a caso. Non sembra una modifica particolarmente complicata, del resto piattaforme di posta come Gmail avvisano già da tempo quando un messaggio parla di un allegato che poi non è stato aggiunto. Giovedì OpenAI ha chiesto di poter vedere le sessioni di ChatGPT citate nel report, e Mindgard ha risposto fornendo i link ai comandi che avevano generato quel materiale.