ChatGPT, scoperta una falla nei filtri: generava immagini vietate

Bastava un semplice testo per spingere ChatGPT a produrre immagini che non avrebbe mai dovuto generare. È questo il cuore di un report firmato da Mindgard, società che si occupa di ricerca e cybersecurity, e che ha messo nel mirino i sistemi di sicurezza pensati da OpenAI per la sua creatura più famosa. Il documento parla chiaro, e il punto centrale riguarda una possibile vulnerabilità nei filtri che dovrebbero impedire la creazione di contenuti inappropriati attraverso la generazione di immagini. Il meccanismo, almeno sulla carta, dovrebbe funzionare come una barriera. Quando un utente chiede qualcosa che esce dai binari delle regole, il sistema interviene e blocca la richiesta. La ricerca però racconta una storia diversa, perché secondo quanto emerso sarebbe stato possibile aggirare quei controlli sfruttando proprio il modo in cui i comandi testuali vengono interpretati dal modello. In altre parole, con le parole giuste si riusciva a forzare la mano a ChatGPT e a ottenere risultati che i filtri avrebbero dovuto fermare sul nascere. La risposta di OpenAI e il nodo della sicurezza A rendere la vicenda particolarmente delicata è il fatto che non parliamo di un sistema marginale. La generazione di immagini è diventata una delle funzioni più usate e apprezzate di tutta la piattaforma, e proprio per questo qualsiasi crepa nei suoi meccanismi di protezione finisce per pesare parecchio. Un conto è scrivere una frase e ricevere un testo, un altro è dare in pasto allo strumento una richiesta capace di trasformarsi in un contenuto visivo che non dovrebbe esistere. Di fronte a queste segnalazioni OpenAI è intervenuta. La società ha preso atto delle criticità sollevate dal report e si è mossa per correggere il tiro, lavorando sui punti deboli individuati dai ricercatori. Non è la prima volta che l'azienda si trova a dover rincorrere chi prova a piegare i suoi modelli verso usi che vanno contro le linee guida, e probabilmente non sarà nemmeno l'ultima. Il tema della cybersecurity applicata all'intelligenza artificiale resta uno dei terreni più scivolosi del momento. Più questi strumenti diventano potenti e diffusi, più aumenta la superficie di attacco per chi cerca di sfruttarli in modo improprio. Report come quello di Mindgard servono proprio a questo, a far emergere quelle falle prima che vengano usate su larga scala da chi non ha buone intenzioni. E il caso che riguarda i filtri immagini di ChatGPT è l'ennesimo segnale di quanto la corsa tra chi costruisce le difese e chi prova a romperle sia ancora tutta in salita.

ChatGPT, scoperta una falla nei filtri: generava immagini vietate

Mindgard scopre una falla nei filtri di ChatGPT che permetteva di generare immagini vietate aggirando i controlli di OpenAI.

La risposta di OpenAI e il nodo della sicurezza