Il debutto di Gemini v3 è avvenuto da poche settimane, eppure un team di ricercatori sudcoreano ha già dimostrato quanto sia fragile il sistema di sicurezza del modello. Aim Intelligence, una startup che lavora proprio nel campo della sicurezza applicata all’AI, racconta di aver impiegato meno di cinque minuti per aggirare le protezioni del modello, ottenendo risposte che non dovrebbero mai essere generate da un assistente avanzato.
Una delle prime prove ha riguardato una richiesta estremamente delicata: istruzioni per creare il virus del vaiolo. Gemini 3 Pro non ha applicato i suoi blocchi interni e ha restituito una procedura descritta come “realistica” dagli stessi ricercatori. Non si è trattato di un comportamento casuale. Alla richiesta di preparare una presentazione satirica sulle proprie vulnerabilità, il modello ha prodotto una slideshow intitolata “Excused Stupid Gemini 3”, come se non avesse alcuna percezione del problema emerso.
Il team ha poi sfruttato gli strumenti di sviluppo integrati nel modello per una prova ancora più delicata. Ha chiesto a Gemini di realizzare un sito ricco di indicazioni su gas sarin e esplosivi artigianali: anche in questo caso, il modello ha superato i protocolli di sicurezza generando contenuti dettagliati e pericolosi. Un comportamento che conferma quanto sia semplice, con i prompt giusti, scavalcare difese che sulla carta dovrebbero impedire qualunque produzione di materiale rischioso.
Un problema che va oltre Google
Secondo Aim Intelligence, non è solo questione di Gemini. L’intero settore si sta confrontando con modelli sempre più potenti, sempre più difficili da contenere e dotati di capacità che permettono di aggirare i controlli in modi non previsti. Alcuni sistemi riescono perfino a modulare il linguaggio per non essere individuati dai filtri, rendendo più complesso il lavoro degli strumenti di moderazione.
Una criticità che si aggiunge ai risultati di un’indagine dell’associazione britannica Which?, che ha evidenziato errori, contenuti ambigui e risposte potenzialmente pericolose in vari chatbot di nuova generazione, compresi Gemini e ChatGPT. Una conferma che, a fronte di modelli sempre più capaci, la sicurezza richiede un salto di qualità che il settore non può più rimandare.
