A una settimana dal lancio, ChatGPT Atlas ha evidenziato una falla di sicurezza ritenuta grave da esperti di cybersecurity. La scoperta è stata segnalata dalla società NeuralTrust, che ha identificato una tecnica di prompt injectioncapace di far eseguire al browser comandi nascosti semplicemente attraverso un input formattato come URL. Il problema sfrutta il comportamento dell’agente che tenta prima di visitare un indirizzo e poi interpreta parti del testo non valide come istruzioni da eseguire.
Il vettore di attacco è semplice e insidioso: un avversario può indurre la vittima a incollare nella sidebar di Atlas un finto link che contiene istruzioni in linguaggio naturale. Quando l’agente incontra la stringa manipolata, la esegue, abbassando le proprie difese. Questo tipo di jailbreak permette potenzialmente di reindirizzare l’agente verso siti di phishing, inviare richieste a servizi esterni o compiere operazioni su account cloud dell’utente.
Possibili conseguenze e scenari di rischio
NeuralTrust ha dimostrato esempi pratici del rischio: un semplice pulsante “Copy link” può distribuire un prompt camuffato che, una volta incollato, avvia una sequenza di azioni malevole. Gli scenari includono il furto di credenziali, l’inserimento di dati sensibili in pagine di phishing, o la modifica e cancellazione di file su servizi cloud come Google Drive, qualora l’agente ottenga accessi necessari. La vasta capacità operativa delle AI agentiche amplifica l’impatto di un singolo exploit.
La tecnica sfrutta la fiducia dell’utente nella natura apparente di un URL e la tendenza degli agenti a interpretare testo naturale come comandi, trasformando un filtro minimale in un canale di jailbreak e aggregando rischi su scala.
Raccomandazioni immediate
Limitare il copia-incolla di link non verificati; disabilitare temporaneamente funzioni di browsing automatico dell’agente; attendere aggiornamenti ufficiali e avvisi.
La priorità tecnica è correggere il parsing degli URL e introdurre validazioni stringenti sugli input esterni, oltre a vincoli operativi che limitino le azioni compiute dall’agente senza esplicita verifica. Fino al rilascio di una patch, serve massima trasparenza da parte di OpenAI e indicazioni pratiche per mitigare il rischio.
