L’evoluzione dei browser basati sull’intelligenza artificiale porta con sé nuove opportunità, ma anche rischi difficili da eliminare del tutto. OpenAI ha riconosciuto apertamente che i prompt injection, una delle tecniche di attacco più insidiose contro gli agenti AI, continueranno a rappresentare una minaccia strutturale per questa categoria di software.
Un problema destinato a durare
In un recente intervento sul proprio blog, OpenAI ha paragonato i prompt injection alle truffe digitali e all’ingegneria sociale. Si tratta di attacchi che sfruttano istruzioni malevole nascoste all’interno di pagine web, documenti o email, con l’obiettivo di manipolare il comportamento dell’AI. Secondo l’azienda, è irrealistico pensare di eliminarli completamente, perché fanno leva su dinamiche simili a quelle che colpiscono da sempre gli utenti umani.
Il tema è tornato al centro dell’attenzione dopo il lancio di ChatGPT Atlas, avvenuto a ottobre. Poco dopo l’arrivo sul mercato, diversi ricercatori di sicurezza hanno dimostrato come fosse possibile alterare il comportamento del browser inserendo poche istruzioni all’interno di un semplice documento condiviso.
Preoccupazioni condivise dal settore
Le criticità non riguardano solo OpenAI. Anche il National Cyber Security Centre del Regno Unito e competitor come Brave hanno messo in guardia sul fatto che gli attacchi basati sui prompt contro l’AI generativa potrebbero non essere mai completamente mitigabili. L’introduzione di modalità “agente”, che consentono all’AI di agire per conto dell’utente, amplia ulteriormente la superficie di attacco, soprattutto quando il browser ha accesso a email, pagamenti e altri dati sensibili.
Un hacker virtuale per scoprire le falle
Per affrontare il problema, OpenAI ha sviluppato un attaccante automatizzato basato su modelli linguistici di grandi dimensioni. Questo sistema, addestrato con tecniche di reinforcement learning, simula il comportamento di un hacker e lancia attacchi complessi contro l’AI bersaglio. In questo modo gli ingegneri possono individuare vulnerabilità prima che vengano sfruttate nel mondo reale.
Secondo OpenAI, questo “hacker virtuale” è riuscito a scoprire strategie di attacco inedite, sfuggite persino ai team umani. Una dimostrazione concreta ha mostrato come un’istruzione nascosta in un’email potesse spingere l’agente AI a inviare un messaggio di dimissioni, anziché una risposta automatica di assenza dall’ufficio. Lo scenario è stato corretto con un aggiornamento, ma resta emblematico dei rischi.
Autonomia e accesso, una combinazione delicata
Gli esperti invitano alla prudenza. Rami McCarthy della società Wiz sottolinea che il pericolo nasce dalla combinazione di autonomia e accesso. I browser AI hanno capacità operative significative e un accesso privilegiato a informazioni critiche, una miscela che richiede controlli rigorosi.
OpenAI consiglia di mantenere conferme manuali per azioni sensibili come l’invio di messaggi o i pagamenti e di fornire istruzioni precise agli agenti, evitando comandi troppo generici. In un panorama dove l’AI diventa sempre più proattiva, la sicurezza resta un equilibrio complesso da mantenere.
