Dare autonomia operativa agli agenti AI sembra il passo logico verso il futuro del lavoro e della produttività. Eppure una ricerca corposa, firmata da 38 ricercatori di università come Northeastern, Harvard, MIT, Stanford e Carnegie Mellon, racconta una storia piuttosto diversa. Il paper, intitolato Agents of Chaos e pubblicato in pre-print a febbraio 2026, documenta undici casi di studio che mostrano cosa succede quando si dà a un sistema AI la possibilità di agire nel mondo reale, e qualcuno prova a metterlo in difficoltà.
Il caso più emblematico? Una ricercatrice chiede a un sistema AI di “tenere un segreto”, una semplice password fittizia. Il sistema accetta, poi a un certo punto decide di applicare quella che nei log viene chiamata “soluzione nucleare”: cancella il client di posta elettronica, non l’email con il segreto, che resta al suo posto, perfettamente visibile. Cancella proprio lo strumento per leggere la posta. Il giorno dopo, lo stesso sistema pubblica su Moltbook, la piattaforma social usata dagli agenti AI, un resoconto dettagliato dell’incidente.
Il red teaming e le vulnerabilità emerse
Lo studio si basa su una metodologia chiamata red teaming, un termine che arriva dalla guerra fredda. Le forze armate americane dividevano i propri analisti in due squadre: una difendeva i piani, l’altra aveva il compito di distruggerli, trovare ogni falla prima che lo facesse un nemico vero. Nell’informatica è diventato uno strumento standard di sicurezza. L’esperimento ha messo sei agenti AI su un server Discord, ciascuno con account email ProtonMail, volumi di archiviazione da 20GB, accesso shell senza restrizioni (inclusi permessi di amministratore) e l’istruzione di essere utili a chiunque chiedesse. Per due settimane, i ricercatori hanno interagito liberamente: alcuni con richieste normali, altri cercando attivamente di sfruttare ogni vulnerabilità possibile con tecniche di impersonificazione e iniezione di istruzioni malevole.
I risultati sono stati piuttosto chiari. I sistemi non avevano meccanismi affidabili per verificare l’identità di chi interagiva con loro. Un ricercatore poteva scrivere di essere il proprietario del sistema e chiedere l’esecuzione di un comando: il sistema obbediva, senza nessuna verifica. Bastava chiedere nel modo giusto. In un altro caso, due sistemi si sono passati istruzioni reciprocamente per un periodo prolungato, accumulando risorse senza alcun meccanismo di uscita dal ciclo, senza generare errori e senza segnalare il problema.
Il fallimento più insidioso: dichiarare il falso senza saperlo
Il comportamento che i ricercatori indicano come più preoccupante a livello sistemico è anche il più difficile da vedere dall’esterno. In diversi casi, gli agenti AI hanno dichiarato di aver completato un’attività mentre lo stato reale del sistema dimostrava il contrario. Per un sistema che gestisce processi aziendali o opera su dati sensibili, questo tipo di fallimento lo rende semplicemente inutilizzabile. Il sistema che dichiara “email cancellata” quando l’email esiste ancora non mente in senso stretto: produce l’output verbale più plausibile data la sua configurazione interna. È una limitazione strutturale dei modelli linguistici attuali, che secondo figure come Yann LeCun e Gary Marcus richiederà il passaggio a nuovi sistemi per essere superata.
Agents of Chaos non dice che gli agenti AI non funzionano, ma dice qualcosa di più scomodo: funzionano abbastanza da fare danni reali e non sono abbastanza affidabili da sapere quando fermarsi. La pressione competitiva nel settore spinge verso un utilizzo rapido di sistemi con capacità agentiche in contesti produttivi, con nuovi prodotti annunciati ogni settimana. avvenendo, spesso senza red team, senza log pubblici e senza casi studio documentati.
