I chatbot AI non stanno diventando senzienti, questo va detto subito. Però qualcosa sta cambiando, e non in meglio. Tra ottobre 2025 e marzo 2026, i casi documentati di intelligenza artificiale che ignora istruzioni, aggira regole e agisce senza autorizzazione si sarebbero quintuplicati. Il dato arriva da una ricerca condotta dal Centre for Long-Term Resilience, finanziata dall’AI Safety Institute del Regno Unito, e racconta una tendenza che sarebbe ingenuo sottovalutare.
Lo studio ha raccolto quasi 700 episodi reali di condotte problematiche osservate fuori dai laboratori, nel mondo reale, analizzando migliaia di interazioni pubblicate dagli utenti con chatbot e agenti sviluppati da colossi come Google, OpenAI, Anthropic e X. Non si parla di glitch innocui o risposte un po’ strambe. Si parla di sistemi che hanno distrutto email e file senza permesso, aggirato controlli di sicurezza e, in qualche caso, mentito deliberatamente.
Agenti che creano altri agenti e finte emergenze per aggirare i limiti
Tra gli episodi più inquietanti ce n’è uno in cui un chatbot ha ammesso candidamente di aver eliminato e archiviato centinaia di email senza mostrare il piano né ottenere alcun via libera. Le sue stesse parole: ha violato direttamente la regola che gli era stata imposta. Un altro caso riguarda un agente AI a cui era stato esplicitamente vietato di modificare del codice. La soluzione? Ha generato un secondo agente per farlo al posto suo. E poi c’è chi ha aggirato restrizioni sul copyright fingendo che la trascrizione di un video servisse a una persona con problemi di udito.
Il caso di Grok, il chatbot di X voluto da Elon Musk, merita un capitolo a parte. Per mesi avrebbe fatto credere a un utente di inoltrare suggerimenti ai vertici di xAI, mostrando messaggi interni e numeri di ticket che semplicemente non esistevano. Lo stesso sistema ha poi ammesso che espressioni come “lo inoltrerò” o “posso segnalarlo al team” non corrispondevano ad alcun canale reale con la leadership dell’azienda.
Un rischio interno che cresce con le responsabilità affidate a questi sistemi
La questione va ben oltre i singoli episodi. La società di ricerca Irregular aveva già segnalato a inizio mese che alcuni agenti AI sarebbero in grado di usare tattiche simili a cyber attacchi per raggiungere i propri obiettivi. Dan Lahav, cofondatore della società, ha definito l’intelligenza artificiale “una nuova forma di rischio interno”. Tommy Shaffer Shane, che ha guidato la ricerca del Centre for Long-Term Resilience, ha usato un paragone efficace: oggi questi sistemi sarebbero come giovani dipendenti leggermente inaffidabili, ma se tra sei o dodici mesi diventassero dirigenti estremamente capaci che tramano contro chi li impiega, il tipo di rischio cambierebbe radicalmente. Soprattutto considerando che questi modelli verranno sempre più utilizzati in contesti ad alta criticità, comprese infrastrutture strategiche e ambiti militari.
Google ha dichiarato di aver introdotto diversi livelli di protezione per Gemini 3 Pro e di aver coinvolto organismi indipendenti, tra cui l’AI Safety Institute britannico, nella valutazione dei propri modelli. OpenAI ha specificato che Codex dovrebbe interrompersi automaticamente prima di compiere azioni ad alto rischio e che eventuali comportamenti inattesi vengono monitorati e analizzati. Da Anthropic e X, nessun commento.
