chatbot

Di recente, alcuni ricercatori presso l‘NTU Singapore hanno fatto una scoperta sorprendente nel campo dell’intelligenza artificiale: la capacità di addestrare chatbot a “sbloccarsi” reciprocamente, un processo chiamato “jailbreaking“. Tale funzione, che ricorda le tecniche usate su prodotti Apple, coinvolge modelli di linguaggio come ChatGPT, Google Bard e Bing Chat.

Il concetto di “Masterkey“, sviluppato dal team di ricerca, prevede un attacco a due fasi, coinvolgendo il reverse engineering dei sistemi di protezione e l’addestramento di un altro Language Model (LLM) con i dati ottenuti. Questo “Masterkey” può poi essere utilizzato per attaccare chatbot LLM fortificati, anche dopo correzioni apportate dagli sviluppatori.

Chatbot ‘e il processo di Jailbreak’: Seri dubbi sulla sicurezza e l’etica delle Intelligenze Artificiali

Il professor Liu Yang, leader del team di ricerca, ha sottolineato che il jailbreaking è possibile grazie alla capacità di apprendimento e adattamento degli LLM chatbot. Questi ultimi diventano, in questo modo, un potenziale vettore di attacco per se stessi e per i rivali. Nonostante le precauzioni, un’intelligenza artificiale con blocchi di sicurezza può essere “ingannata” da un’altra AI addestrata.

Il “Masterkey” di NTU si è dimostrato tre volte più efficace nel jailbreaking rispetto ai prompt standard, superando le correzioni degli sviluppatori nel tempo. I ricercatori hanno identificato possibili metodi di attacco, come la manipolazione dei prompt aggiungendo spazi e risposte sotto falsa identità.

Il team di ricerca ha condiviso i risultati con aziende fornitrici di servizi AI, evidenziando la possibilità di eseguire con successo il jailbreak. Mentre le grandi aziende tecnologiche solitamente correggono i loro LLM/chatbot quando scoprono bypass, la capacità di apprendimento continuo del “Masterkey” solleva preoccupazioni sulla sicurezza delle IA. Con la presentazione prevista al Network and Distributed System Security Symposium a San Diego nel febbraio 2024, diventa essenziale che i fornitori di servizi adattino costantemente le loro difese per evitare il manifestarsi di potenziali eventi pericolosi.

Articolo precedenteVodafone, le SILVER hanno 150 GIGA al mese per pochi euro
Articolo successivoIl trojan Chameleon nasconde la sua minaccia dietro un’app