Una scoperta recente sta sollevando nuove preoccupazioni riguardo lo sviluppo e l’ottimizzazione dei modelli di intelligenza artificiale. Uno studio condotto da Anthropic, in collaborazione con l’Università di Berkeley e altri centri di ricerca, ha evidenziato che i modelli linguistici possono influenzarsi a vicenda. Ciò anche attraverso dati che, all’apparenza, risultano innocui. Tale fenomeno, chiamato “apprendimento subliminale”, mette in discussione la fiducia riposta nei sistemi attuali di distillazione. Una tecnica ampiamente utilizzata per addestrare modelli più piccoli e leggeri a partire da versioni più grandi. Alla base dello studio c’è l’osservazione che il processo di distillazione può comportare la trasmissione di preferenze comportamentali. Ciò anche quando i dati non contengono alcun riferimento esplicito. In pratica, il semplice fatto che i dati siano stati generati da un modello con certi bias è sufficiente, in alcuni casi, a trasmettere quegli stessi bias a un altro modello.
AI trasmettono determinati bias ad altri modelli
In un ecosistema dove chiunque può riutilizzare modelli esistenti per addestrarne di nuovi, il rischio di trasmettere comportamenti indesiderati diventa concreto. Un attore malevolo, ad esempio, potrebbe deliberatamente manipolare un modello insegnante e innescare, tramite distillazione, una catena di modelli futuri che riproducono quegli stessi tratti. Ciò anche se nei dati non compare nulla di apertamente scorretto.
Le tecniche convenzionali di rilevamento non si sono rivelate efficaci nel distinguere tra dati “puliti” e contaminati da segnali comportamentali. Ciò dimostra che la trasmissione avviene su un piano statistico profondo, inaccessibile agli strumenti di valutazione attualmente disponibili. La soluzione più affidabile individuata finora consiste nell’evitare che i modelli coinvolti nella distillazione provengano dallo stesso ceppo originario.
Eppure, tale strategia si scontra con le abitudini consolidate di molte realtà accademiche e industriali. Le quali preferiscono mantenere continuità tra modelli AI per motivi di compatibilità e performance. Serve un nuovo approccio alla sicurezza dei modelli linguistici, capace di analizzare i segnali nascosti e di prevenire la propagazione involontaria (o intenzionale) di comportamenti indesiderati attraverso meccanismi apparentemente sicuri.
