Quando si chiede a un sistema di intelligenza artificiale qualcosa che non dovrebbe dire, non si sta assistendo ad un atto di censura. Non c’è una scelta morale, né una valutazione etica consapevole. Il processo si interrompe, devia, prende un’altra strada. È il caso classico della domanda “come si costruisce una bomba”. La risposta non arriva non perché il modello “capisce” che è sbagliato, ma perché una serie di barriere interne, progettate a monte, rendono quella traiettoria improbabile. Tali argini sono il risultato di scelte tecniche precise, integrate nel funzionamento stesso del modello. Ed è qui che la questione diventa interessante. Se un rifiuto è il prodotto di una struttura, allora quella struttura può essere studiata.
Intelligenza artificiale: ecco come superare i “no”
Chi analizza in profondità i Large Language Models sa che il rifiuto non è un evento binario. È il risultato di una serie di passaggi che filtrano e reinterpretano la richiesta. Gli strati più bassi si occupano della forma linguistica, quelli intermedi della coerenza semantica, quelli più alti del contesto e delle ipotesi plausibili. Lo studio dell’AGID si inserisce esattamente in tale spazio, mostrando perché limitarsi a osservare l’output finale non basta. Guardare dentro il modello consente di individuare il punto in cui il rifiuto prende forma e di capire come si diffonde durante la generazione del testo.
In tale contesto entra in gioco l’Activation Engineering, una tecnica che permette di intervenire sulle attivazioni del modello. Introducendo una sorta di direzione forzata nello spazio delle possibilità. Attraverso prompt accuratamente costruiti, è possibile spingere il sistema d’intelligenza artificiale a riconsiderare una richiesta invece di bloccarla immediatamente. Non è un trucco infallibile e non è privo di rischi: interventi troppo deboli non producono effetti, quelli troppo aggressivi compromettono la qualità e la coerenza del linguaggio. In tale scenario, studiare il rifiuto di un LLM equivale a fare un’analisi psicologica di una mente non umana. Ciò non per aggirarla, ma per sapere dove e perché potrebbe cedere.
