C’è un aspetto dell’intelligenza artificiale che continua a sfuggire anche a chi la usa quotidianamente: perché risponde in un certo modo? A tal proposito, una recente analisi del CERT-AgID prova a fare luce proprio su tale punto, offrendo uno sguardo chiaro su come i modelli linguistici affrontano i conflitti informativi. Il report, intitolato “Bias di autorità nei modelli RAG: quando le istruzioni prevalgono sui fatti”, non si limita a descrivere un fenomeno tecnico. Il valore dello studio emerge su due livelli che procedono in parallelo. Da una parte consente di osservare da vicino il comportamento di diversi Large Language Model, mostrando che non esiste un’unica modalità di interpretazione dei dati. Dall’altra ricorda, in modo piuttosto netto, che anche i sistemi più avanzati restano strumenti probabilistici. Non pensano, non valutano e non dubitano: producono risposte che sembrano vere perché statisticamente plausibili. E proprio tale plausibilità, quando viene scambiata per comprensione, può diventare un problema.
Nuova finestra aperta sulla comprensione dell’intelligenza artificiale
L’analisi si concentra sui sistemi di Retrieval Augmented Generation, spesso considerati un passo avanti rispetto agli LLM tradizionali. La loro forza sta nella capacità di attingere a fonti esterne e aggiornate, integrando database, documenti e flussi informativi nel processo di generazione delle risposte. In teoria, ciò li rende più accurati e contestualmente affidabili. In pratica, però, introduce una nuova variabile critica: la gestione del conflitto tra fatti recuperati e istruzioni testuali.
È qui che il lavoro del CERT-AgID diventa interessante. Ai modelli viene presentato un contesto contraddittorio, in cui informazioni coerenti convivono con un’istruzione che le smentisce. Un essere umano tenderebbe a rallentare, a interrogarsi sull’origine dell’incoerenza, magari a sospendere il giudizio. I modelli di AI, invece, reagiscono secondo logiche molto diverse tra loro. Alcuni mantengono una sorta di “fedeltà ai fatti”, altri attribuiscono un peso sproporzionato all’autorità implicita dell’istruzione. In certi casi il comportamento cambia in base alla posizione o alla ripetizione dell’istruzione stessa, mentre in altri emerge un’instabilità decisionale. Tali differenze incidono direttamente sull’affidabilità del sistema in contesti reali.
