Libri consigliati per l’estate che non sono mai stati pubblicati. Avvocati che depositano memorie difensive zeppe di precedenti giuridici inventati di sana pianta. Articoli accademici che citano studi mai condotti da nessuno. Il punto non è tanto l’elenco, che potrebbe allungarsi parecchio, quanto il fatto che questi errori non sono stati commessi da persone, li ha prodotti l’AI. O meglio, le persone hanno sbagliato nel fidarsi ciecamente, senza alcuna verifica, dei risultati generati dai modelli linguistici che alimentano strumenti come ChatGPT, Claude o Gemini. Ed è così che si diventa vittime delle ormai famose allucinazioni delle intelligenze artificiali. Quei momenti in cui un sistema di AI generativa presenta come dato di fatto un’informazione completamente sbagliata o del tutto inventata.
Ma perché l’intelligenza artificiale sbaglia? Per capirlo, bisogna guardare al meccanismo che sta alla base di come funzionano questi modelli linguistici. Si chiama next token prediction. I “token” sono gli elementi linguistici con cui il modello lavora durante la generazione del testo. Una parola, un gruppo di parole, segni di punteggiatura e così via. “Prediction” significa che il sistema si limita a calcolare, su base statistica, quale token abbia la maggiore probabilità di risultare coerente con quelli che lo hanno preceduto. E qui sta il nodo. Non esiste un meccanismo interno che permetta al modello di distinguere ciò che è vero da ciò che è semplicemente plausibile.
Ed ecco il problema. “Plausibile” e “coerente” non vogliono dire “vero”. Una stima probabilistica può inevitabilmente sbagliare. Se si chiede a ChatGPT di completare la frase “sto portando il cane a fare una”, il sistema non avrà alcuna difficoltà a capire che la parola giusta è “passeggiata”. Ma quando la complessità del tema cresce, e il contesto da considerare si allarga, aumenta anche la possibilità che il modello linguistico sbagli, fornisca informazioni errate e cada vittima delle famigerate allucinazioni, chiamate anche “confabulazioni”.
Perché le allucinazioni dell’AI sono un problema strutturale
Come emerso da un’analisi approfondita, ogni token presente nel dataset di addestramento del modello (che contiene miliardi di testi estratti dal web) deve avere una probabilità di selezione superiore a zero. Questo dà al sistema la flessibilità necessaria per apprendere nuovi pattern, ma al tempo stesso crea il rischio concreto di generare informazioni scorrette. Il punto fondamentale è che i modelli linguistici sono probabilistici, mentre la verità non lo è.
Un esempio semplice. Se si scrive “la capitale della Francia è”, un modello linguistico indovinerà senza problemi che la frase va completata con “Parigi”, perché la probabilità statistica si avvicina al 100%. Ma la stragrande maggioranza dei fatti, e delle affermazioni che non possono essere definite semplicemente vere o false, è molto meno ovvia dal punto di vista statistico. E questo rende di fatto inevitabile che, ogni tanto, il modello produca veri e propri strafalcioni.
Secondo l’ultimo studio della società di ricerca Vectara, i più noti large language model hanno un tasso di allucinazioni che va dal 3,1% di GPT 5.4 (alla base di ChatGPT) fino al 7% di Gemini 2.5, con picchi che in alcuni casi toccano il 25%. La notizia peggiore è che gli addetti ai lavori ritengono il problema delle allucinazioni non eliminabile. Ciò perché è inscritto nel meccanismo probabilistico su cui si fonda l’AI stessa.
Qualcosa si può fare, ma la soluzione perfetta non esiste
Esistono comunque metodi per ridurre significativamente il rischio. Il primo si chiama retrieval augmented generation (RAG) e consente ai modelli linguistici di cercare informazioni online in tempo reale prima di generare la risposta. Il sistema effettua prima una ricerca sul web usando le parole chiave contenute nel prompt, poi utilizza i risultati ottenuti per costruire la risposta, invece di affidarsi solo a quanto appreso durante l’addestramento. Tale approccio riduce il tasso di allucinazioni, anche se non garantisce un’accuratezza completa.
Un secondo metodo si basa sul contributo umano. Si chiama “reinforcement learning from human feedback” (RLHF) e prevede che, nella fase di addestramento, delle persone valutino le risposte del modello, indicando quali siano le migliori e aiutandolo così a migliorare la propria precisione. Il limite di questo approccio è che diventa sempre più difficile da applicare su larga scala man mano che la complessità delle domande aumenta.
Il sistema più efficace per evitare le allucinazioni resta comunque ricordarsi che i modelli linguistici non sono oracoli, ma quelli che la linguista computazionale Emily Bender ha definito “pappagalli stocastici”. Sistemj che riproducono in formato probabilistico quanto hanno assorbito dal dataset, senza possedere alcuna conoscenza reale. Possono essere di grande aiuto in una miriade di compiti, ma ogni informazione che forniscono va sempre verificata.