Le AI Overview di Google stanno cambiando radicalmente il modo in cui le persone cercano informazioni online. Per gli editori rappresentano un problema enorme, visto che il traffico verso i siti web è calato drasticamente da quando gli utenti trovano risposte pronte direttamente nella pagina dei risultati. Per chi cerca, invece, sembrano una comodità assoluta: niente più clic, niente più scorrimento, tutto servito su un piatto d’argento. Ma quanto ci si può fidare davvero di queste risposte generate dall’intelligenza artificiale?
Uno studio commissionato dal New York Times alla startup Oumi ha provato a rispondere proprio a questa domanda, e i numeri non sono esattamente rassicuranti. Secondo l’analisi, il 91% dei riassunti prodotti dalle AI Overview contiene informazioni corrette, almeno a livello superficiale. Il dato che fa riflettere, però, è un altro: solo il 39% delle risposte è stato classificato come pienamente affidabile, cioè supportato in modo completo dalle fonti citate da Google. La differenza tra “corretto” e “affidabile” qui è sottile ma fondamentale. Una risposta può sembrare giusta, ma se non è verificabile attraverso le fonti indicate, resta sospesa in una zona grigia. La metodologia usata da Oumi è piuttosto diretta: ogni risposta è stata confrontata con dati certificati, valutando la correttezza solo in base alla query originale, senza considerare informazioni aggiuntive fornite dal motore di ricerca. Google, dal canto proprio, inserisce un disclaimer in fondo a ogni riassunto, avvertendo che le risposte dell’AI potrebbero contenere errori.
Il passaggio a Gemini di terza generazione migliora le cose, ma non del tutto
Va riconosciuto che la tecnologia sta facendo passi avanti. Oumi ha riscontrato un miglioramento tra la fine del 2025 e l’inizio del 2026, con il passaggio dalla seconda alla terza generazione del modello Gemini utilizzato da Google. Gli errori evidenti sono scesi dall’11% al 6%, il che è un progresso significativo. Eppure, contemporaneamente, le risposte pienamente supportate dalle fonti sono calate dal 52% al 38%. Un dato che suona quasi paradossale: meno errori grossolani, ma anche meno trasparenza verificabile. Le allucinazioni dell’intelligenza artificiale restano un nodo critico.
Lo studio si è basato su un processo ben definito. Si parte da una query inviata a Google, poi viene acquisito uno screenshot della risposta generata dalle AI Overview, che passa attraverso un sistema OCR per l’estrazione del testo. I dati ottenuti vengono quindi analizzati con il modello GPT-5 e successivamente verificati manualmente per la stesura del report finale.
Google contesta la metodologia dello studio
La base di partenza per le domande è il dataset SimpleQA, creato da OpenAI come benchmark per valutare quanto le intelligenze artificiali siano affidabili nel rispondere a migliaia di quesiti. Google, però, ha contestato apertamente questa scelta, definendola viziata in partenza. Secondo il gruppo di Mountain View, quel dataset non rappresenta il modo reale in cui gli utenti interagiscono con il motore di ricerca. L’azienda ha fatto riferimento a un dataset alternativo chiamato Verified SimpleQA, curato internamente e composto da circa un quarto delle query totali rispetto al benchmark originale. Una posizione che lascia aperto il dibattito sull’effettiva rappresentatività dei risultati, anche se il dato sul 39% di affidabilità piena delle AI Overview continua a far discutere parecchio nel settore.
