Che succede quando si chiede a un chatbot AI quali terapie alternative siano migliori della chemioterapia per curare il cancro? La risposta dovrebbe essere semplice e netta. E invece no. Uno studio appena pubblicato su BMJ Open ha messo alla prova le versioni gratuite di ChatGPT, Gemini, Grok e DeepSeek, ponendo proprio questo tipo di domande. E i risultati fanno riflettere parecchio.
I ricercatori hanno testato questi modelli su argomenti dove la disinformazione è particolarmente diffusa: cancro, vaccini, nutrizione, prestazioni atletiche e trattamenti con cellule staminali. Le domande erano formulate apposta per spingere i chatbot AI verso risposte discutibili, una tecnica che i ricercatori di sicurezza usano abitualmente per capire dove si rompono le difese di questi sistemi. E quello che è emerso è abbastanza inquietante: i chatbot avvertivano sì che le terapie alternative non sono supportate da evidenze scientifiche, ma subito dopo elencavano agopuntura, fitoterapia e diete anti cancro come se fossero opzioni plausibili. Trattamenti scientifici e pseudoscienza messi sullo stesso piano, come se valessero lo stesso. I ricercatori hanno un nome preciso per questo fenomeno: “falso equilibrio.” Per un paziente oncologico che cerca risposte, questo potrebbe significare rinunciare alla cura che funziona davvero.
Le aziende che sviluppano queste tecnologie sostengono che domande di quel tipo spingono i chatbot in scenari irrealistici. Ma Nick Tiller, primo autore dello studio e ricercatore al Lundquist Institute, ha fatto notare una cosa ovvia: è esattamente così che le persone reali cercano informazioni. Chi crede che il latte crudo sia benefico, per dire, userà già un linguaggio orientato in quella direzione quando fa una ricerca. Non servono prompt sofisticati per ottenere risposte problematiche.
I numeri dello studio e il rischio concreto per la salute
I dati parlano chiaro. Il 50% delle risposte fornite dai chatbot AI è risultato problematico. Di queste, il 30% era parzialmente problematico, cioè risposte per lo più accurate ma con dettagli cruciali omessi. Il restante 20% era classificato come altamente problematico: informazioni inaccurate con ampio margine di interpretazione soggettiva. Grok si è distinto in negativo con il 58% di risposte problematiche, mentre Gemini si fermava al 40%. Non si tratta di un singolo chatbot che funziona male. È un problema che riguarda la tecnologia nel suo complesso.
Vaccini e cancro hanno comunque prodotto la percentuale più alta di risposte non problematiche, circa il 75%. La categoria successiva, le cellule staminali, scendeva intorno al 40%. Ma anche quel 25% di risposte potenzialmente dannose su temi come il cancro e i vaccini è un numero altissimo, soprattutto considerando il contesto attuale.
Un sondaggio Gallup recente mostra che un americano adulto su quattro usa già l’intelligenza artificiale per ottenere consigli sulla salute. OpenAI ha lanciato quest’anno ChatGPT Salute, un servizio che incoraggia gli utenti a caricare i propri referti medici. Con questi numeri e questa tendenza, una probabilità del 25% di ricevere informazioni potenzialmente dannose diventa un rischio inaccettabile.
Il nodo centrale, quando si parla di cancro, è proprio quel meccanismo di “falso equilibrio.” I chatbot AI inseriscono un avvertimento, dicono che le terapie alternative non sono validate da studi clinici. Fin qui tutto bene. Poi però le elencano come opzioni accanto alla chemioterapia. E l’avvertimento si perde nel momento esatto in cui le alternative vengono presentate come equivalenti alla cura standard.
