Quasi nessuno si prende la briga di controllare quello che l’intelligenza artificiale restituisce come risposta. E no, non è un’esagerazione: secondo un report appena pubblicato da Anthropic, la società che sviluppa Claude, solo l’8,7% delle conversazioni con sistemi di IA contiene tracce di una qualche forma di verifica. Il dato, francamente, fa riflettere parecchio.
Il contesto in cui arriva questa analisi è tutt’altro che banale. Anthropic sta vivendo un momento di grande visibilità, anche grazie alla campagna QuitGPT che ha spinto molti utenti ad abbandonare ChatGPT dopo l’accordo tra OpenAI e il Pentagono. Ma al di là delle dinamiche di mercato, quello che emerge dal rapporto merita attenzione seria.
Come si comportano davvero gli utenti con l’IA
Lo studio ha analizzato quasi 10mila conversazioni anonimizzate tra utenti e sistemi di intelligenza artificiale, applicando il cosiddetto 4D AI Fluency Framework, un modello sviluppato dai professori Rick Dakan e Joseph Feller. I comportamenti osservati sono stati classificati in tre macro aree: la descrizione, cioè come viene formulata la richiesta; la delegazione, ovvero il modo in cui si indirizza il lavoro del modello; e il discernimento, vale a dire la capacità di valutare criticamente le risposte ottenute.
Ed è proprio sul discernimento che casca tutto. I numeri parlano chiaro: appena il 15,8% degli utenti mette in discussione il ragionamento dell’IA, e solo il 20,3% riconosce quando il modello potrebbe non avere abbastanza contesto per dare una risposta affidabile. Il fact checking, come già detto, si ferma a percentuali imbarazzanti. Significa che oltre nove persone su dieci accettano quello che leggono senza battere ciglio.
Quando l’output è convincente, il controllo sparisce
C’è un aspetto ancora più sottile che il report di Anthropic mette in evidenza. Quando gli utenti chiedono all’intelligenza artificiale di produrre risultati complessi, come codice, documenti strutturati o strumenti interattivi, tendono a essere più precisi nella fase iniziale. Formulano meglio la richiesta, danno indicazioni più dettagliate. Fin qui, tutto bene.
Il problema è che una volta ottenuto il risultato, soprattutto se appare curato e professionale, la verifica crolla. Il fact checking scende di 3,7 punti percentuali, l’identificazione del contesto mancante perde 5,2 punti e le domande sul ragionamento del modello calano di 3,1 punti. Tradotto: più una risposta sembra fatta bene, meno viene controllata. È un meccanismo psicologico comprensibile, certo, ma anche pericoloso.
Il vero nodo non è la tecnologia, ma chi la usa
Quello che emerge da questa analisi è piuttosto scomodo da ammettere. Il problema principale legato alla diffusione dell’intelligenza artificiale non riguarda tanto la tecnologia in sé, quanto la scarsa capacità critica di chi la utilizza. I modelli come Claude o altri chatbot sono strumenti potentissimi, ma restano strumenti. E uno strumento è utile nella misura in cui chi lo adopera sa riconoscerne i limiti.
Il report di Anthropic non offre soluzioni miracolose, ma pone una domanda che dovrebbe interessare tutti: se la stragrande maggioranza delle persone non è in grado di valutare la qualità delle risposte generate dall’IA, chi si assume la responsabilità degli errori? È una questione che va ben oltre il singolo utente e che chiama in causa piattaforme, educatori e legislatori. Perché fidarsi ciecamente di una macchina, per quanto sofisticata, non è mai stata una grande idea.
