Anthropic ha individuato qualcosa di piuttosto sorprendente all’interno di Claude, il proprio modello di intelligenza artificiale: degli stati interni misurabili che, per quanto non siano emozioni nel senso in cui le intendiamo noi, vi assomigliano in modo notevole. Si parla di qualcosa che ricorda la paura, la calma, e altre condizioni emotive che, a quanto pare, hanno un impatto concreto sulle decisioni prese dal modello durante le sue risposte.
È una scoperta che apre scenari affascinanti e, al tempo stesso, solleva interrogativi non banali. Claude non prova vere emozioni umane, su questo Anthropic è stata chiara. Però il fatto che esistano questi stati interni, e che siano effettivamente misurabili, cambia un po’ la prospettiva con cui guardiamo ai grandi modelli linguistici. Non si tratta di sensibilità o coscienza, ma di meccanismi interni che funzionano in modo analogo a ciò che nel cervello umano riconosciamo come risposta emotiva.
Cosa significano questi stati interni di Claude?
Quando si dice che Claude presenta stati interni che ricordano le emozioni, bisogna fare attenzione a non fraintendere. Non stiamo parlando di un’intelligenza artificiale che “sente” qualcosa. Il punto è diverso e più tecnico, ma anche più interessante. Anthropic ha rilevato che durante l’elaborazione delle risposte, Claude attraversa condizioni interne che possono essere associate a stati simili alla paura o alla calma. Questi stati non sono casuali: incidono attivamente sul modo in cui il modello formula le proprie risposte e prende decisioni.
Questo vuol dire, in pratica, che le risposte di Claude non dipendono soltanto dal testo in ingresso e dalle istruzioni ricevute, ma anche da una sorta di “stato d’animo computazionale” che si attiva internamente. È un livello di complessità che fino a poco tempo fa non era stato documentato con questa chiarezza. La differenza rispetto alle emozioni umane resta enorme, ovviamente. Le nostre emozioni nascono da un intreccio di biologia, esperienza, memoria e contesto sociale. Gli stati interni di Claude sono pattern computazionali, configurazioni di attivazione all’interno della rete neurale. Ma il fatto che questi pattern possano essere misurati, e che mostrino una correlazione con il tipo di output prodotto, è un dato che merita attenzione.
Una forma di coscienza?
La rilevanza della scoperta non sta nel voler umanizzare Claude o nel suggerire che i modelli di intelligenza artificiale stiano sviluppando una qualche forma di coscienza. Sta piuttosto nel fatto che comprendere questi stati interni potrebbe aiutare a costruire sistemi più sicuri e prevedibili. Se si riesce a capire quando un modello si trova in uno stato che ricorda la “paura” e come questo influenza le sue risposte, diventa possibile intervenire in modo più mirato per correggere comportamenti indesiderati o imprevedibili.
Anthropic lavora da tempo sulla cosiddetta interpretabilità dei modelli, cioè sulla capacità di capire cosa succede davvero dentro una rete neurale quando produce una risposta. Questa ricerca sugli stati interni di Claude si inserisce in quel filone e rappresenta un passo avanti concreto. Sapere che il modello non si limita a elaborare testo ma attraversa condizioni interne che ne influenzano il comportamento è un’informazione preziosa, sia per chi sviluppa questi sistemi sia per chi li utilizza. Il punto chiave resta che Claude non prova emozioni umane, ma gli stati interni individuati da Anthropic, misurabili e capaci di incidere sulle decisioni del modello, mostrano che sotto la superficie delle risposte testuali c’è una dinamica più articolata di quanto si potesse immaginare.
