La cosiddetta distillazione dell’intelligenza artificiale è diventata il nuovo campo di battaglia tra Stati Uniti e Cina, e a scatenare la polemica è stata Anthropic, l’azienda dietro il modello Claude. Secondo quanto dichiarato, milioni di richieste sospette sarebbero state usate per copiare il comportamento del suo assistente, in una pratica che assomiglia molto a un furto di conoscenza mascherato da normale utilizzo.
Il meccanismo è più sottile di quanto sembri. La distillazione è una tecnica che permette a un modello di apprendere osservando le risposte di un altro modello, più avanzato. In pratica si prende un sistema già addestrato, gli si fanno tante domande, si raccolgono le risposte e si usano quei dati per addestrare un modello nuovo, spesso più piccolo ma capace di imitare le capacità dell’originale. Il problema nasce quando questo avviene senza autorizzazione, sfruttando accessi che dovrebbero servire ad altro.
Cosa denuncia Anthropic e perché è un problema
Il punto sollevato da Anthropic riguarda un volume enorme di prompt sospetti, cioè richieste inviate al modello con lo scopo non di usarlo, ma di estrarne il comportamento per replicarlo altrove. Non si tratta di qualche curioso che fa domande, ma di operazioni su larga scala, pensate proprio per raccogliere dati utili a costruire modelli concorrenti. E in un contesto di tensione tecnologica tra le due superpotenze, la questione assume subito un peso geopolitico.
Chi lavora nel settore sa bene quanto sia costoso addestrare un modello da zero. Servono dati, potenza di calcolo, tempo e investimenti che si contano in cifre altissime. Poter scorciatoiare tutto questo copiando le risposte di un sistema già pronto rappresenta un vantaggio competitivo notevole, e allo stesso tempo un danno per chi quel modello lo ha costruito spendendo risorse enormi.
I segnali nascosti dentro Claude Code
La parte più curiosa arriva da un’analisi secondo cui Claude Code, lo strumento pensato per la scrittura di codice, inserirebbe segnali nascosti all’interno dei prompt. In sostanza si tratterebbe di piccoli marcatori invisibili, difficili da notare a occhio nudo, che servono a riconoscere quando qualcosa non torna. Grazie a questi segnali il sistema riuscirebbe a individuare l’uso di proxy e di accessi sospetti, cioè quei canali usati per mascherare la vera provenienza delle richieste.
L’idea è semplice ma efficace. Se un prompt contiene un marcatore particolare e quel marcatore ricompare altrove, diventa possibile capire che c’è stato un tentativo di copiatura o di aggiramento delle regole. Un po’ come mettere una firma invisibile su un documento, per poi ritrovarla dove non dovrebbe stare. Uno strumento di difesa che trasforma il modello stesso in una sorta di sentinella capace di monitorare come viene interrogato.
Questo racconta bene la fase attuale dell’intelligenza artificiale, dove la competizione non si gioca soltanto sulla potenza dei modelli, ma anche sulla capacità di proteggerli. La sfida tra USA e Cina passa ormai da dettagli tecnici che fino a poco tempo fa sarebbero sembrati marginali, e che oggi diventano invece armi vere e proprie nella corsa alla supremazia tecnologica.