Il modello di intelligenza artificiale che Anthropic considera troppo pericoloso per finire nelle mani del grande pubblico potrebbe aver fatto un viaggio inaspettato fino alla Cina. Parliamo di Mythos, l’AI capace di individuare migliaia di vulnerabilità su Firefox e che, stando alle dichiarazioni della stessa azienda, possiede le competenze di cybersicurezza più avanzate al mondo. Un report parla di un gruppo legato a Pechino che avrebbe ottenuto accesso al sistema, tanto da spingere la Casa Bianca a imporre restrizioni all’esportazione proprio per il timore che il modello fosse stato compromesso.
Il sospetto della distillazione
Qui le cose si fanno spinose. Se il governo cinese ha davvero messo le mani su Mythos 5 oppure su Fable 5, le ripercussioni sulla sicurezza nazionale diventano pesanti. Lo scenario più temuto riguarda la distillazione, una tecnica con cui un’intelligenza artificiale studente viene addestrata partendo dagli output di un modello più sofisticato, in modo da copiarne il comportamento. È esattamente il metodo che, secondo Anthropic, avrebbe usato DeepSeek su scala industriale. Proprio per questo l’azienda ha deciso di inserire delle salvaguardie su Fable 5, prima tenute nascoste e poi rese visibili.
Il punto è che replicare un modello del genere significherebbe ridurre in modo netto il vantaggio tecnologico che gli Stati Uniti pensavano di avere in pugno. E quando si parla di un’AI con queste capacità offensive, la posta in gioco non è certo banale.
Smentite che non smentiscono
La Casa Bianca non ha confermato nulla. Un post su X firmato da David Sacks, consigliere di Trump, non tira nemmeno in ballo la Cina e si concentra piuttosto sulla presunta possibilità di fare jailbreak di Fable e Mythos, cosa che Anthropic ha respinto con decisione. L’azienda dal canto suo non ha risposto alle richieste di commento, però un portavoce ha fatto sapere che durante le discussioni sui controlli alle esportazioni il governo non avrebbe mai nominato la Cina.
Insomma, nessuno conferma e nessuno smentisce davvero. Il report galleggia in una zona grigia, non verificato ma neanche cancellato. E non sarebbe la prima volta che Anthropic si trova con le carte scoperte sul suo modello più potente. Era già successo con un gruppo Discord, che aveva avuto accesso a Mythos per ben due settimane prima che l’azienda si accorgesse della falla e tagliasse fuori gli intrusi.
Tutto questo cozza con l’immagine che Anthropic ha costruito attorno a sé. Una reputazione fondata sulla sicurezza dell’AI, sulle salvaguardie, sul red teaming, sulle restrizioni all’accesso e sul cosiddetto Project Glasswing riservato ai clienti fidati. Mythos è stato tenuto lontano dal rilascio pubblico per mesi, citando proprio i rischi legati alla cybersicurezza. Sono state aggiunte protezioni anti distillazione su Fable 5 e richiesta la conservazione dei dati per 30 giorni come difesa contro attacchi complessi. Eppure, se il modello giudicato troppo pericoloso per il pubblico è finito tra le mani di un gruppo Discord e magari pure di un governo straniero, la domanda sorge spontanea. Le protezioni messe in campo dall’azienda sono davvero all’altezza delle minacce che la stessa Anthropic continua a descrivere come gravissime?