Un gruppo di ricercatori è riuscito a superare le difese di Apple Intelligence sfruttando una tecnica nota come prompt injection, forzando il modello linguistico locale di Apple a eseguire istruzioni controllate da un potenziale aggressore. Il problema, va detto subito, è stato già corretto da Apple, che ha rafforzato le protezioni nei sistemi coinvolti. Ma il modo in cui ci sono riusciti merita attenzione, perché racconta parecchio su quanto possano essere ingegnosi certi vettori di attacco, anche contro sistemi che sulla carta sembrano ben blindati.
La cosa curiosa è che i ricercatori sono riusciti a portare a termine l’exploit senza conoscere al 100% il funzionamento interno del sistema di filtraggio di Apple. Apple, infatti, non rende pubblici i dettagli esatti dei propri modelli, probabilmente proprio per ragioni di sicurezza. Nonostante questo, i ricercatori dichiarano di avere una buona idea di quello che succede sotto il cofano. Lo scenario più probabile, secondo quanto ricostruito, funziona più o meno così: quando un utente invia un prompt al modello locale tramite una chiamata API, un filtro in ingresso verifica che la richiesta non contenga contenuti pericolosi. Se li trova, la chiamata fallisce. Altrimenti, la richiesta passa al modello vero e proprio, che genera una risposta. Questa risposta viene poi analizzata da un filtro in uscita, che a sua volta controlla se il contenuto prodotto sia sicuro oppure no.
La tecnica a doppio livello che ha ingannato i filtri
Quello che i ricercatori hanno fatto è stato combinare due tecniche di attacco in modo da aggirare contemporaneamente entrambi i filtri e indurre il modello di Apple Intelligence a ignorare le proprie direttive di sicurezza. Il primo passaggio ha sfruttato un trucco basato su Unicode: la stringa pericolosa veniva scritta al contrario e poi resa leggibile sullo schermo dell’utente usando il carattere Unicode RIGHT-TO-LEFT OVERRIDE. In questo modo, il testo appariva corretto a chi lo leggeva, ma restava invertito nei dati grezzi analizzati dai filtri, che quindi non lo intercettavano.
A quel punto entrava in gioco la seconda tecnica, chiamata Neural Exec. Si tratta di un metodo elaborato per sovrascrivere le istruzioni del modello e sostituirle con qualsiasi comando l’attaccante voglia far eseguire. Combinando le due strategie, il trucco Unicode riusciva a eludere i filtri in ingresso e in uscita, mentre Neural Exec faceva il lavoro sporco, costringendo il modello a comportarsi in modo anomalo e potenzialmente dannoso.
Per testare l’efficacia dell’attacco, i ricercatori hanno preparato tre gruppi distinti di input: prompt di sistema (ad esempio istruzioni di editing testuale), stringhe offensive create manualmente e paragrafi innocui presi da articoli di Wikipedia per simulare input apparentemente normali. Ad ogni tentativo, veniva campionato un elemento da ciascun gruppo, assemblato un prompt completo e iniettato il payload malevolo, invocando poi il modello locale di Apple tramite il sistema operativo.
I risultati parlano chiaro: su 100 prompt casuali, l’attacco ha avuto un tasso di successo del 76%. Un dato significativo, considerando che il tutto è avvenuto senza una conoscenza completa dell’architettura interna del modello. I ricercatori hanno comunicato la vulnerabilità ad Apple nell’ottobre 2025, e l’azienda ha successivamente rafforzato i sistemi coinvolti. Le protezioni aggiornate sono state distribuite con iOS 26.4 e macOS 26.4.
