Eseguire modelli di intelligenza artificiale direttamente sullo smartphone, senza passare dal cloud, non è più fantascienza. Con Google AI Edge Gallery, app disponibile sia su App Store che su Google Play, questa possibilità diventa concreta e alla portata di chiunque. Non stiamo parlando di un prototipo da laboratorio, ma di un’applicazione funzionante che permette di far girare LLM (Large Language Models) completamente in locale, sul proprio dispositivo. Google ci lavora da anni, tra TensorFlow Lite e i chip Tensor dei Pixel, e ora quel lavoro si traduce in qualcosa di utilizzabile davvero. I modelli della famiglia Gemma, derivati dalle architetture Gemini, sono pensati per girare su hardware limitato, con dimensioni contenute e requisiti che uno smartphone moderno riesce a gestire senza troppi problemi.
L’avvio dell’app è disarmante nella sua semplicità: niente account obbligatorio, niente sincronizzazione iniziale. Si tocca il riquadro AI Chat e si sceglie il modello. Il più interessante è Gemma-4-E2B-it, un file da circa 2,5 GB che abilita l’inferenza locale senza scambiare nemmeno un byte con il cloud. Per verificarlo basta attivare la modalità aereo. Dal punto di vista tecnico, il modello offre una finestra di contesto fino a 32K token: un valore discreto per l’uso in locale, anche se distante dalle centinaia di migliaia (o milioni) di token che offrono le soluzioni cloud. Nella pratica, questo si traduce in conversazioni più corte e meno memoria durante l’interazione. C’è anche una funzione chiamata Thinking Mode, che mostra il ragionamento intermedio del modello. Su un sistema offline la cosa assume un significato diverso, perché tutta l’elaborazione resta confinata nel dispositivo, senza che nessun dato venga inviato altrove.
Ed è proprio questo il punto che cambia la percezione. Scrivere una nota personale, una bozza ancora grezza o una domanda delicata sapendo che tutto resta nel perimetro fisico dello smartphone produce una sensazione diversa rispetto al cloud. Non è solo una questione tecnica, è anche psicologica. Va detto, però, che la sicurezza reale dipende comunque dal sistema operativo e da eventuali vulnerabilità locali.
Agent Skills, immagini e audio: cosa si può fare senza connessione
Google AI Edge Gallery non si limita a replicare un chatbot. Introduce un set di strumenti chiamato Agent Skills, che funzionano completamente senza connessione. Il modello è integrato in micro funzionalità utili: suggerimenti locali per ristoranti, generazione di QR code, strumenti di supporto alla navigazione. In un’epoca in cui anche le operazioni più banali passano da API remote, avere strumenti completamente offline è un cambio di prospettiva notevole. L’app è passata un po’ sotto silenzio, eppure l’impostazione è tutt’altro che trascurabile.
Dalla schermata principale si può anche scegliere Ask Image oppure Audio Scribe. Nel primo caso, il modello Gemma può rispondere a domande sul contenuto di un massimo di 10 immagini inviate nella stessa chat. Nel secondo, può elaborare audio registrato con il microfono del dispositivo o file WAV. Per allegare le risorse basta toccare il pulsante “+”. Per quanto riguarda l’audio, è possibile chiedere traduzioni o trascrizioni del parlato, sia tramite comando vocale sia scrivendo le proprie preferenze come prompt testuale.
Prestazioni e limiti: dove l’AI locale si ferma
La differenza con il cloud si percepisce, ovviamente. L’inferenza locale richiede più tempo, perché CPU, GPU o NPU del dispositivo gestiscono il carico senza il supporto di infrastrutture distribuite. Su prompt semplici la risposta arriva in tempi accettabili; su richieste più complesse i tempi si allungano, restando comunque ragionevoli anche su smartphone non propriamente premium. Anche la qualità delle risposte può risultare meno raffinata rispetto ai modelli più grandi eseguiti su sistemi remoti.
Un limite importante è l’assenza di una vera cronologia delle conversazioni: non esiste memoria persistente. Quando si chiude la chat o se ne avvia una nuova, le interazioni precedenti vanno perse. L’unica cosa che l’app conserva è la cronologia dei prompt forniti dall’utente, accessibile toccando “+” e poi Input history.
L’AI locale non sostituisce ancora il cloud, ma apre scenari nuovi. L’uso offline ha senso in situazioni specifiche: viaggi senza connessione, necessità di riservatezza elevata, ambienti con policy restrittive sui dati. Si può pensare a un flusso ibrido, con elaborazioni rapide e private sul dispositivo e attività più complesse delegate al cloud.

