Gemma 4 12B è il nuovo arrivato nella famiglia di modelli di Google, e il punto interessante è proprio quello: portare capacità multimodali serie direttamente sul computer di casa, senza appoggiarsi al cloud. Annunciato il 3 giugno 2026, questo modello si infila in una posizione strategica, a metà strada tra i modelli edge della serie E e le varianti più muscolose da 26 miliardi di parametri.
L’idea di fondo è semplice da raccontare ma tutt’altro che banale da realizzare. Google sostiene che Gemma 4 12B riesca a gestire ragionamento avanzato, elaborazione multimodale e capacità agentiche su macchine con appena 16 GB di memoria unificata o VRAM. Una configurazione che ormai si trova in tanti notebook recenti e nei computer Apple Silicon di fascia media. In pratica, niente abbonamenti, niente connessione obbligatoria: tutto in locale.
Architettura encoder-free e audio nativo, ecco la vera novità
Il dettaglio tecnico che fa la differenza è l’architettura encoder-free. Nei modelli multimodali classici, immagini e audio passano prima da componenti separati che li traducono in qualcosa che il modello linguistico può capire. Tutto questo costa: più calcolo, più memoria occupata.
Google ha preso un’altra strada. Per le immagini, il solito encoder visivo è stato rimpiazzato da un modulo molto più leggero, basato su una singola operazione di moltiplicazione matriciale. Per l’audio il cambio è ancora più netto: il segnale grezzo viene proiettato direttamente nello stesso spazio vettoriale dei token testuali, e l’encoder dedicato sparisce del tutto.
Risultato? Gemma 4 12B diventa il primo modello di fascia intermedia della serie a supportare input audio nativi. Può quindi lavorare su contenuti vocali insieme a testo e immagini, tutto insieme. Per chi sviluppa applicazioni, gli scenari sono concreti: assistenti locali, sistemi di trascrizione multimodale, strumenti pensati per l’accessibilità e agenti AI capaci di muoversi tra immagini, documenti e file audio senza dover montare modelli diversi per ogni cosa.
Sul versante prestazioni, Google dichiara che Gemma 4 12B si avvicina alla variante 26B Mixture of Experts pur chiedendo meno della metà della memoria. C’è anche il supporto ai Multi-Token Prediction Drafters, una tecnica che prevede più token futuri durante l’elaborazione. Tradotto in pratica: meno latenza percepita, senza pretendere hardware più potente.
Licenza aperta e ampia compatibilità con gli strumenti più diffusi
Sul fronte distribuzione, la scelta è una licenza Apache 2.0. Una decisione che spalanca le porte all’uso professionale e commerciale, dettaglio non da poco per chi sviluppa prodotti veri. I pesi del modello si trovano su Hugging Face e Kaggle, con compatibilità garantita per Ollama, llama.cpp, MLX, vLLM, SGLang e Hugging Face Transformers.
Numeri alla mano, la famiglia Gemma ha già superato i 150 milioni di download complessivi. E continua a comparire in progetti che vanno dalla robotica fino ai sistemi di sicurezza aziendale, segno che l’approccio locale e aperto sta trovando terreno fertile ben oltre la nicchia degli appassionati.