A poche settimane dal debutto della famiglia Gemma 4, Google ha svelato una novità piuttosto interessante che potrebbe cambiare parecchio le carte in tavola per chi fa girare modelli di intelligenza artificiale direttamente sui propri dispositivi. La promessa è ambiziosa: triplicare la velocità di generazione senza sacrificare nulla in termini di qualità dell’output. Lo strumento si chiama Multi-Token Prediction drafter, ed è in sostanza un modello sperimentale basato su una tecnica nota come speculative decoding. Il concetto, semplificato al massimo, è quello di un’AI che lavora al fianco di un’altra AI per velocizzare tutto il processo.
Per chi non lo sapesse, Gemma 4 rappresenta la versione di Gemini pensata per funzionare principalmente in locale, su hardware consumer: dagli smartphone alle workstation, passando per configurazioni prosumer, senza dover dipendere interamente dal cloud. Una scelta che ha molto senso se si pensa alla crescente richiesta di privacy e autonomia da parte degli utenti, ma che porta con sé un limite strutturale tutt’altro che trascurabile.
Il collo di bottiglia dell’AI locale e la soluzione di Google
Il problema principale dell’esecuzione in locale riguarda la lentezza nell’elaborazione dei token. I modelli linguistici di grandi dimensioni, nella maggior parte dei casi, generano l’output un token alla volta, seguendo una sequenza rigida e lineare. Ogni singolo passaggio richiede un continuo scambio di dati tra la memoria video e le unità di calcolo, e su GPU consumer o dispositivi mobili la banda disponibile è decisamente inferiore rispetto ai sistemi enterprise dotati di memoria HBM. Ecco perché si crea un collo di bottiglia che rallenta tutto in modo significativo, rendendo l’esperienza molto meno fluida rispetto a quanto si ottiene via cloud.
Ed è esattamente qui che entrano in gioco i nuovi drafter MTP. L’idea di fondo è tanto semplice quanto efficace: anziché generare un solo token per volta, un modello leggero e veloce prova ad anticipare più token contemporaneamente, cercando di “indovinare” le parole successive mentre il modello principale prosegue con il suo lavoro. A quel punto Gemma 4 verifica in parallelo se le previsioni fatte dal drafter sono corrette. Quando lo sono, e a quanto pare succede spesso, l’intera sequenza di token viene accettata in un colpo solo. Il risultato è una riduzione drastica dei tempi di generazione.
Cosa cambia nella pratica con Gemma 4 e lo speculative decoding
In termini concreti, lo speculative decoding applicato a Gemma 4 non modifica la qualità delle risposte prodotte dal modello. Non si tratta di un compromesso tra velocità e accuratezza, almeno stando a quanto comunicato da Google. Si tratta piuttosto di un’ottimizzazione architetturale che sfrutta la previsione multipla per eliminare buona parte di quel tempo morto che normalmente viene sprecato nei passaggi sequenziali. E il fatto che si parli di velocità potenzialmente triplicata, senza perdita qualitativa, è un dato che vale la pena tenere d’occhio.
Per chi utilizza Gemma 4 su dispositivi con risorse limitate rispetto ai server cloud, questa novità potrebbe rappresentare un passo avanti notevole. Il modello resta lo stesso, la qualità non viene intaccata, ma il flusso di lavoro diventa molto più rapido grazie al supporto dei drafter MTP, che al momento restano comunque in fase sperimentale.