L’offerta di intelligenza artificiale di Google si amplia con l’arrivo di Gemini 3.1 Flash Lite, una nuova variante progettata per puntare su rapidità e costi ridotti. Il modello entra a far parte della famiglia Gemini 3 e si posiziona come soluzione leggera rispetto a Gemini 3.1 Pro, che invece è pensato per compiti più complessi.
L’obiettivo di questa versione è chiaro: offrire uno strumento efficiente per servizi che devono gestire grandi volumi di richieste, mantenendo tempi di risposta molto rapidi.
Costi più bassi e maggiore velocità con Gemini 3.1 Flash Lite
Uno degli elementi centrali del nuovo Gemini riguarda il prezzo di utilizzo. Google indica un costo di 0,25 dollari per un milione di token in ingresso e di 1,50 dollari per un milione di token generati in uscita. Si tratta di tariffe pensate per applicazioni con traffico elevato, dove l’ottimizzazione delle spese diventa un fattore decisivo.
Accanto al risparmio economico arrivano miglioramenti anche sul piano delle prestazioni. Secondo i dati condivisi dall’azienda, il tempo necessario per iniziare a generare una risposta risulterebbe circa due volte e mezzo più rapido rispetto a Gemini 2.5 Flash. La velocità complessiva di produzione dell’output, invece, crescerebbe di circa il 45%.
Questi elementi rendono il modello particolarmente adatto a strumenti di automazione, assistenti digitali e servizi online che richiedono risposte quasi immediate.
Prestazioni competitive nei benchmark per Google
Nonostante la natura più leggera, Gemini 3.1 Flash Lite mantiene risultati competitivi anche nei test tecnici. Il modello ha ottenuto un punteggio Elo di 1432 nella classifica Arena.ai Leaderboard e risultati rilevanti nei benchmark GPQA Diamond e MMMU Pro.
In alcune situazioni, secondo Google, le prestazioni risultano paragonabili o addirittura superiori rispetto a modelli più grandi delle generazioni precedenti.
Un’altra caratteristica interessante riguarda il controllo offerto agli sviluppatori. Attraverso Google AI Studio e Vertex AI è possibile regolare il livello di elaborazione del modello, trovando il giusto equilibrio tra qualità delle risposte, velocità e costi di calcolo.
