Mentre Google annunciava oggi il nuovo aggiornamento di Gemini in Workspace, arrivava in parallelo una conferma indipendente delle ambizioni del colosso di Mountain View nel settore della produttività. Gemini in Fogli ha raggiunto questa mattina la prima posizione nella classifica completa di SpreadsheetBench, il benchmark pubblico di riferimento per valutare la capacità dei modelli di intelligenza artificiale di operare su fogli di calcolo in scenari reali.
Il risultato è concreto e misurabile: un tasso di successo del 70,48% nella manipolazione autonoma di fogli di calcolo complessi, un valore che non solo supera tutti i modelli concorrenti attualmente classificati, ma che secondo i parametri del benchmark si avvicina alle capacità operative di un esperto umano. Non è un primato di nicchia: SpreadsheetBench è uno dei riferimenti pubblici più autorevoli per chi sviluppa e valuta strumenti di intelligenza artificiale applicati alla produttività aziendale.
Cosa misura SpreadsheetBench e perché conta
La distinzione tra un benchmark generico e SpreadsheetBench è sostanziale. Non si tratta di valutare la capacità di un modello di generare formule su richiesta, completare celle vuote o rispondere a domande sui dati. Il benchmark misura qualcosa di più vicino all’uso reale: la capacità di modificare autonomamente fogli di calcolo in scenari che replicano situazioni di lavoro concrete, con strutture non standard, dati disomogenei e complessità operative che un utente aziendale incontra quotidianamente.
Superare il 70% di tasso di successo in questo contesto non è banale. I modelli concorrenti restano distanziati in modo significativo, e il confronto con le capacità di un esperto umano — che il benchmark utilizza come riferimento superiore — indica che il gap residuo si sta assottigliando in modo rapido.
Il contesto: le novità di Gemini in Workspace di oggi
Il primo posto in SpreadsheetBench arriva nella stessa giornata in cui Google ha annunciato una serie di aggiornamenti sostanziali per Gemini in Google Fogli. Tra questi, la funzione Compila con Gemini — dichiarata 9 volte più veloce dell’inserimento manuale su attività con 100 celle — e la gestione in linguaggio naturale di problemi avanzati di ottimizzazione grazie all’integrazione con gli OR-Tools di Google DeepMind e Google Research.
I due annunci si rafforzano a vicenda in modo diretto. Le note di prodotto di Google descrivono le capacità dello strumento in termini di funzionalità e velocità dichiarata. Il benchmark indipendente offre invece una misura oggettiva e verificabile di quanto quelle capacità si traducano in risultati concreti su scenari reali. Per chi deve valutare l’adozione di strumenti AI in contesti aziendali, la combinazione di un annuncio ufficiale e di una validazione esterna indipendente nella stessa giornata è un elemento di peso nella fase decisionale.