Nel settore dell’intelligenza artificiale, le grandi aziende tecnologiche stanno spostando l’attenzione dalla semplice generazione di contenuti alla capacità di agire nel mondo digitale. È in tale scenario che Google presenta Gemini 2.5 Computer Use, un modello che punta a un’evoluzione sostanziale. Ovvero trasformare l’AI da strumento passivo a operatore attivo del web. L’annuncio, arrivato a pochi giorni dagli aggiornamenti presentati da OpenAI e Anthropic, segna un passaggio simbolico nella corsa verso sistemi autonomi. Google ha scelto un approccio più mirato: la navigazione controllata all’interno del browser. L’obiettivo non è sostituire l’utente, ma creare un’intelligenza capace di muoversi con precisione tra finestre, pulsanti e form.

Gemini 2.5 Computer Use: ecco i dettagli del nuovo progetto di Google

Il funzionamento del modello si fonda su una combinazione di comprensione visiva e ragionamento contestuale. Quest’ultima permette al sistema di leggere un’interfaccia grafica e reagire come un essere umano. Può cliccare, digitare o trascinare elementi in tempo reale, ma sempre entro limiti precisi di sicurezza: non controlla l’intero computer, solo la finestra del browser. Tale scelta riflette la volontà di Google di mantenere un equilibrio tra innovazione e tutela dell’ambiente digitale.

Il modello, accessibile per gli sviluppatori tramite Google AI Studio e Vertex AI, è già visibile in una dimostrazione pubblica su Browserbase. Al momento supporta 13 azioni fondamentali, ma la prospettiva è quella di un’evoluzione graduale, con un’espansione delle capacità e una maggiore rapidità di esecuzione. Le dimostrazioni ufficiali, infatti, sono ancora accelerate, segno che il sistema necessita di ottimizzazioni prima di raggiungere un livello operativo fluido.

Più che un semplice passo avanti tecnologico, Gemini 2.5 suggerisce un cambiamento di paradigma. L’AI non si limita più a comprendere il linguaggio naturale, ma interagisce con l’ambiente digitale. In futuro, tale direzione potrebbe ridefinire il concetto stesso di interfaccia. In uno scenario in cui l’utente e l’intelligenza artificiale condividono la stessa esperienza di navigazione.