Google migliora il progetto Gemini con un nuovo componente pensato per eseguire attività complesse: Gemini Agent. La novità arriva insieme alla versione 3.0 dell’assistente basato sull’intelligenza artificiale generativa, già indicata come un passo avanti rispetto al modello precedente. Per il momento la disponibilità è limitata agli abbonati Google AI Ultra negli Stati Uniti e solo in ambiente desktop, ma l’introduzione segna una svolta chiara: l’assistente non si limita più a dialogare, bensì svolge operazioni reali al posto dell’utente.
Il sistema è in grado di gestire task articolati, come organizzare l’agenda, leggere ed etichettare le email, trovare documenti, creare presentazioni e compilare resoconti personalizzati. Tutte funzioni che superano la dimensione conversazionale tradizionale e trasformano Gemini in uno strumento operativo autonomo. Google ribadisce però un punto fondamentale: l’utente mantiene sempre il pieno controllo. Ogni attività richiede autorizzazioni esplicite, come accesso a Gmail, Calendar, Drive o al browser.
La modalità sandbox e l’interazione con le app Google
Quando necessario, Gemini Agent può aprire una sessione isolata di Chrome in modalità sandbox, progettata per limitare l’accesso a informazioni sensibili. All’interno di questo ambiente controllato l’assistente può navigare, scorrere pagine, cliccare link e raccogliere dati utili al task. È presente un pulsante che consente di prendere il controllo diretto della sessione in qualsiasi momento.
Gemini Agent può inoltre interagire con diverse applicazioni Google. È possibile chiedere di cercare l’ultima email di un determinato mittente con un allegato salvato su Google Drive, oppure approfondire fino a individuare allegati relativi a un progetto specifico e prepararne una bozza di risposta. L’integrazione consente un livello di automazione che avvicina l’assistente a un vero collaboratore digitale, capace di muoversi tra i servizi dell’ecosistema mantenendo sicurezza e permessi ben delineati.
Il confronto con i browser agentici
Da un punto di vista concettuale, Gemini Agent ricorda i cosiddetti browser agentici come Comet di Perplexity o Atlas di OpenAI, strumenti che non si limitano a mostrare il web ma agiscono direttamente sulle pagine. La differenza principale riguarda l’architettura: l’assistente di Google non è incorporato nel browser, quindi non accede automaticamente alla cronologia, ai cookie o agli account dell’utente. Una scelta che può ridurre la flessibilità, ma che Google considera un compromesso necessario per preservare la sicurezza e limitare l’esposizione dei dati personali.
In questa fase iniziale, la piattaforma si concentra su operazioni mirate e controllabili, lasciando intuire uno sviluppo progressivo verso strumenti sempre più autonomi ma regolati da permessi granulari. Gemini Agent rappresenta così uno dei passi più concreti nella trasformazione degli assistenti AI in veri operatori digitali.
