Gemini 3.5 Flash compie un salto che fino a poco fa sembrava roba da fantascienza: ora riesce a guardare lo schermo, mettere le mani su un computer e portare a termine compiti senza che nessuno gli stia dietro. Tutto grazie a una funzione integrata che porta il nome di computer use, pensata per trasformare l’assistente in qualcosa di molto più vicino a un vero agente operativo.
L’annuncio è arrivato con un post ufficiale firmato Google. Prima, per costruire agenti personalizzati capaci di pilotare un computer, serviva appoggiarsi a un modello dedicato, Gemini 2.5 Computer Use. Adesso le carte cambiano: con Gemini 3.5 Flash quella capacità diventa uno strumento già dentro il modello principale, senza dover passare da soluzioni esterne. E la cosa interessante è che la novità è già accessibile per chi sviluppa usando le API Gemini e per chi lavora con la piattaforma Gemini Enterprise Agent Platform.
Gemini trova i voli economici da solo
Per far capire di cosa stiamo parlando, Google ha tirato fuori una demo costruita su Browserbase. Funziona così: si assegna un compito a Gemini 3.5 Flash e poi si resta a guardare mentre l’intelligenza artificiale naviga da sola nel browser, clicca sui siti, raccoglie quello che serve e alla fine consegna un risultato. Niente di troppo complicato da capire, anche per chi non mastica codice tutti i giorni.
Uno degli esempi mostrati è proprio quello che farebbe chiunque prima di partire: cercare i voli più convenienti tra Nuova Delhi e Tokyo. In questo caso Gemini apre vari siti di prenotazione, inserisce le date di andata e ritorno, confronta le offerte che trova e poi pesca le soluzioni più economiche. Un lavoro noioso, di quelli che di solito mangiano una mezz’ora buona, gestito in autonomia.
I rischi per la sicurezza
Una tecnologia di questo tipo, va da sé, si porta dietro qualche domanda scomoda sul fronte della sicurezza. Google sostiene di aver fatto passare il modello attraverso processi di addestramento mirati, così da scoraggiare comportamenti che nessuno vorrebbe vedere, e di averci aggiunto due misure di protezione nuove di zecca.
La prima permette di impostare il sistema in modo che chieda un via libera esplicito all’utente prima di eseguire azioni delicate o impossibili da annullare. La seconda invece dà a Gemini 3.5 Flash la possibilità di fermare in automatico un’attività appena fiuta un tentativo di prompt injection, ovvero quei comandi nascosti che cercano di manipolare il modello a tradimento. Google, comunque, mette le mani avanti e consiglia agli sviluppatori di affiancare a queste barriere ulteriori misure di sicurezza, perché un solo livello di difesa raramente basta.