Hermes sposta gli agenti AI fuori dal cloud e li porta dritti sul desktop, dove possono mettere le mani su finestre, programmi e file senza passaggi intermedi. È un progetto sperimentale, ancora in fase di rodaggio, ma racconta bene dove sta andando l’automazione intelligente: non più solo risposte testuali in una chat, ma azioni concrete sul computer di chi le richiede. Si inserisce in una fase precisa dell’evoluzione tecnologica, quella che tra il 2023 e il 2026 ha visto i modelli linguistici fondersi sempre di più con le operazioni reali sui sistemi informatici.
Il dato che fa capire la portata del fenomeno è uno solo: oltre il 60% degli strumenti AI emersi nel 2026 non si limita a generare testo, ma include funzioni di automazione operativa. Hermes è uno di questi, forse uno dei più interessanti.
Come funziona Hermes nella pratica
Parliamo di un desktop agent, cioè un software pensato per eseguire azioni direttamente sul sistema operativo, riducendo al minimo l’intervento manuale. La differenza con i chatbot classici è netta. Quelli vivono in ambienti isolati e restituiscono solo testo. Hermes, invece, interagisce con gli elementi grafici sullo schermo, con le applicazioni già installate e con i processi in esecuzione in quel momento.
Il cuore del sistema sono i comandi in linguaggio naturale. Si scrive una richiesta come la si direbbe a un collega, e i modelli linguistici integrati la traducono in istruzioni operative. Il meccanismo si basa su un approccio chiamato tool use: il modello non tocca direttamente il sistema, ma richiama funzioni specifiche, come aprire un’applicazione, scrivere un file, muoversi tra le cartelle o interagire con le interfacce grafiche simulando gli eventi di input. Nel mezzo c’è un livello di controllo che verifica se i comandi sono fattibili e gestisce l’accesso alle risorse del computer.
C’è poi un aspetto che merita attenzione. Hermes riesce a interagire con l’interfaccia grafica imitando i gesti di una persona: clic, digitazione, spostamenti tra le finestre. Questo apre la porta anche al software legacy, quei programmi vecchi che non hanno API dedicate e che di solito restano fuori da qualsiasi automazione. Negli scenari più articolati, l’agente concatena più operazioni una dietro l’altra. Recupera un’informazione da un documento, la trasferisce in un foglio di calcolo, poi la esporta in un formato strutturato, gestendo ogni passaggio come parte di una sequenza costruita al momento.
Avere un agente che lavora in locale ha i suoi vantaggi, perché taglia la dipendenza dai server remoti per certe operazioni. Ma alza anche l’asticella su sicurezza e isolamento dei processi. Se un software può modificare file, avviare programmi e toccare dati sensibili, serve cautela. Per questo le implementazioni di questo tipo prevedono autorizzazioni granulari e sistemi di conferma per le azioni più delicate: l’agente propone una mossa e aspetta il via libera dell’utente prima di procedere.
Perché gli agenti desktop ridisegnano il software
Hermes arriva in un momento in cui il confine tra software tradizionale e assistente intelligente si fa sempre più sottile. Strumenti del genere segnano il passaggio verso un modello in cui l’interazione non si limita più alle interfacce statiche, ma passa attraverso richieste in linguaggio naturale. E questo cambia il modo stesso in cui si progettano le applicazioni, che devono diventare leggibili da sistemi esterni capaci di orchestrare operazioni complesse.
Negli ultimi anni si è vista una convergenza precisa tra assistenti personali, automazione dei processi e strumenti di produttività. Gli agenti desktop sono uno dei punti più avanzati di questo percorso. Qui l’interfaccia smette di essere un semplice strumento di input e diventa il luogo dove l’intenzione di chi usa il computer e l’esecuzione automatica si incontrano e si negoziano.