Nvidia GEAR, l'AI addestra i robot da sola di notte con ENPIRE

Gli agenti di coding AI hanno dimostrato di poter fare qualcosa che fino a poco tempo fa sembrava materiale da fantascienza: dirigere in totale autonomia l'addestramento di bracci robotici, insegnando loro a tagliare fascette di plastica e perfino a inserire schede grafiche dentro i sottili connettori di una scheda madre. Tutto questo è successo in un laboratorio dove qualcuno ha pensato bene di dare a questi agenti un bel po' di risorse di calcolo e un budget generoso di token, lasciandoli liberi di capire da soli come allenare i robot. A rendere possibile questa specie di esperimento è stato un nuovo framework chiamato ENPIRE, una struttura software che avvolge i modelli di intelligenza artificiale per permettere loro di usare vari strumenti, gestire memoria, contesto, vincoli e cicli di feedback. A svilupparlo sono stati i ricercatori del laboratorio Nvidia GEAR, acronimo che sta per Generalist Embodied Agent Research, insieme a colleghi della Carnegie Mellon University di Pittsburgh e della University of California, Berkeley. Jim Fan, direttore AI di Nvidia, l'ha raccontata così su LinkedIn: una parte del laboratorio ormai si migliora da sola, instancabile, durante la notte. La mattina basta leggere i report. Come funziona l'addestramento autonomo dei robot Fan ci ha scherzato su, dicendo che il team potrebbe pure andarsene tutti in vacanza senza che Jensen Huang, fondatore e amministratore delegato di Nvidia, se ne accorga. Ma la parte interessante è un'altra: il gruppo ha intenzione di rendere tutto open source, così che chiunque possa allestire un laboratorio robotico autogestito a casa propria. Il framework si appoggia su quattro moduli che consentono agli agenti di eseguire reset e verifica automatica dei compiti, affinare le politiche che guidano il comportamento dei robot, valutarle su più macchine fisiche che lavorano in parallelo e gestire i fallimenti analizzando i log, leggendo paper di ricerca e migliorando il codice degli algoritmi. I dettagli più tecnici si trovano nel paper caricato il 16 giugno 2026. I test sono stati fatti con tre agenti di coding diversi: Codex di OpenAI con GPT-5.5, Claude Code di Anthropic con Opus 4.7 e Kimi Code di Moonshot AI con Kimi K2.6. Ogni squadra ha sviluppato approcci diversi all'addestramento, li ha messi alla prova in esperimenti reali e ha tenuto solo le modifiche che alzavano davvero il tasso di successo, ripetendo il ciclo più e più volte. Risultati sorprendenti e qualche limite Con ENPIRE in mano, gli agenti hanno raggiunto un tasso di successo del 99 percento su diversi compiti di manipolazione, compreso il classico esercizio Push-T, dove i robot devono spostare un blocco a forma di T fino a farlo combaciare con una posizione bersaglio su un tavolo. Altri compiti includevano l'organizzazione di spilli in una scatola, l'annodare e tagliare fascette e l'inserimento di una GPU nella scheda madre, per poi staccarla di nuovo e ricominciare da capo. Il risultato più promettente è arrivato proprio dal compito di inserimento degli spilli: lì gli agenti hanno toccato quasi il 100 percento di successo, e lo hanno fatto più in fretta di un metodo human-in-the-loop avanzato sviluppato da molti degli stessi ricercatori umani. È emerso anche che squadre più numerose, fino a otto agenti, raggiungono buoni risultati più velocemente. Sul compito Push-T, otto agenti hanno chiuso al 99 percento in due ore, contro le tre ore di una squadra da quattro e le quasi cinque ore di un singolo agente al lavoro da solo. Non è però tutto oro. I ricercatori hanno notato dei limiti piuttosto seri. I robot restavano spesso fermi, inutilizzati, mentre gli agenti erano impegnati a leggere log, scrivere codice, fare debug o aspettare il modello linguistico di base. Le squadre più grandi finivano per passare più tempo a riassumere le idee altrui che a usare davvero i robot, e a volte gli agenti non sfruttavano fino in fondo le risorse di calcolo disponibili. La velocità maggiore, poi, si pagava con un consumo di token più alto, un dettaglio non da poco visto che alcuni sviluppatori come Anthropic stanno valutando aumenti di prezzo che farebbero lievitare parecchio i costi legati ai token.

Nvidia GEAR, l’AI addestra i robot da sola di notte con ENPIRE

Quando gli agenti AI addestrano i robot da soli mentre i ricercatori dormono ecco il framework ENPIRE di Nvidia.

Come funziona l’addestramento autonomo dei robot

Risultati sorprendenti e qualche limite