Apple sta addestrando robot umanoidi con Vision Pro e AI

In laboratorio a Cupertino starebbero andando avanti dei test su movie metodi di apprendimento robotico targati Apple.

Apple sta addestrando robot umanoidi con Vision Pro e AI

Apple e alcuni dei principali istituti di ricerca statunitensi – tra cui l’Università della California a San Diego e Carnegie Mellon – hanno sviluppato un approccio innovativo per addestrare robot umanoidi attraverso l’osservazione di azioni umane reali, registrate con visori di realtà aumentata come Vision Pro e Meta Quest 3. Il progetto ha dato vita a HAT (Human Action Transformer), un modello AI in grado di apprendere movimenti umani e trasferirli ai robot in modo efficiente, economico e flessibile.

Dimostrazioni umane in prima persona

Il cuore del progetto è il dataset PH2D, che raccoglie oltre 26.000 dimostrazioni registrate in soggettiva. Gli operatori, seduti per facilitare la replicabilità dei movimenti, svolgono azioni quotidiane come afferrare, versare o passare oggetti. I visori registrano in tempo reale le pose 3D di mani e testa, grazie ad ARKit (nel caso di Vision Pro) o telecamere stereo (per Meta Quest), offrendo una base dati dettagliata ma accessibile anche con hardware consumer.

HAT: un’unica rappresentazione per umani e robot

Per sfruttare i dati raccolti, il team ha creato HAT, un modello che tratta umano e robot come due istanze dello stesso agente. Le azioni sono mappate in uno state-action space condiviso con 54 dimensioni, che includono posizione, orientamento e movimenti delle mani e della testa. Durante l’addestramento, HAT apprende da dati misti rallentando le sequenze umane per uniformarle a quelle robotiche.

Le immagini visive vengono elaborate con DinoV2, un encoder robusto ai cambi ambientali, permettendo al modello di generalizzare anche a contesti non visti, come oggetti diversi o sfondi alterati.

Risultati concreti e vantaggi tangibili

I test eseguiti su robot Unitree H1 hanno mostrato un raddoppio dei tassi di successo rispetto a modelli addestrati con sole dimostrazioni robotiche, in particolare in scenari O.O.D. (fuori distribuzione). In media, ogni dimostrazione umana dura appena 4 secondi, contro i 20-37 secondi della teleoperazione, rendendo la raccolta più rapida ed economica.

HAT ha anche dimostrato adattabilità cross-platform: su una seconda versione del robot (H1-2), bastano 20 dimostrazioni personalizzate per ottenere prestazioni superiori, grazie alla formazione combinata.

Le prossime evoluzioni

Il progetto non è privo di limiti. Il modello non integra ancora comandi vocali, sebbene il dataset supporti anche dati testuali. I ricercatori puntano a realizzare una policy multimodale, capace di rispondere a comandi verbali e adattarsi a robot con forme diverse dalle mani umane, come le pinze. Ma già oggi, HAT apre la strada a una robotica più accessibile, adattabile e generalista, con un impatto potenziale su contesti industriali e domestici.

Google News Rimani aggiornato seguendoci su Google News!