Di recente, il settore della robotica sta evolvendo in modo costante. A tal proposito, l’addestramento dei robot umanoidi tramite dimostrazioni dirette è una tecnica nota per la sua efficacia. Ma anche per la sua complessità. Infatti, richiedono ambienti di laboratorio altamente controllati, costosi sistemi di teleoperazione e tempi lunghi. Per affrontare questi limiti, Apple, in collaborazione con l’Università della California a San Diego, Carnegie Mellon e altri istituti, ha sviluppato un approccio innovativo. Quest’ultimo unisce dimostrazioni umane e robotiche, sfruttando la realtà aumentata. Il centro del progetto è la creazione di un vasto dataset chiamato PH2D (Physical Human-Humanoid Data). Tale archivio comprende oltre 26.000 dimostrazioni raccolte in prima persona. Qui gli operatori eseguono azioni quotidiane come afferrare oggetti, versare liquidi o trasferire oggetti tra le mani. Le dimostrazioni sono state acquisite con visori di realtà aumentata come Apple Vision Pro e Meta Quest 3, opportunamente modificati.
Apple: novità per l’addestramento dei robot
Il Vision Pro è stato adattato per utilizzare una sola telecamera in basso a sinistra. Il Quest 3 è stato invece dotato di mini telecamere ZED Stereo. Una particolarità del dataset è che le azioni sono state svolte da operatori seduti in posizione eretta per limitare movimenti corporei non replicabili dai robot. Tale accorgimento permette di semplificare il processo di apprendimento e aumentare la fedeltà delle imitazioni robotiche.
A partire da PH2D, i ricercatori hanno sviluppato HAT (Human Action Transformer). Si tratta di un modello neurale che interpreta le dimostrazioni umane e le trasferisce ai robot. Ciò trattando entrambi come manifestazioni di un unico agente. Grazie a uno spazio condiviso di osservazione e azione, HAT codifica i movimenti in 54 parametri. Includendo posizione e rotazione di testa, polsi e dita.
Le immagini sono elaborate tramite DinoV2, un encoder visivo in grado di gestire variazioni ambientali, migliorando la robustezza del sistema anche in contesti non previsti. I risultati dei test sono promettenti. Su robot come l’Unitree H1, HAT ha superato le tradizionali policy basate solo su dati robotici, specialmente in situazioni fuori distribuzione (O.O.D.). Nei compiti pratici le prestazioni sono migliorate fino al 100%. Inoltre, mentre la teleoperazione robotica può richiedere fino a 37 secondi per dimostrazione, una dimostrazione umana con AR dura circa 4 secondi. L’utilizzo di hardware consumer come Apple Vision Pro e Meta Quest riduce anche i costi, aprendo a un addestramento più accessibile e flessibile.
Infine, i ricercatori hanno dimostrato la capacità di generalizzazione del sistema. Con appena 20 dimostrazioni mirate, HAT ha migliorato le performance su una seconda piattaforma robotica, il Unitree H1-2. Ciò grazie alla co-formazione con dati provenienti da altri robot e da esseri umani. Il progetto, pur solido, ha ancora margini di miglioramento. L’integrazione di comandi linguistici è prevista come sviluppo futuro.
