Afferrare un bicchiere di vetro, raccogliere una bottiglia di plastica trasparente o prendere in mano un oggetto metallico lucido. Per qualsiasi essere umano sono gesti talmente naturali da risultare quasi automatici. Per un robot, invece, rappresentano una sfida enorme. La manipolazione di oggetti con superfici trasparenti o riflettenti è uno dei problemi più ostinati della robotica moderna, e buona parte della difficoltà dipende dai sensori di profondità tradizionali, che semplicemente non riescono a leggere bene questo tipo di materiali. Il vetro inganna, la plastica trasparente confonde, le superfici lucide rimandano dati inaffidabili. Il risultato? Molte operazioni che sulla carta sarebbero automatizzabili finiscono per richiedere ancora correzioni manuali, rallentando tutto il processo.
La novità interessante arriva dalla Tokyo University of Science, dove un gruppo di ricercatori ha sviluppato qualcosa che potrebbe semplificare parecchio le cose. Il sistema si chiama HEAPGrasp ed è un metodo di visione che permette ai robot di identificare e afferrare oggetti problematici usando soltanto una comune camera RGB. Niente sensori di profondità, niente hardware aggiuntivo costoso. Solo una telecamera a colori e un approccio computazionale decisamente intelligente.
Perché è diverso dai metodi tradizionali
Il principio alla base è più intuitivo di quanto si possa pensare, anche se la tecnologia che lo rende possibile è tutt’altro che banale. Invece di cercare di misurare la profondità degli oggetti (operazione che, come detto, va in crisi con vetro e materiali trasparenti), il sistema ricostruisce la forma tridimensionale degli oggetti partendo dai loro contorni visibili, catturati da più angolazioni diverse. Praticamente aggira il problema alla radice.
Il processo si articola in più fasi. Prima di tutto, il sistema separa gli oggetti dallo sfondo attraverso quella che viene chiamata segmentazione semantica, una tecnica basata su deep learning che classifica ogni singolo pixel dell’immagine, distinguendo cosa è un oggetto e cosa fa parte dell’ambiente circostante. Una volta isolate le sagome nelle diverse inquadrature, queste vengono combinate per ricostruire il volume dell’oggetto in tre dimensioni.
Il vantaggio chiave di questo approccio è evidente: lavorando sui profili esterni degli oggetti e non sulla loro profondità, HEAPGrasp riesce a evitare proprio quegli errori che trasparenze e riflessi provocano sistematicamente nei sensori tradizionali. È un cambio di prospettiva, letteralmente. Dove i metodi convenzionali cercano di “vedere attraverso” il problema, questo sistema lo scavalca del tutto concentrandosi su ciò che la camera RGB riesce effettivamente a catturare senza ambiguità: i bordi, le sagome, i contorni.
Cosa significa per il futuro della robotica
Il fatto che una semplice camera RGB possa sostituire sensori di profondità ben più complessi e costosi apre scenari concreti per l’automazione industriale e non solo. Fino a oggi, molti robot impiegati in ambienti reali avevano bisogno di interventi umani frequenti ogni volta che si trovavano davanti a un oggetto in vetro, una superficie metallica riflettente o un contenitore trasparente. Con un sistema come HEAPGrasp, queste situazioni potrebbero essere gestite in modo autonomo, riducendo i tempi di fermo e le necessità di supervisione. Il lavoro dei ricercatori della Tokyo University of Science dimostra che a volte la soluzione a un problema tecnico complesso non passa necessariamente per sensori sempre più sofisticati, ma per un modo più furbo di usare quelli che già esistono.