Fino a poco fa, parlare con una macchina in modo naturale sembrava qualcosa da film di fantascienza. Oggi, invece, il dialogo in tempo reale con un’AI è diventato quasi normale. Ciò soprattutto grazie alle modalità vocali avanzate che ci rispondono, ci interrompono, sembrano perfino “pensare” mentre parlano. Ma se un giorno tale capacità di dialogo diventasse davvero il centro dei robot che ci circondano, basterebbe la voce? Probabilmente no. Una conversazione credibile passa anche dal volto, dalle espressioni, da quei micro-movimenti che fanno la differenza tra qualcosa di vivo e qualcosa di artificiale. È proprio da qui che parte il nuovo lavoro dei ricercatori della Columbia University, che hanno sviluppato un sistema capace di rendere le espressioni facciali dei robot più spontanee. Non si tratta solo di muovere le “labbra” in sincronia con una voce sintetica, ma di anticipare ciò che sta per accadere sul volto umano.
Robot con espressioni facciali? Ecco i possibili prossimi sviluppi
Per verificare quanto tutto ciò funzioni davvero, il sistema è stato messo alla prova con oltre quarantacinque partecipanti e quasi mille video. I risultati sono interessanti perché mostrano come il modello riesce ad adattarsi anche a lingue molto diverse tra loro. Comprese alcune che non facevano parte del materiale di addestramento. Un dettaglio tutt’altro che secondario, se si pensa a un futuro in cui tali robot potrebbero interagire con persone di tutto il mondo.
A incarnare tale tecnologia c’è Emo, un robot umanoide progettato specificamente per l’interazione sociale. Il suo volto è molto più complesso rispetto ai modelli precedenti. Ciò grazie alla presenza di numerosi micro-motori che permettono movimenti asimmetrici e sfumati, decisamente più vicini a quelli umani. Le telecamere integrate negli occhi osservano il volto dell’interlocutore in tempo reale, mentre un doppio sistema neurale traduce ciò che vede in espressioni rapide e coerenti. Dal punto di vista tecnico, la velocità è forse l’aspetto più impressionante. Il sistema genera i movimenti facciali in una frazione di secondo, spesso prima che l’espressione umana sia completata. È proprio tale anticipo che rende possibile una sorta di co-espressione, dando l’illusione che robot e persona si muovano all’unisono.
Resta però una consapevolezza importante da considerare quando si parla di tali robot. Le espressioni facciali non sono universali e cambiano da cultura a cultura. I ricercatori, infatti, lo sottolineano chiaramente. Ciò significa che, per quanto il passo avanti sia notevole, serviranno attenzione e cautela prima di parlare di interazioni davvero “umane” su scala globale.
