L'intelligenza artificiale legge le labbra I ricercatori del Dipartimento di Informatica dell’Università di Oxford hanno sviluppato LipNet, finanziato dall’area Deep Learning di Google. Il programma, oltre ad essere in grado di leggere le labbra, ha una precisione del 93,4%.

Alcuni dei lavori precedenti potevamo solo capire tra il 20 e il 60% di quello che la persona stava dicendo a causa della difficoltà nel comprendere i movimenti delle labbra per il tasso naturale del discorso. In tal modo, molte persone che non sono in grado di ascoltare per problemi di udito, troveranno in questo strumento qualcosa di essenziale per la comprensione di chi lo circonda.

In pratica, il programma è già un successo, ma la teoria suggerisce che l’unico modo per migliorare il servizio è avvalersi anche di altri dati. In futuro, infatti, si spera che l‘intelligenza artificiale costruita attorno a LipNet dia modo di sviluppare e produrre gruppi di testi e video.

Secondo lo specialista in intelligenza artificiale Jack Clark, la tecnica manca ancora dello smalto necessario per raggiungere il suo scopo. Per questo inricercatori di Oxford dovranno concentrarsi nel fare 3 cose: raccogliere grandi campioni di video del mondo reale (non generati in laboratorio), migliorare il software capace di leggere le labbra da più angolazioni e creare un modello del linguaggio che riesca a indovinare il tipo di frasi che si stanno usando per migliorare la precisione.

Anche se la lettura delle labbra utilizza solo immagini, pianificare o anche sperimentare con contenuti audiovisivi per aumentare la quantità di implementazioni del servizio è un buono strumento da non sottovalutare. Ad esempio, sarebbe bene sostenere il video chiave quando il riconoscimento vocale è ostacolato dal suono ambientale.

LipNet è un altro passo verso l’inclusione e l’accessibilità sul web. Con il crescente numero di video che produciamo e sottotitoli a basso costo, sarebbe questo un ottimo strumento per diverse persone. Inoltre, se la precisione migliora, il programma potrebbe funzionare come possibile tastiera di ricambio e altre forme di interazione tra l’uomo e le macchine ancora oggi irregolari.