blank

Gli algoritmi di intelligenza artificiale e apprendimento automatico in grado di leggere le labbra dai video non sono niente di straordinario, in verità. Nel 2016, i ricercatori di Google e dell’Università di Oxford hanno dettagliato un sistema in grado di annotare le riprese video con una precisione del 46,8%, superando la precisione del 12,4% di un lettore labiale umano professionista.

Ma anche i sistemi all’avanguardia lottano per superare le ambiguità nei movimenti delle labbra, impedendo alle loro prestazioni di superare quella del riconoscimento vocale basato sull’audio.

Alla ricerca di un sistema più performante

I ricercatori di Alibaba, della Zhejiang University e dello Stevens Institute of Technology hanno ideato un metodo soprannominato Lip by Speech (LIBS), che utilizza le caratteristiche estratte dai riconoscitori vocali per servire come indizi complementari.

Dicono che gestisce la precisione leader del settore su due benchmark, superando la linea di base con un margine del 7,66% e del 2,75% nel tasso di errore dei caratteri.
LIBS e altre soluzioni come questa potrebbero aiutare le persone con problemi di udito a seguire video privi di sottotitoli. Si stima che 466 milioni di persone nel mondo soffrano di ipoacusia disabilitante, ovvero circa il 5% della popolazione mondiale.

Entro il 2050, il numero potrebbe salire a oltre 900 milioni, secondo l’Organizzazione mondiale della sanità.
LIBS distilla informazioni audio utili dai video di altoparlanti umani su più scale, incluso a livello di sequenza, livello di contesto e livello di fotogramma.

Quindi allinea questi dati con i dati video identificando la corrispondenza tra loro (a causa delle diverse frequenze di campionamento e degli spazi vuoti che a volte compaiono all’inizio o alla fine, le sequenze video e audio hanno lunghezze incoerenti) e sfrutta una tecnica di filtraggio per perfezionare le caratteristiche distillate.