Emo, Alibaba, IA, AI

Il team di ricerca composto dai ricercatori Linrui Tian, Qi Wang, Bang Zhang e Liefeng Bo per l’Institute for Intelligent Computing e Alibaba Group ha presentato EMO (Emote Portrait Alive). Si tratta di una nuova IA generativa che nasce con l’obiettivo di portare ad un nuovo livello la creazione di video.

Infatti, EMO si basa su un framework focalizzato su due elementi principali, le foto-ritratto e le tracce audio. Combinando questi due input di partenza, è possibile ottenere un video generato automaticamente in cui il soggetto ripreso nell’immagine reciterà in maniera credibile quanto riprodotto nell’audio di riferimento.

A livello teorico, il funzionamento di questa IA si basa su una prima fase di analisi e sulla Codifica dei Fotogrammi. In questo modo, è possibile estrapolare le caratteristiche principali dall’immagine di riferimento e, di conseguenza, dei fotogrammi di movimento. La fase successiva è quella del Processo di Diffusione che permette di incorporare l’audio nelle immagini generate.

 

Il team di ricerca di Alibaba e dell’Institute for Intelligent Computing ha presentato EMO, una IA in grado di generare video partendo da una foto e da una traccia audio

In seguito, viene elaborata la maschera della regione facciale in modo da tracciare i punti principali del viso e consentire l’elaborazione dei movimenti. Infine, attraverso il controllo continuo rispetto alla traccia audio e alla reference, EMO elabora il filmato garantendo il rispetto del personaggio e la correlazione con l’audio.

L’Intelligenza Artificiale, inoltre, terrà conto della tipologia di audio utilizzata come sorgente e genererà di conseguenza i movimenti degli avatar. Ne consegue che ci saranno differenze sostanziali tra i movimenti legati ad una canzone rispetto a quelli di un discorso. Anche le espressioni facciali saranno variegate e rispecchieranno il contenuto proposto, grazie all’analisi delle tonalità.

I movimenti ottenuti nel video generato da EMO saranno sempre realistici e credibili con espressioni facciali molto espressive e movimenti della testa coerenti. Inoltre, il funzionamento dell’Intelligenza Artificiale è basata sulla lunghezza della traccia audio caricata e sarà questa a determinare la lunghezza del filmato finale. I ricercatori assicurano la lunghezza del filmato non rappresenta un problema in quanto la generazione dei movimenti sarà casuale, garantendo movimenti sempre dinamici e variegati.

La ricerca completa è stata pubblicata in rete ma su X/Twitter e YouTube è possibile ammirare le potenzialità di EMO.

 

 

 

Articolo precedenteGli shorts di Youtube si aggiornano con nuove e utilissime funzioni
Articolo successivoMeizu cambia rotta: addio smartphone, benvenuta intelligenza artificiale