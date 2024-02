Il team di ricerca composto da Linrui Tian, Qi Wang, Bang Zhang, Liefeng Bo per l’Institute for Intelligent Computing e Alibaba Group ha presentato EMO (Emote Portrait Alive). La nuova IA generativa nasce con l’obiettivo di portare ad un nuovo livello la creazione di video.

Infatti, EMO si basa su un framework focalizzato su foto-ritratto e tracce audio. Combinando questi due elementi, è possibile ottenere un video generato automaticamente in cui il soggetto ripreso nell’immagine reciterà in maniera credibile quando riprodotto nell’audio di riferimento.

La prima fase di analisi si basa sulla Codifica dei Fotogrammi attraverso il quale si estrapolano le caratteristiche principali dall’immagine di riferimento e, di conseguenza, dei fotogrammi di movimento. La fase successiva è quella del Processo di Diffusione che permette di incorporare l’audio.

Il team di ricerca di Alibaba e dell’ Institute for Intelligent Computing ha presentato EMO, una IA in grado di generare video partendo da una foto e da una traccia audio

In seguito, viene elaborata la maschera della regione facciale in modo per consentire il movimento. Infine, attraverso il controllo continuo rispetto alla traccia audio e alla reference, EMO elabora il filmato garantendo il rispetto del personaggio e la correlazione con l’audio.

L’Intelligenza Artificiale, inoltre, terrà conto della tipologia di audio utilizzata come sorgente e genererà di conseguenza i movimenti degli avatar. Ne consegue che ci saranno differenze sostanziali tra i movimenti legati ad una canzone rispetto a quelli di un discorso. Anche le espressioni facciali saranno variegate e rispecchieranno il contenuto proposto, grazie all’analisi delle tonalità.

I movimenti ottenuti nel video generato da EMO saranno sempre realistici e credibili con espressioni facciali molto espressive e movimenti della testa coerenti. Inoltre, il funzionamento dell’Intelligenza Artificiale è basata sulla lunghezza della traccia audio caricata e questa determinerà la lunghezza del filmato finale. Questo non rappresenta un problema per la generazione dei movimenti che saranno sempre dinamici e variegati.

La ricerca completa è stata pubblicata in rete ma su X/Twitter e YouTube è possibile ammirare le potenzialità di EMO.