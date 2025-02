ByteDance ha introdotto OmniHuman-1, un sofisticato framework basato sull’intelligenza artificiale generativa in grado di creare video deepfake partendo da una singola immagine e da segnali di movimento come audio e video. I risultati ottenuti risultano estremamente realistici, tanto da rendere difficile la loro distinzione da video autentici. Questo progresso rappresenta uno dei traguardi più avanzati nella tecnologia deepfake attualmente disponibile.

Il deepfake di ByteDance ridefinisce il realismo digitale

Il sistema si avvale di una strategia di addestramento basata su dati misti, superando i limiti legati alla scarsa disponibilità di materiale di alta qualità. Grazie al condizionamento multimodale del movimento, il modello può gestire una vasta gamma di inquadrature, dai primi piani ai video a figura intera, e permette sia la creazione di clip originali che la modifica di contenuti esistenti. Questo lo rende uno strumento incredibilmente versatile per la generazione di immagini in movimento.

Nonostante le prestazioni sorprendenti, il sistema non è esente da imperfezioni. Alcuni dettagli, in particolare la resa delle mani, tradiscono ancora la natura artificiale delle creazioni. Le distorsioni nella posizione delle dita o nella presa di oggetti, come un bicchiere di vino, restano un ostacolo che le intelligenze artificiali devono ancora superare. Tuttavia, i volti e i movimenti del corpo risultano eccezionalmente fluidi e naturali, aumentando ulteriormente il realismo dell’output generato.

OmniHuman-1 supporta una vasta gamma di situazioni, dai ritratti al corpo intero, fino alla sincronizzazione labiale per il parlato e il canto. Inoltre, il framework è in grado di gestire interazioni tra esseri umani e oggetti, adattandosi a differenti pose e movimenti. Secondo il documento tecnico pubblicato dagli sviluppatori, il modello è stato addestrato su 18.700 ore di dati video attraverso un innovativo approccio di apprendimento multimodale, combinando informazioni da fonti diverse come testo, audio e pose corporee.

L’impatto di questa tecnologia si inserisce in un dibattito sempre più acceso sulla diffusione dei deepfake e sui rischi legati alla disinformazione. Con OmniHuman-1, ByteDance si conferma all’avanguardia nel settore, ponendo però interrogativi sul futuro della sicurezza digitale e sulle implicazioni etiche dell’intelligenza artificiale generativa.