Non capita tutti i giorni di vedere un’intelligenza artificiale che ti guarda negli occhi mentre parla. Eppure è esattamente quello che sta cercando di fare Character.AI con il suo nuovo progetto sperimentale, TalkingMachines. Al momento non è ancora integrato nella loro app, ma le prime demo sono già online, e sembrano uscite da un episodio di Black Mirror — senza però la parte inquietante.
Character.AI sperimenta avatar che ti parlano e ti guardano negli occhi
L’idea è semplice, almeno in teoria: tu carichi un’immagine, aggiungi un audio, e il sistema genera in tempo reale un video di quel volto che ti parla, si muove, cambia espressione. Non solo sincronizza le labbra con la voce, ma aggiunge sfumature: uno sguardo che si sposta, un sopracciglio che si solleva, un gesto appena accennato con il capo. Il tutto, come se stessi videochiamando un personaggio virtuale. Ed è qui che le cose iniziano a farsi interessanti.
Dietro le quinte c’è un motore chiamato DiT, una versione super ottimizzata dei modelli di diffusione già noti nel mondo dell’AI generativa. La vera innovazione, però, è che questa tecnologia riesce a lavorare in streaming, quasi senza latenza. In pratica, parli e lui risponde — non solo con le parole, ma anche con un volto che reagisce in tempo reale a quello che dici. Non è difficile immaginare cosa potrebbe voler dire tutto questo per chi usa Character.AI: le conversazioni con personaggi virtuali diventano molto più immersive. Che si tratti di una figura storica o di un avatar inventato, quel volto non è più statico, ma vivo, dinamico, presente.
E non si limita a un solo stile. Le demo mostrano versioni anime, volti realistici, personaggi in 3D. Il tutto condito da una sensibilità nei dettagli sorprendente: pause, inflessioni, silenzi. Ogni aspetto della voce diventa movimento, espressione.
Al momento è ancora tutto in fase di ricerca, e non ci sono date ufficiali per il rilascio. Ma se anche solo una parte di questa tecnologia dovesse arrivare al grande pubblico, potremmo ritrovarci presto a parlare con avatar che ci capiscono — e ci guardano — un po’ più da vicino.
