Modificare un video dicendo semplicemente “quando la persona tocca lo specchio, fallo ondeggiare come un liquido” e vederlo accadere in pochi secondi: è la promessa concreta di Gemini Omni, il nuovo modello di Google che unisce le capacità di ragionamento di Gemini con la generazione e l’editing video. Il primo modello della famiglia, Gemini Omni Flash, è disponibile da oggi per tutti gli abbonati a Google AI Pro e Ultra tramite l’app Gemini e Google Flow, e gratuitamente per gli utenti di YouTube Shorts e dell’app YouTube Create. Nelle prossime settimane arriverà anche per sviluppatori e clienti aziendali tramite API.
Il punto di partenza è diverso da tutti i generatori video esistenti: Omni non chiede un singolo prompt testuale, ma accetta qualsiasi combinazione di immagini, audio, video e testo come input per produrre un output coerente. Un’immagine di un personaggio, uno stile visivo da un video di riferimento e una traccia audio possono essere combinati in un’unica clip senza passare da strumenti separati.
Editing conversazionale e coerenza della scena
La caratteristica più rilevante di Omni è la possibilità di modificare i video attraverso una conversazione progressiva: ogni istruzione si aggiunge alla precedente senza perdere il filo della scena originale. I personaggi mantengono la propria coerenza visiva, le leggi della fisica vengono rispettate e il contesto narrativo rimane stabile attraverso più passaggi di editing.
Si può cambiare l’ambiente, l’inquadratura, lo stile visivo o singoli dettagli come i materiali di un oggetto o l’azione di un personaggio. Un video esistente diventa il punto di partenza per qualcosa che non sarebbe stato possibile filmare dal vivo: aggiungere nuovi personaggi, trasformare superfici, modificare ciò che accade in scena.
Fisica, conoscenza e generazione da zero
Omni non si limita a manipolare video esistenti: è in grado di generarli da zero con una comprensione intuitiva della fisica, incluse forze come gravità, energia cinetica e dinamica dei fluidi. La conoscenza enciclopedica di Gemini viene applicata alla narrazione visiva, permettendo di creare video esplicativi su concetti complessi, sequenze in stile claymation o contenuti didattici partendo da prompt brevi.
Avatar digitale e trasparenza
Tra le funzioni in sviluppo c’è la creazione di avatar digitali personali: versioni digitali dell’utente che possono generare video con il proprio aspetto e la propria voce. Tutti i video prodotti con Omni includono la filigrana digitale SynthID e le credenziali C2PA, verificabili tramite l’app Gemini, Gemini in Chrome e la Ricerca Google. Nei prossimi mesi il supporto si estenderà ad altri formati di output, inclusi immagini e audio.


