Google lancia Gemini Omni: editing video in linguaggio naturale con AI multimodale

Modificare un video dicendo semplicemente "quando la persona tocca lo specchio, fallo ondeggiare come un liquido" e vederlo accadere in pochi secondi: è la promessa concreta di Gemini Omni, il nuovo modello di Google che unisce le capacità di ragionamento di Gemini con la generazione e l'editing video. Il primo modello della famiglia, Gemini Omni Flash, è disponibile da oggi per tutti gli abbonati a Google AI Pro e Ultra tramite l'app Gemini e Google Flow, e gratuitamente per gli utenti di YouTube Shorts e dell'app YouTube Create. Nelle prossime settimane arriverà anche per sviluppatori e clienti aziendali tramite API. Il punto di partenza è diverso da tutti i generatori video esistenti: Omni non chiede un singolo prompt testuale, ma accetta qualsiasi combinazione di immagini, audio, video e testo come input per produrre un output coerente. Un'immagine di un personaggio, uno stile visivo da un video di riferimento e una traccia audio possono essere combinati in un'unica clip senza passare da strumenti separati. Editing conversazionale e coerenza della scena La caratteristica più rilevante di Omni è la possibilità di modificare i video attraverso una conversazione progressiva: ogni istruzione si aggiunge alla precedente senza perdere il filo della scena originale. I personaggi mantengono la propria coerenza visiva, le leggi della fisica vengono rispettate e il contesto narrativo rimane stabile attraverso più passaggi di editing. Si può cambiare l'ambiente, l'inquadratura, lo stile visivo o singoli dettagli come i materiali di un oggetto o l'azione di un personaggio. Un video esistente diventa il punto di partenza per qualcosa che non sarebbe stato possibile filmare dal vivo: aggiungere nuovi personaggi, trasformare superfici, modificare ciò che accade in scena. Fisica, conoscenza e generazione da zero https://youtu.be/KUyRq7szZsM?si1-tA1XhasEKsQZWF Omni non si limita a manipolare video esistenti: è in grado di generarli da zero con una comprensione intuitiva della fisica, incluse forze come gravità, energia cinetica e dinamica dei fluidi. La conoscenza enciclopedica di Gemini viene applicata alla narrazione visiva, permettendo di creare video esplicativi su concetti complessi, sequenze in stile claymation o contenuti didattici partendo da prompt brevi. Avatar digitale e trasparenza Tra le funzioni in sviluppo c'è la creazione di avatar digitali personali: versioni digitali dell'utente che possono generare video con il proprio aspetto e la propria voce. Tutti i video prodotti con Omni includono la filigrana digitale SynthID e le credenziali C2PA, verificabili tramite l'app Gemini, Gemini in Chrome e la Ricerca Google. Nei prossimi mesi il supporto si estenderà ad altri formati di output, inclusi immagini e audio.

Google lancia Gemini Omni: editing video in linguaggio naturale con AI multimodale

Gemini Omni Flash è disponibile da oggi per gli abbonati AI Pro e Ultra e su YouTube Shorts, con modifica video conversazionale, generazione da input multipli e avatar digitale personale.

Editing conversazionale e coerenza della scena

Fisica, conoscenza e generazione da zero

Avatar digitale e trasparenza

Denis Dosi

Spotify: badge di verifica sui podcast contro i contenuti IA

Xiaomi 17 Max, 33 ore di video: il test che umilia iPhone 17 Pro Max