Google DeepMind ha presentato ufficialmente Genie 3, un nuovo modello capace di generare mondi 3D interattivi partendo da un semplice testo o da un’immagine. Non si tratta di ambienti statici: l’AI costruisce ogni scena in tempo reale, generando video fluidi a 720p e 24 fps, esplorabili direttamente con tastiera.
C’è una grande opportunità per l’utente, ovvero quella di muoversi all’interno dello spazio che viene creato interagendo così con l’ambiente in maniera diretta e continua. Ogni mondo diventa dinamico e tiene una coerenza visiva senza precedenti, anche nel caso in cui lo spostamento dovesse essere lungo. Per fare un esempio, se l’utente lascia un oggetto in un punto e poi torna dopo qualche minuto, lo troverà proprio lì.
Una memoria visiva più solida rispetto al passato
Rispetto a Genie 2, la differenza più evidente è la gestione della memoria. La versione precedente dimenticava rapidamente le informazioni appena fuori campo. Genie 3, invece, è in grado di conservare gli elementi visivi di una scena anche dopo diversi minuti di navigazione. Questo rende l’esperienza molto più realistica e apre la strada a simulazioni più affidabili.
Tuttavia, il progetto non è pensato per il grande pubblico né per il settore videoludico. L’obiettivo di DeepMind è fornire uno strumento di ricerca, utile per addestrare agenti virtuali in ambienti controllati, dinamici e generati su richiesta. In mancanza di dati reali sempre disponibili, l’uso di dati sintetici diventa strategico.
Limiti, prospettive e possibili sviluppi in casa Google
Genie 3 non è ancora in grado di riprodurre luoghi esistenti. Alcuni video possono contenere errori grafici, come movimenti innaturali o scritte distorte. Inoltre, le AI che abitano questi mondi virtuali si muovono, ma non agiscono con logica: non sono in grado di modificare attivamente ciò che le circonda.
Infine, c’è la questione dei costi di calcolo, ancora molto alti. Per questo motivo, al momento Genie 3 resta confinato all’ambiente accademico e ai laboratori di ricerca, ma rappresenta un primo passo concreto verso la creazione di mondi simulati persistenti, dove l’interazione non è programmata ma generata al momento.

