Google DeepMind, pochi mesi dopo il lancio di Genie 2, è già pronta a presentare la sua prossima novità nel settore. Si tratta di Genie 3, un nuovo traguardo nell’evoluzione dell’intelligenza artificiale generativa. Tale modello è capace di fungere da base per molteplici applicazioni, tra cui introduce la possibilità di dare vita a interi ambienti interattivi partendo da una semplice descrizione testuale o da un’immagine statica. Non si tratta di scenari fissi: il sistema li costruisce in tempo reale, fotogramma dopo fotogramma. Ciò permettendo all’utente di muoversi al loro interno e persino di modificarli mentre l’esperienza è in corso. La navigazione avviene tramite tastiera e raggiunge una qualità di 720p a 24 frame al secondo.
Google DeepMind: le novità offerte da Genie 3
Il cambiamento più evidente riguarda la gestione della memoria. Dove Genie 2 perdeva traccia degli oggetti dopo pochi secondi di assenza dall’inquadratura, Genie 3 riesce a mantenerne forma e posizione per diversi minuti. Ciò rende possibile, ad esempio, allontanarsi da un elemento della scena e ritrovarlo esattamente com’era al momento del ritorno. La continuità visiva ottenuta rappresenta un passo essenziale verso la costruzione di mondi virtuali credibili e persistenti.
Anche se il potenziale per il settore dei videogiochi sia evidente, DeepMind vede Genie 3 soprattutto come uno strumento di ricerca. I mondi interattivi generati dall’AI possono diventare terreni di prova per lo sviluppo di “agenti incarnati”. Sistemi di intelligenza artificiale capaci di operare in un contesto tridimensionale. In un momento storico in cui reperire dati di addestramento di qualità sta diventando difficile e costoso, la possibilità di creare dati sintetici in modo scalabile e interattivo apre prospettive interessanti per accelerare lo sviluppo di forme di AI più avanzate.
È importante sottolineare che ci sono ancora dei limiti. Genie 3 non è progettato per replicare fedelmente luoghi reali e, come altre AI generative, può produrre “allucinazioni” visive. C’è poi il fattore del costo computazionale: generare un video interattivo in tempo reale richiede una potenza di calcolo enorme. Ragione per cui l’accesso a Genie 3 è per ora riservato a un numero ristretto di ricercatori.