
Gemini
Google ha rilasciato una nuova funzionalità per Gemini, il proprio assistente basato sull’intelligenza artificiale, che ora è in grado di analizzare i video caricati dall’utente. L’aggiornamento, in fase di rilascio graduale, permette all’AI non solo di riconoscere elementi visivi nei fotogrammi, ma anche di comprendere l’intero contesto narrativo di una clip.
Secondo quanto emerso, la funzione consente all’utente di caricare un file video direttamente nell’interfaccia di Gemini, sia su mobile che su desktop, e ricevere risposte dettagliate su quanto mostrato. L’obiettivo è offrire uno strumento di comprensione visiva, capace di supportare attività come l’analisi di contenuti didattici, la sintesi di video lunghi o la verifica di informazioni visive in tempo reale.
L’assistente AI di Google acquisisce la capacità di interpretare contenuti video, aprendo nuovi scenari d’uso
La nuova funzione differisce sostanzialmente dalla classica descrizione dei contenuti visivi, già disponibile da mesi in Gemini. In questo caso, l’assistente AI non si limita a fornire un elenco degli oggetti presenti nei singoli fotogrammi, ma tenta di comprendere il flusso narrativo, il tono e le azioni principali mostrate nel video.
Gemini può, ad esempio, spiegare cosa accade in una sequenza sportiva, sintetizzare una lezione registrata, riassumere i punti chiave di una presentazione o aiutare a estrarre dati da un tutorial. L’analisi avviene combinando visione artificiale, riconoscimento audio e modelli linguistici multimodali.
Per attivare l’analisi video, gli utenti devono caricare un file video tramite l’interfaccia di Gemini, disponibile nelle versioni web e app. Dopo l’upload, il sistema impiega alcuni secondi per processare il contenuto. A quel punto, è possibile porre domande come “Cosa succede in questo video?”, “Qual è il momento più importante?”, oppure “Quali sono i passaggi principali spiegati dall’istruttore?”.
La funzione è attualmente limitata a video con durata e dimensioni contenute, per garantire tempi di elaborazione accettabili e ridurre l’uso di risorse. Google non ha ancora fornito un limite ufficiale, ma si stima che al momento vengano accettati video fino a 10 minuti e 200 MB.
Uno dei punti di forza della nuova funzione è la capacità di integrare l’audio all’interno del processo di analisi. Gemini è in grado di trascrivere i dialoghi, riconoscere eventuali slide o sottotitoli mostrati a schermo e usarli per offrire un’interpretazione più completa del contenuto.
Questa fusione tra linguaggio visivo e testuale consente una comprensione profonda del messaggio trasmesso dal video. Rispetto a un motore di sintesi testuale classico, Gemini può ora operare su input complessi e multimodali, rendendolo adatto a una vasta gamma di scenari professionali ed educativi.
Le prime applicazioni pratiche di questa funzione sembrano orientate al mondo accademico e formativo. Studenti e docenti possono caricare registrazioni di lezioni, ricevere riassunti automatici o chiarimenti su passaggi specifici. Anche i professionisti possono sfruttare l’analisi per velocizzare la revisione di contenuti video aziendali, corsi online o meeting registrati.
In futuro, la stessa tecnologia potrebbe essere estesa a contesti giornalistici, ricerche di mercato o content moderation, con l’obiettivo di velocizzare e automatizzare la comprensione di materiale video ad alto volume.
La funzionalità è in fase di rilascio graduale e potrebbe non essere disponibile per tutti gli utenti. Al momento, sembra limitata agli account che utilizzano Gemini Advanced in lingua inglese, ma è prevista una distribuzione più ampia nei prossimi mesi.
