
Gemini
Google Gemini, il modello di intelligenza artificiale generativa sviluppato da Mountain View, ha introdotto una nuova funzione che permette agli utenti di caricare più immagini nella stessa conversazione. L’aggiornamento migliora l’interazione multimodale e amplia le possibilità di utilizzo del sistema, in particolare nei contesti che richiedono analisi comparativa, riconoscimento visivo e generazione di contenuti a partire da più fonti.
Gemini migliora l’interazione visiva: supportato il caricamento di immagini multiple
La nuova funzionalità è già disponibile per alcuni utenti della versione desktop, e sarà distribuita progressivamente anche su mobile. L’obiettivo è potenziare l’esperienza d’uso, permettendo un dialogo più naturale con l’IA, che può ora confrontare e descrivere più elementi contemporaneamente.
Con il nuovo aggiornamento, gli utenti possono trascinare o selezionare più file visivi all’interno della stessa sessione, ricevendo risposte unificate e contestuali. Il modello Gemini elabora i contenuti visivi attraverso la componente multimodale del modello linguistico, capace di riconoscere oggetti, testi e contesti all’interno delle immagini.
Questo consente di porre domande complesse, come “Quale tra queste due foto mostra una condizione meteo più favorevole?” oppure “Trova le differenze tra questi grafici”. Prima, l’interazione era limitata a una sola immagine per volta, rendendo meno fluido il dialogo e limitando le capacità comparative del sistema.
L’interfaccia aggiornata mantiene una struttura lineare, con tutte le immagini visibili nella finestra della chat, insieme al testo della conversazione. Le risposte vengono generate sulla base di tutte le immagini caricate, senza richiedere una ripetizione dei comandi da parte dell’utente.
Il supporto alle immagini multiple rappresenta un passo avanti nell’evoluzione delle interfacce conversazionali multimodali, che Google sta sviluppando con sempre maggiore intensità. L’integrazione di input visivi e testuali consente a Gemini di gestire interazioni più complesse, adatte a scenari che vanno dalla diagnosi visiva di problemi tecnici fino alla generazione assistita di contenuti creativi.
Secondo quanto osservato nella versione sperimentale, Gemini riesce a interpretare relazioni tra elementi visivi, comprendendo allineamenti, variazioni cromatiche, testi inseriti in immagini e proporzioni geometriche. Questo rende lo strumento adatto anche a contesti educativi o professionali, dove la comparazione tra schemi, tabelle o layout è frequente.
L’aggiornamento rafforza inoltre la competizione con altri modelli generativi, come ChatGPT con Vision o Claude 3, che hanno già introdotto funzioni analoghe. Google punta a offrire una maggiore continuità di dialogo, riducendo la necessità di caricare e descrivere un’immagine alla volta.
La funzione è attualmente accessibile da Gemini su web, per utenti con account Google e accesso attivo alle funzionalità IA. Non sono richieste installazioni aggiuntive: basta accedere alla piattaforma e trascinare più immagini nella finestra della conversazione. Non è ancora chiaro se la versione mobile supporterà il caricamento multiplo nella stessa modalità o se verranno adottate soluzioni differenti per l’interfaccia touch.
