Di recente, Google sta lavorando a un aggiornamento di Gemini per Android che potrebbe cambiare radicalmente il modo in cui interagiamo con l’assistente. Secondo le informazioni emerse dall’ultima versione Beta dell’appGoogle, è in fase di test la possibilità di allegare file audio, come MP3, WAV o FLAC, direttamente all’interno della chat con l’IA. Una volta caricato il contenuto, l’interfaccia mostra un messaggio “Parlane in diretta”, consigliando cosi un dialogo basato sulle informazioni contenute nella registrazione.

Gemini e l’evoluzione verso un’assistenza più naturale

Al momento, la funzione appare incompleta. In diversi casi Gemini ignora il file o produce risposte scollegate dal contenuto. La capacità tecnica per l’elaborazione audio però esiste già. Infatti il modello supporta input vocali tramite API, riuscendo a trascrivere, descrivere suoni, riassumere lunghi contenuti o individuare passaggi specifici in base a timestamp. L’arrivo su mobile sarebbe quindi un’estensione naturale di una tecnologia già esistente.

Lo sviluppo del riconoscimento audio su Gemini significherebbe aprire tantissime nuove possibilità di utilizzo, tutte capacità immediate e utili anche in mobilità. La gestione e sintesi dei messaggi vocali, la trascrizione di appunti, l’analisi di interviste registrate o di contenuti complessi diventerebbero attività rapide ma soprattutto accessibili a chiunque. Un approccio di questo tipo ridurrebbe il tempo necessario per estrarre informazioni utili da lunghi file audio, rendendo l’interazione con l’IA più intuitiva e vicina alle necessità quotidiane degli utenti.

Non è chiaro se e quando la funzione verrà rilasciata pubblicamente. Come spesso accade con le novità individuate tramite smontaggio APK, Google potrebbe modificare il progetto, rinviarlo o persino abbandonarlo. Ciononostante, il fatto che l’azienda stia sperimentando attivamente questa tecnologia conferma la direzione verso assistenti digitali sempre più versatili. Se il supporto ai file audio arriverà su Android, Gemini potrebbe trasformarsi in uno strumento capace di rispondere a qualsiasi tipo di input. Poiché sarebbe in grado di unire testi, immagini e suoni in un’unica esperienza interattiva.