Vent’anni di onorato servizio e un regalo che ha tutta l’aria di cambiare le regole del gioco. Google Traduttore festeggia il compleanno con qualcosa che supera di slancio il classico aggiornamento di facciata. Il protagonista si chiama Gemini 3.5 Live Translate, il nuovo modello audio pensato per la traduzione vocale in tempo reale, e la differenza rispetto al passato è bella concreta: non sta più ad aspettare che chi parla finisca la frase, ma genera l’audio tradotto in continuo, restando solo un paio di secondi indietro rispetto all’interlocutore.
L’effetto, almeno stando alle premesse, è quello di una conversazione che fila liscia, senza quelle pause imbarazzate tipiche dei sistemi di vecchia generazione. Il modello mantiene intonazione, ritmo e tono della voce originale, riconosce in automatico oltre 70 lingue senza che sia necessario impostare nulla a mano e tiene botta anche dove c’è rumore di fondo.
Dove arriva e come funziona
Il rilascio parte su tre canali ben distinti. Gli sviluppatori hanno già accesso al modello in anteprima pubblica grazie alla Gemini Live API e a Google AI Studio. Le aziende che lavorano con Google Meet lo riceveranno in anteprima privata nel corso del mese, con un’apertura più ampia attesa entro la fine dell’anno. Per tutti gli altri, il modello sbarcherà direttamente nell’app di Google Traduttore, sia su Android che su iOS.
Su Android c’è poi una chicca tutta sua: la modalità ascolto. In pratica si tiene lo smartphone all’orecchio come durante una normale telefonata e la traduzione arriva direttamente nell’auricolare del dispositivo, senza bisogno di cuffie. Comoda quando non si vuole che gli altri sentano la traduzione, o più banalmente quando le cuffie sono rimaste a casa. Su entrambe le piattaforme, collegando un qualsiasi paio di cuffie si sblocca la funzione Live Translate, che replica anche il tono di chi sta parlando.
Riunioni multilingua e i primi collaudi sul campo
Per Google Meet il salto è di quelli che si notano: dalle 5 lingue supportate finora si passa a oltre 70, e soprattutto si aprono più di 2.000 combinazioni linguistiche all’interno di una stessa riunione. Niente più obbligo di passare da e verso l’inglese, come accadeva prima. Anche l’interfaccia viene rivista per rendere l’accesso alla traduzione un gesto immediato.
Tra i partner che stanno già mettendo le mani sul modello c’è Grab, il servizio di ride-hailing del Sud-Est asiatico, che lo impiega per agevolare il dialogo tra autisti e passeggeri al momento del ritiro. Oltre 10 milioni di chiamate vocali al mese passano dalla piattaforma di Grab, quindi parliamo di un banco di prova tutt’altro che simbolico.
Sul versante degli strumenti, piattaforme come Agora, LiveKit e Pipecat si integrano già con la Gemini Live API per costruire app di traduzione vocale, occupandosi dell’infrastruttura di streaming in tempo reale così che chi sviluppa possa pensare solo all’esperienza dell’utente. Tutto l’audio prodotto dal modello porta con sé il watermark SynthID di Google, impercettibile all’orecchio umano ma riconoscibile dai sistemi di verifica, utile a tracciare i contenuti generati dall’intelligenza artificiale.
La curiosità più grande, a questo punto, riguarda la tenuta in italiano, soprattutto nelle situazioni più caotiche dove la traduzione simultanea ha sempre faticato: accenti regionali, voci che si accavallano, terminologia tecnica. Il potenziale sembra esserci tutto, ma il vero esame è quello dell’uso di tutti i giorni.