La modalità vocale di ChatGPT sta per cambiare faccia, e stavolta non si tratta di un ritocco marginale. OpenAI lavora da settimane a un nuovo modello audio battezzato provvisoriamente GPT-Bidi-1, una tecnologia che promette di colmare quel divario che ancora oggi separa le chiacchierate a voce dall’esperienza ben più rifinita disponibile nella chat scritta. Dopo aver spinto a fondo sul fronte testuale, fino all’arrivo di GPT-5.5, l’azienda di Sam Altman sembra pronta a spostare l’attenzione altrove.
I riferimenti emersi nelle ultime settimane, individuati sia nell’interfaccia web sia nelle app mobili, raccontano di qualcosa che potrebbe cambiare parecchio il modo in cui le persone parlano con l’assistente. Il nome stesso offre un indizio non da poco. Quel Bidi rimanda a un’architettura bidirezionale, pensata per permettere al sistema di ascoltare e parlare nello stesso momento, proprio come accade in una conversazione tra esseri umani.
Una conversazione che assomiglia di più a quella vera
La differenza con la modalità vocale avanzata di oggi è netta. Quest’ultima tende a fermare l’elaborazione non appena l’utente prende la parola o cambia idea all’improvviso. GPT-Bidi-1 invece gestirebbe le interruzioni in tempo reale, adattandosi al volo ai cambi di contesto senza dover ricominciare daccapo la risposta. Nei primi test condivisi da chi avrebbe già messo le mani sulla novità, il comportamento appare molto più naturale. Durante una pausa il sistema può inserire piccoli segnali di ascolto, un semplice ok, senza spezzare il filo del dialogo.
C’è poi una prova diventata quasi un classico in questi assaggi. Basta chiedere a ChatGPT di contare fino a dieci e poi interromperlo per fargli invertire il conteggio. Il modello si adatta subito, senza perdere il segno. Niente confusione, niente risposte che ripartono da zero.
Un altro punto su cui si gioca tanto riguarda la memoria contestuale. Stando a quanto trapelato, il nuovo modello terrebbe il filo del discorso per l’intera durata della conversazione, mettendo una pezza a uno dei limiti più fastidiosi dei sistemi attuali. Capita spesso, infatti, che la voce dimentichi informazioni dette poco prima o si perda nelle chiacchierate più lunghe. Anche la gestione delle pause dovrebbe fare un salto in avanti, perché il sistema non chiuderebbe più la conversazione in automatico durante i silenzi prolungati.
Livelli di elaborazione e convivenza con la modalità attuale
Dentro l’app sono spuntati indizi su una riorganizzazione della parte vocale. Gli utenti potrebbero scegliere tra tre livelli di elaborazione, indicati come Alto, Medio e Istantaneo. Una struttura che ricalca quella già vista per certi modelli testuali, dove l’idea è lasciare a ciascuno la libertà di bilanciare la rapidità della risposta con la profondità del ragionamento, a seconda di cosa serve in quel momento.
La buona notizia è che la nuova tecnologia non rimpiazzerebbe quella avanzata di adesso. Le due potrebbero convivere, lasciando la possibilità di passare dall’una all’altra senza alcuna migrazione obbligata.
Dietro tutto questo c’è una direzione strategica ormai chiara. OpenAI punta sulla voce come strumento principale di interazione con l’intelligenza artificiale nei prossimi anni, mettendo gradualmente da parte la tastiera. Una visione che si vede anche negli investimenti recenti dell’azienda nel settore hardware e nelle tecnologie vocali, con l’obiettivo di rendere l’assistente una presenza sempre più naturale nella vita di tutti i giorni.
Per ora niente di ufficiale su GPT-Bidi-1. I riferimenti sempre più numerosi nelle applicazioni e i primi test pubblici lasciano però intendere che il debutto sia vicino. Non è chiaro se il rilascio parta già nei prossimi giorni o se servirà ancora un po’ di pazienza, soprattutto nei Paesi dell’Area Economica Europea, dove eventuali paletti normativi potrebbero frenare la distribuzione.