C’è un nuovo modello vocale che si muove dietro le quinte di OpenAI, e si chiama GPT-Bidi-1. Stando a quanto trapelato, si tratta di un sistema audio bidirezionale ancora non annunciato ufficialmente, capace di fare una cosa che fino a oggi suonava quasi come fantascienza per un assistente digitale, ovvero parlare, sentire e ascoltare nello stesso momento. Tradotto in pratica, vuol dire che ChatGPT potrebbe finalmente gestire le interruzioni a metà frase senza bloccarsi, proprio come accade in una conversazione tra persone.
Il nome non è casuale. “Bidi” sarebbe l’abbreviazione di bidirectional design, una progettazione pensata per rendere lo scambio vocale molto più fluido e meno robotico. Niente più pause imbarazzanti, niente più frasi tagliate quando si prova a intervenire mentre l’assistente sta ancora rispondendo. Le prime tracce del modello sono spuntate dentro il codice dell’app, dove veniva descritto con parole piuttosto ambiziose, definito come un grande salto in avanti a livello di intelligenza e come la nuova generazione della funzione Voice.
Un assistente che diventa qualcosa di più grande
La novità si inserisce in un piano più ampio che OpenAI starebbe portando avanti da tempo. L’idea, a quanto pare, è trasformare ChatGPT in una sorta di superapp, con una revisione profonda di tutto l’impianto. Al centro di questo lavoro ci sarebbe Codex, lo strumento dedicato alla scrittura di codice, insieme a una serie di funzioni di intelligenza artificiale agentica, ossia quei sistemi pensati per svolgere compiti concreti al posto dell’utente, senza che debba seguirli passo dopo passo.
In questo scenario, l’arrivo di un modello come GPT-Bidi-1 non è un dettaglio secondario. La componente vocale è da sempre uno dei punti su cui si gioca la differenza tra un assistente che sembra vivo e uno che invece risponde a scatti, con quel ritardo che spezza il ritmo del discorso. Avere un sistema capace di seguire la conversazione in tempo reale, riconoscendo quando chi parla vuole intervenire, cambia parecchio l’esperienza d’uso.
Distribuzione già avviata per pochi utenti
Il dato forse più interessante riguarda i tempi. Il modello, pur restando ufficialmente non annunciato, avrebbe già iniziato a raggiungere un gruppo selezionato di utenti dell’app. Un segnale piuttosto chiaro, che lascia intuire un possibile debutto vero e proprio entro questa settimana. I primi test condotti dagli utenti che ci hanno messo le mani confermano quanto suggerito dal codice interno. Il sistema riesce davvero a gestire le interruzioni a metà frase in modo naturale, senza perdere il filo e senza obbligare a ripetere la richiesta da capo. È il tipo di comportamento che ci si aspetta da una persona reale durante una chiacchierata, non da una macchina che attende il proprio turno per rispondere.
Le prime indiscrezioni sul funzionamento di Bidi 1 sono emerse la scorsa settimana, sempre attraverso riferimenti nascosti nel codice dell’app. Da lì la curiosità è cresciuta, complice il modo in cui lo stesso modello viene descritto internamente, con toni che lasciano poco spazio ai dubbi sulle ambizioni del progetto. Se davvero il rilascio è dietro l’angolo, la parte audio di ChatGPT potrebbe presto cambiare volto, allineandosi a quel salto qualitativo che OpenAI sembra inseguire da mesi sul fronte della conversazione vocale.