OpenAI ha appena rilasciato tre nuovi modelli vocali in tempo reale pensati per aprire una nuova categoria di applicazioni dedicate alla voce. Ogni modello ha una specializzazione diversa, e la cosa interessante è che non si tratta di aggiornamenti incrementali: parliamo di strumenti che puntano a cambiare il modo in cui gli sviluppatori costruiscono esperienze vocali nelle loro app. Ragionamento avanzato, traduzione simultanea e trascrizione in diretta sono le tre anime di questo lancio, e vale la pena capire cosa porta ciascuno sul tavolo.
Il primo modello si chiama GPT Realtime 2 ed è il più ambizioso dei tre. È il primo modello vocale con capacità di ragionamento di classe GPT 5, il che significa che può gestire richieste più complesse, portare avanti una conversazione in modo naturale, richiamare strumenti, gestire correzioni o interruzioni senza perdere il filo del discorso. In pratica, non si limita a rispondere: ragiona in tempo reale mentre parla, adattando il tono e il contenuto al contesto del momento. Per chi sviluppa assistenti vocali o interfacce conversazionali, è un salto in avanti piuttosto significativo.
Traduzione simultanea e trascrizione dal vivo
Poi c’è GPT Realtime Translate, il modello dedicato alla traduzione simultanea. Supporta oltre 70 lingue in ingresso e 13 lingue in uscita, mantenendo il passo con chi parla. Non è una traduzione che arriva con qualche secondo di ritardo imbarazzante: il sistema è progettato per seguire il parlato quasi in tempo reale. Chi lavora in contesti internazionali o sviluppa app per la comunicazione multilingue troverà questo strumento parecchio utile.
Il terzo modello è GPT Realtime Whisper, pensato per la trascrizione in tempo reale. Converte il parlato in testo mentre la persona sta ancora parlando, con una latenza bassissima. L’obiettivo è rendere i prodotti più reattivi e naturali: sottotitoli che compaiono nell’istante esatto in cui qualcuno parla, appunti di riunione che tengono il passo con la conversazione senza perdere pezzi. OpenAI lo descrive come un modello costruito appositamente per lo streaming a bassa latenza, e le applicazioni potenziali sono davvero tante.
Prezzi e disponibilità per gli sviluppatori
Tutti e tre i nuovi modelli vocali sono disponibili tramite la Realtime API di OpenAI, e i prezzi sono già stati comunicati. GPT Realtime 2 costa circa 30 euro per un milione di token audio in ingresso (circa 0,37 euro per i token in cache) e circa 59 euro per un milione di token audio in uscita. GPT Realtime Translate ha un costo di circa 0,031 euro al minuto, mentre GPT Realtime Whisper si posiziona a circa 0,016 euro al minuto. Sono cifre che parlano soprattutto agli sviluppatori, ovviamente, ma danno un’idea del posizionamento economico di questi strumenti.
Chi vuole provare subito può accedere al Playground di OpenAI e testare i modelli vocali in tempo reale. Per chi ha già Codex installato, è possibile integrare GPT Realtime 2 in un’app esistente o crearne una nuova direttamente da lì, con un semplice prompt. Alcune aziende stanno già utilizzando questa nuova tecnologia nelle proprie soluzioni.

