OpenAI ha annunciato gpt-realtime, un modello che punta a ridefinire il rapporto tra intelligenza artificiale e interazione vocale. Non si tratta di un semplice aggiornamento tecnico, ma di un passo che unisce qualità più alta, nuove funzionalità per gli sviluppatori e un prezzo più accessibile rispetto alle versioni precedenti.
Espressività e precisione migliorate
Il nuovo modello arriva dopo l’introduzione della Realtime API, che aveva già permesso a migliaia di sviluppatori di inserire esperienze vocali naturali nelle proprie app. Con gpt-realtime, la resa diventa ancora più vicina alla voce umana: espressività più ricca, intonazione naturale e maggiore capacità di seguire istruzioni complesse. Anche gli errori nel richiamo degli strumenti interni dell’AI risultano ridotti, grazie a una comprensione più precisa dei messaggi di sistema e delle istruzioni fornite.
Risultati nei benchmark
I miglioramenti si vedono chiaramente nei test. Nel Big Bench Audio, gpt-realtime ha raggiunto un’accuratezza dell’82,8%, superando nettamente il 65,6% del modello precedente. Nel MultiChallenge audio benchmark il punteggio è salito dal 20,6% al 30,5%, mentre nel ComplexFuncBench è passato dal 49,7% al 66,5%. Numeri che confermano un progresso tangibile in più ambiti.
Più voci e strumenti per sviluppatori
L’ecosistema vocale si arricchisce anche sul fronte creativo. OpenAI ha introdotto due nuove voci, Marin e Cedar, che si aggiungono alle sei già disponibili, tutte aggiornate per risultare più fluide e realistiche. Per chi lavora con l’API, ci sono funzioni inedite: supporto a server remoti MCP, possibilità di inserire immagini come input e perfino chiamate telefoniche tramite protocollo SIP. Inoltre, diventa possibile salvare e riutilizzare i prompt, una comodità utile a chi costruisce applicazioni complesse.
Prezzo più basso
Un dettaglio che rende gpt-realtime ancora più interessante riguarda il costo: l’API costa circa il 20% in meno rispetto a gpt-4o-realtime-preview. Si parla di circa 29 euro per un milione di token audio in ingresso (0,37 euro per i token cache) e 59 euro per un milione di token in uscita. Una scelta che rende la tecnologia più accessibile, aprendo la strada a un’adozione ancora più ampia.