OpenAI presenta gpt-realtime: la nuova frontiera della voce artificiale

OpenAI ha annunciato gpt-realtime, un modello che punta a ridefinire il rapporto tra intelligenza artificiale e interazione vocale. Non si tratta di un semplice aggiornamento tecnico, ma di un passo che unisce qualità più alta, nuove funzionalità per gli sviluppatori e un prezzo più accessibile rispetto alle versioni precedenti. Espressività e precisione migliorate https://www.youtube.com/live/nfBbmtMJhX0?sikud-hMP7n9UCXS9l Il nuovo modello arriva dopo l’introduzione della Realtime API, che aveva già permesso a migliaia di sviluppatori di inserire esperienze vocali naturali nelle proprie app. Con gpt-realtime, la resa diventa ancora più vicina alla voce umana: espressività più ricca, intonazione naturale e maggiore capacità di seguire istruzioni complesse. Anche gli errori nel richiamo degli strumenti interni dell’AI risultano ridotti, grazie a una comprensione più precisa dei messaggi di sistema e delle istruzioni fornite. Risultati nei benchmark I miglioramenti si vedono chiaramente nei test. Nel Big Bench Audio, gpt-realtime ha raggiunto un’accuratezza dell’82,8%, superando nettamente il 65,6% del modello precedente. Nel MultiChallenge audio benchmark il punteggio è salito dal 20,6% al 30,5%, mentre nel ComplexFuncBench è passato dal 49,7% al 66,5%. Numeri che confermano un progresso tangibile in più ambiti. Più voci e strumenti per sviluppatori L’ecosistema vocale si arricchisce anche sul fronte creativo. OpenAI ha introdotto due nuove voci, Marin e Cedar, che si aggiungono alle sei già disponibili, tutte aggiornate per risultare più fluide e realistiche. Per chi lavora con l’API, ci sono funzioni inedite: supporto a server remoti MCP, possibilità di inserire immagini come input e perfino chiamate telefoniche tramite protocollo SIP. Inoltre, diventa possibile salvare e riutilizzare i prompt, una comodità utile a chi costruisce applicazioni complesse. Prezzo più basso Un dettaglio che rende gpt-realtime ancora più interessante riguarda il costo: l’API costa circa il 20% in meno rispetto a gpt-4o-realtime-preview. Si parla di circa 29 euro per un milione di token audio in ingresso (0,37 euro per i token cache) e 59 euro per un milione di token in uscita. Una scelta che rende la tecnologia più accessibile, aprendo la strada a un’adozione ancora più ampia.

OpenAI presenta gpt-realtime: la nuova frontiera della voce artificiale

Ora gli utenti fedeli ad OpenAI potranno avere a disposizione un modello a prezzo più accessibile e con più opportunità per gli sviluppatori.

Espressività e precisione migliorate

Risultati nei benchmark

Più voci e strumenti per sviluppatori

Prezzo più basso