Il mondo dell’intelligenza artificiale sembra correre a una velocità sempre più vertiginosa. A tal proposito, OpenAI continua a sorprendere con innovazioni che trasformano il modo in cui si interagisce con le macchine. L’ultima novità, gpt-realtime, promette di rivoluzionare il campo della sintesi vocale. Ciò rendendo le conversazioni con l’AI più naturali e coinvolgenti. E con un prezzo più accessibile rispetto al passato. Se fino a poco tempo fa le interazioni vocali con l’intelligenza artificiale potevano sembrare meccaniche o impersonali, gpt-realtime cambia radicalmente la situazione.
Nuova modalità in arrivo per OpenAI: ecco come funziona
Il modello riesce a modulare la voce con sfumature e inflessioni che ricordano da vicino quelle umane. Tale evoluzione segue il lancio della Realtime API, che aveva già permesso agli sviluppatori di integrare esperienze vocali più fluide nelle loro applicazioni. La differenza ora sta nella precisione e nella naturalezza, con errori di interpretazione drasticamente ridotti e una comprensione più accurata di istruzioni complesse.
E non è tutto. OpenAI ha ampliato la gamma di voci disponibili. L’azienda, infatti, ha introdotto “Marin” e “Cedar”, che si uniscono alle sei precedenti. L’API è stata potenziata con strumenti per sviluppatori, come il supporto ai server MCP, la possibilità di usare immagini come input e le chiamate telefoniche via protocollo SIP. Inoltre, la gestione dei prompt è stata semplificata: ora è possibile salvarli e riutilizzarli rapidamente.
I dati parlano chiaro. Nei principali benchmark, gpt-realtime ha mostrato miglioramenti notevoli. Sul Big Bench Audio ha raggiunto un’accuratezza dell’82,8%, contro il 65,6% del modello precedente. Nel MultiChallenge audio benchmark il punteggio è salito dal 20,6% al 30,5%. Mentre la valutazione ComplexFuncBench evidenzia un balzo dal 49,7% al 66,5%. Forse il cambiamento più sorprendente riguarda il prezzo. Contrariamente alla consuetudine, gpt-realtime costa meno rispetto al suo predecessore. Si parla di circa 29 euro per un milione di token audio in ingresso e 59 per quelli in uscita. Con i token cache a 0,37 euro.
