Le API audio realtime di OpenAI si aggiornano con una serie di novità pensate per portare le interfacce vocali a un livello completamente diverso. Sono stati introdotti tre nuovi modelli che coprono ambiti distinti ma complementari: trascrizione live, traduzione simultanea e interazioni vocali dotate di capacità di ragionamento avanzate. Il tutto disponibile già da ora all’interno della piattaforma API, con l’obiettivo dichiarato di semplificare la vita agli sviluppatori che lavorano su applicazioni vocali di livello enterprise.
Il contesto, d’altra parte, è abbastanza chiaro. Il mercato delle applicazioni basate su voice AI sta crescendo a ritmi sostenuti: contact center, piattaforme educative, software per meeting e strumenti per creator stanno investendo sempre di più in agenti vocali capaci di comprendere il linguaggio naturale senza latenza percepibile. Da quando Whisper è stato lanciato nel 2022, e poi con l’arrivo delle API realtime nel 2024, OpenAI ha progressivamente spostato il fuoco dal classico speech to text verso modelli multimodali in grado di ascoltare, interpretare e rispondere praticamente in tempo reale. La differenza rispetto ai sistemi tradizionali sta nella riduzione drastica dei passaggi intermedi: meno conversioni, meno orchestrazione esterna e tempi di risposta sensibilmente più bassi. Una mossa che rafforza anche la competizione con i servizi speech AI di Google Cloud, AWS e Microsoft Azure, tutti impegnati a integrare modelli generativi nelle rispettive offerte vocali.
GPT Realtime 2: ragionamento e conversazione senza interruzioni
Il pezzo forte del pacchetto è GPT Realtime 2, che OpenAI definisce come il primo modello vocale realtime con capacità di reasoning paragonabili a GPT 5. E non è una cosa da poco. Il modello riesce a mantenere memoria della conversazione, può richiamare strumenti esterni tramite tool calling e gestire richieste complesse durante sessioni prolungate. A differenza dei sistemi classici, che lavorano in modo sequenziale (prima trascrizione, poi interpretazione, infine risposta), GPT Realtime 2 è progettato per reagire mentre l’utente sta ancora parlando.
Per chi sviluppa applicazioni, questo si traduce nella possibilità di costruire assistenti vocali capaci di eseguire prenotazioni, recuperare dati aziendali o gestire ticket senza interrompere continuamente il dialogo. Tra le aziende che hanno partecipato ai test iniziali figurano nomi come Zillow, Priceline e Deutsche Telekom.
Traduzione live, trascrizione streaming e questione costi
Accanto al modello principale, OpenAI ha presentato GPT Realtime Translate, con supporto a oltre 70 lingue in ingresso e 13 in uscita, pensato soprattutto per il customer support internazionale, eventi live e piattaforme collaborative. Il terzo componente si chiama GPT Realtime Whisper ed è sostanzialmente una variante streaming di Whisper ottimizzata per la trascrizione live: produce testo mentre l’utente parla e può integrarsi con sistemi di sottotitolazione, verbalizzazione di meeting e CRM in grado di estrarre entità e intenzioni dell’utente in tempo reale.
Capitolo prezzi. GPT Realtime 2 viene tariffato a circa 29 euro per milione di token audio in input, mentre Translate e Whisper costano rispettivamente circa 0,031 e 0,015 euro al minuto. L’espansione delle funzionalità vocali nelle API audio realtime di OpenAI porta con sé anche nuove criticità da considerare: conversazioni sintetiche sempre più credibili aumentano inevitabilmente i rischi legati a phishing e social engineering. OpenAI dichiara di aver integrato sistemi di sicurezza per impedire usi fraudolenti, ma il monitoraggio in tempo reale e il watermarking audio stanno diventando requisiti ormai standard nelle implementazioni enterprise.
