OpenAI ha presentato GPT-4o, la nuova versione del proprio chatbot basato sull’Intelligenza Artificiale. Nell’ottica di continua evoluzione che rappresenta l’IA, il team di sviluppo ha voluto introdurre nuove feature che aiuteranno gli utenti in vari modi.
Con GTP-4o, dove la “o” sta per “omni”, l’interazione con il chatbot diventa sempre più umana e convincente. Sarà possibile fornire diversi input tra cui testo, audio e immagini per ricevere risposte miste che combinano questi elementi.
Quando viene avviata una conversazione vocale, GPT-4o impiegherà circa 232 millisecondi per rispondere. Se si considera che il tempo medio di risposta per gli umani è di 320 millisecondi in una conversazione, il lavoro di ottimizzazione messo a punto da OpenAI è evidente.
OpenAI ha presentato GPT-4o, il nuovo modello di Intelligenza Artificiale che elabora input multipli e fornisce risposte vocali veloci e pertinenti
Gli sviluppatori confermano che la nuova versione riesce a pareggiare le performance di GPT-4 Turbo nella creazione di testo in Inglese e nel codice. I passi avanti più interessanti, tuttavia, si hanno nella generazione di testo in altre lingue diverse dall’inglese, che possono contare su un incremento del 50% della velocità.
Prima di GPT-4o, le risposte vocali ad input vocali era associata ad una Voice Mode che si basava su tre modelli separati. Il primo trascriveva l’audio ricevuto in testo, il secondo prevedeva l’intervento di GPT-3.5 e GPT-4 per analizzare il testo e fornire la risposta, il terzo convertiva la risposta in audio.
Questo processo comportava la perdita di informazioni come il tono della domanda o dell’affermazione. Grazie a GPT-4o, il team di OpenAI ha addestrato l’IA per interpretare diversi input contemporaneamente e processarli attraverso la stessa rete neurale. In questo modo, viene minimizzata la perdita di informazioni utili alla generazione della risposta.
Utilizzando i metodi di misurazione tradizionali, OpenAI conferma che GPT-4o riesce a raggiungere le performance espresse da GPT-4 Turbo sulla creazione di testo, ragionamento e sulla programmazione. Tuttavia, la nuova versione del modello permette di settare nuovi riferimenti per quanto riguarda le risposte in diverse lingue, negli audio e nelle capacità di visione.