Un nuovo rapporto pubblicato dal New York Times ha diffuso una serie di informazioni riguardo la minaccia del CEO di YouTube ad OpenAI. Nell’articolo si legge che nel tentativo di ottenere dati utili per il nuovo modello di GPT–4, OpenAI ha utilizzato il nuovo modello di trascrizione audio (Whisper) per poter trascrivere all’incirca un milione di ore di video di YouTube. Questo materiale raccolto sarebbe poi stato usato per addestrare il nuovo chatbot.

Secondo quanto riportato dal Times sembra che la pratica sia stata portata avanti nonostante l’azienda sia consapevole del fatto che quest’ultima sia discutibile. Inoltre, sembra che Greg Brockman, presidente di OpenAI, sia ugualmente coinvolto nella raccolta dei dati.

OpenAI sfrutta i video YouTube per l’addestramento del nuovo chatbot

Nell’articolo viene anche espresso che OpenAI è ricorda a questa pratica dopo che nel 2021 aveva esaurito le proprie scorte di dati utili. Proprio per questo avrebbe deciso di trascrivere video, podcast e audiolibri presenti su YouTube. Il tutto dopo aver esaminato altre possibili risorse.

Lindsay Held, portavoce di OpenAI, ha confermato che la società cura set di dati unici per ognuno dei suoi modelli. In questo modo viene concesso ai chatbot di “comprendere il mondo” e renderli sempre più competitivi sul mercato globale. In una mail, la portavoce ha anche dichiarato che la società usa numerose fonti che forniscono dati disponibili al pubblico e partnership, invece, per i dati non pubblici. Allo stesso tempo però sembra che OpenAI stia anche lavorando per poter generare dei propri dati di tipo sintetico.

In risposta a quanto dichiarato, un portavoce di Google ha affermato che l’azienda di Mountain View ha avuto modo di visionare i rapporti non confermati sulle attività di OpenAI. Inoltre, ha aggiunto che sia i file robots.txt di Google che i Termini di servizio dell’azienda vietano lo scraping. Così come il download non autorizzato di contenuti provenienti da YouTube.