La storica Encyclopedia Britannica e il celebre editore di dizionari Merriam-Webster hanno deciso di portare OpenAI in tribunale. La causa, depositata venerdì scorso, solleva questioni enormi sul rapporto tra contenuti protetti da diritto d’autore e addestramento dei modelli di intelligenza artificiale. E no, non si tratta dell’ennesima scaramuccia legale destinata a finire nel nulla: qui parliamo di due istituzioni che hanno definito il concetto stesso di conoscenza enciclopedica e linguistica nel mondo anglosassone.
Secondo quanto riportato inizialmente da Reuters, le due aziende accusano OpenAI di aver utilizzato i loro contenuti protetti da copyright per addestrare i propri modelli di intelligenza artificiale. Ma la questione non si ferma qui. Britannica sostiene che il modello GPT-4 non si sia limitato ad apprendere dai testi: li avrebbe letteralmente memorizzati. Al punto da essere in grado di restituire, su richiesta, copie pressoché identiche di porzioni significative del materiale originale.
Le accuse nel dettaglio: contenuti copiati e risposte troppo simili
Il cuore della causa ruota attorno a un concetto piuttosto preciso. OpenAI avrebbe copiato ripetutamente i contenuti di Encyclopedia Britannica senza alcuna autorizzazione. E il risultato, stando alla denuncia, sarebbe che le risposte generate dai modelli risultano “sostanzialmente simili” ai testi originali. Praticamente, GPT-4 avrebbe fatto proprie intere sezioni delle voci enciclopediche, trasformandole in output che ricalcano fedelmente il lavoro redazionale di Britannica.
Nella documentazione legale si legge una frase che vale la pena riportare quasi alla lettera: GPT-4 avrebbe “memorizzato gran parte dei contenuti protetti da copyright di Britannica” e sarebbe capace di “produrre copie quasi letterali di porzioni significative su richiesta”. Gli esempi memorizzati, secondo l’accusa, rappresentano copie non autorizzate utilizzate per addestrare i modelli, incluso appunto GPT-4.
Il caso si inserisce in un panorama legale sempre più affollato. Sono ormai numerose le cause intentate contro OpenAI da editori, autori e creatori di contenuti che contestano l’uso dei propri materiali per il training dei modelli AI. Quello che rende questa causa particolarmente rilevante è il peso dei nomi coinvolti. Encyclopedia Britannica non è un blog qualsiasi: è un punto di riferimento culturale con oltre 250 anni di storia alle spalle. E Merriam-Webster, dal canto suo, rappresenta da decenni lo standard per la lingua inglese.
Cosa potrebbe significare per il futuro dell’intelligenza artificiale
La questione sollevata da questa causa va ben oltre il singolo contenzioso tra Britannica e OpenAI. Se un tribunale dovesse stabilire che i contenuti enciclopedici sono stati effettivamente copiati e riprodotti senza licenza, le conseguenze per l’intero settore dell’intelligenza artificiale generativa sarebbero significative. Si creerebbe un precedente capace di ridefinire i confini entro cui le aziende tech possono attingere a materiale protetto da copyright per alimentare i propri sistemi.
