Il rapporto tra AI e diritto d’autore continua a generare tensioni nel mondo tecnologico. Questa volta al centro della discussione c’è Meta. La società infatti, attualmente è coinvolta in una causa legale negli Stati Uniti che potrebbe avere conseguenze importanti per l’intero settore dell’IA. L’accusa? Alcuni autori accusano l’azienda di aver utilizzato libri protetti da copyright per addestrare i propri modelli linguistici senza il consenso dei titolari dei diritti.
La vicenda insinua le radici in una causa avviata nel 2023. Periodo in cui diversi scrittori hanno contestato a Meta l’utilizzo di opere letterarie come materiale di addestramento per sistemi di IA. In una prima fase il tribunale ha riconosciuto che l’uso di contenuti protetti a fini di addestramento potrebbe rientrare nella dottrina statunitense del fair use. Si tratta del principio che in alcune circostanze consente l’utilizzo di opere coperte da copyright senza autorizzazione.
Il dibattito, però, non si è fermato a questa interpretazione. Gli autori hanno infatti sollevato una questione ancora più delicata. Ci si domanda non tanto sull’uso dei libri per addestrare i modelli di AI, quanto sul modo in cui Meta avrebbe ottenuto quei contenuti. Secondo l’accusa, parte dei dataset utilizzati per l’addestramento deriverebbe da archivi digitali non ufficiali, le cosiddette “shadow library”, distribuite tramite reti peer-to-peer come BitTorrent. Gli autori sostengono quindi che il comportamento di Meta non avrebbe comportato solo la copia delle opere, ma anche la loro redistribuzione, sempre senza autorizzazione.
Meta e il precedente legale che potrebbe cambiare l’AI
La difesa di Meta ha scelto una linea piuttosto netta. Gli avvocati dell’azienda sostengono che anche questo passaggio tecnico rientri nella logica del fair use. Secondo la loro interpretazione, l’eventuale condivisione dei file non sarebbe stata una decisione deliberata. È invece una conseguenza inevitabile del funzionamento della rete BitTorrent.
La posizione della società si basa anche su un altro argomento, la necessità di accedere a dataset estremamente grandi per addestrare modelli di AI avanzati. Archivi digitali come Anna’s Archive, rappresenterebbero una delle poche fonti capaci di fornire volumi di dati sufficienti per sviluppare sistemi linguistici complessi.
Meta ha anche sostenuto che l’utilizzo di queste raccolte di testi abbia avuto uno scopo trasformativo, cioè quello di migliorare le capacità dei modelli di IA non semplicemente di riprodurre le opere originali. La decisione finale spetterà ora al giudice federale Vince Chhabria, chiamato a stabilire se questa interpretazione possa essere applicata anche alla distribuzione dei file attraverso BitTorrent. Il verdetto potrebbe diventare un precedente importante, destinato a influenzare molte altre cause legate all’uso di contenuti protetti per l’addestramento dell’intelligenza artificiale.
