Una class action contro Meta depositata da cinque tra le più grandi case editrici del mondo sta facendo parecchio rumore nel settore dell’intelligenza artificiale. Macmillan, McGraw Hill, Elsevier, Hachette, Cengage e lo scrittore Scott Turow accusano l’azienda di Mark Zuckerberg di aver copiato libri protetti da copyright parola per parola, utilizzandoli per addestrare i modelli Llama. E non parliamo di vaghi sospetti: nella documentazione legale vengono riportati esempi piuttosto eloquenti.
Uno dei casi citati riguarda il manuale “Calculus: Early Transcendentals” di James Stewart, pubblicato da Cengage, un testo adottato nelle università di mezzo mondo. Bastava dare a Llama due frasi iniziali del libro perché il modello continuasse a riprodurre il testo esatto, non un riassunto, non una rielaborazione, proprio le stesse parole. Come se le stesse leggendo direttamente dalla pagina. Le case editrici parlano di una delle più massicce violazioni di materiale protetto da copyright nella storia.
Libri scaricati da siti pirata per addestrare Llama
Secondo l’accusa, Meta avrebbe deliberatamente scaricato libri e articoli accademici da noti siti pirata come LibGen, Anna’s Archive, Sci Hub e Sci Mag, utilizzandoli poi per addestrare i propri modelli di intelligenza artificiale. Nell’atto viene menzionato anche il dataset Common Crawl, descritto come pieno di copie non autorizzate di opere protette. Il risultato, stando a quanto riportato nella causa, è che Llama produce contenuti molto simili agli originali, arrivando a replicarne interi passaggi con minime variazioni o addirittura in modo identico.
Non è nemmeno la prima volta che Meta si trova di fronte a procedimenti di questo tipo. Cause precedenti avevano già fatto emergere discussioni interne all’azienda su come gestire la copertura mediatica legata all’uso di dataset ritenuti piratati. In uno di quei casi, un giudice federale aveva precisato che la sua decisione non andava interpretata come un via libera: non stabiliva in alcun modo che usare materiale protetto da copyright per addestrare modelli linguistici fosse legale.
Il precedente di Anthropic e la difesa di Meta
Anche Anthropic ha dovuto affrontare cause simili. Un giudice aveva stabilito che addestrare modelli AI su libri acquistati legalmente senza permesso potesse rientrare nel fair use, ma aveva comunque permesso di procedere con una class action per i milioni di opere che Anthropic avrebbe piratato. La vicenda si è chiusa nel 2025 con un accordo da circa 1,4 miliardi di euro pagati agli scrittori, un precedente finanziario che ha fatto scuola nel settore.
Dal canto suo, Meta non sembra intenzionata a cedere. Il portavoce Dave Arnold ha dichiarato che l’AI alimenta innovazioni trasformative, produttività e creatività per individui e aziende, e che i tribunali hanno giustamente stabilito che addestrare l’intelligenza artificiale su materiale protetto da copyright può qualificarsi come fair use. Ha aggiunto che l’azienda combatterà questa causa in modo aggressivo.
Le case editrici, dal canto loro, non chiedono solo danni economici. Vogliono il blocco delle attività che considerano illegali e, soprattutto, che il tribunale obblighi Meta a fornire l’elenco completo dei libri, articoli e altre opere su cui ha addestrato Llama. Questo punto potrebbe rivelarsi il più significativo per l’intero settore. Perché non è solo Meta a utilizzare Common Crawl e dati dal web per l’addestramento dei propri modelli: lo fa praticamente ogni azienda che lavora con modelli linguistici. Se Meta venisse obbligata a rivelare quella lista, l’impatto potrebbe estendersi ben oltre questa singola class action.