Una nuova accusa mette sotto pressione NVIDIA e il modo in cui avrebbe addestrato alcuni dei propri modelli di intelligenza artificiale. Secondo una denuncia depositata negli Stati Uniti, dirigenti dell’azienda avrebbero autorizzato l’utilizzo di milioni di libri piratati provenienti da Anna’s Archive, nel tentativo di reperire rapidamente grandi quantità di testi da usare come dati di addestramento.
NVIDIA non opera solo come fornitore di chip per l’AI, ma sviluppa anche modelli proprietari come NeMo, Retro-48B, InstructRetro e Megatron. Proprio questi sistemi, stando all’accusa, sarebbero stati addestrati anche su contenuti coperti da copyright, ottenuti tramite archivi non autorizzati.
Le cause e la linea difensiva
Già all’inizio del 2024 alcuni autori avevano avviato azioni legali contro NVIDIA per presunta violazione dei diritti d’autore. La società, con sede a Santa Clara, ha sempre sostenuto che l’uso dei testi rientrasse nel fair use, dal momento che i libri non sarebbero stati utilizzati come opere da leggere o distribuire, ma come insiemi di dati statistici utili a individuare pattern linguistici.
Questa posizione, però, non è bastata a chiudere il caso. Nell’ambito di una class action, sarebbero emerse nuove prove che aggraverebbero il quadro. La denuncia fa riferimento a mail e documenti interni che suggerirebbero un contatto diretto tra NVIDIA e Anna’s Archive per valutare una possibile collaborazione.
I documenti e le fonti contestate
Secondo quanto riportato, un membro del team di strategia dati avrebbe scritto ad Anna’s Archive per capire quali collezioni fossero disponibili e a quali condizioni. La denuncia sostiene che, nonostante l’avviso esplicito sulla natura illegale dei contenuti, la dirigenza avrebbe dato il via libera all’acquisizione del materiale. Si parla di un accesso potenziale a circa 500 terabyte di dati, comprendenti milioni di libri.
Tra questi figurerebbero anche opere disponibili solo tramite il sistema di prestito digitale di Internet Archive, già coinvolto in altre controversie legali. Inoltre, vengono citate ulteriori fonti come LibGen, Sci-Hub e Z-Library.
