L’uso dei dati protetti da copyright per addestrare sistemi di intelligenza artificiale è diventato uno dei temi più dibattuti. A tal proposito, Apple si trova al centro di una nuova controversia legale. Due professori americani, Susana Martinez-Conde e Stephen Macknik, hanno citato in giudizio l’azienda di Cupertino. Ciò sostenendo che alcuni dei loro libri siano stati impiegati senza autorizzazione per alimentare Apple Intelligence. Secondo l’accusa, l’azienda avrebbe tratto materiale da un archivio digitale noto come Books3. Un dataset contenente migliaia di opere coperte da copyright e originariamente distribuito tramite Bibliotik, un tracker privato di BitTorrent. Books3 faceva parte di The Pile, una raccolta open source che ha servito come base per l’addestramento di diversi modelli linguistici. Tra cui OpenELM, utilizzato all’interno di Apple Intelligence per alcune funzionalità avanzate. Pur essendo stato rimosso nel 2023 per violazioni di copyright, i querelanti sostengono che il materiale fosse già stato sfruttato da Apple.

Apple avrebbe usato libri piratati per addestrare l’AI

La causa mette in luce una presunta contraddizione nelle pratiche aziendali. Mentre Apple promuove strumenti di protezione dei contenuti e politiche rigorose sul copyright, i ricorrenti affermano che l’azienda avrebbe comunque utilizzato opere protette per ottenere un vantaggio commerciale. I professori chiedono un risarcimento economico e un’ingiunzione che impedisca l’uso futuro delle loro opere.

La legge statunitense prevede che la violazione volontaria del copyright possa comportare multe fino a 150.000 dollari per ogni titolo coinvolto. Ma dimostrare che i libri specifici siano stati realmente inclusi nel dataset rappresenta una sfida legale complessa. Apple ha confermato di aver impiegato fonti “collegate” a Books3. Senza però confermare la presenza dei titoli citati nella causa.

Il caso riflette una tensione più ampia tra innovazione tecnologica e tutela della proprietà intellettuale. Con sempre più aziende che sfruttano grandi dataset per addestrare modelli di AI, le questioni legali su come i contenuti protetti vengano utilizzati stanno assumendo una rilevanza crescente. L’esito della causa potrebbe avere implicazioni importanti non solo per Apple, ma anche per l’intero settore.