Dodici milioni di brani musicali finiti dentro i dataset che servono ad addestrare i modelli AI. Tra questi ci sono nomi enormi come Taylor Swift e Bad Bunny, ma anche milioni di artisti meno noti. La rivelazione arriva da quattro database resi consultabili, e per la prima volta chiunque può verificare se la propria canzone preferita è stata usata per insegnare a un’intelligenza artificiale a comporre musica. Nella maggioranza dei casi la risposta è affermativa.
Il quadro è imponente. Un database raccoglie 12 milioni di brani, un altro ne contiene 9 milioni, mentre gli ultimi due si fermano a circa 100.000 ciascuno. Numeri che danno l’idea di quanto sia profondo il pozzo da cui le piattaforme di musica AI hanno attinto.
Cosa emerge dall’indagine
A firmare il lavoro è il giornalista Alex Reisner, lo stesso che in passato aveva ricostruito quali libri fossero stati usati per addestrare i modelli linguistici. Stavolta ha cambiato terreno e ha mappato la quantità di materiale protetto da copyright finito nelle mani delle piattaforme di musica generativa come Suno e Udio. Aziende che, di fronte alle critiche, si sono difese tirando in ballo il concetto di fair use, lo stesso argomento già utilizzato nel settore editoriale per giustificare lo scraping massiccio di contenuti.
La portata di questi archivi non è solo accademica. Potrebbero trasformarsi in vere e proprie prove nelle cause che l’industria musicale potrebbe avviare. Fino a oggi mancava proprio quel tipo di documentazione precisa, ovvero quali brani specifici siano stati usati, da quali dataset provengano e su quale scala sia avvenuto tutto questo.
Il precedente dei libri e il nodo legale
Nel mondo editoriale una battaglia simile ha già avuto i suoi sviluppi. Le accuse di violazione del copyright non hanno funzionato granché, mentre quelle legate alla pirateria si sono rivelate molto più solide. Il primo risultato concreto è stato un accordo da circa 1,3 miliardi di euro, la cifra pagata da Anthropic, con la partita ancora aperta su altri fronti. Se l’industria musicale decide di battere la stessa strada, spostando il baricentro dal copyright alla pirateria, allora questi archivi diventano munizioni pronte all’uso.
E intanto i numeri parlano chiaro. Il 44 per cento dei nuovi caricamenti su Deezer è ormai musica generata dall’intelligenza artificiale. Spotify ha appena chiuso un accordo con Universal Group per i remix realizzati con l’AI, e il suo amministratore delegato si rifiuta di chiamarla spazzatura. Sempre Deezer, dal canto suo, ha lanciato un rilevatore che passa al setaccio le playlist di Spotify e Apple Music a caccia di tracce artificiali.
Quello che cambia adesso è la concretezza. Non si parla più di qualche migliaio di brani usati come semplice riferimento, ma di milioni di pezzi documentati uno per uno. Cosa ne farà l’industria musicale di questi numeri, ora, dipende soltanto da quello che decideranno i tribunali.