Un cronista dell’Atlantic, Alex Reisner, ha portato alla luce quattro grandi raccolte di brani musicali usati per addestrare i modelli di intelligenza artificiale e le ha rese consultabili da chiunque. Il punto, semplice e un po’ inquietante, è che tutta questa musica è finita dentro le macchine spesso senza che gli artisti ne sapessero granché. Due di questi archivi sono enormi davvero, parliamo di 12 milioni e 9 milioni di tracce. Gli altri due sono più contenuti, ma con oltre 100.000 canzoni ciascuno restano comunque una mole di materiale niente male.
Stando a quanto raccontato da Reisner, questi dataset sono stati scaricati migliaia di volte. Capire con esattezza chi li ha usati è praticamente impossibile, però alcune aziende hanno ammesso la cosa nero su bianco. Google e Stability, per esempio, lo hanno confermato in alcuni loro documenti di ricerca. Una parte delle fonti, come il Free Music Archive, è gratuita per l’ascolto personale ma richiede una licenza quando si passa all’uso commerciale. E qui sta uno dei nodi più delicati di tutta la faccenda.
Modelli IA: come funziona davvero il meccanismo di addestramento
C’è un equivoco da chiarire subito. Il fatto che questi archivi siano disponibili in rete non significa che addestrare un modello sia facile come scaricare un file e darlo in pasto al software. Tre dei quattro dataset individuati arrivano sotto forma di liste di link a brani caricati su YouTube o Spotify. Per ottenere l’audio vero e proprio, gli sviluppatori usano strumenti che automatizzano il lavoro. Alcuni di questi programmi permettono di aggirare login, pubblicità e tutti quei sistemi che dovrebbero far guadagnare qualcosa ai creatori, o quantomeno portare iscritti. Strumenti del genere violano apertamente le condizioni d’uso delle piattaforme.
I nomi che spuntano dentro questi archivi musicali fanno una certa impressione. Si va dalle star del pop come Lady Gaga e Fred Again.. fino ai Radiohead, passando per Aphex Twin, il Wu-Tang Clan, Bruce Springsteen e il compositore sperimentale Hainbach. Roba di ogni genere, insomma, finita nello stesso calderone digitale senza troppe distinzioni.
Chi vuole farsi un’idea precisa può andare direttamente sul sito AI Watchdog dell’Atlantic e cercare per conto proprio. Lì dentro non ci sono soltanto le canzoni, ma anche i libri e gli altri contenuti multimediali usati per nutrire i modelli di intelligenza artificiale sparsi per il mondo. Basta digitare un titolo o un autore e si scopre se è finito nel meccanismo. Una sorta di lente d’ingrandimento su un processo che, fino a poco tempo fa, restava nascosto dietro le quinte degli sviluppatori. E che adesso, almeno in parte, chiunque può sfogliare con un paio di clic.