La voce è sempre stata considerata qualcosa di inseparabile dalla registrazione musicale, un tratto talmente personale da sembrare impossibile da staccare dal corpo che la produce. Eppure con l’arrivo dell’intelligenza artificiale generativa qualcosa si è rotto. Oggi la voce può essere isolata, copiata, ricreata. E questo cambia tutto. Entrano in gioco tre elementi che fino a poco tempo fa nessuno avrebbe immaginato: l’identificazione, ovvero il riconoscimento della voce come una firma personale, la separazione, cioè la possibilità di estrarla dalla persona e dalla registrazione originale, e infine la replicazione, la capacità di imitarla con una precisione impressionante.
Per la prima volta, quindi, la voce diventa un bene distinto sia dall’individuo sia dalla registrazione. Un nuovo asset che porta con sé domande mai poste prima. Non solo chi possiede una canzone o chi detiene i diritti di una registrazione, ma anche chi può autorizzare l’uso di una voce, chi può limitarlo e soprattutto chi ha diritto a guadagnarci. A Milano se ne è parlato in un incontro organizzato da Rockol Music Biz, con il ceo Giampiero Di Carlo a confronto con lo studio legale internazionale Ontier, rappresentato da Luca Pardo e Pierluigi De Palma. Dal dibattito sono emerse proposte inedite sulla protezione e la monetizzazione vocale. Il ragionamento è semplice: se la clonazione vocale non si può fermare, allora tanto vale governarla. Ed è da qui che prende forma la cosiddetta voice economy.
Deepfake, dataset e artisti che corrono ai ripari
Il problema vero è la velocità con cui questa tecnologia avanza e la qualità ormai raggiunta. I deepfake vocali non sono più fantascienza. Un rapporto di Copyleaks pubblicato a fine aprile ha mostrato come l’immagine di personaggi famosi, tra cui Taylor Swift, sia stata usata per costruire pubblicità ingannevoli. Su TikTok circolavano video sponsorizzati che sembravano mostrare Swift, Kim Kardashian o Rihanna mentre promuovevano servizi sospetti, con voci artificiali tanto realistiche da ingannare chiunque. E il dato che fa più riflettere è un altro: secondo una ricerca della piattaforma Deezer, il 97 per cento delle persone non riesce a distinguere musica generata dall’AI da quella creata dall’uomo. Il caso di Heart on My Sleeve, brano firmato dal misterioso Ghostwriter con le voci ricreate di Drake e The Weeknd, è diventato il simbolo di questa trasformazione prima di essere rimosso su richiesta delle major.
Nel frattempo l’addestramento dei modelli va avanti. Il giornalista Alex Reisner ha individuato quattro grandi dataset musicali usati per allenare le intelligenze artificiali, raccolte che contengono milioni di canzoni. Due archivi arrivano rispettivamente a 12 e 9 milioni di tracce, gli altri superano i 100 mila brani ciascuno, con materiale proveniente da YouTube e Spotify. Dentro ci sono Madonna, Daft Punk, Oasis, ma anche italiani come Vasco Rossi e gruppi della scena indipendente come Uzeda e Perturbazione. Google e Stability AI hanno ammesso di aver usato alcuni di questi dataset per attività di ricerca. Nel Regno Unito, da notizie recenti, si chiederebbe persino nei contratti degli attori bambini di cedere i diritti sulla loro voce per allenarla e riutilizzarla in maniera indefinita.
Marchi sonori, leggi e la nascita della voice economy
La corsa alla protezione è partita. Taylor Swift a fine aprile 2026 ha depositato tre richieste di registrazione del marchio per tutelare immagine e voce, concentrandosi sui trademark sonori legati a due frasi tipiche, “Hey, it’s Taylor Swift” e “Hey, it’s Taylor”. Due anni fa fu OpenAI a fare un passo indietro con l’agente vocale Sky, troppo simile alla voce di Scarlett Johansson, che aveva già combattuto in tribunale contro un’app accusata di aver usato volto e voce senza consenso. In Italia, Giusy Ferreri è stata la prima cantante a registrare il proprio marchio sonoro presso l’EUIPO con un file audio in cui pronuncia “Sono Giusy Ferreri”, prima in tutta Europa. Il doppiatore Luca Ward, voce italiana di Russell Crowe e Pierce Brosnan, aveva fatto lo stesso a febbraio 2026.
Il marchio sonoro, però, ha limiti evidenti. Come spiega Luca Pardo, registrare una frase non protegge il timbro, l’inflessione, le frequenze, l’intero patrimonio vocale di una persona. Su questo fronte legislativo si muovono diversi paesi. L’Elvis Act del Tennessee, in vigore dal 1° luglio 2024, estende la tutela sia alla voce naturale sia a quella sintetica. La Danimarca, con una riforma del copyright presentata il 26 giugno 2025, vuole riconoscere voce e immagine come beni assimilabili alla proprietà intellettuale, anche se l’entrata in vigore prevista per il 31 marzo 2026 è slittata. In Italia il disegno di legge n. 1644 del Senato riconosce per la prima volta la voce tra gli elementi identitari della persona, introducendo una novità: in caso di uso illecito tramite AI il danno si presume esistente, e tocca a chi viola fornire la prova contraria.
Voce sintetica e bene autonomo?
Secondo Ontier tutto questo potrebbe non bastare. La loro proposta va oltre: considerare la voce sintetica come un bene autonomo, gestito tramite un dataset proprietario controllato dall’artista. Uno strumento che protegge ma apre anche nuove forme di guadagno. La voce viene così scomposta in voce attuale, legata al timbro e all’identità, voce storica, conservata nelle registrazioni e nella memoria collettiva, e voce evocata, quella ricreata o imitata dall’AI. È proprio quest’ultima, con il concetto di likeness, a superare il vecchio modello fondato sui diritti di master e publishing.