Microsoft finisce di nuovo al centro delle polemiche sull’intelligenza artificiale. Dopo le critiche esplose online, il gruppo di Redmond ha rimosso un post dal proprio blog tecnico dedicato agli sviluppatori: il contenuto suggeriva di utilizzare un dataset contenente l’intera saga di Harry Potter per addestrare modelli AI.
Il problema? I libri non erano di pubblico dominio. E il dataset risultava caricato senza autorizzazione del titolare dei diritti.
Il post rimosso e il dataset “public domain”
L’articolo, pubblicato a novembre 2024 e firmato da un senior product manager, spiegava come integrare funzionalità di AI generativa in applicazioni basate su Azure SQL DB, LangChain e modelli linguistici.
Come esempio pratico, veniva suggerito di scaricare da Kaggle un dataset contenente i sette romanzi della saga di J.K. Rowling. Il dataset era etichettato come “public domain”, ma i libri di Harry Potter sono tutt’altro che opere di dominio pubblico.
Tra i casi d’uso proposti c’erano chatbot capaci di rispondere a domande sulla saga e persino la generazione di finali alternativi. In un esempio, Harry Potter incontrava un nuovo personaggio sull’Hogwarts Express per spiegare una funzionalità Microsoft nel “mondo babbano”. Un altro riferimento coinvolgeva la saga Foundation di Isaac Asimov, anch’essa ancora protetta da copyright.
Il caso esplode su Hacker News
Per mesi il contenuto è rimasto online senza attirare particolare attenzione. Le critiche sono esplose su Hacker News, portando alla rimozione del post dopo che testate specializzate hanno chiesto chiarimenti. Nel frattempo, il dataset è stato scaricato oltre 10.000 volte. Microsoft non ha rilasciato commenti ufficiali sulla vicenda.
Il nodo legale: addestramento AI e copyright
La questione si inserisce nel dibattito globale sull’uso di opere protette per l’addestramento dei modelli AI.
Alcuni tribunali hanno riconosciuto che il training possa rientrare nel fair use, altri hanno espresso orientamenti differenti. Parallelamente, diverse aziende del settore stanno siglando accordi con editori e detentori dei diritti per evitare contenziosi. Il caso Microsoft evidenzia un problema più ampio: anche colossi tecnologici con team legali strutturati possono incorrere in errori quando il confine normativo è ancora incerto.
Impatto reputazionale e rischio legale
Al di là delle possibili implicazioni giuridiche, il danno principale potrebbe essere reputazionale. In un momento in cui l’AI è sotto osservazione da parte di governi e autorità regolatorie, episodi simili alimentano il dibattito sulla trasparenza delle fonti utilizzate per addestrare i modelli.
Non è la prima volta che aziende tecnologiche vengono accusate di utilizzare materiale protetto senza licenza. Ma quando accade su un blog ufficiale, l’effetto mediatico è amplificato. La vicenda riporta al centro una domanda cruciale: quanto è realmente controllabile la provenienza dei dati utilizzati per addestrare l’intelligenza artificiale?
