Il mondo digitale in cui ci muoviamo è permeato da una vasta rete di informazioni. Il nostro universo è diventato un tessuto intricato fatto di dati provenienti da ogni angolo della rete. In questo scenario, gli algoritmi di intelligenza artificiale (AI) come ChatGPT di OpenAI svolgono un ruolo cruciale. Questi sistemi si impegnano ogni giorno per fornire risposte e soluzioni alle nostre domande e richieste. Ma da dove provengono tutte queste conoscenze? La risposta risiede nell’immensa mole di testi e contenuti web da cui tali algoritmi vengono addestrati.
L’addestramento di ChatGPT e di altri modelli di linguaggio di grandi dimensioni (LLM) avviene grazie a un vasto dataset. Questo è composto da una varietà di fonti, tra cui libri, articoli online e contenuti web in generale. Quindi la principale fonte di dati per i chatbot è il web stesso, un oceano virtuale in cui vengono pescate informazioni di ogni genere.
Dati venduti per l’addestramento dell’AI
Le aziende impegnate nello sviluppo di intelligenza artificiale non si accontentano dei dati già disponibili sul web; mirano invece a incrementare sempre di più il proprio arsenale di informazioni. In questo contesto, è diventata prassi comune per le aziende di AI acquistare dati da altre fonti. Un esempio lampante di questa pratica è l’accordo da 60 milioni di dollari tra Reddit e un’azienda di intelligenza artificiale per l’acquisto dei dati degli utenti.
Ma Reddit non è l’unica piattaforma interessata a monetizzare i dati dei propri utenti. Altre realtà, tra cui Automattic, la società madre di Tumblr e WordPress, potrebbero essere sulla strada per cedere i dati dei loro milioni di utenti a giganti dell’AI come OpenAI e Midjourney.
Secondo quanto riportato da una fonte anonima a 404 Media, Automattic sarebbe in trattativa con Midjourney e OpenAI per cedere loro i dati degli utenti delle proprie piattaforme. Anche se, in questo caso, sembra che ci sia stata un’incertezza nella selezione dei dati da condividere. In questo modo, è aumentato il rischio che siano finiti anche dati sensibili o protetti da privacy. Non è ancora chiaro se tali dati siano stati effettivamente inviati o se l’accordo sia stato interrotto prima che ciò potesse accadere.
In risposta alle preoccupazioni sollevate da questa possibile condivisione non autorizzata dei dati degli utenti, Automattic sembra intenzionata a introdurre nuove impostazioni privacy nelle proprie piattaforme. Secondo le informazioni trapelate dalle FAQ esclusive consultate da 404 Media, gli utenti avranno la possibilità di rinunciare alla condivisione dei propri dati con terze parti, inclusi i fornitori di AI. Tale rinuncia però potrebbe comportare restrizioni nell’accesso ai contenuti e nei servizi offerti dalle piattaforme di Automattic.