C’è una questione molto importante che Wikipedia ha deciso di combattere ed è lo scraping automatizzato da parte dei bot AI. A tal proposito, Wikimedia Foundation ha scelto di optare per una strategia controintuitiva, la quale per potrebbe essere estremamente valida. L’obiettivo è infatti quello di concedere i dati in un formato ottimizzato. A tal proposito infatti è stata annunciata una nuova partnership con Kaggle, piattaforma per il machine learning di proprietà di Google: ci sarà la pubblicazione di un dataset beta contenente contenuti strutturati di Wikipedia in inglese e francese.
Un dataset pensato per chi addestra modelli di intelligenza artificiale
A facilitare ogni flusso di lavoro ci penserà un pacchetto dati su Kaggle pensato appositamente per rendere il tutto meno complicato per coloro che agiscono nel mondo AI. Qui gli addetti ai lavori troveranno riassunti di articoli, infobox, sezioni strutturate, descrizioni brevi e link alle immagini, il tutto in formato JSON leggibile dalle macchine. Sono esclusi elementi non testuali, come file audio, e le citazioni.
Rendere l’accesso ai contenuti più semplice e sostenibile è la base della strategia, evitando dunque che vengano adottati modi invasivi come lo scraping diretto delle pagine web. I server di Wikipedia infatti soffrono molto questa pratica, in quanto i BOT generano continuamente delle richieste per raccogliere informazioni automaticamente al fine di addestrare dei modelli linguistici.
Una soluzione per preservare le risorse e favorire l’apertura
Secondo Wikimedia, questo nuovo approccio dovrebbe non solo alleggerire il carico tecnico sulla piattaforma, ma anche incentivare pratiche più corrette da parte degli sviluppatori AI, soprattutto quelli indipendenti o appartenenti a piccole aziende. La licenza aperta del dataset e la sua struttura chiara lo rendono ideale per compiti di modellazione, fine-tuning e benchmarking.
Brenda Flynn, responsabile partnership di Kaggle, ha sottolineato l’importanza dell’iniziativa, definendo Kaggle “un punto di riferimento per chi lavora nel machine learning” e ribadendo l’impegno a mantenere dati aperti, accessibili e utili alla comunità.
Un passo avanti anche per i piccoli sviluppatori
Finora Wikimedia aveva già attivato accordi di condivisione con realtà come Google e Internet Archive, ma questa nuova intesa con Kaggle apre la porta a una platea più ampia e variegata, fatta di data scientist indipendenti e startup. Il risultato è un ecosistema AI più trasparente, in cui anche chi non dispone di infrastrutture avanzate può accedere a contenuti di alta qualità in modo sostenibile e nel rispetto delle regole.
Con questa scelta, Wikipedia prova a riformulare il rapporto tra informazione libera e intelligenza artificiale, puntando su cooperazione anziché conflitto, e confermando ancora una volta il suo ruolo centrale nell’accesso aperto alla conoscenza.
