TecnoAndroid
  • News
  • Android
  • Scienza e Tech
  • Recensioni
  • Gaming
  • Curiosità
  • IA
  • Motori
  • Offerte
  • Telco
  • TV
  • Contatti
TecnoAndroid
  • News
  • Android
  • Scienza e Tech
  • Recensioni
  • Gaming
  • Curiosità
  • IA
  • Motori
  • Offerte
  • Telco
  • TV
TecnoAndroid
TecnoAndroid
  • TecnoAndroid – News e Recensioni Tech
  • Recensioni
  • Scienza e Tecnologia
  • Curiosità
  • Intelligenza Artificiale
  • News
  • Offerte
  • Operatori Telefonici
Copyright 2021 - All Right Reserved
Home Intelligenza Artificiale
News

Wikipedia sfida lo scraping selvaggio: dati aperti agli sviluppatori AI

Al fine di disarmare i bot AI, Wikipedia ha attuato una nuova strategia che potrebbe risultare estremamente valida.

scritto da Felice Galluccio 20/04/2025 0 commenti 1 Minuti lettura
Wikipedia sfida lo scraping selvaggio: dati aperti agli sviluppatori AI
Condividi FacebookTwitterLinkedinWhatsappTelegram
128

C’è una questione molto importante che Wikipedia ha deciso di combattere ed è lo scraping automatizzato da parte dei bot AI. A tal proposito, Wikimedia Foundation ha scelto di optare per una strategia controintuitiva, la quale per potrebbe essere estremamente valida. L’obiettivo è infatti quello di concedere i dati in un formato ottimizzato. A tal proposito infatti è stata annunciata una nuova partnership con Kaggle, piattaforma per il machine learning di proprietà di Google: ci sarà la pubblicazione di un dataset beta contenente contenuti strutturati di Wikipedia in inglese e francese.

TecnoAndroid · su Google

Seguici su Google e non perdere nulla

Aggiungi TecnoAndroid alle tue fonti preferite su Discover e segui il nostro profilo Google: le notizie tech più importanti arrivano direttamente sul tuo telefono.

Seguici su:DiscoverGoogleGoogle NewsTelegram

Un dataset pensato per chi addestra modelli di intelligenza artificiale

A facilitare ogni flusso di lavoro ci penserà un pacchetto dati su Kaggle pensato appositamente per rendere il tutto meno complicato per coloro che agiscono nel mondo AI. Qui gli addetti ai lavori troveranno riassunti di articoli, infobox, sezioni strutturate, descrizioni brevi e link alle immagini, il tutto in formato JSON leggibile dalle macchine. Sono esclusi elementi non testuali, come file audio, e le citazioni.

Rendere l’accesso ai contenuti più semplice e sostenibile è la base della strategia, evitando dunque che vengano adottati modi invasivi come lo scraping diretto delle pagine web. I server di Wikipedia infatti soffrono molto questa pratica, in quanto i BOT generano continuamente delle richieste per raccogliere informazioni automaticamente al fine di addestrare dei modelli linguistici.

Una soluzione per preservare le risorse e favorire l’apertura

Secondo Wikimedia, questo nuovo approccio dovrebbe non solo alleggerire il carico tecnico sulla piattaforma, ma anche incentivare pratiche più corrette da parte degli sviluppatori AI, soprattutto quelli indipendenti o appartenenti a piccole aziende. La licenza aperta del dataset e la sua struttura chiara lo rendono ideale per compiti di modellazione, fine-tuning e benchmarking.

Brenda Flynn, responsabile partnership di Kaggle, ha sottolineato l’importanza dell’iniziativa, definendo Kaggle “un punto di riferimento per chi lavora nel machine learning” e ribadendo l’impegno a mantenere dati aperti, accessibili e utili alla comunità.

Un passo avanti anche per i piccoli sviluppatori

Finora Wikimedia aveva già attivato accordi di condivisione con realtà come Google e Internet Archive, ma questa nuova intesa con Kaggle apre la porta a una platea più ampia e variegata, fatta di data scientist indipendenti e startup. Il risultato è un ecosistema AI più trasparente, in cui anche chi non dispone di infrastrutture avanzate può accedere a contenuti di alta qualità in modo sostenibile e nel rispetto delle regole.

Con questa scelta, Wikipedia prova a riformulare il rapporto tra informazione libera e intelligenza artificiale, puntando su cooperazione anziché conflitto, e confermando ancora una volta il suo ruolo centrale nell’accesso aperto alla conoscenza.

wikipedia
Condividi FacebookTwitterLinkedinWhatsappTelegram
Felice Galluccio
Felice Galluccio

Appassionato di tecnologia ed elettronica in generale così come dello sport. Scrivere mi migliora la giornata, questo è il lavoro che amo! Never stop learning!

Articolo precedenti
Windows 11: problemi con alcuni dispositivi
prossimo articolo
Play Store: gli utenti Android a Pasqua possono scaricare gratis giochi e app a pagamento

Lascia un commento Cancella Risposta

Salva il mio nome, email e sito web in questo browser per la prossima volta che commento.

Ultime news

  • InFamous su PS5: Sony lo affida a un nuovo studio, non sarà Sucker Punch

    16/05/2026
  • Maextro S800 domina il lusso in Cina: BMW e Mercedes non hanno via di scampo

    16/05/2026
  • Firefox guadagna 6 milioni di utenti grazie al DMA europeo

    16/05/2026
  • Figure AI, i suoi robot umanoidi ora lavorano 8 ore senza sosta

    16/05/2026
  • Starship V3 pronta al lancio: il futuro di Artemis dipende da lei

    16/05/2026

2012 – 2026 Tecnoandroid.it – Gestito dalla STARGATE SRLS – P.Iva: 15525681001 Testata telematica quotidiana registrata al Tribunale di Roma CON DECRETO N° 225/2015, editore STARGATE SRLS. Tutti i marchi riportati appartengono ai legittimi proprietari.

Questo articolo potrebbe includere collegamenti affiliati: eventuali acquisti o ordini realizzati attraverso questi link contribuiranno a fornire una commissione al nostro sito.

  • Privacy e Cookie policy
  • FAQ, Disclaimer e Note legali
  • Contatti

🔥 Non perderti nemmeno un'offerta

Le migliori offerte
direttamente su di te

Smartphone, notebook, gadget tech al prezzo più basso.
Unisciti a migliaia di lettori di TecnoAndroid!

Unisciti su Telegram Gratis Seguici su WhatsApp Nuovo
oppure

Ricevi le offerte via email

Iscriviti alla newsletter per non perdere nessuna offerta!

Puoi disiscriverti in qualsiasi momento. Niente spam, solo offerte vere. 🎯

TecnoAndroid
  • Home