La crescita dell’intelligenza artificiale ha messo in evidenza una necessità cruciale di ottenere dati strutturati e affidabili che possano essere facilmente compresi dalle macchine. In tale contesto, Wikimedia Deutschland ha introdotto un’iniziativa destinata a ridefinire il rapporto tra contenuti enciclopedici e algoritmi. Si tratta del Wikidata Embedding Project. È un progetto che mira a rendere le informazioni presenti su Wikipedia e sulle piattaforme collegate più accessibili alle AI. Ciò attraverso una ricerca semantica basata su vettori. Tale tecnologia consente di cogliere non solo le parole, ma anche le relazioni concettuali tra di esse, superando i limiti dei precedenti strumenti di ricerca.
Wikipedia si arricchisce con l’AI: ecco i dettagli del nuovo progetto
Il sistema si fonda su un corpus di quasi 120 milioni di voci, già esistenti nei database Wikimedia. Inoltre, integra il Model Context Protocol, uno standard che facilita la comunicazione tra sistemi di intelligenza artificiale e fonti di dati esterne. Grazie a tale approccio, le macchine possono comprendere interrogazioni formulate in linguaggio naturale senza richiedere conoscenze specifiche su query tecniche. Ciò rappresenta un passo importante verso un’interazione più intuitiva e immediata tra umani e sistemi digitali.
Secondo Philippe Saadé, project manager di Wikidata, il progetto non ha valore solo tecnico, ma anche culturale e politico. Quest’ultimo, infatti, dimostra come l’intelligenza artificiale possa essere aperta, collaborativa e progettata per servire l’interesse pubblico. Ciò senza essere monopolio di poche aziende.
A guidare il progetto è la sezione tedesca di Wikimedia, in collaborazione con Jina.AI e DataStax. Entrambe aziende specializzate in ricerca neurale e gestione di dati in tempo reale. La novità principale rispetto al passato è la compatibilità con le architetture di retrieval-augmented generation. Strumenti sempre più utilizzati nello sviluppo dei modelli linguistici moderni. Ciò significa che le AI possono accedere a informazioni esterne verificate durante la generazione delle risposte. Migliorando precisione e contestualizzazione.
