Wikipedia combatte i bot IA mettendo a disposizione degli sviluppatori un dataset specifico per l'addestramento dei modelli LLM

Wikipedia lancia un dataset strutturato su Kaggle per l’addestramento delle intelligenze artificiali, offrendo un’alternativa ufficiale e ottimizzata allo scraping massivo che mette sotto pressione i server dell’enciclopedia libera
di Andrea Bai pubblicata il 17 Aprile 2025, alle 17:21 nel canale AppleWikipedia
Wikipedia ha deciso di affrontare direttamente il fenomeno dello scraping automatizzato da parte dei bot che raccolgono informazioni per l'addestramento dei modelli di intelligenza artificiale, che nel corso del passato recente ha messo sotto pressione le sue infratrutture.
La Wikimedia Foundation ha annunciato una partnership con Kaggle, piattaforma di data science di proprietà di Google, che porterà alla pubblicazione di un dataset strutturato e ottimizzato espressamente allo scopo di addestramento dei modelli IA. Al momento il dataset è già disponibile su Kaggle in una versione beta e contiene contenuti di Wikipedia in lingua inglese e francese.
La disponibilità di questo dataset, costruito appositamente per poter essere integrato con facilità nei flussi di lavoro di machine learning, è un modo per prevenire la necessità di ricorrere alle operazioni dette di "scraping" del sito o di "parsing" del testo degli articoli, che hanno un peso sulle risorse dell'infrastruttura tecnologica di Wikipedia.

La Wikimedia Foundation spiega che la struttura del dataset si basa su rappresentazioni JSON ben organizzate, che includono elementi ad alto valore aggiunto come riassunti, descrizioni brevi, link alle immagini, dati degli infobox e sezioni degli articoli, escludendo però riferimenti bibliografici e contenuti non testuali come i file audio.
Si tratta quindi di un modo per offrire agli sviluppatori un corpo di informazioni "pulite" e pronte all'uso, adatte alla "lettura" da parte delle macchine e utili per la modellazione, il fine-tuning, le operazioni di benchmarking, l’allineamento dei modelli e l’analisi, grazie alla riduzione della complessità che inevitabilmente nasce dall'estrazione diretta dalle pagine organiche di Wikipedia.
La decisione di Wikimedia Foundation, come dicevamo, è una risposta a quanto vi avevamo raccontato qualche settimana fa: l'incremento del 50% nell'uso della banda di Wikimedia nel corso dell'ultimo anno. La distribuzione di dati strutturati, con il supporto di Kaggle, rappresenta una soluzione dedicata non solo alle grosse realtà IA, ma anche agli sviluppatori indipendenti e alle società di piccole dimensioni che possono ora accedere ad una fonte di dati di qualità senza gravare sull'infrastruttura di Wikipedia.
Il dataset, derivato dalla Snapshot API di Wikimedia Enterprise e al momento di circa 25GB, è rilasciato con licenze aperte: principalmente la Creative Commons Attribution-Share-Alike 4.0 (CC BY-SA 4.0) e la GNU Free Documentation License (GFDL), con alcune eccezioni specificate nei termini d’uso di Wikimedia. In questo modo viene garantita la possibilità di riutilizzare e modificare le informazioni, a patto che vi sia attribuzione della fonte e che le opere derivate vengano distribuite con la stessa licenza.
2 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoEDIT: Ricordavo bene: https://dumps.wikimedia.org/
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".