Intelligenza artificiale: bot senza freni mettono in ginocchio Wikipedia

L'uso intensivo di crawler da parte delle aziende di intelligenza artificiale sta mettendo a dura prova l'infrastruttura di Wikipedia. L'aumento del traffico generato da questi bot comporta costi elevati e rischi per la sostenibilità dell'enciclopedia libera.
di Manolo De Agostini pubblicata il 03 Aprile 2025, alle 08:31 nel canale WebWikipedia
L'inarrestabile fame di dati delle aziende di intelligenza artificiale sta diventando un problema concreto per Wikipedia. Secondo la Wikimedia Foundation, dall'inizio del 2024 la richiesta di contenuti multimediali è aumentata del 50%, con gran parte di questo traffico attribuibile a crawler automatizzati che estraggono immagini e testi per addestrare modelli di intelligenza artificiale.
I crawler, anche noti come "web-scraping bot", sono programmi progettati per visitare e raccogliere informazioni da siti web su larga scala. Tradizionalmente utilizzati dai motori di ricerca per indicizzare i contenuti online, questi strumenti sono ora impiegati da aziende di AI per alimentare i loro modelli, spesso senza sufficiente attribuzione o rispetto per l'infrastruttura di chi fornisce i dati.
"L'aumento del traffico non proviene dai lettori umani, ma in gran parte da programmi automatici che estraggono immagini dal catalogo Wikimedia Commons per alimentare i modelli di intelligenza artificiale", spiegano i rappresentanti di Wikimedia Foundation.
Jimmy Wales, cofondatore di Wikipedia
Il problema è che l'infrastruttura di Wikipedia è pensata per gestire picchi di traffico legati a eventi di grande interesse, non per un flusso continuo e massiccio di richieste automatizzate. Attualmente, almeno il 65% del traffico per i contenuti più costosi serviti dai datacenter di Wikimedia Foundation è generato dai bot, anche se questi agenti software rappresentano solo il 35% circa delle pagine viste.
Questo sovraccarico comporta non solo costi elevati, ma anche un rischio per la stabilità del servizio: "Dedichiamo una parte significativa delle nostre risorse alla gestione del traffico non umano, riducendo la capacità di rispondere a esigenze più critiche della nostra comunità", sostiene Wikimedia.
I modelli di IA generativa non si limitano a indicizzare i contenuti per migliorarne la reperibilità, ma spesso li riutilizzano per fini commerciali, riducendo il traffico verso le fonti originali e potenzialmente compromettendo i loro introiti pubblicitari.
Per affrontare il problema, la Wikimedia Foundation ha fissato un obiettivo per l'anno 2025/2026: ridurre del 20% le richieste dei crawler e del 30% l'uso di banda associato. Il metodo su come raggiungere questo traguardo è ancora in fase di studio. Finora, le contromisure includono il blocco dei bot più aggressivi e la ricerca di strategie per incentivare l'uso responsabile dei contenuti di Wikipedia.
12 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoin che senso?
Wikipedia deve assolutamente continuare ad esistere.
Beh fai un esempio !
don't feed the troll
don't feed the troll
mi hai bruciato sul tempo
qualcuno potrebbe trovare profittevole manipolare notizie con riferimenti di attualità ma stai tranquillo che a Pitagora e Keplero nessuno gli rompe le scatole!
Già, in passato ci credevo ed ero donatore. Poi con il passare del tempo, ho cambiato idea.
Wikipedia and Propaganda
How Wikipedia Became a Propaganda Site
P.S. wikipedia mi ricorda molto mozilla, che da difensore dei diritti degli utenti, è passata a vendere i dati degli utenti. Alcuni link interessanti: link1, link2 e link3.
io la uso ogni giorno per una decina di volte non ho ancora mai trovato un contenuto discutibile saro stato fortunato immagino
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".