Wordfreq, chiude il progetto sulla ricerca linguistica: l'intelligenza artificiale ha inquinato i dati
La diffusione di contenuti testuali generati dall'IA, per lo più inutili, ha alterato i dati sulla frequenza d'uso delle parole compromettendo le attività di ricerca alla base del progetto Wordfreq
di Andrea Bai pubblicata il 23 Settembre 2024, alle 13:31 nel canale AppleWordfreq, un progetto ideato per tracciare l'evoluzione dell'uso linguistico in oltre 40 lingue diverse, è stato chiuso nelle scorse settimane poiché la diffusione, in questi ultimi tre anni, di contenuti generati dai modelli linguistici di intelligenza artificiale ha compromesso i dati su cui si sono basate le attività di ricerca.
E' stata la stessa creatrice del progetto, Robyn Speer, a darne notizia su GitHub, avvisando che Wordfreq sarà abbandonato a causa dell'"inquinamento" dell'informazione causato dall'intelligenza artificiale generativa. "Non credo che nessuno abbia informazioni affidabili sull'uso della lingua da parte degli esseri umani dopo il 2021" ha commentato Speer.
Wordfreq ha rappresentato per anni una risorsa preziosa per accademici e ricercatori. Il sistema analizzava milioni di fonti, tra cui Wikipedia, sottotitoli di film e programmi TV, articoli di notizie, libri, siti web, Twitter e Reddit, offrendo una panoramica dettagliata dell'evoluzione linguistica, tenendo traccia dell'emergere di nuove abitudini e di vecchie cadute in disuso, della diffusione di nuovi modi di dire, costrutti gergali e del riflesso dell'evoluzione culturale nel modo di comunicare.
Andando a scandagliare liberamente il web, Wordfreq si è imbattuto in questi ultimi due anni in una mole significativa di contenuti "inutili", veri e propri scarti generati dai grandi modelli linguistici che non sono di fatto scritti da nessuno per comunicare nulla. La raccolta di questi dati va a compromettere l'attendibilità circa la frequenza d'uso delle parole: si tratta inoltre di contenuti che sono presente di fatto ovunque online, e che scimmiottando di fatto il linguaggio reale, sono difficili da riconoscere e ignorare. E' un problema completamente differente rispetto allo spam, che è sempre stato presente sul web ma in misura comunque minore rispetto ai contenuti autentici e più facilmente identificabile.
Speer ha portato l'esempio dell'uso eccessivo della parola inglese "delve" (indagare, fare ricerche) da parte di ChatGPT, che non riflette l'uso reale fatta dalle persone di tale parola. Questo però ha portato ad alterare la frequenza d'uso registrata per questa specifica parola, di fatto inquinando i dati. E' interessante notare che proprio l'occorrenza eccessiva di determinate parole è un fenomeno analizzato da un altro studio accademico per determinare se un testo sia stato scritto con l'uso dell'intelligenza artificiale generativa.
La diffusione dell'IA ha portato al progetto Wordfreq anche una serie di problematiche di ordine pratico: gli strumenti utilizzati dal progetto per leggere grandi quantità di contenuti sono di fatto assimilabili agli stessi utilizzati dalle società IA per addestrare i loro modelli linguistici. Questo ha portato ad una certa diffidenza da parte degli autori e creatori di contenuti, che quando si trovano dinnanzi ad uno strumento che raccoglie attivamente testo da libri, articoli, siti web o post tendono a pensare, anche in maniera abbastanza comprensibile, che dall'altra parte vi sia qualcuno che sta addestrando un'IA "copiona", magari anche a scopo di lucro. Diretta conseguenza è pertanto la difficoltà ad accedere a fonti di contenuti, con molte realtà che hanno iniziato a sollevare barriere, spesso a pagamento, per la raccolta di dati su larga scala.
La creatrice di Wordfreq ha concluso con una certa amarezza la sua comunicazione, esprimendo disappunto in direzione delle grandi realtà tecnologiche coinvolte nello sviluppo dell'IA e sottolineando inoltre come voglia evitare che il suo lavoro di ricerca possa essere in qualche modo confuso con le attività di addestramento dei grandi modelli linguistici.
3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infotra iron-IA (AI), doppi senzi quando possibile ed about altro non ri'entri nell'img-ginario comune e in alterum che mi venga in m'Ente e in mentre
Abbah-so lo shift Song artificiale!
In the ham-byte delle id-spedizioni conoscitive svolte dall'Ia-AI
ovvia'mente
sono i gruppi telegram, i forum e le community isolate come 4chan che creano nuove parole che poi prendono strada a livello nazionale o mondiale.
analizzano wikipedia ? no sinceramente, ma sono dei coglioni ? ci si dimentica spesso che questi pseudo scienziati arrivano da studi umanistici.. sono gli scarti dei licei e college che si reinventano un ruolo. sono almeno 10 anni che i bot scrivono automaticamene su wikipedia, ma dormono ?
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".