Wordfreq, chiude il progetto sulla ricerca linguistica: l'intelligenza artificiale ha inquinato i dati

La diffusione di contenuti testuali generati dall'IA, per lo più inutili, ha alterato i dati sulla frequenza d'uso delle parole compromettendo le attività di ricerca alla base del progetto Wordfreq

di Andrea Bai pubblicata il 23 Settembre 2024, alle 13:31 nel canale Apple

Wordfreq, un progetto ideato per tracciare l'evoluzione dell'uso linguistico in oltre 40 lingue diverse, è stato chiuso nelle scorse settimane poiché la diffusione, in questi ultimi tre anni, di contenuti generati dai modelli linguistici di intelligenza artificiale ha compromesso i dati su cui si sono basate le attività di ricerca.

E' stata la stessa creatrice del progetto, Robyn Speer, a darne notizia su GitHub, avvisando che Wordfreq sarà abbandonato a causa dell'"inquinamento" dell'informazione causato dall'intelligenza artificiale generativa. "Non credo che nessuno abbia informazioni affidabili sull'uso della lingua da parte degli esseri umani dopo il 2021" ha commentato Speer.

Wordfreq ha rappresentato per anni una risorsa preziosa per accademici e ricercatori. Il sistema analizzava milioni di fonti, tra cui Wikipedia, sottotitoli di film e programmi TV, articoli di notizie, libri, siti web, Twitter e Reddit, offrendo una panoramica dettagliata dell'evoluzione linguistica, tenendo traccia dell'emergere di nuove abitudini e di vecchie cadute in disuso, della diffusione di nuovi modi di dire, costrutti gergali e del riflesso dell'evoluzione culturale nel modo di comunicare.

Andando a scandagliare liberamente il web, Wordfreq si è imbattuto in questi ultimi due anni in una mole significativa di contenuti "inutili", veri e propri scarti generati dai grandi modelli linguistici che non sono di fatto scritti da nessuno per comunicare nulla. La raccolta di questi dati va a compromettere l'attendibilità circa la frequenza d'uso delle parole: si tratta inoltre di contenuti che sono presente di fatto ovunque online, e che scimmiottando di fatto il linguaggio reale, sono difficili da riconoscere e ignorare. E' un problema completamente differente rispetto allo spam, che è sempre stato presente sul web ma in misura comunque minore rispetto ai contenuti autentici e più facilmente identificabile.

Speer ha portato l'esempio dell'uso eccessivo della parola inglese "delve" (indagare, fare ricerche) da parte di ChatGPT, che non riflette l'uso reale fatta dalle persone di tale parola. Questo però ha portato ad alterare la frequenza d'uso registrata per questa specifica parola, di fatto inquinando i dati. E' interessante notare che proprio l'occorrenza eccessiva di determinate parole è un fenomeno analizzato da un altro studio accademico per determinare se un testo sia stato scritto con l'uso dell'intelligenza artificiale generativa.

La diffusione dell'IA ha portato al progetto Wordfreq anche una serie di problematiche di ordine pratico: gli strumenti utilizzati dal progetto per leggere grandi quantità di contenuti sono di fatto assimilabili agli stessi utilizzati dalle società IA per addestrare i loro modelli linguistici. Questo ha portato ad una certa diffidenza da parte degli autori e creatori di contenuti, che quando si trovano dinnanzi ad uno strumento che raccoglie attivamente testo da libri, articoli, siti web o post tendono a pensare, anche in maniera abbastanza comprensibile, che dall'altra parte vi sia qualcuno che sta addestrando un'IA "copiona", magari anche a scopo di lucro. Diretta conseguenza è pertanto la difficoltà ad accedere a fonti di contenuti, con molte realtà che hanno iniziato a sollevare barriere, spesso a pagamento, per la raccolta di dati su larga scala.

La creatrice di Wordfreq ha concluso con una certa amarezza la sua comunicazione, esprimendo disappunto in direzione delle grandi realtà tecnologiche coinvolte nello sviluppo dell'IA e sottolineando inoltre come voglia evitare che il suo lavoro di ricerca possa essere in qualche modo confuso con le attività di addestramento dei grandi modelli linguistici.

Assassin's Creed Invictus: il titolo multiplayer sarà una specie di Fall Guys?

Steam in arrivo sui PC con Snapdragon? Valve al lavoro su una nuova versione per Arm

raxas23 Settembre 2024, 13:50 #1

Personalmente sto portando avanti una serie di post plurali, senza riferimento ai mondi, ma ah quello presente in iter (caso nominativo in questo caso specifico) tranne quando l'argomento è troppo serio (full-troppo dei topics), per fare fall'ire o andare in fall quale Autumn, nel mentre che già lo siamo da two giorni, lo shit dell'intellighenzia artificiale,
tra iron-IA (AI), doppi senzi quando possibile ed about altro non ri'entri nell'img-ginario comune e in alterum che mi venga in m'Ente e in mentre
Abbah-so lo shift Song artificiale!
In the ham-byte delle id-spedizioni conoscitive svolte dall'Ia-AI
ovvia'mente

io78bis23 Settembre 2024, 13:54 #2

Peccato, sembrava sicuramente un progetto più utile che non l'uso attuale fatto dal AI dalle masse.

Gnubbolo23 Settembre 2024, 15:42 #3

studi assolutamente inutili. basta fare 50 km a est e il motorino diventa papero.
sono i gruppi telegram, i forum e le community isolate come 4chan che creano nuove parole che poi prendono strada a livello nazionale o mondiale.
analizzano wikipedia ? no sinceramente, ma sono dei coglioni ? ci si dimentica spesso che questi pseudo scienziati arrivano da studi umanistici.. sono gli scarti dei licei e college che si reinventano un ruolo. sono almeno 10 anni che i bot scrivono automaticamene su wikipedia, ma dormono ?

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Nikon Comedy Wildlife 2024: a vincere è la foto dello scoiattolo incastrato scattata da un italiano

Ford Puma Gen-E, tutte le foto della nuova elettrica

SpaceX Starship: le immagini ufficiali del sesto lancio

Fujifilm X-M5: la piccola X-Trans. Ecco le simulazioni pellicola

Ferrari F80

Tesla Cybercab: il taxi del futuro

Case, cosa deve guardare un giocatore per una configurazione spaziale? Quali sono le caratteristiche che un giocatore di oggi deve guardare quando sceglie il case che conterrà il suo PC compagno di scorribande? Abbiamo buttato giù qualche...

HUAWEI WATCH D2: il controllo totale della salute al polso Il HUAWEI WATCH D2 ridefinisce gli smartwatch orientati alla salute, offrendo misurazione della pressione sanguigna senza calibrazione, ECG certificato e monitoraggio...

Vessel of Hatred e lo stato di Diablo IV oggi Ad ormai diverse settimane dall'uscita, qual è lo stato di salute di Diablo IV e quanto è riuscita a centrare l'obiettivo la sua prima espansione Vessel of Hatred?...

Sony A1 II, tempo di aggiornamenti per l’ammiraglia Sono 3 anni da che Sony ha mostrato una mirrorless capace di soppiantare le ammiraglie reflex. Oggi è tempo di aggiornamento, che evolve il prodotto rafforzandone...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Satya Nadella a Roma: per il CEO di Microsoft l'IA sta cambiando il modo di lavorare Durante la tappa romana di Microsoft AI Tour sul palco è salito Satya Nadella, CEO di Microsoft, per delineare la strategia dell'azienda sull'intelligenza artificiale....

Nuova Opel Frontera elettrica, test drive, specifiche e prezzi | Video Abbiamo guidato in anteprima la nuova Opel Frontera in versione elettrica, che si posiziona in mezzo alla gamma del costruttore tedesco, ma con un prezzo alla base...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

Wordfreq, chiude il progetto sulla ricerca linguistica: l'intelligenza artificiale ha inquinato i dati

3 Commenti