Intelligenza Artificiale e parole rivelatrici: ecco come scoprire se un testo è stato scritto dall'IA generativa

Uno studio accademico mostra come l'incidenza di determinate parole nei documenti scientifici sia aumentata in modo improvviso e significativo dopo la diffusione delle IA Generative

di Andrea Bai pubblicata il 03 Luglio 2024, alle 16:41 nel canale Scienza e tecnologia

Un gruppo di ricercatori delle università di Tubinga e Northwestern ha recentemente sviluppato un metodo per identificare l'uso di modelli linguistici di grandi dimensioni (LLM) nella produzione di testi scientifici. Il metodo trae ispirazione dagli studi sull'impatto della pandemia COVID-19, che hanno preso in considerazione i dati relativi all'eccesso di mortalità rispetto alla media: allo stesso modo i ricercatori hanno analizzato l'"uso eccessivo" di determinate parole nei testi accademici dopo la diffusione degli strumenti di scrittura basati su IA generativa.

In precedenza sono già stati condotti altri studi allo scopo di individuare pattern ed indizi che potessero suggerire l'uso di LLM nella scrittura di testi. Lo studio dei ricercatori delle università di Tubinga e Northwestern si basa però su un differente approccio: invece di considerare campioni di scrittura umana "di base" o elenchi predefiniti di marcatori LLM, utilizza l'insieme di abstract antecedenti al 2023 come gruppo di controllo per evidenziare i cambiamenti complessivi nelle scelte lessicali nell'era "post-LLM".

L'analisi ha preso in considerazione 14 milioni di abstract di articoli accademici pubblicati su PubMed tra il 2010 e il 2024. I ricercatori hanno monitorato la frequenza relativa di ciascuna parola anno per anno, confrontando poi la frequenza prevista (basata sulle tendenze pre-2023) con quella effettiva rilevata negli abstract degli articoli pubblicati tra il 2023 e 2024, che corrisponde alla finestra temporale durante la quale l'uso degli LLM si è diffuso a macchia d'olio.

I risultati hanno rivelato un aspetto peculiare: determinate parole, in precedenza riscontrabili piuttosto raramente negli abstract di articoli scientifici, sono diventate improvvisamente di maggior utilizzo dopo l'introduzione degli LLM. Per esempio la parola "delves" (to delve, approfondire) è apparsa con una frequenza 25 volte maggiore rispetto alle previsioni basate sull'analisi degli articoli nel periodo precedente alla diffusione delle IA generative. Altre parole, come "showcasing" (to showcase, mettere in mostra) e "underscores" (to underscore, sottolineare) hanno visto un incremento di circa 9 volte. Anche parole più comuni, come "potential", "findings" e "crucial" (potenziale, concusioni e fondamentale) sono risultate essere usate con maggior frequenza, sebbene in misura minore rispetto alle precedenti.

È importante notare che, prima dell'era degli LLM, aumenti di incidenza nell'uso di determinate parole in misura significativa e improvvisa sono stati riscontrati solamente con parole specifiche e in concomitanza con particolari eventi di ampia portata, come appunto il caso delle parole "lockdown", "coronavirus" e "pandemic" negli anni della pandemia COVID-19. L'analisi dei ricercatori ha evidenziato, invece, come nell'era "post-LLM", l'incremento nella frequenza d'uso di determinate parole si è verificato per parole non specifiche e per avverbi, aggettivi e verbi.

Secondo i ricercatori queste parole possono essere considerate a tutti gli effetti come dei veri e propri "marcatori" che possono semplificare l'individuazione di indizi dell'uso di LLM nella scrittura di testi. Per esempio nella frase "A comprehensive grasp of the intricate interplay between [...] and [...] is pivotal for effective therapeutic strategies" sono presenti parole marcatrici che indicano con buona probabilità l'uso di un'IA generativa.

Un'analisi statistica della presenza di parole chiave nei singoli articoli ha permesso ai ricercatori di stimare che il 10% degli articoli pubblicati su PubMed dopo il 2022 sono stati realizzati con una qualche forma di assistenza da parte dell'IA generativa. Si tratta di una stima che potrebbe tranquillamente essere in difetto, dal momento che potrebbero essere presenti, nel corpus di documenti analizzato, abstract che non contengono alcuna delle parole chiave utilizzate nell'analisi.

I ricercatori sottolineano l'importanza nel riuscire ad individuare l'eventuale uso di LLM nella produzione di testi scientifici, dal momento che tali tecnologie sono spesso soggette alle cosiddette "allucinazioni", e cioè alla tendenza ad inventare riferimenti e a compiere affermazioni false che tuttavia possono apparire come credibili e verosimili.

E' tuttavia lecito immaginare che con la diffusione della conosenza delle "parole rivelatrici", allora anche i revisori umani diventeranno più attenti e scrupolosi nel rimuovere queste parole dai testi generati dall'IA prima di procedere alla loro pubblicazione. Inoltre non è da escludre - anzi, è un'aspettativa lecita - che i prossimi modelli linguistici possano in qualche modo tenere conto di questa analisi sulla frequenza di determinate parole, andando quindi a ridurne l'impiego con lo scopo di rendere il loro testo quanto più simile possibile a quello realizzato dall'essere umano.

I migliori sconti su Amazon oggi

-18%

Apple iPhone 16 128 GB: Telefono 5G con Controllo fotocamera, chip A18 e tanta autonomia in più. Compatibile con AirPods; bianco

979.00 799.00€ Compra ora

-21%

CMF Phone 1 8+128GB - Smartphone con fotocamera posteriore Sony da 50 MP con Ultra XDR, Display Super AMOLED da 6,67 pollici e Nothing OS 2.6, Nero, Non supporta eSIM

239.00 189.00€ Compra ora

-42%

Cecotec Friggitrice ad Aria Senza Olio Cecofry Fantastik 5500 da 5,5 L. 1500W, Tecnologia PerfectCook, 9 modalità di cottura, Touch, Regolabile 80-200°C, Cottura fino a 60 minuti

76.90 44.90€ Compra ora

Impianto fotovoltaico gratis, arriva il Reddito Energetico per ISEE sotto i 15.000 euro

Importante progetto di Virtual Production in arrivo a Milano da Movie People e Sony

pachainti03 Luglio 2024, 18:00 #1

L'utilizzo di chatGPT e simili nella ricerca scientifica, ha hanno messo in luce ancora una volta l'assenza di revisione. Riviste scientifiche importanti come Elsevier contengono ricerche con la presenza della firma dei software e non sono state rigettate dai revisori. Questo mette in serio dubbio la credibilità di una buona parte della ricerca scientifica.
Elsevier: science or rogue scoundrels?

Diesel_NA03 Luglio 2024, 19:21 #2

E' solo la punta dell'iceberg.
Io proprio nella definizione di "intelligenza" artificiale non mi ci ritrovo.
L'intelligenza è spesso il trovare una soluzione nuova ed impensata. A volte unendo due cose apparentemente slegate, molte volte di più proprio ex-novo, immaginando, creando, inventando, sperimentando.
Una IA non sperimenta. Lega tra loro conoscenze già esistenti in millemila banche dati.
Se una cosa non esiste (ancora) è fuori dal range dell'IA.
Ergo, fine delle "scoperte". Fine delle "invenzioni". Se esiste potrà essere utilizzata dall'IA, se non esiste, l'IA non la inventerà. Poiché la stragrande maggioranza degli ometti si affida all'IA per qualsiasi cosa...
Ci preoccupiamo dell'ambiente... ma non ci preoccipiamo se tra 50 anni saremo ancora qui a parlarne.

sbaffo03 Luglio 2024, 20:54 #3

Originariamente inviato da: pachainti

Ecco il vero problema, la pigrizia/cialtroneria/sciatteria/fretta degli "ometti" (insieme ai tagli costi indiscriminati dei ceo): tutti sanno che l'ia può essere utile e comoda ma va ricontrollata accuratamente, qui abbiamo la dimostrazione che famosi ricercatori non hanno neanche riletto prima di mandare la loro pseudoricerche, idem la peer review fantomatica che avrebbe dovuto garantirne la bontà.

Mi ricorda molto le certificazioni allegre di famose agenzie di rating sui mutui americani prima del 2008... sappiamo tutti come è andata a finire. Ma qui il problema si allarga a qualunque campo (dove si possa usare l'ia), con esiti imprevedibili.

Gio. Van04 Luglio 2024, 08:05 #4

Notizia/articolo interessante. Fa riflettere su come il linguaggio può riflettere il pensiero ma come anche anche il contrario, ovvero il linguaggio può simulare il pensiero. A vario livello, con potenziali riflessi sociologici. Personalmente quando ho interpellato le varie IA "mainstream" su temi particolarmente tecnici, ho rilevato una eccessiva frequenza di allucinazioni belle e buone. Informazioni inventate di sana pianta, su cui poi viene impiantato un "ragionamento" logico conseguente con derive purtroppo credibili se non supervisionate. In definitiva, imho we are still very far from a real professional use of AI.

The_ouroboros04 Luglio 2024, 08:07 #5

Originariamente inviato da: Redazione di Hardware Upgrade

Link alla notizia: https://www.hwupgrade.it/news/scien...iva_128583.html

Uno studio accademico mostra come l'incidenza di determinate parole nei documenti scientifici sia aumentata in modo improvviso e significativo dopo la diffusione delle IA Generative

Click sul link per visualizzare la notizia.

ma non bastava leggerlo e vedere che uno in prima elementare scriveva meno castronate?

Nui_Mg04 Luglio 2024, 10:37 #6

Originariamente inviato da: sbaffo

Ma qui il problema si allarga a qualunque campo (dove si possa usare l'ia), con esiti imprevedibili.

Ah beh, il plagio te lo trovi pure ai vertici di università quali Harvard (varie accuse, anche all'ex-rettrice, C. Gay, che poi si è dimessa), quindi pensa cosa potrà venir fuori più avanti con il perfezionamento di certe tegnologie.

Edit: tegnologie --> tecnologie (colpa della troppa abbronzatura

)

The_ouroboros04 Luglio 2024, 10:55 #7

Originariamente inviato da: Nui_Mg

in usa usano ChatGPT per inventarsi precedenti legali so....

sbaffo04 Luglio 2024, 14:55 #8

Originariamente inviato da: Nui_Mg

Il problema non è il plagio, ma le vaccate (bullshit come diceva un altro utente) cha passano per buone se non controllate:

Originariamente inviato da: Gio. Van

Notizia/articolo interessante. Fa riflettere su come il linguaggio può riflettere il pensiero ma come anche anche il contrario, ovvero il linguaggio può simulare il pensiero. A vario livello, con potenziali riflessi sociologici. Personalmente quando ho interpellato le varie IA "mainstream" su temi particolarmente tecnici, ho rilevato una eccessiva frequenza di allucinazioni belle e buone. Informazioni inventate di sana pianta, su cui poi viene impiantato un "ragionamento" logico conseguente [B]con [U]derive purtroppo credibili[/U] se non supervisionate[/B]. In definitiva, imho we are still very far from a real professional use of AI.

E' questo il vero problema, se passa per scientificamente accettato (con peer review fasulle come visto) una vaccata non facilmente individuabile, poi diventa "scienza" e può fare danni per anni o decenni in maniera imprevedibile, finchè qualcuno non trova l'origine del problema mettendo in discussione tutti gli studi pregressi, lavoro improbo.
Spero che la scienza prima di accettare una idea richieda più studi indipendenti che la confermano. Ma in ambiti meno rigorosi/scientifici diventa una "fake news" (quasi) inverificabile, anzi supportata da studi apparentemente seri che la certificano come vera.

Nui_Mg04 Luglio 2024, 15:30 #9

Originariamente inviato da: sbaffo

Il problema non è il plagio, ma le vaccate (bullshit come diceva un altro utente) cha passano per buone se non controllate

Il discorso "plagio" era solo un esempio per evidenziare che se si ricorre al plagio (a causa di pigrizia, incapacità, tempi stretti e via scoreggiando...), perfino in ambiti/ambienti considerati il gotha della cultura accademica, provare ad immaginare le implicazioni a 360 gradi disponendo di strumenti tecnologici sempre più potenti.

sbaffo04 Luglio 2024, 16:20 #10

Originariamente inviato da: Nui_Mg

Ah ok, tu dicevi: se fanno nefandezze i top figurarsi gli altri.
Vedo un futuro grigio.
Mia sorella che vent'anni fa ha fatto la tesi sull'IA (agli albori suppongo) dice di essere molto preoccupata, ma non è scesa in dettagli.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sony FE 50-150mm F2 G Master. il bokeh monster ora è zoom

Mazda 6e è l'elettrica della svolta

Star Wars: Bruno

114

World Press Photo: i vincitori del Contest 2025

Renault 5 Turbo 3E

Toyota C-HR+, ecco le primissime foto dell'auto elettrica giapponese

Lenovo ThinkPad X9-14 Aura Edition: leggero e sottile per i professionisti Abbina una costruzione molto curata, con un telaio in alluminio leggero, sottile e robusto, ad una piattaforma Intel Core Ultra 7 di ultima generazione con supporto...

REDMAGIC 10 Air: potenza da gaming in un corpo leggero e moderno. Recensione REDMAGIC 10 Air è l'evoluzione degli smartphone da gaming con un design più sottile e leggero rispetto al 10 Pro, mantenendo prestazioni elevate grazie allo Snapdragon...

Analisi tecnica The Last of Us Parte II Remastered per PC: stavolta ci siamo! Abbiamo avuto l'opportunità di provare The Last of Us Parte II Remastered per PC, titolo che chiude (almeno stando alle parole di Naughty Dog) una delle saghe simbolo...

DJI Osmo Mobile 7P: ti segue anche con la fotocamera nativa dello smartphone! Grande novità per il nuovo gimbal DJI Osmo Mobile 7P: grazie al modulo multifunzione incluso, dotato di telecamera, ora l'inseguimento del soggetto è possibile anche...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

CRESCO8, la Formula 1 dell’HPC: ENEA e Lenovo insieme per affrontare le sfide della ricerca ENEA inaugura CRESCO8, il supercomputer realizzato con Lenovo per affrontare le grandi sfide scientifiche: dalla fusione nucleare al clima, dalla bioinformatica...

Renault Emblème: la familiare del futuro elettrica, sostenibile e riciclabile Con il progetto Emblème Renault propone una vettura familiare importante nelle dimensiooni, che abbina batteria elettrica ad un'alimentazione alternativa a idrogeno...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

Intelligenza Artificiale e parole rivelatrici: ecco come scoprire se un testo è stato scritto dall'IA generativa

Apple iPhone 16 128 GB: Telefono 5G con Controllo fotocamera, chip A18 e tanta autonomia in più. Compatibile con AirPods; bianco

CMF Phone 1 8+128GB - Smartphone con fotocamera posteriore Sony da 50 MP con Ultra XDR, Display Super AMOLED da 6,67 pollici e Nothing OS 2.6, Nero, Non supporta eSIM

Cecotec Friggitrice ad Aria Senza Olio Cecofry Fantastik 5500 da 5,5 L. 1500W, Tecnologia PerfectCook, 9 modalità di cottura, Touch, Regolabile 80-200°C, Cottura fino a 60 minuti

13 Commenti