Intelligenza Artificiale e parole rivelatrici: ecco come scoprire se un testo è stato scritto dall'IA generativa

Intelligenza Artificiale e parole rivelatrici: ecco come scoprire se un testo è stato scritto dall'IA generativa

Uno studio accademico mostra come l'incidenza di determinate parole nei documenti scientifici sia aumentata in modo improvviso e significativo dopo la diffusione delle IA Generative

di pubblicata il , alle 16:41 nel canale Scienza e tecnologia
 

Un gruppo di ricercatori delle università di Tubinga e Northwestern ha recentemente sviluppato un metodo per identificare l'uso di modelli linguistici di grandi dimensioni (LLM) nella produzione di testi scientifici. Il metodo trae ispirazione dagli studi sull'impatto della pandemia COVID-19, che hanno preso in considerazione i dati relativi all'eccesso di mortalità rispetto alla media: allo stesso modo i ricercatori hanno analizzato l'"uso eccessivo" di determinate parole nei testi accademici dopo la diffusione degli strumenti di scrittura basati su IA generativa.

In precedenza sono già stati condotti altri studi allo scopo di individuare pattern ed indizi che potessero suggerire l'uso di LLM nella scrittura di testi. Lo studio dei ricercatori delle università di Tubinga e Northwestern si basa però su un differente approccio: invece di considerare campioni di scrittura umana "di base" o elenchi predefiniti di marcatori LLM, utilizza l'insieme di abstract antecedenti al 2023 come gruppo di controllo per evidenziare i cambiamenti complessivi nelle scelte lessicali nell'era "post-LLM".

L'analisi ha preso in considerazione 14 milioni di abstract di articoli accademici pubblicati su PubMed tra il 2010 e il 2024. I ricercatori hanno monitorato la frequenza relativa di ciascuna parola anno per anno, confrontando poi la frequenza prevista (basata sulle tendenze pre-2023) con quella effettiva rilevata negli abstract degli articoli pubblicati tra il 2023 e 2024, che corrisponde alla finestra temporale durante la quale l'uso degli LLM si è diffuso a macchia d'olio.

I risultati hanno rivelato un aspetto peculiare: determinate parole, in precedenza riscontrabili piuttosto raramente negli abstract di articoli scientifici, sono diventate improvvisamente di maggior utilizzo dopo l'introduzione degli LLM. Per esempio la parola "delves" (to delve, approfondire) è apparsa con una frequenza 25 volte maggiore rispetto alle previsioni basate sull'analisi degli articoli nel periodo precedente alla diffusione delle IA generative. Altre parole, come "showcasing" (to showcase, mettere in mostra) e "underscores" (to underscore, sottolineare) hanno visto un incremento di circa 9 volte. Anche parole più comuni, come "potential", "findings" e "crucial" (potenziale, concusioni e fondamentale) sono risultate essere usate con maggior frequenza, sebbene in misura minore rispetto alle precedenti.

È importante notare che, prima dell'era degli LLM, aumenti di incidenza nell'uso di determinate parole in misura significativa e improvvisa sono stati riscontrati solamente con parole specifiche e in concomitanza con particolari eventi di ampia portata, come appunto il caso delle parole "lockdown", "coronavirus" e "pandemic" negli anni della pandemia COVID-19. L'analisi dei ricercatori ha evidenziato, invece, come nell'era "post-LLM", l'incremento nella frequenza d'uso di determinate parole si è verificato per parole non specifiche e per avverbi, aggettivi e verbi

Secondo i ricercatori queste parole possono essere considerate a tutti gli effetti come dei veri e propri "marcatori" che possono semplificare l'individuazione di indizi dell'uso di LLM nella scrittura di testi. Per esempio nella frase "A comprehensive grasp of the intricate interplay between [...] and [...] is pivotal for effective therapeutic strategies" sono presenti parole marcatrici che indicano con buona probabilità l'uso di un'IA generativa.

Un'analisi statistica della presenza di parole chiave nei singoli articoli ha permesso ai ricercatori di stimare che il 10% degli articoli pubblicati su PubMed dopo il 2022 sono stati realizzati con una qualche forma di assistenza da parte dell'IA generativa. Si tratta di una stima che potrebbe tranquillamente essere in difetto, dal momento che potrebbero essere presenti, nel corpus di documenti analizzato, abstract che non contengono alcuna delle parole chiave utilizzate nell'analisi.

I ricercatori sottolineano l'importanza nel riuscire ad individuare l'eventuale uso di LLM nella produzione di testi scientifici, dal momento che tali tecnologie sono spesso soggette alle cosiddette "allucinazioni", e cioè alla tendenza ad inventare riferimenti e a compiere affermazioni false che tuttavia possono apparire come credibili e verosimili.

E' tuttavia lecito immaginare che con la diffusione della  conosenza delle "parole rivelatrici", allora anche i revisori umani diventeranno più attenti e scrupolosi nel rimuovere queste parole dai testi generati dall'IA prima di procedere alla loro pubblicazione. Inoltre non è da escludre - anzi, è un'aspettativa lecita - che i prossimi modelli linguistici possano in qualche modo tenere conto di questa analisi sulla frequenza di determinate parole, andando quindi a ridurne l'impiego con lo scopo di rendere il loro testo quanto più simile possibile a quello realizzato dall'essere umano.

13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
pachainti03 Luglio 2024, 18:00 #1
L'utilizzo di chatGPT e simili nella ricerca scientifica, ha hanno messo in luce ancora una volta l'assenza di revisione. Riviste scientifiche importanti come Elsevier contengono ricerche con la presenza della firma dei software e non sono state rigettate dai revisori. Questo mette in serio dubbio la credibilità di una buona parte della ricerca scientifica.
Elsevier: science or rogue scoundrels?
Diesel_NA03 Luglio 2024, 19:21 #2
E' solo la punta dell'iceberg.
Io proprio nella definizione di "intelligenza" artificiale non mi ci ritrovo.
L'intelligenza è spesso il trovare una soluzione nuova ed impensata. A volte unendo due cose apparentemente slegate, molte volte di più proprio ex-novo, immaginando, creando, inventando, sperimentando.
Una IA non sperimenta. Lega tra loro conoscenze già esistenti in millemila banche dati.
Se una cosa non esiste (ancora) è fuori dal range dell'IA.
Ergo, fine delle "scoperte". Fine delle "invenzioni". Se esiste potrà essere utilizzata dall'IA, se non esiste, l'IA non la inventerà. Poiché la stragrande maggioranza degli ometti si affida all'IA per qualsiasi cosa...
Ci preoccupiamo dell'ambiente... ma non ci preoccipiamo se tra 50 anni saremo ancora qui a parlarne.
sbaffo03 Luglio 2024, 20:54 #3
Originariamente inviato da: pachainti
L'utilizzo di chatGPT e simili nella ricerca scientifica, ha hanno messo in luce ancora una volta l'assenza di revisione. Riviste scientifiche importanti come Elsevier contengono ricerche con la presenza della firma dei software e non sono state rigettate dai revisori. Questo mette in serio dubbio la credibilità di una buona parte della ricerca scientifica.
Elsevier: science or rogue scoundrels?

Ecco il vero problema, la pigrizia/cialtroneria/sciatteria/fretta degli "ometti" (insieme ai tagli costi indiscriminati dei ceo): tutti sanno che l'ia può essere utile e comoda ma va ricontrollata accuratamente, qui abbiamo la dimostrazione che famosi ricercatori non hanno neanche riletto prima di mandare la loro pseudoricerche, idem la peer review fantomatica che avrebbe dovuto garantirne la bontà.

Mi ricorda molto le certificazioni allegre di famose agenzie di rating sui mutui americani prima del 2008... sappiamo tutti come è andata a finire. Ma qui il problema si allarga a qualunque campo (dove si possa usare l'ia), con esiti imprevedibili.
Gio. Van04 Luglio 2024, 08:05 #4
Notizia/articolo interessante. Fa riflettere su come il linguaggio può riflettere il pensiero ma come anche anche il contrario, ovvero il linguaggio può simulare il pensiero. A vario livello, con potenziali riflessi sociologici. Personalmente quando ho interpellato le varie IA "mainstream" su temi particolarmente tecnici, ho rilevato una eccessiva frequenza di allucinazioni belle e buone. Informazioni inventate di sana pianta, su cui poi viene impiantato un "ragionamento" logico conseguente con derive purtroppo credibili se non supervisionate. In definitiva, imho we are still very far from a real professional use of AI.
The_ouroboros04 Luglio 2024, 08:07 #5
Originariamente inviato da: Redazione di Hardware Upgrade
Link alla notizia: https://www.hwupgrade.it/news/scien...iva_128583.html

Uno studio accademico mostra come l'incidenza di determinate parole nei documenti scientifici sia aumentata in modo improvviso e significativo dopo la diffusione delle IA Generative

Click sul link per visualizzare la notizia.


ma non bastava leggerlo e vedere che uno in prima elementare scriveva meno castronate?
Nui_Mg04 Luglio 2024, 10:37 #6
Originariamente inviato da: sbaffo
Ma qui il problema si allarga a qualunque campo (dove si possa usare l'ia), con esiti imprevedibili.

Ah beh, il plagio te lo trovi pure ai vertici di università quali Harvard (varie accuse, anche all'ex-rettrice, C. Gay, che poi si è dimessa), quindi pensa cosa potrà venir fuori più avanti con il perfezionamento di certe tegnologie.

Edit: tegnologie --> tecnologie (colpa della troppa abbronzatura )
The_ouroboros04 Luglio 2024, 10:55 #7
Originariamente inviato da: Nui_Mg
Ah beh, il plagio te lo trovi pure ai vertici di università quali Harvard (varie accuse, anche all'ex-rettrice, C. Gay, che poi si è dimessa), quindi pensa cosa potrà venir fuori più avanti con il perfezionamento di certe tegnologie.


in usa usano ChatGPT per inventarsi precedenti legali so....
sbaffo04 Luglio 2024, 14:55 #8
Originariamente inviato da: Nui_Mg
Ah beh, il plagio te lo trovi pure ai vertici di università quali Harvard (varie accuse, anche all'ex-rettrice, C. Gay, che poi si è dimessa), quindi pensa cosa potrà venir fuori più avanti con il perfezionamento di certe tegnologie.
Il problema non è il plagio, ma le vaccate (bullshit come diceva un altro utente) cha passano per buone se non controllate:

Originariamente inviato da: Gio. Van
Notizia/articolo interessante. Fa riflettere su come il linguaggio può riflettere il pensiero ma come anche anche il contrario, ovvero il linguaggio può simulare il pensiero. A vario livello, con potenziali riflessi sociologici. Personalmente quando ho interpellato le varie IA "mainstream" su temi particolarmente tecnici, ho rilevato una eccessiva frequenza di allucinazioni belle e buone. Informazioni inventate di sana pianta, su cui poi viene impiantato un "ragionamento" logico conseguente [B]con [U]derive purtroppo credibili[/U] se non supervisionate[/B]. In definitiva, imho we are still very far from a real professional use of AI.
E' questo il vero problema, se passa per scientificamente accettato (con peer review fasulle come visto) una vaccata non facilmente individuabile, poi diventa "scienza" e può fare danni per anni o decenni in maniera imprevedibile, finchè qualcuno non trova l'origine del problema mettendo in discussione tutti gli studi pregressi, lavoro improbo.
Spero che la scienza prima di accettare una idea richieda più studi indipendenti che la confermano. Ma in ambiti meno rigorosi/scientifici diventa una "fake news" (quasi) inverificabile, anzi supportata da studi apparentemente seri che la certificano come vera.
Nui_Mg04 Luglio 2024, 15:30 #9
Originariamente inviato da: sbaffo
Il problema non è il plagio, ma le vaccate (bullshit come diceva un altro utente) cha passano per buone se non controllate

Il discorso "plagio" era solo un esempio per evidenziare che se si ricorre al plagio (a causa di pigrizia, incapacità, tempi stretti e via scoreggiando...), perfino in ambiti/ambienti considerati il gotha della cultura accademica, provare ad immaginare le implicazioni a 360 gradi disponendo di strumenti tecnologici sempre più potenti.
sbaffo04 Luglio 2024, 16:20 #10
Originariamente inviato da: Nui_Mg
Il discorso "plagio" era solo un esempio per evidenziare che se si ricorre al plagio (a causa di pigrizia, incapacità, tempi stretti e via scoreggiando...), perfino in ambiti/ambienti considerati il gotha della cultura accademica, provare ad immaginare le implicazioni a 360 gradi disponendo di strumenti tecnologici sempre più potenti.
Ah ok, tu dicevi: se fanno nefandezze i top figurarsi gli altri.
Vedo un futuro grigio.
Mia sorella che vent'anni fa ha fatto la tesi sull'IA (agli albori suppongo) dice di essere molto preoccupata, ma non è scesa in dettagli.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^