Intelligenza Artificiale e parole rivelatrici: ecco come scoprire se un testo è stato scritto dall'IA generativa

Uno studio accademico mostra come l'incidenza di determinate parole nei documenti scientifici sia aumentata in modo improvviso e significativo dopo la diffusione delle IA Generative
di Andrea Bai pubblicata il 03 Luglio 2024, alle 16:41 nel canale Scienza e tecnologiaUn gruppo di ricercatori delle università di Tubinga e Northwestern ha recentemente sviluppato un metodo per identificare l'uso di modelli linguistici di grandi dimensioni (LLM) nella produzione di testi scientifici. Il metodo trae ispirazione dagli studi sull'impatto della pandemia COVID-19, che hanno preso in considerazione i dati relativi all'eccesso di mortalità rispetto alla media: allo stesso modo i ricercatori hanno analizzato l'"uso eccessivo" di determinate parole nei testi accademici dopo la diffusione degli strumenti di scrittura basati su IA generativa.
In precedenza sono già stati condotti altri studi allo scopo di individuare pattern ed indizi che potessero suggerire l'uso di LLM nella scrittura di testi. Lo studio dei ricercatori delle università di Tubinga e Northwestern si basa però su un differente approccio: invece di considerare campioni di scrittura umana "di base" o elenchi predefiniti di marcatori LLM, utilizza l'insieme di abstract antecedenti al 2023 come gruppo di controllo per evidenziare i cambiamenti complessivi nelle scelte lessicali nell'era "post-LLM".
L'analisi ha preso in considerazione 14 milioni di abstract di articoli accademici pubblicati su PubMed tra il 2010 e il 2024. I ricercatori hanno monitorato la frequenza relativa di ciascuna parola anno per anno, confrontando poi la frequenza prevista (basata sulle tendenze pre-2023) con quella effettiva rilevata negli abstract degli articoli pubblicati tra il 2023 e 2024, che corrisponde alla finestra temporale durante la quale l'uso degli LLM si è diffuso a macchia d'olio.

I risultati hanno rivelato un aspetto peculiare: determinate parole, in precedenza riscontrabili piuttosto raramente negli abstract di articoli scientifici, sono diventate improvvisamente di maggior utilizzo dopo l'introduzione degli LLM. Per esempio la parola "delves" (to delve, approfondire) è apparsa con una frequenza 25 volte maggiore rispetto alle previsioni basate sull'analisi degli articoli nel periodo precedente alla diffusione delle IA generative. Altre parole, come "showcasing" (to showcase, mettere in mostra) e "underscores" (to underscore, sottolineare) hanno visto un incremento di circa 9 volte. Anche parole più comuni, come "potential", "findings" e "crucial" (potenziale, concusioni e fondamentale) sono risultate essere usate con maggior frequenza, sebbene in misura minore rispetto alle precedenti.
È importante notare che, prima dell'era degli LLM, aumenti di incidenza nell'uso di determinate parole in misura significativa e improvvisa sono stati riscontrati solamente con parole specifiche e in concomitanza con particolari eventi di ampia portata, come appunto il caso delle parole "lockdown", "coronavirus" e "pandemic" negli anni della pandemia COVID-19. L'analisi dei ricercatori ha evidenziato, invece, come nell'era "post-LLM", l'incremento nella frequenza d'uso di determinate parole si è verificato per parole non specifiche e per avverbi, aggettivi e verbi.
Secondo i ricercatori queste parole possono essere considerate a tutti gli effetti come dei veri e propri "marcatori" che possono semplificare l'individuazione di indizi dell'uso di LLM nella scrittura di testi. Per esempio nella frase "A comprehensive grasp of the intricate interplay between [...] and [...] is pivotal for effective therapeutic strategies" sono presenti parole marcatrici che indicano con buona probabilità l'uso di un'IA generativa.
Un'analisi statistica della presenza di parole chiave nei singoli articoli ha permesso ai ricercatori di stimare che il 10% degli articoli pubblicati su PubMed dopo il 2022 sono stati realizzati con una qualche forma di assistenza da parte dell'IA generativa. Si tratta di una stima che potrebbe tranquillamente essere in difetto, dal momento che potrebbero essere presenti, nel corpus di documenti analizzato, abstract che non contengono alcuna delle parole chiave utilizzate nell'analisi.
I ricercatori sottolineano l'importanza nel riuscire ad individuare l'eventuale uso di LLM nella produzione di testi scientifici, dal momento che tali tecnologie sono spesso soggette alle cosiddette "allucinazioni", e cioè alla tendenza ad inventare riferimenti e a compiere affermazioni false che tuttavia possono apparire come credibili e verosimili.
E' tuttavia lecito immaginare che con la diffusione della conosenza delle "parole rivelatrici", allora anche i revisori umani diventeranno più attenti e scrupolosi nel rimuovere queste parole dai testi generati dall'IA prima di procedere alla loro pubblicazione. Inoltre non è da escludre - anzi, è un'aspettativa lecita - che i prossimi modelli linguistici possano in qualche modo tenere conto di questa analisi sulla frequenza di determinate parole, andando quindi a ridurne l'impiego con lo scopo di rendere il loro testo quanto più simile possibile a quello realizzato dall'essere umano.
13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoElsevier: science or rogue scoundrels?
Io proprio nella definizione di "intelligenza" artificiale non mi ci ritrovo.
L'intelligenza è spesso il trovare una soluzione nuova ed impensata. A volte unendo due cose apparentemente slegate, molte volte di più proprio ex-novo, immaginando, creando, inventando, sperimentando.
Una IA non sperimenta. Lega tra loro conoscenze già esistenti in millemila banche dati.
Se una cosa non esiste (ancora) è fuori dal range dell'IA.
Ergo, fine delle "scoperte". Fine delle "invenzioni". Se esiste potrà essere utilizzata dall'IA, se non esiste, l'IA non la inventerà. Poiché la stragrande maggioranza degli ometti si affida all'IA per qualsiasi cosa...
Ci preoccupiamo dell'ambiente... ma non ci preoccipiamo se tra 50 anni saremo ancora qui a parlarne.
Elsevier: science or rogue scoundrels?
Ecco il vero problema, la pigrizia/cialtroneria/sciatteria/fretta degli "ometti" (insieme ai tagli costi indiscriminati dei ceo): tutti sanno che l'ia può essere utile e comoda ma va ricontrollata accuratamente, qui abbiamo la dimostrazione che famosi ricercatori non hanno neanche riletto prima di mandare la loro pseudoricerche, idem la peer review fantomatica che avrebbe dovuto garantirne la bontà.
Mi ricorda molto le certificazioni allegre di famose agenzie di rating sui mutui americani prima del 2008... sappiamo tutti come è andata a finire. Ma qui il problema si allarga a qualunque campo (dove si possa usare l'ia), con esiti imprevedibili.
Uno studio accademico mostra come l'incidenza di determinate parole nei documenti scientifici sia aumentata in modo improvviso e significativo dopo la diffusione delle IA Generative
Click sul link per visualizzare la notizia.
ma non bastava leggerlo e vedere che uno in prima elementare scriveva meno castronate?
Ah beh, il plagio te lo trovi pure ai vertici di università quali Harvard (varie accuse, anche all'ex-rettrice, C. Gay, che poi si è dimessa), quindi pensa cosa potrà venir fuori più avanti con il perfezionamento di certe tegnologie.
Edit: tegnologie --> tecnologie (colpa della troppa abbronzatura
in usa usano ChatGPT per inventarsi precedenti legali so....
Spero che la scienza prima di accettare una idea richieda più studi indipendenti che la confermano. Ma in ambiti meno rigorosi/scientifici diventa una "fake news" (quasi) inverificabile, anzi supportata da studi apparentemente seri che la certificano come vera.
Il discorso "plagio" era solo un esempio per evidenziare che se si ricorre al plagio (a causa di pigrizia, incapacità, tempi stretti e via scoreggiando...), perfino in ambiti/ambienti considerati il gotha della cultura accademica, provare ad immaginare le implicazioni a 360 gradi disponendo di strumenti tecnologici sempre più potenti.
Vedo un futuro grigio.
Mia sorella che vent'anni fa ha fatto la tesi sull'IA (agli albori suppongo) dice di essere molto preoccupata, ma non è scesa in dettagli.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".