GPT-4.5 supera il test di Turing: l'IA scambiata per un essere umano

I modelli di Intelligenza Artificiale generativa sono sempre più evoluti e avanzati, tanto da riuscire con maggior efficacia ad ingannare l'essere umano nell'aver a che fare con un suo simile
di Andrea Bai pubblicata il 05 Aprile 2025, alle 12:01 nel canale Scienza e tecnologiaOpenAI
Un recente studio in attesa di revisione paritaria ha rivelato che il modello GPT-4.5 di OpenAI ha superato con successo una versione avanzata del test di Turing. In questo esperimento, i partecipanti interagivano contemporaneamente con un essere umano e un'intelligenza artificiale, cercando poi di identificare quale fosse la macchina tra i due. Quando GPT-4.5 è stato istruito ad adottare uno specifico modello di personaggio, è stato giudicato umano nel 73% dei casi, ben oltre la probabilità casuale del 50% e indicando il superamento, con ampio margine, del test di Turing.
Il test di Turing, ideato dal matematico britannico Alan Turing nel 1950, rappresenta un metodo per valutare l'intelligenza delle macchine attraverso conversazioni testuali con un interrogatore umano e un altro interlocutore umano nascosto. Se l'interrogatore non riesce a distinguere quale dei due interlocutori sia la macchina, si può dedurre che quest'ultima possieda capacità simili al pensiero umano. Vi avevamo parlato più nel dettaglio del test di Turing in occasione di un esperimento simile condotto più di un anno fa dai medesimi ricercaotri e i cui risultati erano stati piuttosto sorprendenti...
Il nuovo esperimento ha preso in esame anche altri modelli di intelligenza artificiale, tra cui LLama 3.1-405B di Meta, GPT-4o di OpenAI e il chatbot ELIZA, sviluppato circa ottant'anni fa. Il test si è svolto su una piattaforma online coinvolgendo circa 300 partecipanti ai quali sono stati assegnati, in maniera casuale, il ruolo di interrogatori o di testimoni.
Per ogni sessione si sono svolti otto round in cui uno dei due testimoni era un chatbot. Per i modelli IA sono stati utilizzati due tipi di istruzioni, uno "no-persona" e uno "persona": il primo con istruzioni generiche per tentare di convincere l'interlocutore di essere un umano, il secondo per assumere invece una specifica identità.
Le differenze sono state particolarmente significative: GPT-4.5 è stato scambiato per un essere umano nel 73% dei casi usando le istruzioni "persona", fermandosi appena al 36% con le istruzioni "non-persona". A titolo di confronto, GPT-4o ha ottenuto solo il 21% senza persona, mentre il vetusto ELIZA ha raggiunto il 23%.
New preprint: we evaluated LLMs in a 3-party Turing test (participants speak to a human & AI simultaneously and decide which is which).
— Cameron Jones (@camrobjones) April 1, 2025
GPT-4.5 (when prompted to adopt a humanlike persona) was judged to be the human 73% of the time, suggesting it passes the Turing test (🧵) pic.twitter.com/GBEtoFJHVY
Cameron Jones, ricercatore presso il Language and Cognition Lab dell'Università della California a San Diego e principale autore dello studio, ha commentato su X l'esperimento: "Le persone non sono state in grado di distinguere gli esseri umani da GPT-4.5 e LLama quando questi ultimi utilizzavano il prompt persona. Inoltre, GPT-4.5 è stato giudicato umano più spesso degli stessi esseri umani!". Il ricercatore ha comunque precisato che i risultati dello studio non offrono una risposta definitiva sulla somiglianza tra l'intelligenza delle AI e quella umana: "Penso che sia una questione molto complessa... Ma in generale questi risultati dovrebbero essere valutati come uno dei tanti indizi sull'intelligenza mostrata dai modelli linguistici."
Jones ha inoltre sottolineato le implicazioni sociali e i rischi posti dai modelli di Intelligenza Artificiale capaci di ingannare un interlocutore umano: "Questi risultati forniscono ulteriori prove che le AI potrebbero sostituire le persone in interazioni brevi senza che nessuno se ne accorga. Questo potrebbe portare all'automazione dei lavori, a sofisticati attacchi di ingegneria sociale e a più ampi disordini sociali".
Come già avevamo indicato in occasione del precedente esperimento, per quanto il test di Turing abbia una certa rilevanza nella storia dell'interazione uomo-macchina, si tratta di una prova spesso criticata e per la quale sono stati espressi diversi dubbi sulla sua reale attendibilità, con diversi ricercatori che lo ritengono più un esperimento concettuale che un test vero e proprio.
E' altresì vero che le capacità dei modelli linguistici avanzati sono cresciute in modo impressionante in pochissimo tempo, e questo per via del continuo addestramento su quantità enormi di test scritti dagli esseri umani. Secondo i ricercatori l'uso del test di Turing in questo contesto riflette non solamente la capacità delle macchine, ma prende in considerazione in modo implicito anche l'evoluzione delle percezioni umane verso la tecnologia: in altri termini è possibile che la continua "esposizione" dell'uomo all'IA lo renda più abile nel riconoscere quando ha a che fare con una di esse.
18 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoLink ad immagine (click per visualizzarla)
Esattamente la stessa cosa che ho pensato io leggendo l'articolo
Concordo.
https://www.open.online/2025/04/05/...nze-cassazione/
dopo quello che ha convinto ChatGPT che 2+2 fa 5 bisogna rendersi conto che la AI non è un DB e quello che ti tira fuori potrebbe essere completamente sbagliato
La AI ti risponde come un essere umano, peccato che talvolta sia il terrapiattista con il cappello di stagnola
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".