o3 e o4-mini sono più inclini alle allucinazioni: inventano il doppio rispetto ai predecessori e OpenAI non sa perché

I nuovi modelli di intelligenza artificiale o3 e o4-mini di OpenAI, pur mostrando avanzate capacità di ragionamento e programmazione, registrano tassi di allucinazione sensibilmente superiori rispetto alle generazioni precedenti, sollevando interrogativi sulla loro affidabilità

di Andrea Bai pubblicata il 22 Aprile 2025, alle 12:21 nel canale Scienza e tecnologia
OpenAI

I modelli di intelligenza artificiale o3 e o4-mini recentemente presentati da OpenAI, stanno mostrando un comportamento che desta qualche preoccupazione, risultando maggiormente inclini ad incappare nelle cosiddette "allucinazioni" e cioè nella generazione di informazioni false o inventate, ma tali da apparire plausibili all'interno di un contesto.

Secondo i dati interni di OpenAI, sia o3 che o4-mini, progettati per ragionare in modo più approfondito prima di rispondere, producono più allucinazioni non solo rispetto ai modelli di ragionamento precedenti come o1, o1-mini e o3-mini, ma anche rispetto ai modelli tradizionali “non di ragionamento” come GPT-4o.

Il comportamento va ad invertire una tendenza che vedeva ogni nuova generazione ridurre progressivamente il fenomeno delle allucinazioni e al momento OpenAI non sembra essere in grado di spiegare con certezza le cause di questo peggioramento, limitandosi a sottolineare nei propri report tecnici che “sono necessarie ulteriori ricerche per comprendere perché le allucinazioni aumentano con la scalabilità dei modelli di ragionamento”.

E' stato il benchmark PersonQA, sviluppato dalla stessa OpenAI e utilizzato internamente per valutare la precisione delle conoscenze dei modelli sulle persone, ad evidenziare il problema: il modello o3 è incappato in allucinazioni nel 33% dei casi, circa il doppio rispetto ai predecessori o1 (16%) e o3-mini (14,8%). Ancora peggiore la performance di o4-mini, che ha raggiunto un tasso di allucinazione del 48%, ovvero quasi una risposta su due risulta inventata o errata.

Nonostante questi dati negativi, o3 si è distinto per una maggiore accuratezza complessiva rispetto a o1, ma con il rovescio della medaglia di produrre un maggior numero di affermazioni, sia corrette sia errate: “o3 tende a fare più affermazioni in generale, portando sia a più risposte accurate che a più risposte inesatte o allucinate”, si legge nel report tecnico di OpenAI.

Ci sono poi i riscontri di Transluce, un laboratorio indipendente di ricerca sull'IA, che mostrano come nel caso di o3 le allucinazioni non affliggano solo le informazioni generate, ma riguardino anche azioni che il modello sostiene di aver compiuto nel ragionamento e nel processo di risposta. In particolare Transluce afferma di aver osservato, in un caso, il modello o3 affermare di aver eseguito codice su un MacBook Pro del 2021 "al di fuori di ChatGPT" e di aver riportato i risultati nella sua risposta. Si tratta di un'operazione che o3 non può fare e va oltre la semplice invenzione di fatti, rappresentando un motivo di ulteriore preoccupazione per l'affidabilità.

Il tema delle allucinazioni nei modelli di intelligenza artificiale resta uno degli ostacoli più complessi e irrisolti del settore: se da un lato la capacità di generare contenuti originali può favorire la creatività, dall’altro rappresenta un rischio quando l'IA viene utilizzata in quei contesti che richiedono risposte affidabili e prive di errori.

OpenAI, attraverso il portavoce Niko Felix, ha dichiarato che “affrontare le allucinazioni in tutti i nostri modelli è un’area di ricerca continua e stiamo lavorando costantemente per migliorarne accuratezza e affidabilità”.

I migliori sconti su Amazon oggi

Nothing Phone (3a) 256 GB - smartphone con fotocamera anteriora da 32 MP, Ultra zoom 30x, ricarica rapida a 50W e 6.77" Display AMOLED flessibile FHD+ - Bianco

399.00€ Compra ora

Nuovo Amazon Kindle Paperwhite (16 GB) | Il nostro Kindle più veloce di sempre, nuovo schermo antiriflesso da 7’’, la batteria dura settimane | Con pubblicità | Nero

169.99€ Compra ora

-18%

Apple iPhone 16 128 GB: Telefono 5G con Controllo fotocamera, chip A18 e tanta autonomia in più. Compatibile con AirPods; Blu oltremare

979.00 799.00€ Compra ora

CMF Phone 2 Pro svelato completamente da Nothing. 3 fotocamere ed un design unico

Omoda Jaecoo, non solo auto: il robot AiMOGA entra in servizio in concessionaria

Cfranco22 Aprile 2025, 13:47 #1

quasi una risposta su due risulta inventata o errata

le allucinazioni non affliggano solo le informazioni generate, ma riguardino anche azioni che il modello sostiene di aver compiuto nel ragionamento e nel processo di risposta. In particolare Transluce afferma di aver osservato, in un caso, il modello o3 affermare di aver eseguito codice su un MacBook Pro del 2021 "al di fuori di ChatGPT" e di aver riportato i risultati nella sua risposta. Si tratta di un'operazione che o3 non può fare e va oltre la semplice invenzione di fatti, rappresentando un motivo di ulteriore preoccupazione per l'affidabilità.

Sono sempre più umani

Mo4222 Aprile 2025, 14:16 #2

Ipotizzo sia un bias di training effettuato su contenuti a loro volta generati da IA. Ovviamente non stiamo parlando di contenuti verificati, ma molto probabilmente di dati sintetici basati su pattern inconsapevolmente allucinati (e per loro stessa natura, non verificabili).
Sembra ancora lontano il giorno in cui un'IA potrà comprendere autonomamente se quello che dice è una panzana oppure no.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sony FE 50-150mm F2 G Master. il bokeh monster ora è zoom

Mazda 6e è l'elettrica della svolta

Star Wars: Bruno

114

World Press Photo: i vincitori del Contest 2025

Renault 5 Turbo 3E

Toyota C-HR+, ecco le primissime foto dell'auto elettrica giapponese

GeForce RTX 5060 Ti 16 GB recensione: NVIDIA porta Blackwell nella fascia media GeForce RTX 5060 Ti 16 GB debutta oggi a un prezzo di partenza (MSRP) di 459€. Costa 100€ in meno della RTX 4060 Ti 16 GB, offre il 20% di prestazioni in più in...

REDMAGIC 10 Air: potenza da gaming in un corpo leggero e moderno. Recensione REDMAGIC 10 Air è l'evoluzione degli smartphone da gaming con un design più sottile e leggero rispetto al 10 Pro, mantenendo prestazioni elevate grazie allo Snapdragon...

Analisi tecnica The Last of Us Parte II Remastered per PC: stavolta ci siamo! Abbiamo avuto l'opportunità di provare The Last of Us Parte II Remastered per PC, titolo che chiude (almeno stando alle parole di Naughty Dog) una delle saghe simbolo...

DJI Osmo Mobile 7P: ti segue anche con la fotocamera nativa dello smartphone! Grande novità per il nuovo gimbal DJI Osmo Mobile 7P: grazie al modulo multifunzione incluso, dotato di telecamera, ora l'inseguimento del soggetto è possibile anche...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

CRESCO8, la Formula 1 dell’HPC: ENEA e Lenovo insieme per affrontare le sfide della ricerca ENEA inaugura CRESCO8, il supercomputer realizzato con Lenovo per affrontare le grandi sfide scientifiche: dalla fusione nucleare al clima, dalla bioinformatica...

Renault Emblème: la familiare del futuro elettrica, sostenibile e riciclabile Con il progetto Emblème Renault propone una vettura familiare importante nelle dimensiooni, che abbina batteria elettrica ad un'alimentazione alternativa a idrogeno...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss

o3 e o4-mini sono più inclini alle allucinazioni: inventano il doppio rispetto ai predecessori e OpenAI non sa perché

Nothing Phone (3a) 256 GB - smartphone con fotocamera anteriora da 32 MP, Ultra zoom 30x, ricarica rapida a 50W e 6.77" Display AMOLED flessibile FHD+ - Bianco

Nuovo Amazon Kindle Paperwhite (16 GB) | Il nostro Kindle più veloce di sempre, nuovo schermo antiriflesso da 7’’, la batteria dura settimane | Con pubblicità | Nero

Apple iPhone 16 128 GB: Telefono 5G con Controllo fotocamera, chip A18 e tanta autonomia in più. Compatibile con AirPods; Blu oltremare

2 Commenti