o3 e o3-mini: i nuovi modelli di OpenAI che ragionano arrivano a gennaio

OpenAI svela i modelli di intelligenza artificiale di nuova generazione, o3 e o3-mini, che promettono prestazioni eccezionali in matematica, programmazione e ragionamento scientifico. Un salto qualitativo nell'IA che potrebbe rivoluzionare diversi settori
di Andrea Bai pubblicata il 23 Dicembre 2024, alle 08:04 nel canale Scienza e tecnologiaOpenAI
OpenAI ha recentemente annunciato i suoi nuovi modelli di intelligenza artificiale "ragionante", denominati o3 e o3-mini, durante l'evento "12 Days of OpenAI". Questi modelli rappresentano un'evoluzione significativa rispetto ai precedenti o1, lanciati all'inizio dell'anno.
I modelli o3 sfruttanoi una nuova tecnologia chiamata "catena di pensiero privata", che consente all'intelligenza artificiale di riflettere sul proprio dialogo interno e pianificare le risposte, simulando così un processo di ragionamento. Questa nuova metodologia supera le capacità dei tradizionali modelli linguistici di grandi dimensioni (LLM).
La società ha scelto il nome "o3" invece di "o2" per evitare il rischio di problemi legali con il marchio dell'operatore telefonico britannico O2. Il CEO Sam Altman ha ironizzato su questa decisione durante la presentazione, sottolineando le difficoltà dell'azienda nel trovare nomi appropriati.
Le prestazioni del modello o3 hanno fatto registrare riscontri significativi, ottenendo un punteggio del 75,7% nel test ARC-AGI, che non era mai stato battuto dal 2019 e raggiungendo l'87,5% in scenari ad alto consumo energetico. Inoltre, o3 ha registrato un impressionante 96,7% nell'American Invitational Mathematics Exam 2024 e l'87,7% nel GPQA Diamond, che include domande di biologia, fisica e chimica a livello universitario.
La variante o3-mini presenta una funzione di elaborazione adattiva, consentendo agli utenti di scegliere tra velocità basse, medie e alte. OpenAI ha dichiarato che impostazioni di calcolo più elevate portano a risultati migliori.
L'annuncio di OpenAI avviene in una fase in cui altre realtà sono impegnate a sviluppare modelli simili. Il panorama è al momento particolarmente competitivo con Gemini 2.0 Flash Thinking Experimental di Google, DeepSeek-R1 di DeepSeek e QwQ del team Qwen di Alibaba.
OpenAI prevede di rendere disponibili i nuovi modelli prima ai
ricercatori per test sulla sicurezza. Altman ha annunciato che o3-mini
sarà lanciato alla fine di gennaio, seguito poco dopo dal modello
o3.
4 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDa un lato è un passo in avanti, dall'altro questo alza i costi di utilizzo.
https://x.com/ai_for_success/status/1870324746560168290
https://x.com/ai_for_success/status/1870449268575916531
https://x.com/ai_for_success/status/1870324746560168290
https://x.com/ai_for_success/status/1870449268575916531
pure i "text-to-video" mi pare di capire ormai siano difficili da distinguire dalla realtà
https://x.com/ai_for_success/status/1870324746560168290
https://x.com/ai_for_success/status/1870449268575916531
Francamente non sono impressionato, per il semplice motivo che hanno fondamentalmente aggiunto dei solver all'inference engine, ma quelli sono tecnologia nota da ben prima dei LLM, già utilizzata nei software basati su LLM utilizzati per la progettazione (roba "serie" non fuffa-GPT per le masse) e non cambiano il fatto che OpenAI stia ancora usando il modello di GPT-4 (uscito nel marzo 2023) mentre in precedenza avevano annunciato che GPT-5 sarebbe uscito a metà 2024.
A questo punto è ovvio che c'è un problema, probabilmente legato alla riduzione di nuovi dati di buona qualità utilizzabili per modelli più grandi e dall' "autoavvelenamento" dei dati di training prodotto dai contenuti generati da LLM che circolano su internet, autoavvelenamento esacerbato da chi è nello specifico che usa gli LLM per generare contenuti (spam, chatbot per vari usi ed abusi, astroturfing in generale, ecc. ecc.).
A proposito di questo, date un occhiata qui:
https://www.fudzilla.com/news/ai/60282-openai-s-gpt-5-project-stumbles
These experts write software code, solve mathematical problems, and provide detailed explanations of their reasoning, offering Orion a deeper understanding of complex topics. But the process is labor-intensive and slow.
While GPT-4 was trained on approximately 13 trillion tokens, a team of 1,000 people producing 5,000 words daily would take months to generate just a billion tokens.
Non so voi, ma io personalmente sarei più interessato ad avere un motore di ricerca "classico" con accesso a quei "dati di alta qualità" piuttosto che passare attraverso GPT-5.
GPT-5: più posti di lavoro da mechanical turk per tutti!
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".