Sentendo la pressione di Gemini sul collo, OpenAI rilascia GPT 5.2, con un pacchetto di capacità orientate al lavoro specialistico e ai flussi operativi complessi. La novità riguarda soprattutto la gestione di attività articolate, dall'analisi di documenti molto estesi alla produzione di materiali tecnici.L'azienda si proclama "leader nei benchmark reali", con un incremento netto nella qualità delle operazioni di reasoning, oltre a una maggiore stabilità nelle produzioni più lunghe. La variante GPT 5.2 Thinking raggiunge risultati elevati nelle valutazioni dedicate al lavoro professionale. Nel benchmark GDPval, che misura compiti di conoscenza strutturata su 44 professioni, il modello ottiene il 70.9% di risposte considerate corrette o comparabili a quelle di esperti del settore, contro il 38.8% di GPT‑5. Il tempo di produzione risulta più contenuto rispetto al passato e i costi in API diminuiscono quando si sfrutta la maggiore efficienza nel numero di token.Nei test interni dedicati alla modellazione da analista finanziario junior, la serie 5.2 ottiene un punteggio medio del 68.4%, registrando un miglioramento rispetto alla generazione precedente. I risultati includono attività come la costruzione di modelli a tre stati patrimoniali e simulazioni di operazioni di leveraged buyout.Il confronto affiancato con le versioni precedenti mostra documenti più coerenti e formattati in modo più ordinato, sia nei fogli di calcolo sia nelle presentazioni, inclusi casi come la creazione di modelli di pianificazione del personale che integrano più reparti e variabili. Sul fronte della programmazione, GPT 5.2 Thinking ottiene il 55.6% su SWE Bench Pro, che include scenari reali in quattro linguaggi diversi. Nei test SWE Bench Verified, più vicini a situazioni di manutenzione in Python, il valore sale all'80%. Nei riscontri degli sviluppatori emerge una gestione più solida di refactoring, debug e implementazione di richieste complesse.La serie migliora anche nelle applicazioni front end, compresi casi che richiedono interfacce con elementi tridimensionali, come dimostrato da esempi in cui il modello genera applicazioni complete in un singolo file HTML.Nella gestione del contesto lungo, GPT 5.2 Thinking raggiunge valori vicini al 100% nella variante a quattro indizi del test MRCR fino a 256 mila token, rendendo possibile l'analisi di documenti come report aziendali, contratti articolati, ricerche scientifiche e progetti multi file. Sul piano della visione, gli errori si riducono significativamente nella lettura di grafici e interfacce software. In scenari che richiedono l'individuazione di componenti e la loro disposizione spaziale, il modello riesce a identificare elementi di schede elettroniche con maggiore precisione anche in immagini di qualità ridotta. La chiamata di strumenti migliora con un punteggio del 98.7% nel benchmark Tau2 Telecom, utile nei flussi di lavoro che richiedono sequenze di operazioni coordinate, come la gestione di casi di assistenza al cliente. In un esempio valutato, GPT 5.2 gestisce l'intero processo di riprenotazione voli, assegnazione di posti speciali e procedure di compensazione.Nelle discipline scientifiche e matematiche, GPT 5.2 Pro ottiene il 93.2% su GPQA Diamond, mentre GPT 5.2 Thinking raggiunge il 40.3% su FrontierMath nelle categorie da 1 a 3, mostrando una risoluzione più affidabile di problemi multi step. Per quanto riguarda la sicurezza, il modello riduce le risposte inadeguate in ambiti delicati come salute mentale e autolesionismo, con miglioramenti misurabili nelle valutazioni interne. È in corso l'introduzione di un sistema di rilevamento dell'età per attivare automaticamente protezioni aggiuntive.La disponibilità della gamma GPT 5.2 parte dai piani a pagamento di ChatGPT e da oggi anche nell'API, dove il costo è di 1.75 dollari (circa 1.60 euro) per un milione di token in ingresso e 14 dollari (circa 13 euro) per un milione in uscita. La versione GPT 5.2 Pro arriva a 168 dollari (circa 153 euro) per un milione di token generati. Le versioni 5.1 restano utilizzabili per ora e non risultano piani di dismissione imminenti.Nel comunicato di OpenAI non mancano ringraziamenti a Nvidia e Microsoft, che mettono a disposizione infrastrutture basate su GPU H100, H200 e GB200 NVL72 per la fase di addestramento. Segno di come l'IA sia un business in cui le "magnifiche 7" si danno una mano a vicenda.È chiaro comunque che il rilascio di GPT-5.2 sia una risposta a Gemini 3 Pro: non ricordiamo un lancio passato di OpenAI così pieno di benchmark e di paragoni, messi lì chiaramente per sottolineare i progressi fatti. Chiunque utilizzi regolarmente i LLM sa però benissimo che l'uso reale e la percezione che ne hanno gli utenti sono spesso molto scollati dai benchmark, tanto che c'è un'intera branca di studi votata a inventare nuovi modi per "misurare l'intelligenza": un compito affatto semplice, se ci pensate bene.L'articolo GPT 5.2 rilancia la sfida a Gemini 3 Pro: un sacco di numeri per convincerci di essere il più professionale sembra essere il primo su Smartworld.