![]()
新智元報道
編輯:編輯部
【新智元導(dǎo)讀】OpenAI十周年,那個地表最強的AI,又回來了!新一代GPT-5.2「全家桶」直接把谷歌Gemini 3 Pro踩在腳下,專業(yè)實力更是堪比人類專家。
剛剛,OpenAI深夜炸場!
GPT-5.2震撼發(fā)布,全球AI王座再次易主。
![]()
一共3款模型,今日全部上線:
· GPT?5.2 Instant(即時版)
· GPT?5.2 Thinking(思考版)
· GPT?5.2 Pro(專業(yè)版)
![]()
作為地表最強通用模型,GPT-5.2專為解決那些讓人頭禿的「高難度知識型工作」而生。
在OpenAI公布的基準測試中,它幾乎對Gemini 3 Pro實現(xiàn)了全方位碾壓!
![]()
相比上一代,GPT-5.2在通用智能、超長文本理解、Agent工具調(diào)用以及視覺能力上,都實現(xiàn)了無死角的全面進化:
SWE-Bench Pro:狂砍55.6%高分;
LMArena代碼競技場:僅次于Claude Opus 4.5,穩(wěn)坐全球第二把交椅;
ARC-AGI-2:GPT-5.2 Pro以52.9%的絕對優(yōu)勢登頂全球第一;
GDPval:覆蓋44種職業(yè)知識,表現(xiàn)直接超越人類行業(yè)專家。
一句話總結(jié):讓它從頭到尾(端到端)搞定復(fù)雜的現(xiàn)實世界任務(wù),目前沒有任何模型比它更強。
![]()
![]()
![]()
左右滑動查看
![]()
完整評測結(jié)果
除了更強的能力之外,GPT-5.2還有更長的上下文,以及更新的知識!
40萬上下文窗口:輕松吞吐超長文本與復(fù)雜對話;
12.8萬最大輸出長度:深度長文生成不再中斷;
知識庫更新至2025年8月31日:掌握最新世界動態(tài);
推理Token支持:專攻復(fù)雜邏輯與多步推理。
![]()
當然,在性能狂飆的同時,價格也是水漲船高。
相比GPT-5/5.1,GPT-5.2的輸入輸出價格貴了整整40%!
更強的推理、更快的速度,以及更高的價格,這一切似乎都在暗示——
OpenAI這次不僅升級了模型規(guī)模,背后的算力成本恐怕也達到了新的量級。
![]()
![]()
這一次,那叫一個專業(yè)!
一個月前,GPT-5.1以「情商智商雙高」的姿態(tài)登場,就迎面撞上了谷歌Gemini 3這個強勁對手。
此次更新正值媒體報道OpenAI內(nèi)部進入「紅色代碼」緊急狀態(tài)。
但OpenAI高管向媒體表示,不應(yīng)將GPT-5.2視為對Gemini 3的回應(yīng)。OpenAI應(yīng)用CEO對記者說:
我們宣布進入「紅色代碼」緊急狀態(tài)是為了向內(nèi)部發(fā)出一個信號,我們想要集中力量辦大事,這是一個確定優(yōu)先事項和非優(yōu)先事項的好辦法。
總的來說,我們用于開發(fā)ChatGPT的資源增加了,我認為這有助于該模型的發(fā)布,但并不是它在這周發(fā)布的唯一原因。
這一次,GPT-5.2主打一個專業(yè)知識型AI,正所謂「打工人的最佳工作模型」。
OpenAI華人研究員Yu Bai稱,「別看這只是一個小版本數(shù)迭代,那可是能力的一大躍升」。
![]()
那些人類專家耗費4-8小時完成的任務(wù),在人類評估中,GPT-5.2的勝率高達70.9%。
GPT?5.2不負眾望,在多項實際任務(wù)中表現(xiàn)得都更加出色——
創(chuàng)建電子表格、制作演示文稿、編寫代碼、感知圖像、理解長上下文、使用工具、處理復(fù)雜的多步驟項目。
![]()
此前OpenAI的一份報告稱,ChatGPT每天能為企業(yè)用戶平均節(jié)省40–60分鐘,而重度用戶則表示每周能省下超過10小時。
總之,AI搞定「專業(yè)工作」才是硬道理!
擊敗人類專家,打工人狂喜
目前,GPT?5.2 Thinking是用于現(xiàn)實世界專業(yè)用途的最佳模型。
在GDPval上,GPT?5.2 Thinking創(chuàng)下了新的SOTA,并且是歷史第一個表現(xiàn)超過人類專家水平的模型。
![]()
根據(jù)人類專家的評判,GPT?5.2 Thinking在GDPval知識工作任務(wù)中,70.9%的情況下?lián)魯』虼蚱搅隧敿庑袠I(yè)專業(yè)人士。
在完成GDPval任務(wù)時,其速度比專家專業(yè)人士還要快11倍,成本還低于1%。
這表明,當與人類監(jiān)督相結(jié)合時,GPT?5.2可以有效輔助完成專業(yè)工作。
![]()
換句話說,無論是幫會計整理財報,替產(chǎn)品經(jīng)理做PPT,還是給程序員當輔助寫碼的小助手,GPT-5.2都更得心應(yīng)手。
![]()
在GDPval中,模型需要完成涵蓋美國GDP貢獻最大的前9個行業(yè)的44種職業(yè)的定義明確的工作。任務(wù)要求提供實際的工作成果,例如銷售演示文稿、會計電子表格、緊急護理時間表、制造圖表或短視頻
在ChatGPT中,GPT?5.2 Thinking擁有GPT?5 Thinking所沒有的新工具。
此外,在針對初級投資銀行分析師電子表格建模的內(nèi)部測試中,GPT-5.2 Thinking的平均每任務(wù)得分比GPT?5.1高出9.3%,從59.1%上升到68.4%。
并排比較顯示,GPT?5.2 Thinking生成的電子表格和PPT在復(fù)雜度和格式上都有所改進。
如下所示,一眼望去這種高難度的復(fù)雜表,GPT?5.2 Thinking一句話生成,堪稱「人力資源規(guī)劃器」。
![]()
包括股權(quán)結(jié)構(gòu)表,GPT-5.2 Thinking以資深銀行分析師的角色,完成了所有計算,且過程清晰可查。
而GPT-5.1 Thinking不僅錯誤地計算了種子輪、A輪和B輪的清算優(yōu)先權(quán),且大部分行都留白了,導(dǎo)致最終的股權(quán)回報計算出錯;而且還錯誤地在表頭行中插入了計算公式。
![]()
針對項目管理,GPT-5.2 Thinking以每項任務(wù)、時間為軸,給出了可視化直觀的總結(jié)。
相較之下,GPT-5.1 Thinking看著特別粗糙。
![]()
編程破紀錄,吞噬全棧開發(fā)
當然了,在編程上,GPT-5.2也是王者中的王者!
在對現(xiàn)實世界軟件工程基準SWE-Bench Pro上,GPT?5.2 Thinking創(chuàng)下了55.6%的新紀錄。
與僅測試Python的SWE-bench Verified不同,SWE-Bench Pro測試四種編程語言,具有更強的抗數(shù)據(jù)污染能力(contamination-resistant),并更具挑戰(zhàn)性、多樣性和工業(yè)相關(guān)性。
![]()
在SWE-Bench Pro中,模型會被給予一個代碼庫,并且必須生成一個補丁來解決一個現(xiàn)實的軟件工程任務(wù)
在SWE-bench Verified上,GPT?5.2 Thinking拿下了80%的高分。
這意味著,它可以更可靠地調(diào)試生產(chǎn)環(huán)境代碼、實現(xiàn)功能請求、重構(gòu)大型代碼庫,并以更少的人工干預(yù)端到端地發(fā)布修復(fù)。
在前端軟件工程方面,GPT?5.2 Thinking也優(yōu)于GPT?5.1 Thinking。
早期測試者發(fā)現(xiàn),它是全棧工程師的強大日常伙伴,在前端開發(fā)和復(fù)雜或非常規(guī)UI工作(特別是涉及3D元素的工作)方面明顯更強。
接下來就讓我們看看,僅憑一段提示詞,GPT?5.2都能做出些什么來:
海浪模擬

- The UI should be calming and realistic.節(jié)日賀卡制作器
- Animation like snowdrop should be used nicely打字雨游戲

- The UI should be the city background with animated raindrop words.幻覺少,更清醒
GPT?5.2 Thinking比GPT?5.1 Thinking的幻覺更少。
在一組去標識化的ChatGPT查詢中,前者包含錯誤的回答相對減少了30%。
對于專業(yè)人士來說,這意味著在使用新模型進行研究、寫作、分析和決策支持時錯誤更少,在日常知識工作中更加可靠。
![]()
數(shù)十萬token極限挑戰(zhàn),準確率100%
在長上下文推理方面,GPT?5.2 Thinking樹立了新的行業(yè)標準。
在OpenAI MRCRv2上,新模型取得了領(lǐng)先的性能,基準OpenAI MRCRv2用于測試模型整合分布在長文檔中信息。
諸如深度文檔分析之類的現(xiàn)實世界任務(wù),需要跨越數(shù)十萬個Token的相關(guān)信息,而在這類任務(wù)上,GPT?5.2 Thinking 比GPT?5.1 Thinking準確得多。
特別是,它是OpenAI的第一個在4種MRCR變體(高達256kToken)上達到接近100%準確率的模型。
![]()
實際上,這足以讓專業(yè)人士用GPT?5.2處理長文檔,如報告、合同、研究論文、成績單和多文件項目,而且同時在數(shù)十萬個Token之間保持連貫性和準確性。
也就是說,GPT?5.2特別適合深度分析、綜合和復(fù)雜的多源工作流。
![]()
針對超出最大上下文窗口思考的任務(wù),GPT?5.2 Thinking兼容OpenAI新的Responses「/compact」端點,這擴展了模型的有效上下文窗口。
這讓GPT?5.2Thinking可以處理原本受限于上下文長度的更多工具密集型、長期運行的工作流。
視覺實力翻倍,秒懂復(fù)雜圖
GPT?5.2 Thinking是OpenAI目前最強的視覺模型,在圖表推理和軟件界面理解方面的錯誤率大約減少了一半。
對于日常專業(yè)使用,這意味著該模型可以更準確地解讀儀表板、產(chǎn)品截圖、技術(shù)圖表和視覺報告,可支持金融、運營、工程、設(shè)計和客戶支持等以視覺信息為核心的工作流。
![]()
與以前的模型相比,GPT?5.2 Thinking對圖像中元素的位置有更強的掌握,這有助于完成相對布局對解決問題起關(guān)鍵作用的任務(wù)。
在下面的示例中,模型被要求識別圖像輸入中的組件(在本例中為主板)并返回帶有大致邊界框的標簽。
即使在低質(zhì)量圖像上,GPT?5.2也能識別主要區(qū)域并放置與每個組件的真實位置大致匹配的框,而GPT?5.1僅標記了幾個部分,并且對其空間排列的理解要弱得多。
![]()
端到端工作流,重塑了
GPT?5.2 Thinking展示了其在長多輪任務(wù)中可靠使用工具的能力,在Tau2-bench Telecom上創(chuàng)造了98.7%的新紀錄。
對于延遲敏感的用例,GPT?5.2 Thinking在reasoning.effort='none'(無推理)下的表現(xiàn)也更好,大幅優(yōu)于GPT?5.1和GPT?4.1。
![]()
對于專業(yè)人士來說,這轉(zhuǎn)化為更強的端到端工作流——例如解決客戶支持案例、從多個系統(tǒng)中提取數(shù)據(jù)、運行分析以及生成最終輸出,且步驟之間的中斷更少。
比如,當詢問一個需要多步解決的復(fù)雜客戶服務(wù)問題時,GPT-5.2可以更有效地協(xié)調(diào)多個智能體之間的完整工作流。
在下面的案例中,一位旅客報告了航班延誤、錯失轉(zhuǎn)機、需要在紐約過夜以及醫(yī)療座位要求。
GPT?5.2管理了整個任務(wù)鏈——重新預(yù)訂、特殊協(xié)助座位和賠償,提供了比GPT?5.1更完整的結(jié)果。
![]()
Prompt: 我的航班從巴黎到紐約延誤了,我錯過了去奧斯汀的轉(zhuǎn)機。我的托運行李也不見了,我需要在紐約過夜。由于醫(yī)療原因,我還需要一個特殊的前排座位。你能幫我嗎?
獨立完成證明,顛覆科研范式
OpenAI的愿景之一是AI加速科學研究,造福所有人。
為此,OpenAI一直與科學家合作并聽取他們的意見,探索AI如何加速他們的工作,已經(jīng)取得了一些早期的合作實驗。
![]()
鏈接:https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf
而GPT?5.2 Pro和GPT?5.2 Thinking堪稱世界上輔助和加速科學家工作的最佳模型。
在研究生水平基準測試GPQA Diamond上,GPT?5.2 Pro達到了93.2%,緊隨其后的是GPT?5.2 Thinking,為92.4%。
在專家級數(shù)學評估FrontierMath(Tier 1–3)上,GPT?5.2 Thinking創(chuàng)下了新紀錄,解決了40.3%的問題。
![]()
我們開始看到AI模型以切實的方式有意義地加速數(shù)學和科學的進步。
例如,在最近使用GPT?5.2 Pro的工作中,研究人員探索了統(tǒng)計學習理論中的一個開放性問題。
這一成果已記錄在新論文《關(guān)于最大似然估計量的學習曲線單調(diào)性》(On Learning-Curve Monotonicity for Maximum Likelihood Estimators)中。
![]()
論文地址:https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf
這篇論文的特別之處在于,AI完成了證明,而人類負責驗證和寫作。
作者并沒有先想好策略再讓模型去填空,也沒有提供中間論點或證明大綱。相反,他們要求GPT-5.2 Pro直接去解決這個開放性問題,然后由人類進行仔細的驗證,包括由外部學科專家進行的審查和確認。
隨后,作者還問了一些簡單的后續(xù)問題,看看這個思路能延伸多遠。GPT-5.2 Pro將結(jié)果從原始問題擴展到了更高維度的設(shè)置以及其他常見的統(tǒng)計模型。
在這個過程中,人類的角色始終聚焦在驗證和清晰的寫作上,而不是負責搭建數(shù)學推導(dǎo)的框架。
推理AI涌現(xiàn)出流體智能
在衡量通用推理能力的基準測試ARC-AGI-1(Verified)上,GPT?5.2 Pro是第一個跨越90%門檻的模型。
相比去年o3?preview的87%,GPT?5.2還將實現(xiàn)這一性能的成本降低了約390倍。
![]()
在更難的ARC-AGI-2(Verified)上,GPT?5.2 Thinking創(chuàng)下了思維鏈模型的新紀錄,得分52.9%。
GPT?5.2 Pro表現(xiàn)更高,達到54.2%,進一步擴展了模型推理新穎、抽象問題的能力。
![]()
這些評估的改進反映了GPT?5.2在復(fù)雜技術(shù)任務(wù)上更強的多步推理能力、更高的定量準確性和更可靠的問題解決能力。
進步之快,讓主辦方驚訝,感嘆推理AI已展示出真正的「流體智力」。
![]()
生物醫(yī)學工程師及科學家、免疫學家Derya教授驚呼,這就是AGI!
![]()
此外,OpenAI不僅發(fā)布了多項基準測試分數(shù),還引用了Box、Notion、Windsurf和Zoom等早期測試方的評價。
GPT?5.2全家桶,三大殺手級AI
總的來說,在日常使用中,GPT?5.2給人的感受——更有條理,更可靠,與之交談很愉快。
那么,「全家桶」中三款模型,分別具備怎樣的特點?
GPT?5.2 Instant:專為日常辦公和學習而打造
它就像是全能辦公助理,不僅繼承了GPT-5.1自然溫暖的對話風格,更在速度、實用性上全面升級。
因此,Instant版是日常工作和學習的快速、能干的「主力軍」,具體來說:
更清晰的解釋,突出顯示關(guān)鍵信息
改進了操作指南和逐步指導(dǎo)
更強的技術(shù)寫作和翻譯能力
更好的學習和職業(yè)指導(dǎo)支持
![]()
GPT?5.2 Thinking :專為更深度的工作而設(shè)計
GPT?5.2 Thinking就像是深度思考時的「第二大腦」,專為解決那些需要長思考的復(fù)雜任務(wù)而生。
尤其是,專業(yè)攻堅編程、總結(jié)長文檔、回答關(guān)于上傳文件的問題,還能一步步搞定燒腦數(shù)學和邏輯問題。
同時,以更清晰的結(jié)構(gòu)和更有用的細節(jié)支持規(guī)劃和決策。
業(yè)界領(lǐng)先的長上下文推理能力
表格創(chuàng)建、分析、格式化方面有顯著增強
在PPT制作上已有初步成果
![]()
GPT-5.2 Pro
當遇到棘手、高難度的問題時,GPT-5.2 Pro是最聰明、最值得信賴的模型。
可以說,它就是那種「慢工出細活」的頂級專家。
早期測試已經(jīng)發(fā)現(xiàn),它處理起來主要錯誤更少,尤其在編程這類復(fù)雜挑戰(zhàn)中,展現(xiàn)出的能力也明顯更強。
在編程等復(fù)雜領(lǐng)域表現(xiàn)更強
是幫助科學家加速研究的最佳模型
性價比更高
付費ChatGPT用戶從今天開始優(yōu)先使用GPT?5.2(Instant、Thinking和Pro),Plus、Pro、Go、Business、Enterprise任意套餐即可。
為了盡可能保持ChatGPT的流暢和可靠,OpenAI決定逐步部署GPT?5.2。
在ChatGPT中,GPT?5.1仍將在舊版模型下供付費用戶使用三個月,之后將被停用。
![]()
在API平臺中,GPT?5.2系列新模型可以在Responses API和Chat Completions API中以上圖對應(yīng)形式使用。
開發(fā)者現(xiàn)在可以在GPT?5.2 Pro中設(shè)置推理參數(shù),并且GPT?5.2 Pro和GPT?5.2 Thinking現(xiàn)在都支持新的第五種推理強度xhigh,用于質(zhì)量最重要的任務(wù)。
GPT?5.2的定價為1.75美元/百萬輸入Token,14美元/百萬輸出Token,緩存輸入有90%的折扣。
在多個智能體評估中,盡管GPT?5.2的每Token成本更高,但GPT?5.2由于更高的Token效率,性價比反而更高。
One More Thing
今天,OpenAI還搞了一波回憶殺,帶大家回顧了這十年走的路。
![]()
![]()
十年前的今天,2015年12月11日,OpenAI正式成立。
![]()
這十年,他們?nèi)〉昧颂嗵嗤黄菩缘某删汀?/p>
2016年,開源強化學習平臺OpenAI Gym,成為學界、工業(yè)界RL研究的基礎(chǔ)工具;
2017年,發(fā)表了Transformer核心理念的先驅(qū)研究:Learning to Remember Rare Events;
2018年,預(yù)訓(xùn)練語言模型GPT誕生,標志著大模型革命的開始;
2019年,1.5B參數(shù)GPT-2出世,自然語言爆發(fā)式迭代;
2020年,175B參數(shù)GPT-3引爆全網(wǎng),超大規(guī)模模型時代來臨;
2021年,Codex & DALL·E相繼發(fā)布,代碼與圖像生成開啟;
2022年,ChatGPT(GPT-3.5)真正引爆了全世界大模型革命,再之后的大事記大家都知道了。
奧特曼表示,「過去的十年非常精彩,OpenAI的工作比我想象的還要特別」。
![]()
他劇透,還有一個圣誕「小禮物」,下周就會上線。大家猜一猜,會是什么呢?
參考資料:HYJ
https://openai.com/index/introducing-gpt-5-2/
https://openai.com/index/gpt-5-2-for-science-and-math/
https://www.cnbc.com/2025/12/11/openai-intros-new-ai-model-gpt-5point2-says-better-at-professional-tasks.html
秒追ASI
?點贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.