上周,
剛剛,GPT-5.2 來了,包含三個版本
? GPT-5.2 Instant :日常對話,快
? GPT-5.2 Thinking :深度任務,代碼、長文檔、數(shù)學、規(guī)劃
? GPT-5.2 Pro :最強,適合難題,愿意等
模型肯定是更強的,比如在AIME 2025 中取得滿分,在 ARC-AGI-2 上拿到了 52.9%(和 Gemini3 相當)
今天開始向付費用戶推送,API 已上線,標準版比 GPT-5.1 貴 40%
![]()
GPT-5.2 核心評測
如下圖所示,是 GPT-5.2 的相關核心數(shù)據(jù)
![]()
GPT-5.2 Benchmark
注意:
? AIME 2025 滿分(無工具)
? GPT-5.2 Pro 在 ARC-AGI-1 上達到 90.5%,是第一個突破 90% 的模型
? ARC-AGI-2 從 17.6% 到 52.9%,翻了三倍
GDPval 是 OpenAI 新出的 benchmark
測的是 44 個職業(yè)的真實工作任務:
做 PPT、做表格、寫分析報告
GPT-5.2 Thinking 在 70.9% 的任務上勝過或打平行業(yè)專家
GPT-5.2 Pro 更高,74.1%
![]()
GDPval 知識工作
速度是人類專家的 11 倍,成本不到 1%
一個評審員的評價:
「看起來像是一個有員工的專業(yè)公司做的,布局和建議都很專業(yè),雖然還有一些小錯誤需要修正」
在投行分析師的表格建模任務上
比如給 Fortune 500 公司做三表模型、做 LBO 模型
平均分從 59.1% 提升到 68.4%
官方放了幾個對比
GPT-5.2 做的表格和 PPT 比 GPT-5.1 精細很多
![]()
Workforce Planner 對比,左邊 GPT-5.1,右邊 GPT-5.2
要用這個功能,需要付費版(Plus、Pro、Business、Enterprise),選 GPT-5.2 Thinking 或 Pro
復雜任務可能要跑好幾分鐘
寫代碼
SWE-Bench Pro 是新的代碼 benchmark
比 SWE-bench Verified 更難
測四種語言,不只是 Python,更接近真實軟件工程
GPT-5.2 Thinking 55.6%,GPT-5.1 是 50.8%
![]()
SWE-Bench Pro
前端能力也提升了,尤其是 3D 和復雜 UI
官方放了幾個 demo,單 prompt 生成的

海浪模擬,單 prompt 生成
對此,Windsurf 的 CEO 表示
「這是 GPT-5 以來 agentic coding 最大的躍升,版本號的小幅升級低估了智能的大幅提升。我們會把它設為 Windsurf 和 Devin 核心工作流的默認模型」
看圖
視覺能力提升明顯,錯誤率基本減半
![]()
CharXiv Reasoning
CharXiv Reasoning:科學論文圖表問答,88.7%,GPT-5.1 是 80.3%
ScreenSpot-Pro,GUI 截圖理解,86.3%,GPT-5.1 是 64.2%
此外,一個很明顯的區(qū)別是:空間位置理解更強了
官方放了個主板識別的對比:給一張低質(zhì)量的主板圖片,讓模型標注各個組件的位置
GPT-5.1 只能標幾個,位置也不太對
![]()
GPT-5.1 主板識別
GPT-5.2 能準確標注各個組件,位置基本對
![]()
GPT-5.2 主板識別 長文檔
OpenAI MRCRv2,測的是長文檔中多個信息點的整合能力
在文檔里插入多個相同的「針/needl」,然后問模型第 n 個針的內(nèi)容是什么
4 needle 變體,GPT-5.2 Thinking 在 256k token 長度接近 100%
GPT-5.1 在同樣長度只有 30% 左右
這是第一個在 4-needle 變體上達到接近 100%(256k)的模型
![]()
長上下文 4 needles
8 needle 更難,GPT-5.2 也有顯著提升
![]()
長上下文 8 needles
API 還支持新的 /compact 端點,可以擴展有效上下文窗口,適合工具多、跑得久的任務
工具調(diào)用
Tau2-bench 測的是多輪對話中的工具使用,模擬客服場景
Telecom 領域,GPT-5.2 Thinking 98.7%,GPT-5.1 是 95.6%
Retail 領域,82.0%,GPT-5.1 是 77.9%
![]()
工具調(diào)用
官方舉了個例子
用戶說:我從巴黎飛紐約的航班延誤了,錯過了轉機去奧斯汀,行李也丟了,需要在紐約過夜,還有醫(yī)療原因需要前排座位
GPT-5.1 漏了好幾步
![]()
GPT-5.1 工具調(diào)用
GPT-5.2 一次性處理完:改簽、特殊座位、賠償,全部搞定
![]()
GPT-5.2 工具調(diào)用 數(shù)學和科學
AIME 2025 100%,滿分,無工具
HMMT 2025 年 2 月 99.4%,Pro 版 100%
GPQA Diamond 92.4%,Pro 版 93.2%
FrontierMath Tier 1-3 40.3%,Tier 4 14.6%
HLE(Humanity's Last Exam)34.5%(無工具),45.5%(有工具)
![]()
數(shù)學&科學
ARC-AGI 是測抽象推理的
ARC-AGI-1,GPT-5.2 Thinking 86.2%,Pro 版 90.5%,第一個突破 90%
ARC-AGI-2 更難,GPT-5.2 Thinking 52.9%,Pro 版 54.2%
GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%
![]()
ARC-AGI 幻覺
在 ChatGPT 真實用戶查詢上測試
有錯誤的回復比例從 8.8% 降到 6.2%,相對減少 30%
![]()
幻覺率 價格
漲了
GPT-5.2 比 GPT-5.1 貴 40%;GPT-5.2 Pro 的價格,一如既往的貴到離譜
![]()
每百萬 token 價格
官方解釋:雖然單價更高,但 token 效率更高,達到同樣效果的總成本反而更低
ChatGPT 訂閱價格不變
可用性
ChatGPT 今天開始向付費用戶推送:Plus、Pro、Go、Business、Enterprise
如果還沒看到,過幾天再試
GPT-5.1 在 ChatGPT 中還會保留三個月,之后下線
API 已經(jīng)上線:
?
gpt-5.2:Thinking 版?
gpt-5.2-chat-latest:Instant 版?
gpt-5.2-pro:Pro 版
新增 xhigh reasoning effort,適合對質(zhì)量要求最高的任務
GPT-5.1、GPT-5、GPT-4.1 在 API 中暫時不會下線
Codex 優(yōu)化版即將推出
安全
延續(xù)了 GPT-5 的 safe completion 研究
在自殺、自殘、心理健康、情感依賴等敏感對話上的表現(xiàn)改進了
![]()
安全性評估
開始部署年齡預測模型,18 歲以下用戶自動限制敏感內(nèi)容
官方說過度拒絕的問題還在改進中
最后
總結下本次發(fā)布的內(nèi)容
? Code Red 一周后,GPT-5.2 發(fā)布,三個版本
? 性能更強,價格更貴
? 今天開始向付費用戶推送,API 已上線
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.