上周,
剛剛,GPT-5.2 來了,包含三個(gè)版本
? GPT-5.2 Instant :日常對(duì)話,快
? GPT-5.2 Thinking :深度任務(wù),代碼、長(zhǎng)文檔、數(shù)學(xué)、規(guī)劃
? GPT-5.2 Pro :最強(qiáng),適合難題,愿意等
模型肯定是更強(qiáng)的,比如在AIME 2025 中取得滿分,在 ARC-AGI-2 上拿到了 52.9%(和 Gemini3 相當(dāng))
今天開始向付費(fèi)用戶推送,API 已上線,標(biāo)準(zhǔn)版比 GPT-5.1 貴 40%
![]()
GPT-5.2 核心評(píng)測(cè)
如下圖所示,是 GPT-5.2 的相關(guān)核心數(shù)據(jù)
![]()
GPT-5.2 Benchmark
注意:
? AIME 2025 滿分(無工具)
? GPT-5.2 Pro 在 ARC-AGI-1 上達(dá)到 90.5%,是第一個(gè)突破 90% 的模型
? ARC-AGI-2 從 17.6% 到 52.9%,翻了三倍
GDPval 是 OpenAI 新出的 benchmark
測(cè)的是 44 個(gè)職業(yè)的真實(shí)工作任務(wù):
做 PPT、做表格、寫分析報(bào)告
GPT-5.2 Thinking 在 70.9% 的任務(wù)上勝過或打平行業(yè)專家
GPT-5.2 Pro 更高,74.1%
![]()
GDPval 知識(shí)工作
速度是人類專家的 11 倍,成本不到 1%
一個(gè)評(píng)審員的評(píng)價(jià):
「看起來像是一個(gè)有員工的專業(yè)公司做的,布局和建議都很專業(yè),雖然還有一些小錯(cuò)誤需要修正」
在投行分析師的表格建模任務(wù)上
比如給 Fortune 500 公司做三表模型、做 LBO 模型
平均分從 59.1% 提升到 68.4%
官方放了幾個(gè)對(duì)比
GPT-5.2 做的表格和 PPT 比 GPT-5.1 精細(xì)很多
![]()
Workforce Planner 對(duì)比,左邊 GPT-5.1,右邊 GPT-5.2
要用這個(gè)功能,需要付費(fèi)版(Plus、Pro、Business、Enterprise),選 GPT-5.2 Thinking 或 Pro
復(fù)雜任務(wù)可能要跑好幾分鐘
寫代碼
SWE-Bench Pro 是新的代碼 benchmark
比 SWE-bench Verified 更難
測(cè)四種語(yǔ)言,不只是 Python,更接近真實(shí)軟件工程
GPT-5.2 Thinking 55.6%,GPT-5.1 是 50.8%
![]()
SWE-Bench Pro
前端能力也提升了,尤其是 3D 和復(fù)雜 UI
官方放了幾個(gè) demo,單 prompt 生成的

海浪模擬,單 prompt 生成
對(duì)此,Windsurf 的 CEO 表示
「這是 GPT-5 以來 agentic coding 最大的躍升,版本號(hào)的小幅升級(jí)低估了智能的大幅提升。我們會(huì)把它設(shè)為 Windsurf 和 Devin 核心工作流的默認(rèn)模型」
看圖
視覺能力提升明顯,錯(cuò)誤率基本減半
![]()
CharXiv Reasoning
CharXiv Reasoning:科學(xué)論文圖表問答,88.7%,GPT-5.1 是 80.3%
ScreenSpot-Pro,GUI 截圖理解,86.3%,GPT-5.1 是 64.2%
此外,一個(gè)很明顯的區(qū)別是:空間位置理解更強(qiáng)了
官方放了個(gè)主板識(shí)別的對(duì)比:給一張低質(zhì)量的主板圖片,讓模型標(biāo)注各個(gè)組件的位置
GPT-5.1 只能標(biāo)幾個(gè),位置也不太對(duì)
![]()
GPT-5.1 主板識(shí)別
GPT-5.2 能準(zhǔn)確標(biāo)注各個(gè)組件,位置基本對(duì)
![]()
GPT-5.2 主板識(shí)別 長(zhǎng)文檔
OpenAI MRCRv2,測(cè)的是長(zhǎng)文檔中多個(gè)信息點(diǎn)的整合能力
在文檔里插入多個(gè)相同的「針/needl」,然后問模型第 n 個(gè)針的內(nèi)容是什么
4 needle 變體,GPT-5.2 Thinking 在 256k token 長(zhǎng)度接近 100%
GPT-5.1 在同樣長(zhǎng)度只有 30% 左右
這是第一個(gè)在 4-needle 變體上達(dá)到接近 100%(256k)的模型
![]()
長(zhǎng)上下文 4 needles
8 needle 更難,GPT-5.2 也有顯著提升
![]()
長(zhǎng)上下文 8 needles
API 還支持新的 /compact 端點(diǎn),可以擴(kuò)展有效上下文窗口,適合工具多、跑得久的任務(wù)
工具調(diào)用
Tau2-bench 測(cè)的是多輪對(duì)話中的工具使用,模擬客服場(chǎng)景
Telecom 領(lǐng)域,GPT-5.2 Thinking 98.7%,GPT-5.1 是 95.6%
Retail 領(lǐng)域,82.0%,GPT-5.1 是 77.9%
![]()
工具調(diào)用
官方舉了個(gè)例子
用戶說:我從巴黎飛紐約的航班延誤了,錯(cuò)過了轉(zhuǎn)機(jī)去奧斯汀,行李也丟了,需要在紐約過夜,還有醫(yī)療原因需要前排座位
GPT-5.1 漏了好幾步
![]()
GPT-5.1 工具調(diào)用
GPT-5.2 一次性處理完:改簽、特殊座位、賠償,全部搞定
![]()
GPT-5.2 工具調(diào)用 數(shù)學(xué)和科學(xué)
AIME 2025 100%,滿分,無工具
HMMT 2025 年 2 月 99.4%,Pro 版 100%
GPQA Diamond 92.4%,Pro 版 93.2%
FrontierMath Tier 1-3 40.3%,Tier 4 14.6%
HLE(Humanity's Last Exam)34.5%(無工具),45.5%(有工具)
![]()
數(shù)學(xué)&科學(xué)
ARC-AGI 是測(cè)抽象推理的
ARC-AGI-1,GPT-5.2 Thinking 86.2%,Pro 版 90.5%,第一個(gè)突破 90%
ARC-AGI-2 更難,GPT-5.2 Thinking 52.9%,Pro 版 54.2%
GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%
![]()
ARC-AGI 幻覺
在 ChatGPT 真實(shí)用戶查詢上測(cè)試
有錯(cuò)誤的回復(fù)比例從 8.8% 降到 6.2%,相對(duì)減少 30%
![]()
幻覺率 價(jià)格
漲了
GPT-5.2 比 GPT-5.1 貴 40%;GPT-5.2 Pro 的價(jià)格,一如既往的貴到離譜
![]()
每百萬 token 價(jià)格
官方解釋:雖然單價(jià)更高,但 token 效率更高,達(dá)到同樣效果的總成本反而更低
ChatGPT 訂閱價(jià)格不變
可用性
ChatGPT 今天開始向付費(fèi)用戶推送:Plus、Pro、Go、Business、Enterprise
如果還沒看到,過幾天再試
GPT-5.1 在 ChatGPT 中還會(huì)保留三個(gè)月,之后下線
API 已經(jīng)上線:
?
gpt-5.2:Thinking 版?
gpt-5.2-chat-latest:Instant 版?
gpt-5.2-pro:Pro 版
新增 xhigh reasoning effort,適合對(duì)質(zhì)量要求最高的任務(wù)
GPT-5.1、GPT-5、GPT-4.1 在 API 中暫時(shí)不會(huì)下線
Codex 優(yōu)化版即將推出
安全
延續(xù)了 GPT-5 的 safe completion 研究
在自殺、自殘、心理健康、情感依賴等敏感對(duì)話上的表現(xiàn)改進(jìn)了
![]()
安全性評(píng)估
開始部署年齡預(yù)測(cè)模型,18 歲以下用戶自動(dòng)限制敏感內(nèi)容
官方說過度拒絕的問題還在改進(jìn)中
最后
總結(jié)下本次發(fā)布的內(nèi)容
? Code Red 一周后,GPT-5.2 發(fā)布,三個(gè)版本
? 性能更強(qiáng),價(jià)格更貴
? 今天開始向付費(fèi)用戶推送,API 已上線
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.