網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

GPT-5.2 發(fā)布｜信息全整理

2025-12-12 03:40:35　來源: 賽博禪心

北京舉報(bào)

分享至

上周，

剛剛，GPT-5.2 來了，包含三個(gè)版本

? GPT-5.2 Instant ：日常對(duì)話，快
? GPT-5.2 Thinking ：深度任務(wù)，代碼、長(zhǎng)文檔、數(shù)學(xué)、規(guī)劃
? GPT-5.2 Pro ：最強(qiáng)，適合難題，愿意等

模型肯定是更強(qiáng)的，比如在AIME 2025 中取得滿分，在 ARC-AGI-2 上拿到了 52.9%（和 Gemini3 相當(dāng)）

今天開始向付費(fèi)用戶推送，API 已上線，標(biāo)準(zhǔn)版比 GPT-5.1 貴 40%

GPT-5.2 核心評(píng)測(cè)

如下圖所示，是 GPT-5.2 的相關(guān)核心數(shù)據(jù)

GPT-5.2 Benchmark

注意：

? AIME 2025 滿分（無工具）
? GPT-5.2 Pro 在 ARC-AGI-1 上達(dá)到 90.5%，是第一個(gè)突破 90% 的模型
? ARC-AGI-2 從 17.6% 到 52.9%，翻了三倍

處理真實(shí)工作

GDPval 是 OpenAI 新出的 benchmark

測(cè)的是 44 個(gè)職業(yè)的真實(shí)工作任務(wù)：
做 PPT、做表格、寫分析報(bào)告

GPT-5.2 Thinking 在 70.9% 的任務(wù)上勝過或打平行業(yè)專家
GPT-5.2 Pro 更高，74.1%

GDPval 知識(shí)工作

速度是人類專家的 11 倍，成本不到 1%
一個(gè)評(píng)審員的評(píng)價(jià)：
「看起來像是一個(gè)有員工的專業(yè)公司做的，布局和建議都很專業(yè)，雖然還有一些小錯(cuò)誤需要修正」

在投行分析師的表格建模任務(wù)上
比如給 Fortune 500 公司做三表模型、做 LBO 模型
平均分從 59.1% 提升到 68.4%

官方放了幾個(gè)對(duì)比
GPT-5.2 做的表格和 PPT 比 GPT-5.1 精細(xì)很多

Workforce Planner 對(duì)比，左邊 GPT-5.1，右邊 GPT-5.2

要用這個(gè)功能，需要付費(fèi)版（Plus、Pro、Business、Enterprise），選 GPT-5.2 Thinking 或 Pro

復(fù)雜任務(wù)可能要跑好幾分鐘

寫代碼

SWE-Bench Pro 是新的代碼 benchmark
比 SWE-bench Verified 更難

測(cè)四種語(yǔ)言，不只是 Python，更接近真實(shí)軟件工程
GPT-5.2 Thinking 55.6%，GPT-5.1 是 50.8%

SWE-Bench Pro

前端能力也提升了，尤其是 3D 和復(fù)雜 UI
官方放了幾個(gè) demo，單 prompt 生成的

海浪模擬，單 prompt 生成

對(duì)此，Windsurf 的 CEO 表示
「這是 GPT-5 以來 agentic coding 最大的躍升，版本號(hào)的小幅升級(jí)低估了智能的大幅提升。我們會(huì)把它設(shè)為 Windsurf 和 Devin 核心工作流的默認(rèn)模型」

看圖

視覺能力提升明顯，錯(cuò)誤率基本減半

CharXiv Reasoning

CharXiv Reasoning：科學(xué)論文圖表問答，88.7%，GPT-5.1 是 80.3%

ScreenSpot-Pro，GUI 截圖理解，86.3%，GPT-5.1 是 64.2%

此外，一個(gè)很明顯的區(qū)別是：空間位置理解更強(qiáng)了
官方放了個(gè)主板識(shí)別的對(duì)比：給一張低質(zhì)量的主板圖片，讓模型標(biāo)注各個(gè)組件的位置

GPT-5.1 只能標(biāo)幾個(gè)，位置也不太對(duì)

GPT-5.1 主板識(shí)別

GPT-5.2 能準(zhǔn)確標(biāo)注各個(gè)組件，位置基本對(duì)

GPT-5.2 主板識(shí)別長(zhǎng)文檔

OpenAI MRCRv2，測(cè)的是長(zhǎng)文檔中多個(gè)信息點(diǎn)的整合能力
在文檔里插入多個(gè)相同的「針/needl」，然后問模型第 n 個(gè)針的內(nèi)容是什么

4 needle 變體，GPT-5.2 Thinking 在 256k token 長(zhǎng)度接近 100%
GPT-5.1 在同樣長(zhǎng)度只有 30% 左右

這是第一個(gè)在 4-needle 變體上達(dá)到接近 100%（256k）的模型

長(zhǎng)上下文 4 needles

8 needle 更難，GPT-5.2 也有顯著提升

長(zhǎng)上下文 8 needles

API 還支持新的 /compact 端點(diǎn)，可以擴(kuò)展有效上下文窗口，適合工具多、跑得久的任務(wù)

工具調(diào)用

Tau2-bench 測(cè)的是多輪對(duì)話中的工具使用，模擬客服場(chǎng)景
Telecom 領(lǐng)域，GPT-5.2 Thinking 98.7%，GPT-5.1 是 95.6%
Retail 領(lǐng)域，82.0%，GPT-5.1 是 77.9%

工具調(diào)用

官方舉了個(gè)例子
用戶說：我從巴黎飛紐約的航班延誤了，錯(cuò)過了轉(zhuǎn)機(jī)去奧斯汀，行李也丟了，需要在紐約過夜，還有醫(yī)療原因需要前排座位

GPT-5.1 漏了好幾步

GPT-5.1 工具調(diào)用

GPT-5.2 一次性處理完：改簽、特殊座位、賠償，全部搞定

GPT-5.2 工具調(diào)用數(shù)學(xué)和科學(xué)

AIME 2025 100%，滿分，無工具
HMMT 2025 年 2 月 99.4%，Pro 版 100%
GPQA Diamond 92.4%，Pro 版 93.2%
FrontierMath Tier 1-3 40.3%，Tier 4 14.6%
HLE（Humanity's Last Exam）34.5%（無工具），45.5%（有工具）

數(shù)學(xué)&科學(xué)

ARC-AGI 是測(cè)抽象推理的

ARC-AGI-1，GPT-5.2 Thinking 86.2%，Pro 版 90.5%，第一個(gè)突破 90%

ARC-AGI-2 更難，GPT-5.2 Thinking 52.9%，Pro 版 54.2%

GPT-5.1 Thinking 在 ARC-AGI-2 上只有 17.6%

ARC-AGI 幻覺

在 ChatGPT 真實(shí)用戶查詢上測(cè)試

有錯(cuò)誤的回復(fù)比例從 8.8% 降到 6.2%,相對(duì)減少 30%

幻覺率價(jià)格

漲了
GPT-5.2 比 GPT-5.1 貴 40%；GPT-5.2 Pro 的價(jià)格，一如既往的貴到離譜

每百萬 token 價(jià)格

官方解釋：雖然單價(jià)更高，但 token 效率更高，達(dá)到同樣效果的總成本反而更低

ChatGPT 訂閱價(jià)格不變

可用性

ChatGPT 今天開始向付費(fèi)用戶推送：Plus、Pro、Go、Business、Enterprise
如果還沒看到，過幾天再試

GPT-5.1 在 ChatGPT 中還會(huì)保留三個(gè)月，之后下線
API 已經(jīng)上線：

? gpt-5.2 ：Thinking 版
? gpt-5.2-chat-latest ：Instant 版
? gpt-5.2-pro ：Pro 版

在 PlayGround 里面，可以看到這些模型

新增 xhigh reasoning effort，適合對(duì)質(zhì)量要求最高的任務(wù)
GPT-5.1、GPT-5、GPT-4.1 在 API 中暫時(shí)不會(huì)下線
Codex 優(yōu)化版即將推出

安全

延續(xù)了 GPT-5 的 safe completion 研究
在自殺、自殘、心理健康、情感依賴等敏感對(duì)話上的表現(xiàn)改進(jìn)了

安全性評(píng)估

開始部署年齡預(yù)測(cè)模型，18 歲以下用戶自動(dòng)限制敏感內(nèi)容
官方說過度拒絕的問題還在改進(jìn)中

最后

總結(jié)下本次發(fā)布的內(nèi)容

? Code Red 一周后，GPT-5.2 發(fā)布，三個(gè)版本
? 性能更強(qiáng)，價(jià)格更貴
? 今天開始向付費(fèi)用戶推送，API 已上線

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.