網易首頁 > 網易號 > 正文申請入駐

OpenAI最強模型GPT5.2實測：史詩升級還是營銷噱頭？

2025-12-12 23:50:03　來源: 爾東陳譚

江蘇舉報

分享至

GPT-5.2來了，OpenAI號稱它是“最強模型”？到底是不是？值不值關注？我們大白話說清楚，接下來一起來看看實測。

先說一個直觀的演示

就是經典的“六邊形彈跳球測試”，好像每個新模型上線都會測這個玩意。

3D動畫展示，六邊形和球在屏幕上碰撞彈跳，光影、反光、撞擊時的高亮都做得非常真實——說明，gpt5.2畫面質量明顯上來一檔了。

再看關鍵成績

多項基準測試里，GPT5.2都比前代5.1有明顯提升。比如在 Sweetbench Pro 上提升了約 5%。在一些科學與數學基準（像 GPT Diamond、Amy 2025）里，5.2 得分直接沖到行業最前面。

甚至，GPT-5.2在 Amy 數學競賽中拿到了滿分，這是有史以來第一次。

最驚艷的是“學習與泛化”類的ARC AGI 測試：chatGPT-5.2從上代5.1版的低分暴漲到50%以上——這說明它在把新問題學會并推廣應用上，進步巨大。

而在現實世界任務評估（GDP Val）中，GPT-5.2的表現也領先同類模型，得分70.9%，比排名第二的模型高出一大截。

當然，除了分數，它的實用性也提升了！

GPT-5.2在制作 Excel、股權表、員工規劃模型、PPT 幻燈等辦公任務上，輸出更規范、更易讀，錯誤也少得多。

舉例：左邊是 5.1 版本 Thinking 模式的結果，右邊是 5.2 版本的結果。gpt5.1會在股權清算或公式上出錯，還留下了大量空白行。5.2 則把這些關鍵計算做對了——這對企業級使用非常關鍵，因為這個要錯了，損失將以百萬千萬來計算。

在視覺理解（比如識別主板元件、截圖理解）和長上下文推理（極長文檔里的關鍵信息提取）上，GPT-5.2 的準確率也大幅提升。比如，在超長文本檢索的測試里，5.2 的準確率從 42% 跳到 98%（相同超長條件下的對比）。

再給大家看一個視覺推理能力的實例！

你看這是一張主板的圖片，讓GPT-5.1 版本識別上面的各個部件，結果大家也看到了，表現很差——部件框選不準確，只識別出了 4 個部件。而GPT-5.2 版本的表現就好太多了，識別出了更多的接口、芯片和內存，而且框選也準確得多！

可見，它的視覺理解有了大幅的提升，這就很不錯。

另一方面，它更會“串聯工具”——在多步、多接口的場景（比如訂票、改簽、理賠這樣復雜的工作流程）里，GPT-5.2 能完成更多次、更多輪的工具調用，表現更完整。

最后，還有一點很重要：成本效率也大幅改進。有美國博主評測顯示，同類任務的單項成本從過去數千美元，下降到十幾美元——也就是說，性能提升的同時，價格也更友好，性價比飛躍。

當然，GPT-5.2雖然升級多，但它并非完美：仍需要人類復核重要計算和決策（尤其是財務報表的關鍵數字、法律合同的條款，還得人工核對才放心）。“更少幻覺”不等于“零錯誤”，重要場景仍需審查。

再說兩個大家想知道的實用問題：什么時候能用？普通人能免費用么？

據目前信息可知，OpenAI 已把 GPT-5.2 推向付費用戶與企業客戶，付費用戶現在就可以體驗到不同變體（Instant / Thinking / Pro）。但免費用戶只能用基礎功能，還限次數；Pro級別的高級功能只給付費 / 企業用戶。

總結一句話：GPT-5.2 不是萬能，但在把 AI 真正用到“做事”和“替你把重復、結構化工作完成”這件事上，確實邁出了重要一步。但它局限于專業知識型工作場景，而且還是高額收費模式，并不適合普通大眾日常使用。

那么，你覺得GPT-5.2 這次升級大么？符合最強這個稱號么？評論區聊聊看，你最看好哪個功能？

聲明：個人原創，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

一年狂砸上千億，微軟的AI虧麻了

雷科技 2026-02-14 17:27:48
1 跟貼 1
日本高官有意調查Seedance2.0

北京日報 2026-02-14 09:01:32
2391 跟貼 2391

拆解GEO：未來營銷新變局

經濟觀察報 2026-02-14 11:20:04
0 跟貼 0

整整21個月，豆包大模型正式進入2.0時代！

量子位 2026-02-14 16:41:07
2 跟貼 2
北大大牛團隊最新頂會，首次讓AI能夠生成真實火焰

新智元 2026-02-14 18:06:07
0 跟貼 0

「斯坦福AI小鎮」創業即獲投1億美元！李飛飛卡帕西都投了

量子位 2026-02-14 16:42:28
0 跟貼 0

AI也搞輿論戰？提交代碼被拒，發小作文控訴項目維護者

雷科技 2026-02-14 21:28:35
0 跟貼 0
Agent、圖像、視頻全是大版本升級：春晚還沒開，豆包AI就火了

機器之心Pro 2026-02-14 16:36:33
3 跟貼 3

未來醫生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
隱私已死，曝Meta眼鏡開發「人臉識別」功能，這回真成「臉書」了

雷科技 2026-02-14 22:48:12
0 跟貼 0
獨家對話Remy創始人王正男：一個超過微信下載量的爆款應用是如何誕生的

虎嗅APP 2026-02-14 20:37:14
1 跟貼 1
Meta新專利允許AI接管逝者賬號，繼續在社交平臺“存活”

DeepTech深科技 2026-02-14 23:12:35
0 跟貼 0
OpenClaw之父爆猛料：Meta和OpenAI跪著搶人，小扎親自求收購

新智元 2026-02-14 09:16:40
258 跟貼 258
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
44 跟貼 44
富家女瞧不起樸素小子，不料小子是億萬富豪，打臉了！

宇宙觀察 2026-02-12 02:03:31
241 跟貼 241
經典韓劇《最后的愛》第十四集中年富豪女人患上抑郁癥

瓜叔講電影 2026-02-13 11:21:22
1 跟貼 1
剛剛，DeepSeek官宣更新了！突然「變冷」沖爆熱搜

新智元 2026-02-14 12:56:53
7 跟貼 7
編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
62 跟貼 62
GLM-5真夠頂：超24小時跑代碼，700次工具調用、800次切上下文！

量子位 2026-02-14 16:11:24
2 跟貼 2
創業兼職干代駕，沒想法公司發展越來越好

小小魚追劇 2026-02-12 10:14:35
1 跟貼 1
【報告】2026年小鵬汽車深度研究：十載磨礪成體系

新浪財經 2026-02-14 09:33:47
0 跟貼 0
劉鑾雄一億賣掉呂麗君舊居，呂麗君與子女同居，住在甘比名下豪宅

想溫柔 2026-02-13 02:47:41
1 跟貼 1
全家都覺得賺了！21歲的孫子寒假“打工”照顧97歲的奶奶 5元1小時 1天封頂50元

閃電新聞 2026-02-14 10:50:57
732 跟貼 732
利用殺手計算公式開發出的游戲

奻奻剪影 2026-02-12 15:04:27
3 跟貼 3
多模態Deep Research，終于有了「可核驗」的評測標準

機器之心Pro 2026-02-14 17:27:55
0 跟貼 0
瘋了！游戲本逆天改裝：一顆電阻4090反殺5090！

雷科技 2025-11-11 18:57:46
167 跟貼 167
新手司機實測蔚來ET9 轉彎能否一把過？會車慌不慌？泊車快又準？

駕享來電 2026-02-11 10:30:04
5 跟貼 5
小鳥從小比較嬌貴，必須要手養它才行，有了模型養幾十只不是問題

發怒的福貓 2026-02-13 13:39:20
2 跟貼 2
“開門紅”成歷史？新年銀行弱化“開門紅”行動，部分已放棄“開門紅”

財聯社 2026-02-14 15:48:25
1 跟貼 1
運動品牌大戰馬年營銷

界面新聞 2026-02-14 08:01:04
1 跟貼 1
小偷去富豪家偷東西還沒得手就被抓了個正著這下小偷慘了

山雞看劇 2026-02-11 08:00:17
1 跟貼 1
王一博新片上線，視覺盛宴，不愧頂流

全球熱點幕后 2026-02-14 08:21:01
4 跟貼 4
董明珠是逆行者，大家贊賞的是本分的企業家

葉檀財經 2025-12-17 19:14:36
0 跟貼 0
54歲黎姿嫁富豪生三女，如今生活美滿幸福

小吐說故事 2026-02-12 23:50:18
3 跟貼 3
這不僅是對食材的極致處理，更是一場視覺和味覺的雙重盛宴

暖陽喵 2026-02-13 09:55:16
1 跟貼 1
虧本賣車已被禁止，小米發文力挺，雷軍曾表示賣一臺虧6萬

映射生活的身影 2026-02-14 15:30:22
113 跟貼 113
初中數學解方程，完全立方公式

天天數理學習分享 2026-02-14 11:31:10
3 跟貼 3
段永平的投資哲學：把“退”當成人生指引

葉檀財經 2025-11-19 20:42:13
0 跟貼 0
五角大樓前顧問：烏克蘭“在軍事層面上已輸”

激情與榮耀并存 2026-02-14 19:57:54
4 跟貼 4
國家煙草專賣局：不得采用誘導性方式開展營銷推廣，禁止使用甜點、糖果、水果等風味名稱對電子煙產品進行命名

界面新聞 2026-02-13 10:31:50
0 跟貼 0

手機 / 數碼

房產 / 家居

OpenAI最強模型GPT5.2實測：史詩升級還是營銷噱頭？

字節跳動官宣豆包大模型今日進入2.0階段

福州街頭發現一流浪老人身份成謎 程序員精準破解方言

福州街頭發現一流浪老人身份成謎 程序員精準破解方言

最戲劇性的花滑男單，冠軍為什么是他？

春晚第五次聯排路透 明星積極飯撒互動

誰在掌控你的胃？起底百億"飄香劑"江湖

星光730新春促銷開啟 80天銷量破2.6萬臺

態度原創

418米！浙江最高樓，即將“破土而出”

三亞新機場，又傳出新消息！

“取消一門學科”：英語排第2，第1名實至名歸...

中古雅韻 樂韻伴日常

福州街頭發現一流浪老人身份成謎程序員精準破解方言

福州街頭發現一流浪老人身份成謎程序員精準破解方言

春晚第五次聯排路透明星積極飯撒互動

中古雅韻樂韻伴日常