網易首頁 > 網易科技 > IT業界 > 正文

凌晨突發！GPT-5.2上線，首批實測后感嘆：確實是第一，但不再是唯一的王

2025-12-12 07:54:55　來源: 網易科技報道

北京舉報

分享至

作者 | 辰辰

出品 | 網易科技

它終于來了！

沒有官方預熱，沒有發布會，今日凌晨，GPT-5.2系列模型低調上線。僅有一篇技術博客，和CEO奧特曼（Sam Altman）在社交媒體上的一句簡短宣告。

然而，在這份刻意的“低調”背后，卻彌漫著從未有過的硝煙味。就在上個月谷歌Gemini 3驚艷亮相后，奧特曼在內部拉響了最高級別的“紅色警報”。

因此，GPT-5.2絕不僅僅是一次常規迭代。在“護城河”幾近消失的當下，這是OpenAI為捍衛“地表最強AI”尊嚴的背水一戰。

剝開GPT-5.2華麗的參數外衣，它到底強在哪里？又掩蓋了這家巨頭怎樣的焦慮？

1. 硬核評測：GPT-5.2到底進化了什么？

OpenAI表示，將于今日開始逐步推出GPT-5.2，首先是面向付費計劃用戶（Plus、Pro、Go、Business、Enterprise），隨后再擴大開放范圍，盡可能保持ChatGPT的平穩可靠。ChatGPT中的GPT-5.1仍將對付費用戶開放三個月，之后就將停止使用。

這次OpenAI的產品策略非常清晰，GPT-5.2被拆分為三個梯隊：Instant（極速版）、Thinking（思考版）和Pro（專業版）。

（圖片由AI生成）

這種細分本身就暗示了一個趨勢：OpenAI正在針對不同使用場景優化模型矩陣。

——“思考”能力的質變：智能體工作流的福音

如果你是開發者或重度企業用戶，那么GPT-5.2 Thinking是你眼中絕對的主角。

OpenAI拋出了一個全新的評估基準——GDPval。這個基準涵蓋44種職業的知識工作任務。結果顯示，GPT-5.2 Thinking在70.9%的任務比拼中，擊敗或打平了人類頂尖專家。

一位GDPval評審員評論道：“這是輸出質量上令人興奮且明顯的飛躍……兩個交付成果的布局設計和建議都出奇地好。盡管其中一個仍需要修正一些小錯誤，但看起來像是由專業公司完成的。”

在以初級投資銀行分析師的角色建模電子表格時，GPT-5.2 Thinking的平均得分比GPT 5.1高出9.3%，從59.1% 提高到68.4%。而且電子表格和PPT的精細度以及格式上都有所提升。

更可怕的數據在于效率：它的產出速度是人類專家的11倍以上，而成本不到人類的1%。

（圖片由AI生成）

在具體的應用場景中，GPT-5.2 Thinking有質的飛躍：

· 長文檔分析（MRCRv2）： 在處理長達256k token（約數十萬字）的文檔時，它是目前唯一一個在“大海撈針”測試中接近100%準確率的模型。這意味著，甩來幾百份合同或財報，它真的能讀懂并綜合分析，不再是“讀了后面忘前面”。

· 編程能力（SWE-bench Pro）： 達到了55.6%的新高。它不再只是寫幾個Python函數，而是能處理多語言、多步驟的復雜工程問題。從模型生成的前端界面來看，可謂是達到了“以假亂真”的效果。

（海浪效果）

這意味著模型能夠更可靠地調試生產代碼、實現功能請求、重構大型代碼庫，并以更少的人工干預端到端地交付修復。

AI編程公司Windsurf的CEO甚至評價其為“智能體編程（Agentic Coding）的最大飛躍”。

——視覺與工具調用的進化

在視覺識別上，GPT-5.2 Thinking特別優化了對圖表、儀表盤和UI界面的理解能力。在主板組件識別的測試中，雖然仍有瑕疵，但它已經能準確理解組件的空間布局，而不再是像GPT-5.1那樣“胡言亂語”。

這意味著模型能夠更準確解讀儀表板、產品截圖、技術圖表和可視化報告。

此外，GPT-5.2 Thinking的工具調用能力也很強。這意味著更強大的端到端工作流——例如解決客戶支持案例、從多個系統提取數據、運行分析以及生成最終輸出，步驟間的故障中斷更少。

在模擬航空改簽這種多步驟任務時，它就展現出驚人的“多智能體協調”能力。內部測試中一位旅客告知航班延誤、錯過轉機、需要在紐約過夜，并且因醫療原因需要特殊的首排座位。

結果是GPT-5.2 Thinking訂票、安排住宿、申請醫療特殊座位和補償，一氣呵成。

2. 深度挖掘：光鮮背后的“隱形短板”

但我們不能只看官方亮出的肌肉。在GPT-5.2耀眼的參數之下，也有一些值得警惕的短板和行業焦慮。

——昂貴代價與延遲的痛點

OpenAI在博客中誠實地寫道：“復雜的生成可能需要數分鐘才能完成。”

在追求實時交互的今天，數分鐘的等待是巨大的體驗倒退。這說明GPT-5.2 Thinking不僅是在“思考”，更是在進行極其消耗算力的“慢思考”。

（圖片由AI生成）

當然，OpenAI也用GPT-5.2 Instant兼顧到了用戶體驗。這款快速、強大的日常工作與學習主力模型，在信息查詢類問題、操作指南與教程、技術寫作和翻譯方面均有明顯改進，同時延續了GPT5.1 Instant引入的溫暖對話語調。早期測試者特別提到，GPT-5.2 Instant的解釋更清晰，能預先突出關鍵信息。

與此同時，API的價格也水漲船高：GPT-5.2系列模型的價格依然昂貴，達到每百萬輸入Token為1.75美元，每百萬輸出Token為14美元。GPT-5.2 Pro更是高達每百萬輸入Token 21美元，每百萬輸出Token 168美元。

雖然OpenAI強調，每token性價比提升，但單次任務總價不菲。

（圖片由AI生成）

不少用戶也提到GPT-5.2的成本要高于Claude 4.5。AI博主@Mlearning_ai更是指出，高階版的GPT-5.2每100萬Token價格是高階版Claude 4.5 Opus的1.5倍。

這對于預算有限的初創公司來說，并不是一個好消息。

——技術“護城河”的消失

這是最讓奧特曼頭疼的問題，也是發布“紅色警報”的根本原因。

雖然OpenAI宣稱GPT-5.2是“最強”，奧特曼也表示各項基準測試指標的表現都很出色：SWE-Bench Pro得分55.6%，ARC-AGI-1得分突破90%， ARC-AGI-2得分52.9%，Frontier Math得分40.3%。

但行業現狀是：差距已經微乎其微。

· Google Gemini 3在上個月剛剛宣稱自己是世界第一。

· Anthropic Claude Opus 4.5緊隨其后，在很多細分領域與OpenAI平分秋色。

· Runway在視頻生成領域甚至反超了Sora。

用戶@skizoexe對GPT-5.2開展一番中等復雜度的推理測試后認為，新模型的推理和數學能力有明顯提升；但在編程能力上仍無法縮小與Gemini 3的差距：前端較弱，后端較強。

德國AI博主@zeldogiq則在X上發帖表示，GPT-5.2的基準測試成績驚人。但他認為，當所有模型都能取得高分時，更好的基準測試已不再是唯一評判標準。真正的價值在于工作流的整合、智能體表現，以及一切基準測試無法量化的實際應用能力。

曾經，OpenAI領先對手一年甚至兩年；現在，這個領先優勢被壓縮到了幾周甚至幾天。紐約時報的分析指出，基礎模型的構建方法論已經成為行業共識，OpenAI不再擁有獨門秘籍。

（圖片由AI生成）

AI工程師丹·麥克（Dan Mac）就直言：“GPT-5.2的發布對OpenAI而言關乎存亡。它必須實現對Gemini 3 Pro和Opus 4.5的明顯超越，否則OpenAI這次可能真的會被徹底淘汰。”

——“溫度”與“準確度”的博弈

此前GPT-5發布時，曾因回答過于冷漠、機械而引發用戶“起義”。OpenAI隨后不得不緊急進行調整。

在GPT-5.2中，OpenAI聲稱減少了30%的幻覺，并加強了對心理健康等敏感話題的安全干預。

內部數據顯示，GPT-5.2的心理健康評估各項指標均優于GPT-5.1.

然而，這種安全性的提升往往伴隨著模型越來越“謹小慎微”。如何在不產生幻覺的前提下，保持對話的“人情味”和創造力，依然是GPT-5.2面臨的巨大挑戰。

特別是面對Meta等競爭對手的激進策略，OpenAI這種“既要安全又要能力”的封閉路線，正顯得越來越沉重。

（圖片由AI生成）

3. 奧特曼的焦慮：200億美元的營收重擔

拋開技術參數，GPT-5.2的發布更是一場商業突圍。

據內部透露，OpenAI的目標是在2025年底達到200億美元的年收入。 為了支撐這個宏大的數字，以及未來幾年高達1.4萬億美元的算力支出，OpenAI必須變得更加“現實”。

這就是為什么我們看到OpenAI在：

（圖片由AI生成）

· 全面擁抱企業級市場： 無論是Excel、PPT生成的優化，還是針對投行分析師的建模能力提升，GPT-5.2都在拼命向企業用戶示好。因為只有B端客戶，付得起高昂的訂閱費。

· 廣告模式陰云襲來： 盡管早期員工以“不作惡、不賣廣告”為榮，但面對巨大的現金流壓力，OpenAI已經開始探索在ChatGPT中引入搜索廣告和電商導流。

· C端的增長瓶頸： 谷歌月活用戶數量已達6.5億，逼近ChatGPT的8億周活。為了保住C端入口，OpenAI正計劃推出自帶AI能力的瀏覽器，直接挑戰Chrome的地位。

4. 結語：霸主的最后挽歌還是新時代的序章？

GPT-5.2無疑是一款強大的模型。它在編程、邏輯推理和長文本處理上，再次確立了行業標桿（State of the Art）。對于專業人士來說，它絕對是目前最得力的數字助手。

但那個“OpenAI發布即顛覆”的時代，似乎已經結束了。

今天的GPT-5.2，更像是一個成熟科技巨頭的穩健迭代，而非喬布斯式的神來之筆。它更強、更準、更貴，但也和谷歌、微軟的產品更為趨同。

“紅色警報”或許能解決短期的戰術危機，但解決不了戰略同質化的難題。當所有的頂級實驗室都能造出差不多的模型時，OpenAI真正的挑戰才剛剛開始：它必須證明，除了更聰明的聊天機器人，它還能給人們帶來什么不可替代的價值。

對于用戶而言，現在的建議似乎很簡單：如果你是重度依賴代碼、數據分析的Pro用戶，那就立即升級GPT-5.2 Thinking，它值得每一分錢；但如果你只是用AI來寫寫郵件、聊聊天，那么現在的GPT-4.1甚至免費版，或許已經足夠好了。

相關推薦

熱點推薦

GPT-5編程成績有貓膩！自刪23道測試題，關鍵基準還是自己提的

量子位 2025-08-12 13:12:51
15 跟貼 15
對話陳志杰：AI編程搶不了程序員的飯碗，我們是給廚子做飯的人

DeepTech深科技 2025-11-24 19:34:58
0 跟貼 0

26歲鄭州小伙倫敦鬧市開店賣胡辣湯：一碗售價130元

極目新聞 2025-12-19 21:19:26
6014 跟貼 6014

王力宏伴舞火出圈，馬斯克狂贊宇樹機器人現場“韋伯斯特空翻”！

春露秋霜 2025-12-22 00:44:12
0 跟貼 0
中央安全生產考核巡查組在江蘇明查暗訪：客船未執行限航規定動火作業未按要求審批

環球網資訊 2025-12-22 12:00:15
282 跟貼 282

16歲"烤雞少年"承認用"肉寶王" 曾因日銷百只烤雞爆紅

新京報 2025-12-22 14:40:17
6270 跟貼 6270

a16z年度重磅報告：OpenAI艱難守擂，谷歌火力全開，用戶只選一個

華爾街見聞官方 2025-12-21 19:36:02
9 跟貼 9
成本0.3美元，耗時26分鐘！CudaForge：顛覆性低成本CUDA優化框架

機器之心Pro 2025-11-17 18:45:03
0 跟貼 0

日本H3火箭在飛行途中第二級發動機燃燒提前停止

新華社 2025-12-22 10:40:28
6100 跟貼 6100
英偉達巧用8B模型秒掉GPT-5 開源了

量子位 2025-12-06 14:07:18
21 跟貼 21
這家好萊塢公司提供了全新的影視工業AI解決方案

鈦媒體APP 2025-11-11 17:25:10
0 跟貼 0
全島封關，去海南旅游購物有啥利好？

新華社 2025-12-18 06:33:05
5876 跟貼 5876
徠卡相機宣布與Capture One達成戰略合作伙伴關系同時推出面向徠卡用戶的全新試用計劃

相機Beta 2025-12-20 08:06:49
0 跟貼 0
MiniMax稀宇科技薛子釗：AI大模型不是"砸錢游戲"，國內大模型被嚴重低估｜Alpha峰會

華爾街見聞官方 2025-12-22 15:55:13
12 跟貼 12
陳天橋旗下盛大AI東京研究院正式亮相，揭曉數字人和世界模型成果

機器之心Pro 2025-12-22 14:18:12
0 跟貼 0
智能體基礎設施是AI時代操作系統，真正的智能體要能思考、能分析，能行動

量子位 2025-12-11 03:38:22
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執行各種任務

量子位 2025-07-18 18:08:35
0 跟貼 0
冬至前夜探訪成都“羊肉湯一條街”：生意不如往年火爆有商家表示“不漲價”

封面新聞 2025-12-21 10:33:14
1270 跟貼 1270
貴州一小區自來水變藍8個月，拆卸的管道內發現油漆狀物質，20多人檢出身體異常，官方回應

封面新聞 2025-12-22 22:57:07
1246 跟貼 1246
智能體如何學會想象？深度解析世界模型嵌入具身系統三大技術范式

機器之心Pro 2025-12-22 14:38:01
1 跟貼 1
AI開始「內卷」？騰訊混元和上交聯合揭秘多智能體「饑餓游戲」

機器之心Pro 2025-12-22 14:31:44
0 跟貼 0
云南這一醫院，明起試運行！

云南網絡廣播電視臺 2025-12-22 08:09:13
330 跟貼 330
潞晨尤洋：日常辦公沒必要上私有模型，這三類企業才需要

量子位 2025-12-22 09:45:44
0 跟貼 0
AI生成哈爾濱網紅雪人穿雨衣照片引熱議

地球記 2025-12-22 04:18:53
0 跟貼 0
新一股中等強度冷空氣將影響廣東！全省平均氣溫下降4-7℃

南方都市報 2025-12-22 18:08:06
108 跟貼 108
復興鎮大集：寒冬鄉村集興旺煙火升騰話豐年

金臺資訊 2025-12-22 15:56:31
0 跟貼 0
柬內政部稱一名中國公民在柬泰沖突中受傷

北京日報 2025-12-22 17:49:52
3001 跟貼 3001
AI研發本質是一場與生物進化同構的試錯游戲

量子位 2025-12-12 04:34:17
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
0 跟貼 0
7490億美元！馬斯克又把財富天花板捅破了

澎湃新聞 2025-12-22 07:54:28
1969 跟貼 1969
AI的下一代底座？華為超節點架構創新，從巨頭到中小企業都能用

量子位 2025-09-24 18:14:46
1 跟貼 1
王治郅入選2026國際籃聯名人堂

央視新聞客戶端 2025-12-22 07:39:40
1814 跟貼 1814
SGLang原生支持昇騰，新模型一鍵拉起無需改代碼

量子位 2025-12-21 22:22:13
0 跟貼 0
明宣宗朱瞻基陵墓，下周一開放

上觀新聞 2025-12-20 16:31:19
1423 跟貼 1423
1個多億的上海豪宅外地企業主“參觀一次就拍板了”

每日經濟新聞 2025-12-23 01:41:42
1 跟貼 1
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
機器狗被鋸腿也能繼續走，Skild Brain估值45億美元

量子位 2025-09-27 17:49:32
0 跟貼 0
歐文大戰機器人，下手太突然！機器人瞬間應聲倒地沒了動靜

籃球過人技巧 2025-12-19 09:06:13
1 跟貼 1
微軟助力B社改造Creation引擎，為《上古卷軸6》和《輻射5》鋪路

IT之家 2025-12-22 11:18:22
8 跟貼 8
五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0

網易新聞

iOS

Android

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

教育

時尚

游戲

軍事航空

手機 / 數碼

房產 / 家居

凌晨突發！GPT-5.2上線，首批實測后感嘆：確實是第一，但不再是唯一的王

商湯聯創親自下場 痛批主流機器人技術大錯

高市早苗政府創下一項27年來最差紀錄

高市早苗政府創下一項27年來最差紀錄

戴琳，中國足球的反向代言人

張柏芝不再隱瞞，三胎生父早有答案？

央行信用新政：為失信者提供"糾錯"通道

可享88元抵2000元等多重權益 昊鉑A800開啟盲訂

態度原創

15 分鐘直達！杭州藏著一片 “水上紅杉林”，冬日治愈感拉滿

高二英語成績120分左右，看英文原版小說是大坑，和提分南轅北轍

珍珠配美人，最老派也最高級的時髦

德瑪西亞杯：Viper完美首秀，BLG零封LNG

俄軍中將在汽車炸彈爆炸中身亡 現場畫面披露

商湯聯創親自下場痛批主流機器人技術大錯

可享88元抵2000元等多重權益昊鉑A800開啟盲訂

俄軍中將在汽車炸彈爆炸中身亡現場畫面披露