網(wǎng)易首頁 > 網(wǎng)易科技 > IT業(yè)界 > 正文

凌晨突發(fā)！GPT-5.2上線，首批實測后感嘆：確實是第一，但不再是唯一的王

2025-12-12 07:54:55　來源: 網(wǎng)易科技報道

北京舉報

分享至

作者 | 辰辰

出品 | 網(wǎng)易科技

它終于來了！

沒有官方預(yù)熱，沒有發(fā)布會，今日凌晨，GPT-5.2系列模型低調(diào)上線。僅有一篇技術(shù)博客，和CEO奧特曼（Sam Altman）在社交媒體上的一句簡短宣告。

然而，在這份刻意的“低調(diào)”背后，卻彌漫著從未有過的硝煙味。就在上個月谷歌Gemini 3驚艷亮相后，奧特曼在內(nèi)部拉響了最高級別的“紅色警報”。

因此，GPT-5.2絕不僅僅是一次常規(guī)迭代。在“護城河”幾近消失的當(dāng)下，這是OpenAI為捍衛(wèi)“地表最強AI”尊嚴的背水一戰(zhàn)。

剝開GPT-5.2華麗的參數(shù)外衣，它到底強在哪里？又掩蓋了這家巨頭怎樣的焦慮？

1. 硬核評測：GPT-5.2到底進化了什么？

OpenAI表示，將于今日開始逐步推出GPT-5.2，首先是面向付費計劃用戶（Plus、Pro、Go、Business、Enterprise），隨后再擴大開放范圍，盡可能保持ChatGPT的平穩(wěn)可靠。ChatGPT中的GPT-5.1仍將對付費用戶開放三個月，之后就將停止使用。

這次OpenAI的產(chǎn)品策略非常清晰，GPT-5.2被拆分為三個梯隊：Instant（極速版）、Thinking（思考版）和Pro（專業(yè)版）。

（圖片由AI生成）

這種細分本身就暗示了一個趨勢：OpenAI正在針對不同使用場景優(yōu)化模型矩陣。

——“思考”能力的質(zhì)變：智能體工作流的福音

如果你是開發(fā)者或重度企業(yè)用戶，那么GPT-5.2 Thinking是你眼中絕對的主角。

OpenAI拋出了一個全新的評估基準——GDPval。這個基準涵蓋44種職業(yè)的知識工作任務(wù)。結(jié)果顯示，GPT-5.2 Thinking在70.9%的任務(wù)比拼中，擊敗或打平了人類頂尖專家。

一位GDPval評審員評論道：“這是輸出質(zhì)量上令人興奮且明顯的飛躍……兩個交付成果的布局設(shè)計和建議都出奇地好。盡管其中一個仍需要修正一些小錯誤，但看起來像是由專業(yè)公司完成的。”

在以初級投資銀行分析師的角色建模電子表格時，GPT-5.2 Thinking的平均得分比GPT 5.1高出9.3%，從59.1% 提高到68.4%。而且電子表格和PPT的精細度以及格式上都有所提升。

更可怕的數(shù)據(jù)在于效率：它的產(chǎn)出速度是人類專家的11倍以上，而成本不到人類的1%。

（圖片由AI生成）

在具體的應(yīng)用場景中，GPT-5.2 Thinking有質(zhì)的飛躍：

· 長文檔分析（MRCRv2）： 在處理長達256k token（約數(shù)十萬字）的文檔時，它是目前唯一一個在“大海撈針”測試中接近100%準確率的模型。這意味著，甩來幾百份合同或財報，它真的能讀懂并綜合分析，不再是“讀了后面忘前面”。

· 編程能力（SWE-bench Pro）： 達到了55.6%的新高。它不再只是寫幾個Python函數(shù)，而是能處理多語言、多步驟的復(fù)雜工程問題。從模型生成的前端界面來看，可謂是達到了“以假亂真”的效果。

（海浪效果）

這意味著模型能夠更可靠地調(diào)試生產(chǎn)代碼、實現(xiàn)功能請求、重構(gòu)大型代碼庫，并以更少的人工干預(yù)端到端地交付修復(fù)。

AI編程公司W(wǎng)indsurf的CEO甚至評價其為“智能體編程（Agentic Coding）的最大飛躍”。

——視覺與工具調(diào)用的進化

在視覺識別上，GPT-5.2 Thinking特別優(yōu)化了對圖表、儀表盤和UI界面的理解能力。在主板組件識別的測試中，雖然仍有瑕疵，但它已經(jīng)能準確理解組件的空間布局，而不再是像GPT-5.1那樣“胡言亂語”。

這意味著模型能夠更準確解讀儀表板、產(chǎn)品截圖、技術(shù)圖表和可視化報告。

此外，GPT-5.2 Thinking的工具調(diào)用能力也很強。這意味著更強大的端到端工作流——例如解決客戶支持案例、從多個系統(tǒng)提取數(shù)據(jù)、運行分析以及生成最終輸出，步驟間的故障中斷更少。

在模擬航空改簽這種多步驟任務(wù)時，它就展現(xiàn)出驚人的“多智能體協(xié)調(diào)”能力。內(nèi)部測試中一位旅客告知航班延誤、錯過轉(zhuǎn)機、需要在紐約過夜，并且因醫(yī)療原因需要特殊的首排座位。

結(jié)果是GPT-5.2 Thinking訂票、安排住宿、申請醫(yī)療特殊座位和補償，一氣呵成。

2. 深度挖掘：光鮮背后的“隱形短板”

但我們不能只看官方亮出的肌肉。在GPT-5.2耀眼的參數(shù)之下，也有一些值得警惕的短板和行業(yè)焦慮。

——昂貴代價與延遲的痛點

OpenAI在博客中誠實地寫道：“復(fù)雜的生成可能需要數(shù)分鐘才能完成。”

在追求實時交互的今天，數(shù)分鐘的等待是巨大的體驗倒退。這說明GPT-5.2 Thinking不僅是在“思考”，更是在進行極其消耗算力的“慢思考”。

（圖片由AI生成）

當(dāng)然，OpenAI也用GPT-5.2 Instant兼顧到了用戶體驗。這款快速、強大的日常工作與學(xué)習(xí)主力模型，在信息查詢類問題、操作指南與教程、技術(shù)寫作和翻譯方面均有明顯改進，同時延續(xù)了GPT5.1 Instant引入的溫暖對話語調(diào)。早期測試者特別提到，GPT-5.2 Instant的解釋更清晰，能預(yù)先突出關(guān)鍵信息。

與此同時，API的價格也水漲船高：GPT-5.2系列模型的價格依然昂貴，達到每百萬輸入Token為1.75美元，每百萬輸出Token為14美元。GPT-5.2 Pro更是高達每百萬輸入Token 21美元，每百萬輸出Token 168美元。

雖然OpenAI強調(diào)，每token性價比提升，但單次任務(wù)總價不菲。

（圖片由AI生成）

不少用戶也提到GPT-5.2的成本要高于Claude 4.5。AI博主@Mlearning_ai更是指出，高階版的GPT-5.2每100萬Token價格是高階版Claude 4.5 Opus的1.5倍。

這對于預(yù)算有限的初創(chuàng)公司來說，并不是一個好消息。

——技術(shù)“護城河”的消失

這是最讓奧特曼頭疼的問題，也是發(fā)布“紅色警報”的根本原因。

雖然OpenAI宣稱GPT-5.2是“最強”，奧特曼也表示各項基準測試指標(biāo)的表現(xiàn)都很出色：SWE-Bench Pro得分55.6%，ARC-AGI-1得分突破90%， ARC-AGI-2得分52.9%，F(xiàn)rontier Math得分40.3%。

但行業(yè)現(xiàn)狀是：差距已經(jīng)微乎其微。

· Google Gemini 3在上個月剛剛宣稱自己是世界第一。

· Anthropic Claude Opus 4.5緊隨其后，在很多細分領(lǐng)域與OpenAI平分秋色。

· Runway在視頻生成領(lǐng)域甚至反超了Sora。

用戶@skizoexe對GPT-5.2開展一番中等復(fù)雜度的推理測試后認為，新模型的推理和數(shù)學(xué)能力有明顯提升；但在編程能力上仍無法縮小與Gemini 3的差距：前端較弱，后端較強。

德國AI博主@zeldogiq則在X上發(fā)帖表示，GPT-5.2的基準測試成績驚人。但他認為，當(dāng)所有模型都能取得高分時，更好的基準測試已不再是唯一評判標(biāo)準。真正的價值在于工作流的整合、智能體表現(xiàn)，以及一切基準測試無法量化的實際應(yīng)用能力。

曾經(jīng)，OpenAI領(lǐng)先對手一年甚至兩年；現(xiàn)在，這個領(lǐng)先優(yōu)勢被壓縮到了幾周甚至幾天。紐約時報的分析指出，基礎(chǔ)模型的構(gòu)建方法論已經(jīng)成為行業(yè)共識，OpenAI不再擁有獨門秘籍。

（圖片由AI生成）

AI工程師丹·麥克（Dan Mac）就直言：“GPT-5.2的發(fā)布對OpenAI而言關(guān)乎存亡。它必須實現(xiàn)對Gemini 3 Pro和Opus 4.5的明顯超越，否則OpenAI這次可能真的會被徹底淘汰。”

——“溫度”與“準確度”的博弈

此前GPT-5發(fā)布時，曾因回答過于冷漠、機械而引發(fā)用戶“起義”。OpenAI隨后不得不緊急進行調(diào)整。

在GPT-5.2中，OpenAI聲稱減少了30%的幻覺，并加強了對心理健康等敏感話題的安全干預(yù)。

內(nèi)部數(shù)據(jù)顯示，GPT-5.2的心理健康評估各項指標(biāo)均優(yōu)于GPT-5.1.

然而，這種安全性的提升往往伴隨著模型越來越“謹小慎微”。如何在不產(chǎn)生幻覺的前提下，保持對話的“人情味”和創(chuàng)造力，依然是GPT-5.2面臨的巨大挑戰(zhàn)。

特別是面對Meta等競爭對手的激進策略，OpenAI這種“既要安全又要能力”的封閉路線，正顯得越來越沉重。

（圖片由AI生成）

3. 奧特曼的焦慮：200億美元的營收重擔(dān)

拋開技術(shù)參數(shù)，GPT-5.2的發(fā)布更是一場商業(yè)突圍。

據(jù)內(nèi)部透露，OpenAI的目標(biāo)是在2025年底達到200億美元的年收入。 為了支撐這個宏大的數(shù)字，以及未來幾年高達1.4萬億美元的算力支出，OpenAI必須變得更加“現(xiàn)實”。

這就是為什么我們看到OpenAI在：

（圖片由AI生成）

· 全面擁抱企業(yè)級市場： 無論是Excel、PPT生成的優(yōu)化，還是針對投行分析師的建模能力提升，GPT-5.2都在拼命向企業(yè)用戶示好。因為只有B端客戶，付得起高昂的訂閱費。

· 廣告模式陰云襲來： 盡管早期員工以“不作惡、不賣廣告”為榮，但面對巨大的現(xiàn)金流壓力，OpenAI已經(jīng)開始探索在ChatGPT中引入搜索廣告和電商導(dǎo)流。

· C端的增長瓶頸： 谷歌月活用戶數(shù)量已達6.5億，逼近ChatGPT的8億周活。為了保住C端入口，OpenAI正計劃推出自帶AI能力的瀏覽器，直接挑戰(zhàn)Chrome的地位。

4. 結(jié)語：霸主的最后挽歌還是新時代的序章？

GPT-5.2無疑是一款強大的模型。它在編程、邏輯推理和長文本處理上，再次確立了行業(yè)標(biāo)桿（State of the Art）。對于專業(yè)人士來說，它絕對是目前最得力的數(shù)字助手。

但那個“OpenAI發(fā)布即顛覆”的時代，似乎已經(jīng)結(jié)束了。

今天的GPT-5.2，更像是一個成熟科技巨頭的穩(wěn)健迭代，而非喬布斯式的神來之筆。它更強、更準、更貴，但也和谷歌、微軟的產(chǎn)品更為趨同。

“紅色警報”或許能解決短期的戰(zhàn)術(shù)危機，但解決不了戰(zhàn)略同質(zhì)化的難題。當(dāng)所有的頂級實驗室都能造出差不多的模型時，OpenAI真正的挑戰(zhàn)才剛剛開始：它必須證明，除了更聰明的聊天機器人，它還能給人們帶來什么不可替代的價值。

對于用戶而言，現(xiàn)在的建議似乎很簡單：如果你是重度依賴代碼、數(shù)據(jù)分析的Pro用戶，那就立即升級GPT-5.2 Thinking，它值得每一分錢；但如果你只是用AI來寫寫郵件、聊聊天，那么現(xiàn)在的GPT-4.1甚至免費版，或許已經(jīng)足夠好了。

本文來源：網(wǎng)易科技報道責(zé)任編輯：王鳳枝_NT2541

相關(guān)推薦

熱點推薦

GPT-5.2來了！OpenAI稱其為智能體編碼最強，趕超人類專家！Altman料明年1月解除“紅色警報”狀態(tài)

每日經(jīng)濟新聞 2025-12-12 07:50:04
0 跟貼 0
暗漏兩個月用水2203噸水費超1.5萬元用戶：太冤了！|云求助

封面新聞 2025-12-11 21:53:29
6826 跟貼 6826

GPT-5.2發(fā)布即降智？背后華人被挖出，清北校友核心貢獻

新智元 2025-12-12 13:03:48
0 跟貼 0

剛剛，OpenAI迎10周年，發(fā)GPT-5.2，重點是和白領(lǐng)搶工作

智東西 2025-12-12 09:37:14
3 跟貼 3
GPT-5.2果然反超谷歌Gemini 3 Pro！北大數(shù)院校友核心貢獻

量子位 2025-12-12 12:49:03
0 跟貼 0

提醒暫勿赴日是外交為民的應(yīng)有之義

北京青年報 2025-12-11 16:02:01
2528 跟貼 2528

永輝客服回應(yīng)上架聽媽媽話竹鞭

現(xiàn)代快報 2025-12-11 16:58:06
1624 跟貼 1624
河南今日6市中到大雪，局部暴雪！鄭州11點或現(xiàn)鵝毛大雪

大象新聞 2025-12-12 06:53:01
3 跟貼 3

五角大樓：中國都發(fā)展成這樣了咱不得枕戈待旦啊

澎湃新聞 2025-12-11 20:55:50
1915 跟貼 1915
谷歌發(fā)布智能體Scaling Law：180組實驗打破傳統(tǒng)煉金術(shù)

機器之心Pro 2025-12-12 10:18:00
0 跟貼 0
銷量突然飆漲！線上店開始斷貨，醫(yī)務(wù)人員：沒必要囤！

荔枝新聞 2025-12-11 16:21:14
1215 跟貼 1215
日媒稱遼寧艦最近距日本僅400公里

北京日報 2025-12-11 22:28:11
3983 跟貼 3983
對話陳志杰：AI編程搶不了程序員的飯碗，我們是給廚子做飯的人

DeepTech深科技 2025-11-24 19:34:58
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
0 跟貼 0
廣州一商戶窗邊懸掛火焰LED屏，引來5輛消防車“救援”，街道辦回應(yīng)：系商戶自行設(shè)置的屏幕引發(fā)誤會，已責(zé)令業(yè)主關(guān)閉

極目新聞 2025-12-12 09:49:26
424 跟貼 424
新一線名單公布！成都穩(wěn)居第一，佛山回歸，無錫出局！

愛看頭條 2025-12-11 19:03:07
261 跟貼 261
泰軍再炸柬埔寨賭場園區(qū) 裝甲車徑直碾過牌樓

海外網(wǎng) 2025-12-11 21:20:06
2885 跟貼 2885
大壯名城驚現(xiàn)“骨折價” 引發(fā)同板塊價格“連環(huán)炸”

新快報新聞 2025-12-12 09:15:07
37 跟貼 37
一根手機取卡針被炒至300元？二手商家稱是“鉑金材質(zhì)”，有人信有人買，官方售后回應(yīng)

揚子晚報 2025-12-10 10:30:24
2427 跟貼 2427
朱嘯虎投了一家低門檻版“扣子”，創(chuàng)始人字節(jié)出身

智東西 2025-12-10 18:55:15
1 跟貼 1
上海松江一農(nóng)地有人扎堆“挖銀元” 文保部門：已介入處理，將請專家挖掘鑒定

紅星新聞 2025-12-11 14:00:56
425 跟貼 425
日本東證股價指數(shù)漲幅擴大，最新上漲1.5%

每日經(jīng)濟新聞 2025-12-12 08:22:06
424 跟貼 424
DeepMind CEO戴米斯：中國AI沒有突破性創(chuàng)新

知了3C 2025-12-11 22:41:33
0 跟貼 0
智能體基礎(chǔ)設(shè)施是AI時代操作系統(tǒng)，真正的智能體要能思考、能分析，能行動

量子位 2025-12-11 03:38:22
0 跟貼 0
商務(wù)部：推動安世荷蘭盡快派員來華

澎湃新聞 2025-12-11 15:38:26
290 跟貼 290
荒野求生（機器狗全自主版），2025ATEC挑戰(zhàn)真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
AI研發(fā)本質(zhì)是一場與生物進化同構(gòu)的試錯游戲

量子位 2025-12-12 04:34:17
0 跟貼 0
機器狗被鋸?fù)纫材芾^續(xù)走，Skild Brain估值45億美元

量子位 2025-09-27 17:49:32
0 跟貼 0
ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執(zhí)行各種任務(wù)

量子位 2025-07-18 18:08:35
0 跟貼 0
車主稱吉利銀河剛提車就已充電35次！銷售方：系偶發(fā)事件

南方都市報 2025-12-11 16:47:10
1050 跟貼 1050
開源AI編程工具CoStrict，GitHub星標(biāo)3K+

量子位 2025-12-09 01:52:08
0 跟貼 0
未來醫(yī)生摘得全球第一，臨床安全有效性評估新基準

量子位 2025-11-19 11:14:03
0 跟貼 0
成功首飛！“巨無霸”無人機“九天”有哪些硬核本領(lǐng)？

大象新聞 2025-12-12 08:29:20
361 跟貼 361
李笑來的智慧：一切學(xué)習(xí)的本質(zhì)，其實都是自學(xué)

阿胖讀書 2025-12-09 23:59:14
10 跟貼 10
高通萬衛(wèi)星：混合AI與分布式協(xié)同是未來 | MEET2026

量子位 2025-12-11 19:54:27
0 跟貼 0
大模型也會賭博上癮！理智出走！

量子位 2025-11-03 07:06:08
0 跟貼 0
谷歌最新版「深度研究」反擊GPT5.2

新智元 2025-12-12 10:15:41
0 跟貼 0
誰在賦能這場數(shù)字樂章？主板背后的算力底座與生態(tài)力量

量子位 2025-11-29 16:58:47
0 跟貼 0
三星三折疊手機已開啟預(yù)訂，售價19999元起，首批秒罄

齊魯壹點 2025-12-10 10:35:30
961 跟貼 961
"禁止手寫代碼",AI編程正式從工業(yè)界卷入高等教育體系

網(wǎng)易科技態(tài)度見聞 2025-12-09 18:00:51
0 跟貼 0

錄音曝光！美國一飛行員高空欲關(guān)閉客機發(fā)動機，機艙混亂傳來搏斗聲，機上載有84人

網(wǎng)易新聞

iOS

Android

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

教育

親子

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
明末究竟有多難，無法阻止的歷史進程
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

凌晨突發(fā)！GPT-5.2上線，首批實測后感嘆：確實是第一，但不再是唯一的王

凌晨突發(fā)！GPT-5.2上線，首批實測感受來了

曾因監(jiān)獄疫情防控不力被免職 解維俊5年多后又被查

曾因監(jiān)獄疫情防控不力被免職 解維俊5年多后又被查

15輪2分，他們怎么成了英超最爛球隊？

濮存昕外孫女演短劇遭吐槽

美國要組建C5，全世界大吃一驚

插混四驅(qū)法拉利？849 Testarossa國內(nèi)發(fā)布516.8萬起

態(tài)度原創(chuàng)

紅櫸燃冬韻 梧桐鋪街景 山城換上限定“彩妝”

長在泥土里的童話故事

澤連斯基：烏領(lǐng)土問題應(yīng)由烏人民決定

曾因監(jiān)獄疫情防控不力被免職解維俊5年多后又被查

曾因監(jiān)獄疫情防控不力被免職解維俊5年多后又被查

紅櫸燃冬韻梧桐鋪街景山城換上限定“彩妝”