網(wǎng)易首頁(yè) > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

凌晨突發(fā)！GPT-5.2上線，首批實(shí)測(cè)后感嘆：確實(shí)是第一，但不再是唯一的王

2025-12-12 07:54:55　來(lái)源: 網(wǎng)易科技報(bào)道

北京舉報(bào)

分享至

作者 | 辰辰

出品 | 網(wǎng)易科技

它終于來(lái)了！

沒(méi)有官方預(yù)熱，沒(méi)有發(fā)布會(huì)，今日凌晨，GPT-5.2系列模型低調(diào)上線。僅有一篇技術(shù)博客，和CEO奧特曼（Sam Altman）在社交媒體上的一句簡(jiǎn)短宣告。

然而，在這份刻意的“低調(diào)”背后，卻彌漫著從未有過(guò)的硝煙味。就在上個(gè)月谷歌Gemini 3驚艷亮相后，奧特曼在內(nèi)部拉響了最高級(jí)別的“紅色警報(bào)”。

因此，GPT-5.2絕不僅僅是一次常規(guī)迭代。在“護(hù)城河”幾近消失的當(dāng)下，這是OpenAI為捍衛(wèi)“地表最強(qiáng)AI”尊嚴(yán)的背水一戰(zhàn)。

剝開(kāi)GPT-5.2華麗的參數(shù)外衣，它到底強(qiáng)在哪里？又掩蓋了這家巨頭怎樣的焦慮？

1. 硬核評(píng)測(cè)：GPT-5.2到底進(jìn)化了什么？

OpenAI表示，將于今日開(kāi)始逐步推出GPT-5.2，首先是面向付費(fèi)計(jì)劃用戶（Plus、Pro、Go、Business、Enterprise），隨后再擴(kuò)大開(kāi)放范圍，盡可能保持ChatGPT的平穩(wěn)可靠。ChatGPT中的GPT-5.1仍將對(duì)付費(fèi)用戶開(kāi)放三個(gè)月，之后就將停止使用。

這次OpenAI的產(chǎn)品策略非常清晰，GPT-5.2被拆分為三個(gè)梯隊(duì)：Instant（極速版）、Thinking（思考版）和Pro（專業(yè)版）。

（圖片由AI生成）

這種細(xì)分本身就暗示了一個(gè)趨勢(shì)：OpenAI正在針對(duì)不同使用場(chǎng)景優(yōu)化模型矩陣。

——“思考”能力的質(zhì)變：智能體工作流的福音

如果你是開(kāi)發(fā)者或重度企業(yè)用戶，那么GPT-5.2 Thinking是你眼中絕對(duì)的主角。

OpenAI拋出了一個(gè)全新的評(píng)估基準(zhǔn)——GDPval。這個(gè)基準(zhǔn)涵蓋44種職業(yè)的知識(shí)工作任務(wù)。結(jié)果顯示，GPT-5.2 Thinking在70.9%的任務(wù)比拼中，擊敗或打平了人類頂尖專家。

一位GDPval評(píng)審員評(píng)論道：“這是輸出質(zhì)量上令人興奮且明顯的飛躍……兩個(gè)交付成果的布局設(shè)計(jì)和建議都出奇地好。盡管其中一個(gè)仍需要修正一些小錯(cuò)誤，但看起來(lái)像是由專業(yè)公司完成的。”

在以初級(jí)投資銀行分析師的角色建模電子表格時(shí)，GPT-5.2 Thinking的平均得分比GPT 5.1高出9.3%，從59.1% 提高到68.4%。而且電子表格和PPT的精細(xì)度以及格式上都有所提升。

更可怕的數(shù)據(jù)在于效率：它的產(chǎn)出速度是人類專家的11倍以上，而成本不到人類的1%。

（圖片由AI生成）

在具體的應(yīng)用場(chǎng)景中，GPT-5.2 Thinking有質(zhì)的飛躍：

· 長(zhǎng)文檔分析（MRCRv2）： 在處理長(zhǎng)達(dá)256k token（約數(shù)十萬(wàn)字）的文檔時(shí)，它是目前唯一一個(gè)在“大海撈針”測(cè)試中接近100%準(zhǔn)確率的模型。這意味著，甩來(lái)幾百份合同或財(cái)報(bào)，它真的能讀懂并綜合分析，不再是“讀了后面忘前面”。

· 編程能力（SWE-bench Pro）： 達(dá)到了55.6%的新高。它不再只是寫幾個(gè)Python函數(shù)，而是能處理多語(yǔ)言、多步驟的復(fù)雜工程問(wèn)題。從模型生成的前端界面來(lái)看，可謂是達(dá)到了“以假亂真”的效果。

這意味著模型能夠更可靠地調(diào)試生產(chǎn)代碼、實(shí)現(xiàn)功能請(qǐng)求、重構(gòu)大型代碼庫(kù)，并以更少的人工干預(yù)端到端地交付修復(fù)。

AI編程公司W(wǎng)indsurf的CEO甚至評(píng)價(jià)其為“智能體編程（Agentic Coding）的最大飛躍”。

——視覺(jué)與工具調(diào)用的進(jìn)化

在視覺(jué)識(shí)別上，GPT-5.2 Thinking特別優(yōu)化了對(duì)圖表、儀表盤和UI界面的理解能力。在主板組件識(shí)別的測(cè)試中，雖然仍有瑕疵，但它已經(jīng)能準(zhǔn)確理解組件的空間布局，而不再是像GPT-5.1那樣“胡言亂語(yǔ)”。

這意味著模型能夠更準(zhǔn)確解讀儀表板、產(chǎn)品截圖、技術(shù)圖表和可視化報(bào)告。

此外，GPT-5.2 Thinking的工具調(diào)用能力也很強(qiáng)。這意味著更強(qiáng)大的端到端工作流——例如解決客戶支持案例、從多個(gè)系統(tǒng)提取數(shù)據(jù)、運(yùn)行分析以及生成最終輸出，步驟間的故障中斷更少。

在模擬航空改簽這種多步驟任務(wù)時(shí)，它就展現(xiàn)出驚人的“多智能體協(xié)調(diào)”能力。內(nèi)部測(cè)試中一位旅客告知航班延誤、錯(cuò)過(guò)轉(zhuǎn)機(jī)、需要在紐約過(guò)夜，并且因醫(yī)療原因需要特殊的首排座位。

結(jié)果是GPT-5.2 Thinking訂票、安排住宿、申請(qǐng)醫(yī)療特殊座位和補(bǔ)償，一氣呵成。

2. 深度挖掘：光鮮背后的“隱形短板”

但我們不能只看官方亮出的肌肉。在GPT-5.2耀眼的參數(shù)之下，也有一些值得警惕的短板和行業(yè)焦慮。

——昂貴代價(jià)與延遲的痛點(diǎn)

OpenAI在博客中誠(chéng)實(shí)地寫道：“復(fù)雜的生成可能需要數(shù)分鐘才能完成。”

在追求實(shí)時(shí)交互的今天，數(shù)分鐘的等待是巨大的體驗(yàn)倒退。這說(shuō)明GPT-5.2 Thinking不僅是在“思考”，更是在進(jìn)行極其消耗算力的“慢思考”。

（圖片由AI生成）

當(dāng)然，OpenAI也用GPT-5.2 Instant兼顧到了用戶體驗(yàn)。這款快速、強(qiáng)大的日常工作與學(xué)習(xí)主力模型，在信息查詢類問(wèn)題、操作指南與教程、技術(shù)寫作和翻譯方面均有明顯改進(jìn)，同時(shí)延續(xù)了GPT5.1 Instant引入的溫暖對(duì)話語(yǔ)調(diào)。早期測(cè)試者特別提到，GPT-5.2 Instant的解釋更清晰，能預(yù)先突出關(guān)鍵信息。

與此同時(shí)，API的價(jià)格也水漲船高：GPT-5.2系列模型的價(jià)格依然昂貴，達(dá)到每百萬(wàn)輸入Token為1.75美元，每百萬(wàn)輸出Token為14美元。GPT-5.2 Pro更是高達(dá)每百萬(wàn)輸入Token 21美元，每百萬(wàn)輸出Token 168美元。

雖然OpenAI強(qiáng)調(diào)，每token性價(jià)比提升，但單次任務(wù)總價(jià)不菲。

（圖片由AI生成）

不少用戶也提到GPT-5.2的成本要高于Claude 4.5。AI博主@Mlearning_ai更是指出，高階版的GPT-5.2每100萬(wàn)Token價(jià)格是高階版Claude 4.5 Opus的1.5倍。

這對(duì)于預(yù)算有限的初創(chuàng)公司來(lái)說(shuō)，并不是一個(gè)好消息。

——技術(shù)“護(hù)城河”的消失

這是最讓奧特曼頭疼的問(wèn)題，也是發(fā)布“紅色警報(bào)”的根本原因。

雖然OpenAI宣稱GPT-5.2是“最強(qiáng)”，奧特曼也表示各項(xiàng)基準(zhǔn)測(cè)試指標(biāo)的表現(xiàn)都很出色：SWE-Bench Pro得分55.6%，ARC-AGI-1得分突破90%， ARC-AGI-2得分52.9%，F(xiàn)rontier Math得分40.3%。

但行業(yè)現(xiàn)狀是：差距已經(jīng)微乎其微。

· Google Gemini 3在上個(gè)月剛剛宣稱自己是世界第一。

· Anthropic Claude Opus 4.5緊隨其后，在很多細(xì)分領(lǐng)域與OpenAI平分秋色。

· Runway在視頻生成領(lǐng)域甚至反超了Sora。

用戶@skizoexe對(duì)GPT-5.2開(kāi)展一番中等復(fù)雜度的推理測(cè)試后認(rèn)為，新模型的推理和數(shù)學(xué)能力有明顯提升；但在編程能力上仍無(wú)法縮小與Gemini 3的差距：前端較弱，后端較強(qiáng)。

德國(guó)AI博主@zeldogiq則在X上發(fā)帖表示，GPT-5.2的基準(zhǔn)測(cè)試成績(jī)驚人。但他認(rèn)為，當(dāng)所有模型都能取得高分時(shí)，更好的基準(zhǔn)測(cè)試已不再是唯一評(píng)判標(biāo)準(zhǔn)。真正的價(jià)值在于工作流的整合、智能體表現(xiàn)，以及一切基準(zhǔn)測(cè)試無(wú)法量化的實(shí)際應(yīng)用能力。

曾經(jīng)，OpenAI領(lǐng)先對(duì)手一年甚至兩年；現(xiàn)在，這個(gè)領(lǐng)先優(yōu)勢(shì)被壓縮到了幾周甚至幾天。紐約時(shí)報(bào)的分析指出，基礎(chǔ)模型的構(gòu)建方法論已經(jīng)成為行業(yè)共識(shí)，OpenAI不再擁有獨(dú)門秘籍。

（圖片由AI生成）

AI工程師丹·麥克（Dan Mac）就直言：“GPT-5.2的發(fā)布對(duì)OpenAI而言關(guān)乎存亡。它必須實(shí)現(xiàn)對(duì)Gemini 3 Pro和Opus 4.5的明顯超越，否則OpenAI這次可能真的會(huì)被徹底淘汰。”

——“溫度”與“準(zhǔn)確度”的博弈

此前GPT-5發(fā)布時(shí)，曾因回答過(guò)于冷漠、機(jī)械而引發(fā)用戶“起義”。OpenAI隨后不得不緊急進(jìn)行調(diào)整。

在GPT-5.2中，OpenAI聲稱減少了30%的幻覺(jué)，并加強(qiáng)了對(duì)心理健康等敏感話題的安全干預(yù)。

內(nèi)部數(shù)據(jù)顯示，GPT-5.2的心理健康評(píng)估各項(xiàng)指標(biāo)均優(yōu)于GPT-5.1.

然而，這種安全性的提升往往伴隨著模型越來(lái)越“謹(jǐn)小慎微”。如何在不產(chǎn)生幻覺(jué)的前提下，保持對(duì)話的“人情味”和創(chuàng)造力，依然是GPT-5.2面臨的巨大挑戰(zhàn)。

特別是面對(duì)Meta等競(jìng)爭(zhēng)對(duì)手的激進(jìn)策略，OpenAI這種“既要安全又要能力”的封閉路線，正顯得越來(lái)越沉重。

（圖片由AI生成）

3. 奧特曼的焦慮：200億美元的營(yíng)收重?fù)?dān)

拋開(kāi)技術(shù)參數(shù)，GPT-5.2的發(fā)布更是一場(chǎng)商業(yè)突圍。

據(jù)內(nèi)部透露，OpenAI的目標(biāo)是在2025年底達(dá)到200億美元的年收入。 為了支撐這個(gè)宏大的數(shù)字，以及未來(lái)幾年高達(dá)1.4萬(wàn)億美元的算力支出，OpenAI必須變得更加“現(xiàn)實(shí)”。

這就是為什么我們看到OpenAI在：

（圖片由AI生成）

· 全面擁抱企業(yè)級(jí)市場(chǎng)： 無(wú)論是Excel、PPT生成的優(yōu)化，還是針對(duì)投行分析師的建模能力提升，GPT-5.2都在拼命向企業(yè)用戶示好。因?yàn)橹挥蠦端客戶，付得起高昂的訂閱費(fèi)。

· 廣告模式陰云襲來(lái)： 盡管早期員工以“不作惡、不賣廣告”為榮，但面對(duì)巨大的現(xiàn)金流壓力，OpenAI已經(jīng)開(kāi)始探索在ChatGPT中引入搜索廣告和電商導(dǎo)流。

· C端的增長(zhǎng)瓶頸： 谷歌月活用戶數(shù)量已達(dá)6.5億，逼近ChatGPT的8億周活。為了保住C端入口，OpenAI正計(jì)劃推出自帶AI能力的瀏覽器，直接挑戰(zhàn)Chrome的地位。

4. 結(jié)語(yǔ)：霸主的最后挽歌還是新時(shí)代的序章？

GPT-5.2無(wú)疑是一款強(qiáng)大的模型。它在編程、邏輯推理和長(zhǎng)文本處理上，再次確立了行業(yè)標(biāo)桿（State of the Art）。對(duì)于專業(yè)人士來(lái)說(shuō)，它絕對(duì)是目前最得力的數(shù)字助手。

但那個(gè)“OpenAI發(fā)布即顛覆”的時(shí)代，似乎已經(jīng)結(jié)束了。

今天的GPT-5.2，更像是一個(gè)成熟科技巨頭的穩(wěn)健迭代，而非喬布斯式的神來(lái)之筆。它更強(qiáng)、更準(zhǔn)、更貴，但也和谷歌、微軟的產(chǎn)品更為趨同。

“紅色警報(bào)”或許能解決短期的戰(zhàn)術(shù)危機(jī)，但解決不了戰(zhàn)略同質(zhì)化的難題。當(dāng)所有的頂級(jí)實(shí)驗(yàn)室都能造出差不多的模型時(shí)，OpenAI真正的挑戰(zhàn)才剛剛開(kāi)始：它必須證明，除了更聰明的聊天機(jī)器人，它還能給人們帶來(lái)什么不可替代的價(jià)值。

對(duì)于用戶而言，現(xiàn)在的建議似乎很簡(jiǎn)單：如果你是重度依賴代碼、數(shù)據(jù)分析的Pro用戶，那就立即升級(jí)GPT-5.2 Thinking，它值得每一分錢；但如果你只是用AI來(lái)寫寫郵件、聊聊天，那么現(xiàn)在的GPT-4.1甚至免費(fèi)版，或許已經(jīng)足夠好了。