![]()
作者 | 辰辰
出品 | 網(wǎng)易科技
它終于來(lái)了!
沒(méi)有官方預(yù)熱,沒(méi)有發(fā)布會(huì),今日凌晨,GPT-5.2系列模型低調(diào)上線。僅有一篇技術(shù)博客,和CEO奧特曼(Sam Altman)在社交媒體上的一句簡(jiǎn)短宣告。
![]()
然而,在這份刻意的“低調(diào)”背后,卻彌漫著從未有過(guò)的硝煙味。就在上個(gè)月谷歌Gemini 3驚艷亮相后,奧特曼在內(nèi)部拉響了最高級(jí)別的“紅色警報(bào)”。
因此,GPT-5.2絕不僅僅是一次常規(guī)迭代。在“護(hù)城河”幾近消失的當(dāng)下,這是OpenAI為捍衛(wèi)“地表最強(qiáng)AI”尊嚴(yán)的背水一戰(zhàn)。
剝開(kāi)GPT-5.2華麗的參數(shù)外衣,它到底強(qiáng)在哪里?又掩蓋了這家巨頭怎樣的焦慮?
1. 硬核評(píng)測(cè):GPT-5.2到底進(jìn)化了什么?
OpenAI表示,將于今日開(kāi)始逐步推出GPT-5.2,首先是面向付費(fèi)計(jì)劃用戶(Plus、Pro、Go、Business、Enterprise),隨后再擴(kuò)大開(kāi)放范圍,盡可能保持ChatGPT的平穩(wěn)可靠。ChatGPT中的GPT-5.1仍將對(duì)付費(fèi)用戶開(kāi)放三個(gè)月,之后就將停止使用。
這次OpenAI的產(chǎn)品策略非常清晰,GPT-5.2被拆分為三個(gè)梯隊(duì):Instant(極速版)、Thinking(思考版)和Pro(專業(yè)版)。
![]()
(圖片由AI生成)
這種細(xì)分本身就暗示了一個(gè)趨勢(shì):OpenAI正在針對(duì)不同使用場(chǎng)景優(yōu)化模型矩陣。
——“思考”能力的質(zhì)變:智能體工作流的福音
如果你是開(kāi)發(fā)者或重度企業(yè)用戶,那么GPT-5.2 Thinking是你眼中絕對(duì)的主角。
OpenAI拋出了一個(gè)全新的評(píng)估基準(zhǔn)——GDPval。這個(gè)基準(zhǔn)涵蓋44種職業(yè)的知識(shí)工作任務(wù)。結(jié)果顯示,GPT-5.2 Thinking在70.9%的任務(wù)比拼中,擊敗或打平了人類頂尖專家。
![]()
一位GDPval評(píng)審員評(píng)論道:“這是輸出質(zhì)量上令人興奮且明顯的飛躍……兩個(gè)交付成果的布局設(shè)計(jì)和建議都出奇地好。盡管其中一個(gè)仍需要修正一些小錯(cuò)誤,但看起來(lái)像是由專業(yè)公司完成的。”
在以初級(jí)投資銀行分析師的角色建模電子表格時(shí),GPT-5.2 Thinking的平均得分比GPT 5.1高出9.3%,從59.1% 提高到68.4%。而且電子表格和PPT的精細(xì)度以及格式上都有所提升。
更可怕的數(shù)據(jù)在于效率:它的產(chǎn)出速度是人類專家的11倍以上,而成本不到人類的1%。
![]()
(圖片由AI生成)
在具體的應(yīng)用場(chǎng)景中,GPT-5.2 Thinking有質(zhì)的飛躍:
· 長(zhǎng)文檔分析(MRCRv2): 在處理長(zhǎng)達(dá)256k token(約數(shù)十萬(wàn)字)的文檔時(shí),它是目前唯一一個(gè)在“大海撈針”測(cè)試中接近100%準(zhǔn)確率的模型。這意味著,甩來(lái)幾百份合同或財(cái)報(bào),它真的能讀懂并綜合分析,不再是“讀了后面忘前面”。
· 編程能力(SWE-bench Pro): 達(dá)到了55.6%的新高。它不再只是寫幾個(gè)Python函數(shù),而是能處理多語(yǔ)言、多步驟的復(fù)雜工程問(wèn)題。從模型生成的前端界面來(lái)看,可謂是達(dá)到了“以假亂真”的效果。
![]()
這意味著模型能夠更可靠地調(diào)試生產(chǎn)代碼、實(shí)現(xiàn)功能請(qǐng)求、重構(gòu)大型代碼庫(kù),并以更少的人工干預(yù)端到端地交付修復(fù)。
AI編程公司W(wǎng)indsurf的CEO甚至評(píng)價(jià)其為“智能體編程(Agentic Coding)的最大飛躍”。
![]()
——視覺(jué)與工具調(diào)用的進(jìn)化
在視覺(jué)識(shí)別上,GPT-5.2 Thinking特別優(yōu)化了對(duì)圖表、儀表盤和UI界面的理解能力。在主板組件識(shí)別的測(cè)試中,雖然仍有瑕疵,但它已經(jīng)能準(zhǔn)確理解組件的空間布局,而不再是像GPT-5.1那樣“胡言亂語(yǔ)”。
![]()
這意味著模型能夠更準(zhǔn)確解讀儀表板、產(chǎn)品截圖、技術(shù)圖表和可視化報(bào)告。
此外,GPT-5.2 Thinking的工具調(diào)用能力也很強(qiáng)。這意味著更強(qiáng)大的端到端工作流——例如解決客戶支持案例、從多個(gè)系統(tǒng)提取數(shù)據(jù)、運(yùn)行分析以及生成最終輸出,步驟間的故障中斷更少。
在模擬航空改簽這種多步驟任務(wù)時(shí),它就展現(xiàn)出驚人的“多智能體協(xié)調(diào)”能力。內(nèi)部測(cè)試中一位旅客告知航班延誤、錯(cuò)過(guò)轉(zhuǎn)機(jī)、需要在紐約過(guò)夜,并且因醫(yī)療原因需要特殊的首排座位。
結(jié)果是GPT-5.2 Thinking訂票、安排住宿、申請(qǐng)醫(yī)療特殊座位和補(bǔ)償,一氣呵成。
![]()
2. 深度挖掘:光鮮背后的“隱形短板”
但我們不能只看官方亮出的肌肉。在GPT-5.2耀眼的參數(shù)之下,也有一些值得警惕的短板和行業(yè)焦慮。
——昂貴代價(jià)與延遲的痛點(diǎn)
OpenAI在博客中誠(chéng)實(shí)地寫道:“復(fù)雜的生成可能需要數(shù)分鐘才能完成。”
在追求實(shí)時(shí)交互的今天,數(shù)分鐘的等待是巨大的體驗(yàn)倒退。這說(shuō)明GPT-5.2 Thinking不僅是在“思考”,更是在進(jìn)行極其消耗算力的“慢思考”。
![]()
(圖片由AI生成)
當(dāng)然,OpenAI也用GPT-5.2 Instant兼顧到了用戶體驗(yàn)。這款快速、強(qiáng)大的日常工作與學(xué)習(xí)主力模型,在信息查詢類問(wèn)題、操作指南與教程、技術(shù)寫作和翻譯方面均有明顯改進(jìn),同時(shí)延續(xù)了GPT5.1 Instant引入的溫暖對(duì)話語(yǔ)調(diào)。早期測(cè)試者特別提到,GPT-5.2 Instant的解釋更清晰,能預(yù)先突出關(guān)鍵信息。
與此同時(shí),API的價(jià)格也水漲船高:GPT-5.2系列模型的價(jià)格依然昂貴,達(dá)到每百萬(wàn)輸入Token為1.75美元,每百萬(wàn)輸出Token為14美元。GPT-5.2 Pro更是高達(dá)每百萬(wàn)輸入Token 21美元,每百萬(wàn)輸出Token 168美元。
![]()
雖然OpenAI強(qiáng)調(diào),每token性價(jià)比提升,但單次任務(wù)總價(jià)不菲。
![]()
(圖片由AI生成)
不少用戶也提到GPT-5.2的成本要高于Claude 4.5。AI博主@Mlearning_ai更是指出,高階版的GPT-5.2每100萬(wàn)Token價(jià)格是高階版Claude 4.5 Opus的1.5倍。
![]()
這對(duì)于預(yù)算有限的初創(chuàng)公司來(lái)說(shuō),并不是一個(gè)好消息。
——技術(shù)“護(hù)城河”的消失
這是最讓奧特曼頭疼的問(wèn)題,也是發(fā)布“紅色警報(bào)”的根本原因。
雖然OpenAI宣稱GPT-5.2是“最強(qiáng)”,奧特曼也表示各項(xiàng)基準(zhǔn)測(cè)試指標(biāo)的表現(xiàn)都很出色:SWE-Bench Pro得分55.6%,ARC-AGI-1得分突破90%, ARC-AGI-2得分52.9%,F(xiàn)rontier Math得分40.3%。
![]()
但行業(yè)現(xiàn)狀是:差距已經(jīng)微乎其微。
· Google Gemini 3在上個(gè)月剛剛宣稱自己是世界第一。
· Anthropic Claude Opus 4.5緊隨其后,在很多細(xì)分領(lǐng)域與OpenAI平分秋色。
· Runway在視頻生成領(lǐng)域甚至反超了Sora。
![]()
用戶@skizoexe對(duì)GPT-5.2開(kāi)展一番中等復(fù)雜度的推理測(cè)試后認(rèn)為,新模型的推理和數(shù)學(xué)能力有明顯提升;但在編程能力上仍無(wú)法縮小與Gemini 3的差距:前端較弱,后端較強(qiáng)。
![]()
德國(guó)AI博主@zeldogiq則在X上發(fā)帖表示,GPT-5.2的基準(zhǔn)測(cè)試成績(jī)驚人。但他認(rèn)為,當(dāng)所有模型都能取得高分時(shí),更好的基準(zhǔn)測(cè)試已不再是唯一評(píng)判標(biāo)準(zhǔn)。真正的價(jià)值在于工作流的整合、智能體表現(xiàn),以及一切基準(zhǔn)測(cè)試無(wú)法量化的實(shí)際應(yīng)用能力。
![]()
曾經(jīng),OpenAI領(lǐng)先對(duì)手一年甚至兩年;現(xiàn)在,這個(gè)領(lǐng)先優(yōu)勢(shì)被壓縮到了幾周甚至幾天。紐約時(shí)報(bào)的分析指出,基礎(chǔ)模型的構(gòu)建方法論已經(jīng)成為行業(yè)共識(shí),OpenAI不再擁有獨(dú)門秘籍。
![]()
(圖片由AI生成)
AI工程師丹·麥克(Dan Mac)就直言:“GPT-5.2的發(fā)布對(duì)OpenAI而言關(guān)乎存亡。它必須實(shí)現(xiàn)對(duì)Gemini 3 Pro和Opus 4.5的明顯超越,否則OpenAI這次可能真的會(huì)被徹底淘汰。”
![]()
——“溫度”與“準(zhǔn)確度”的博弈
此前GPT-5發(fā)布時(shí),曾因回答過(guò)于冷漠、機(jī)械而引發(fā)用戶“起義”。OpenAI隨后不得不緊急進(jìn)行調(diào)整。
在GPT-5.2中,OpenAI聲稱減少了30%的幻覺(jué),并加強(qiáng)了對(duì)心理健康等敏感話題的安全干預(yù)。
內(nèi)部數(shù)據(jù)顯示,GPT-5.2的心理健康評(píng)估各項(xiàng)指標(biāo)均優(yōu)于GPT-5.1.
![]()
然而,這種安全性的提升往往伴隨著模型越來(lái)越“謹(jǐn)小慎微”。如何在不產(chǎn)生幻覺(jué)的前提下,保持對(duì)話的“人情味”和創(chuàng)造力,依然是GPT-5.2面臨的巨大挑戰(zhàn)。
特別是面對(duì)Meta等競(jìng)爭(zhēng)對(duì)手的激進(jìn)策略,OpenAI這種“既要安全又要能力”的封閉路線,正顯得越來(lái)越沉重。
![]()
(圖片由AI生成)
3. 奧特曼的焦慮:200億美元的營(yíng)收重?fù)?dān)
拋開(kāi)技術(shù)參數(shù),GPT-5.2的發(fā)布更是一場(chǎng)商業(yè)突圍。
據(jù)內(nèi)部透露,OpenAI的目標(biāo)是在2025年底達(dá)到200億美元的年收入。 為了支撐這個(gè)宏大的數(shù)字,以及未來(lái)幾年高達(dá)1.4萬(wàn)億美元的算力支出,OpenAI必須變得更加“現(xiàn)實(shí)”。
這就是為什么我們看到OpenAI在:
![]()
(圖片由AI生成)
· 全面擁抱企業(yè)級(jí)市場(chǎng): 無(wú)論是Excel、PPT生成的優(yōu)化,還是針對(duì)投行分析師的建模能力提升,GPT-5.2都在拼命向企業(yè)用戶示好。因?yàn)橹挥蠦端客戶,付得起高昂的訂閱費(fèi)。
· 廣告模式陰云襲來(lái): 盡管早期員工以“不作惡、不賣廣告”為榮,但面對(duì)巨大的現(xiàn)金流壓力,OpenAI已經(jīng)開(kāi)始探索在ChatGPT中引入搜索廣告和電商導(dǎo)流。
· C端的增長(zhǎng)瓶頸: 谷歌月活用戶數(shù)量已達(dá)6.5億,逼近ChatGPT的8億周活。為了保住C端入口,OpenAI正計(jì)劃推出自帶AI能力的瀏覽器,直接挑戰(zhàn)Chrome的地位。
4. 結(jié)語(yǔ):霸主的最后挽歌還是新時(shí)代的序章?
GPT-5.2無(wú)疑是一款強(qiáng)大的模型。它在編程、邏輯推理和長(zhǎng)文本處理上,再次確立了行業(yè)標(biāo)桿(State of the Art)。對(duì)于專業(yè)人士來(lái)說(shuō),它絕對(duì)是目前最得力的數(shù)字助手。
但那個(gè)“OpenAI發(fā)布即顛覆”的時(shí)代,似乎已經(jīng)結(jié)束了。
今天的GPT-5.2,更像是一個(gè)成熟科技巨頭的穩(wěn)健迭代,而非喬布斯式的神來(lái)之筆。它更強(qiáng)、更準(zhǔn)、更貴,但也和谷歌、微軟的產(chǎn)品更為趨同。
“紅色警報(bào)”或許能解決短期的戰(zhàn)術(shù)危機(jī),但解決不了戰(zhàn)略同質(zhì)化的難題。當(dāng)所有的頂級(jí)實(shí)驗(yàn)室都能造出差不多的模型時(shí),OpenAI真正的挑戰(zhàn)才剛剛開(kāi)始:它必須證明,除了更聰明的聊天機(jī)器人,它還能給人們帶來(lái)什么不可替代的價(jià)值。
對(duì)于用戶而言,現(xiàn)在的建議似乎很簡(jiǎn)單:如果你是重度依賴代碼、數(shù)據(jù)分析的Pro用戶,那就立即升級(jí)GPT-5.2 Thinking,它值得每一分錢;但如果你只是用AI來(lái)寫寫郵件、聊聊天,那么現(xiàn)在的GPT-4.1甚至免費(fèi)版,或許已經(jīng)足夠好了。
