![]()
作者 | 辰辰
出品 | 網(wǎng)易科技
它終于來了!
沒有官方預(yù)熱,沒有發(fā)布會,今日凌晨,GPT-5.2系列模型低調(diào)上線。僅有一篇技術(shù)博客,和CEO奧特曼(Sam Altman)在社交媒體上的一句簡短宣告。
![]()
然而,在這份刻意的“低調(diào)”背后,卻彌漫著從未有過的硝煙味。就在上個月谷歌Gemini 3驚艷亮相后,奧特曼在內(nèi)部拉響了最高級別的“紅色警報”。
因此,GPT-5.2絕不僅僅是一次常規(guī)迭代。在“護城河”幾近消失的當(dāng)下,這是OpenAI為捍衛(wèi)“地表最強AI”尊嚴的背水一戰(zhàn)。
剝開GPT-5.2華麗的參數(shù)外衣,它到底強在哪里?又掩蓋了這家巨頭怎樣的焦慮?
1. 硬核評測:GPT-5.2到底進化了什么?
OpenAI表示,將于今日開始逐步推出GPT-5.2,首先是面向付費計劃用戶(Plus、Pro、Go、Business、Enterprise),隨后再擴大開放范圍,盡可能保持ChatGPT的平穩(wěn)可靠。ChatGPT中的GPT-5.1仍將對付費用戶開放三個月,之后就將停止使用。
這次OpenAI的產(chǎn)品策略非常清晰,GPT-5.2被拆分為三個梯隊:Instant(極速版)、Thinking(思考版)和Pro(專業(yè)版)。
![]()
(圖片由AI生成)
這種細分本身就暗示了一個趨勢:OpenAI正在針對不同使用場景優(yōu)化模型矩陣。
——“思考”能力的質(zhì)變:智能體工作流的福音
如果你是開發(fā)者或重度企業(yè)用戶,那么GPT-5.2 Thinking是你眼中絕對的主角。
OpenAI拋出了一個全新的評估基準——GDPval。這個基準涵蓋44種職業(yè)的知識工作任務(wù)。結(jié)果顯示,GPT-5.2 Thinking在70.9%的任務(wù)比拼中,擊敗或打平了人類頂尖專家。
![]()
一位GDPval評審員評論道:“這是輸出質(zhì)量上令人興奮且明顯的飛躍……兩個交付成果的布局設(shè)計和建議都出奇地好。盡管其中一個仍需要修正一些小錯誤,但看起來像是由專業(yè)公司完成的。”
在以初級投資銀行分析師的角色建模電子表格時,GPT-5.2 Thinking的平均得分比GPT 5.1高出9.3%,從59.1% 提高到68.4%。而且電子表格和PPT的精細度以及格式上都有所提升。
更可怕的數(shù)據(jù)在于效率:它的產(chǎn)出速度是人類專家的11倍以上,而成本不到人類的1%。
![]()
(圖片由AI生成)
在具體的應(yīng)用場景中,GPT-5.2 Thinking有質(zhì)的飛躍:
· 長文檔分析(MRCRv2): 在處理長達256k token(約數(shù)十萬字)的文檔時,它是目前唯一一個在“大海撈針”測試中接近100%準確率的模型。這意味著,甩來幾百份合同或財報,它真的能讀懂并綜合分析,不再是“讀了后面忘前面”。
· 編程能力(SWE-bench Pro): 達到了55.6%的新高。它不再只是寫幾個Python函數(shù),而是能處理多語言、多步驟的復(fù)雜工程問題。從模型生成的前端界面來看,可謂是達到了“以假亂真”的效果。
![]()
(海浪效果)
這意味著模型能夠更可靠地調(diào)試生產(chǎn)代碼、實現(xiàn)功能請求、重構(gòu)大型代碼庫,并以更少的人工干預(yù)端到端地交付修復(fù)。
AI編程公司W(wǎng)indsurf的CEO甚至評價其為“智能體編程(Agentic Coding)的最大飛躍”。
![]()
——視覺與工具調(diào)用的進化
在視覺識別上,GPT-5.2 Thinking特別優(yōu)化了對圖表、儀表盤和UI界面的理解能力。在主板組件識別的測試中,雖然仍有瑕疵,但它已經(jīng)能準確理解組件的空間布局,而不再是像GPT-5.1那樣“胡言亂語”。
![]()
這意味著模型能夠更準確解讀儀表板、產(chǎn)品截圖、技術(shù)圖表和可視化報告。
此外,GPT-5.2 Thinking的工具調(diào)用能力也很強。這意味著更強大的端到端工作流——例如解決客戶支持案例、從多個系統(tǒng)提取數(shù)據(jù)、運行分析以及生成最終輸出,步驟間的故障中斷更少。
在模擬航空改簽這種多步驟任務(wù)時,它就展現(xiàn)出驚人的“多智能體協(xié)調(diào)”能力。內(nèi)部測試中一位旅客告知航班延誤、錯過轉(zhuǎn)機、需要在紐約過夜,并且因醫(yī)療原因需要特殊的首排座位。
結(jié)果是GPT-5.2 Thinking訂票、安排住宿、申請醫(yī)療特殊座位和補償,一氣呵成。
![]()
2. 深度挖掘:光鮮背后的“隱形短板”
但我們不能只看官方亮出的肌肉。在GPT-5.2耀眼的參數(shù)之下,也有一些值得警惕的短板和行業(yè)焦慮。
——昂貴代價與延遲的痛點
OpenAI在博客中誠實地寫道:“復(fù)雜的生成可能需要數(shù)分鐘才能完成。”
在追求實時交互的今天,數(shù)分鐘的等待是巨大的體驗倒退。這說明GPT-5.2 Thinking不僅是在“思考”,更是在進行極其消耗算力的“慢思考”。
![]()
(圖片由AI生成)
當(dāng)然,OpenAI也用GPT-5.2 Instant兼顧到了用戶體驗。這款快速、強大的日常工作與學(xué)習(xí)主力模型,在信息查詢類問題、操作指南與教程、技術(shù)寫作和翻譯方面均有明顯改進,同時延續(xù)了GPT5.1 Instant引入的溫暖對話語調(diào)。早期測試者特別提到,GPT-5.2 Instant的解釋更清晰,能預(yù)先突出關(guān)鍵信息。
與此同時,API的價格也水漲船高:GPT-5.2系列模型的價格依然昂貴,達到每百萬輸入Token為1.75美元,每百萬輸出Token為14美元。GPT-5.2 Pro更是高達每百萬輸入Token 21美元,每百萬輸出Token 168美元。
![]()
雖然OpenAI強調(diào),每token性價比提升,但單次任務(wù)總價不菲。
![]()
(圖片由AI生成)
不少用戶也提到GPT-5.2的成本要高于Claude 4.5。AI博主@Mlearning_ai更是指出,高階版的GPT-5.2每100萬Token價格是高階版Claude 4.5 Opus的1.5倍。
![]()
這對于預(yù)算有限的初創(chuàng)公司來說,并不是一個好消息。
——技術(shù)“護城河”的消失
這是最讓奧特曼頭疼的問題,也是發(fā)布“紅色警報”的根本原因。
雖然OpenAI宣稱GPT-5.2是“最強”,奧特曼也表示各項基準測試指標(biāo)的表現(xiàn)都很出色:SWE-Bench Pro得分55.6%,ARC-AGI-1得分突破90%, ARC-AGI-2得分52.9%,F(xiàn)rontier Math得分40.3%。
![]()
但行業(yè)現(xiàn)狀是:差距已經(jīng)微乎其微。
· Google Gemini 3在上個月剛剛宣稱自己是世界第一。
· Anthropic Claude Opus 4.5緊隨其后,在很多細分領(lǐng)域與OpenAI平分秋色。
· Runway在視頻生成領(lǐng)域甚至反超了Sora。
![]()
用戶@skizoexe對GPT-5.2開展一番中等復(fù)雜度的推理測試后認為,新模型的推理和數(shù)學(xué)能力有明顯提升;但在編程能力上仍無法縮小與Gemini 3的差距:前端較弱,后端較強。
![]()
德國AI博主@zeldogiq則在X上發(fā)帖表示,GPT-5.2的基準測試成績驚人。但他認為,當(dāng)所有模型都能取得高分時,更好的基準測試已不再是唯一評判標(biāo)準。真正的價值在于工作流的整合、智能體表現(xiàn),以及一切基準測試無法量化的實際應(yīng)用能力。
![]()
曾經(jīng),OpenAI領(lǐng)先對手一年甚至兩年;現(xiàn)在,這個領(lǐng)先優(yōu)勢被壓縮到了幾周甚至幾天。紐約時報的分析指出,基礎(chǔ)模型的構(gòu)建方法論已經(jīng)成為行業(yè)共識,OpenAI不再擁有獨門秘籍。
![]()
(圖片由AI生成)
AI工程師丹·麥克(Dan Mac)就直言:“GPT-5.2的發(fā)布對OpenAI而言關(guān)乎存亡。它必須實現(xiàn)對Gemini 3 Pro和Opus 4.5的明顯超越,否則OpenAI這次可能真的會被徹底淘汰。”
![]()
——“溫度”與“準確度”的博弈
此前GPT-5發(fā)布時,曾因回答過于冷漠、機械而引發(fā)用戶“起義”。OpenAI隨后不得不緊急進行調(diào)整。
在GPT-5.2中,OpenAI聲稱減少了30%的幻覺,并加強了對心理健康等敏感話題的安全干預(yù)。
內(nèi)部數(shù)據(jù)顯示,GPT-5.2的心理健康評估各項指標(biāo)均優(yōu)于GPT-5.1.
![]()
然而,這種安全性的提升往往伴隨著模型越來越“謹小慎微”。如何在不產(chǎn)生幻覺的前提下,保持對話的“人情味”和創(chuàng)造力,依然是GPT-5.2面臨的巨大挑戰(zhàn)。
特別是面對Meta等競爭對手的激進策略,OpenAI這種“既要安全又要能力”的封閉路線,正顯得越來越沉重。
![]()
(圖片由AI生成)
3. 奧特曼的焦慮:200億美元的營收重擔(dān)
拋開技術(shù)參數(shù),GPT-5.2的發(fā)布更是一場商業(yè)突圍。
據(jù)內(nèi)部透露,OpenAI的目標(biāo)是在2025年底達到200億美元的年收入。 為了支撐這個宏大的數(shù)字,以及未來幾年高達1.4萬億美元的算力支出,OpenAI必須變得更加“現(xiàn)實”。
這就是為什么我們看到OpenAI在:
![]()
(圖片由AI生成)
· 全面擁抱企業(yè)級市場: 無論是Excel、PPT生成的優(yōu)化,還是針對投行分析師的建模能力提升,GPT-5.2都在拼命向企業(yè)用戶示好。因為只有B端客戶,付得起高昂的訂閱費。
· 廣告模式陰云襲來: 盡管早期員工以“不作惡、不賣廣告”為榮,但面對巨大的現(xiàn)金流壓力,OpenAI已經(jīng)開始探索在ChatGPT中引入搜索廣告和電商導(dǎo)流。
· C端的增長瓶頸: 谷歌月活用戶數(shù)量已達6.5億,逼近ChatGPT的8億周活。為了保住C端入口,OpenAI正計劃推出自帶AI能力的瀏覽器,直接挑戰(zhàn)Chrome的地位。
4. 結(jié)語:霸主的最后挽歌還是新時代的序章?
GPT-5.2無疑是一款強大的模型。它在編程、邏輯推理和長文本處理上,再次確立了行業(yè)標(biāo)桿(State of the Art)。對于專業(yè)人士來說,它絕對是目前最得力的數(shù)字助手。
但那個“OpenAI發(fā)布即顛覆”的時代,似乎已經(jīng)結(jié)束了。
今天的GPT-5.2,更像是一個成熟科技巨頭的穩(wěn)健迭代,而非喬布斯式的神來之筆。它更強、更準、更貴,但也和谷歌、微軟的產(chǎn)品更為趨同。
“紅色警報”或許能解決短期的戰(zhàn)術(shù)危機,但解決不了戰(zhàn)略同質(zhì)化的難題。當(dāng)所有的頂級實驗室都能造出差不多的模型時,OpenAI真正的挑戰(zhàn)才剛剛開始:它必須證明,除了更聰明的聊天機器人,它還能給人們帶來什么不可替代的價值。
對于用戶而言,現(xiàn)在的建議似乎很簡單:如果你是重度依賴代碼、數(shù)據(jù)分析的Pro用戶,那就立即升級GPT-5.2 Thinking,它值得每一分錢;但如果你只是用AI來寫寫郵件、聊聊天,那么現(xiàn)在的GPT-4.1甚至免費版,或許已經(jīng)足夠好了。
