![]()
作者 | 辰辰
出品 | 網易科技
它終于來了!
沒有官方預熱,沒有發布會,今日凌晨,GPT-5.2系列模型低調上線。僅有一篇技術博客,和CEO奧特曼(Sam Altman)在社交媒體上的一句簡短宣告。
![]()
然而,在這份刻意的“低調”背后,卻彌漫著從未有過的硝煙味。就在上個月谷歌Gemini 3驚艷亮相后,奧特曼在內部拉響了最高級別的“紅色警報”。
因此,GPT-5.2絕不僅僅是一次常規迭代。在“護城河”幾近消失的當下,這是OpenAI為捍衛“地表最強AI”尊嚴的背水一戰。
剝開GPT-5.2華麗的參數外衣,它到底強在哪里?又掩蓋了這家巨頭怎樣的焦慮?
1. 硬核評測:GPT-5.2到底進化了什么?
OpenAI表示,將于今日開始逐步推出GPT-5.2,首先是面向付費計劃用戶(Plus、Pro、Go、Business、Enterprise),隨后再擴大開放范圍,盡可能保持ChatGPT的平穩可靠。ChatGPT中的GPT-5.1仍將對付費用戶開放三個月,之后就將停止使用。
這次OpenAI的產品策略非常清晰,GPT-5.2被拆分為三個梯隊:Instant(極速版)、Thinking(思考版)和Pro(專業版)。
![]()
(圖片由AI生成)
這種細分本身就暗示了一個趨勢:OpenAI正在針對不同使用場景優化模型矩陣。
——“思考”能力的質變:智能體工作流的福音
如果你是開發者或重度企業用戶,那么GPT-5.2 Thinking是你眼中絕對的主角。
OpenAI拋出了一個全新的評估基準——GDPval。這個基準涵蓋44種職業的知識工作任務。結果顯示,GPT-5.2 Thinking在70.9%的任務比拼中,擊敗或打平了人類頂尖專家。
![]()
一位GDPval評審員評論道:“這是輸出質量上令人興奮且明顯的飛躍……兩個交付成果的布局設計和建議都出奇地好。盡管其中一個仍需要修正一些小錯誤,但看起來像是由專業公司完成的。”
在以初級投資銀行分析師的角色建模電子表格時,GPT-5.2 Thinking的平均得分比GPT 5.1高出9.3%,從59.1% 提高到68.4%。而且電子表格和PPT的精細度以及格式上都有所提升。
更可怕的數據在于效率:它的產出速度是人類專家的11倍以上,而成本不到人類的1%。
![]()
(圖片由AI生成)
在具體的應用場景中,GPT-5.2 Thinking有質的飛躍:
· 長文檔分析(MRCRv2): 在處理長達256k token(約數十萬字)的文檔時,它是目前唯一一個在“大海撈針”測試中接近100%準確率的模型。這意味著,甩來幾百份合同或財報,它真的能讀懂并綜合分析,不再是“讀了后面忘前面”。
· 編程能力(SWE-bench Pro): 達到了55.6%的新高。它不再只是寫幾個Python函數,而是能處理多語言、多步驟的復雜工程問題。從模型生成的前端界面來看,可謂是達到了“以假亂真”的效果。
![]()
(海浪效果)
這意味著模型能夠更可靠地調試生產代碼、實現功能請求、重構大型代碼庫,并以更少的人工干預端到端地交付修復。
AI編程公司Windsurf的CEO甚至評價其為“智能體編程(Agentic Coding)的最大飛躍”。
![]()
——視覺與工具調用的進化
在視覺識別上,GPT-5.2 Thinking特別優化了對圖表、儀表盤和UI界面的理解能力。在主板組件識別的測試中,雖然仍有瑕疵,但它已經能準確理解組件的空間布局,而不再是像GPT-5.1那樣“胡言亂語”。
![]()
這意味著模型能夠更準確解讀儀表板、產品截圖、技術圖表和可視化報告。
此外,GPT-5.2 Thinking的工具調用能力也很強。這意味著更強大的端到端工作流——例如解決客戶支持案例、從多個系統提取數據、運行分析以及生成最終輸出,步驟間的故障中斷更少。
在模擬航空改簽這種多步驟任務時,它就展現出驚人的“多智能體協調”能力。內部測試中一位旅客告知航班延誤、錯過轉機、需要在紐約過夜,并且因醫療原因需要特殊的首排座位。
結果是GPT-5.2 Thinking訂票、安排住宿、申請醫療特殊座位和補償,一氣呵成。
![]()
2. 深度挖掘:光鮮背后的“隱形短板”
但我們不能只看官方亮出的肌肉。在GPT-5.2耀眼的參數之下,也有一些值得警惕的短板和行業焦慮。
——昂貴代價與延遲的痛點
OpenAI在博客中誠實地寫道:“復雜的生成可能需要數分鐘才能完成。”
在追求實時交互的今天,數分鐘的等待是巨大的體驗倒退。這說明GPT-5.2 Thinking不僅是在“思考”,更是在進行極其消耗算力的“慢思考”。
![]()
(圖片由AI生成)
當然,OpenAI也用GPT-5.2 Instant兼顧到了用戶體驗。這款快速、強大的日常工作與學習主力模型,在信息查詢類問題、操作指南與教程、技術寫作和翻譯方面均有明顯改進,同時延續了GPT5.1 Instant引入的溫暖對話語調。早期測試者特別提到,GPT-5.2 Instant的解釋更清晰,能預先突出關鍵信息。
與此同時,API的價格也水漲船高:GPT-5.2系列模型的價格依然昂貴,達到每百萬輸入Token為1.75美元,每百萬輸出Token為14美元。GPT-5.2 Pro更是高達每百萬輸入Token 21美元,每百萬輸出Token 168美元。
![]()
雖然OpenAI強調,每token性價比提升,但單次任務總價不菲。
![]()
(圖片由AI生成)
不少用戶也提到GPT-5.2的成本要高于Claude 4.5。AI博主@Mlearning_ai更是指出,高階版的GPT-5.2每100萬Token價格是高階版Claude 4.5 Opus的1.5倍。
![]()
這對于預算有限的初創公司來說,并不是一個好消息。
——技術“護城河”的消失
這是最讓奧特曼頭疼的問題,也是發布“紅色警報”的根本原因。
雖然OpenAI宣稱GPT-5.2是“最強”,奧特曼也表示各項基準測試指標的表現都很出色:SWE-Bench Pro得分55.6%,ARC-AGI-1得分突破90%, ARC-AGI-2得分52.9%,Frontier Math得分40.3%。
![]()
但行業現狀是:差距已經微乎其微。
· Google Gemini 3在上個月剛剛宣稱自己是世界第一。
· Anthropic Claude Opus 4.5緊隨其后,在很多細分領域與OpenAI平分秋色。
· Runway在視頻生成領域甚至反超了Sora。
![]()
用戶@skizoexe對GPT-5.2開展一番中等復雜度的推理測試后認為,新模型的推理和數學能力有明顯提升;但在編程能力上仍無法縮小與Gemini 3的差距:前端較弱,后端較強。
![]()
德國AI博主@zeldogiq則在X上發帖表示,GPT-5.2的基準測試成績驚人。但他認為,當所有模型都能取得高分時,更好的基準測試已不再是唯一評判標準。真正的價值在于工作流的整合、智能體表現,以及一切基準測試無法量化的實際應用能力。
![]()
曾經,OpenAI領先對手一年甚至兩年;現在,這個領先優勢被壓縮到了幾周甚至幾天。紐約時報的分析指出,基礎模型的構建方法論已經成為行業共識,OpenAI不再擁有獨門秘籍。
![]()
(圖片由AI生成)
AI工程師丹·麥克(Dan Mac)就直言:“GPT-5.2的發布對OpenAI而言關乎存亡。它必須實現對Gemini 3 Pro和Opus 4.5的明顯超越,否則OpenAI這次可能真的會被徹底淘汰。”
![]()
——“溫度”與“準確度”的博弈
此前GPT-5發布時,曾因回答過于冷漠、機械而引發用戶“起義”。OpenAI隨后不得不緊急進行調整。
在GPT-5.2中,OpenAI聲稱減少了30%的幻覺,并加強了對心理健康等敏感話題的安全干預。
內部數據顯示,GPT-5.2的心理健康評估各項指標均優于GPT-5.1.
![]()
然而,這種安全性的提升往往伴隨著模型越來越“謹小慎微”。如何在不產生幻覺的前提下,保持對話的“人情味”和創造力,依然是GPT-5.2面臨的巨大挑戰。
特別是面對Meta等競爭對手的激進策略,OpenAI這種“既要安全又要能力”的封閉路線,正顯得越來越沉重。
![]()
(圖片由AI生成)
3. 奧特曼的焦慮:200億美元的營收重擔
拋開技術參數,GPT-5.2的發布更是一場商業突圍。
據內部透露,OpenAI的目標是在2025年底達到200億美元的年收入。 為了支撐這個宏大的數字,以及未來幾年高達1.4萬億美元的算力支出,OpenAI必須變得更加“現實”。
這就是為什么我們看到OpenAI在:
![]()
(圖片由AI生成)
· 全面擁抱企業級市場: 無論是Excel、PPT生成的優化,還是針對投行分析師的建模能力提升,GPT-5.2都在拼命向企業用戶示好。因為只有B端客戶,付得起高昂的訂閱費。
· 廣告模式陰云襲來: 盡管早期員工以“不作惡、不賣廣告”為榮,但面對巨大的現金流壓力,OpenAI已經開始探索在ChatGPT中引入搜索廣告和電商導流。
· C端的增長瓶頸: 谷歌月活用戶數量已達6.5億,逼近ChatGPT的8億周活。為了保住C端入口,OpenAI正計劃推出自帶AI能力的瀏覽器,直接挑戰Chrome的地位。
4. 結語:霸主的最后挽歌還是新時代的序章?
GPT-5.2無疑是一款強大的模型。它在編程、邏輯推理和長文本處理上,再次確立了行業標桿(State of the Art)。對于專業人士來說,它絕對是目前最得力的數字助手。
但那個“OpenAI發布即顛覆”的時代,似乎已經結束了。
今天的GPT-5.2,更像是一個成熟科技巨頭的穩健迭代,而非喬布斯式的神來之筆。它更強、更準、更貴,但也和谷歌、微軟的產品更為趨同。
“紅色警報”或許能解決短期的戰術危機,但解決不了戰略同質化的難題。當所有的頂級實驗室都能造出差不多的模型時,OpenAI真正的挑戰才剛剛開始:它必須證明,除了更聰明的聊天機器人,它還能給人們帶來什么不可替代的價值。
對于用戶而言,現在的建議似乎很簡單:如果你是重度依賴代碼、數據分析的Pro用戶,那就立即升級GPT-5.2 Thinking,它值得每一分錢;但如果你只是用AI來寫寫郵件、聊聊天,那么現在的GPT-4.1甚至免費版,或許已經足夠好了。
