作者 | 辰辰
出品 | 網(wǎng)易科技
強得可怕,也無聊得要命。
奧特曼在推特上慶祝GPT-5.2 “首日消耗萬億Token”,但這三天里,評論區(qū)卻翻車了。
用戶們并不買賬。面對GPT-5.2,大家最直觀的感受不是“被顛覆”,而是“被敷衍”。“詞符不等于情誼,指標不等于記憶”——這句網(wǎng)友的高贊吐槽,精準道出了公眾對這次“救火式升級”的集體冷漠。
![]()
(圖片由AI生成)
但真相果真如此不堪嗎?
在各方深度試用三天,并橫向?qū)Ρ攘薈laude 4.5和Gemini 3之后,我們得出了一個違背直覺的結(jié)論:它可能確實變“無聊”了,但這正是它變強的代價。
1.全網(wǎng)群嘲“無聊”?用戶可能真的誤讀了
這次倉促的發(fā)布并非源于計劃周密,而是源自危機感。消息人士透露,OpenAI宣布進入“紅色警戒”(Code Red)狀態(tài),正是為了應對來自谷歌Gemini 3等競爭對手與日俱增的壓力,不得不加快發(fā)布速度。
然而,這場“救火式”的升級,并未在社交媒體上引發(fā)如GPT-4發(fā)布時的病毒式傳播狂潮。在Reddit和X上,充斥著“無聊”“冰冷”“變化甚微”的負面評價。
![]()
科技博主@melvynxdev甚至斷言 GPT 5.2的發(fā)布簡直是一場災難。
![]()
相比于OpenAI聲稱的“迄今為止最適合專業(yè)知識工作的系列模型”,公眾對GPT 5.2的普遍“冷漠”形成了巨大反差。
甚至當OpenAI CEO薩姆奧特曼(Sam Altman)透露 “GPT-5.2在API上線首日即突破萬億tokens使用量,且增長勢頭迅猛” 時,不少用戶紛紛跟帖吐槽:“詞符不等于情誼,指標不等于記憶”、“第一天就消耗了萬億Token,他們竟然還有臉歡呼雀躍”。
![]()
![]()
![]()
那么,GPT 5.2究竟是“史上最強工具”,還是被競爭對手逼出來的“雞肋”升級?我們深入挖掘了最新的專業(yè)評測和技術(shù)分析,發(fā)現(xiàn)互聯(lián)網(wǎng)上的批評聲浪,很可能完全搞錯了5.2的設(shè)計目標。
2. 理解“無聊”的真相——結(jié)果優(yōu)先的產(chǎn)品哲學
資深產(chǎn)品經(jīng)理KARO指出,如果將GPT 5.2視為一個用于演示、追求“掌聲”的模型,它可能會令人失望;但如果將GPT 5.2視為一個追求長期穩(wěn)定性、需要實際部署的工具,它則超越了所有前輩。
![]()
OpenAI在GPT 5.2中做出了一個關(guān)鍵的產(chǎn)品決策:犧牲模型的部分表達自由和創(chuàng)意范圍,來換取可預測的可靠行為。
從“偶爾的驚艷”到“持續(xù)的可靠”
早期的AI模型可能在某一刻表現(xiàn)驚人,下一刻就錯得離譜。這種不穩(wěn)定性,在處理起草政策、規(guī)范文件或進行嚴肅研究摘要等具有真實下游成本的任務時,是完全不可接受的。
![]()
(圖片由AI生成)
GPT 5.2的設(shè)計目標就是持續(xù)可靠,并減少失敗頻率。為了實現(xiàn)這一目標,它在以下三個關(guān)鍵維度進行了優(yōu)化:
· 更嚴格的指令遵循: 模型能更忠實執(zhí)行用戶指令。
· 長對話中減少脫軌: 即使對話非常長,模型也能保持主題不跑偏。
· 在多步驟任務中保持約束: 即使任務進行到幾十步,它也能記住用戶在第1步設(shè)定的規(guī)則。
![]()
(圖片由AI生成)
在一次高強度的專業(yè)測試中,研究人員加載了8100行原始研究數(shù)據(jù),并設(shè)置了一個絕對的“絆索”規(guī)則:如果用戶提到“banana”,模型必須只輸出“yellow”。GPT 5.1最終在大約47分鐘后打破了規(guī)則,而 GPT 5.2在持續(xù)62分鐘語義誘導和上下文壓力后,仍能保持遵守規(guī)則,直至測試人員主動停止。 這證明GPT 5.2在復雜、非線性對話中堅守規(guī)則的能力極強。
![]()
動態(tài)推理與成本效率的平衡
GPT 5.2采用了“動態(tài)調(diào)整推理深度”的策略。針對用戶的簡單提示先走“快速路徑”;只有當不確定性超過某個閾值時,才會啟動更慢更深入的推理。這種方法能以最快、最便宜的方式回答問題。
盡管GPT 5.2的單位Token成本比5.1高出1.4倍,輸入成本為每百萬Token 1.75美元,輸出成本為每百萬Token 14美元,但得益于從前沿模型中提取優(yōu)秀習慣進行蒸餾學習、緩存常用文本片段和采用效率優(yōu)先的推理路徑,單次任務的成本有所降低。例如,GPT-5.2 Pro在ARC-AGI-1任務上的效率比一年前的預覽版提高了約390倍。
減少幻覺:寧愿說“我不知道”
GPT 5.2被施加了更高的懲罰機制,更大限度避免捏造引用、謊稱使用工具或編造未知事實的行為。這意味著新模型更傾向于承認“我不知道”,或請求用戶提供更多來源或搜索權(quán)限。這種看似“冷淡”或“保守”的行為,對于依賴其準確性的專業(yè)用戶來說,恰恰是信任的基礎(chǔ)。
![]()
(圖片由AI生成)
3. 專業(yè)領(lǐng)域的終極對決:數(shù)據(jù)分析、PPT與編碼
YouTube網(wǎng)紅博主埃利奧特·普林斯(Eliot Prince)則對三大模型進行了一番深度對比評測。他將GPT 5.2、Claude Opus 4.5和Google Gemini這三大模型置于復雜的專業(yè)任務中進行檢驗,包括制定SEO(搜索引擎優(yōu)化)策略、生成PPT和編碼。
![]()
1、SEO策略與數(shù)據(jù)分析:Claude “一擊制勝”
測試人員上傳了數(shù)千行關(guān)鍵詞數(shù)據(jù),要求模型制定一份完整的SEO專題權(quán)威性(Topical Authority)戰(zhàn)略和主題地圖。
· Claude Opus 4.5:表現(xiàn)最佳,速度最快,并且“一擊制勝”。 它利用Claude Skills自動應用品牌化設(shè)置,輸出了帶有品牌Logo、品牌顏色(紫色和石灰綠)的專業(yè)化表格,內(nèi)容包含內(nèi)容細分、搜索意圖、建議頁面類型和優(yōu)先級信息。
· ChatGPT 5.2: 思考了大約15分鐘。最初輸出略顯混亂,需要第二次嘗試和提供模板(另一個電子表格)才輸出可用的、按內(nèi)容主題分類的關(guān)鍵詞集群,其中能包含搜索量、關(guān)鍵詞難度等專業(yè)數(shù)據(jù)。這表明GPT 5.2具有很強的可引導性,但初始的自主性不如Opus。
· Google Gemini: 效果較差,難以利用。它只輸出了一個“可憐的”小文件,即使測試人員多次追問,也只給出CSV文本信息或Python代碼,需要用戶手動復制粘貼并進行文本分列處理,效率低下且體驗極差。
![]()
(圖片由AI生成,圖示不代表實際效果)
總結(jié):在需要品牌化、一站式交付復雜數(shù)據(jù)分析結(jié)果的任務中,Claude Opus 4.5毫無疑問是贏家。
2、PPT生成:GPT 5.2的“史詩級”圖表
為了滿足客戶對視覺化策略的需求,測試人員要求三個模型分別生成PPT。
![]()
· ChatGPT 5.2:思考了14分鐘,但結(jié)果可謂“史詩級”(epic)。 盡管設(shè)計中規(guī)中矩,但成功生成動態(tài)的動畫圖表,能迅速展示流量機會,并且提供了詳細的30到45天可交付成果路線圖。
· Claude Opus 4.5: 完成速度很快。PPT成功應用了評測人員的品牌顏色(森林綠和石灰綠),并且布局精美。但其下一步行動的細節(jié)不如GPT 5.2詳盡。
· Google Gemini: 再次表現(xiàn)不佳,更傾向于輸出Python腳本或純文本。最終生成的PPT也是文本過多,圖表很少,看起來“很像AI生成的”,且難以導出到Google Slides進行編輯。
![]()
(圖片由AI生成,圖示不代表實際效果)
總結(jié):三大模型在制作PPT方面相對膠著。GPT 5.2以圖表深度和功能性略勝一籌;Opus 4.5則憑借品牌化交付能力再次脫穎而出。
3、編碼能力:功能、速度與發(fā)布
測試人員要求三個模型分別扮演資深前端工程師的角色,根據(jù)網(wǎng)站截圖重建一個具有交互性的專業(yè)設(shè)計網(wǎng)頁。
![]()
· ChatGPT 5.2: 花費時間比其他兩個長了5到10分鐘。但最終功能性略勝一籌。它不僅實現(xiàn)了測試人員要求的分享、定價等全部按鈕,甚至生成了完整的訂單表單和預約表單,增加了額外的深度和功能,考慮到了更多細節(jié)。
· Claude Opus 4.5: 完成得非常快。生成的頁面支持發(fā)布生成“工件”(artifact)并復制鏈接,使其可以成為一個實時的網(wǎng)頁或登陸頁,功能非常實用。設(shè)計也很優(yōu)秀,包含漂亮的懸停效果和貨幣切換功能。
· Google Gemini: 最先完成,但缺乏全屏預覽和發(fā)布功能,需要調(diào)用外部HTML編輯器查看。交互性較差,頁面上的按鈕只是占位符,不能執(zhí)行任何操作。
![]()
(圖片由AI生成,圖示不代表實際效果)
總結(jié):GPT 5.2雖然耗時最長,但因其在構(gòu)建完整表單等方面的深度和功能性而略微領(lǐng)先。
4.創(chuàng)意、視覺與上下文的暗戰(zhàn)
在生成郵件主題行和開頭黃金鉤子(Hook)的日常任務中,評測結(jié)果顯示,所有模型的表現(xiàn)都非常相似,沒有哪個模型展現(xiàn)出壓倒性的創(chuàng)意優(yōu)勢。
專業(yè)分析指出,GPT 5.2為了換取可靠性,確實犧牲了一些創(chuàng)意發(fā)揮余地。 因此,推薦用戶根據(jù)需求切換模型:對于“創(chuàng)造性頭腦風暴、草稿或情感基調(diào)”的任務,可以選用GPT 5.1;而對于“編輯、精簡、事實性寫作、編寫規(guī)范或編碼”等任務,則應選擇GPT 5.2。
需要注意的是,雖然GPT 5.1寫作能力并不驚艷,但在分析P&L報表等長時任務中表現(xiàn)突出,能連續(xù)工作兩小時并交付準確、結(jié)構(gòu)良好的總結(jié)。
在圖像生成方面,Gemini則意外獲勝。
測試人員給出了涉及視覺、分析和創(chuàng)意融合的任務:根據(jù)他上傳的個人簡歷,以《星球大戰(zhàn)》為主題生成一份有趣的職業(yè)生涯信息圖。
![]()
· ChatGPT 5.2: 表現(xiàn)極差。它在遵循內(nèi)容政策時遇到問題,并且生成的圖像質(zhì)量低劣,甚至無法拼寫正確的名稱或文字。
· Google Gemini(Nano Banana): 絕對碾壓,取得勝利。 它提取信息良好,生成清晰、拼寫正確且設(shè)計精美的圖形,甚至能根據(jù)指令添加“全息效果”。
· Claude Opus 4.5: 沒有內(nèi)置圖像生成功能,但它嘗試通過編寫代碼來解決問題。最終成功生成了一個可發(fā)布、可交互的網(wǎng)頁信息圖,將職業(yè)生涯映射到《星球大戰(zhàn)》編年史,展現(xiàn)出強大的編碼適應能力。
![]()
(圖片由AI生成,圖示不代表實際效果)
最終Gemini在Nano Banana的加持下取得了明顯的勝利。當然,OpenAI自己也強調(diào),GPT-5.2在圖表推理和軟件界面理解上的錯誤率降低了一半,表明視覺能力雖有進步,但圖像生成仍是短板。
此外,在用戶交互測評方面,Claude Opus 4.5的上下文窗口處理能力更勝一籌。當對話持續(xù)進行時,Opus 4.5開始壓縮舊的對話內(nèi)容,使其在更長的時間內(nèi)保持可用,從而避免了用戶不得不重新開始新聊天的煩惱。
此外,Opus 4.5的訓練還包含了一個被內(nèi)部稱為“靈魂文檔”(Soul Document)的文件,其中明確了Anthropic的使命——開發(fā)安全、有益和可理解的AI,并警惕提示詞攻擊,這解釋了為何Opus在安全性和指令遵循方面表現(xiàn)出色。
5. 總結(jié):模型定位與用戶選擇
GPT 5.2的發(fā)布,標志著AI巨頭間的競爭已經(jīng)從追求 “最高基準分數(shù)”轉(zhuǎn)向追求“信任、安全、速度和成本”的實用產(chǎn)品戰(zhàn)略。模型的進步越來越專業(yè)化。
![]()
(圖片由AI生成)
· GPT 5.2 可謂是可靠的工作主力,它約束保持力卓越,指令遵循更嚴格,適合內(nèi)容編輯、規(guī)范制定、長文分析、深度功能編程等任務。
· Claude Opus 4.5 堪稱品牌與數(shù)據(jù)大師,它速度快,且上下文窗口大幅優(yōu)化,能一擊制勝。更適合復雜數(shù)據(jù)分析、創(chuàng)意草案、需要品牌化輸出的任務
· Google Gemini 則是視覺與效率方面的潛力股,更擅長圖像和信息圖生成、PDF數(shù)據(jù)提取等任務。視覺能力優(yōu)秀,但專業(yè)任務的交付質(zhì)量較低。
![]()
(圖片由AI生成)
所以,GPT-5.2到底值不值得用?答案很簡單:如果你需要一個嚴謹?shù)摹皥?zhí)行者”,請毫不猶豫地擁抱它;如果你需要一個靈動的“創(chuàng)作者”,請轉(zhuǎn)身尋找Claude。
OpenAI并沒有輸,它只是換了一條賽道。而作為用戶的我們,也該從“看熱鬧”的心態(tài)中走出來,開始思考如何用好這些越來越專業(yè)的“數(shù)字員工”了。
