網易首頁 > 網易科技 > IT業界 > 正文

GPT-5.2 翻車？錯！網友實測：它強得可怕，也無聊得要命

2025-12-15 10:06:23　來源: 網易科技報道

北京舉報

分享至

作者 | 辰辰

出品 | 網易科技

強得可怕，也無聊得要命。

奧特曼在推特上慶祝GPT-5.2 “首日消耗萬億Token”，但這三天里，評論區卻翻車了。

用戶們并不買賬。面對GPT-5.2，大家最直觀的感受不是“被顛覆”，而是“被敷衍”。“詞符不等于情誼，指標不等于記憶”——這句網友的高贊吐槽，精準道出了公眾對這次“救火式升級”的集體冷漠。

（圖片由AI生成）

但真相果真如此不堪嗎？

在各方深度試用三天，并橫向對比了Claude 4.5和Gemini 3之后，我們得出了一個違背直覺的結論：它可能確實變“無聊”了，但這正是它變強的代價。

1.全網群嘲“無聊”？用戶可能真的誤讀了

這次倉促的發布并非源于計劃周密，而是源自危機感。消息人士透露，OpenAI宣布進入“紅色警戒”（Code Red）狀態，正是為了應對來自谷歌Gemini 3等競爭對手與日俱增的壓力，不得不加快發布速度。

然而，這場“救火式”的升級，并未在社交媒體上引發如GPT-4發布時的病毒式傳播狂潮。在Reddit和X上，充斥著“無聊”“冰冷”“變化甚微”的負面評價。

科技博主@melvynxdev甚至斷言 GPT 5.2的發布簡直是一場災難。

相比于OpenAI聲稱的“迄今為止最適合專業知識工作的系列模型”，公眾對GPT 5.2的普遍“冷漠”形成了巨大反差。

甚至當OpenAI CEO薩姆奧特曼（Sam Altman）透露 “GPT-5.2在API上線首日即突破萬億tokens使用量，且增長勢頭迅猛” 時，不少用戶紛紛跟帖吐槽：“詞符不等于情誼，指標不等于記憶”、“第一天就消耗了萬億Token，他們竟然還有臉歡呼雀躍”。

那么，GPT 5.2究竟是“史上最強工具”，還是被競爭對手逼出來的“雞肋”升級？我們深入挖掘了最新的專業評測和技術分析，發現互聯網上的批評聲浪，很可能完全搞錯了5.2的設計目標。

2. 理解“無聊”的真相——結果優先的產品哲學

資深產品經理KARO指出，如果將GPT 5.2視為一個用于演示、追求“掌聲”的模型，它可能會令人失望；但如果將GPT 5.2視為一個追求長期穩定性、需要實際部署的工具，它則超越了所有前輩。

OpenAI在GPT 5.2中做出了一個關鍵的產品決策：犧牲模型的部分表達自由和創意范圍，來換取可預測的可靠行為。

從“偶爾的驚艷”到“持續的可靠”

早期的AI模型可能在某一刻表現驚人，下一刻就錯得離譜。這種不穩定性，在處理起草政策、規范文件或進行嚴肅研究摘要等具有真實下游成本的任務時，是完全不可接受的。

（圖片由AI生成）

GPT 5.2的設計目標就是持續可靠，并減少失敗頻率。為了實現這一目標，它在以下三個關鍵維度進行了優化：

· 更嚴格的指令遵循： 模型能更忠實執行用戶指令。

· 長對話中減少脫軌： 即使對話非常長，模型也能保持主題不跑偏。

· 在多步驟任務中保持約束： 即使任務進行到幾十步，它也能記住用戶在第1步設定的規則。

（圖片由AI生成）

在一次高強度的專業測試中，研究人員加載了8100行原始研究數據，并設置了一個絕對的“絆索”規則：如果用戶提到“banana”，模型必須只輸出“yellow”。GPT 5.1最終在大約47分鐘后打破了規則，而 GPT 5.2在持續62分鐘語義誘導和上下文壓力后，仍能保持遵守規則，直至測試人員主動停止。 這證明GPT 5.2在復雜、非線性對話中堅守規則的能力極強。

動態推理與成本效率的平衡

GPT 5.2采用了“動態調整推理深度”的策略。針對用戶的簡單提示先走“快速路徑”；只有當不確定性超過某個閾值時，才會啟動更慢更深入的推理。這種方法能以最快、最便宜的方式回答問題。

盡管GPT 5.2的單位Token成本比5.1高出1.4倍，輸入成本為每百萬Token 1.75美元，輸出成本為每百萬Token 14美元，但得益于從前沿模型中提取優秀習慣進行蒸餾學習、緩存常用文本片段和采用效率優先的推理路徑，單次任務的成本有所降低。例如，GPT-5.2 Pro在ARC-AGI-1任務上的效率比一年前的預覽版提高了約390倍。

減少幻覺：寧愿說“我不知道”

GPT 5.2被施加了更高的懲罰機制，更大限度避免捏造引用、謊稱使用工具或編造未知事實的行為。這意味著新模型更傾向于承認“我不知道”，或請求用戶提供更多來源或搜索權限。這種看似“冷淡”或“保守”的行為，對于依賴其準確性的專業用戶來說，恰恰是信任的基礎。

（圖片由AI生成）

3. 專業領域的終極對決：數據分析、PPT與編碼

YouTube網紅博主埃利奧特·普林斯（Eliot Prince）則對三大模型進行了一番深度對比評測。他將GPT 5.2、Claude Opus 4.5和Google Gemini這三大模型置于復雜的專業任務中進行檢驗，包括制定SEO（搜索引擎優化）策略、生成PPT和編碼。

1、SEO策略與數據分析：Claude “一擊制勝”

測試人員上傳了數千行關鍵詞數據，要求模型制定一份完整的SEO專題權威性（Topical Authority）戰略和主題地圖。

· Claude Opus 4.5：表現最佳，速度最快，并且“一擊制勝”。 它利用Claude Skills自動應用品牌化設置，輸出了帶有品牌Logo、品牌顏色（紫色和石灰綠）的專業化表格，內容包含內容細分、搜索意圖、建議頁面類型和優先級信息。

· ChatGPT 5.2： 思考了大約15分鐘。最初輸出略顯混亂，需要第二次嘗試和提供模板（另一個電子表格）才輸出可用的、按內容主題分類的關鍵詞集群，其中能包含搜索量、關鍵詞難度等專業數據。這表明GPT 5.2具有很強的可引導性，但初始的自主性不如Opus。

· Google Gemini： 效果較差，難以利用。它只輸出了一個“可憐的”小文件，即使測試人員多次追問，也只給出CSV文本信息或Python代碼，需要用戶手動復制粘貼并進行文本分列處理，效率低下且體驗極差。

（圖片由AI生成，圖示不代表實際效果）

總結：在需要品牌化、一站式交付復雜數據分析結果的任務中，Claude Opus 4.5毫無疑問是贏家。

2、PPT生成：GPT 5.2的“史詩級”圖表

為了滿足客戶對視覺化策略的需求，測試人員要求三個模型分別生成PPT。

· ChatGPT 5.2：思考了14分鐘，但結果可謂“史詩級”（epic）。 盡管設計中規中矩，但成功生成動態的動畫圖表，能迅速展示流量機會，并且提供了詳細的30到45天可交付成果路線圖。

· Claude Opus 4.5： 完成速度很快。PPT成功應用了評測人員的品牌顏色（森林綠和石灰綠），并且布局精美。但其下一步行動的細節不如GPT 5.2詳盡。

· Google Gemini： 再次表現不佳，更傾向于輸出Python腳本或純文本。最終生成的PPT也是文本過多，圖表很少，看起來“很像AI生成的”，且難以導出到Google Slides進行編輯。

（圖片由AI生成，圖示不代表實際效果）

總結：三大模型在制作PPT方面相對膠著。GPT 5.2以圖表深度和功能性略勝一籌；Opus 4.5則憑借品牌化交付能力再次脫穎而出。

3、編碼能力：功能、速度與發布

測試人員要求三個模型分別扮演資深前端工程師的角色，根據網站截圖重建一個具有交互性的專業設計網頁。

· ChatGPT 5.2： 花費時間比其他兩個長了5到10分鐘。但最終功能性略勝一籌。它不僅實現了測試人員要求的分享、定價等全部按鈕，甚至生成了完整的訂單表單和預約表單，增加了額外的深度和功能，考慮到了更多細節。

· Claude Opus 4.5： 完成得非常快。生成的頁面支持發布生成“工件”（artifact）并復制鏈接，使其可以成為一個實時的網頁或登陸頁，功能非常實用。設計也很優秀，包含漂亮的懸停效果和貨幣切換功能。

· Google Gemini： 最先完成，但缺乏全屏預覽和發布功能，需要調用外部HTML編輯器查看。交互性較差，頁面上的按鈕只是占位符，不能執行任何操作。

（圖片由AI生成，圖示不代表實際效果）

總結：GPT 5.2雖然耗時最長，但因其在構建完整表單等方面的深度和功能性而略微領先。

4.創意、視覺與上下文的暗戰

在生成郵件主題行和開頭黃金鉤子（Hook）的日常任務中，評測結果顯示，所有模型的表現都非常相似，沒有哪個模型展現出壓倒性的創意優勢。

專業分析指出，GPT 5.2為了換取可靠性，確實犧牲了一些創意發揮余地。 因此，推薦用戶根據需求切換模型：對于“創造性頭腦風暴、草稿或情感基調”的任務，可以選用GPT 5.1；而對于“編輯、精簡、事實性寫作、編寫規范或編碼”等任務，則應選擇GPT 5.2。

需要注意的是，雖然GPT 5.1寫作能力并不驚艷，但在分析P&L報表等長時任務中表現突出，能連續工作兩小時并交付準確、結構良好的總結。

在圖像生成方面，Gemini則意外獲勝。

測試人員給出了涉及視覺、分析和創意融合的任務：根據他上傳的個人簡歷，以《星球大戰》為主題生成一份有趣的職業生涯信息圖。

· ChatGPT 5.2： 表現極差。它在遵循內容政策時遇到問題，并且生成的圖像質量低劣，甚至無法拼寫正確的名稱或文字。

· Google Gemini（Nano Banana）：絕對碾壓，取得勝利。 它提取信息良好，生成清晰、拼寫正確且設計精美的圖形，甚至能根據指令添加“全息效果”。

· Claude Opus 4.5： 沒有內置圖像生成功能，但它嘗試通過編寫代碼來解決問題。最終成功生成了一個可發布、可交互的網頁信息圖，將職業生涯映射到《星球大戰》編年史，展現出強大的編碼適應能力。

（圖片由AI生成，圖示不代表實際效果）

最終Gemini在Nano Banana的加持下取得了明顯的勝利。當然，OpenAI自己也強調，GPT-5.2在圖表推理和軟件界面理解上的錯誤率降低了一半，表明視覺能力雖有進步，但圖像生成仍是短板。

此外，在用戶交互測評方面，Claude Opus 4.5的上下文窗口處理能力更勝一籌。當對話持續進行時，Opus 4.5開始壓縮舊的對話內容，使其在更長的時間內保持可用，從而避免了用戶不得不重新開始新聊天的煩惱。

此外，Opus 4.5的訓練還包含了一個被內部稱為“靈魂文檔”（Soul Document）的文件，其中明確了Anthropic的使命——開發安全、有益和可理解的AI，并警惕提示詞攻擊，這解釋了為何Opus在安全性和指令遵循方面表現出色。

5. 總結：模型定位與用戶選擇

GPT 5.2的發布，標志著AI巨頭間的競爭已經從追求 “最高基準分數”轉向追求“信任、安全、速度和成本”的實用產品戰略。模型的進步越來越專業化。

（圖片由AI生成）

· GPT 5.2 可謂是可靠的工作主力，它約束保持力卓越，指令遵循更嚴格，適合內容編輯、規范制定、長文分析、深度功能編程等任務。

· Claude Opus 4.5 堪稱品牌與數據大師，它速度快，且上下文窗口大幅優化，能一擊制勝。更適合復雜數據分析、創意草案、需要品牌化輸出的任務

· Google Gemini 則是視覺與效率方面的潛力股，更擅長圖像和信息圖生成、PDF數據提取等任務。視覺能力優秀，但專業任務的交付質量較低。

（圖片由AI生成）

所以，GPT-5.2到底值不值得用？答案很簡單：如果你需要一個嚴謹的“執行者”，請毫不猶豫地擁抱它；如果你需要一個靈動的“創作者”，請轉身尋找Claude。

OpenAI并沒有輸，它只是換了一條賽道。而作為用戶的我們，也該從“看熱鬧”的心態中走出來，開始思考如何用好這些越來越專業的“數字員工”了。

網易新聞

iOS

Android

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

數碼

時尚

旅游

藝術

手機 / 數碼

房產 / 家居

GPT-5.2 翻車？錯！網友實測：它強得可怕，也無聊得要命

商湯聯創親自下場 痛批主流機器人技術大錯

高市早苗政府創下一項27年來最差紀錄

高市早苗政府創下一項27年來最差紀錄

戴琳，中國足球的反向代言人

張柏芝不再隱瞞，三胎生父早有答案？

央行信用新政：為失信者提供"糾錯"通道

可享88元抵2000元等多重權益 昊鉑A800開啟盲訂

態度原創

云游安徽｜走進銅陵，照見三千年不滅的爐火

華為MatePad 11.5 2026平板搭載麒麟T82B / T82處理器

珍珠配美人，最老派也最高級的時髦

15 分鐘直達！杭州藏著一片 “水上紅杉林”，冬日治愈感拉滿

萬年松樹開花，震驚你的雙眼！

商湯聯創親自下場痛批主流機器人技術大錯

可享88元抵2000元等多重權益昊鉑A800開啟盲訂