網(wǎng)易首頁 > 網(wǎng)易科技 > IT業(yè)界 > 正文

GPT-5.2 翻車？錯！網(wǎng)友實測：它強得可怕，也無聊得要命

2025-12-15 10:06:23　來源: 網(wǎng)易科技報道

北京舉報

分享至

作者 | 辰辰

出品 | 網(wǎng)易科技

強得可怕，也無聊得要命。

奧特曼在推特上慶祝GPT-5.2 “首日消耗萬億Token”，但這三天里，評論區(qū)卻翻車了。

用戶們并不買賬。面對GPT-5.2，大家最直觀的感受不是“被顛覆”，而是“被敷衍”。“詞符不等于情誼，指標不等于記憶”——這句網(wǎng)友的高贊吐槽，精準道出了公眾對這次“救火式升級”的集體冷漠。

（圖片由AI生成）

但真相果真如此不堪嗎？

在各方深度試用三天，并橫向?qū)Ρ攘薈laude 4.5和Gemini 3之后，我們得出了一個違背直覺的結(jié)論：它可能確實變“無聊”了，但這正是它變強的代價。

1.全網(wǎng)群嘲“無聊”？用戶可能真的誤讀了

這次倉促的發(fā)布并非源于計劃周密，而是源自危機感。消息人士透露，OpenAI宣布進入“紅色警戒”（Code Red）狀態(tài)，正是為了應對來自谷歌Gemini 3等競爭對手與日俱增的壓力，不得不加快發(fā)布速度。

然而，這場“救火式”的升級，并未在社交媒體上引發(fā)如GPT-4發(fā)布時的病毒式傳播狂潮。在Reddit和X上，充斥著“無聊”“冰冷”“變化甚微”的負面評價。

科技博主@melvynxdev甚至斷言 GPT 5.2的發(fā)布簡直是一場災難。

相比于OpenAI聲稱的“迄今為止最適合專業(yè)知識工作的系列模型”，公眾對GPT 5.2的普遍“冷漠”形成了巨大反差。

甚至當OpenAI CEO薩姆奧特曼（Sam Altman）透露 “GPT-5.2在API上線首日即突破萬億tokens使用量，且增長勢頭迅猛” 時，不少用戶紛紛跟帖吐槽：“詞符不等于情誼，指標不等于記憶”、“第一天就消耗了萬億Token，他們竟然還有臉歡呼雀躍”。

那么，GPT 5.2究竟是“史上最強工具”，還是被競爭對手逼出來的“雞肋”升級？我們深入挖掘了最新的專業(yè)評測和技術(shù)分析，發(fā)現(xiàn)互聯(lián)網(wǎng)上的批評聲浪，很可能完全搞錯了5.2的設(shè)計目標。

2. 理解“無聊”的真相——結(jié)果優(yōu)先的產(chǎn)品哲學

資深產(chǎn)品經(jīng)理KARO指出，如果將GPT 5.2視為一個用于演示、追求“掌聲”的模型，它可能會令人失望；但如果將GPT 5.2視為一個追求長期穩(wěn)定性、需要實際部署的工具，它則超越了所有前輩。

OpenAI在GPT 5.2中做出了一個關(guān)鍵的產(chǎn)品決策：犧牲模型的部分表達自由和創(chuàng)意范圍，來換取可預測的可靠行為。

從“偶爾的驚艷”到“持續(xù)的可靠”

早期的AI模型可能在某一刻表現(xiàn)驚人，下一刻就錯得離譜。這種不穩(wěn)定性，在處理起草政策、規(guī)范文件或進行嚴肅研究摘要等具有真實下游成本的任務時，是完全不可接受的。

（圖片由AI生成）

GPT 5.2的設(shè)計目標就是持續(xù)可靠，并減少失敗頻率。為了實現(xiàn)這一目標，它在以下三個關(guān)鍵維度進行了優(yōu)化：

· 更嚴格的指令遵循： 模型能更忠實執(zhí)行用戶指令。

· 長對話中減少脫軌： 即使對話非常長，模型也能保持主題不跑偏。

· 在多步驟任務中保持約束： 即使任務進行到幾十步，它也能記住用戶在第1步設(shè)定的規(guī)則。

（圖片由AI生成）

在一次高強度的專業(yè)測試中，研究人員加載了8100行原始研究數(shù)據(jù)，并設(shè)置了一個絕對的“絆索”規(guī)則：如果用戶提到“banana”，模型必須只輸出“yellow”。GPT 5.1最終在大約47分鐘后打破了規(guī)則，而 GPT 5.2在持續(xù)62分鐘語義誘導和上下文壓力后，仍能保持遵守規(guī)則，直至測試人員主動停止。 這證明GPT 5.2在復雜、非線性對話中堅守規(guī)則的能力極強。

動態(tài)推理與成本效率的平衡

GPT 5.2采用了“動態(tài)調(diào)整推理深度”的策略。針對用戶的簡單提示先走“快速路徑”；只有當不確定性超過某個閾值時，才會啟動更慢更深入的推理。這種方法能以最快、最便宜的方式回答問題。

盡管GPT 5.2的單位Token成本比5.1高出1.4倍，輸入成本為每百萬Token 1.75美元，輸出成本為每百萬Token 14美元，但得益于從前沿模型中提取優(yōu)秀習慣進行蒸餾學習、緩存常用文本片段和采用效率優(yōu)先的推理路徑，單次任務的成本有所降低。例如，GPT-5.2 Pro在ARC-AGI-1任務上的效率比一年前的預覽版提高了約390倍。

減少幻覺：寧愿說“我不知道”

GPT 5.2被施加了更高的懲罰機制，更大限度避免捏造引用、謊稱使用工具或編造未知事實的行為。這意味著新模型更傾向于承認“我不知道”，或請求用戶提供更多來源或搜索權(quán)限。這種看似“冷淡”或“保守”的行為，對于依賴其準確性的專業(yè)用戶來說，恰恰是信任的基礎(chǔ)。

（圖片由AI生成）

3. 專業(yè)領(lǐng)域的終極對決：數(shù)據(jù)分析、PPT與編碼

YouTube網(wǎng)紅博主埃利奧特·普林斯（Eliot Prince）則對三大模型進行了一番深度對比評測。他將GPT 5.2、Claude Opus 4.5和Google Gemini這三大模型置于復雜的專業(yè)任務中進行檢驗，包括制定SEO（搜索引擎優(yōu)化）策略、生成PPT和編碼。

1、SEO策略與數(shù)據(jù)分析：Claude “一擊制勝”

測試人員上傳了數(shù)千行關(guān)鍵詞數(shù)據(jù)，要求模型制定一份完整的SEO專題權(quán)威性（Topical Authority）戰(zhàn)略和主題地圖。

· Claude Opus 4.5：表現(xiàn)最佳，速度最快，并且“一擊制勝”。 它利用Claude Skills自動應用品牌化設(shè)置，輸出了帶有品牌Logo、品牌顏色（紫色和石灰綠）的專業(yè)化表格，內(nèi)容包含內(nèi)容細分、搜索意圖、建議頁面類型和優(yōu)先級信息。

· ChatGPT 5.2： 思考了大約15分鐘。最初輸出略顯混亂，需要第二次嘗試和提供模板（另一個電子表格）才輸出可用的、按內(nèi)容主題分類的關(guān)鍵詞集群，其中能包含搜索量、關(guān)鍵詞難度等專業(yè)數(shù)據(jù)。這表明GPT 5.2具有很強的可引導性，但初始的自主性不如Opus。

· Google Gemini： 效果較差，難以利用。它只輸出了一個“可憐的”小文件，即使測試人員多次追問，也只給出CSV文本信息或Python代碼，需要用戶手動復制粘貼并進行文本分列處理，效率低下且體驗極差。

（圖片由AI生成，圖示不代表實際效果）

總結(jié)：在需要品牌化、一站式交付復雜數(shù)據(jù)分析結(jié)果的任務中，Claude Opus 4.5毫無疑問是贏家。

2、PPT生成：GPT 5.2的“史詩級”圖表

為了滿足客戶對視覺化策略的需求，測試人員要求三個模型分別生成PPT。

· ChatGPT 5.2：思考了14分鐘，但結(jié)果可謂“史詩級”（epic）。 盡管設(shè)計中規(guī)中矩，但成功生成動態(tài)的動畫圖表，能迅速展示流量機會，并且提供了詳細的30到45天可交付成果路線圖。

· Claude Opus 4.5： 完成速度很快。PPT成功應用了評測人員的品牌顏色（森林綠和石灰綠），并且布局精美。但其下一步行動的細節(jié)不如GPT 5.2詳盡。

· Google Gemini： 再次表現(xiàn)不佳，更傾向于輸出Python腳本或純文本。最終生成的PPT也是文本過多，圖表很少，看起來“很像AI生成的”，且難以導出到Google Slides進行編輯。

（圖片由AI生成，圖示不代表實際效果）

總結(jié)：三大模型在制作PPT方面相對膠著。GPT 5.2以圖表深度和功能性略勝一籌；Opus 4.5則憑借品牌化交付能力再次脫穎而出。

3、編碼能力：功能、速度與發(fā)布

測試人員要求三個模型分別扮演資深前端工程師的角色，根據(jù)網(wǎng)站截圖重建一個具有交互性的專業(yè)設(shè)計網(wǎng)頁。

· ChatGPT 5.2： 花費時間比其他兩個長了5到10分鐘。但最終功能性略勝一籌。它不僅實現(xiàn)了測試人員要求的分享、定價等全部按鈕，甚至生成了完整的訂單表單和預約表單，增加了額外的深度和功能，考慮到了更多細節(jié)。

· Claude Opus 4.5： 完成得非常快。生成的頁面支持發(fā)布生成“工件”（artifact）并復制鏈接，使其可以成為一個實時的網(wǎng)頁或登陸頁，功能非常實用。設(shè)計也很優(yōu)秀，包含漂亮的懸停效果和貨幣切換功能。

· Google Gemini： 最先完成，但缺乏全屏預覽和發(fā)布功能，需要調(diào)用外部HTML編輯器查看。交互性較差，頁面上的按鈕只是占位符，不能執(zhí)行任何操作。

（圖片由AI生成，圖示不代表實際效果）

總結(jié)：GPT 5.2雖然耗時最長，但因其在構(gòu)建完整表單等方面的深度和功能性而略微領(lǐng)先。

4.創(chuàng)意、視覺與上下文的暗戰(zhàn)

在生成郵件主題行和開頭黃金鉤子（Hook）的日常任務中，評測結(jié)果顯示，所有模型的表現(xiàn)都非常相似，沒有哪個模型展現(xiàn)出壓倒性的創(chuàng)意優(yōu)勢。

專業(yè)分析指出，GPT 5.2為了換取可靠性，確實犧牲了一些創(chuàng)意發(fā)揮余地。 因此，推薦用戶根據(jù)需求切換模型：對于“創(chuàng)造性頭腦風暴、草稿或情感基調(diào)”的任務，可以選用GPT 5.1；而對于“編輯、精簡、事實性寫作、編寫規(guī)范或編碼”等任務，則應選擇GPT 5.2。

需要注意的是，雖然GPT 5.1寫作能力并不驚艷，但在分析P&L報表等長時任務中表現(xiàn)突出，能連續(xù)工作兩小時并交付準確、結(jié)構(gòu)良好的總結(jié)。

在圖像生成方面，Gemini則意外獲勝。

測試人員給出了涉及視覺、分析和創(chuàng)意融合的任務：根據(jù)他上傳的個人簡歷，以《星球大戰(zhàn)》為主題生成一份有趣的職業(yè)生涯信息圖。