網易首頁 > 網易號 > 正文申請入駐

跑分第一，推理暴跌！Claude Opus 4.7上線48小時口碑崩了

2026-04-18 18:16:23　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導讀】Opus 4.7發布48小時，口碑兩極撕裂。官方榜單并列全球第一，邏輯推理公開測試卻從94.7%暴跌到41.0%。token消耗漲了35%，舊接口直接報錯，用戶集體控訴「更貴、更蠢、更愛頂嘴」。Anthropic到底升級了什么，又搞砸了什么？

「4.6根本沒法用，4.7的消耗速度像核反應堆一樣。」

Opus 4.7發布后，一位Reddit用戶在Anthropic官方帖子下的留言。

不是玩梗，是真心話。

一篇「Claude Opus 4.7是嚴重倒退，不是升級」的Reddit帖子迅速沖上3000贊。

還有人曬出截圖，說4.7連strawberry里有幾個字母都答不對。

更別說「擅改簡歷編造學歷和姓氏」，回復用戶「我懶得做交叉驗證」，以及「三問就撞限額」這些網友熱門槽點了。

《Pragmatic Engineer》作者Gergely Orosz試用之后，形容這個模型「出人意料地帶攻擊性」，然后宣布放棄，換回了4.6。

這邊罵聲還沒散，那邊一組數據卻指向了相反的方向。

Artificial Analysis給Opus 4.7的Intelligence Index打了57分，和GPT-5.4、Gemini 3.1 Pro并列全球第一。

創業者Jeremy Howard形容它是「第一個真正懂我在工作時到底在做什么的模型」，Y Combinator CEO Garry Tan正在拿它做項目。

還有網友說，Claude Opus 4.7 已實現通用人工智能（AGI）。

同一個模型，有人看到了AGI的影子，有人覺得自己的工作流炸了。

上線兩天，Opus 4.7就把AI社區撕裂了。

用戶為什么炸了？

拆開看，用戶的怒火集中在三個點上，每一條都戳中了重度用戶的命門。

第一，代碼能力斷崖式下滑。大量開發者反饋，從4.6升級到4.7之后，之前能穩定完成的編程任務開始頻繁出錯。

而且都是日常工作流里的核心操作：代碼補全變遲鈍，上下文理解出現退化，復雜邏輯鏈的推理明顯變弱。

代碼能力是Opus系列的王牌，現在王牌出了問題，反彈自然最猛。

一位Reddit用戶說，他用一個已知答案的長重構任務做回歸測試，結果模型自信地改掛了3個原本在4.6下能通過的測試，只能回滾。

評論區涌入上百條類似經歷。

第二，推理質量的倒退。

不是速度慢了那么簡單，是思考深度出現了可感知的退化。以前能一步到位的復雜問題，現在需要反復追問、手動引導。

這個劇本AI行業并不陌生。去年GPT-4 Turbo鬧出的「降智」風波幾乎一模一樣：跑分提升了，體驗卻下來了。

第三，花更多錢，體驗更差。

Opus本身就是Anthropic最貴的模型。

重度用戶每月的API賬單不是小數目。花了更多的錢、升了更新的版本、得到的卻是更差的體驗，憤怒就不只停在技術層面。

benchmark更強了

但用戶不買賬

面對反彈潮，Anthropic的回應速度不算慢。

Anthropic在官方遷移指南中指出，Opus 4.7 相比4.6存在若干行為變化，同時也強調，Opus 4.7仍是其當前綜合能力最強的通用可用模型，在長周期智能體任務、知識型工作、視覺任務和記憶任務方面表現尤為出色。

Artificial Analysis的多維評測結果也擺在那里，Opus 4.7在數學推理、多語言理解、長上下文處理，多個維度的得分創下新高。

Artificial Analysis評測顯示，Opus 4.7（max）以57分并列榜首，與Gemini 3.1 Pro Preview、GPT-5.4并列。

GitHub上的NYT Connections Extended基準測試也給出了頂級排名。

Anthropic的邏輯并不難理解：大模型迭代必然涉及能力再分配。有些維度提升了，有些維度就可能出現回退，這是工程上的取舍。

但用戶不看這個，只看自己手里的活干不干得動。

價格沒漲

但賬單漲了

Anthropic沒有調價，每百萬token的單價和Opus 4.6、4.5完全一樣。

但官方遷移指南里寫道：新分詞器（tokenizer）在處理相同文本時，token用量大約可能達到原來的1.0倍到1.35倍。

什么意思？你昨天用4.6跑一段prompt花10美元，今天換4.7跑同一段prompt，可能要花11到13.5美元。

單價沒變，但同樣的活兒吃掉了更多token。Claude Code創建者Boris Cherny隨后在X上表示：

Opus 4.7消耗更多thinking token，所以我們已為所有訂閱用戶提高了速率限制，來補償這一點。

但具體提高了多少，沒有公布。

模型沒蠢

但工作流炸了

如果你是Claude的重度開發者，4.7上線那天你可能遇到了這樣的事情：

代碼里寫了thinking={"type": "enabled", "budget_tokens": 32000}，用來控制模型的思考預算。

在4.6上跑得好好的。換成4.7，直接返回400錯誤。沒有棄用過渡期，沒有兼容模式，直接報錯。

官方遷移指南解釋了替代方案：改用thinking={"type": "adaptive"}加上新的effort參數。

但大多數開發者不會在模型發布當天去讀遷移指南。

他們做的第一件事是把模型名從4.6換成4.7，然后發現一切都不工作了。

更隱蔽的變化是thinking內容現在默認隱藏。

4.6時代，模型的思考過程默認展示摘要版。到了4.7，默認變成「省略」。響應里的thinking區塊看起來是空的。

但你仍然在為這些看不到的thinking token全額付費。

Anthropic官方原話：省略只會降低延遲，不會降低成本。

這就像你點了一份套餐，服務員說「為了加快上菜速度，我們不給你看菜了，但你還是得付全款」。

「頂嘴」不是bug

網友一個最強烈的吐槽，是說4.7變得「combative」（帶攻擊性）。

不少開發者反映，4.7會拒絕執行它認為有問題的指令，語氣也比4.6硬了不止一個檔次。

關于這個問題，Anthropic官方遷移指南里有一句很關鍵的話：

Claude Opus 4.7會以更字面、更明確的方式理解提示詞。

也就是說：4.6會「猜你的意思」，4.7會「照你說的做」。

如果你的prompt本來就寫得含糊，4.6可以幫你腦補了，但4.7不會。對于一部分用戶來說，這叫「不聽話」，但對另一部分用戶來說，這叫「終于不亂猜了」。

比如，Cursor設計師Ryo Lu卻在用4.7做產品規劃，認為這種精確執行正是他需要的。

因此，「頂嘴」這個標簽背后，是Anthropic正在把Claude從一個「順從的助手」改造成一個「更有主見的同事」。

據Artificial Analysis的公開評測，Opus 4.7在GDPval-AA上拿到1753 Elo，領先第二名79分。

GDPval-AA衡量的是模型在44種職業、9個主要行業的真實知識工作任務中的表現，在這個維度上，4.7碾壓了所有對手，包括自己的前代4.6（1619 Elo）。

同時，4.7的幻覺率比4.6下降了25個百分點，降到了36%。

它是怎么做到的？據Artificial Analysis的分析，主要是依靠「更頻繁地選擇不作答」，寧可說「我不知道」，也不瞎編。

這說明Anthropic的意圖不在于優化Claude的聊天體驗，而是在優化Claude的工作能力。

Opus 4.7在GDPval-AA上以1753 Elo登頂，領先第二名79分。這項測試衡量的是AI在44種職業中獨立完成知識工作的能力。

但對于用戶來說，在一些場景下可能完全感受不到提升，反而先感受到了token變貴、接口報錯和語氣變硬。

94.7%暴跌到41.0%

如果上面三層問題都能歸結為「遷移成本+使用習慣錯位」，但還有一組數字沒法用遷移成本解釋。

GitHub上公開維護的NYT Connections Extended基準測試，使用940道《紐約時報》Connections謎題評估大語言模型的邏輯推理和抗干擾能力。

這個測試通過額外加入干擾詞來提升難度，已經是社區公認的高難度benchmark之一。

NYT Connections Extended排行榜。Opus 4.6（high reasoning）得分94.7%，Opus 4.7（high reasoning）僅41.0%，同一測試上出現斷崖式暴跌。

結果是：Opus 4.6（high reasoning）得分94.7%，Opus 4.7（high reasoning）得分41.0%。

從年級第一，跌到不及格。

另一份數據來自Anthropic提供的Opus 4.7 System Card中100萬token上下文的MRCR v2基準測試：4.6得分78.3%，4.7得分32.2%，下跌46個百分點。

https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

這組數據方向與NYT Connections的結論一致：在某些邏輯推理和長上下文檢索任務上，4.7確實出現了顯著退步。

但也需要說清楚：這些是特定類型的測試。它們不能證明4.7「全面變蠢」，就像GDPval-AA的領先不能證明4.7「全面變強」一樣。

用戶耐心

開始倒計時

Opus 4.7的爭議不是個案。

OpenAI經歷過GPT-4 Turbo降智風波，幾個月前撤下GPT-4o時也遭遇過類似的用戶反彈。現在Reddit上已經出現了「哀悼」Claude 4.5的帖子，滿是自稱「心碎」的粉絲。

每一次模型升級，都有一批用戶失去已經適應的工具。

新分詞器讓舊的成本預算失效；新的默認行為讓舊的prompt不再好用；新的接口規范讓舊的代碼直接報錯……

每一項單獨看都有技術上的合理性，但疊在一起，就是把全部遷移成本一次性推給了用戶。

為什么模型越來越聰明，用戶越來越焦慮？因為每一次「更好」，都意味著推翻上一次的「剛好」。

Anthropic員工Alex Albert在發布次日寫道：

很多人在昨天剛開始體驗Opus 4.7時可能遇到的bug，現在都已經修復了。感謝大家的包容和耐心。

bug可以修。但信任這種東西，消耗容易，重建很慢。

這輪AI軍備競賽的下一個瓶頸，也許不只是算力和數據，還要比誰能在快速迭代的同時，能不把自己的用戶甩下車。

這次，Anthropic發布了遷移指南，但用戶更想要的是一個承諾：升級不能把原有的工作流推倒重來。

當AI從玩具變成生產力工具，「快速迭代」就不再是無條件的優點。

Opus 4.8會怎么來？Anthropic還沒說。

但用戶的耐心，已經開始倒計時了。

參考資料：

https://www.businessinsider.com/anthropic-claude-opus-4-7-backlash-tokens-2026-4

https://medium.com/vibe-coding/opus-4-7-is-the-worst-release-anthropic-has-ever-shipped-12772c21ca1e

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

新智元

AI產業主平臺領航智能+時代

15039文章數 66797關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

數碼

旅游

健康

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

跑分第一，推理暴跌！Claude Opus 4.7上線48小時口碑崩了

對話梅濤：沒有視頻底座，具身智能走不遠

特朗普180°轉彎延長停火 伊朗硬剛首次直接回絕談判

特朗普180°轉彎延長停火 伊朗硬剛首次直接回絕談判

網易傳媒再度簽約法國隊和阿根廷隊

復婚無望！baby黃曉明陪小海綿零交流

伊朗拒絕出席 特朗普宣布延長停火期限

純電續航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態度原創

慣子如殺子！孩子這4種表現說明已經被慣壞了，再不改就來不及了

Beats發布3米USB-C數據線：售229元 最高240W快充

干細胞抗衰4大誤區,90%的人都中招

特朗普180°轉彎延長停火伊朗硬剛首次直接回絕談判

特朗普180°轉彎延長停火伊朗硬剛首次直接回絕談判

伊朗拒絕出席特朗普宣布延長停火期限

純電續航301km+激光雷達宋Pro DM-i飛馳版9.99萬起

Beats發布3米USB-C數據線：售229元最高240W快充