網易首頁 > 網易號 > 正文申請入駐

被罵降智 1 個月后，Anthropic 端出了 Opus 4.7

2026-04-17 11:07:47　來源: 極客公園

北京舉報

分享至

Claude Opus 4.7 能不能堵住用戶的嘴？

作者｜樺林舞王

編輯｜靖宇

一家 AI 公司，到底做什么會讓開發者氣到在 GitHub 上，公開聲討一個 AI 模型「退化到不能用」？

過去幾周，Claude Opus 4.6「瘋狂降智」的討論充斥網絡。

一位 AMD 的資深總監在 GitHub 上發了一篇廣泛流傳的帖子，直接寫道「Claude 已退化到無法信任執行復雜工程的地步」。這篇帖子在開發者社區炸開了鍋，無數人跑來補刀，說自己也有類似體驗。

就在輿論發酵到最熱的時候，2026 年 4 月 16 日，Anthropic 悄然推出了 Claude Opus 4.7。

時機，耐人尋味。

「退化」風波，

Anthropic 欠開發者一個答案

要理解 Opus 4.7 的意義，得先說清楚它出現之前發生了什么。

Opus 4.6 上線后，最初口碑不錯。但隨著時間推移，開發者們開始陸續反映：這個模型在處理復雜工程任務時，變得越來越「保守」，越來越容易在多步驟任務中途放棄，甚至開始給出「看起來合理但其實是錯的」回答。

這種「退化感」在 AI 產品里是最致命的信任危機。用戶可以接受模型能力一般，但無法接受一個用熟了的工具突然變得不可靠。

從用數據角度看這件事，財報分析平臺 Hex 的評估說明了問題的本質。他們發現 Opus 4.6 在遇到數據矛盾時，會傾向于給出「看似合理的錯誤回退」，而不是老老實實承認「數據缺失，我沒法回答」。對一個要用來做數據分析的工具來說，這比「不會用」還危險。

Anthropic 對這些反饋的回應方式是，直接上新版本。沒有公開的解釋，沒有「我們聽到了」的官方聲明，就是一個新模型上線了。

對技術公司來說，這算是最直接的道歉方式。

Opus 4.7 到底強在哪

Anthropic 給 Opus 4.7 打的標簽是「軟件工程領域的顯著提升」，并引入了一個全新的 xhigh 努力等級。

從具體數字來看，編碼基準提升了 13%，生產級任務的自主完成率提升了 3 倍，同時還帶來了高達 3.75 兆像素的高分辨率視覺支持和更新的分詞器。

但這些官方數字對開發者來說太抽象。更有說服力的是來自 Cursor 團隊的反饋。Cursor 是目前最受開發者青睞的 AI 編程工具之一，他們用自己的內部基準 CursorBench 測試了 Opus 4.7，結果是自主編碼成功率從 Opus 4.6 的 58% 跳升到了 70%。

12 個百分點的差距，聽起來不大，但放在「自主完成復雜任務」這個維度上，意義完全不同。

過去在 Opus 4.6 上需要兩到三次提示才能搞定的任務，在 4.7 上通常一次就能跑通。對真正在工作流里深度依賴 AI 的開發者來說，這直接等于減少了一半以上的來回調試成本。

Hex 對 Opus 4.7 的評價，則從另一個維度印證了這次升級的質量。他們直接說這是「評估過最強大的模型」，核心理由是它在面對數據矛盾時，不再試圖給出貌似合理的錯誤答案，而是選擇如實告知「數據缺失」。這聽起來像是一個很小的行為變化，但它指向的是模型「自知能力邊界」這個更深層的進步。

價格沒有變化。輸入每百萬 token 5 美元，輸出每百萬 token 25 美元，和 Opus 4.6 完全一致。

兩周三更新，Anthropic 在打什么算盤

如果只是看這一次發布，Opus 4.7 是一次扎實的迭代升級。但把時間線拉長到過去兩個月，這次更新的背后邏輯就更有意思了。

2026 年 1 月以來，Anthropic 大約保持著每兩周一次重大更新的節奏。這個頻率，在 AI 軍備競賽最激烈的今天，本身就是一種戰略表態：

「我們在跑，我們不會停」。

更值得關注的是與此同時發生的另一件事。

就在 Opus 4.7 發布前幾周，Anthropic 向精選企業客戶悄悄開放了 Claude Mythos Preview，這是作為 Project Glasswing 網絡安全計劃的一部分。

這個模型的能力之強讓人警惕，據報道它能夠滲透主要銀行系統，且具備同時攻擊多個目標的潛力。Anthropic 聯合創始人杰克·克拉克專門向特朗普政府做了匯報，財政部長斯科特·貝森特和美聯儲主席鮑威爾隨后也緊急召集了與銀行高管的會議。

這意味著 Anthropic 現在同時在打兩場戰爭。一場是公開的、對著開發者和企業客戶的產品戰，Opus 4.7 是這場戰爭里的一顆棋子；另一場是關于 AI 能力邊界的政策博弈，Mythos 和 Project Glasswing 是這條線上更敏感的棋局。

這兩件事放在一起看，你會發現 Anthropic 的產品哲學，正在發生微妙的轉變。他們越來越清楚，最強大的模型不能直接扔給所有人用，但也不能把「足夠強」的模型做差了。

Opus 4.7 扮演的，就是這個「足夠強但可控部署」的角色。

開發者生態的新格局

Opus 4.7 的發布，對整個開發者工具生態的意味，不只是「Claude 又更新了」這么簡單。

編程助手這個賽道，今天已經是一場關于「工作流深度綁定」的戰爭。Cursor 選擇把 Opus 4.7 作為核心模型接入，這背后是一個明確的判斷，在當前競爭格局里，Claude 系列對復雜軟件工程任務的理解深度，依然有明顯優勢。

VentureBeat 的一個分析視角很有意思，他們認為Opus 4.7 代表的，是 AI 從「創意助手」向「可靠執行者」的角色遷移。這個說法其實道出了企業采購決策的核心邏輯，創意助手可以偶爾出錯，但執行者不行。

不過，也有值得留意的隱患。新分詞器的引入意味著，同樣的輸入文本可能會消耗更多 token，雖然單價不變，但實際成本有可能悄悄上漲。這對高頻調用 API 的企業來說，是需要重新測算的變量。

還有一個更根本的問題，正如 Decrypt 的評論所指出的，AI 行業至，今仍沒有一套大家都認可的能力評估標準。Anthropic 說編碼基準提升了 13%，但這個基準和真實開發場景之間的距離，每個人的感受都不一樣。Cursor 的 70% 成功率數據，比 Anthropic 自己發布的所有基準都更有說服力，正是因為它來自真實工作流里的實際驗證。

幾周前，開發者在 GitHub 上公開抱怨 Opus 4.6「不能用了」。今天，Anthropic 用一個新版本回應了這份不滿，并且用實打實的性能數據贏回了 Cursor、Hex 這些頭部工具團隊的背書。

但用戶的信任不是靠一次發布能徹底修復的。每兩周一次的迭代節奏，既是優勢，也是壓力，因為它意味著每次發布都必須真的好，否則下一輪「退化」的聲音會來得更快。

對 Anthropic 來說，真正的考驗不是今天能不能發出一個更好的版本，而是能不能讓開發者相信，這個「更好」是持續的、可預期的。

這對任何 AI 公司來說，都是一個巨大的挑戰。

*頭圖來源：LLM Stats

本文為極客公園原創文章，轉載請聯系極客君微信 geekparkGO

極客一問

Opus4.7 的能力符合你的預期嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.