![]()
Claude Opus 4.7 能不能堵住用戶的嘴?
作者|樺林舞王
編輯|靖宇
一家 AI 公司,到底做什么會讓開發者氣到在 GitHub 上,公開聲討一個 AI 模型「退化到不能用」?
過去幾周,Claude Opus 4.6「瘋狂降智」的討論充斥網絡。
一位 AMD 的資深總監在 GitHub 上發了一篇廣泛流傳的帖子,直接寫道「Claude 已退化到無法信任執行復雜工程的地步」。這篇帖子在開發者社區炸開了鍋,無數人跑來補刀,說自己也有類似體驗。
就在輿論發酵到最熱的時候,2026 年 4 月 16 日,Anthropic 悄然推出了 Claude Opus 4.7。
時機,耐人尋味。
01
「退化」風波,
Anthropic 欠開發者一個答案
要理解 Opus 4.7 的意義,得先說清楚它出現之前發生了什么。
Opus 4.6 上線后,最初口碑不錯。但隨著時間推移,開發者們開始陸續反映:這個模型在處理復雜工程任務時,變得越來越「保守」,越來越容易在多步驟任務中途放棄,甚至開始給出「看起來合理但其實是錯的」回答。
這種「退化感」在 AI 產品里是最致命的信任危機。用戶可以接受模型能力一般,但無法接受一個用熟了的工具突然變得不可靠。
從用數據角度看這件事,財報分析平臺 Hex 的評估說明了問題的本質。他們發現 Opus 4.6 在遇到數據矛盾時,會傾向于給出「看似合理的錯誤回退」,而不是老老實實承認「數據缺失,我沒法回答」。對一個要用來做數據分析的工具來說,這比「不會用」還危險。
Anthropic 對這些反饋的回應方式是,直接上新版本。沒有公開的解釋,沒有「我們聽到了」的官方聲明,就是一個新模型上線了。
對技術公司來說,這算是最直接的道歉方式。
02
Opus 4.7 到底強在哪
Anthropic 給 Opus 4.7 打的標簽是「軟件工程領域的顯著提升」,并引入了一個全新的 xhigh 努力等級。
從具體數字來看,編碼基準提升了 13%,生產級任務的自主完成率提升了 3 倍,同時還帶來了高達 3.75 兆像素的高分辨率視覺支持和更新的分詞器。
但這些官方數字對開發者來說太抽象。更有說服力的是來自 Cursor 團隊的反饋。Cursor 是目前最受開發者青睞的 AI 編程工具之一,他們用自己的內部基準 CursorBench 測試了 Opus 4.7,結果是自主編碼成功率從 Opus 4.6 的 58% 跳升到了 70%。
12 個百分點的差距,聽起來不大,但放在「自主完成復雜任務」這個維度上,意義完全不同。
過去在 Opus 4.6 上需要兩到三次提示才能搞定的任務,在 4.7 上通常一次就能跑通。對真正在工作流里深度依賴 AI 的開發者來說,這直接等于減少了一半以上的來回調試成本。
Hex 對 Opus 4.7 的評價,則從另一個維度印證了這次升級的質量。他們直接說這是「評估過最強大的模型」,核心理由是它在面對數據矛盾時,不再試圖給出貌似合理的錯誤答案,而是選擇如實告知「數據缺失」。這聽起來像是一個很小的行為變化,但它指向的是模型「自知能力邊界」這個更深層的進步。
價格沒有變化。輸入每百萬 token 5 美元,輸出每百萬 token 25 美元,和 Opus 4.6 完全一致。
03
兩周三更新,Anthropic 在打什么算盤
如果只是看這一次發布,Opus 4.7 是一次扎實的迭代升級。但把時間線拉長到過去兩個月,這次更新的背后邏輯就更有意思了。
2026 年 1 月以來,Anthropic 大約保持著每兩周一次重大更新的節奏。這個頻率,在 AI 軍備競賽最激烈的今天,本身就是一種戰略表態:
「我們在跑,我們不會停」。
更值得關注的是與此同時發生的另一件事。
就在 Opus 4.7 發布前幾周,Anthropic 向精選企業客戶悄悄開放了 Claude Mythos Preview,這是作為 Project Glasswing 網絡安全計劃的一部分。
這個模型的能力之強讓人警惕,據報道它能夠滲透主要銀行系統,且具備同時攻擊多個目標的潛力。Anthropic 聯合創始人杰克·克拉克專門向特朗普政府做了匯報,財政部長斯科特·貝森特和美聯儲主席鮑威爾隨后也緊急召集了與銀行高管的會議。
這意味著 Anthropic 現在同時在打兩場戰爭。一場是公開的、對著開發者和企業客戶的產品戰,Opus 4.7 是這場戰爭里的一顆棋子;另一場是關于 AI 能力邊界的政策博弈,Mythos 和 Project Glasswing 是這條線上更敏感的棋局。
這兩件事放在一起看,你會發現 Anthropic 的產品哲學,正在發生微妙的轉變。他們越來越清楚,最強大的模型不能直接扔給所有人用,但也不能把「足夠強」的模型做差了。
Opus 4.7 扮演的,就是這個「足夠強但可控部署」的角色。
04
開發者生態的新格局
Opus 4.7 的發布,對整個開發者工具生態的意味,不只是「Claude 又更新了」這么簡單。
編程助手這個賽道,今天已經是一場關于「工作流深度綁定」的戰爭。Cursor 選擇把 Opus 4.7 作為核心模型接入,這背后是一個明確的判斷,在當前競爭格局里,Claude 系列對復雜軟件工程任務的理解深度,依然有明顯優勢。
VentureBeat 的一個分析視角很有意思,他們認為Opus 4.7 代表的,是 AI 從「創意助手」向「可靠執行者」的角色遷移。這個說法其實道出了企業采購決策的核心邏輯,創意助手可以偶爾出錯,但執行者不行。
不過,也有值得留意的隱患。新分詞器的引入意味著,同樣的輸入文本可能會消耗更多 token,雖然單價不變,但實際成本有可能悄悄上漲。這對高頻調用 API 的企業來說,是需要重新測算的變量。
還有一個更根本的問題,正如 Decrypt 的評論所指出的,AI 行業至,今仍沒有一套大家都認可的能力評估標準。Anthropic 說編碼基準提升了 13%,但這個基準和真實開發場景之間的距離,每個人的感受都不一樣。Cursor 的 70% 成功率數據,比 Anthropic 自己發布的所有基準都更有說服力,正是因為它來自真實工作流里的實際驗證。
幾周前,開發者在 GitHub 上公開抱怨 Opus 4.6「不能用了」。今天,Anthropic 用一個新版本回應了這份不滿,并且用實打實的性能數據贏回了 Cursor、Hex 這些頭部工具團隊的背書。
但用戶的信任不是靠一次發布能徹底修復的。每兩周一次的迭代節奏,既是優勢,也是壓力,因為它意味著每次發布都必須真的好,否則下一輪「退化」的聲音會來得更快。
對 Anthropic 來說,真正的考驗不是今天能不能發出一個更好的版本,而是能不能讓開發者相信,這個「更好」是持續的、可預期的。
這對任何 AI 公司來說,都是一個巨大的挑戰。
*頭圖來源:LLM Stats
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
Opus4.7 的能力符合你的預期嗎?
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.