就在剛剛,Anthropic 正式發布了 Claude Opus 4.7。
這不是一次「擠牙膏」式的小更新,有幾個核心能力的提升幅度。
下面說重點。
先說一個場景。
你有沒有遇到過這種情況,把一個復雜的 bug 丟給 AI,它給你一個看起來合理的答案,你照著改了,結果發現根本沒解決問題,甚至引入了新問題。
![]()
這是因為模型在「不確定」的時候,傾向于給你一個「看起來對」的答案,而不是真的去驗證。
Opus 4.7 在這里做了一個關鍵改變。
它會在匯報結果之前,主動驗證自己的輸出。
官方的描述是「devises ways to verify its own outputs before reporting back」。不是說說而已,是真的在訓練層面做了優化。
![]()
數字上怎么體現?
Cursor 的 CEO 說,在他們內部 benchmark 上,Opus 4.7 解決了 70% 的任務,Opus 4.6 是 58%。
Rakuten 的團隊說,Opus 4.7 解決的生產任務數量是 Opus 4.6 的 3 倍。
![]()
另一家公司在 93 個任務的編程測試里,Opus 4.7 比 Opus 4.6 提升了 13%,其中有 4 個任務是 Opus 4.6 和 Sonnet 4.6 都解不了的。
這些數字不是 Anthropic 自己說的,是合作伙伴在自己的真實業務場景里跑出來的。
還有一個細節我覺得很有意思。
Vercel 的工程師說,Opus 4.7 會在開始寫代碼之前,先對系統代碼做推導驗證。「這是我們在之前的 Claude 模型里從沒見過的行為。」
這不是優化,這是行為模式的改變。
這個升級我沒想到會這么大。
![]()
之前的 Claude 模型上限大概是 100 萬像素出頭。
直接翻了三倍多。
有一家做自動滲透測試的公司 XBOW,他們的視覺精度 benchmark 上,Opus 4.7 得了 98.5%,Opus 4.6 只有 54.5%。
![]()
他們說,「我們最大的痛點基本消失了,這解鎖了一整類之前沒法用它做的工作。」
從 54.5% 到 98.5%,這不是小幅提升,這是質變。
這個功能之前一直是 Claude 的短板。
![]()
它能在多個會話之間記住重要信息,并在新任務開始時主動調用這些記憶,減少每次都要重新交代背景的麻煩。
對于跑長期項目、多步驟 Agent 任務的用戶來說,這個改變是實質性的。
以前你每次開新對話,都要把項目背景重新說一遍。現在它記得。
這次同步上線了幾個新東西。
第一個,xhigh 推理等級。
介于 high 和 max 之間,給用戶更細的控制粒度。Claude Code 里已經把默認推理等級調到了 xhigh。
第二個,/ultrareview 命令。
在 Claude Code 里用,專門做代碼審查。會像一個認真的 reviewer 一樣讀完所有改動,標出 bug 和設計問題。Pro 和 Max 用戶有三次免費試用。
第三個,task budgets。
API 公測,讓開發者可以控制 Claude 在長任務里的 token 消耗分配。對于跑復雜 Agent 流程的團隊,這個功能很實用。
輸入 5 刀 / 百萬 token,輸出 25 刀 / 百萬 token。
和 Opus 4.6 一樣。
但官方特別提醒了一件事。
Opus 4.7 用了新的 tokenizer,同樣的輸入可能會消耗更多 token,大概是原來的 1.0 到 1.35 倍。另外在高推理等級下,它會輸出更多 token,因為它想得更深了。
價格單價沒變,但實際花費可能會漲。
官方建議遷移前先在真實流量上測一下,別直接切換。
他們的結論是,目前最強的模型 Claude Mythos Preview,網絡安全能力太強,風險太高,暫時不對外開放,只給少數合作伙伴用于防御性安全工作。
![]()
Opus 4.7 是第一個用來測試「新網絡安全防護機制」的模型。
它的網絡安全能力被刻意降低了。
官方的說法是,「我們從 Opus 4.7 的真實部署中學到的東西,將幫助我們最終實現 Mythos 級別模型的廣泛發布。」
換句話說,Opus 4.7 是一個試驗場。
Anthropic 在用它測試,當一個強大的模型被放出去,安全機制能不能真的兜住風險。
![]()
這個邏輯,我覺得比任何一個 benchmark 數字都更值得認真對待。
一家公司在主動給自己的模型「降能」,然后用真實用戶來驗證安全機制是否有效。
現在,Claude 官網、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry,全部上線。
![]()
代碼能力,真實場景里提升幅度在 13% 到 3 倍之間,取決于任務類型。最關鍵的變化是它會主動驗證自己的輸出,不再只是給你一個「看起來對」的答案。
記憶能力,跨會話長期記憶專項優化,不用每次開新對話都重新交代背景。
新工具,xhigh 推理等級、/ultrareview 代碼審查命令、task budgets 三件套,對重度 Claude Code 用戶實用性很高。
價格,單價不變,但 tokenizer 更新后實際 token 消耗可能增加 1.0 到 1.35 倍。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.