![]()
機器之心編輯部
想不到,風(fēng)口浪尖上的 Claude 又大更新了。
周四晚間,Anthropic 宣布旗下最新款基礎(chǔ)模型 Claude Opus 4.7 全面上市。
Opus 4.7 在高級軟件工程方面相比 Opus 4.6 有了顯著提升,尤其是在處理最復(fù)雜的任務(wù)方面。用戶反饋表示,他們現(xiàn)在可以放心地將以前需要密切監(jiān)督的最棘手的編碼工作交給 Opus 4.7 處理。Opus 4.7 能夠嚴(yán)謹(jǐn)且一致地處理復(fù)雜、耗時的任務(wù),精準(zhǔn)地執(zhí)行指令,并在返回結(jié)果之前設(shè)計出驗證自身輸出的方法。
該模型還擁有明顯更佳的視覺效果:它能夠識別更高分辨率的圖像,完成專業(yè)任務(wù)時,更具品味和創(chuàng)造力,能夠制作出更高質(zhì)量的界面、幻燈片和文檔。而且,盡管它的功能不如剛公布的最強模型 Claude Mythos Preview 全面,但在多項基準(zhǔn)測試中,它的表現(xiàn)都優(yōu)于 Opus 4.6:
![]()
可見 SWE-bench Pro 的分?jǐn)?shù)達(dá)到了 64.3%,遠(yuǎn)高于 GPT-5.4 的 57.7%。
Opus 4.7 已在所有 Claude 產(chǎn)品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平臺上推出。定價與 Opus 4.6 相同:每百萬個輸入 token 5 美元,每百萬個輸出 token 25 美元。開發(fā)者可通過 Claude API 使用。
根據(jù)目前大家的使用反饋,新模型更加嚴(yán)謹(jǐn),復(fù)雜任務(wù)的一致性也更強了,在最困難的編程任務(wù)上進(jìn)步明顯。當(dāng)然這也不是沒有代價的:
![]()
以下是 Opus 4.7 早期測試的一些亮點:
- 指令執(zhí)行能力,Opus 4.7 的表現(xiàn)有了顯著提升。有趣的是,這意味著之前版本編寫的提示信息現(xiàn)在有時可能會產(chǎn)生意想不到的結(jié)果:之前的版本對指令的解釋較為寬泛,甚至完全跳過某些部分,而 Opus 4.7 則會嚴(yán)格按照指令執(zhí)行。用戶應(yīng)據(jù)此調(diào)整提示信息和相關(guān)設(shè)置。
- 改進(jìn)的多模態(tài)支持。Opus 4.7 對高分辨率圖像的處理能力更強:它可以處理長邊高達(dá) 2576 像素(約 375 萬像素)的圖像,是之前 Claude 型號的三倍以上。這為依賴精細(xì)視覺細(xì)節(jié)的多模態(tài)應(yīng)用開辟了廣闊的空間:智能體可以讀取密集屏幕截圖、從復(fù)雜圖表中提取數(shù)據(jù)以及需要像素級精確參考的工作。
- 實際應(yīng)用能力提升。除了在財務(wù)代理評估中獲得領(lǐng)先水平(見上表)外,Anthropic 的內(nèi)部測試表明,Opus 4.7 比 Opus 4.6 更高效地進(jìn)行財務(wù)分析,能夠生成嚴(yán)謹(jǐn)?shù)姆治龊湍P停尸F(xiàn)更專業(yè)的演示文稿,并在各項任務(wù)之間實現(xiàn)更緊密的整合。Opus 4.7 在 GDPval-AA 評估中也處于領(lǐng)先水平。
- 內(nèi)存占用方面,Opus 4.7 更擅長利用文件系統(tǒng)內(nèi)存。它能記住長時間、多會話工作中的重要筆記,并利用這些筆記繼續(xù)執(zhí)行新的任務(wù),因此這些新任務(wù)對預(yù)先獲取的上下文信息要求更低。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
Claude Code 負(fù)責(zé)人 Boris Cherny 介紹了 Claude Opus 4.7 的一些最新特性。
1、自動模式
Opus 4.7 喜歡執(zhí)行復(fù)雜、長時間運行的任務(wù),比如深度研究、重構(gòu)代碼、構(gòu)建復(fù)雜功能、迭代直到達(dá)到性能基準(zhǔn)。過去,你要么得在模型執(zhí)行這類長時間任務(wù)時全程監(jiān)督,要么使用 --dangerously-skip-permissions。
自動模式作為一種更安全的替代方案,在這種模式下,權(quán)限提示會被路由到一個基于模型的分類器,來決定命令是否安全執(zhí)行。如果安全,它就會自動批準(zhǔn)。
這意味著模型運行時不再需要全程監(jiān)督。更重要的是,這意味著你可以并行運行更多 Claude。一旦一個 Claude 開始運行,你就可以將注意力轉(zhuǎn)向下一個 Claude。
![]()
2、新的 /fewer-permission-prompts 技能
它會掃描你的會話歷史記錄,找出常見的 bash 和 MCP 命令,這些命令是安全的,也導(dǎo)致了重復(fù)的權(quán)限提示。然后,它會推薦一個命令列表,將其添加到你的權(quán)限白名單中。
你可以使用此功能來優(yōu)化你的權(quán)限設(shè)置,避免不必要的權(quán)限提示。
3、「回顧」
回顧是對智能體所做的事情及下一步行動的簡短總結(jié),它可以在幾分鐘或幾小時后返回一個長時間運行的會話。
![]()
4、專注模式
CLI 中加入了專注模式,它會隱藏所有中間步驟,只專注于最終結(jié)果。新模型已經(jīng)達(dá)到了這樣一個程度,我們通常信任它會運行正確的命令并進(jìn)行正確的編輯,只需要查看最終結(jié)果。
你可以使用 /focus 進(jìn)行開關(guān)。
5、自適應(yīng)的思考深度
Opus 4.7 使用自適應(yīng)思考而非思考預(yù)算。要調(diào)整模型的思考多 / 少程度,Anthropic 推薦調(diào)整努力程度。
使用較低努力程度可獲得更快的響應(yīng)和更低的令牌使用量。使用較高努力程度可獲得最高智能和能力。
Boris Cherny 表示,大多數(shù)任務(wù)可以使用 xhigh 努力程度,對最困難的任務(wù)使用 max 努力程度。Max 僅適用于當(dāng)前的會話;其他努力程度是粘性的,并將在下一次會話中持續(xù)存在。
/effort 用于設(shè)置努力程度。
![]()
6、給 Claude 一個驗證其工作的方式
最后,確保 Claude 有一種驗證其工作的方式。這一直是一種能讓你從 Claude 獲得 2-3 倍產(chǎn)出的方法,而且在 4.7 版本中,這比以往任何時候都更重要。
驗證方式因任務(wù)而異。對于后端工作,確保 Claude 知道如何啟動您的服務(wù)器 / 服務(wù)來進(jìn)行端到端測試;對于前端工作,使用 Claude Chromium 擴(kuò)展程序,讓 Claude 能夠控制您的瀏覽器;對于桌面應(yīng)用,使用 computer use。
Boris Cherny 稱自己最近的許多提示都像這樣:「Claude 做 blah blah /go」。/go 是一種技能,它讓 Claude 1)使用 bash、瀏覽器或 computer use 進(jìn)行端到端自我測試;2)運行 /simplify 技能;3)提交一個 PR。
上周 Anthropic 發(fā)布了 「Project Glasswing」項目,重點闡述了人工智能模型在網(wǎng)絡(luò)安全領(lǐng)域的風(fēng)險與優(yōu)勢。Anthropic 宣布將限制 Claude Mythos Preview 的發(fā)布范圍,并首先在功能較弱的模型上測試新的網(wǎng)絡(luò)安全防護(hù)措施。
Opus 4.7 即是首個此類模型:其網(wǎng)絡(luò)安全能力不如 Mythos Preview(Anthropic 表示在訓(xùn)練過程中嘗試了多種方法來逐步降低其網(wǎng)絡(luò)安全能力)。發(fā)布時的 Opus 4.7 配備了安全防護(hù)措施,能夠自動檢測并阻止表明存在違禁或高風(fēng)險網(wǎng)絡(luò)安全用途的請求。
Anthropic 將從這些安全防護(hù)措施的實際部署中獲得經(jīng)驗,從而最終實現(xiàn) Mythos 級模型的廣泛發(fā)布目標(biāo)。
總體而言,Opus 4.7 的安全性能與 Opus 4.6 相似:Anthropic 的評估顯示,其出現(xiàn)欺騙、奉承和與濫用者合作等令人擔(dān)憂的行為的比例較低。在某些指標(biāo)上,例如誠實度和抵御惡意「快速注入」攻擊的能力,Opus 4.7 比 Opus 4.6 有所改進(jìn);但在其他指標(biāo),例如在管制藥物方面提供過于詳細(xì)的減害建議的傾向上 Opus 4.7 略有不足。
Anthropic 的一致性評估得出結(jié)論,該模型「總體上一致性良好且值得信賴,但其行為并非完全理想」。值得注意的是,根據(jù)評估,Mythos Preview 仍然是一致性最佳的模型。
![]()
根據(jù)自動化行為審核,總體行為偏差得分如上。
除了 Claude Opus 4.7 本身之外,Anthropic 還將推出以下更新:
更精細(xì)的難度控制:Opus 4.7 新增了一個介于 high 和 max 之間的 xhigh「超高」級別,使用戶能夠更精確地控制在解決難題時推理速度和延遲之間的權(quán)衡。在 Claude Code 中,Anthropic 已將所有套餐的默認(rèn)級別提升至 xhigh。在測試 Opus 4.7 的編碼和智能體應(yīng)用場景時,建議從 high 或 xhigh 級別開始。
在 Claude 平臺(API)上:除了支持更高分辨率的圖像外,Anthropic 還在公開測試版中推出了任務(wù)預(yù)算,讓開發(fā)者能夠引導(dǎo) Claude 的 token 支出,以便它可以優(yōu)先處理較長時間內(nèi)的工作。
在 Claude Code 中:新增的 /ultrareview 斜杠命令會創(chuàng)建一個專門的審查會話,讀取所有更改并標(biāo)記出細(xì)心的審查員能夠發(fā)現(xiàn)的錯誤和設(shè)計問題。Anthropic 為 Claude Code Pro 和 Max 用戶提供三次免費的超強審查機會供試用。Anthropic 還將自動模式擴(kuò)展到了 Max 用戶。自動模式是一項新的權(quán)限選項,Claude 會替你做出決策,這意味著可以運行更長時間的任務(wù),減少中斷,并且比人類選擇跳過所有權(quán)限的風(fēng)險更低。
Opus 4.7 是 Opus 4.6 的直接升級版,但有兩個變化值得關(guān)注,因為它們會影響 token 的使用。首先,Opus 4.7 使用了更新的分詞器,改進(jìn)了模型處理文本的方式。因此外界認(rèn)為它大概率是一個新的基礎(chǔ)模型,甚至可能是從 Mythos 提煉而來的。
但代價是,相同的輸入可能會映射到更多的詞元 —— 根據(jù)內(nèi)容類型的不同,大約增加 1.0 到 1.35 倍。其次,Opus 4.7 在高難度任務(wù)下會進(jìn)行更多思考,尤其是在主動語態(tài)場景的后期回合。這提高了模型在解決難題時的可靠性,但也意味著它會產(chǎn)生更多的輸出 token。
人們也發(fā)現(xiàn),Opus 4.7 的知識截止日期更新了:
![]()
用戶可以通過多種方式控制 token 的使用:例如使用工作量參數(shù)、調(diào)整任務(wù)預(yù)算或引導(dǎo)模型簡化代碼。在 Anthropic 自己的測試中,最終效果是積極的 —— 內(nèi)部編碼評估顯示,所有工作量級別的令牌使用率均有所提高(如下所示)—— 但 Anthropic 建議在實際流量上進(jìn)行評估。
Anthropic 還編寫了遷移指南(https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7),提供了從 Opus 4.6 升級到 Opus 4.7 的更多建議。
![]()
根據(jù)每個工作量級別下 token 使用情況,對內(nèi)部智能編碼評估進(jìn)行評分。在此評估中,模型在單個用戶提示下自主運行,因此結(jié)果可能無法代表交互式編碼中的 token 使用情況。
在 Opus 4.7 發(fā)布后,人們開始大規(guī)模測試評價,大多數(shù)使用者認(rèn)為新模型效果不錯,也有人表示其 token 消耗非常驚人(pro 問兩三個問題就沒額度了)。
同樣是在昨天晚上,千問開源了 Qwen3.6-35B-A3B(350 億參數(shù),激活 30 億),有人還表示,在自己 MacBook Pro M5 上通過 LM Studio(以及 llm-lmstudio 插件)運行的千問模型生成「鵜鶘騎自行車」效果要比 Opus 4.7 好。
![]()
當(dāng)然這不能就說明 Qwen3.6-35B-A3B 更強了。
更多的使用情況,還有待大家的進(jìn)一步驗證。
參考內(nèi)容:
https://www.anthropic.com/news/claude-opus-4-7
https://x.com/bcherny/status/2044847848035156457
https://qwen.ai/blog?id=qwen3.6-35b-a3b
https://simonwillison.net/2026/Apr/16/qwen-beats-opus/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.