Claude Opus 4.7深夜上線，評分碾壓

2026-04-17 10:08:00　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

想不到，風(fēng)口浪尖上的 Claude 又大更新了。

周四晚間，Anthropic 宣布旗下最新款基礎(chǔ)模型 Claude Opus 4.7 全面上市。

Opus 4.7 在高級軟件工程方面相比 Opus 4.6 有了顯著提升，尤其是在處理最復(fù)雜的任務(wù)方面。用戶反饋表示，他們現(xiàn)在可以放心地將以前需要密切監(jiān)督的最棘手的編碼工作交給 Opus 4.7 處理。Opus 4.7 能夠嚴(yán)謹(jǐn)且一致地處理復(fù)雜、耗時的任務(wù)，精準(zhǔn)地執(zhí)行指令，并在返回結(jié)果之前設(shè)計出驗證自身輸出的方法。

該模型還擁有明顯更佳的視覺效果：它能夠識別更高分辨率的圖像，完成專業(yè)任務(wù)時，更具品味和創(chuàng)造力，能夠制作出更高質(zhì)量的界面、幻燈片和文檔。而且，盡管它的功能不如剛公布的最強模型 Claude Mythos Preview 全面，但在多項基準(zhǔn)測試中，它的表現(xiàn)都優(yōu)于 Opus 4.6：

可見 SWE-bench Pro 的分?jǐn)?shù)達(dá)到了 64.3%，遠(yuǎn)高于 GPT-5.4 的 57.7%。

Opus 4.7 已在所有 Claude 產(chǎn)品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平臺上推出。定價與 Opus 4.6 相同：每百萬個輸入 token 5 美元，每百萬個輸出 token 25 美元。開發(fā)者可通過 Claude API 使用。

根據(jù)目前大家的使用反饋，新模型更加嚴(yán)謹(jǐn)，復(fù)雜任務(wù)的一致性也更強了，在最困難的編程任務(wù)上進(jìn)步明顯。當(dāng)然這也不是沒有代價的：

以下是 Opus 4.7 早期測試的一些亮點：

指令執(zhí)行能力，Opus 4.7 的表現(xiàn)有了顯著提升。有趣的是，這意味著之前版本編寫的提示信息現(xiàn)在有時可能會產(chǎn)生意想不到的結(jié)果：之前的版本對指令的解釋較為寬泛，甚至完全跳過某些部分，而 Opus 4.7 則會嚴(yán)格按照指令執(zhí)行。用戶應(yīng)據(jù)此調(diào)整提示信息和相關(guān)設(shè)置。
改進(jìn)的多模態(tài)支持。Opus 4.7 對高分辨率圖像的處理能力更強：它可以處理長邊高達(dá) 2576 像素（約 375 萬像素）的圖像，是之前 Claude 型號的三倍以上。這為依賴精細(xì)視覺細(xì)節(jié)的多模態(tài)應(yīng)用開辟了廣闊的空間：智能體可以讀取密集屏幕截圖、從復(fù)雜圖表中提取數(shù)據(jù)以及需要像素級精確參考的工作。
實際應(yīng)用能力提升。除了在財務(wù)代理評估中獲得領(lǐng)先水平（見上表）外，Anthropic 的內(nèi)部測試表明，Opus 4.7 比 Opus 4.6 更高效地進(jìn)行財務(wù)分析，能夠生成嚴(yán)謹(jǐn)?shù)姆治龊湍Ｐ停尸F(xiàn)更專業(yè)的演示文稿，并在各項任務(wù)之間實現(xiàn)更緊密的整合。Opus 4.7 在 GDPval-AA 評估中也處于領(lǐng)先水平。
內(nèi)存占用方面，Opus 4.7 更擅長利用文件系統(tǒng)內(nèi)存。它能記住長時間、多會話工作中的重要筆記，并利用這些筆記繼續(xù)執(zhí)行新的任務(wù)，因此這些新任務(wù)對預(yù)先獲取的上下文信息要求更低。

Claude Code 負(fù)責(zé)人 Boris Cherny 介紹了 Claude Opus 4.7 的一些最新特性。

1、自動模式

Opus 4.7 喜歡執(zhí)行復(fù)雜、長時間運行的任務(wù)，比如深度研究、重構(gòu)代碼、構(gòu)建復(fù)雜功能、迭代直到達(dá)到性能基準(zhǔn)。過去，你要么得在模型執(zhí)行這類長時間任務(wù)時全程監(jiān)督，要么使用 --dangerously-skip-permissions。

自動模式作為一種更安全的替代方案，在這種模式下，權(quán)限提示會被路由到一個基于模型的分類器，來決定命令是否安全執(zhí)行。如果安全，它就會自動批準(zhǔn)。

這意味著模型運行時不再需要全程監(jiān)督。更重要的是，這意味著你可以并行運行更多 Claude。一旦一個 Claude 開始運行，你就可以將注意力轉(zhuǎn)向下一個 Claude。

2、新的 /fewer-permission-prompts 技能

它會掃描你的會話歷史記錄，找出常見的 bash 和 MCP 命令，這些命令是安全的，也導(dǎo)致了重復(fù)的權(quán)限提示。然后，它會推薦一個命令列表，將其添加到你的權(quán)限白名單中。

你可以使用此功能來優(yōu)化你的權(quán)限設(shè)置，避免不必要的權(quán)限提示。

3、「回顧」

回顧是對智能體所做的事情及下一步行動的簡短總結(jié)，它可以在幾分鐘或幾小時后返回一個長時間運行的會話。

4、專注模式

CLI 中加入了專注模式，它會隱藏所有中間步驟，只專注于最終結(jié)果。新模型已經(jīng)達(dá)到了這樣一個程度，我們通常信任它會運行正確的命令并進(jìn)行正確的編輯，只需要查看最終結(jié)果。

你可以使用 /focus 進(jìn)行開關(guān)。

5、自適應(yīng)的思考深度

Opus 4.7 使用自適應(yīng)思考而非思考預(yù)算。要調(diào)整模型的思考多 / 少程度，Anthropic 推薦調(diào)整努力程度。

使用較低努力程度可獲得更快的響應(yīng)和更低的令牌使用量。使用較高努力程度可獲得最高智能和能力。

Boris Cherny 表示，大多數(shù)任務(wù)可以使用 xhigh 努力程度，對最困難的任務(wù)使用 max 努力程度。Max 僅適用于當(dāng)前的會話；其他努力程度是粘性的，并將在下一次會話中持續(xù)存在。

/effort 用于設(shè)置努力程度。

6、給 Claude 一個驗證其工作的方式

最后，確保 Claude 有一種驗證其工作的方式。這一直是一種能讓你從 Claude 獲得 2-3 倍產(chǎn)出的方法，而且在 4.7 版本中，這比以往任何時候都更重要。

驗證方式因任務(wù)而異。對于后端工作，確保 Claude 知道如何啟動您的服務(wù)器 / 服務(wù)來進(jìn)行端到端測試；對于前端工作，使用 Claude Chromium 擴(kuò)展程序，讓 Claude 能夠控制您的瀏覽器；對于桌面應(yīng)用，使用 computer use。

Boris Cherny 稱自己最近的許多提示都像這樣：「Claude 做 blah blah /go」。/go 是一種技能，它讓 Claude 1）使用 bash、瀏覽器或 computer use 進(jìn)行端到端自我測試；2）運行 /simplify 技能；3）提交一個 PR。

上周 Anthropic 發(fā)布了「Project Glasswing」項目，重點闡述了人工智能模型在網(wǎng)絡(luò)安全領(lǐng)域的風(fēng)險與優(yōu)勢。Anthropic 宣布將限制 Claude Mythos Preview 的發(fā)布范圍，并首先在功能較弱的模型上測試新的網(wǎng)絡(luò)安全防護(hù)措施。

Opus 4.7 即是首個此類模型：其網(wǎng)絡(luò)安全能力不如 Mythos Preview（Anthropic 表示在訓(xùn)練過程中嘗試了多種方法來逐步降低其網(wǎng)絡(luò)安全能力）。發(fā)布時的 Opus 4.7 配備了安全防護(hù)措施，能夠自動檢測并阻止表明存在違禁或高風(fēng)險網(wǎng)絡(luò)安全用途的請求。

Anthropic 將從這些安全防護(hù)措施的實際部署中獲得經(jīng)驗，從而最終實現(xiàn) Mythos 級模型的廣泛發(fā)布目標(biāo)。

總體而言，Opus 4.7 的安全性能與 Opus 4.6 相似：Anthropic 的評估顯示，其出現(xiàn)欺騙、奉承和與濫用者合作等令人擔(dān)憂的行為的比例較低。在某些指標(biāo)上，例如誠實度和抵御惡意「快速注入」攻擊的能力，Opus 4.7 比 Opus 4.6 有所改進(jìn)；但在其他指標(biāo)，例如在管制藥物方面提供過于詳細(xì)的減害建議的傾向上 Opus 4.7 略有不足。

Anthropic 的一致性評估得出結(jié)論，該模型「總體上一致性良好且值得信賴，但其行為并非完全理想」。值得注意的是，根據(jù)評估，Mythos Preview 仍然是一致性最佳的模型。

根據(jù)自動化行為審核，總體行為偏差得分如上。

除了 Claude Opus 4.7 本身之外，Anthropic 還將推出以下更新：

更精細(xì)的難度控制：Opus 4.7 新增了一個介于 high 和 max 之間的 xhigh「超高」級別，使用戶能夠更精確地控制在解決難題時推理速度和延遲之間的權(quán)衡。在 Claude Code 中，Anthropic 已將所有套餐的默認(rèn)級別提升至 xhigh。在測試 Opus 4.7 的編碼和智能體應(yīng)用場景時，建議從 high 或 xhigh 級別開始。

在 Claude 平臺（API）上：除了支持更高分辨率的圖像外，Anthropic 還在公開測試版中推出了任務(wù)預(yù)算，讓開發(fā)者能夠引導(dǎo) Claude 的 token 支出，以便它可以優(yōu)先處理較長時間內(nèi)的工作。

在 Claude Code 中：新增的 /ultrareview 斜杠命令會創(chuàng)建一個專門的審查會話，讀取所有更改并標(biāo)記出細(xì)心的審查員能夠發(fā)現(xiàn)的錯誤和設(shè)計問題。Anthropic 為 Claude Code Pro 和 Max 用戶提供三次免費的超強審查機會供試用。Anthropic 還將自動模式擴(kuò)展到了 Max 用戶。自動模式是一項新的權(quán)限選項，Claude 會替你做出決策，這意味著可以運行更長時間的任務(wù)，減少中斷，并且比人類選擇跳過所有權(quán)限的風(fēng)險更低。

Opus 4.7 是 Opus 4.6 的直接升級版，但有兩個變化值得關(guān)注，因為它們會影響 token 的使用。首先，Opus 4.7 使用了更新的分詞器，改進(jìn)了模型處理文本的方式。因此外界認(rèn)為它大概率是一個新的基礎(chǔ)模型，甚至可能是從 Mythos 提煉而來的。

但代價是，相同的輸入可能會映射到更多的詞元 —— 根據(jù)內(nèi)容類型的不同，大約增加 1.0 到 1.35 倍。其次，Opus 4.7 在高難度任務(wù)下會進(jìn)行更多思考，尤其是在主動語態(tài)場景的后期回合。這提高了模型在解決難題時的可靠性，但也意味著它會產(chǎn)生更多的輸出 token。

人們也發(fā)現(xiàn)，Opus 4.7 的知識截止日期更新了：

用戶可以通過多種方式控制 token 的使用：例如使用工作量參數(shù)、調(diào)整任務(wù)預(yù)算或引導(dǎo)模型簡化代碼。在 Anthropic 自己的測試中，最終效果是積極的 —— 內(nèi)部編碼評估顯示，所有工作量級別的令牌使用率均有所提高（如下所示）—— 但 Anthropic 建議在實際流量上進(jìn)行評估。

Anthropic 還編寫了遷移指南（https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7），提供了從 Opus 4.6 升級到 Opus 4.7 的更多建議。

根據(jù)每個工作量級別下 token 使用情況，對內(nèi)部智能編碼評估進(jìn)行評分。在此評估中，模型在單個用戶提示下自主運行，因此結(jié)果可能無法代表交互式編碼中的 token 使用情況。

在 Opus 4.7 發(fā)布后，人們開始大規(guī)模測試評價，大多數(shù)使用者認(rèn)為新模型效果不錯，也有人表示其 token 消耗非常驚人（pro 問兩三個問題就沒額度了）。

同樣是在昨天晚上，千問開源了 Qwen3.6-35B-A3B（350 億參數(shù)，激活 30 億），有人還表示，在自己 MacBook Pro M5 上通過 LM Studio（以及 llm-lmstudio 插件）運行的千問模型生成「鵜鶘騎自行車」效果要比 Opus 4.7 好。

當(dāng)然這不能就說明 Qwen3.6-35B-A3B 更強了。

更多的使用情況，還有待大家的進(jìn)一步驗證。

參考內(nèi)容：

https://www.anthropic.com/news/claude-opus-4-7

https://x.com/bcherny/status/2044847848035156457

https://qwen.ai/blog?id=qwen3.6-35b-a3b

https://simonwillison.net/2026/Apr/16/qwen-beats-opus/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.