網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Opus 4.7深夜炸場(chǎng)！勝任更長(zhǎng)任務(wù)、自主檢查，視覺能力拉滿

2026-04-17 12:08:22　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
編譯楊京麗
編輯李水青

智東西4月17日?qǐng)?bào)道，昨天夜間，Anthropic發(fā)布新一代旗艦大模型Claude Opus 4.7。

▲Anthropic發(fā)布新模型Claude Opus 4.7（圖源：X）

該模型在高級(jí)軟件工程方面相比Opus 4.6有顯著提升，尤其在處理最復(fù)雜的任務(wù)時(shí)提升明顯；高分辨率圖像處理能力大幅提升，是此前Claude模型的3倍以上；此外，Claude Code還同步新增了/ultrareview代碼審查命令，輸入后會(huì)啟動(dòng)審查會(huì)話，逐行檢查代碼變更。

用戶反饋稱，他們可以放心地將最難的編碼工作交給Opus 4.7處理。Opus 4.7能夠嚴(yán)謹(jǐn)一致地處理復(fù)雜的長(zhǎng)時(shí)間運(yùn)行任務(wù)，精確遵循指令，并在匯報(bào)結(jié)果之前自行驗(yàn)證輸出。

Opus 4.7今日起在所有Claude產(chǎn)品和API、Amazon Bedrock、谷歌云Vertex AI以及Microsoft Foundry上線。定價(jià)與Opus 4.6一致：輸入每百萬(wàn)token 5美元（約合人民幣34元），輸出每百萬(wàn)token 25美元（約合人民幣170.5元）。開發(fā)者可通過(guò)Claude API使用claude-opus-4-7。

不得不說(shuō)，Claude最近更新實(shí)在是快，大家都跟不上了，網(wǎng)友在Claude的評(píng)論區(qū)下面刷起了表情包，“兩眼一睜，Claude又更新了”。

▲網(wǎng)友評(píng)論Claude推文（圖源：X）

一、更嚴(yán)格執(zhí)行指令，多模態(tài)支持增強(qiáng)

測(cè)試中，Claude Opus 4.7在以下幾個(gè)方面表現(xiàn)突出，顯著超越Opus 4.6：

1、指令遵循。Opus 4.7在遵循指令方面有顯著提升。以前的模型會(huì)寬松地解讀指令或完全跳過(guò)部分內(nèi)容，而Opus 4.7會(huì)按字面意思執(zhí)行指令。用戶應(yīng)相應(yīng)地重新調(diào)優(yōu)提示詞和應(yīng)用框架。

2、多模態(tài)支持增強(qiáng)。Opus 4.7對(duì)高分辨率圖像的視覺能力更強(qiáng)：它可以接受長(zhǎng)邊最高2576像素（約375萬(wàn)像素）的圖像，是此前Claude模型的3倍以上。這為依賴精細(xì)視覺細(xì)節(jié)的多模態(tài)應(yīng)用開辟了廣闊的空間：比如用Agent操作電腦時(shí)識(shí)別密集的屏幕截圖、從復(fù)雜圖表中提取數(shù)據(jù)、以及需要像素級(jí)精度的設(shè)計(jì)工作等。

3、實(shí)際工作。除了在金融Agent評(píng)測(cè)中取得最優(yōu)成績(jī)外，Anthropic內(nèi)部測(cè)試顯示Opus 4.7是比Opus 4.6更有效的金融分析師，能產(chǎn)出更嚴(yán)謹(jǐn)?shù)姆治龊湍Ｐ汀⒏鼘I(yè)的演示文稿，能做到更緊密地進(jìn)行跨任務(wù)整合。Opus 4.7在金融、法律等領(lǐng)域的第三方經(jīng)濟(jì)價(jià)值知識(shí)工作評(píng)測(cè)GDPval-AA上也達(dá)到了最優(yōu)水平。

4、記憶能力。Opus 4.7在使用基于文件系統(tǒng)的記憶方面更強(qiáng)。它能在長(zhǎng)時(shí)間、多會(huì)話的工作中記住重要筆記，并利用這些記憶來(lái)推進(jìn)新任務(wù)，從而減少對(duì)前置上下文的需求。

▲Opus 4.7模型基準(zhǔn)測(cè)試表現(xiàn)（圖源：Anthropic）

Opus 4.7獲得了部分早期測(cè)試者的積極反饋。財(cái)務(wù)軟件公司Intuit技術(shù)副總裁Clarence Huang稱，該模型能在規(guī)劃階段自行發(fā)現(xiàn)邏輯錯(cuò)誤，執(zhí)行速度也遠(yuǎn)超前代。AI編程工具公司Augment Code的CTO Igor Ostrovsky則認(rèn)為，Opus 4.7的優(yōu)勢(shì)在于它能處理好實(shí)際工作中的自動(dòng)化流程、CI/CD（持續(xù)集成與部署）和長(zhǎng)任務(wù)流程，且會(huì)主動(dòng)給出自己的判斷，而非一味附和用戶。

二、多項(xiàng)測(cè)評(píng)領(lǐng)先，生物推理、文檔推理提升顯著

Anthropic在預(yù)發(fā)布測(cè)試中，針對(duì)不同領(lǐng)域?qū)pus 4.7進(jìn)行了測(cè)評(píng)，并對(duì)比了Opus 4.6、GPT-5.4和Gemini 3.1 Pro。

生物推理進(jìn)步最為明顯，Opus 4.7得分74.0%，Opus 4.6僅30.9%，提升了1.4倍。

文檔推理方面，Opus 4.7得分80.6%，遠(yuǎn)超Opus 4.6的57.1%，也大幅領(lǐng)先GPT-5.4（51.1%）和Gemini 3.1 Pro（42.9%），是橫評(píng)中差距最明顯的項(xiàng)目之一。

另外，知識(shí)工作方面，Opus 4.7以1753的Elo分?jǐn)?shù)排名第一，領(lǐng)先明顯，超過(guò)GPT-5.4（1674）、Opus 4.6（1619）、Gemini 3.1 Pro（1314）。

長(zhǎng)上下文推理方面，在處理較簡(jiǎn)單的父節(jié)點(diǎn)查找任務(wù)（Parents 1M）時(shí)，Opus 4.7得分75.1%，Opus 4.6為71.1%，差距不大；但處理更難的廣度優(yōu)先搜索任務(wù)（BFS 1M）時(shí)，Opus 4.7得分58.6%，Opus4.6僅41.2%，拉開了17個(gè)百分點(diǎn)。越難的任務(wù)，模型提升效果越明顯。

在安全與對(duì)齊方面，Anthropic還公布了各模型的錯(cuò)位行為評(píng)分。Opus 4.7的錯(cuò)位行為得分約為2.47（滿分10分，越低越好），略優(yōu)于Opus 4.6的2.75，但與Mythos Preview的1.78仍有明顯差距。

總體而言，Opus 4.7 的安全性能與 Opus 4.6 相似，其出現(xiàn)欺騙、奉承和與濫用者合作等行為比例較低。Anthropic對(duì)此評(píng)價(jià)：“Opus 4.7總體對(duì)齊良好且值得信賴，但行為并非完全理想。”目前，對(duì)齊表現(xiàn)最好的Mythos Preview尚未全面開放。

三、其他更新：新增xhigh等級(jí)、審查命令，任務(wù)預(yù)算進(jìn)入公測(cè)

除Opus 4.7本身外，Anthropic還同步推出了幾項(xiàng)功能更新。

推理等級(jí)方面，新增xhigh（extra high）等級(jí)，介于現(xiàn)有的high和max之間，讓用戶在推理深度和響應(yīng)速度之間有更細(xì)的調(diào)節(jié)空間。Claude Code的默認(rèn)推理等級(jí)已提升至xhigh。

API方面，任務(wù)預(yù)算功能進(jìn)入公測(cè)，開發(fā)者可以引導(dǎo)Claude在長(zhǎng)任務(wù)中如何分配token消耗。

Claude Code方面，新增/ultrareview命令，輸入后會(huì)啟動(dòng)一個(gè)專門的審查會(huì)話，逐行檢查代碼變更，并標(biāo)記Bug和設(shè)計(jì)問(wèn)題，Pro和Max用戶各贈(zèng)3次免費(fèi)體驗(yàn)。此外，Auto模式擴(kuò)展至Max用戶，該模式下Claude可自主做出操作決策，減少人工確認(rèn)中斷。

四、當(dāng)心Opus 4.7更費(fèi)token，但生成質(zhì)量更優(yōu)

Opus 4.7是Opus 4.6的直接升級(jí)版，但有兩個(gè)影響token用量的變化值得注意。

一是文本處理方式有更新，Opus 4.7相同輸入消耗的token最多增加約35%；二是模型在較高推理等級(jí)下會(huì)進(jìn)行更多思考，尤其在Agent場(chǎng)景的后續(xù)輪次中，Opus 4.7輸出token也會(huì)相應(yīng)增多。用戶可以通過(guò)調(diào)整推理等級(jí)、設(shè)置任務(wù)預(yù)算，或在提示詞中要求更簡(jiǎn)潔來(lái)控制用量。

從Agent編程評(píng)測(cè)圖表來(lái)看，Opus 4.7在每個(gè)推理等級(jí)上都以更少的token達(dá)到了更高的得分。例如Opus 4.7在xhigh等級(jí)下消耗約10萬(wàn)token，得分超過(guò)70%；而Opus 4.6在max等級(jí)下消耗約13萬(wàn)token，得分才剛過(guò)60%。不過(guò)，該評(píng)測(cè)中模型是根據(jù)單一提示自主工作，結(jié)果不一定能代表交互式編程中的實(shí)際token消耗。

結(jié)語(yǔ)：更準(zhǔn)確更全能，競(jìng)爭(zhēng)對(duì)手將至

從Anthropic公布的數(shù)據(jù)來(lái)看，Opus 4.7在編程、文檔推理、生物推理等多個(gè)基準(zhǔn)上的提升是實(shí)打?qū)嵉模瑃oken效率也有所提升。但測(cè)評(píng)終歸是測(cè)評(píng)，實(shí)際表現(xiàn)還需要在真實(shí)場(chǎng)景中進(jìn)一步驗(yàn)證。

隨著Opus 4.7的發(fā)布，OpenAI后續(xù)又會(huì)做出哪些新動(dòng)作，大家期待已久的DeepSeek月底會(huì)不會(huì)發(fā)布新模型，大模型廠商的競(jìng)爭(zhēng)可謂是越來(lái)越有意思了。

來(lái)源：Anthropic

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.