![]()
智東西
編譯 楊京麗
編輯 李水青
智東西4月17日?qǐng)?bào)道,昨天夜間,Anthropic發(fā)布新一代旗艦大模型Claude Opus 4.7。
![]()
▲Anthropic發(fā)布新模型Claude Opus 4.7(圖源:X)
該模型在高級(jí)軟件工程方面相比Opus 4.6有顯著提升,尤其在處理最復(fù)雜的任務(wù)時(shí)提升明顯;高分辨率圖像處理能力大幅提升,是此前Claude模型的3倍以上;此外,Claude Code還同步新增了/ultrareview代碼審查命令,輸入后會(huì)啟動(dòng)審查會(huì)話,逐行檢查代碼變更。
用戶反饋稱,他們可以放心地將最難的編碼工作交給Opus 4.7處理。Opus 4.7能夠嚴(yán)謹(jǐn)一致地處理復(fù)雜的長(zhǎng)時(shí)間運(yùn)行任務(wù),精確遵循指令,并在匯報(bào)結(jié)果之前自行驗(yàn)證輸出。
Opus 4.7今日起在所有Claude產(chǎn)品和API、Amazon Bedrock、谷歌云Vertex AI以及Microsoft Foundry上線。定價(jià)與Opus 4.6一致:輸入每百萬(wàn)token 5美元(約合人民幣34元),輸出每百萬(wàn)token 25美元(約合人民幣170.5元)。開發(fā)者可通過(guò)Claude API使用claude-opus-4-7。
不得不說(shuō),Claude最近更新實(shí)在是快,大家都跟不上了,網(wǎng)友在Claude的評(píng)論區(qū)下面刷起了表情包,“兩眼一睜,Claude又更新了”。
![]()
▲網(wǎng)友評(píng)論Claude推文(圖源:X)
一、更嚴(yán)格執(zhí)行指令,多模態(tài)支持增強(qiáng)
測(cè)試中,Claude Opus 4.7在以下幾個(gè)方面表現(xiàn)突出,顯著超越Opus 4.6:
1、指令遵循。Opus 4.7在遵循指令方面有顯著提升。以前的模型會(huì)寬松地解讀指令或完全跳過(guò)部分內(nèi)容,而Opus 4.7會(huì)按字面意思執(zhí)行指令。用戶應(yīng)相應(yīng)地重新調(diào)優(yōu)提示詞和應(yīng)用框架。
2、多模態(tài)支持增強(qiáng)。Opus 4.7對(duì)高分辨率圖像的視覺能力更強(qiáng):它可以接受長(zhǎng)邊最高2576像素(約375萬(wàn)像素)的圖像,是此前Claude模型的3倍以上。這為依賴精細(xì)視覺細(xì)節(jié)的多模態(tài)應(yīng)用開辟了廣闊的空間:比如用Agent操作電腦時(shí)識(shí)別密集的屏幕截圖、從復(fù)雜圖表中提取數(shù)據(jù)、以及需要像素級(jí)精度的設(shè)計(jì)工作等。
3、實(shí)際工作。除了在金融Agent評(píng)測(cè)中取得最優(yōu)成績(jī)外,Anthropic內(nèi)部測(cè)試顯示Opus 4.7是比Opus 4.6更有效的金融分析師,能產(chǎn)出更嚴(yán)謹(jǐn)?shù)姆治龊湍P汀⒏鼘I(yè)的演示文稿,能做到更緊密地進(jìn)行跨任務(wù)整合。Opus 4.7在金融、法律等領(lǐng)域的第三方經(jīng)濟(jì)價(jià)值知識(shí)工作評(píng)測(cè)GDPval-AA上也達(dá)到了最優(yōu)水平。
4、記憶能力。Opus 4.7在使用基于文件系統(tǒng)的記憶方面更強(qiáng)。它能在長(zhǎng)時(shí)間、多會(huì)話的工作中記住重要筆記,并利用這些記憶來(lái)推進(jìn)新任務(wù),從而減少對(duì)前置上下文的需求。
![]()
▲Opus 4.7模型基準(zhǔn)測(cè)試表現(xiàn)(圖源:Anthropic)
Opus 4.7獲得了部分早期測(cè)試者的積極反饋。財(cái)務(wù)軟件公司Intuit技術(shù)副總裁Clarence Huang稱,該模型能在規(guī)劃階段自行發(fā)現(xiàn)邏輯錯(cuò)誤,執(zhí)行速度也遠(yuǎn)超前代。AI編程工具公司Augment Code的CTO Igor Ostrovsky則認(rèn)為,Opus 4.7的優(yōu)勢(shì)在于它能處理好實(shí)際工作中的自動(dòng)化流程、CI/CD(持續(xù)集成與部署)和長(zhǎng)任務(wù)流程,且會(huì)主動(dòng)給出自己的判斷,而非一味附和用戶。
二、多項(xiàng)測(cè)評(píng)領(lǐng)先,生物推理、文檔推理提升顯著
Anthropic在預(yù)發(fā)布測(cè)試中,針對(duì)不同領(lǐng)域?qū)pus 4.7進(jìn)行了測(cè)評(píng),并對(duì)比了Opus 4.6、GPT-5.4和Gemini 3.1 Pro。
![]()
生物推理進(jìn)步最為明顯,Opus 4.7得分74.0%,Opus 4.6僅30.9%,提升了1.4倍。
![]()
文檔推理方面,Opus 4.7得分80.6%,遠(yuǎn)超Opus 4.6的57.1%,也大幅領(lǐng)先GPT-5.4(51.1%)和Gemini 3.1 Pro(42.9%),是橫評(píng)中差距最明顯的項(xiàng)目之一。
![]()
另外,知識(shí)工作方面,Opus 4.7以1753的Elo分?jǐn)?shù)排名第一,領(lǐng)先明顯,超過(guò)GPT-5.4(1674)、Opus 4.6(1619)、Gemini 3.1 Pro(1314)。
![]()
長(zhǎng)上下文推理方面,在處理較簡(jiǎn)單的父節(jié)點(diǎn)查找任務(wù)(Parents 1M)時(shí),Opus 4.7得分75.1%,Opus 4.6為71.1%,差距不大;但處理更難的廣度優(yōu)先搜索任務(wù)(BFS 1M)時(shí),Opus 4.7得分58.6%,Opus4.6僅41.2%,拉開了17個(gè)百分點(diǎn)。越難的任務(wù),模型提升效果越明顯。
![]()
在安全與對(duì)齊方面,Anthropic還公布了各模型的錯(cuò)位行為評(píng)分。Opus 4.7的錯(cuò)位行為得分約為2.47(滿分10分,越低越好),略優(yōu)于Opus 4.6的2.75,但與Mythos Preview的1.78仍有明顯差距。
總體而言,Opus 4.7 的安全性能與 Opus 4.6 相似,其出現(xiàn)欺騙、奉承和與濫用者合作等行為比例較低。Anthropic對(duì)此評(píng)價(jià):“Opus 4.7總體對(duì)齊良好且值得信賴,但行為并非完全理想。”目前,對(duì)齊表現(xiàn)最好的Mythos Preview尚未全面開放。
三、其他更新:新增xhigh等級(jí)、審查命令,任務(wù)預(yù)算進(jìn)入公測(cè)
除Opus 4.7本身外,Anthropic還同步推出了幾項(xiàng)功能更新。
推理等級(jí)方面,新增xhigh(extra high)等級(jí),介于現(xiàn)有的high和max之間,讓用戶在推理深度和響應(yīng)速度之間有更細(xì)的調(diào)節(jié)空間。Claude Code的默認(rèn)推理等級(jí)已提升至xhigh。
API方面,任務(wù)預(yù)算功能進(jìn)入公測(cè),開發(fā)者可以引導(dǎo)Claude在長(zhǎng)任務(wù)中如何分配token消耗。
Claude Code方面,新增/ultrareview命令,輸入后會(huì)啟動(dòng)一個(gè)專門的審查會(huì)話,逐行檢查代碼變更,并標(biāo)記Bug和設(shè)計(jì)問(wèn)題,Pro和Max用戶各贈(zèng)3次免費(fèi)體驗(yàn)。此外,Auto模式擴(kuò)展至Max用戶,該模式下Claude可自主做出操作決策,減少人工確認(rèn)中斷。
四、當(dāng)心Opus 4.7更費(fèi)token,但生成質(zhì)量更優(yōu)
Opus 4.7是Opus 4.6的直接升級(jí)版,但有兩個(gè)影響token用量的變化值得注意。
一是文本處理方式有更新,Opus 4.7相同輸入消耗的token最多增加約35%;二是模型在較高推理等級(jí)下會(huì)進(jìn)行更多思考,尤其在Agent場(chǎng)景的后續(xù)輪次中,Opus 4.7輸出token也會(huì)相應(yīng)增多。用戶可以通過(guò)調(diào)整推理等級(jí)、設(shè)置任務(wù)預(yù)算,或在提示詞中要求更簡(jiǎn)潔來(lái)控制用量。
![]()
從Agent編程評(píng)測(cè)圖表來(lái)看,Opus 4.7在每個(gè)推理等級(jí)上都以更少的token達(dá)到了更高的得分。例如Opus 4.7在xhigh等級(jí)下消耗約10萬(wàn)token,得分超過(guò)70%;而Opus 4.6在max等級(jí)下消耗約13萬(wàn)token,得分才剛過(guò)60%。不過(guò),該評(píng)測(cè)中模型是根據(jù)單一提示自主工作,結(jié)果不一定能代表交互式編程中的實(shí)際token消耗。
結(jié)語(yǔ):更準(zhǔn)確更全能,競(jìng)爭(zhēng)對(duì)手將至
從Anthropic公布的數(shù)據(jù)來(lái)看,Opus 4.7在編程、文檔推理、生物推理等多個(gè)基準(zhǔn)上的提升是實(shí)打?qū)嵉模瑃oken效率也有所提升。但測(cè)評(píng)終歸是測(cè)評(píng),實(shí)際表現(xiàn)還需要在真實(shí)場(chǎng)景中進(jìn)一步驗(yàn)證。
隨著Opus 4.7的發(fā)布,OpenAI后續(xù)又會(huì)做出哪些新動(dòng)作,大家期待已久的DeepSeek月底會(huì)不會(huì)發(fā)布新模型,大模型廠商的競(jìng)爭(zhēng)可謂是越來(lái)越有意思了。
來(lái)源:Anthropic
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.