![]()
機(jī)器之心報(bào)道
機(jī)器之心編輯部
如昨日預(yù)期一樣,Anthropic 正式發(fā)布了最新模型 Claude Opus 4.5。
![]()
根據(jù)介紹,Claude Opus 4.5 非常智能高效,在編程、智能體以及計(jì)算機(jī)操作方面表現(xiàn)卓越,是當(dāng)今世界最優(yōu)秀的模型。該模型在深度研究、處理幻燈片與電子表格等日常任務(wù)上也有顯著提升。
該模型標(biāo)志著 AI 系統(tǒng)化能力的進(jìn)一步躍升,也預(yù)示著未來(lái)工作方式即將迎來(lái)更深刻的變革。如下圖所示,Claude Opus 4.5 在真實(shí)世界軟件工程測(cè)試中達(dá)到了行業(yè) SOTA 水平,超越了 GPT-5.1-Codex-Max、Gemini 3 Pro 以及自家 Sonnet 4.5
![]()
自今日起,Claude Opus 4.5 即可以通過(guò) Claude app、API 以及三大主流云平臺(tái)訪問(wèn)。如果你是開(kāi)發(fā)者,只需通過(guò) Claude API 使用 claude-opus-4-5-20251101 即可。
關(guān)于價(jià)格,Claude Opus 4.5 的最新定價(jià)為每百萬(wàn) Token 5/25 美元(輸入 / 輸出),使更多用戶、團(tuán)隊(duì)和企業(yè)都能輕松獲得 Opus 級(jí)別的能力。可以看到,與上代 Opus 4.1 相比,API 定價(jià)降低了 2/3
![]()
與 Claude Opus 4.5 同步,Anthropic 還更新了 Claude 開(kāi)發(fā)者平臺(tái)、Claude Code 以及消費(fèi)者應(yīng)用,推出了適用于更長(zhǎng)時(shí)長(zhǎng)運(yùn)行的智能體新工具。其中,在 Claude app 中,長(zhǎng)對(duì)話不再會(huì)輕易遇到限制。
Claude Code 現(xiàn)已登陸桌面應(yīng)用,用戶可以并行運(yùn)行多個(gè)會(huì)話,比如編程、研究和更新工作。隨著 Claude Opus 4.5 的推出,Plan Mode 也獲得了升級(jí):一開(kāi)始提出澄清性問(wèn)題,隨后即可自主開(kāi)展工作。
![]()
Anthropic 提供了在 Excel、Chrome 和桌面端使用 Claude 的全新方式。Max、Team 和 Enterprise 用戶可以直接在 Excel 中使用最新模型
![]()
基準(zhǔn)測(cè)試多項(xiàng)最新 SOTA
根據(jù) Anthropic 的介紹,他們提供了一份眾所周知極其困難的居家測(cè)試(take-home exam),同時(shí)也將這份測(cè)試用作新模型的內(nèi)部基準(zhǔn)評(píng)估。在規(guī)定的兩小時(shí)限時(shí)內(nèi),Claude Opus 4.5 的得分超過(guò)了迄今為止所有參加過(guò)該測(cè)試的人類候選人
這份居家測(cè)試旨在評(píng)估候選人(包括 AI 大模型)在時(shí)間壓力下的技術(shù)能力與判斷力,但并不衡量如協(xié)作、溝通,或多年經(jīng)驗(yàn)中積累的職業(yè)直覺(jué)等其他關(guān)鍵技能。然而,這一結(jié)果 —— 即 AI 模型在重要技術(shù)能力上超越實(shí)力強(qiáng)勁的候選人 —— 引發(fā)了關(guān)于人工智能將如何改變工程職業(yè)的思考。
軟件工程并不是 Claude Opus 4.5 唯一取得顯著提升的領(lǐng)域。這一代模型在整體能力上全線增強(qiáng),在視覺(jué)、推理和數(shù)學(xué)方面均優(yōu)于前代模型,并在許多領(lǐng)域達(dá)到了當(dāng)前 SOTA 水平,包括智能體編程、智能體終端編程、智能體工具使用、可擴(kuò)展的工具使用、計(jì)算機(jī)操作、解決新型問(wèn)題的能力
![]()
Claude Opus 4.5 具備更出色的代碼生成能力,在 SWE-bench Multilingual 基準(zhǔn)中,在 8 種編程語(yǔ)言中的 7 種上表現(xiàn)領(lǐng)先。
![]()
Claude Opus 4.5 能夠輕松解決高難度的編碼問(wèn)題,并在 Aider Polyglot 基準(zhǔn)上相比 Sonnet 4.5 實(shí)現(xiàn)了 10.6% 的提升。
![]()
Claude Opus 4.5 在前沿的智能體搜索能力上取得了顯著進(jìn)步,在 BrowseComp-Plus 基準(zhǔn)上有明顯提升。
![]()
同時(shí),Claude Opus 4.5 在長(zhǎng)程任務(wù)上的穩(wěn)定性也更強(qiáng),在 Vending-Bench 基準(zhǔn)中相較于 Sonnet 4.5 實(shí)現(xiàn)了 29% 的提升。
![]()
Anthropic 表示,Claude Opus 4.5 的能力已經(jīng)在某些測(cè)試項(xiàng)目上超出了現(xiàn)有基準(zhǔn)的衡量范圍。一個(gè)常用的智能體能力基準(zhǔn)是 τ^2-bench,它用于評(píng)估智能體在真實(shí)場(chǎng)景、多輪任務(wù)中的表現(xiàn)。
![]()
圖源:https://github.com/sierra-research/tau2-bench
在其中一個(gè)情境中,模型需要扮演航空公司客服代理,幫助一位處于困境的旅客。根據(jù)基準(zhǔn)設(shè)定,由于航空公司不允許更改基礎(chǔ)經(jīng)濟(jì)艙的機(jī)票,模型應(yīng)當(dāng)拒絕旅客的改簽請(qǐng)求。然而,Claude Opus 4.5 找到了一個(gè)富有洞察力且合法的解決方式:先升級(jí)艙位,再對(duì)航班進(jìn)行修改。
![]()
從技術(shù)上講,由于 Claude 的解決方式不在基準(zhǔn)預(yù)設(shè)范圍內(nèi),這一表現(xiàn)被系統(tǒng)判定為失敗。但這種具有創(chuàng)造性的解決問(wèn)題方式,正是 Anthropic 從測(cè)試者和客戶那里頻繁聽(tīng)到的反饋,也是讓 Claude Opus 4.5 被認(rèn)為是一次有意義躍升的關(guān)鍵特質(zhì)。
當(dāng)然,在其他情境中,繞開(kāi)預(yù)期約束的巧妙做法也可能被視為一種「獎(jiǎng)勵(lì)規(guī)避」(reward hacking),即模型以非預(yù)期方式「鉆規(guī)則空子」。
Claude 開(kāi)發(fā)者平臺(tái)新變化
隨著模型變得更智能,它們能夠用更少的步驟解決問(wèn)題:更少的回溯、更少的重復(fù)探索、更簡(jiǎn)潔的推理。為達(dá)到相同或更好的結(jié)果,Claude Opus 4.5 使用的 token 數(shù)量相比前代大幅減少。
但是,不同任務(wù)需要在速度、成本和能力之間做出不同取舍。有時(shí)開(kāi)發(fā)者希望模型持續(xù)深思某個(gè)問(wèn)題,有時(shí)則希望模型更加輕量迅捷。通過(guò) Anthropic 在 Claude API 中新增的 effort 參數(shù),開(kāi)發(fā)者可以自行決定是要最小化時(shí)間與成本,還是要最大化模型能力。
在中等 effort 設(shè)定下,Opus 4.5 能達(dá)到與 Sonnet 4.5 在 SWE-bench Verified 中相同的最佳成績(jī),但輸出 token 使用量減少了 76%。在最高 effort 設(shè)定下,Opus 4.5 的表現(xiàn)比 Sonnet 4.5 高出 4.3 個(gè)百分點(diǎn),同時(shí)輸出 token 使用量仍減少了 48%。
![]()
通過(guò)effort 控制、上下文壓縮以及更先進(jìn)的工具使用能力,Claude Opus 4.5 能運(yùn)行更長(zhǎng)時(shí)間、完成更多任務(wù),并且需要更少的人為干預(yù)。
上下文管理與記憶能力能夠顯著提升模型在智能體任務(wù)中的表現(xiàn)。Claude Opus 4.5 同樣非常擅長(zhǎng)管理由多個(gè)子智能體組成的團(tuán)隊(duì),從而支持構(gòu)建復(fù)雜且協(xié)調(diào)良好的多智能體系統(tǒng)。在測(cè)試中,通過(guò)結(jié)合使用這些技術(shù),Opus 4.5 在一項(xiàng)深度研究評(píng)估中的表現(xiàn)提升了近 15 個(gè)百分點(diǎn)
Anthropic 也在逐步增強(qiáng)開(kāi)發(fā)者平臺(tái)的可組合性。目標(biāo)是為開(kāi)發(fā)者提供所需的各種構(gòu)建模塊,從而可以完全掌控效率、工具使用方式以及上下文管理,精準(zhǔn)構(gòu)建所需的系統(tǒng)。
![]()
安全性進(jìn)一步提升
Anthropic 表示,Claude Opus 4.5 是其迄今發(fā)布的在對(duì)齊方面最為穩(wěn)健的模型,也可能是目前各家前沿模型中對(duì)齊度最高的之一。該模型延續(xù)了 Anthropic 在打造更安全、更可靠模型方面的趨勢(shì):
在 Anthropic 的評(píng)估中,「令人擔(dān)憂的行為」分?jǐn)?shù)衡量了范圍非常廣泛的非對(duì)齊表現(xiàn),其中既包括模型配合人類進(jìn)行不當(dāng)使用,也包括模型在自身主動(dòng)性下做出的不良行為。
![]()
Claude Opus 4.5 在抵御提示注入攻擊方面取得了實(shí)質(zhì)性的進(jìn)展,提示注入會(huì)通過(guò)夾帶欺騙性指令來(lái)誤導(dǎo)模型做出有害行為。而 Opus 4.5 在這類攻擊上的穩(wěn)健性顯著增強(qiáng),是目前行業(yè)中最不容易被提示注入欺騙的前沿模型之一。
![]()
該基準(zhǔn)僅包含強(qiáng)度極高的提示注入攻擊,由 Gray Swan 開(kāi)發(fā)并運(yùn)行。
更多細(xì)節(jié)信息請(qǐng)參閱模型系統(tǒng)卡:
![]()
模型系統(tǒng)卡地址:https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf
博客地址:https://www.anthropic.com/news/claude-opus-4-5
文中視頻鏈接:https://mp.weixin.qq.com/s/cTD-vqtuQXiC6AxBmnYOzQ
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.