網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

剛剛，智能體&編程新王Claude Opus 4.5震撼登場(chǎng)，定價(jià)大降2/3

2025-11-25 10:35:28　來(lái)源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

機(jī)器之心編輯部

如昨日預(yù)期一樣，Anthropic 正式發(fā)布了最新模型 Claude Opus 4.5。

根據(jù)介紹，Claude Opus 4.5 非常智能高效，在編程、智能體以及計(jì)算機(jī)操作方面表現(xiàn)卓越，是當(dāng)今世界最優(yōu)秀的模型。該模型在深度研究、處理幻燈片與電子表格等日常任務(wù)上也有顯著提升。

該模型標(biāo)志著 AI 系統(tǒng)化能力的進(jìn)一步躍升，也預(yù)示著未來(lái)工作方式即將迎來(lái)更深刻的變革。如下圖所示，Claude Opus 4.5 在真實(shí)世界軟件工程測(cè)試中達(dá)到了行業(yè) SOTA 水平，超越了 GPT-5.1-Codex-Max、Gemini 3 Pro 以及自家 Sonnet 4.5

自今日起，Claude Opus 4.5 即可以通過(guò) Claude app、API 以及三大主流云平臺(tái)訪問(wèn)。如果你是開(kāi)發(fā)者，只需通過(guò) Claude API 使用 claude-opus-4-5-20251101 即可。

關(guān)于價(jià)格，Claude Opus 4.5 的最新定價(jià)為每百萬(wàn) Token 5/25 美元（輸入 / 輸出），使更多用戶、團(tuán)隊(duì)和企業(yè)都能輕松獲得 Opus 級(jí)別的能力。可以看到，與上代 Opus 4.1 相比，API 定價(jià)降低了 2/3

與 Claude Opus 4.5 同步，Anthropic 還更新了 Claude 開(kāi)發(fā)者平臺(tái)、Claude Code 以及消費(fèi)者應(yīng)用，推出了適用于更長(zhǎng)時(shí)長(zhǎng)運(yùn)行的智能體新工具。其中，在 Claude app 中，長(zhǎng)對(duì)話不再會(huì)輕易遇到限制。

Claude Code 現(xiàn)已登陸桌面應(yīng)用，用戶可以并行運(yùn)行多個(gè)會(huì)話，比如編程、研究和更新工作。隨著 Claude Opus 4.5 的推出，Plan Mode 也獲得了升級(jí)：一開(kāi)始提出澄清性問(wèn)題，隨后即可自主開(kāi)展工作。

Anthropic 提供了在 Excel、Chrome 和桌面端使用 Claude 的全新方式。Max、Team 和 Enterprise 用戶可以直接在 Excel 中使用最新模型

基準(zhǔn)測(cè)試多項(xiàng)最新 SOTA

根據(jù) Anthropic 的介紹，他們提供了一份眾所周知極其困難的居家測(cè)試（take-home exam），同時(shí)也將這份測(cè)試用作新模型的內(nèi)部基準(zhǔn)評(píng)估。在規(guī)定的兩小時(shí)限時(shí)內(nèi)，Claude Opus 4.5 的得分超過(guò)了迄今為止所有參加過(guò)該測(cè)試的人類候選人

這份居家測(cè)試旨在評(píng)估候選人（包括 AI 大模型）在時(shí)間壓力下的技術(shù)能力與判斷力，但并不衡量如協(xié)作、溝通，或多年經(jīng)驗(yàn)中積累的職業(yè)直覺(jué)等其他關(guān)鍵技能。然而，這一結(jié)果 —— 即 AI 模型在重要技術(shù)能力上超越實(shí)力強(qiáng)勁的候選人 —— 引發(fā)了關(guān)于人工智能將如何改變工程職業(yè)的思考。

軟件工程并不是 Claude Opus 4.5 唯一取得顯著提升的領(lǐng)域。這一代模型在整體能力上全線增強(qiáng)，在視覺(jué)、推理和數(shù)學(xué)方面均優(yōu)于前代模型，并在許多領(lǐng)域達(dá)到了當(dāng)前 SOTA 水平，包括智能體編程、智能體終端編程、智能體工具使用、可擴(kuò)展的工具使用、計(jì)算機(jī)操作、解決新型問(wèn)題的能力

Claude Opus 4.5 具備更出色的代碼生成能力，在 SWE-bench Multilingual 基準(zhǔn)中，在 8 種編程語(yǔ)言中的 7 種上表現(xiàn)領(lǐng)先。

Claude Opus 4.5 能夠輕松解決高難度的編碼問(wèn)題，并在 Aider Polyglot 基準(zhǔn)上相比 Sonnet 4.5 實(shí)現(xiàn)了 10.6% 的提升。

Claude Opus 4.5 在前沿的智能體搜索能力上取得了顯著進(jìn)步，在 BrowseComp-Plus 基準(zhǔn)上有明顯提升。

同時(shí)，Claude Opus 4.5 在長(zhǎng)程任務(wù)上的穩(wěn)定性也更強(qiáng)，在 Vending-Bench 基準(zhǔn)中相較于 Sonnet 4.5 實(shí)現(xiàn)了 29% 的提升。

Anthropic 表示，Claude Opus 4.5 的能力已經(jīng)在某些測(cè)試項(xiàng)目上超出了現(xiàn)有基準(zhǔn)的衡量范圍。一個(gè)常用的智能體能力基準(zhǔn)是 τ^2-bench，它用于評(píng)估智能體在真實(shí)場(chǎng)景、多輪任務(wù)中的表現(xiàn)。

圖源：https://github.com/sierra-research/tau2-bench

在其中一個(gè)情境中，模型需要扮演航空公司客服代理，幫助一位處于困境的旅客。根據(jù)基準(zhǔn)設(shè)定，由于航空公司不允許更改基礎(chǔ)經(jīng)濟(jì)艙的機(jī)票，模型應(yīng)當(dāng)拒絕旅客的改簽請(qǐng)求。然而，Claude Opus 4.5 找到了一個(gè)富有洞察力且合法的解決方式：先升級(jí)艙位，再對(duì)航班進(jìn)行修改。

從技術(shù)上講，由于 Claude 的解決方式不在基準(zhǔn)預(yù)設(shè)范圍內(nèi)，這一表現(xiàn)被系統(tǒng)判定為失敗。但這種具有創(chuàng)造性的解決問(wèn)題方式，正是 Anthropic 從測(cè)試者和客戶那里頻繁聽(tīng)到的反饋，也是讓 Claude Opus 4.5 被認(rèn)為是一次有意義躍升的關(guān)鍵特質(zhì)。

當(dāng)然，在其他情境中，繞開(kāi)預(yù)期約束的巧妙做法也可能被視為一種「獎(jiǎng)勵(lì)規(guī)避」（reward hacking），即模型以非預(yù)期方式「鉆規(guī)則空子」。

Claude 開(kāi)發(fā)者平臺(tái)新變化

隨著模型變得更智能，它們能夠用更少的步驟解決問(wèn)題：更少的回溯、更少的重復(fù)探索、更簡(jiǎn)潔的推理。為達(dá)到相同或更好的結(jié)果，Claude Opus 4.5 使用的 token 數(shù)量相比前代大幅減少。

但是，不同任務(wù)需要在速度、成本和能力之間做出不同取舍。有時(shí)開(kāi)發(fā)者希望模型持續(xù)深思某個(gè)問(wèn)題，有時(shí)則希望模型更加輕量迅捷。通過(guò) Anthropic 在 Claude API 中新增的 effort 參數(shù)，開(kāi)發(fā)者可以自行決定是要最小化時(shí)間與成本，還是要最大化模型能力。

在中等 effort 設(shè)定下，Opus 4.5 能達(dá)到與 Sonnet 4.5 在 SWE-bench Verified 中相同的最佳成績(jī)，但輸出 token 使用量減少了 76%。在最高 effort 設(shè)定下，Opus 4.5 的表現(xiàn)比 Sonnet 4.5 高出 4.3 個(gè)百分點(diǎn)，同時(shí)輸出 token 使用量仍減少了 48%。

通過(guò)effort 控制、上下文壓縮以及更先進(jìn)的工具使用能力，Claude Opus 4.5 能運(yùn)行更長(zhǎng)時(shí)間、完成更多任務(wù)，并且需要更少的人為干預(yù)。

上下文管理與記憶能力能夠顯著提升模型在智能體任務(wù)中的表現(xiàn)。Claude Opus 4.5 同樣非常擅長(zhǎng)管理由多個(gè)子智能體組成的團(tuán)隊(duì)，從而支持構(gòu)建復(fù)雜且協(xié)調(diào)良好的多智能體系統(tǒng)。在測(cè)試中，通過(guò)結(jié)合使用這些技術(shù)，Opus 4.5 在一項(xiàng)深度研究評(píng)估中的表現(xiàn)提升了近 15 個(gè)百分點(diǎn)

Anthropic 也在逐步增強(qiáng)開(kāi)發(fā)者平臺(tái)的可組合性。目標(biāo)是為開(kāi)發(fā)者提供所需的各種構(gòu)建模塊，從而可以完全掌控效率、工具使用方式以及上下文管理，精準(zhǔn)構(gòu)建所需的系統(tǒng)。

安全性進(jìn)一步提升

Anthropic 表示，Claude Opus 4.5 是其迄今發(fā)布的在對(duì)齊方面最為穩(wěn)健的模型，也可能是目前各家前沿模型中對(duì)齊度最高的之一。該模型延續(xù)了 Anthropic 在打造更安全、更可靠模型方面的趨勢(shì)：

在 Anthropic 的評(píng)估中，「令人擔(dān)憂的行為」分?jǐn)?shù)衡量了范圍非常廣泛的非對(duì)齊表現(xiàn)，其中既包括模型配合人類進(jìn)行不當(dāng)使用，也包括模型在自身主動(dòng)性下做出的不良行為。

Claude Opus 4.5 在抵御提示注入攻擊方面取得了實(shí)質(zhì)性的進(jìn)展，提示注入會(huì)通過(guò)夾帶欺騙性指令來(lái)誤導(dǎo)模型做出有害行為。而 Opus 4.5 在這類攻擊上的穩(wěn)健性顯著增強(qiáng)，是目前行業(yè)中最不容易被提示注入欺騙的前沿模型之一。

該基準(zhǔn)僅包含強(qiáng)度極高的提示注入攻擊，由 Gray Swan 開(kāi)發(fā)并運(yùn)行。

更多細(xì)節(jié)信息請(qǐng)參閱模型系統(tǒng)卡：

模型系統(tǒng)卡地址：https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

博客地址：https://www.anthropic.com/news/claude-opus-4-5

文中視頻鏈接：https://mp.weixin.qq.com/s/cTD-vqtuQXiC6AxBmnYOzQ

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.