網易首頁 > 網易號 > 正文申請入駐

Claude Opus 4.5來了！單次生成打造《我的世界》，還破解高難度Agent測評

2025-11-25 11:06:20　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯李水青

智東西11月25日報道，今天，Anthropic發布了自家的旗艦編程模型Claude Opus 4.5。Anthropic稱，這是全球范圍內在編程、agents和計算機使用方面最強大的模型。

在真實世界軟件工程測試SWE-bench Verified中，Claude Opus 4.5成為首款得分超過80%的AI模型，不僅領先于自家的Claude Sonnet 4.5，還超過了上周發布的Gemini 3 Pro和GPT-5.1 Codex-Max。

Anthropic還把該公司面試人類工程師的高難度居家考試交給Claude Opus 4.5，結果，在規定的兩小時內，Claude Opus 4.5的得分高于以往任何人類應聘者，這表型AI模型在重要技術技能方面，已經超越了優秀的人類應聘者。

編程并非Claude Opus 4.5唯一的改進，其視覺、推理和數學能力都優于前代產品，可較好地勝任深度研究、處理幻燈片和電子表格等日常任務。

與此同時，Claude Opus系列模型的價格，這回真被Anthropic打下來了。Claude Opus 4.5的定價為每百萬tokens 5美元（輸入）/25美元（輸出），僅為前代Claude Opus 4.1的1/3。同時，Anthropic還移除了專門針對Opus系列的用量限制。

Claude Opus 4.5現已在Claude應用程序、API中可用，不過，使用Opus前，用戶還得開一個200美元/月的最高檔套餐。Claude Opus 4.5也已在AWS、谷歌云和微軟Azure三大主流云平臺上線。

一、前端表現再飛躍，還一次性完美復刻《我的世界》

Claude Opus 4.5用起來效果究竟怎么樣？在Anthropic官宣模型發布的評論區中，已有不少用戶曬出了自己的一手體驗。

前端能力上，前端開發者平臺Vercel的CEO Guillermo用Claude Opus 4.5打造了一個購物網站，一次性生成的結果如下：

Guillermo感嘆，Claude Opus 4.5的水平完全不同，好得讓人難以置信。

這位網友分享了自己用Claude Opus 4.5打造的4個Hero Section，這是網站或App中的一個重要區域，用來吸引用戶的注意力。可以看到，這幾個頁面都無論是字體設計，還是網頁布局，都很有高級感。

有網友用Claude Opus 4.5打造了《我的世界》克隆版，這考察了模型更為復雜的項目上的性能。Claude Opus 4.5一次就成功了，生成了3500行代碼，網友認為這意味著Claude Opus 4.5不會像Gemini 3.0 Pro一樣偷工減料。

Claude Opus 4.5復刻的《我的世界》游戲有模有樣，擁有不同的生物群系（平原、沙漠、雪地），樹葉和水的透明方塊也恰到好處，還有一套非常棒的物品欄和合成系統。所有這些都集成在一個游戲中。它甚至還打造了云朵效果，網友稱自己此前從未見過哪個模型能做到這一點。

AI訂閱平臺Every的聯合創始人兼CEO Dan Shipper感嘆道，每隔半年到一年，就會出現一款真正改變行業格局的模型，而今天發布的Claude Opus 4.5，就是那款模型。Shipper稱這是他用過的最好的編程模型，沒有之一。

二、7門編程語言測試領先，安全性大幅提升

發布前，Anthropic對Claude Opus 4.5模型進行了內部測試。測試人員稱，Claude Opus 4.5能夠處理模糊不清的情況，并能權衡利弊，無需過多指導。

當遇到復雜的多系統錯誤時，Claude Opus 4.5能夠自行找到修復方法，幾周前Claude Sonnet 4.5幾乎無法完成的任務，現在Claude Opus 4.5已經能夠輕松應對。Anthropic的測試人員告訴模型團隊，Claude Opus 4.5真的“很懂行”。

Anthropic分享了Claude Opus 4.5在多個基準測試上的表現。在考察多種編程語言掌握程度的SWE-bench Multilingual中，Claude Opus 4.5在8種編程語言里的7種實現性能領先。

在考察深度搜索Agent能力的BrowseComp-Plus中，Claude Opus 4.5較Claude Sonnet 4.5展現出約4.7%的優勢。

Claude Opus 4.5還破解了一些常用的基準測試。例如，在衡量智能體能力的τ2-bench中，模型需要扮演航空公司客服人員的角色，幫助一位遇到困難的乘客。

該基準測試題要求模型拒絕修改經濟艙機票，因為航空公司不允許更改該艙位的機票。然而，Claude Opus 4.5找到了一種巧妙且合理的解決方案：先升艙，然后再修改航班。

從技術層面來說，由于Claude Opus 4.5幫助客戶的方式出乎意料，基準測試將其判定為失敗。但這種創造性的問題解決方式，是一次意義重大的進步。

在其他情況下，尋找繞過預期限制的巧妙方法可能被視為獎勵破解——即模型以非預期的方式“玩弄”規則或目標。

防止此類偏差是Anthropic安全測試的目標之一。在內部評估中，Claude Opus 4.5展現出令人擔憂的行為的概率略高于10%，遠低于GPT-5.1和Gemini 3 Pro的20%。

Claude Opus 4.5在抵御提示詞注入攻擊方面取得了顯著進展。提示注入攻擊會偷偷植入欺騙性指令，誘使模型執行有害行為。Opus 4.5比業內任何其他前沿模型都更難被提示注入攻擊欺騙。

三、新增思考強度控制，用上GPT同款上下文壓縮功能

在發布最新模型的同時，Anthropic還宣布了Claude開發者平臺的一系列新增功能。

隨著模型智能水平的提升，它們能以更少步驟解決問題：減少回溯、冗余探索和冗長推理。Claude Opus 4.5相比前代模型，在達成相同或更優結果時顯著減少了token消耗。但不同任務需要不同的權衡——開發者有時希望模型持續思考難題，有時則需要更敏捷的響應。

通過Claude API新增的“思考強度”參數（effort parameter），開發者可自主選擇最小化時間成本或最大化模型能力。

在中等強度設置下，Claude Opus 4.5在SWE-bench Verified測試中達到Sonnet 4.5最佳成績，同時輸出token減少76%。

在最高強度下，其性能超越Claude Sonnet 4.5達4.3個百分點，且節省48%的token。

結合強度控制、上下文壓縮與高級工具使用能力，Claude Opus 4.5能處理更持久復雜的任務，并減少人工干預。值得注意的是，OpenAI上周推出的GPT-5.1 Codex Max也具備上下文壓縮的新功能。

Claude開發者平臺在上下文管理與記憶能力方面實現突破，顯著提升了智能體任務的表現。Claude Opus 4.5在協調子智能體團隊方面尤為出色，支持構建復雜且協作良好的多智能體系統。測試數據顯示，這些技術組合使Claude Opus 4.5在深度研究評估中的性能提升近15個百分點。

Anthropic公司正持續提升開發者平臺的可組合性，通過提供效率控制、工具使用和上下文管理等基礎模塊，助力開發者精準構建所需功能。

產品方面，Claude Code隨Claude Opus 4.5獲得雙重升級：計劃模式能制定更精確方案并徹底執行——首先主動詢問澄清問題，隨后生成用戶可編輯的plan.md文件再實施操作。

同時該功能現已登陸桌面應用，支持并行運行本地與遠程會話，實現多智能體協同工作（如同時進行代碼修復、GitHub研究及文檔更新）。

針對Claude應用程序用戶，長對話不再受限于上下文長度，系統會自動總結早期對話內容，以保持交流連續性。

面向所有Max用戶的Claude for Chrome現已全面開放，支持跨瀏覽器標簽頁處理任務；十月發布的Claude for Excel今日將測試權限擴展至所有Max、Team及Enterprise用戶。這些更新均得益于Claude Opus 4.5在計算機操作、電子表格處理及長時任務管理方面的提升。

▲Claude Opus 4.5打造的PPT

對于已獲Claude Opus 4.5使用權限的Claude與Claude Code用戶，平臺取消了Opus專屬限額。面向Max和Team Premium用戶，總體使用額度得到提升，這意味著用戶現在可使用的Opus token量相當于此前Sonnet的配額。

結語：長時序、端到端能力成編程模型升級重點

隨著Claude Opus 4.5的發布，編程模型又迎來新的標桿。其在復雜任務規劃、多智能體協作及長時序任務處理上的突破，標志著AI正從“代碼補全工具”向“端到端開發伙伴”演進。

近期Anthropic、OpenAI等廠商的編程模型發展方向，都更聚焦于長時序任務的高效執行、大體量項目的端到端完成。隨著模型絕對性能的提升和使用成本的降低，軟件開發流程或將迎來深刻變革。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.