智東西
作者 陳駿達
編輯 李水青
智東西11月25日報道,今天,Anthropic發布了自家的旗艦編程模型Claude Opus 4.5。Anthropic稱,這是全球范圍內在編程、agents和計算機使用方面最強大的模型。
在真實世界軟件工程測試SWE-bench Verified中,Claude Opus 4.5成為首款得分超過80%的AI模型,不僅領先于自家的Claude Sonnet 4.5,還超過了上周發布的Gemini 3 Pro和GPT-5.1 Codex-Max。
![]()
Anthropic還把該公司面試人類工程師的高難度居家考試交給Claude Opus 4.5,結果,在規定的兩小時內,Claude Opus 4.5的得分高于以往任何人類應聘者,這表型AI模型在重要技術技能方面,已經超越了優秀的人類應聘者。
編程并非Claude Opus 4.5唯一的改進,其視覺、推理和數學能力都優于前代產品,可較好地勝任深度研究、處理幻燈片和電子表格等日常任務。
![]()
與此同時,Claude Opus系列模型的價格,這回真被Anthropic打下來了。Claude Opus 4.5的定價為每百萬tokens 5美元(輸入)/25美元(輸出),僅為前代Claude Opus 4.1的1/3。同時,Anthropic還移除了專門針對Opus系列的用量限制。
![]()
Claude Opus 4.5現已在Claude應用程序、API中可用,不過,使用Opus前,用戶還得開一個200美元/月的最高檔套餐。Claude Opus 4.5也已在AWS、谷歌云和微軟Azure三大主流云平臺上線。
一、前端表現再飛躍,還一次性完美復刻《我的世界》
Claude Opus 4.5用起來效果究竟怎么樣?在Anthropic官宣模型發布的評論區中,已有不少用戶曬出了自己的一手體驗。
前端能力上,前端開發者平臺Vercel的CEO Guillermo用Claude Opus 4.5打造了一個購物網站,一次性生成的結果如下:
![]()
Guillermo感嘆,Claude Opus 4.5的水平完全不同,好得讓人難以置信。
![]()
這位網友分享了自己用Claude Opus 4.5打造的4個Hero Section,這是網站或App中的一個重要區域,用來吸引用戶的注意力。可以看到,這幾個頁面都無論是字體設計,還是網頁布局,都很有高級感。
![]()
有網友用Claude Opus 4.5打造了《我的世界》克隆版,這考察了模型更為復雜的項目上的性能。Claude Opus 4.5一次就成功了,生成了3500行代碼,網友認為這意味著Claude Opus 4.5不會像Gemini 3.0 Pro一樣偷工減料。
![]()
Claude Opus 4.5復刻的《我的世界》游戲有模有樣,擁有不同的生物群系(平原、沙漠、雪地),樹葉和水的透明方塊也恰到好處,還有一套非常棒的物品欄和合成系統。所有這些都集成在一個游戲中。它甚至還打造了云朵效果,網友稱自己此前從未見過哪個模型能做到這一點。
![]()
AI訂閱平臺Every的聯合創始人兼CEO Dan Shipper感嘆道,每隔半年到一年,就會出現一款真正改變行業格局的模型,而今天發布的Claude Opus 4.5,就是那款模型。Shipper稱這是他用過的最好的編程模型,沒有之一。
![]()
二、7門編程語言測試領先,安全性大幅提升
發布前,Anthropic對Claude Opus 4.5模型進行了內部測試。測試人員稱,Claude Opus 4.5能夠處理模糊不清的情況,并能權衡利弊,無需過多指導。
當遇到復雜的多系統錯誤時,Claude Opus 4.5能夠自行找到修復方法,幾周前Claude Sonnet 4.5幾乎無法完成的任務,現在Claude Opus 4.5已經能夠輕松應對。Anthropic的測試人員告訴模型團隊,Claude Opus 4.5真的“很懂行”。
Anthropic分享了Claude Opus 4.5在多個基準測試上的表現。在考察多種編程語言掌握程度的SWE-bench Multilingual中,Claude Opus 4.5在8種編程語言里的7種實現性能領先。
![]()
在考察深度搜索Agent能力的BrowseComp-Plus中,Claude Opus 4.5較Claude Sonnet 4.5展現出約4.7%的優勢。
![]()
Claude Opus 4.5還破解了一些常用的基準測試。例如,在衡量智能體能力的τ2-bench中,模型需要扮演航空公司客服人員的角色,幫助一位遇到困難的乘客。
該基準測試題要求模型拒絕修改經濟艙機票,因為航空公司不允許更改該艙位的機票。然而,Claude Opus 4.5找到了一種巧妙且合理的解決方案:先升艙,然后再修改航班。
從技術層面來說,由于Claude Opus 4.5幫助客戶的方式出乎意料,基準測試將其判定為失敗。但這種創造性的問題解決方式,是一次意義重大的進步。
在其他情況下,尋找繞過預期限制的巧妙方法可能被視為獎勵破解——即模型以非預期的方式“玩弄”規則或目標。
防止此類偏差是Anthropic安全測試的目標之一。在內部評估中,Claude Opus 4.5展現出令人擔憂的行為的概率略高于10%,遠低于GPT-5.1和Gemini 3 Pro的20%。
![]()
Claude Opus 4.5在抵御提示詞注入攻擊方面取得了顯著進展。提示注入攻擊會偷偷植入欺騙性指令,誘使模型執行有害行為。Opus 4.5比業內任何其他前沿模型都更難被提示注入攻擊欺騙。
![]()
三、新增思考強度控制,用上GPT同款上下文壓縮功能
在發布最新模型的同時,Anthropic還宣布了Claude開發者平臺的一系列新增功能。
隨著模型智能水平的提升,它們能以更少步驟解決問題:減少回溯、冗余探索和冗長推理。Claude Opus 4.5相比前代模型,在達成相同或更優結果時顯著減少了token消耗。但不同任務需要不同的權衡——開發者有時希望模型持續思考難題,有時則需要更敏捷的響應。
通過Claude API新增的“思考強度”參數(effort parameter),開發者可自主選擇最小化時間成本或最大化模型能力。
在中等強度設置下,Claude Opus 4.5在SWE-bench Verified測試中達到Sonnet 4.5最佳成績,同時輸出token減少76%。
在最高強度下,其性能超越Claude Sonnet 4.5達4.3個百分點,且節省48%的token。
![]()
結合強度控制、上下文壓縮與高級工具使用能力,Claude Opus 4.5能處理更持久復雜的任務,并減少人工干預。值得注意的是,OpenAI上周推出的GPT-5.1 Codex Max也具備上下文壓縮的新功能。
Claude開發者平臺在上下文管理與記憶能力方面實現突破,顯著提升了智能體任務的表現。Claude Opus 4.5在協調子智能體團隊方面尤為出色,支持構建復雜且協作良好的多智能體系統。測試數據顯示,這些技術組合使Claude Opus 4.5在深度研究評估中的性能提升近15個百分點。
Anthropic公司正持續提升開發者平臺的可組合性,通過提供效率控制、工具使用和上下文管理等基礎模塊,助力開發者精準構建所需功能。
產品方面,Claude Code隨Claude Opus 4.5獲得雙重升級:計劃模式能制定更精確方案并徹底執行——首先主動詢問澄清問題,隨后生成用戶可編輯的plan.md文件再實施操作。
同時該功能現已登陸桌面應用,支持并行運行本地與遠程會話,實現多智能體協同工作(如同時進行代碼修復、GitHub研究及文檔更新)。
針對Claude應用程序用戶,長對話不再受限于上下文長度,系統會自動總結早期對話內容,以保持交流連續性。
面向所有Max用戶的Claude for Chrome現已全面開放,支持跨瀏覽器標簽頁處理任務;十月發布的Claude for Excel今日將測試權限擴展至所有Max、Team及Enterprise用戶。這些更新均得益于Claude Opus 4.5在計算機操作、電子表格處理及長時任務管理方面的提升。
![]()
▲Claude Opus 4.5打造的PPT
對于已獲Claude Opus 4.5使用權限的Claude與Claude Code用戶,平臺取消了Opus專屬限額。面向Max和Team Premium用戶,總體使用額度得到提升,這意味著用戶現在可使用的Opus token量相當于此前Sonnet的配額。
結語:長時序、端到端能力成編程模型升級重點
隨著Claude Opus 4.5的發布,編程模型又迎來新的標桿。其在復雜任務規劃、多智能體協作及長時序任務處理上的突破,標志著AI正從“代碼補全工具”向“端到端開發伙伴”演進。
近期Anthropic、OpenAI等廠商的編程模型發展方向,都更聚焦于長時序任務的高效執行、大體量項目的端到端完成。隨著模型絕對性能的提升和使用成本的降低,軟件開發流程或將迎來深刻變革。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.