11月25日消息,Anthropic(美國一家人工智能公司)于今日凌晨正式發布Claude Opus 4.5,在SWE-bench Verified測試中以80.9%的準確率超越GPT-5.1和Gemini 3 Pro,登頂全球編程模型榜首。
該模型定價大幅下調,輸入每百萬token 5美元,輸出25美元,較上代降價約三分之二。目前已通過Claude app、API及三大主流云平臺上線。
在真實軟件工程測試中,Opus 4.5在規定2小時時限內的編程考試中得分超過了所有參加過該測試的人類候選人。Anthropic研究員Adam Wolff表示:"就在明年上半年,軟件工程徹底終結了。"
除了編程能力,Opus 4.5在智能體搜索任務上實現突破,在BrowseComp-Plus基準測試中顯著提升。在Vending-Bench基準上整體收益比Sonnet 4.5高出29%。
新智元報道中指出,一個典型案例顯示,當扮演航空公司客服時,Opus 4.5找到了"先升級艙位再修改航班"的合規解決方案,突破了基準測試的預期答案。
同步更新的Claude開發者平臺新增effort參數,允許開發者在最小化成本與最大化能力間自主選擇。在中等effort設定下,輸出token使用量減少76%。
Anthropic宣稱這是"迄今最穩健、最對齊的模型",在抵御提示詞注入攻擊方面取得實質性進展,比任何其他前沿模型都更難被欺騙。
Anthropic內部測試者反饋,Opus 4.5在處理模糊指令和復雜多系統Bug時表現出色,幾周前對Sonnet 4.5還近乎不可能的任務現已觸手可及。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.