作者|子川
來源|AI先鋒官
今天這是怎么了?各大廠家模型齊發!
今天凌晨,OpenAI開源兩款推理模型。
Anthropic緊接著推出Claude Opus 4.1,來了一場狹路相逢的戲碼。
據介紹,此次推出的Claude Opus 4.1將代理任務、編程、推理等能力推向了新的高度。
特別是在 SWE-bench Verified 編碼測試中,相比Claude Opus 4,新版的Opus 4.1性能飆升至 74.5%(雖然提升不大)。
![]()
可能很多朋友還不了解SWE-bench Verified這個榜單,這里給大家簡單介紹一下。
SWE-bench Verified是 AI 代碼能力評測中“最貼近真實開發場景”的榜單之一,專門用來衡量大模型/智能體在軟件工程任務中的“動手能力”。
和傳統刷算法題不同,它把 GitHub 上真實存在的 issue(bug 或需求)連同整個代碼倉庫、依賴環境一起打包,要求模型獨立完成。
并且只有一次性通過測試,才算“解決”,因此這個榜單的成績含金量非常高。
目前這個榜單的前三分別是Claude 4 Opus、Claude 4 Sonnet和o3。
![]()
除此之外,Claude Opus 4.1在Agentic terminal coding、Graduate-level reasoning、Multilingual Q&A、Visual reasoning等測試中,都全面超越了Claude Opus 4。
![]()
下面就是大家最關心的價格,Claude Opus 4.1加量不加價,價格和Claude Opus 4保持一致(不過也真的貴)。
每百萬輸入 token 15 美元
每百萬輸出 token 75 美元
![]()
目前Claude Opus 4.1已經面向Pro、Max、Team和Enterprise用戶開放,同時大家也可以通過調用。
距離發布已過好幾個小時,不少網友已經陸續分享它們實測的結果。
網友@Lisan al Gaib測試發現,Claude Opus 4.1的理解能力很強,
并評論到:他是為數不多在你說“想象你的家”時,會想象一間房間而非整棟房子的模型之一。
![]()
網友@karminski-牙醫放出了對比Gemini 2.5 Pro、gpt-oss-120b、gpt-oss-20b的對比視頻。
網友@Techikansh放出了他使用Claude Opus4.1和Claude Opus 4的一個對比動畫,從肉眼上看,幾乎沒有區別。
Claude Opus4.1
Claude Opus4
@suemaru用游戲來做了性能對比,結論是畫面質量明顯更好。
并表示除了視覺效果,之前用 Sonnet 4 生成的關卡難度爆表,想截個圖都費勁;而 Opus 4.1 生成的難度剛剛好,玩著很舒服,甚至沒下指令就自帶高分榜,回放也做得特別有趣。
長期以來,Anthropic 一直被視為 OpenAI 最強勁的競爭對手,尤其是在對模型要求極高的編程領域。
最近,這場競爭的緊張氣氛再度升級,有報道稱 Anthropic 指控 OpenAI 違規使用其模型以訓練和優化自家的產品,并因此切斷了 OpenAI 對其 API 的訪問權限。
而現在,Anthropic 緊隨 OpenAI 的步伐,于同一天發布了新模型 Claude Opus 4.1,這多少有一點“狙擊”的意思了。
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.