![]()
機器之心編輯部
大年初二,海外就開始發新模型了!
這次是 Anthropic,率先發布了他們稱之為「我們目前能力最強的 Sonnet 模型」Claude Sonnet 4.6。
![]()
Claude 稱,新模型對編碼、計算機使用、長上下文推理、智能體規劃、知識工作和設計進行了全面升級。
Beta 版還包含 100 萬 token 的上下文窗口。
在價格方面,對于免費和專業版用戶,Claude Sonnet 4.6 現已成為 claude.ai 和 Claude Cowork 的默認模型。定價與 Sonnet 4.5 保持一致,仍為每百萬輸入 token 3 美元,每百萬輸出 token 15 美元。
那么具體性如何?在 GDPval-AA 測試中,Claude Sonnet 4.6 甚至略微領先于 Anthropic 剛剛發布不久的 Opus 4.6。
![]()
接下來,就讓我們仔細看下技術博客介紹。
計算機使用
2024 年 10 月,Claude 率先推出了通用的計算機使用模型。當時,這種技術「仍處于實驗階段 —— 有時操作繁瑣且容易出錯」。
AI 計算機使用的標準基準 OSWorld 展示了 Claude 模型的進步程度。該基準會在模擬計算機上運行真實軟件(Chrome、LibreOffice、VS Code 等),設置數百項任務。該基準也沒有沒有特殊的 API 或專用連接器;模型看到計算機并與其互動的方式與人非常相似:點擊(虛擬)鼠標和在(虛擬)鍵盤上打字。
在過去的十六個月里,Sonnet 模型在 OSWorld 上的性能穩步提升。這些改進在基準測試之外也可見一斑:早期的 Sonnet 4.6 用戶在多項任務(諸如瀏覽復雜電子表格或填寫多步驟網頁表單)中,看到了達到人類水平的能力,并且能在多個瀏覽器標簽頁中整合處理信息。
當然,該模型在使用計算機方面仍落后于最熟練的人類。但進步的速度依然顯著。這意味著:計算機使用的價值在提升 —— 并且表明能力更強的模型已指日可待。
![]()
圖表比較了多個 Sonnet 模型在 OSWorld 基準上的得分。注:Claude Sonnet 4.5 之前的得分基于原始 OSWorld 測量;從 Sonnet 4.5 開始使用 OSWorld-Verified。OSWorld-Verified(2025 年 7 月發布)是原始 OSWorld 基準的原位升級,對任務質量、評估評分和基礎設施進行了更新。
與此同時,計算機使用也帶來了風險:惡意行為者可能試圖通過提示注入攻擊,將指令隱藏在網站中來劫持模型。
Anthropic 致力于提高模型抵抗提示注入的能力 —— 其安全評估顯示,與其前代 Sonnet 4.5 相比,Sonnet 4.6 在這方面有重大改進,表現與 Opus 4.6 相近。
評估 Claude Sonnet 4.6
除了計算機使用,Claude Sonnet 4.6 在各項基準測試中均有提升。它的智能水平接近 Opus 級別,但價格更實惠,使其適用于更廣泛的任務。
![]()
一個表格展示了流行基準測試中 Sonnet 4.6 與其他前沿模型的相對性能比較。
Anthropic 的早期 Claude Code 測試發現,用戶大約有 70% 的時間更喜歡 Sonnet 4.6 而非 Sonnet 4.5。
用戶報告說,它在修改代碼前能更有效地理解上下文,并能整合共享邏輯而非簡單復制。
相比于 11 月發布的前沿模型 Opus 4.5,用戶甚至有 59% 的時間更喜歡 Sonnet 4.6。他們評價 Sonnet 4.6 在過度工程化和「偷懶」方面顯著減少,在指令遵循方面有明顯改進。用戶報告了更少的虛假成功聲明、更少的幻覺,以及在多步驟任務中更一致的執行力。
Sonnet 4.6 的上下文窗口為 100 萬 token,足以在單個請求中容納整個代碼庫、長篇合同或數十篇研究論文。更重要的是,Sonnet 4.6 能有效地在所有上下文中進行推理。這使得它在長程規劃方面表現更佳。
在 Vending-Bench Arena 評估中特別清晰地看到了這一點。該測試評估模型長期運營(模擬)業務的能力 —— 并且包含競爭元素,不同 AI 模型相互競爭以獲取最大利潤。
Sonnet 4.6 發展出一種有趣的新策略:它在模擬的前十個月大力投資于產能,支出遠超競爭對手,然后在最后階段急劇轉向專注于盈利能力。這一轉向的時機使其最終遠遠領先于競爭對手。
![]()
圖表顯示 Sonnet 4.6 在 Vending-Bench Arena 上優于 Sonnet 4.5:通過早期投資產能,然后在最后階段轉向盈利。
Claude Sonnet 4.6 已經向哪些用戶開放?
Claude Sonnet 4.6 現已面向所有 Claude 套餐、Claude Cowork、Claude Code、API 以及所有主流云平臺開放。Anthropic 也已將免費套餐默認升級至 Sonnet 4.6 版本 —— 現在包含文件創建、連接器、技能和壓縮功能。
如果你是開發者,也可以通過 Claude API 快速開始使用 claude-sonnet-4-6。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.