Jay 發自 凹非寺
量子位 | 公眾號 QbitAI
春節才是真正的大模型戰場,全世界參與的那種。
大年初二,Anthropic史上最強Sonnet——Claude Sonnet 4.6發布。
計算機操作是這次更新的主打賣點。
Anthropic表示,對填寫復雜Excel、網頁清單等任務,Sonnet 4.6已經接近人類水平。
其他方面也是全方位升級:編碼、長上下文推理、Agent規劃、知識型工作、設計……Beta階段還支持1M上下文。
重點來了!定價依然跟Sonnet 4.5一樣,免費用戶也能用。
性價比簡直高到離譜。
創業者Alex Finn體驗后表示「難以置信」:
- 在大多數Agent任務上,Sonnet 4.6的表現跟Opus系列差不多好,速度還更快,價格只要1/5。
![]()
還不只一個人這么說。
Anthropic表示,內測用戶對Sonnet 4.6的喜愛程度,已經超過了超大杯Opus 4.5。
史上最強Sonnet
計算機操作能力,可以說是這次Sonnet 4.6最亮眼的部分了,Anthropic也在這部分花了不少筆墨。
雖然跟最熟練的人類工作者比還有差距,但進步速度真的恐怖。
看下面這張圖——
四個月一次的高頻率更新下,性能曲線依然保持著不錯的上升勢頭。
![]()
當然,計算機操作能力提升,也意味著如果模型被prompt injection,風險會更大。
Anthropic也想到了這一點,專門給用戶們塞了顆定心丸:
Sonnet 4.6的安全等級相比前代Sonnet 4.5有顯著改進,表現跟Opus 4.6差不多。
![]()
事實上,計算機操作只是冰山一角,Claude Sonnet 4.6在各類Benchmark上都有提升。
具體細節都在下面這張表,一個大杯模型,智能卻直逼超大杯Opus系列。
從Benchmark上還可以看到Claude這邊出現了「倒反天罡」的情況。
在金融分析和辦公室任務這兩項測試中,Sonnet 4.6用一騎絕塵的數值,拿下了SOTA,力壓歷代Opus。
![]()
用戶的反饋更能說明問題。
在Claude Code的早期內測中,Anthropic發現,在59%的場景下,用戶更傾向于選擇Sonnet 4.6(而不是Opus 4.5)。
大家評價說,Sonnet 4.6明顯更少出現過度設計和「偷懶」,指令遵循方面表現更好。
同時,虛假成功聲明更少,幻覺更少,多步驟任務的執行也更加穩定。
對了,這次Sonnet 4.6還提供100萬token的上下文,能裝下幾十篇研究論文。最重要的是,在這么大規模的上下文中,Sonnet 4.6依然保持了相當領先的推理水平。
這一點在Vending-Bench Arena上特別明顯。
這是個測試模型在長時間跨度內模擬運營一家企業能力的Benchmark,引入了競爭機制,不同模型需要相互對抗,爭取更高利潤。
在這個測試中,Sonnet 4.6采用了一種新策略:前10個模擬月份大幅投入產能建設,支出明顯高于競爭對手,但在后期迅速開始想辦法盈利。
這種轉向時機的把握,幫助它在最終成績上明顯領先。
![]()
除此之外,用戶還反饋稱前端代碼生成能力有提升。
Sonnet 4.6生成的視覺輸出更加精致,布局、動畫和設計感都比之前的模型好,達到可用于生產環境的質量所需的迭代輪次也減少了。
OpenClaw又發力了
實在是奇怪,一款大杯模型,內測中居然比超大杯旗艦款還招人喜歡。
但目前看來,也有許多網友并不買賬,甚至說Anthropic是沒活硬整。
![]()
主要是不太理解:
- 既然Opus仍然是最強,為啥要用Sonnet 4.6?
![]()
對此,有人出來解釋稱:這其實是定價策略和目標用戶不一樣。
對于本就不差錢的用戶來說,這事兒影響不大。畢竟Max訂閱套餐里本來就有大量補貼后的Opus 4.6額度,隨便用。
但這是C端的思考方式。
在B端,企業客戶可沒這么大方的token補貼,調用量卻高出好幾倍。
與此同時,很多場景根本用不著那么強的智能。如果只是讓AI幫你居中一個div這種簡單活兒,Opus未免有些太奢侈。
從這個角度看,Anthropic的戰略路線其實已經很清晰:
- Opus用來爭奪王座,維持C端品牌認知;
- Sonnet用來占領市場,用更低的成本將智能下放。
![]()
不過,這個「市場」其實也不光是企業客戶。
計算機操作能力大幅提升,Opus級智能,Sonnet級定價……
這不就是為OpenClaw量身定做的API嘛!
果然,Anthropic這款高性價比模型的消息一出來,「龍蝦大軍」立馬就涌進來了:
- 立即升級您的OpenClaw至Sonnet 4.6!
網友直接放話:這是有史以來最棒的OpenClaw模型,大家趕緊給自己的龍蝦安排上。
![]()
實在是有些drama,Anthropic真得好好謝謝OpenClaw作者。
人家項目名字都被整沒了,自己也加入了OpenAI,結果……OpenClaw至今還在幫Anthropic帶貨。
參考鏈接:
[1]https://www.anthropic.com/news/claude-sonnet-4-6
[2]https://x.com/AlexFinn/status/2023828886287708303
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.