完成 300 億美元融資后,Anthropic 交出了第一份 AI 答卷。就在剛剛,Claude Sonnet 4.6 正式發(fā)布,定位是「史上最強 Sonnet」。
編程、計算機操作、長上下文推理、智能體規(guī)劃,全面升級。價格沒變,還是每百萬 token 3 美元輸入/15 美元輸出,但性能直接逼近 Opus 級別。
在與 Opus 4.5 的對比測試?yán)铮脩粲?59% 的時間更偏好 Sonnet 4.6。理由也很實在:過度工程化更少、幻覺更少、多步驟任務(wù)執(zhí)行更穩(wěn)。
計算機操作能力是這次升級的重頭戲。
在 OSWorld 基準(zhǔn)測試上,Sonnet 系列過去 16 個月持續(xù)進步,現(xiàn)在處理復(fù)雜電子表格、填寫多步驟網(wǎng)頁表單已接近人類水平。
這個能力戳中的是一個真實痛點:很多企業(yè)的老舊軟件沒有現(xiàn)代 API 接口,過去只能專門開發(fā)連接器,現(xiàn)在模型直接像人一樣看屏幕、點鼠標(biāo)就行了,省掉了一大截工程成本。
順帶一提,Excel 中的 Claude 插件這次也同步升級,新增了 MCP 連接器支持,對金融從業(yè)者來說,這個更新很實用。
Sonnet 4.6 另一個亮點是支持 100 萬 token 超大上下文,足以在一次請求里塞進完整代碼庫、數(shù)十篇論文或一堆合同。
在 Vending-Bench Arena 這個模擬企業(yè)運營的評估里,Sonnet 4.6 摸索出一套有意思的策略:前期大舉投資產(chǎn)能,最后階段猛轉(zhuǎn)盈利導(dǎo)向,靠這個轉(zhuǎn)折時機甩開其他模型。支撐這套打法的,正是它的長期規(guī)劃能力。
對普通用戶來說,F(xiàn)ree 和 Pro 方案的默認(rèn)模型已經(jīng)切換為 Sonnet 4.6,claude.ai 和 Claude Cowork 同步更新。
開發(fā)者方面,API 模型標(biāo)識是 claude-sonnet-4-6,支持自適應(yīng)思考、擴展思考,上下文壓縮功能可以在對話快撐爆上下文時自動總結(jié)舊內(nèi)容,省 token 又省心。
? 而就在 Sonnet 4.6 發(fā)布的同期,馬斯克旗下 xAI 的 Grok 4.20 測試版也正式上線了 grok.com。
Grok 4.20 支持并行調(diào)度 4 個專業(yè)智能體——Grok、Harper、Benjamin、Lucas——協(xié)同執(zhí)行任務(wù)。然而整體口碑兩極分化嚴(yán)重,且過往預(yù)期拔得太高,導(dǎo)致不少用戶期望落空,差評偏多。
后續(xù)馬斯克罕見連發(fā)多條推文滅火「救場」。他解釋稱,目前的 Grok 4.20 只是參數(shù)量 500B 的小型基礎(chǔ)模型,尚處公測階段。他還強調(diào),Grok 4.20 的底層架構(gòu)具備每周自我迭代的能力,遞歸式智能增長空間很大。
按他的說法,公測結(jié)束后,Grok 4.20 的智能和速度將比 Grok 4 提升約一個數(shù)量級。但這個承諾能否兌現(xiàn),只能說拭目以待吧。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.