<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude最強Sonnet模型4.6來了,百萬token上下文

      0
      分享至



      機器之心編輯部

      大年初二,海外就開始發新模型了!

      這次是 Anthropic,率先發布了他們稱之為「我們目前能力最強的 Sonnet 模型」Claude Sonnet 4.6。



      Claude 稱,新模型對編碼、計算機使用、長上下文推理、智能體規劃、知識工作和設計進行了全面升級。

      Beta 版還包含 100 萬 token 的上下文窗口。

      在價格方面,對于免費和專業版用戶,Claude Sonnet 4.6 現已成為 claude.ai 和 Claude Cowork 的默認模型。定價與 Sonnet 4.5 保持一致,仍為每百萬輸入 token 3 美元,每百萬輸出 token 15 美元。

      那么具體性如何?在 GDPval-AA 測試中,Claude Sonnet 4.6 甚至略微領先于 Anthropic 剛剛發布不久的 Opus 4.6。



      接下來,就讓我們仔細看下技術博客介紹。

      計算機使用

      2024 年 10 月,Claude 率先推出了通用的計算機使用模型。當時,這種技術「仍處于實驗階段 —— 有時操作繁瑣且容易出錯」。

      AI 計算機使用的標準基準 OSWorld 展示了 Claude 模型的進步程度。該基準會在模擬計算機上運行真實軟件(Chrome、LibreOffice、VS Code 等),設置數百項任務。該基準也沒有沒有特殊的 API 或專用連接器;模型看到計算機并與其互動的方式與人非常相似:點擊(虛擬)鼠標和在(虛擬)鍵盤上打字。

      在過去的十六個月里,Sonnet 模型在 OSWorld 上的性能穩步提升。這些改進在基準測試之外也可見一斑:早期的 Sonnet 4.6 用戶在多項任務(諸如瀏覽復雜電子表格或填寫多步驟網頁表單)中,看到了達到人類水平的能力,并且能在多個瀏覽器標簽頁中整合處理信息。

      當然,該模型在使用計算機方面仍落后于最熟練的人類。但進步的速度依然顯著。這意味著:計算機使用的價值在提升 —— 并且表明能力更強的模型已指日可待。



      圖表比較了多個 Sonnet 模型在 OSWorld 基準上的得分。注:Claude Sonnet 4.5 之前的得分基于原始 OSWorld 測量;從 Sonnet 4.5 開始使用 OSWorld-Verified。OSWorld-Verified(2025 年 7 月發布)是原始 OSWorld 基準的原位升級,對任務質量、評估評分和基礎設施進行了更新。

      與此同時,計算機使用也帶來了風險:惡意行為者可能試圖通過提示注入攻擊,將指令隱藏在網站中來劫持模型。

      Anthropic 致力于提高模型抵抗提示注入的能力 —— 其安全評估顯示,與其前代 Sonnet 4.5 相比,Sonnet 4.6 在這方面有重大改進,表現與 Opus 4.6 相近。

      評估 Claude Sonnet 4.6

      除了計算機使用,Claude Sonnet 4.6 在各項基準測試中均有提升。它的智能水平接近 Opus 級別,但價格更實惠,使其適用于更廣泛的任務。



      一個表格展示了流行基準測試中 Sonnet 4.6 與其他前沿模型的相對性能比較。

      Anthropic 的早期 Claude Code 測試發現,用戶大約有 70% 的時間更喜歡 Sonnet 4.6 而非 Sonnet 4.5。

      用戶報告說,它在修改代碼前能更有效地理解上下文,并能整合共享邏輯而非簡單復制。

      相比于 11 月發布的前沿模型 Opus 4.5,用戶甚至有 59% 的時間更喜歡 Sonnet 4.6。他們評價 Sonnet 4.6 在過度工程化和「偷懶」方面顯著減少,在指令遵循方面有明顯改進。用戶報告了更少的虛假成功聲明、更少的幻覺,以及在多步驟任務中更一致的執行力。

      Sonnet 4.6 的上下文窗口為 100 萬 token,足以在單個請求中容納整個代碼庫、長篇合同或數十篇研究論文。更重要的是,Sonnet 4.6 能有效地在所有上下文中進行推理。這使得它在長程規劃方面表現更佳。

      在 Vending-Bench Arena 評估中特別清晰地看到了這一點。該測試評估模型長期運營(模擬)業務的能力 —— 并且包含競爭元素,不同 AI 模型相互競爭以獲取最大利潤。

      Sonnet 4.6 發展出一種有趣的新策略:它在模擬的前十個月大力投資于產能,支出遠超競爭對手,然后在最后階段急劇轉向專注于盈利能力。這一轉向的時機使其最終遠遠領先于競爭對手。



      圖表顯示 Sonnet 4.6 在 Vending-Bench Arena 上優于 Sonnet 4.5:通過早期投資產能,然后在最后階段轉向盈利。

      Claude Sonnet 4.6 已經向哪些用戶開放?

      Claude Sonnet 4.6 現已面向所有 Claude 套餐、Claude Cowork、Claude Code、API 以及所有主流云平臺開放。Anthropic 也已將免費套餐默認升級至 Sonnet 4.6 版本 —— 現在包含文件創建、連接器、技能和壓縮功能。

      如果你是開發者,也可以通過 Claude API 快速開始使用 claude-sonnet-4-6。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      日本翻拍《水滸傳 北方謙三》正式上映,日本人為什么更喜歡水滸?

      日本翻拍《水滸傳 北方謙三》正式上映,日本人為什么更喜歡水滸?

      日本物語
      2026-02-17 20:41:02
      大年初一凌晨六點,國防部突然發布重磅視頻,讓無數人紅了眼眶

      大年初一凌晨六點,國防部突然發布重磅視頻,讓無數人紅了眼眶

      現代小青青慕慕
      2026-02-18 19:04:48
      A股:節后穩了!突發“重磅利好消息”,這幾個板塊將直接起飛!

      A股:節后穩了!突發“重磅利好消息”,這幾個板塊將直接起飛!

      夜深愛雜談
      2026-02-18 20:29:54
      歷史重演?精準預言2008年危機的老人說2026年將是“至暗時刻”

      歷史重演?精準預言2008年危機的老人說2026年將是“至暗時刻”

      次元君情感
      2026-02-17 23:50:31
      今年春節“最火”旅游目的地,不是海南和東北,是這個一線城市!

      今年春節“最火”旅游目的地,不是海南和東北,是這個一線城市!

      小熊侃史
      2026-02-18 20:04:48
      腸子悔青!曼聯鎖死拉什福德買斷價,如今身價翻倍卻無法反悔

      腸子悔青!曼聯鎖死拉什福德買斷價,如今身價翻倍卻無法反悔

      夜白侃球
      2026-02-18 22:36:28
      對不起了,吳京!看完《鏢人》,我才知道:是自己“孤陋寡聞”了

      對不起了,吳京!看完《鏢人》,我才知道:是自己“孤陋寡聞”了

      小丸子的娛樂圈
      2026-02-18 16:30:40
      讓春晚導演給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

      讓春晚導演給全國道歉,入美國籍回中國撈金,她到底有什么來頭?

      顧史
      2026-01-20 15:03:39
      烏談判代表團團長:烏美俄三方會談首日談判結束 明日將繼續

      烏談判代表團團長:烏美俄三方會談首日談判結束 明日將繼續

      大象新聞
      2026-02-18 06:43:05
      郭臺銘沒料到!富士康廠妹成勁敵,搶走大批蘋果訂單,年賺2209億

      郭臺銘沒料到!富士康廠妹成勁敵,搶走大批蘋果訂單,年賺2209億

      胖哥不胡說
      2026-01-13 12:09:17
      一塊布卡住英偉達的脖子!日企壟斷30年后,中國造出王炸撕碎封鎖

      一塊布卡住英偉達的脖子!日企壟斷30年后,中國造出王炸撕碎封鎖

      胖哥不胡說
      2026-01-20 11:10:05
      重慶一小區大門竟是百米隧道,業主:回家像大王回洞府

      重慶一小區大門竟是百米隧道,業主:回家像大王回洞府

      臺州交通廣播
      2026-02-17 15:11:29
      3-1!泰山中場大將2妙傳助球隊逆轉,球迷呼吁邵佳一招他進國家隊

      3-1!泰山中場大將2妙傳助球隊逆轉,球迷呼吁邵佳一招他進國家隊

      體壇鑒春秋
      2026-02-18 10:51:15
      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      1998年數萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      哄動一時啊
      2026-02-17 22:21:25
      甜馨跟著爸爸回村過年,賈乃亮一張全家福,意外曝光神秘拍照人

      甜馨跟著爸爸回村過年,賈乃亮一張全家福,意外曝光神秘拍照人

      樂界品鑒官
      2026-02-18 06:38:10
      日本妹子發現自己擁有「超能力」,網友表示:確實震撼,但這有啥用...

      日本妹子發現自己擁有「超能力」,網友表示:確實震撼,但這有啥用...

      日本窗
      2026-02-18 13:30:20
      美媒及美網友感覺這嚴重辱美了 贏美國奪冠后意大利選手做晚安手勢

      美媒及美網友感覺這嚴重辱美了 贏美國奪冠后意大利選手做晚安手勢

      勁爆體壇
      2026-02-18 09:54:14
      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      米蘭冬奧會賽程全掌握!一鍵收藏,觀賽不迷路→

      海外網
      2026-02-04 15:03:52
      追覓推出自帶線165W帶屏移動電源:2C+1A,399元

      追覓推出自帶線165W帶屏移動電源:2C+1A,399元

      IT之家
      2026-02-18 19:06:52
      奧運會為什么發避孕套?難道運動員都帶伴侶嗎?看完你就明白了!

      奧運會為什么發避孕套?難道運動員都帶伴侶嗎?看完你就明白了!

      南權先生
      2026-02-13 15:17:51
      2026-02-18 23:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12318文章數 142568關注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節阿里決戰春節

      頭條要聞

      5位新能源車主春運開車出行 特斯拉車主:電車更好開

      頭條要聞

      5位新能源車主春運開車出行 特斯拉車主:電車更好開

      體育要聞

      奪銀被問丟金,谷愛凌回擊外媒:很荒謬

      娛樂要聞

      明星過年百態!黃曉明等現身三亞

      財經要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產甲醇插混 吉利銀河星耀6甲醇插混版申報圖

      態度原創

      藝術
      家居
      游戲
      手機
      房產

      藝術要聞

      260米!廣州南沙第一高樓自帶“天眼”,設計火出圈!

      家居要聞

      中古雅韻 樂韻伴日常

      《巫師1》原編劇:《巫師:重制版》應重寫結局

      手機要聞

      央視春晚首度將手機納入舞臺主鏡頭陣列,華為Mate 80系列唯一手機設備完成豎屏直播

      房產要聞

      三亞新機場,又傳出新消息!

      無障礙瀏覽 進入關懷版