<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.6 發布,全線碾壓 GPT-5.2,一文詳解

      0
      分享至

      剛剛,Anthropic 發布 Claude Opus 4.6


      BenchMark

      在知識工作評測 GDPval-AA 上,Opus 4.6 贏 GPT-5.2 約 144 Elo,贏自家前代 Opus 4.5 約 190 Elo
      翻譯成人話,就是十局贏七局

      同時拿下 Terminal-Bench 2.0(Agent 編碼)、Humanity's Last Exam(多學科推理)、BrowseComp(Agent 搜索)的最高分

      這是 Opus 級模型第一次支持 1M token 上下文窗口(beta),輸出上限拉到 128K token

      模型之外,Anthropic 這次把產品線也一起更新了。Claude Code 加了 agent teams,Excel 升級,PowerPoint 新出了 research preview,API 加了 adaptive thinking 和 context compaction

      官方介紹視頻 跑分

      先看總表


      Benchmark 總表,Opus 4.6 vs 各家模型

      分項來看

      知識工作(GDPval-AA)

      這個評測由 Artificial Analysis 獨立運營,測的是金融、法律等專業領域的實際工作能力。Opus 4.6 在各個子領域都排在前面


      GDPval-AA 各領域得分

      Agent 搜索(DeepSearchQA / BrowseComp)

      BrowseComp 測的是模型在網上找難找的信息的能力。Opus 4.6 單 Agent 跑分就已經領先,加上多 Agent 框架之后分數到了 86.8%


      DeepSearchQA 跑分對比

      Agent 編碼(Terminal-Bench 2.0 / SWE-bench Verified)

      Terminal-Bench 2.0 拿了最高分。SWE-bench Verified 平均跑了 25 輪,調整 prompt 后最高到了 81.42%


      Terminal-Bench 2.0 跑分

      多學科推理(Humanity's Last Exam / ARC AGI 2)

      Humanity's Last Exam 跑的時候帶了 web search、code execution、context compaction(50K token 觸發,最大 3M token),用了 max effort + adaptive thinking

      ARC AGI 2 用了 max effort 和 120K thinking budget


      多學科推理跑分 長上下文

      1M 上下文不新鮮,但 Opus 級模型一直沒給

      之前的問題是 context rot,上下文一長,模型表現就往下掉。Opus 4.6 在 MRCR v2 八針 1M 測試里拿了 76%,同一個測試 Sonnet 4.5 只有 18.5%

      這特么...足足四倍

      Anthropic 說 Opus 4.6 在大量文檔中檢索信息的能力也有明顯提升,能在幾十萬 token 的上下文里追蹤信息,抓住 Opus 4.5 會漏掉的細節


      長上下文檢索,提升很明顯 長上下文推理能力對比 其他領域的 benchmark

      除了上面幾個主要方向,Opus 4.6 還跑了軟件工程、多語言編碼、長期連貫性、網絡安全、生命科學幾個方向

      根因分析(OpenRCA)

      測的是模型診斷復雜軟件故障的能力。每個 case 如果所有生成的根因要素都和 ground truth 匹配就得 1 分,否則 0 分


      OpenRCA,診斷復雜軟件故障

      多語言編碼


      多語言編碼跑分

      長期連貫性(MCP Atlas)

      Opus 4.6 用 max effort 跑出最高分。用 high effort 的時候也到了 62.7%,同樣領先


      MCP Atlas,長期連貫性

      網絡安全(CyberGym)

      跑的時候沒開 thinking,用默認 effort、temperature 和 top_p,給了一個 think tool 做多輪評測的交叉思考


      CyberGym,網絡安全能力

      生命科學


      生命科學跑分 Anthropic 內部怎么用的

      Anthropic 自己用 Claude 造 Claude。工程師每天用 Claude Code 寫代碼,每個新模型都先在內部跑

      他們對 Opus 4.6 的觀察:模型會自動把精力集中在任務最難的部分,簡單的地方快速通過,處理模糊問題時判斷更好,長時間工作保持穩定

      但也有個問題,Opus 4.6 有時候會「想太多」。簡單任務上會增加成本和延遲,Anthropic 建議這種場景把 effort 從默認的 high 調到 medium

      Early Access 合作伙伴的反饋集中在三點:能自主工作不需要手把手帶,之前模型搞不定的任務能搞定了,改變了團隊協作的方式

      產品更新

      Claude Code:agent teams

      可以同時起多個 Agent,讓它們并行工作、自主協調。適合能拆成獨立子任務的場景,比如大規模 code review

      你可以用 Shift+Up/Down 或者 tmux 隨時接管任意一個子 Agent。目前是 research preview

      Claude in Excel

      能處理更長、更復雜的任務了。可以先規劃再執行,能自動識別非結構化數據并推斷出合理的表結構,支持條件格式和數據驗證,多步操作一次完成

      Claude in Excel 演示視頻(1 分 27 秒)

      Claude in PowerPoint

      這個東西目前,research preview 階段,Max、Team、Enterprise 可用

      Claude 會讀你的版式、字體、母版,保持品牌一致性。可以從模板出發,也可以從一段描述直接生成整套 deck

      一個實用的組合:先用 Claude in Excel 處理和結構化數據,再用 Claude in PowerPoint 做可視化呈現

      Cowork

      在 Cowork 里,Opus 4.6 可以自主執行多任務。跑分析、做研究、處理文檔、表格、演示文稿,都可以自動跑

      API 更新

      Adaptive thinking
      以前 extended thinking 只有開和關兩個選項。現在 Claude 可以自己判斷什么時候需要深度推理,什么時候快速過。默認 effort 是 high,這個檔位下模型會在需要的時候自動啟用深度推理

      Effort 控制
      四檔可選:low、medium、high(默認)、max。開發者可以根據任務調

      Context compaction(beta)
      長對話或 Agent 任務快撞到上下文窗口的時候,自動把舊的上下文壓縮成摘要替換掉,觸發閾值可配置

      1M 上下文(beta)
      超過 200K token 的輸入,價格從 漲 到 10/百萬 token,輸出從 漲 到 37.50。200K 以內價格不變

      128K 輸出
      大輸出任務不用拆成多次請求了

      US-only inference
      需要數據留在美國境內的,可以選 US-only inference,價格 1.1 倍

      安全

      Anthropic 說這是他們做過最全面的安全評估,很多測試是第一次用

      自動行為審計里,Opus 4.6 的對齊偏差率(欺騙、諂媚、配合濫用等)和 Opus 4.5 持平。over-refusal 率(該回答卻拒絕)是近期 Claude 模型里最低的


      安全評估,各代 Claude 對齊偏差率對比

      新增了用戶福祉評測、更復雜的拒絕危險請求測試、模型是否會偷偷執行有害操作的升級版測試

      因為 Opus 4.6 的網絡安全能力提升明顯,Anthropic 額外開發了 6 個新的網絡安全探針來追蹤潛在濫用。同時也在用這個模型幫開源軟件找漏洞和打補丁

      一個細節:system card 里提到他們首次用可解釋性(interpretability)技術去理解模型行為的底層原因,試圖抓住標準測試可能漏掉的問題

      詳細的能力和安全評估在 system card 里:https://www.anthropic.com/claude-opus-4-6-system-card


      定價

      今天起在 claude.ai、Claude API、AWS、GCP、Azure 可用

      模型 API 標識:claude-opus-4-6

      定價: 25 每百萬 token(200K 以內), 37.50 每百萬 token(200K 以上)


      完整定價:https://claude.com/pricing

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      油價大降1.73元/升,汽油降至6.7元后全漲起來,下次調價變漲中

      油價大降1.73元/升,汽油降至6.7元后全漲起來,下次調價變漲中

      豬友巴巴
      2026-04-02 16:35:03
      “項王故里”景區招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

      “項王故里”景區招募項羽扮演者 要求身高185cm以上 日薪按身高10倍計算

      閃電新聞
      2026-04-02 11:12:54
      上市公司突發,董事長失聯

      上市公司突發,董事長失聯

      第一財經資訊
      2026-04-03 14:29:12
      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

      浙江東陽,33 歲的男子,在母親長眠的公墓旁,在車里結束了生命

      魔都姐姐雜談
      2026-03-30 19:25:57
      浪姐7大翻車!主持人開黃腔,杜海濤媽媽搶話,黃燦燦揭謝娜老底

      浪姐7大翻車!主持人開黃腔,杜海濤媽媽搶話,黃燦燦揭謝娜老底

      阿傖說事
      2026-04-03 11:55:00
      4月醫保新政:家有高血壓、糖尿病、心臟病的,趕緊辦

      4月醫保新政:家有高血壓、糖尿病、心臟病的,趕緊辦

      小談食刻美食
      2026-04-03 10:10:23
      他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

      他判刑13年至死未平反,10萬人送行墓前立百碑,百姓說不能忘了他

      小嵩
      2026-04-03 14:01:17
      繼續跌跌跌!2026年3月29日 - 飛天茅臺和生肖酒每日行情價格

      繼續跌跌跌!2026年3月29日 - 飛天茅臺和生肖酒每日行情價格

      阿天愛旅行
      2026-03-31 14:31:55
      亞洲最貴11人陣容:“亞洲一哥”仍舊領銜,曼城中衛價格最高

      亞洲最貴11人陣容:“亞洲一哥”仍舊領銜,曼城中衛價格最高

      里芃芃體育
      2026-04-03 11:30:13
      朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

      朝鮮男人煙不離手,金正恩抽什么牌子的香煙?一包煙的價格是多少

      大千世界觀
      2025-04-06 08:14:26
      被免去廳長職務半年后,夏智倫主動投案

      被免去廳長職務半年后,夏智倫主動投案

      新浪財經
      2026-04-03 15:21:39
      馬斯克:西方不搞電車,集體擁抱氫能,中國電動車錯了嗎?

      馬斯克:西方不搞電車,集體擁抱氫能,中國電動車錯了嗎?

      杰絲聊古今
      2026-04-03 05:33:28
      澳門世界杯:8強誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

      澳門世界杯:8強誕生!德日潰不成軍,小莫開啟暴走 王楚欽遇鬼才

      桃葉渡春
      2026-04-03 10:34:53
      英媒:中國在美伊沖突問題上遵循“不打斷敵人犯錯”原則

      英媒:中國在美伊沖突問題上遵循“不打斷敵人犯錯”原則

      俄羅斯衛星通訊社
      2026-04-03 15:14:10
      場均23+5,湖人打算給2.4億合同!佩林卡別犯渾,他不是爭冠拼圖

      場均23+5,湖人打算給2.4億合同!佩林卡別犯渾,他不是爭冠拼圖

      你的籃球頻道
      2026-04-03 13:41:26
      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本九州大學的中國交換生辦完合約手機,沒有按契約進行還款,拿著手機回中國了……

      日本物語
      2026-04-02 20:39:33
      坦白備好壽衣和遺照3個月后,張柏芝近況曝光,謝霆鋒媽媽沒說謊

      坦白備好壽衣和遺照3個月后,張柏芝近況曝光,謝霆鋒媽媽沒說謊

      潮鹿逐夢
      2026-04-01 11:14:27
      火箭一口氣獲4大喜訊!提前鎖前6直通季后賽 杜蘭特獲月最佳提名

      火箭一口氣獲4大喜訊!提前鎖前6直通季后賽 杜蘭特獲月最佳提名

      鍋子籃球
      2026-04-03 12:08:01
      美國宣布:4月2日重返月球!尷尬的是:美國目前沒有載人登月能力

      美國宣布:4月2日重返月球!尷尬的是:美國目前沒有載人登月能力

      粵語音樂噴泉
      2026-04-01 13:11:23
      4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

      4月2日俄烏:特朗普又放“狠話”,俄軍損失突破130萬

      山河路口
      2026-04-02 17:16:01
      2026-04-03 16:03:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      357文章數 50關注度
      往期回顧 全部

      科技要聞

      5萬輛庫存車,給了特斯拉一記重拳

      頭條要聞

      小米宣布部分手機調價 盧偉冰、魏思琪:望大家理解

      頭條要聞

      小米宣布部分手機調價 盧偉冰、魏思琪:望大家理解

      體育要聞

      沖擊世界杯失敗,80歲老帥一氣之下病倒了

      娛樂要聞

      《浪姐7》最新人氣TOP 曾沛慈斷層第一

      財經要聞

      專家稱長期攝入“飄香劑”存在健康隱患

      汽車要聞

      你介意和遠房親戚長得很像嗎?

      態度原創

      健康
      本地
      親子
      公開課
      軍事航空

      干細胞抗衰4大誤區,90%的人都中招

      本地新聞

      跟著歌聲游安徽,聽古村回響

      親子要聞

      成都昊祎裳服飾有限公司童裝:用健康與時尚,守護孩子的童年時光

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      中方:不認同伊朗對海合會國家的攻擊

      無障礙瀏覽 進入關懷版