<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Sonnet 4.6空降!Office性能干翻旗艦模型,軟件股哀嚎一片

      0
      分享至


      智東西
      編譯 李水青 程茜
      編輯 心緣

      智東西2月18日報道,今日凌晨,Anthropic推出史上最強Sonnet模型——Claude Sonnet 4.6來了,新模型在編程、計算機使用、長上下文推理、Agent規劃、知識工作和設計工作上全面進化。

      從Anthropic公布的基準測試結果來看,Claude Sonnet 4.6的智能水平已接近Opus級別,在Agent金融分析、辦公任務、視覺推理幾項測評中甚至超過在2月6日剛剛發布的Opus 4.6,但成本更親民。在Claude系列模型中,最小的模型通常稱為Haiku,中型模型稱為Sonnet,最大、智能水平最高的模型是Opus。


      在Sonnet 4.6發布后,美股軟件股哀嚎一片。截至美東時間周二收盤,Intuit跌超5%,甲骨文、Applovin跌超3%,Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%,Adobe、ServiceNow跌超1%。

      一位開發者在社交平臺X上公布了其試用體驗,亮出了Claude Sonnet 4.6與Claude Opus 4.6的游戲生成對比,他稱兩者效果不相上下,而Claude Sonnet 4.6價格卻便宜了近一半



      ▲社交平臺X上Claude Sonnet 4.6的體驗實例

      Sonnet 4.6測試版擁有100萬token上下文窗口。對于免費和Pro訂閱用戶,Claude Sonnet 4.6已成為claude.ai和Claude Cowork的默認模型,現已支持文件創建、連接器、專業技能與內容壓縮等功能。該模型的價格與Sonnet 4.5一致,每百萬token的輸入價格為3美元(約合人民幣21元),輸出價格為15美元(約合人民幣104元)。


      AWS第一時間宣布Sonnet 4.6已在Amazon Bedrock上架。AWS稱,這是Anthropic的最強計算機使用模型,對于正在擴展AI工作流程的企業而言,這意味著在不犧牲質量的前提下獲得更高的投資回報率。


      這也是Anthropic成為萬億獨角獸后,首次亮相新模型。2月13日,Anthropic宣布完成300億美元(約合人民幣2072.61億元)G輪融資,估值一舉躍升至3800億美元(約合人民幣2.63萬億元)。

      在Sonnet 4.6發布后,美股軟件股哀嚎一片。截至美東時間周二收盤,Intuit跌超5%,甲骨文、Applovin跌超3%,Salesforce、Atlassian、Palo Alto Networks、Autodesk跌超2%,Adobe、ServiceNow跌超1%。

      一、效果接近Opus 4.6、成本更低,搜索操作、百萬token上下文是亮點

      Claude Sonnet 4.6一經發布就在開發者圈引起了關注和討論。

      一位海外開發者稱:“Claude Sonnet 4.6以更低的成本實現了接近Opus的智能水平,這意義非凡,適用于預算有限的團隊。”另一位網友稱:“Anthropic的真正策略已顯露:Opus爭奪王座,Sonnet蠶食市場。


      100萬token上下文窗口被多位開發者提及為最大亮點。“100萬個token?終于找到一個能讀取我整個混亂代碼庫而不評判我的模型了。”一位網友稱。另一位網友也將模型運行了一整天,提到智能編碼方面的改進明顯:“多文件修改時不再需要過多干預,而且能夠記住長時間會話中的上下文。不過,100萬個token窗口才是真正的亮點,你可以導出整個代碼庫,它也不會丟失任何信息。



      另一位網友展示了他的試用案例,Claude Sonnet 4.6只用一次調用就重構了他的整個代碼庫。25次工具調用,新增了3000多行代碼,創建了12個全新的文件。它實現了模塊化,拆分了單體應用,清理了混亂的代碼。“雖然所有功能還沒運行,但效果真是太棒了。”


      ▲社交平臺X上Claude Sonnet 4.6的體驗實例

      Claude Sonnet 4.6的視覺推理能力有所提升,這一能力之前與Gemini和ChatGPT相比更遜色。一位開發者展示出了Grok 4.20 beta和Claude Sonnet 4.6的SVG生成效果,提示詞是“編寫SVG代碼以創建一個詳細的Xbox控制器”。可以看到,Claude Sonnet 4.6生成的圖像具有更強的立體感。


      在Agent編程方面表現出色”是值得關注的關鍵點。一位開發者稱,Agent編程需要模型一直以來都難以做到的兩件事:保持在模型范圍內以及不偏離地執行多步驟指令。如果4.6版本確實改進了這兩點,那么它就能改變模型的交付方式。


      有的開發者則關注“專注于搜索操作”,稱這意味著其正在超越自動補全,轉而理解代碼庫之間的連接方式,它將成為復雜系統的導航工具。一位網友稱:“搜索功能的改進確實有效,它大大節省了在大型代碼庫中查找所需函數的時間。

      不過也有人擔心Copilot Agent模式的代碼安全問題。一位網友稱,擅長搜索和代碼編寫的Agent與聊天助手的影響范圍截然不同,如果它擁有生產環境提交權限,那么一旦工作流程遭到破壞,就會對供應鏈構成風險


      盡管好評如潮,但也有開發者認為Sonnet 4.6沒有達到期待。“我們原本預期Sonnet 4.6在編程方面會勝過Opus 4.5,但結果表明它只是在Cowork方面進行了升級。”有網友甚至稱“Sonnet 4.6=Opus 4.5”,也有多位網友提到Sonnet 4.6不僅沒有超過GPT-5.2,而且沒有對比Codex 5.3的效果,對模型能力天花板表示質疑。



      二、多項能力超GPT-5.2,處理復雜表格、填寫多步驟網頁表單能力接近人類

      在整體的基準測試中,Claude Sonnet 4.6的表現在多個項目中表現都超過自家的Opus 4.6,以及Gemini 3 Pro、GPT-5.2。

      GDPval-AA是一個獨立的評估框架,用于測試模型在具有經濟價值的真實世界專業任務上的表現,Claude Sonnet 4.6在Claude Opus 4.6、GPT-5.2等所有比較模型中排名第一。


      對于真實世界的軟件工程任務測試SWE-bench、衡量Agent交互能力的τ2-bench、多選題測試GPQA Diamond等測試,Claude Sonnet 4.6的表現接近或已超過Claude Opus 4.6。

      值得一提的是,OSWorld是衡量AI計算機使用的標準基準,其在模擬計算機環境中,基于真實軟件Chrome、LibreOffice、VS Code等設置了數百項任務,不提供任何專用API或定制連接器。在完成任務時,模型就像人類一樣看屏幕、操作電腦,如通過點擊虛擬鼠標、敲擊虛擬鍵盤完成交互。

      2024年10月,Anthropic率先推出一款通用計算機使用模型,但當時,這一模型仍處于實驗階段,容易出錯。經過16個月時間,其Sonnet模型在OSWorld基準測試上的成績逐漸提升。


      并且其博客提到,這些進步不僅體現在測試指標上,早期使用Sonnet 4.6的用戶還發現,在處理復雜表格、填寫多步驟網頁表單以及在多個瀏覽器標簽頁之間協同操作等任務中,該模型已具備接近人類水平的能力。

      在Claude Code中,Anthropic在早期測試中發現,用戶大約有70%的時間更喜歡Sonnet 4.6而不是Sonnet 4.5。其原因是,Sonnet 4.6在修改代碼之前能更有效地讀取上下文,并整合共享邏輯而不是重復它。

      此外,更偏愛Sonnet 4.6而非Opus 4.5的用戶占到了59%,他們認為Sonnet 4.6不會把問題搞得太復雜,也不會偷懶敷衍,并且在指令遵循方面有顯著提升。這些用戶報告稱,Sonnet 4.6產生的成功假象更少、幻覺更少,在多步任務上的執行也更一致。

      三、模擬商業運營盈利能力超對手,深度推理Opus 4.6依然是最強

      Claude Sonnet 4.6提供兩種模式:一種是“擴展思維模式”,在此模式下,模型會花費更多時間進行推理;另一種是“自適應思維模式”,在此模式下,模型會根據任務的難度,靈活調整在擴展思維模式下花費的時間。開發者可以根據具體任務,自主控制Sonnet 4.6以哪種模式執行任務。

      Sonnet 4.6擁有100萬token的上下文窗口,研究人員在Vending-Bench Arena評測中看到了這一點,這一基準測試考驗的是模型模擬商業運營中的表現,并包含競爭機制,不同AI模型需要相互對抗以獲取最大利潤。

      Sonnet 4.6在這個測試中開發了新策略,它在最初的十個月模擬期間大量投資于能力建設,花費顯著高于競爭對手,然后在最后階段迅速轉向專注于盈利。這使得它在最后的盈利結果遠遠領先于競爭對手。


      開發者還發現,Sonnet 4.6在前端代碼、財務分析上的改進尤為突出,并且其視覺輸出更加精致,布局、動畫和設計感均優于之前的模型,僅需要更少的迭代輪次即可達到生產質量的結果。

      Anthropic在博客中還公布了其他具體的產品更新:

      在Claude開發者平臺上,Sonnet 4.6支持自適應思考和擴展思考,以及處于測試階段的上下文壓縮功能。在API中,Claude的網頁搜索與內容獲取工具可以自動編寫并運行代碼,對搜索結果進行篩選和處理。

      Sonnet 4.6無論思考強度高低,表現都很穩定。相比之下,對于需要深度推理的任務,Opus 4.6依然是最佳選擇,例如代碼庫重構、工作流中多Agent協同,以及精準度至關重要的復雜問題。

      在安全評估方面,研究人員評估了Claude Sonnet 4.6在單回合對話場景中提供信息的意愿,并測試了預期Claude會做出無害回應的違規請求,以及涉及敏感話題的良性請求。該評估使用了普通話、阿拉伯語、英語、法語、印地語、韓語和俄語。

      結語:高性價比、會用電腦,讓AI加速進入真實工作流

      Anthropic的模型布局分為Haiku、Sonnet、Opus系列,這些模型對應著不同的價格和智能水平。此次其Sonnet模型的大幅躍升,部分場景可對標甚至超越Opus系列模型,再加上價格親民、免費版直接可用,都表明大模型高端性能與高成本的強綁定正在被逐步打破。

      從具體的性能升級來看,Sonnet 4.6的實際任務執行、幻覺緩解、指令遵循能力上大幅提升,尤其在“像人一樣使用電腦”上,其交互更加自然,這也進一步模型深度融入用戶在辦公、研發、金融、數據分析場景真實工作潛力大幅提升。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普深夜驚聞噩耗,美國內憂外患一起襲來,美債被大規模拋售

      特朗普深夜驚聞噩耗,美國內憂外患一起襲來,美債被大規模拋售

      阿訊說天下
      2026-03-08 00:54:59
      豪門狂歡夜:巴薩1-0,尤文4-0,曼城3-1,切爾西4-2,阿森納2-1

      豪門狂歡夜:巴薩1-0,尤文4-0,曼城3-1,切爾西4-2,阿森納2-1

      側身凌空斬
      2026-03-08 06:12:16
      比亞迪發布閃充,意外拯救了5萬座加油站的中石油中石化

      比亞迪發布閃充,意外拯救了5萬座加油站的中石油中石化

      生活魔術專家
      2026-03-07 22:29:33
      文旅部部長:7名外國游客買了40箱中國貨離境,交了超重費但有退稅政策,還是合算

      文旅部部長:7名外國游客買了40箱中國貨離境,交了超重費但有退稅政策,還是合算

      紅星新聞
      2026-03-07 13:24:24
      董璇是無數人心中的女神,如今被曝欠債千萬

      董璇是無數人心中的女神,如今被曝欠債千萬

      林雁飛
      2026-03-07 20:12:13
      3月8日,券商給予評級并且給出目標價的公司一覽

      3月8日,券商給予評級并且給出目標價的公司一覽

      A股數據表
      2026-03-08 06:00:03
      好家伙《我的山與海》開播就差評一片,觀眾給的理由竟出奇一致!

      好家伙《我的山與海》開播就差評一片,觀眾給的理由竟出奇一致!

      潮鹿逐夢
      2026-03-07 22:02:33
      熬了8年!高速收費終于定了,2026年起,車主上高速徹底變了

      熬了8年!高速收費終于定了,2026年起,車主上高速徹底變了

      奇思妙想草葉君
      2026-03-06 23:23:57
      河村勇輝閃耀G聯賽卻難打NBA!專家詳解困境:最大原因還是身高

      河村勇輝閃耀G聯賽卻難打NBA!專家詳解困境:最大原因還是身高

      羅說NBA
      2026-03-08 06:12:07
      李自成兵敗到底有多悲慘?讓我們看看他手下文臣武將的結局就知道

      李自成兵敗到底有多悲慘?讓我們看看他手下文臣武將的結局就知道

      談史論天地
      2026-03-07 05:58:46
      鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對抗均失敗

      鄺兆鐳中超處子秀!09年齡段第一人,0突破0射門,3次對抗均失敗

      奧拜爾
      2026-03-07 21:31:37
      回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

      回顧:孫子長相神似爺爺,婆婆懷疑兒媳12年,親子鑒定后全家愣住

      談史論天地
      2026-02-28 14:55:57
      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      伊朗反擊取得重大成果?千萬別信網上的那些專家和爽文

      壹家言
      2026-03-04 19:37:20
      長期佩戴骨傳導耳機會致聾?醫生:7天內是黃金治療期

      長期佩戴骨傳導耳機會致聾?醫生:7天內是黃金治療期

      人民日報健康客戶端
      2026-03-06 10:50:07
      拒絕冷門!德約戰滿三盤2-1逆轉過關,迎印第安維爾斯開門紅

      拒絕冷門!德約戰滿三盤2-1逆轉過關,迎印第安維爾斯開門紅

      全景體育V
      2026-03-08 08:11:06
      很多人還不知道,原來只要知道對方手機號碼,就可以查到對方位置了!

      很多人還不知道,原來只要知道對方手機號碼,就可以查到對方位置了!

      CG說科技
      2026-03-05 16:59:05
      B-52重返戰場:當美軍開始用二戰式轟炸,戰爭其實已經結束了一半

      B-52重返戰場:當美軍開始用二戰式轟炸,戰爭其實已經結束了一半

      斌聞天下
      2026-03-07 07:30:03
      離譜!比亞迪閃充的核心,竟是我們小時候吐槽的水池數學題?

      離譜!比亞迪閃充的核心,竟是我們小時候吐槽的水池數學題?

      趣味萌寵的日常
      2026-03-07 22:30:35
      普京與伊朗總統通電話:必須立即停止美國對伊朗的軍事行動

      普京與伊朗總統通電話:必須立即停止美國對伊朗的軍事行動

      俄羅斯衛星通訊社
      2026-03-07 16:11:02
      39分慘案引爆內訌危機!掘金最強陣崩盤,阿德爾曼痛批無競爭精神

      39分慘案引爆內訌危機!掘金最強陣崩盤,阿德爾曼痛批無競爭精神

      田先生籃球
      2026-03-07 20:30:02
      2026-03-08 09:40:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11320文章數 116989關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      頭條要聞

      媒體:伊朗問題要注意普京的動向 其在向美以喊話

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      汪小菲曝親媽猛料,張蘭公開財產分配

      財經要聞

      油價要失控?

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      親子
      教育
      旅游
      健康
      公開課

      親子要聞

      12歲孩子腸癌晚期,腫瘤年輕化不是開玩笑!

      教育要聞

      成長路上的心靈迷霧:青春期女生常見心理

      旅游要聞

      湖州,不只有風景

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版