<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.6殺死編程比賽!挖出500個day0漏洞,生成k線成交量分布,還有PPT直出

      0
      分享至


      智東西
      作者|王涵
      編輯|心緣

      智東西2月6日報道,今天凌晨,Anthropic正式發布旗艦模型Claude Opus 4.6,是Anthropic首款開啟100萬token上下文窗口測試功能的旗艦級模型。


      Opus 4.6具備更縝密的規劃能力,能維持更長時間的智能體任務執行,可以在龐大代碼庫中穩定運行,并能夠進行自我糾錯

      在基準測試中,Opus 4.6在智能體編程評估Terminal-Bench 2.0中獲得最高分,于綜合性多學科推理測試Humanity’s Last Exam中也坐穩了第一名的寶座。

      針對金融、法律等經濟價值領域的GDPval-AA評估中,Opus 4.6也是第一,并較第二名的GPT-5.2拉開約144個Elo分差,較前代版本Claude Opus 4.5提升了190分


      就在Opus 4.6發布后幾分鐘,OpenAI把GPT-5.3-Codex也搬了出來“正面硬剛”。截至北京時間2月6日11點,X平臺上有關“Claude VS Codex”的話題下已有4.1萬條討論。


      Varick Agent的CEO“vas”發帖稱:“Claude 4.6 Opus僅用一次調用就重構了我的整個代碼庫。25次工具調用,新增3000多行代碼,創建了12個全新文件。它模塊化了所有內容,拆解了單體架構,理順了混亂的邏輯。結果沒一個能運行,但重構后的代碼,實在是美得驚人。”


      有網友展示出他用Opus 4.6一次性做出的k線成交量分布表。評論區紛紛感嘆:這要是真的,那一切都結束了。

      在話題討論中,有不少網友都自發測評了Opus 4.6與GPT-5.3 Codex這兩款模型,還曬出了測試Agent在復雜現實世界任務中的表現的Terminal-Bench,結果顯示GPT-5.3 Codex比Opus 4.6領先了11.9%。


      在網友的測評中,在編程方面GPT-5.3 Codex獲得的好評似乎更多。有網友發出對比:“Opus 4.6有100萬上下文+企業/知識工作+發現500個零日漏洞+Claude代碼中的Agent集群-基準測試成績不如Codex 5.3;而gpt-5.3-codex有代碼基準測試勝出+速度更快+任務中轉向,但上下文窗口不到Opus的一半。”


      還有網友放出了更直觀的性能對比圖:




      價格上,在200K上下文以內(包括200K),Opus 4.6輸入每百萬token的價格為5美元(約合人民幣34.69元),輸出每百萬token的價格為25美元(約合人民幣173.45元);超過200K上下文,Opus 4.6輸入每百萬token的價格為10美元(約合人民幣69.38元),輸出每百萬token的價格為37.5美元(約合人民幣260.18元)。


      此外,Anthropic還將向Pro與Max用戶限時贈送價值50美元(約合人民幣346.9元)的額外使用額度,不適用于Team版、企業版及API/控制臺用戶。

      使用額外額度的用戶需同時滿足以下兩個條件:

      1、已于2026年2月4日(太平洋時間)晚11:59前開通Pro或Max訂閱;

      2、在2026年2月16日(太平洋時間)晚11:59前啟用額外用量功能。

      Claude Opus 4.6即日起在claude.ai官網、API接口及所有主流云平臺同步上線。開發者可通過Claude API調用claude-opus-4-6模型。

      一、“大海撈針”測試得分76%,緩解“上下文衰減”問題

      在多語言編程測試SWE-bench Multilingual中,Opus 4.6的成績較Opus 4.5提升1.6分;在網絡安全漏洞復現測試CyberGym中,Opus 4.6獲得66.6分,較Opus 4.5提升15.6分,是Sonnet 4.5分數的兩倍多


      Opus 4.6在長文本連貫性測試Vending-Bench 2中以 8017.59 的分數大幅領先,在計算生物學BioPipelineBench測試中也以53.1分的成績位居第一。


      Opus 4.6在從海量文檔中檢索相關信息方面能力較上一代有所提升。這一優勢延伸至長上下文任務,它能在處理數十萬token時更穩定地保持和追蹤信息,減少信息漂移,并能捕捉到可能遺漏的深層細節。

      Anthropic團隊在博客中稱,用戶常抱怨AI模型存在“上下文衰減”問題——即對話超過一定token數量后性能會下降。

      對此,研究團隊對Opus 4.6進行了MRCR v2的“8針-100萬”變體測試,這是類似于一種在浩瀚文本中檢索隱藏信息的“大海撈針”式基準測試。在這個測試中Opus 4.6得分達76%,而Sonnet 4.5僅得18.5%


      Opus 4.6的綜合基準測試如下圖所示。總而言之,Opus 4.6在長上下文中查找信息更精準,吸收信息后的推理能力更強。


      二、行為失范率極低,新增六類網絡安全探測工具

      智能水平的飛躍并未以犧牲安全性為代價。在Anthropic的自動化行為審計中,Opus 4.6的行為失范率極低,行為失范包括欺騙、奉承、助長用戶妄想以及配合濫用等情形。

      安全對齊程度與前代旗艦模型,即迄今為止對齊度最高的Claude Opus 4.5保持同等水準。


      值得注意的是,Opus 4.6在所有近期Claude模型中展現出最低的過度拒絕率,即模型未能回應良性查詢的情況。


      在博客中,Anthropic團隊透露,針對Opus 4.6,他們開展了迄今最全面的安全評估體系,首次應用多項全新測試方法并對既有評估方案進行升級。Anthropic團隊新增了用戶福祉評估、更復雜的危險請求拒答能力測試,并更新了模型隱蔽執行有害行為的評估標準。

      同時,其運用可解釋性科學的新方法進行實驗,開始探究模型特定行為背后的成因,以期發現標準測試可能遺漏的問題。

      針對Opus 4.6在特定領域可能被危險利用的突出能力,研究團隊同步部署了新的防護機制。尤其鑒于該模型顯著增強的網絡安全能力,他們開發了6種新型網絡安全探測工具以幫助追蹤不同形式的潛在濫用行為。

      同時,Anthropic也在加速推進Opus 4.6在網絡防御領域的應用,通過其協助發現并修復開源軟件漏洞。

      他們認為網絡防御者利用Claude這類AI模型來平衡攻防態勢至關重要。網絡安全領域發展迅速,Anthropic將根據對潛在威脅的認知持續調整和更新防護措施,近期其可能啟動實時干預機制以阻斷濫用行為。

      三、API新增自適應思考功能,Claude Code現可多智能體并行

      通過API接口,開發者們還可以獲取到更精細的模型算力控制方案,并為長期運行的智能體任務帶來更高靈活性。具體新增以下功能:

      1、自適應思考:此前開發者僅能在啟用或禁用深度思考模式間二選一。現在通過自適應思考功能,Claude可自主判斷何時需要深度推理。在默認算力等級(高)下,模型會在必要時啟動深度思考,開發者也可通過調整算力等級來改變其觸發頻率。

      2、算力調控:現提供四個可調節的算力等級:低、中、高(默認)、極致。

      3、上下文壓縮(測試版):長程對話與智能體任務常觸及上下文窗口限制。當對話接近可配置閾值時,上下文壓縮功能將自動總結并替換早期對話內容,使Claude能夠執行更長任務而不受限制。

      4、100萬token上下文(測試版):當提示內容超過20萬token時,將適用高級定價。

      5、128k輸出token:Opus 4.6支持最高128k token的輸出長度,使Claude能完整處理需要大規模輸出的任務,無需拆分為多次請求。

      6、美國境內推理:對于需要在美國境內運行的工作負載,可選擇美國專屬推理服務,定價為標準token費用的1.1倍。

      在Claude與Claude Code平臺,Anthropic新增了多項功能:

      Claude Code中新增智能體團隊的研究預覽功能。現在用戶可以啟動多個并行工作的智能體,它們將自主協同配合,特別適用于代碼庫審查這類可拆分為獨立、重讀取的子任務。

      在與常用辦公工具的協作體驗方面,Claude Excel集成版現在能夠處理長時程與高難度任務,支持先規劃后執行、自主解析非結構化數據并推斷正確格式,還能單次完成多步驟修改。

      Excel集成版還能搭配PowerPoint集成版使用,用戶可先在Excel中處理并結構化數據,再通過PowerPoint實現可視化呈現。

      PowerPoint集成功能現已面向Max、Team及企業版用戶開放研究預覽。

      四、放手兩千次會話,Opus 4.6率智能體團隊“煉”出十萬行C編譯器

      Anthropic官方還給出了一個開發者使用并行Claude智能體團隊構建C語言編譯器的案例。在這個案例中,開發者指派Opus 4.6率領智能體團隊構建一個C語言編譯器,隨后便基本放手任其運行,僅用兩周,就完成了一個小團隊一個月的工作。

      (視頻)

      在為期兩周、近2000次Claude Code會話中,Opus 4.6消耗了20億個輸入token并生成1.4億個輸出token,總成本略低于2萬美元(約合人民幣13.88萬元),這個成本僅相當于開發者個人獨立完成所需投入的零頭。

      最終Opus 4.6做出了一個有著10萬行代碼規模的編譯器,并且是凈室實現,即開發全程Claude無網絡訪問權限,僅依賴Rust標準庫。

      這個編譯器能在x86、ARM和RISC-V架構上構建可啟動的Linux 6.9內核,還能編譯QEMU、FFmpeg、SQLite、PostgreSQL、Redis等大型項目。

      該編譯器在包括GCC torture測試套件在內的大多數編譯器測試中達到99%通過率,甚至通過了編譯器、操作系統等底層技術的 “終極測試”:成功編譯并運行第一人稱射擊游戲《Doom》。

      經過多輪實踐,開發者總結出了協調多個Claude高效協作的四大核心方法

      1、改進測試框架:

      在項目后期,Claude每次實現新功能時都會頻繁破壞現有功能。為此開發者構建了持續集成流水線,實施更嚴格的檢查機制,讓Claude能更好地測試自身工作,確保新提交不會破壞現有代碼。

      2、站在Claude的視角設計適配環境:

      每個智能體都啟動于無上下文的新容器中,會花費大量時間自我定位,尤其在大型項目中。甚至在運行測試前,為幫助Claude自助,開發者需要在說明中要求維護詳細的README文檔和進度文件,并需頻繁更新當前狀態。

      3、簡化并行機制:

      當存在多個獨立失敗的測試時,并行化輕而易舉,但當智能體開始編譯Linux內核時卻陷入困境。與包含數百個獨立測試的套件不同,編譯Linux內核是單項巨型任務,所有智能體都會遇到相同的bug,修復后卻互相覆蓋修改,運行16個智能體也不行,因為它們都卡在解決同一問題上。

      為此,開發者編寫了新測試框架,將GCC作為在線驗證編譯器進行比對。這讓每個智能體都能并行工作,在不同文件中修復不同bug,直至Claude的編譯器最終能編譯所有文件。

      4、多元智能體角色分工:

      LLM編寫的代碼常重復實現現有功能,因此開發者指派了一個智能體專門合并發現的重復代碼。另一個負責優化編譯器本身的性能,第三個則專攻輸出高效的編譯代碼,還讓一個智能體以Rust開發者視角批判項目設計并進行結構性改進,另設智能體專注文檔工作。

      開發者稱,該成果已經逼近Opus的能力邊界,但仍有需要提升的方面:

      1、16位x86編譯器缺失:缺乏從實模式啟動Linux必需的16位x86編譯器,該環節需調用GCC(x86_32和x86_64編譯器為自主實現);

      2、匯編器與鏈接器不完善:這兩部分是Claude最后開始自動化的模塊,目前仍存在較多缺陷。演示視頻中使用的是GCC匯編器與鏈接器;

      3、兼容性未達全替代標準:雖能成功構建眾多項目,但尚不能完全替代真實編譯器;

      4、代碼生成效率偏低:即使啟用所有優化選項,其輸出代碼效率仍低于禁用優化的GCC;

      5、Rust代碼質量有限:代碼質量尚可,但遠未達到專業Rust程序員的水準。

      結語:Anthropic在安全性上下了狠功夫

      Opus 4.6在長上下文理解、復雜推理與智能體協作等方面的性能提升,為企業級高密度、長周期任務提供了新的解決方案。

      同時,在Anthropic的博客中,他們用了很大篇幅來寫新模型的安全性。Anthropic通過增強安全評估體系與部署主動防護機制,展現出對AI風險治理的前置性投入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      太平年:水丘滅門才知胡進思病死的真相,錢弘俶的格局藏著高智慧

      太平年:水丘滅門才知胡進思病死的真相,錢弘俶的格局藏著高智慧

      慫熊劇場
      2026-02-06 04:09:48
      自由落體的俄羅斯伊爾-76軍用運輸機 從空中一頭栽了下來

      自由落體的俄羅斯伊爾-76軍用運輸機 從空中一頭栽了下來

      那些看得見的老照片
      2026-02-06 11:20:03
      陳冠希一家洛杉磯參加婚禮,留小胡子像趙本山,女兒更像秦舒培!

      陳冠希一家洛杉磯參加婚禮,留小胡子像趙本山,女兒更像秦舒培!

      明星私服穿搭daily
      2026-01-19 07:30:49
      北大女學霸與清華丈夫相約丁克,10年后看到他日記,一怒將其毒死

      北大女學霸與清華丈夫相約丁克,10年后看到他日記,一怒將其毒死

      歷來都很現實
      2024-06-07 23:50:40
      不到3小時下單100萬單 阿里用奶茶拉開AI普及戰序幕 30億大項目開啟前馬云現身

      不到3小時下單100萬單 阿里用奶茶拉開AI普及戰序幕 30億大項目開啟前馬云現身

      財聯社
      2026-02-06 11:45:31
      再見了,勇士,傳奇終將落幕

      再見了,勇士,傳奇終將落幕

      體育新角度
      2026-02-05 22:49:47
      倍輕松實控人一個多月再度遭立案,涉嫌操縱證券市場

      倍輕松實控人一個多月再度遭立案,涉嫌操縱證券市場

      界面新聞
      2026-02-06 09:24:24
      精神病院套保牽出A股眼科連鎖巨頭?愛爾眼科回應

      精神病院套保牽出A股眼科連鎖巨頭?愛爾眼科回應

      21世紀經濟報道
      2026-02-06 13:31:04
      中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預

      中國正加速拋售美債,美專家:中國用了新拋售方式,完全無法干預

      似水流年忘我
      2026-01-29 01:24:08
      不出意外,中國未來超50%人,將流入這幾個城市,房價或反彈

      不出意外,中國未來超50%人,將流入這幾個城市,房價或反彈

      童童聊娛樂啊
      2026-02-06 11:28:04
      S家洗白失敗!韓國綜藝錘了小S忽視姐姐病情,推卸責任甩鍋給大S

      S家洗白失敗!韓國綜藝錘了小S忽視姐姐病情,推卸責任甩鍋給大S

      萌神木木
      2026-02-04 19:05:07
      婚前如果做過人流手術,這事能瞞得住?這是我見過最完美的回答

      婚前如果做過人流手術,這事能瞞得住?這是我見過最完美的回答

      另子維愛讀史
      2026-02-05 22:57:12
      文班亞馬29+11+6+3無緣今日最佳球員!杰倫-約翰遜22+16+15創紀錄

      文班亞馬29+11+6+3無緣今日最佳球員!杰倫-約翰遜22+16+15創紀錄

      Tracy的籃球博物館
      2026-02-06 14:24:56
      張雨綺又帶火了一種新穿法:“上身去上班,下身去夜店”,好洋氣

      張雨綺又帶火了一種新穿法:“上身去上班,下身去夜店”,好洋氣

      阿雹娛樂
      2026-01-12 14:40:57
      120噸中國稀土被印韋丹塔公司非法轉售美軍工,中國嚴查誠信缺失

      120噸中國稀土被印韋丹塔公司非法轉售美軍工,中國嚴查誠信缺失

      南權先生
      2026-02-03 15:45:27
      中方領導人將訪美?外交部回應

      中方領導人將訪美?外交部回應

      澎湃新聞
      2026-02-05 17:13:03
      快船步行者多人交易生變,涉及球員遭“出戰凍結”

      快船步行者多人交易生變,涉及球員遭“出戰凍結”

      大眼瞄世界
      2026-02-06 10:49:15
      挪威王儲妃在愛潑斯坦別墅中的照片曝光,金融家對她“垂涎三尺”

      挪威王儲妃在愛潑斯坦別墅中的照片曝光,金融家對她“垂涎三尺”

      譯言
      2026-02-05 06:00:33
      紐卡換帥倒計時!功勛主帥已到極限,頭號目標竟是全球最佳少帥

      紐卡換帥倒計時!功勛主帥已到極限,頭號目標竟是全球最佳少帥

      奶蓋熊本熊
      2026-02-06 07:02:35
      特斯拉宣布:Model S/X現車上新,是“最后的入手機會”

      特斯拉宣布:Model S/X現車上新,是“最后的入手機會”

      第一財經資訊
      2026-02-06 13:46:30
      2026-02-06 15:12:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      11196文章數 116965關注度
      往期回顧 全部

      科技要聞

      微信封禁元寶紅包后,又把阿里千問封了

      頭條要聞

      媒體:李嘉誠遭遇"零元購" 中方或將有兩個方向的操作

      頭條要聞

      媒體:李嘉誠遭遇"零元購" 中方或將有兩個方向的操作

      體育要聞

      西甲射手榜第2,身價不到姆巴佩1/40

      娛樂要聞

      微博之夜紅毯好精彩,堪比婚禮現場

      財經要聞

      愛爾眼科卷入騙保疑云 公司回應

      汽車要聞

      標配華為乾崑解決方案 華境S完成六座滿載冬測

      態度原創

      旅游
      家居
      時尚
      游戲
      公開課

      旅游要聞

      東莞隱賢山莊將舉辦“非遺花火鬧新春” 主題系列活動

      家居要聞

      現代輕奢 溫馨治愈系

      開運首飾|| 300多到手天然珍珠、水晶,好意頭還顯貴氣

      《地平線》新作玩家遭群嘲 角色太丑玩法無聊!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版