<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      比肩OpenAI Simple Codex,中國團隊闖入Terminal-Bench全球第二

      0
      分享至



      機器之心發布

      Anthropic 和 OpenAI 硬碰硬推出 Claude Opus 4.6 和 GPT-5.3-Codex 后,基礎大模型的較量正式進入了實戰比拼階段。模型規劃更加謹慎,維持更長時間的自主工作流等能力提升正在試圖回應大模型商業化落地 “最后一公里” 的能力要求和用戶期待。

      在兩家頂尖模型的硬核指標評測中,Opus 4.6 和 5.3-Codex 都不約而同的亮出了各自在 Terminal-Bench 2.0 上的比分,例如 Opus 4.6 用其在 Agentic Terminal Coding Task 上的 65.4% 證明其模型的出色表現,Sam Altman 通過 5.3-Codex 在 Terminal-Bench 2.0 上達到 77.3%(75.1%)的成績,宣稱其擁有目前最佳的編碼性能。

      就在這個被 Anthropic 和 OpenAI 視為衡量 Agent 真實工程能力全球權威基準 Terminal-Bench 2.0 榜單上,中國團隊 Feeling AI 憑借 CodeBrain-1,搭載最新 GPT-5.3-Codex 底座模型,一舉沖到 72.9%(70.3%) 并躋身全球排行榜第二,成為榜單前 10 中唯一的中國團隊。

      全球前二!僅次于 OpenAI Simple Codex

      先直接來看 Feeling AI 的 CodeBrain-1 在 Terminal-Bench 2.0 上的排名和評測情況。

      CodeBrain-1 緊追 Open AI 的 Simple Codex(GPT-5.3-Codex),Factory 的 Droid 使用 Anthropic 最新基模 Claude Opus 4.6 排名第三。





      Terminal Bench 覆蓋的任務類型非常廣泛,其中既包括復雜的系統操作,也包含大量需要在真實終端環境中完成的編碼任務。 而 CodeBrain-1 的核心關注點,是 “代碼能否被正確寫出并運行”。在技術實現上,CodeBrain-1 專注打磨了兩個直接影響 “能否成功且高效地完成任務” 的環節。

      • Useful Context Searching:只用 “真正有用” 的上下文。在復雜任務中,信息不是越多越好,而是是否相關,減少噪音可以有效避免 LLM 的幻覺問題。CodeBrain-1 會根據當前任務需求和已有 Code Base 索引,充分利用 LSP (Language Server Protocol) 的功能,提高關聯信息的檢索效率,有效輔助 Code Generation 的過程。比如當我們需要為一個游戲 Bot 規劃任務時,需要先了解如何使用該 Bot 的 API。CodeBrain-1 在 Coding 過程中,借助 LSP Search 準確獲取了 move_to (target)、do (action) 等相關方法的簽名、文檔和已有 Code Base 內的使用實例等信息,有效降低了關聯信息檢索的損耗和上下文干擾。
      • Validation Feedback:讓失敗真正變成信息。CodeBrain-1 可以從 LSP Diagnostics 當中高效定位,并補充錯誤相關的代碼和文檔,有效縮減 Generate -> Validate 的循環過程。比如 CodeBrain-1 編寫的代碼中出現了調用 on (observation, exec)(一個定義 Bot Reaction 的方法)時,出現了參數 exec 類型錯誤的問題,這時,LSP 除報錯 argument type mismatch 之外,還會額外提供該方法的 caller 示例、錯誤參數相關文檔、以及 exec 這個參數在實現中如何被使用等輔助信息。
      • 團隊從 Terminal Bench 中篩選出了一個更聚焦硬核 coding 任務的子集, 47 條均可以使用單一程序語言(Python)完成的任務。在這一子集中,CodeBrain-1 也表現出了穩定而一致的完成能力:關聯代碼和文檔檢索更高效;在代碼檢查和驗證失敗時,能更快定位問題。

      Rank Agent Model Py Tasks Coding Tasks All Tasks

      1 Simple Codex GPT-5.3-Codex 73.9% 72.7% 74.9%

      2 CodeBrain-1 GPT-5.3-Codex 72.3% 70.2% 70.3%

      3 Droid Claude Opus 4.6 70.2% 66.8% 69.9%

      4 Mux GPT-5.3-Codex 71.9% 69.2% 68.5%

      5 Droid GPT-5.2 66.0% 61.6% 65.1%

      6 Ante Gemini 3 Pro 66.8% 62.7% 64.9%

      7 Terminus 2 GPT-5.3-Codex 64.7% 61.4% 64.7%

      8 Junie CLI Gemini 3 Flash 68.9% 62.7% 64.3%

      9 Droid Claude Opus 4.5 62.1% 58.3% 63.1%

      10 Terminus 2 Claude Opus 4.6 67.2% 63.1% 62.9%

      此外,在 Token 的消耗方面,CodeBrain-1 也展現出了不俗的表現,可持續降低用戶成本。對比 Anthropic 發布的技術文檔,當基模均使用 claude opus 4.6 時,使用CodeBrain-1 和 Claude Code 在兩者均成功的 Py Tasks 子任務上所消耗的總 Token 大幅縮減了超 15%。

      CodeBrain-1—— 會動態調整計劃與策略的 “大腦”

      CodeBrain-1 在 Terminal-Bench 2.0 上的強勢表現還不僅僅體現在真實命令行終端(CLI)環境下的端到端任務執行能力。更重要的,團隊進一步的賦予了它更高階的能力 —— 會動態調整計劃與策略的 “大腦”,它通過優化任務的執行邏輯和錯誤反饋機制,顯著提升了模型在真實終端環境下的操作成功率。

      例如在大多數游戲中,角色的 “智能” 主要由游戲策劃與 Gameplay 程序提前定義,包括行為規則、觸發條件、狀態切換和響應邏輯。這種方式在工程上是可控的,但也存在明顯限制:行為往往是靜態的、可枚舉的;想要表現出 “更聰明” 的反應,通常需要大量手工規則和長期打磨;一旦環境復雜或情況超出預期,智能表現就會迅速退化。這也是為什么高智能特性往往意味著極高的開發與維護成本。

      CodeBrain-1 提出了一種不同的解決方式。并非讓 AI 直接 “隨意發揮”,而是反過來調整分工方式。比如在游戲設計階段,只由人類定義智能的 “維度” 和 “基調”, 將具體行為與策略的生成,交給 AI 在受限空間內動態完成。在這種模式下,設計者不再需要窮舉每一種行為,而是定義人類用戶在意什么(目標、偏好、性格維度),記住什么(觀察、歷史、群體經驗)以及在什么范圍內可以調整計劃與策略。CodeBrain-1 則負責在這些約束條件內,動態生成 “智能” 所對應的可執行程序,并根據實際反饋不斷調整。

      這里的 “計劃和策略” 既可以作用在個體層面,也可以作用在群體層面。對個體而言,它意味著角色可以根據自身目標、記憶和觀察結果,持續調整日程、行為選擇和對他人的態度對群體而言,它意味著一個組織可以形成共享記憶,并基于外部條件變化,調整整體規劃和響應規則。

      Terminal-Bench 2.0 和 CodeBrain-1 的含金量

      Terminal-Bench 是由斯坦福大學與 Laude Institute 共同開發的開源基準測試套件,專門用于評估 AI 智能體在真實命令行終端(CLI)環境下的端到端任務執行能力。相較于傳統的代碼生成評測,它的核心特點包括:

      • 真實的操作環境:測試在隔離的 Docker 容器中進行,AI 必須像人類工程師一樣,在真實的 Linux 環境中進行編譯、調試、訓練模型或部署服務。
      • 長程硬任務 (Hard Tasks):包含 89 個精心設計的任務,覆蓋軟件工程、系統管理、科學計算和數據處理等領域。這些任務通常需要多個步驟,無法通過簡單的模式匹配來完成。
      • 嚴苛的自動驗證:每個任務都配備了人類編寫的標準答案和自動驗證腳本。系統根據任務產出(如生成的證書、修復的代碼或運行的服務)進行 0/1 判定,確保結果的可靠性。
      • 2.0 版升級重點:相比 1.0 版本,2.0 顯著提升了任務難度和驗證的嚴格程度。目前頂級大模型在該基準上的得分通常低于 65%,暴露出 AI 在處理復雜系統級任務時的瓶頸。

      Terminal-Bench 2.0 的任務難度很高,即使是頂尖模型也未能實現完美的解決率。CodeBrain-1 首次上榜就殺到了全球第二的位置,含金量不言而喻。以 GPT 系列模型為例,模型通常具有極強的 Reasoning Chain,但有時會產生 “想得太多” 導致的執行延遲。CodeBrain-1 作為 “節流閥” 和 “校準器”,引導模型只在關鍵報錯點進行深度思考,而在常規 CLI 操作中保持高效率,這也將是拉開大模型商業落地差距的核心技術點。

      • 強大的 Agent 框架可以彌補 “模型” 與 “真實環境” 的鴻溝。打開一個終端,執行命令,捕獲報錯信息,并將錯誤反饋給模型讓其修正。如果沒有這個框架,模型只能 “紙上談兵”。
      • Agent 框架在狀態管理與長程規劃 (Long-term Planning) 上至關重要。Terminal-Bench 2.0 的任務通常包含幾十個步驟?;A模型往往容易在復雜的上下文中 “迷路” 或產生幻覺。 而 Agent 框架充當了記憶和規劃模塊。它記錄了已經執行過哪些命令、當前目錄結構是什么、哪些嘗試失敗了,確保模型始終朝著最終目標前進。
      • 解決 “自我修正” 循環,這是 CodeBrain-1 的核心價值。在真實終端中,代碼運行報錯是常態。單純的只依賴模型可能會陷入循環報錯,Agent 框架則引入的推理閉環 (Reasoning Loop)。它會分析 stderr(標準錯誤輸出),通過內置的邏輯過濾干擾信息,只把關鍵沖突反饋給模型,引導模型實現高效的 “試錯 - 改進”。
      • 此外,工具調用標準化和成本與效率優化也不容忽視。模型的能力在不斷進化的同時,推理成本昂貴的問題始終無法繞開,Agent 框架通過預處理和結構化提示詞,減少了模型所需的上下文長度(Token),讓任務執行得既快又省。

      OpenAI 在其官網技術博客中明確將 Simple Codex 定義為 “針對長程軟件工程任務的最優解”。模型和 Agent 框架的組合似于 “賽車手 + F1 賽車”。好的模型就是那個頂尖的賽車手,而 Agent 框架則是那臺專為奪冠調教的賽車。一個能駕馭全球頂尖模型的中國框架,意味著中國團隊在 AI 時代的 “高級操作系統” 競爭中正躋身全球更前沿的位置。

      大模型商業落地的最后一公里

      CodeBrain-1 并不是一個 “更會說話” 的 AI,而是一個由 Code 組成、能夠持續調整計劃與策略的執行型大腦。

      OpenAI 聯合創始人 Andrej Karpathy 認為模型作為 AI 的內核至關重要,但 Agent 框架作為 AI 的操作系統也不容忽視。我們不應該只關注模型寫代碼的能力,更應該關注它在復雜環境中的自主解決問題能力。Sam Altman 在 GPT-5.3-Codex 發布后宣稱 Codex 從一個能夠編寫和審查代碼的代理,變成了一個幾乎可以執行開發人員和專業人士在計算機上任何操作的代理。

      基礎模型公司雖然強大,但各行各業的垂直場景都離不開良好的的工程框架,不論是更系統的 Agent 框架還是小而美的開發者效率工具,這些離用戶更近一步的機會都暗藏著巨大的商業價值。

      AI 的第一波浪潮是模型(Model-centric),而第二波浪潮將是應用與工作流(Workflow-centric)。紅杉資本曾預言,未來的勝者是那些能控制工作流的公司,資本無法忽視那些能夠將模型能力轉化為實際產出的 “強大能力”。

      Feeling AI 認為動態交互是世界模型通向 AGI 的終極拼圖。他們把世界模型的實現分成了 InteractBrain(理解、記憶與規劃),InteractSkill(能力與執行)和 InteractRender(渲染與呈現)三層。MemBrain 幾天前剛在Agentic Memory 領域拿下全球 SOTA,CodeBrain 作為會動態調整計劃與策略的 “大腦” 又迅速躋身全球前列,“世界模型 InteractBrain” 在一周內被這家創業公司用 “MemBrain+CodeBrain” 兩張牌強勢證明了。

      在 OpenAI 和 Anthropic 主導的生態位下,中國團隊作為 “框架定義者” 殺入競爭,這也代表了中國 AI 技術創新路徑的獨特性。他們看上去在走一條沒有捷徑的道路,攻破每一城也絕非易事,但這也許正是中國的創業者們孜孜不倦試圖回答的 “硬核難題”。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      高血壓一點酒都不能沾?醫生怒斥:高血壓喝酒,或許有這幾個后果

      高血壓一點酒都不能沾?醫生怒斥:高血壓喝酒,或許有這幾個后果

      荊醫生科普
      2026-02-10 18:04:12
      這種保溫杯早被國家禁了,可能引發慢性中毒,很多人卻成天不離手

      這種保溫杯早被國家禁了,可能引發慢性中毒,很多人卻成天不離手

      DrX說
      2025-12-16 14:36:14
      央視《太平年》首播差評如潮,觀眾理由出奇一致:完全摸不著頭腦

      央視《太平年》首播差評如潮,觀眾理由出奇一致:完全摸不著頭腦

      小娛樂悠悠
      2026-01-24 13:12:22
      老人去世后存款取不出?2026年新政落地,這些憑證比密碼還管用

      老人去世后存款取不出?2026年新政落地,這些憑證比密碼還管用

      復轉這些年
      2026-01-28 16:34:00
      女子因為臉長得太好看一直沒減肥,體重已經漲到220斤了!

      女子因為臉長得太好看一直沒減肥,體重已經漲到220斤了!

      觀察鑒娛
      2026-02-07 15:05:45
      橙子再次被發現!醫生發現:高血壓患者常吃橙子,或出現4種變化

      橙子再次被發現!醫生發現:高血壓患者常吃橙子,或出現4種變化

      小胡軍事愛好
      2026-02-08 22:34:31
      不可錯過!2月10日晚20:30比賽!中央5套CCTV5、CCTV5+直播節目表

      不可錯過!2月10日晚20:30比賽!中央5套CCTV5、CCTV5+直播節目表

      寶哥精彩賽事
      2026-02-10 19:34:26
      千億黃金股盤中大跌8%,旗下金礦墜罐事故致7人死亡,企業涉嫌瞞報,包括礦長在內的11人已被控制!企業最新回應→

      千億黃金股盤中大跌8%,旗下金礦墜罐事故致7人死亡,企業涉嫌瞞報,包括礦長在內的11人已被控制!企業最新回應→

      每日經濟新聞
      2026-02-10 16:02:05
      流浪貓小賣部偷零食,被老板抓個正著,喜提絕育套餐+終身飯票!

      流浪貓小賣部偷零食,被老板抓個正著,喜提絕育套餐+終身飯票!

      Magic寵物社
      2026-02-10 20:05:05
      恐怖20-1!鄭欽文復出大逆轉 產生3大不可思議 澳網法網美網祝賀

      恐怖20-1!鄭欽文復出大逆轉 產生3大不可思議 澳網法網美網祝賀

      侃球熊弟
      2026-02-10 00:16:29
      張本宇又生氣了,不是兒女在亞洲杯零冠收場,而是他們身份的尷尬

      張本宇又生氣了,不是兒女在亞洲杯零冠收場,而是他們身份的尷尬

      大漢體育解說
      2026-02-09 13:07:34
      石達開之女押赴刑場,曾國藩瞥見袖中信物,急喝:趕快停手!

      石達開之女押赴刑場,曾國藩瞥見袖中信物,急喝:趕快停手!

      千秋文化
      2026-02-01 20:14:28
      我國每年近千萬人做腸鏡!醫生直言:做一次腸鏡,或管十年無礙

      我國每年近千萬人做腸鏡!醫生直言:做一次腸鏡,或管十年無礙

      白宸侃片
      2026-02-01 19:13:01
      過年買魚,這“3種”不要買,很不吉利也不健康,老輩講究要懂

      過年買魚,這“3種”不要買,很不吉利也不健康,老輩講究要懂

      小茉莉美食記
      2026-02-10 13:16:47
      天助穆帥:1-1,葡超領頭羊2輪不勝,第100分鐘遭讀秒絕平

      天助穆帥:1-1,葡超領頭羊2輪不勝,第100分鐘遭讀秒絕平

      側身凌空斬
      2026-02-10 06:55:22
      又和好了?這倆人沒離婚啊...

      又和好了?這倆人沒離婚啊...

      聽風聽你
      2026-02-09 17:43:54
      萊爾丹獲冬奧速度滑冰1000米金牌,她的未婚夫拳手杰克保羅激動落淚

      萊爾丹獲冬奧速度滑冰1000米金牌,她的未婚夫拳手杰克保羅激動落淚

      懂球帝
      2026-02-10 12:21:07
      93年毛遠新出獄,看到長相出眾的女兒很欣慰,得知殘疾又泣不成聲

      93年毛遠新出獄,看到長相出眾的女兒很欣慰,得知殘疾又泣不成聲

      雍親王府
      2026-02-08 18:15:07
      安世之爭后,荷蘭整了個“對華超硬”政府…

      安世之爭后,荷蘭整了個“對華超硬”政府…

      觀察者網
      2026-02-10 10:08:12
      人老了,只剩一個人的時候,請記?。?、不再找老伴兒;2、不去養老院;3、不雇保姆,干不動了,就請鐘點工

      人老了,只剩一個人的時候,請記住:1、不再找老伴兒;2、不去養老院;3、不雇保姆,干不動了,就請鐘點工

      黎兜兜
      2026-02-03 21:21:03
      2026-02-10 20:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12283文章數 142565關注度
      往期回顧 全部

      科技要聞

      Seedance刷屏:網友們玩瘋 影視圈瑟瑟發抖

      頭條要聞

      黎智英被判20年美英澳歐盟等國表示關切 中方回應

      頭條要聞

      黎智英被判20年美英澳歐盟等國表示關切 中方回應

      體育要聞

      NBA上演全武行,超大沖突4人驅逐!

      娛樂要聞

      章子怡和馬麗爭影后 金像獎提名太精彩

      財經要聞

      雀巢中國近千經銷商的“追債記”

      汽車要聞

      應用于190KW四驅Ultra版 方程豹鈦7搭載天神之眼5.0

      態度原創

      手機
      藝術
      親子
      家居
      軍事航空

      手機要聞

      小米17 Pro系列妙享背屏新玩法來了!手勢隔空放煙花 儀式感拉滿

      藝術要聞

      廢棄30年!成都“幽靈船酒店”空置湖心,你敢進嗎?

      親子要聞

      萌娃吃媽媽的醋,委屈巴巴的和爸爸哭訴:我比媽媽更漂亮

      家居要聞

      寧靜港灣 靈動與詩意

      軍事要聞

      以軍持續在約旦河西岸多地發動突襲

      無障礙瀏覽 進入關懷版