網易首頁 > 網易號 > 正文申請入駐

硬剛OpenAI！中國團隊殺入Agentic AI全球前二，一戰封神

2026-02-12 00:31:50　來源: 新智元

北京舉報

分享至

新智元報道

編輯：犀牛

【新智元導讀】Feeling AI憑借CodeBrain-1在權威榜單Terminal-Bench 2.0中強勢突圍，僅次于OpenAI最新旗艦，位居全球第二。不僅打破了美系巨頭的絕對壟斷，更標志著中國AI在 Agentic AI（智能體）復雜任務規劃與自主編碼領域的工程化能力已達到世界頂尖水平。

在中國農歷春節的前夜，全球科技界的空氣中不僅彌漫著辭舊迎新的氣息，更夾雜著一股前所未有的硝煙味。

Anthropic祭出了Claude Opus 4.6，OpenAI則以GPT-5.3-Codex強勢回應。

雙方在技術之巔的對決看似是老生常談的「王座之爭」，但在平靜的水面之下，競爭的底層邏輯已然悄然改寫。

全球大模型競賽已正式從實驗室里的「參數博弈」突變為殘酷的「實戰進化」。

這一次，巨頭們不再沉迷于跑分數據的虛幻繁榮，而是將目光死死鎖定了架構的嚴謹性與自主工作流的長效續航——

能否在真實商業世界中「破局」，成為了唯一的度量衡。

在硬核指標的正面交鋒中，OpenAI和Anthropic兩家巨頭均選擇Terminal-Bench 2.0作為實力背書：Opus 4.6在Agentic Terminal Coding Task上以 65.4%的勝率展現了卓越的智能體編碼能力；而Sam Altman憑借5.3-Codex+ Simple Codex的組合創下的 77.3%（75.1%）高分，宣稱其登頂全球編碼性能之巔。

正如NVIDIA首席科學家Jim Fan所言：真實的終端環境是AI的「魔鬼訓練場」。

在閉環環境中自我進化，已成為衡量模型工程能力的終極標尺。

令人振奮的是，在這一權威賽道上，中國的AI初創團隊Feeling AI異軍突起——其自研的CodeBrain-1在GPT-5.3-Codex底座模型的加持下，以 72.9%（70.3%）的驚艷戰績躍升全球榜單第二，成為前十強中唯一的中國新銳。

剛拿下Agentic Memory SOTA

Feeling AI又上大分

5天前，Feeling AI團隊在深夜發布MemBrain1.0，LoCoMo / LongMemEval / PersonaMem-v2等多項主流記憶基準評測中拿下全新SOTA，反超MemOS、Zep和EverMemOS等記憶系統和全上下文模型。

在KnowMeBench Level III兩個難度等級最高的評測中更是比現有評測結果大幅提升超300%。

在AI技術圈和資本押注的新風口——Agentic Memory方向先打出了第一張牌。

強大的記憶能力以及適配模型原生的層級化記憶系統，意味著AgenticAI正從模型能力逐步走向用戶體驗層面的范式躍遷。

緊隨MemBrain 1.0的余熱，Feeling AI昨晚又打出了第二張牌——CodeBrain。

作為具備動態規劃與策略調整能力的「進化大腦」，CodeBrain-1迅速躋身權威基準Terminal-Bench2.0榜單全球第二，僅次于OpenAI 5.3-Codex的官配Simple Codex。

在Feeling AI的官方媒體中，其一直在強調動態交互是世界模型通向AGI的終極拼圖。

其原創的跨模態分層架構提出了三層核心能力——負責理解、記憶與規劃的InteractBrain，負責能力執行的InteractSkill，以及負責渲染呈現的InteractRender，共同構成了其技術護城河。

目前已經亮劍的MemBrain與CodeBrain 都屬于InteractBrain核心層，精準定位在復雜動態交互場景下的深度理解與長程規劃。

如此看來，這兩項在全球拿下極具說服力成績的工作應該并非偶然，而是早有布局。

這也進一步解釋了無論是用于Agentic Memory的MemBrain1.0還是用于確保模型任務規劃和執行成功率的CodeBrain-1，其算法核心關注點也集中在服務于在復雜「動態交互」場景下的能力。

OpenAI在其官網技術博客中明確將Simple Codex 定義為「針對長程軟件工程任務的最優解」。

模型和Agent 框架的良好組合也許將成為未來大模型商業落地的標準形態。

Agentic Memory的記憶能力未來也許會成為Agent 框架的一部分，就像是一個外掛的記憶大腦，通過系統化的能力讓模型更強。

一個能駕馭全球頂尖模型的中國框架，正是AI時代最核心的智能中樞。

對頂尖模型的深度驅動能力，意味著中國團隊已在 AI 時代的「戰術調度中心」占據高點，正在參與定義未來大模型的工程標準。

CodeBrain-1

會動態調整計劃與策略的「大腦」

在Terminal-Bench官方評測網站的最新排名顯示，CodeBrain-1僅次于Open AI的Simple Codex（GPT-5.3-Codex），Factory的Droid使用Anthropic最新基模Claude Opus 4.6排名第三。

榜單上還有一些大家熟悉的Agent或機構，如Warp、Coder、Google、Princeton等。

（官網截圖）

Terminal Bench覆蓋的任務類型非常廣泛，其中既包括復雜的系統操作，也包含大量需要在真實終端環境中完成的編碼任務。

CodeBrain-1的核心關注點，是「代碼能否被正確寫出并運行」。

在技術實現上，CodeBrain-1 專注打磨了兩個直接影響「能否成功且高效地完成任務」的環節。

Useful Context Searching：只用「真正有用」的上下文。在復雜任務中，信息不是越多越好，而是是否相關，減少噪音可以有效避免LLM的幻覺問題CodeBrain-1會根據當前任務需求和已有Code Base索引，充分利用LSP (Language Server Protocol) 的功能，提高關聯信息的檢索效率，有效輔助Code Generation的過程。比如當我們需要為一個游戲Bot規劃任務時，需要先了解如何使用該Bot的API。CodeBrain-1在Coding過程中，借助LSP Search準確獲取了move_to(target)、do(action)等相關方法的簽名、文檔和已有Code Base內的使用實例等信息，有效降低了關聯信息檢索的損耗和上下文干擾。
Validation Feedback：讓失敗真正變成信息。CodeBrain-1可以從LSP Diagnostics當中高效定位，并補充錯誤相關的代碼和文檔，有效縮減Generate -> Validate的循環過程。比如CodeBrain-1編寫的代碼中出現了調用on(observation, exec)（一個定義Bot Reaction的方法）時，出現了參數exec類型錯誤的問題，這時，LSP除報錯argument type mismatch之外，還會額外提供該方法的caller示例、錯誤參數相關文檔、以及exec這個參數在實現中如何被使用等輔助信息。
團隊從Terminal Bench中篩選出了一個更聚焦的子集，共47條任務，均可以使用單一程序語言（Python）完成。在這一子集中，CodeBrain-1也表現出了穩定而一致的完成能力：關聯代碼和文檔檢索更高效；在代碼檢查和驗證失敗時，能更快定位問題。

Rank  Agent                Model                Py Tasks     Coding Tasks   All Tasks   -----------------------------------------------------------------------------------------------1     Simple Codex         GPT-5.3-Codex        73.9%        72.7%          74.9%       2     CodeBrain-1          GPT-5.3-Codex        72.3%        70.2%          70.3%       3     Droid                Claude Opus 4.6      70.2%        66.8%          69.9%       4     Mux                  GPT-5.3-Codex        71.9%        69.2%          68.5%       5     Droid                GPT-5.2              66.0%        61.6%          65.1%       6     Ante                 Gemini 3 Pro         66.8%        62.7%          64.9%       7     Terminus 2           GPT-5.3-Codex        64.7%        61.4%          64.7%       8     Junie CLI            Gemini 3 Flash       68.9%        62.7%          64.3%       9     Droid                Claude Opus 4.5      62.1%        58.3%          63.1%       10    Terminus 2           Claude Opus 4.6      67.2%        63.1%          62.9%

此外，在Token的消耗方面，CodeBrain-1也展現出了不俗的表現，可持續降低用戶成本。

對比Anthropic發布的技術文檔，當基模均使用claude opus 4.6時，使用CodeBrain-1和Claude Code在兩者均成功的Py Tasks子任務上所消耗的總Token大幅縮減了超15%。

CodeBrain-1在Terminal-Bench 2.0上的強勢表現還不僅僅體現在真實命令行終端（CLI）環境下的端到端任務執行能力。

更重要的，團隊進一步的賦予了它更高階的能力——會動態調整計劃與策略的「大腦」，它通過優化任務的執行邏輯和錯誤反饋機制，顯著提升了模型在真實終端環境下的操作成功率。

CodeBrain-1提出了一種不同的解決方式。并非讓 AI 直接「隨意發揮」，而是反過來調整分工方式。

CodeBrain-1 負責在這些約束條件內，動態生成「智能」所對應的可執行程序，并根據實際反饋不斷調整。

這里的「計劃和策略」既可以作用在個體層面，也可以作用在群體層面。

對個體而言，它意味著角色可以根據自身目標、記憶和觀察結果，持續調整日程、行為選擇和對他人的態度對群體而言，它意味著一個組織可以形成共享記憶，并基于外部條件變化，調整整體規劃和響應規則。

為了更直觀地展示CodeBrain-1的能力，團隊將它放入游戲場景中，作為一種行為與策略生成引擎。

#Case1：游戲bot的實時驅動

在一些開放世界游戲中，它可以承擔游戲伙伴的角色。玩家可以用自然語言表達意圖，讓bot執行。從理解自然語言中的需求——「幫我建個房子」、「造一把鎬子」，到規劃行動方案——「收集資源」、「清理工作環境」、「建造/制作」，最終生成并執行完整的行動腳本以實現目標，他可以有條不紊地應對任務，豐富玩家的游戲體驗。

#Case2：群體記憶驅動的戰術演化

在「搜打撤」類游戲中，如果玩家長期走一條習慣性路線，并被多次觀察到，敵對群體可以逐步強化這一「群體記憶」。

在后續地圖構建與部署階段，系統會據此調整整體策略，例如：

distribute  in area = { calculate_area_by_player_hotspots }  with count = { 70% of total }

同時，還可以疊加行為表達規則，增強沉浸感，在熱點區域成功發現玩家時高喊「抓到你了！」或者是在非預期區域遭遇時高喊「預判失誤！」更進一步，可以配置簡單的小隊作戰策略，比如前排沖鋒，后排掩護。

這類行為并非單點腳本，而是由群體策略動態生成的結果。

為什么AI巨頭都在

Terminal-Bench 2.0 上較量？

Terminal-Bench 是由斯坦福大學與 Laude Institute 聯合打造的開源基準，被公認為 AI 智能體在真實命令行（CLI）環境下端到端執行能力的「金標準」。

與紙上談兵的代碼生成測試不同，它的嚴苛在于：

閉環實戰環境：在隔離的 Docker 容器中，AI 必須像人類專家一樣，在真實的 Linux 生態中完成編譯、調試、訓練及部署。
高壓長程任務：89 個深度場景橫跨軟件工程與科學計算，不僅要求極高的邏輯跨度，更徹底杜絕了簡單的「模式匹配」。
零容忍驗證：采用 0/1 判定準則，唯有產出符合預期的交付物（如修復的代碼或運行的服務）才算通關，沒有任何「模糊分」。
2.0 的「天花板」效應：升級后的 2.0 版本大幅拉高了門檻。目前全球頂尖模型的解決率普遍難以突破 65%，這已成為大模型處理系統級復雜任務的「深水區」。

CodeBrain-1首次亮相便一舉奪得全球第二，其含金量不言而喻。

以GPT系列為例，頂尖模型雖具備極強的邏輯推理鏈（Reasoning Chain），但常因「過度思考」導致執行鏈路冗長。

CodeBrain-1并不是一個「更會說話」的AI，而是一個由Code組成、能夠持續調整計劃與策略的執行型大腦，它巧妙地扮演了「調度中樞」與「效率校準器」的角色：它引導模型在常規操作中保持極速響應，僅在遭遇關鍵報錯時激活深層思考。

這種對底座模型的精準駕馭，正是拉開商業化落地差距的核心變量。

魯棒的閉環糾錯（Error Recovery），高效的任務分解（Sub-goal Decomposition）和對環境感知的精確理解，在AGI的商業版圖中，強大的Agent依然是「模型落地的必經之路」。

它不僅關乎任務分解的精度，更關乎在閉環環境中糾錯與生存的韌性。

Sam Altman在GPT-5.3-Codex發布后的宣言也佐證了這一趨勢：Codex已從單一的代碼審查工具，蛻變為能橫跨全生命周期、執行專業人士所有計算機操作的「全能代理」。

在OpenAI的藍圖中，模型與框架正進化為深度綁定的「智能全家桶」。

即便巨頭環伺，垂直行業的深水區依然為優秀的工程框架留下了巨大的商業紅利。

無論是系統級的Agent框架，還是精悍的開發者效能工具，這些「離用戶更近」的觸點都潛藏著爆發式增長的可能。

作為一家中國初創團隊，Feeling AI能在OpenAI尖端模型發布的瞬間完成深度整合，并跑出全球領先的戰績，這不僅是工程響應速度的勝利，更是中國AI團隊在全球工程化協同中占據制高點的有力證明。

在Terminal-Bench 2.0這種以「真實環境、長程進化」著稱的硬核賽道上，緊隨OpenAI之后摘得全球榜眼，其標志性意義不言而喻：中國創業團隊已率先跨越了Agent從「對話玩具」到「生產力工具」的鴻溝，在「重塑工作流」這一戰略高地上占據了領先身位。

在OpenAI與Anthropic構建的巨頭生態中，中國團隊選擇以「框架定義者」的角色切入，展現了中國AI創新路徑的獨特性與韌性。

在全球底座模型的上半場較量之余，面向模型商業落地的下半場的競爭只會更加殘酷。

這注定是一條沒有捷徑的拓荒之路，每一寸領地的攻克都需實打實的工程硬功，但這正是中國創業者在AI時代必須回答的「硬核命題」：不走捷徑，方能定義未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.