![]()
新智元報道
編輯:犀牛
【新智元導讀】Feeling AI憑借CodeBrain-1在權威榜單Terminal-Bench 2.0中強勢突圍,僅次于OpenAI最新旗艦,位居全球第二。不僅打破了美系巨頭的絕對壟斷,更標志著中國AI在 Agentic AI(智能體)復雜任務規劃與自主編碼領域的工程化能力已達到世界頂尖水平。
在中國農歷春節的前夜,全球科技界的空氣中不僅彌漫著辭舊迎新的氣息,更夾雜著一股前所未有的硝煙味。
Anthropic祭出了Claude Opus 4.6,OpenAI則以GPT-5.3-Codex強勢回應。
雙方在技術之巔的對決看似是老生常談的「王座之爭」,但在平靜的水面之下,競爭的底層邏輯已然悄然改寫。
全球大模型競賽已正式從實驗室里的「參數博弈」突變為殘酷的「實戰進化」。
這一次,巨頭們不再沉迷于跑分數據的虛幻繁榮,而是將目光死死鎖定了架構的嚴謹性與自主工作流的長效續航——
能否在真實商業世界中「破局」,成為了唯一的度量衡。
在硬核指標的正面交鋒中,OpenAI和Anthropic兩家巨頭均選擇Terminal-Bench 2.0作為實力背書:Opus 4.6在Agentic Terminal Coding Task上以 65.4%的勝率展現了卓越的智能體編碼能力;而Sam Altman憑借5.3-Codex+ Simple Codex的組合創下的 77.3%(75.1%)高分,宣稱其登頂全球編碼性能之巔。
正如NVIDIA首席科學家Jim Fan所言:真實的終端環境是AI的「魔鬼訓練場」。
在閉環環境中自我進化,已成為衡量模型工程能力的終極標尺。
令人振奮的是,在這一權威賽道上,中國的AI初創團隊Feeling AI異軍突起——其自研的CodeBrain-1在GPT-5.3-Codex底座模型的加持下,以 72.9%(70.3%)的驚艷戰績躍升全球榜單第二,成為前十強中唯一的中國新銳。
![]()
剛拿下Agentic Memory SOTA
Feeling AI又上大分
5天前,Feeling AI團隊在深夜發布MemBrain1.0,LoCoMo / LongMemEval / PersonaMem-v2等多項主流記憶基準評測中拿下全新SOTA,反超MemOS、Zep和EverMemOS等記憶系統和全上下文模型。
在KnowMeBench Level III兩個難度等級最高的評測中更是比現有評測結果大幅提升超300%。
在AI技術圈和資本押注的新風口——Agentic Memory方向先打出了第一張牌。
強大的記憶能力以及適配模型原生的層級化記憶系統,意味著AgenticAI正從模型能力逐步走向用戶體驗層面的范式躍遷。
緊隨MemBrain 1.0的余熱,Feeling AI昨晚又打出了第二張牌——CodeBrain。
作為具備動態規劃與策略調整能力的「進化大腦」,CodeBrain-1迅速躋身權威基準Terminal-Bench2.0榜單全球第二,僅次于OpenAI 5.3-Codex的官配Simple Codex。
在Feeling AI的官方媒體中,其一直在強調動態交互是世界模型通向AGI的終極拼圖。
其原創的跨模態分層架構提出了三層核心能力——負責理解、記憶與規劃的InteractBrain,負責能力執行的InteractSkill,以及負責渲染呈現的InteractRender,共同構成了其技術護城河。
目前已經亮劍的MemBrain與CodeBrain 都屬于InteractBrain核心層,精準定位在復雜動態交互場景下的深度理解與長程規劃。
如此看來,這兩項在全球拿下極具說服力成績的工作應該并非偶然,而是早有布局。
這也進一步解釋了無論是用于Agentic Memory的MemBrain1.0還是用于確保模型任務規劃和執行成功率的CodeBrain-1,其算法核心關注點也集中在服務于在復雜「動態交互」場景下的能力。
OpenAI在其官網技術博客中明確將Simple Codex 定義為 「針對長程軟件工程任務的最優解」。
模型和Agent 框架的良好組合也許將成為未來大模型商業落地的標準形態。
Agentic Memory的記憶能力未來也許會成為Agent 框架的一部分,就像是一個外掛的記憶大腦,通過系統化的能力讓模型更強。
一個能駕馭全球頂尖模型的中國框架,正是AI時代最核心的智能中樞。
對頂尖模型的深度驅動能力,意味著中國團隊已在 AI 時代的「戰術調度中心」占據高點,正在參與定義未來大模型的工程標準。
CodeBrain-1
會動態調整計劃與策略的「大腦」
在Terminal-Bench官方評測網站的最新排名顯示,CodeBrain-1僅次于Open AI的Simple Codex(GPT-5.3-Codex),Factory的Droid使用Anthropic最新基模Claude Opus 4.6排名第三。
榜單上還有一些大家熟悉的Agent或機構,如Warp、Coder、Google、Princeton等。
![]()
(官網截圖)
Terminal Bench覆蓋的任務類型非常廣泛,其中既包括復雜的系統操作,也包含大量需要在真實終端環境中完成的編碼任務。
CodeBrain-1的核心關注點,是「代碼能否被正確寫出并運行」。
在技術實現上,CodeBrain-1 專注打磨了兩個直接影響「能否成功且高效地完成任務」的環節。
Useful Context Searching:只用「真正有用」的上下文。在復雜任務中,信息不是越多越好,而是是否相關,減少噪音可以有效避免LLM的幻覺問題CodeBrain-1會根據當前任務需求和已有Code Base索引,充分利用LSP (Language Server Protocol) 的功能,提高關聯信息的檢索效率,有效輔助Code Generation的過程。比如當我們需要為一個游戲Bot規劃任務時,需要先了解如何使用該Bot的API。CodeBrain-1在Coding過程中,借助LSP Search準確獲取了
move_to(target)、do(action)等相關方法的簽名、文檔和已有Code Base內的使用實例等信息,有效降低了關聯信息檢索的損耗和上下文干擾。Validation Feedback:讓失敗真正變成信息。CodeBrain-1可以從LSP Diagnostics當中高效定位,并補充錯誤相關的代碼和文檔,有效縮減Generate -> Validate的循環過程。比如CodeBrain-1編寫的代碼中出現了調用
on(observation, exec)(一個定義Bot Reaction的方法)時,出現了參數exec類型錯誤的問題,這時,LSP除報錯argument type mismatch之外,還會額外提供該方法的caller示例、錯誤參數相關文檔、以及exec這個參數在實現中如何被使用等輔助信息。團隊從Terminal Bench中篩選出了一個更聚焦的子集,共47條任務,均可以使用單一程序語言(Python)完成。在這一子集中,CodeBrain-1也表現出了穩定而一致的完成能力:關聯代碼和文檔檢索更高效;在代碼檢查和驗證失敗時,能更快定位問題。
Rank Agent Model Py Tasks Coding Tasks All Tasks -----------------------------------------------------------------------------------------------1 Simple Codex GPT-5.3-Codex 73.9% 72.7% 74.9% 2 CodeBrain-1 GPT-5.3-Codex 72.3% 70.2% 70.3% 3 Droid Claude Opus 4.6 70.2% 66.8% 69.9% 4 Mux GPT-5.3-Codex 71.9% 69.2% 68.5% 5 Droid GPT-5.2 66.0% 61.6% 65.1% 6 Ante Gemini 3 Pro 66.8% 62.7% 64.9% 7 Terminus 2 GPT-5.3-Codex 64.7% 61.4% 64.7% 8 Junie CLI Gemini 3 Flash 68.9% 62.7% 64.3% 9 Droid Claude Opus 4.5 62.1% 58.3% 63.1% 10 Terminus 2 Claude Opus 4.6 67.2% 63.1% 62.9%此外,在Token的消耗方面,CodeBrain-1也展現出了不俗的表現,可持續降低用戶成本。
對比Anthropic發布的技術文檔,當基模均使用claude opus 4.6時,使用CodeBrain-1和Claude Code在兩者均成功的Py Tasks子任務上所消耗的總Token大幅縮減了超15%。
CodeBrain-1在Terminal-Bench 2.0上的強勢表現還不僅僅體現在真實命令行終端(CLI)環境下的端到端任務執行能力。
更重要的,團隊進一步的賦予了它更高階的能力——會動態調整計劃與策略的「大腦」,它通過優化任務的執行邏輯和錯誤反饋機制,顯著提升了模型在真實終端環境下的操作成功率。
CodeBrain-1提出了一種不同的解決方式。并非讓 AI 直接「隨意發揮」,而是反過來調整分工方式。
CodeBrain-1 負責在這些約束條件內,動態生成「智能」所對應的可執行程序,并根據實際反饋不斷調整。
這里的「計劃和策略」既可以作用在個體層面,也可以作用在群體層面。
對個體而言,它意味著角色可以根據自身目標、記憶和觀察結果,持續調整日程、行為選擇和對他人的態度對群體而言,它意味著一個組織可以形成共享記憶,并基于外部條件變化,調整整體規劃和響應規則。
為了更直觀地展示CodeBrain-1的能力,團隊將它放入游戲場景中,作為一種行為與策略生成引擎。
#Case1:游戲bot的實時驅動
在一些開放世界游戲中,它可以承擔游戲伙伴的角色。玩家可以用自然語言表達意圖,讓bot執行。從理解自然語言中的需求——「幫我建個房子」、「造一把鎬子」,到規劃行動方案——「收集資源」、「清理工作環境」、「建造/制作」,最終生成并執行完整的行動腳本以實現目標,他可以有條不紊地應對任務,豐富玩家的游戲體驗。
#Case2:群體記憶驅動的戰術演化
在「搜打撤」類游戲中,如果玩家長期走一條習慣性路線,并被多次觀察到,敵對群體可以逐步強化這一「群體記憶」。
在后續地圖構建與部署階段,系統會據此調整整體策略,例如:
distribute in area = { calculate_area_by_player_hotspots } with count = { 70% of total }同時,還可以疊加行為表達規則,增強沉浸感,在熱點區域成功發現玩家時高喊「抓到你了!」或者是在非預期區域遭遇時高喊「預判失誤!」更進一步,可以配置簡單的小隊作戰策略,比如前排沖鋒,后排掩護。
這類行為并非單點腳本,而是由群體策略動態生成的結果。
為什么AI巨頭都在
Terminal-Bench 2.0 上較量?
Terminal-Bench 是由斯坦福大學與 Laude Institute 聯合打造的開源基準,被公認為 AI 智能體在真實命令行(CLI)環境下端到端執行能力的「金標準」。
與紙上談兵的代碼生成測試不同,它的嚴苛在于:
閉環實戰環境:在隔離的 Docker 容器中,AI 必須像人類專家一樣,在真實的 Linux 生態中完成編譯、調試、訓練及部署。
高壓長程任務:89 個深度場景橫跨軟件工程與科學計算,不僅要求極高的邏輯跨度,更徹底杜絕了簡單的「模式匹配」。
零容忍驗證:采用 0/1 判定準則,唯有產出符合預期的交付物(如修復的代碼或運行的服務)才算通關,沒有任何「模糊分」。
2.0 的「天花板」效應:升級后的 2.0 版本大幅拉高了門檻。目前全球頂尖模型的解決率普遍難以突破 65%,這已成為大模型處理系統級復雜任務的「深水區」。
CodeBrain-1首次亮相便一舉奪得全球第二,其含金量不言而喻。
以GPT系列為例,頂尖模型雖具備極強的邏輯推理鏈(Reasoning Chain),但常因「過度思考」導致執行鏈路冗長。
CodeBrain-1并不是一個「更會說話」的AI,而是一個由Code組成、能夠持續調整計劃與策略的執行型大腦,它巧妙地扮演了「調度中樞」與「效率校準器」的角色:它引導模型在常規操作中保持極速響應,僅在遭遇關鍵報錯時激活深層思考。
這種對底座模型的精準駕馭,正是拉開商業化落地差距的核心變量。
魯棒的閉環糾錯(Error Recovery),高效的任務分解(Sub-goal Decomposition)和對環境感知的精確理解,在AGI的商業版圖中,強大的Agent依然是「模型落地的必經之路」。
它不僅關乎任務分解的精度,更關乎在閉環環境中糾錯與生存的韌性。
Sam Altman在GPT-5.3-Codex發布后的宣言也佐證了這一趨勢:Codex已從單一的代碼審查工具,蛻變為能橫跨全生命周期、執行專業人士所有計算機操作的「全能代理」。
在OpenAI的藍圖中,模型與框架正進化為深度綁定的「智能全家桶」。
即便巨頭環伺,垂直行業的深水區依然為優秀的工程框架留下了巨大的商業紅利。
無論是系統級的Agent框架,還是精悍的開發者效能工具,這些「離用戶更近」的觸點都潛藏著爆發式增長的可能。
作為一家中國初創團隊,Feeling AI能在OpenAI尖端模型發布的瞬間完成深度整合,并跑出全球領先的戰績,這不僅是工程響應速度的勝利,更是中國AI團隊在全球工程化協同中占據制高點的有力證明。
在Terminal-Bench 2.0這種以「真實環境、長程進化」著稱的硬核賽道上,緊隨OpenAI之后摘得全球榜眼,其標志性意義不言而喻:中國創業團隊已率先跨越了Agent從「對話玩具」到「生產力工具」的鴻溝,在「重塑工作流」這一戰略高地上占據了領先身位。
在OpenAI與Anthropic構建的巨頭生態中,中國團隊選擇以「框架定義者」的角色切入,展現了中國AI創新路徑的獨特性與韌性。
在全球底座模型的上半場較量之余,面向模型商業落地的下半場的競爭只會更加殘酷。
這注定是一條沒有捷徑的拓荒之路,每一寸領地的攻克都需實打實的工程硬功,但這正是中國創業者在AI時代必須回答的「硬核命題」:不走捷徑,方能定義未來。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.