<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      硬剛OpenAI!中國團隊殺入Agentic AI全球前二,一戰封神

      0
      分享至


      新智元報道

      編輯:犀牛

      【新智元導讀】Feeling AI憑借CodeBrain-1在權威榜單Terminal-Bench 2.0中強勢突圍,僅次于OpenAI最新旗艦,位居全球第二。不僅打破了美系巨頭的絕對壟斷,更標志著中國AI在 Agentic AI(智能體)復雜任務規劃與自主編碼領域的工程化能力已達到世界頂尖水平。

      在中國農歷春節的前夜,全球科技界的空氣中不僅彌漫著辭舊迎新的氣息,更夾雜著一股前所未有的硝煙味。

      Anthropic祭出了Claude Opus 4.6,OpenAI則以GPT-5.3-Codex強勢回應。

      雙方在技術之巔的對決看似是老生常談的「王座之爭」,但在平靜的水面之下,競爭的底層邏輯已然悄然改寫。

      全球大模型競賽已正式從實驗室里的參數博弈」突變為殘酷的實戰進化」。

      這一次,巨頭們不再沉迷于跑分數據的虛幻繁榮,而是將目光死死鎖定了架構的嚴謹性與自主工作流的長效續航——

      能否在真實商業世界中「破局」,成為了唯一的度量衡。

      在硬核指標的正面交鋒中,OpenAI和Anthropic兩家巨頭均選擇Terminal-Bench 2.0作為實力背書:Opus 4.6在Agentic Terminal Coding Task上以 65.4%的勝率展現了卓越的智能體編碼能力;而Sam Altman憑借5.3-Codex+ Simple Codex的組合創下的 77.3%(75.1%)高分,宣稱其登頂全球編碼性能之巔。

      正如NVIDIA首席科學家Jim Fan所言:真實的終端環境是AI的「魔鬼訓練場」。

      在閉環環境中自我進化,已成為衡量模型工程能力的終極標尺。

      令人振奮的是,在這一權威賽道上,中國的AI初創團隊Feeling AI異軍突起——其自研的CodeBrain-1在GPT-5.3-Codex底座模型的加持下,以 72.9%(70.3%)的驚艷戰績躍升全球榜單第二,成為前十強中唯一的中國新銳。




      剛拿下Agentic Memory SOTA

      Feeling AI又上大分

      5天前,Feeling AI團隊在深夜發布MemBrain1.0,LoCoMo / LongMemEval / PersonaMem-v2等多項主流記憶基準評測中拿下全新SOTA,反超MemOS、Zep和EverMemOS等記憶系統和全上下文模型。

      在KnowMeBench Level III兩個難度等級最高的評測中更是比現有評測結果大幅提升超300%。

      在AI技術圈和資本押注的新風口——Agentic Memory方向先打出了第一張牌。

      強大的記憶能力以及適配模型原生的層級化記憶系統,意味著AgenticAI正從模型能力逐步走向用戶體驗層面的范式躍遷。

      緊隨MemBrain 1.0的余熱,Feeling AI昨晚又打出了第二張牌——CodeBrain。

      作為具備動態規劃與策略調整能力的「進化大腦」,CodeBrain-1迅速躋身權威基準Terminal-Bench2.0榜單全球第二,僅次于OpenAI 5.3-Codex的官配Simple Codex。

      在Feeling AI的官方媒體中,其一直在強調動態交互是世界模型通向AGI的終極拼圖。

      其原創的跨模態分層架構提出了三層核心能力——負責理解、記憶與規劃的InteractBrain,負責能力執行的InteractSkill,以及負責渲染呈現的InteractRender,共同構成了其技術護城河。

      目前已經亮劍的MemBrain與CodeBrain 都屬于InteractBrain核心層,精準定位在復雜動態交互場景下的深度理解與長程規劃。

      如此看來,這兩項在全球拿下極具說服力成績的工作應該并非偶然,而是早有布局。

      這也進一步解釋了無論是用于Agentic Memory的MemBrain1.0還是用于確保模型任務規劃和執行成功率的CodeBrain-1,其算法核心關注點也集中在服務于在復雜「動態交互」場景下的能力。

      OpenAI在其官網技術博客中明確將Simple Codex 定義為 「針對長程軟件工程任務的最優解」。

      模型和Agent 框架的良好組合也許將成為未來大模型商業落地的標準形態。

      Agentic Memory的記憶能力未來也許會成為Agent 框架的一部分,就像是一個外掛的記憶大腦,通過系統化的能力讓模型更強

      一個能駕馭全球頂尖模型的中國框架,正是AI時代最核心的智能中樞。

      對頂尖模型的深度驅動能力,意味著中國團隊已在 AI 時代的「戰術調度中心」占據高點,正在參與定義未來大模型的工程標準。

      CodeBrain-1

      會動態調整計劃與策略的「大腦」

      在Terminal-Bench官方評測網站的最新排名顯示,CodeBrain-1僅次于Open AI的Simple Codex(GPT-5.3-Codex),Factory的Droid使用Anthropic最新基模Claude Opus 4.6排名第三。

      榜單上還有一些大家熟悉的Agent或機構,如Warp、Coder、Google、Princeton等。


      (官網截圖)

      Terminal Bench覆蓋的任務類型非常廣泛,其中既包括復雜的系統操作,也包含大量需要在真實終端環境中完成的編碼任務。

      CodeBrain-1的核心關注點,是「代碼能否被正確寫出并運行」。

      在技術實現上,CodeBrain-1 專注打磨了兩個直接影響「能否成功且高效地完成任務」的環節。

      • Useful Context Searching:只用「真正有用」的上下文。在復雜任務中,信息不是越多越好,而是是否相關,減少噪音可以有效避免LLM的幻覺問題CodeBrain-1會根據當前任務需求和已有Code Base索引,充分利用LSP (Language Server Protocol) 的功能,提高關聯信息的檢索效率,有效輔助Code Generation的過程。比如當我們需要為一個游戲Bot規劃任務時,需要先了解如何使用該Bot的API。CodeBrain-1在Coding過程中,借助LSP Search準確獲取了move_to(target)do(action)等相關方法的簽名、文檔和已有Code Base內的使用實例等信息,有效降低了關聯信息檢索的損耗和上下文干擾。

      • Validation Feedback:讓失敗真正變成信息。CodeBrain-1可以從LSP Diagnostics當中高效定位,并補充錯誤相關的代碼和文檔,有效縮減Generate -> Validate的循環過程。比如CodeBrain-1編寫的代碼中出現了調用on(observation, exec)(一個定義Bot Reaction的方法)時,出現了參數exec類型錯誤的問題,這時,LSP除報錯argument type mismatch之外,還會額外提供該方法的caller示例、錯誤參數相關文檔、以及exec這個參數在實現中如何被使用等輔助信息。

      • 團隊從Terminal Bench中篩選出了一個更聚焦的子集,共47條任務,均可以使用單一程序語言(Python)完成。在這一子集中,CodeBrain-1也表現出了穩定而一致的完成能力:關聯代碼和文檔檢索更高效;在代碼檢查和驗證失敗時,能更快定位問題。

      Rank  Agent                Model                Py Tasks     Coding Tasks   All Tasks   -----------------------------------------------------------------------------------------------1     Simple Codex         GPT-5.3-Codex        73.9%        72.7%          74.9%       2     CodeBrain-1          GPT-5.3-Codex        72.3%        70.2%          70.3%       3     Droid                Claude Opus 4.6      70.2%        66.8%          69.9%       4     Mux                  GPT-5.3-Codex        71.9%        69.2%          68.5%       5     Droid                GPT-5.2              66.0%        61.6%          65.1%       6     Ante                 Gemini 3 Pro         66.8%        62.7%          64.9%       7     Terminus 2           GPT-5.3-Codex        64.7%        61.4%          64.7%       8     Junie CLI            Gemini 3 Flash       68.9%        62.7%          64.3%       9     Droid                Claude Opus 4.5      62.1%        58.3%          63.1%       10    Terminus 2           Claude Opus 4.6      67.2%        63.1%          62.9%

      此外,在Token的消耗方面,CodeBrain-1也展現出了不俗的表現,可持續降低用戶成本。

      對比Anthropic發布的技術文檔,當基模均使用claude opus 4.6時,使用CodeBrain-1和Claude Code在兩者均成功的Py Tasks子任務上所消耗的總Token大幅縮減了超15%。

      CodeBrain-1在Terminal-Bench 2.0上的強勢表現還不僅僅體現在真實命令行終端(CLI)環境下的端到端任務執行能力。

      更重要的,團隊進一步的賦予了它更高階的能力——會動態調整計劃與策略的「大腦」,它通過優化任務的執行邏輯和錯誤反饋機制,顯著提升了模型在真實終端環境下的操作成功率。

      CodeBrain-1提出了一種不同的解決方式。并非讓 AI 直接「隨意發揮」,而是反過來調整分工方式。

      CodeBrain-1 負責在這些約束條件內,動態生成「智能」所對應的可執行程序,并根據實際反饋不斷調整。

      這里的「計劃和策略」既可以作用在個體層面,也可以作用在群體層面。

      對個體而言,它意味著角色可以根據自身目標、記憶和觀察結果,持續調整日程、行為選擇和對他人的態度對群體而言,它意味著一個組織可以形成共享記憶,并基于外部條件變化,調整整體規劃和響應規則。

      為了更直觀地展示CodeBrain-1的能力,團隊將它放入游戲場景中,作為一種行為與策略生成引擎。

      #Case1:游戲bot的實時驅動

      在一些開放世界游戲中,它可以承擔游戲伙伴的角色。玩家可以用自然語言表達意圖,讓bot執行。從理解自然語言中的需求——「幫我建個房子」、「造一把鎬子」,到規劃行動方案——「收集資源」、「清理工作環境」、「建造/制作」,最終生成并執行完整的行動腳本以實現目標,他可以有條不紊地應對任務,豐富玩家的游戲體驗。

      #Case2:群體記憶驅動的戰術演化

      在「搜打撤」類游戲中,如果玩家長期走一條習慣性路線,并被多次觀察到,敵對群體可以逐步強化這一「群體記憶」。

      在后續地圖構建與部署階段,系統會據此調整整體策略,例如:

      distribute  in area = { calculate_area_by_player_hotspots }  with count = { 70% of total }

      同時,還可以疊加行為表達規則,增強沉浸感,在熱點區域成功發現玩家時高喊「抓到你了!」或者是在非預期區域遭遇時高喊「預判失誤!」更進一步,可以配置簡單的小隊作戰策略,比如前排沖鋒,后排掩護。

      這類行為并非單點腳本,而是由群體策略動態生成的結果。

      為什么AI巨頭都在

      Terminal-Bench 2.0 上較量?

      Terminal-Bench 是由斯坦福大學與 Laude Institute 聯合打造的開源基準,被公認為 AI 智能體在真實命令行(CLI)環境下端到端執行能力的「金標準」。

      與紙上談兵的代碼生成測試不同,它的嚴苛在于:

      • 閉環實戰環境:在隔離的 Docker 容器中,AI 必須像人類專家一樣,在真實的 Linux 生態中完成編譯、調試、訓練及部署。

      • 高壓長程任務:89 個深度場景橫跨軟件工程與科學計算,不僅要求極高的邏輯跨度,更徹底杜絕了簡單的「模式匹配」。

      • 零容忍驗證:采用 0/1 判定準則,唯有產出符合預期的交付物(如修復的代碼或運行的服務)才算通關,沒有任何「模糊分」。

      • 2.0 的「天花板」效應:升級后的 2.0 版本大幅拉高了門檻。目前全球頂尖模型的解決率普遍難以突破 65%,這已成為大模型處理系統級復雜任務的「深水區」。

      CodeBrain-1首次亮相便一舉奪得全球第二,其含金量不言而喻。

      以GPT系列為例,頂尖模型雖具備極強的邏輯推理鏈(Reasoning Chain),但常因「過度思考」導致執行鏈路冗長。

      CodeBrain-1并不是一個「更會說話」的AI,而是一個由Code組成、能夠持續調整計劃與策略的執行型大腦,它巧妙地扮演了「調度中樞」與「效率校準器」的角色:它引導模型在常規操作中保持極速響應,僅在遭遇關鍵報錯時激活深層思考。

      這種對底座模型的精準駕馭,正是拉開商業化落地差距的核心變量。

      魯棒的閉環糾錯(Error Recovery),高效的任務分解(Sub-goal Decomposition)和對環境感知的精確理解,在AGI的商業版圖中,強大的Agent依然是「模型落地的必經之路」。

      它不僅關乎任務分解的精度,更關乎在閉環環境中糾錯與生存的韌性。

      Sam Altman在GPT-5.3-Codex發布后的宣言也佐證了這一趨勢:Codex已從單一的代碼審查工具,蛻變為能橫跨全生命周期、執行專業人士所有計算機操作的「全能代理」。

      在OpenAI的藍圖中,模型與框架正進化為深度綁定的「智能全家桶」。

      即便巨頭環伺,垂直行業的深水區依然為優秀的工程框架留下了巨大的商業紅利。

      無論是系統級的Agent框架,還是精悍的開發者效能工具,這些「離用戶更近」的觸點都潛藏著爆發式增長的可能。

      作為一家中國初創團隊,Feeling AI能在OpenAI尖端模型發布的瞬間完成深度整合,并跑出全球領先的戰績,這不僅是工程響應速度的勝利,更是中國AI團隊在全球工程化協同中占據制高點的有力證明。

      在Terminal-Bench 2.0這種以「真實環境、長程進化」著稱的硬核賽道上,緊隨OpenAI之后摘得全球榜眼,其標志性意義不言而喻:中國創業團隊已率先跨越了Agent從「對話玩具」到「生產力工具」的鴻溝,在「重塑工作流」這一戰略高地上占據了領先身位。

      在OpenAI與Anthropic構建的巨頭生態中,中國團隊選擇以「框架定義者」的角色切入,展現了中國AI創新路徑的獨特性與韌性。

      在全球底座模型的上半場較量之余,面向模型商業落地的下半場的競爭只會更加殘酷。

      這注定是一條沒有捷徑的拓荒之路,每一寸領地的攻克都需實打實的工程硬功,但這正是中國創業者在AI時代必須回答的「硬核命題」:不走捷徑,方能定義未來。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      駐日武官王慶簡:為日本潛伏20年出賣軍事機密,卻因一動作暴露身份

      駐日武官王慶簡:為日本潛伏20年出賣軍事機密,卻因一動作暴露身份

      睡前講故事
      2026-02-03 20:55:43
      單板滑雪U型場地:蔡雪桐武紹桐躋身決賽,劉佳宇重重摔倒離場

      單板滑雪U型場地:蔡雪桐武紹桐躋身決賽,劉佳宇重重摔倒離場

      全景體育V
      2026-02-11 19:32:14
      集體漲價!一晚就漲了600多元,網友:快成奢侈品了

      集體漲價!一晚就漲了600多元,網友:快成奢侈品了

      小柱解說游戲
      2026-02-11 07:14:12
      山東又“擼”了13個官兒!!

      山東又“擼”了13個官兒!!

      濟寧人
      2026-02-11 23:29:24
      英媒:中國將中子彈納入常規裝備,若屬實,代理人戰爭算是廢了

      英媒:中國將中子彈納入常規裝備,若屬實,代理人戰爭算是廢了

      風云人物看歷史
      2026-01-30 09:15:41
      你敢信?美國所有的經濟數據都是給全世界裝出來的好狀態

      你敢信?美國所有的經濟數據都是給全世界裝出來的好狀態

      流蘇晚晴
      2026-02-10 18:22:00
      134 - 137:一場關鍵之戰,哈登重燃總決賽之夢

      134 - 137:一場關鍵之戰,哈登重燃總決賽之夢

      江湖散客
      2026-02-12 01:11:14
      賣不動了?特斯拉突然上架大量 Model Y 現車

      賣不動了?特斯拉突然上架大量 Model Y 現車

      XCiOS俱樂部
      2026-02-11 18:46:57
      原來駱駝還能這么可怕的,看了網友的分享,又學到一個保命知識

      原來駱駝還能這么可怕的,看了網友的分享,又學到一個保命知識

      墻頭草
      2026-02-11 08:30:15
      宗熙先生:春節將至,為什么成片的黃燈籠會引發不適?

      宗熙先生:春節將至,為什么成片的黃燈籠會引發不適?

      宗熙先生
      2026-02-08 12:40:58
      我去!塔圖姆被下放了!!

      我去!塔圖姆被下放了!!

      柚子說球
      2026-02-11 17:20:08
      艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

      艾滋病新增130萬!很多人中招很冤枉!在外“5不碰”一定要記死

      今朝牛馬
      2025-12-31 19:31:04
      中華人民共和國正式向全世界宣告兩件大事:

      中華人民共和國正式向全世界宣告兩件大事:

      百態人間
      2026-02-05 15:32:53
      大風新聞調查:在小紅書注冊未成年人賬號,被推送擦邊內容,改年齡就能打賞直播間

      大風新聞調查:在小紅書注冊未成年人賬號,被推送擦邊內容,改年齡就能打賞直播間

      大風新聞
      2026-02-11 18:53:18
      哈佛發現延長壽命蛋白質:每多攝入10克,健康壽命可能性增加40%

      哈佛發現延長壽命蛋白質:每多攝入10克,健康壽命可能性增加40%

      路醫生健康科普
      2026-02-10 17:55:41
      朝鮮戰爭表面上是中國贏得的,但實際上是一個巨大的損失

      朝鮮戰爭表面上是中國贏得的,但實際上是一個巨大的損失

      安安說
      2026-02-02 12:18:03
      實錘了!美商務部長親自承認:多次會面愛潑斯坦!美國兩黨議員要求其辭職?

      實錘了!美商務部長親自承認:多次會面愛潑斯坦!美國兩黨議員要求其辭職?

      王爺說圖表
      2026-02-12 00:50:54
      不出所料,白營反水,出賣了國民黨!

      不出所料,白營反水,出賣了國民黨!

      雪中風車
      2026-02-11 20:03:25
      判刑宣布后,現場的亂港分子大哭,西方31國如喪考妣,美英跳腳

      判刑宣布后,現場的亂港分子大哭,西方31國如喪考妣,美英跳腳

      青梅侃史啊
      2026-02-11 19:55:15
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      2026-02-12 02:56:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14519文章數 66620關注度
      往期回顧 全部

      科技要聞

      V4來了?DeepSeek 灰度測試新版本

      頭條要聞

      遭特朗普威脅 卡尼一個電話打過去:47億美元我們付的

      頭條要聞

      遭特朗普威脅 卡尼一個電話打過去:47億美元我們付的

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風波愈演愈烈 超50位明星扎堆

      財經要聞

      廣州前首富被判無期 200億集資窟窿何償

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態度原創

      本地
      時尚
      教育
      健康
      公開課

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      3種美翻天的穿搭,換個方式過春天

      教育要聞

      初中三年像爬坡,穩定節奏很關鍵

      轉頭就暈的耳石癥,能開車上班嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版