<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      刷榜風波驚動OpenAI后,這家中國團隊拿回Agent硬核榜單第一

      0
      分享至



      編輯 | 澤南

      2026 年 AI 領域最重要的概念,可能非 Harness 莫屬。

      上個月底,Anthropic 的 AI 編程智能體 Claude Code 源代碼意外泄露,業界在圍觀之下無不發出感嘆:「Harness engineering 真是太難了。」



      作為 AI 智能體(Agent)的兩大支柱之一,大模型就像基礎,Harness 則是上層建筑。具體來說,Harness Engineering 是指圍繞 AI 智能體設計系統、約束和反饋循環,使其在生產環境中能夠可靠運行的工程學科。

      在這其中,權限與安全護欄、記憶與狀態管理、工具與工作流編排,以及自我糾錯循環的機制缺一不可。AI 領域對于 Harness 的重視,意味著 AI 技術正在告別盲盒時代,邁向了工程學的范疇。

      而在產業落地這個層面上,國內的實踐走在了前面,還率先完成了第三方的實證。

      近日,在由 OpenAI 主導設立的權威基準測試 MLE-Bench 上,企業級算法自主優化智能體百度伐謀(Famou)擊敗了各路玩家登頂,并刷新了 SOTA 成績。





      這是繼去年 10 月首次登頂后,百度伐謀的第二次領跑。這次拿下第一的是 2.0 版,預計于今年 5 月 13 日的 Create 2026 百度 AI 開發者大會上正式發布。

      與那些考常識問答、寫代碼的常規評測不同,MLE-Bench 被業內公認為是檢驗智能體「動手能力」的硬核考場。它挑選了 75 個來自頂尖數據科學平臺 Kaggle 競賽的真實工程難題,重點考察 AI 在模型訓練、數據準備、實驗運行等機器學習全流程中的端到端實戰能力。

      簡單來說,MLE-Bench 不考「單選題」,它考的是工程項目開發的應用題,需要 AI 智能體能像一位經驗豐富的人類算法工程師一樣,完成從需求理解到解法輸出的全鏈路設計,找出全局最優解。

      能在 MLE-Bench 上登頂,意味著伐謀已經超越了做題家的范疇,在解決實際工程和算法優化問題上的能力達到了頂尖水平。

      而且這次的成績「來之不易」。

      登榜風波:有關 AI 評測底線的較量

      故事要先從一場榜單風波說起。

      去年 10 月,百度伐謀團隊首次向 OpenAI 主導的 MLE-Bench 提交了 Famou Agent 的成績,以 43.56 分拿下當時的 SOTA(最優水平)。在此之前,這個硬核的機器學習工程榜單提交者寥寥,伐謀的登頂瞬間讓榜單熱鬧了起來,陸續吸引了近 10 家頂尖團隊入場角逐。

      到 12 月末,百度伐謀推出了 2.0 版本,并以 59.56 分再次登頂。

      有意思的是在這次升級中,伐謀團隊做出了一個有些反直覺的決定:他們沒有使用當時最先進的基座模型,而是繼續使用上一代的模型作為基礎。他們希望單獨驗證智能體 Harness 自身的系統進步。

      今年 2 月,在大家都還在 60 分區間苦苦掙扎時,一家名為 Disarray 的創業公司突然提交了一份 77.78 分的答卷。

      但很快 AI 社區發現了異樣之處:Disarray 的智能體在某些任務(如 GPS 定位任務)上竟然跑出了「0.0 誤差」的成績,在另一些圖像任務中也拿到了低得離譜的分數。這種幾乎不可能的成績引爆了 GitHub 討論區。

      有研究者發現,Disarray 的智能體在運行過程中會利用 MLE-Bench 機制的漏洞接收來自「私有測試集」的二值反饋信號,智能體在還沒交卷的時候,就已經提前知道了考試答案的大致方向。同時,它甚至在某些任務中直接調用了外部網絡數據。



      爭議之外,伐謀團隊決定出手,他們換上了最新 SOTA 模型作為基礎模型進行提交,最終得分:64.44 分。雖然絕對分數沒有超過利用了漏洞的 Disarray,但這個成績沒有使用私有測試集的反饋信號,也沒有使用外部網絡數據。

      3 月 23 日,MLE-Bench 官方終于做出決定,新增一個專屬的清潔賽道(No Private LB),將所有具有數據泄漏嫌疑的方法(包括 Disarray)隔離,并打上警示標簽。

      排除了干擾項后,一直堅守實驗原則、拒絕走捷徑的百度伐謀 2.0 以無可爭議的分數重回主榜榜首。

      這場榜單名次的更迭,似乎也隱喻了 AI 工程化的核心命題:在有研究團隊不斷刷分的同時,也有探索者正在踐行 Harness 的工程化思路,一步步攻克真實世界任務的壁壘。

      伐謀 2.0 為什么能贏?

      百度能夠在全球頂尖智能體的角逐中拔得頭籌并非偶然,答案就藏在那個讓整個硅谷都在熱烈討論的新詞里:Harness Engineering(系統編排工程)。

      過去幾年,AI 行業的競爭焦點集中在基礎模型上。但人們發現,在處理真實世界復雜的工程問題時,再聰明的模型如果沒有合理的系統編排與約束,還是會在長鏈條任務中失去方向,陷入死循環,或者產出無法落地的錯誤代碼。

      Harness Engineering 因此逐漸受人重視,其目標非常明確:從手工構建 AI 轉向框架驅動的演化。

      基于大模型這個「發動機」,Harness 負責管理任務的拆解、記憶存儲、試錯反饋、工具調用以及安全邊界。已有不少 AI 專業人士認為,在未來的 AI 競賽中,誰能構建出最優秀的 Harness 框架,誰就能真正把大模型的智力轉化為生產力。



      這個前沿議題也正是百度伐謀一直以來努力的方向。

      伐謀是一個讓 AI 算法自主進化、尋找全局最優解的多智能體系統,旨在高效率地解決高難度的問題。它結合了大語言模型和進化搜索算法,能夠解決復雜的現實世界問題。去年 11 月的百度世界大會上,我們已經見證了百度伐謀的技術框架和實踐成果。



      李彥宏曾表示,「只要問題的解法是明確可驗證的,伐謀就可以模擬甚至超越頂尖的算法專家。」

      在伐謀 2.0 版本上,演化策略、長程記憶機制、底層基礎設施等層面又獲得了全面優化。

      首先,伐謀執行的是多智能體并行探索模式。在面對一個新任務時,系統首先會通過多智能體并發生成多個「初始算法解」,將它們分發到不同的「島嶼」形成初始種群。隨后進入自演化階段,在分布式集群上利用大規模并行的變異與交叉機制持續迭代,不斷向全局最優解逼近。它不需要工程師手工構建每一層能力,而是讓智能體在演化中自主尋優。

      其次,伐謀升級了長程記憶機制,能讓智能體像人類工程師一樣在長鏈條任務中保持思路清晰、邏輯一致。該機制解決了大模型「做著后面忘了前面」的痛點,讓智能體能在真實世界復雜的工程任務中記住此前的分析、決策和中間結果。

      最后,通過底層基礎設施優化,伐謀實現了算法演化迭代效率的顯著提升。依托百度智能云的全棧 AI 云優化,伐謀在計算資源調度、任務并行執行、容錯恢復等方面做到了極致。底層的夯實,讓整個龐大的系統能夠「跑得穩、跑得快、跑得可靠」。

      榜單是驗證,產業是答案

      MLE-Bench 榜單的成績只是技術驗證的一角,百度伐謀其實已經在真實物理世界里解決了很多產業難題,其中不乏一些我們想象不到的案例。

      在汽車研發中,風阻系數很大程度上決定了新能源車的續航水平,但氣動驗證是一個困難的任務。傳統方法依賴于仿真軟件求解復雜的偏微分方程,單次驗證可能需要耗時 10 個小時。設計師畫完草圖,只能像「開盲盒」一樣等待工程師的反饋。

      亞洲最大的獨立汽車設計公司阿爾特,將其 AI 核心平臺與百度伐謀進行了深度結合,通過伐謀的自我演化能力,訓練出了「御風」智能預測系統。



      原本需要 10 小時的分析驗證,現在僅需數分鐘就能輸出可視化的壓力云圖及風阻系數,預測誤差被控制在 5% 以內。這種降維打擊,直接將傳統的「設計 - 驗證 - 修改」串行循環,升級成「邊設計、邊驗證」的并行協同,整車研發周期直接縮短了 25%。

      數字銀行的核心護城河是風控,而風控的生命線在于「特征挖掘」。中信百信銀行將伐謀智能體引入了核心風控體系。在這里,伐謀作為一位不知疲倦的「策略演化大師」,利用高維數據感知能力,7×24 小時在海量數據中挖掘風險特征,在極短時間內達到了專業數據工程師的水平。

      實戰結果令人矚目:伐謀不僅將特征挖掘效率提升了 100%,還精準抓取到了人類極易忽略的高價值特征,使風控模型的風險區分度提升了 2.41%。這意味著銀行能在可控風險內更精準地篩選出優質客戶,拓寬普惠金融的邊界。

      更進一步,伐謀解決復雜問題的能力不僅落地在工業上,也在推動前沿科研范式的升級。

      北京工業大學將百度伐謀引入到了中國空間站微型空氣質量監測設備的研發中。面對核心部件「氣相色譜柱」的流場均勻性難題,伐謀通過自我演化打破了人類常規的設計極限,找出了更小構型、更緊密排列的最優解,極大提升了氣體分離效率。

      天津大學則將其應用于災害預測與預警模型選優(如滑坡位移預測、結構面巖爆)。過去依賴人工串行試驗、動輒以「周」為單位的選優周期,被伐謀直接壓縮到了 6 個小時。

      通過 AI 的幫助,人類專家終于得以從枯燥的手動試錯中解放出來,回歸科研的本質 —— 定義科學問題、產出新規律。而那些最困難、最耗時的算法演化與龐雜計算,正在全面交由智能體去完成。

      結語

      從百度伐謀的實踐我們或許可以看出,Harness Engineering 正在成為下一代 AI 工程化的分水嶺。

      通過大量實際任務的驗證,伐謀證明了一套完整的 AI 智能體架構,不再需要人類工程師去手工編寫每一層規則,而是可以放手讓其在自我演化中尋找最優解。

      當 AI 競賽從模型層卷向框架層,國內 AI 團隊在實踐領域的持續深耕正在定義工程化的范式。新一代的生產力,正在真實戰場上解決「最難的問題」。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      英超天王山戰:曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

      英超天王山戰:曼城2比1阿森納,多納魯馬超巨失誤送禮,謝爾基、哈蘭德建功

      足球報
      2026-04-20 01:33:26
      2年1.3億!最被高估的聯盟巨星,被二當家拖進季后賽,硬仗又萎了

      2年1.3億!最被高估的聯盟巨星,被二當家拖進季后賽,硬仗又萎了

      你的籃球頻道
      2026-04-20 09:24:43
      張雪:流量已成為負擔,現在我已不能騎摩托車上下班了,廠門口隨時堵著幾十個人

      張雪:流量已成為負擔,現在我已不能騎摩托車上下班了,廠門口隨時堵著幾十個人

      都市快報橙柿互動
      2026-04-19 14:42:37
      太陽報:哈蘭德內襯的衣袖都被加布撕掉,但任意球都沒得到

      太陽報:哈蘭德內襯的衣袖都被加布撕掉,但任意球都沒得到

      懂球帝
      2026-04-20 09:25:21
      里程碑,丁俊暉在世錦賽打出第100桿破百,成為歷史第8人

      里程碑,丁俊暉在世錦賽打出第100桿破百,成為歷史第8人

      懂球帝
      2026-04-19 22:57:04
      多平臺訂購火車票現功能異常,客服回應:受12306風控升級影響

      多平臺訂購火車票現功能異常,客服回應:受12306風控升級影響

      界面新聞
      2026-04-20 09:16:20
      60歲阿姨再嫁34歲小伙,阿姨:晚上太折騰,小伙:這是妻子的責任

      60歲阿姨再嫁34歲小伙,阿姨:晚上太折騰,小伙:這是妻子的責任

      烙任情感
      2026-04-19 11:08:19
      囂張!拼多多竟把執法人員手指夾骨折。網友調侃:“砍一刀”不是白叫的,15 億罰輕了

      囂張!拼多多竟把執法人員手指夾骨折。網友調侃:“砍一刀”不是白叫的,15 億罰輕了

      新浪財經
      2026-04-20 07:43:33
      眼角塌陷,滿臉疲態,都51歲中老年了還談戀愛?鐘漢良放過觀眾吧

      眼角塌陷,滿臉疲態,都51歲中老年了還談戀愛?鐘漢良放過觀眾吧

      得得電影
      2026-04-19 11:42:40
      美國對臺軍售捅馬蜂窩!中國反手大舉賣武器,反美國家搶瘋了!

      美國對臺軍售捅馬蜂窩!中國反手大舉賣武器,反美國家搶瘋了!

      荊楚寰宇文樞
      2026-04-19 23:38:57
      被豆包害慘了的大學生們!網友:豆包就是愚蠢且勤勞的老實人

      被豆包害慘了的大學生們!網友:豆包就是愚蠢且勤勞的老實人

      夜深愛雜談
      2025-12-02 20:51:10
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

      美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

      混沌錄
      2026-04-10 22:53:19
      4月19日最新油價,國際油價大降21.8%,國內汽柴油“顯著”下跌中

      4月19日最新油價,國際油價大降21.8%,國內汽柴油“顯著”下跌中

      豬友巴巴
      2026-04-19 17:30:03
      本科爛大街,碩士遍地走,博士很尷尬?上海交大今年招5000博士!

      本科爛大街,碩士遍地走,博士很尷尬?上海交大今年招5000博士!

      驊駿老師張
      2026-04-19 07:49:40
      阿聯酋被曝向美國尋求戰時金融支持 否則恐以其他貨幣結算石油

      阿聯酋被曝向美國尋求戰時金融支持 否則恐以其他貨幣結算石油

      財聯社
      2026-04-20 10:04:07
      “毒包子”養廢了多少孩子,很多家長還在喂,看完文章停下來吧

      “毒包子”養廢了多少孩子,很多家長還在喂,看完文章停下來吧

      枕邊聊育兒
      2026-04-20 08:46:22
      極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

      極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

      懂球帝
      2026-04-20 00:22:46
      研究表明,中學生的抑郁率已高達36%!

      研究表明,中學生的抑郁率已高達36%!

      黯泉
      2026-04-18 18:06:01
      哈蘭德:我不會假摔,如果我倒在地上那加布得被紅牌罰下

      哈蘭德:我不會假摔,如果我倒在地上那加布得被紅牌罰下

      懂球帝
      2026-04-20 01:58:15
      2026-04-20 11:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12801文章數 142632關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

      頭條要聞

      失蹤女老板被找到 嫌犯曾改名整容還催警察"還我清白"

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      章子怡!增重20斤素顏拍新片

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      外觀非常驚艷 全新一代寶馬6系有望回歸

      態度原創

      旅游
      健康
      教育
      手機
      時尚

      旅游要聞

      去藝術現場,赴一次深度游

      干細胞抗衰4大誤區,90%的人都中招

      教育要聞

      給孩子最深的滋養:一半愛護,一半需要

      手機要聞

      上市還沒半年!三星三折疊屏手機面臨退市 友商跟華為差距太遠

      今年最流行的衣服竟然是它?高級又氣質!

      無障礙瀏覽 進入關懷版