網易首頁 > 網易號 > 正文申請入駐

AI學會左腳踩右腳自進化？Meta華人新研究改寫Agent法則

2026-04-06 12:42:55　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導讀】過去Agent比誰更會干活，現在可能要比誰更會變強。

AI已經學會「左腳踩右腳上天」了？

Meta的一項最新研究表明：AI已經開始碰自己的「進化引擎」了。

華人學者Jenny Zhang在Meta實習期間，聯合Meta AI、UBC、紐約大學等機構研究者，提出了一種新的智能體框架：HyperAgents（DGM-H）。

https://arxiv.org/abs/2603.19461

這項工作的重點，不是再造一個更能干活的Agent。

它瞄準的是更高一層的問題：

如果AI已經能夠修改自己的任務解法，那它能不能連「自己以后該怎么修改自己」這件事，也一并改掉？

論文給出的答案是：可以。

而且，這不再是概念推演，而是已經在實驗中跑通的系統能力。

HyperAgents做的關鍵一步，是把「執行任務的 agent」和「負責改進 agent 的 meta agent」合并進同一個可編輯程序里，作者將之稱為hyperagent。

DGM依賴任務與自修改能力的對齊，而DGM-H不再需要這種對齊

在新框架下，系統不只會修改任務求解邏輯，還開始修改未來生成改進方案的機制本身。

論文把這種能力稱為metacognitive self-modification，也就是：元認知自我修改。

過去行業競爭的是：誰的Agent更會干活。

而HyperAgents 指向的下一階段則可能是：誰的Agent更會變強，而且會越來越會變強。

以往的「自我進化」

其實還只是半手工

這篇論文，指出了上一代自我進化路線的天花板。

去年的Darwin G?del Machine（DGM），已經很驚艷。

它能在coding任務中不斷自改代碼、自我驗證、把成功版本存進archive，再從這些「墊腳石」里繼續往前長。

論文披露，DGM在SWE-bench上能從20.0%拉到50.0%，在Polyglot上從14.2%拉到30.7%。

但問題在于，DGM之所以能在coding里成立，是因為「評估」和「自我修改」本身也都是coding任務。

寫代碼更強了，反過來就更會改自己的代碼。任務能力和自我改進能力，在這個場景里是對齊的。

然而一旦離開coding，這個對齊關系就斷了。

比如評審論文、設計機器人獎勵函數、給IMO級數學解答打分，這些任務做得更好，不等于你就更會修改自己的元機制。

HyperAgents論文最核心的一招，就是直接把這個假設砍掉：

既然任務能力和自我改進能力未必天然對齊，那就不要再把meta層寫死。

這說明過去很多「自我進化」系統，本質上還是在人為設定的軌道里進化。

HyperAgents真正改變的，是改變機制本身。

HyperAgents新在哪里？

表面上看，HyperAgents只是多了一個meta agent。

但真正值得注意的是，它把task agent和meta agent合成了同一個可編輯程序。

以前的DGM里，系統有一個手工設計的instruction-generation機制，負責根據過往表現決定下一步怎么改。

這一步不能被改，所以它反而成了整個系統的瓶頸。

HyperAgents的做法是把這部分也納入可修改范圍。

換句話說，AI不只是改自己的答案、自己的工具、自己的流程，它開始改「自己怎么提出修改建議」。

DGM里上層機制基本固定，DGM-H里meta層本身也進入可演化空間，也就是說，它是一個會經營自己進化過程的系統。

所以，HyperAgents做的不是「再加一個Agent」，而是取消了「上層永遠不變」這個默認前提。

自我改進開始跨域遷移

在coding任務中，HyperAgents在Polyglot 上的提升，與原始DGM處在同一量級：50-task訓練子集從0.140提升到0.340，完整benchmark從0.084提升到0.267。

換句話說，它并不是只靠犧牲泛化來換局部成績。

更關鍵的是，它不只在coding任務成立，還能在paper review、robotics reward design等非coding任務上繼續自我改進。

在paper review上，初始agent在測試集得分為0.0，DGM-H提升到0.710；在robotics reward design上，則從0.060提升到0.372。

更關鍵的是，這些提升不僅出現在訓練任務里，也轉移到了held-out test tasks。

與此同時，對照組也很說明問題：去掉self-improve，效果明顯變弱；去掉open-ended exploration，系統也很難取得有意義進展；原始DGM直接搬到非coding 域幾乎失效，只有經過人工定制成DGM-custom后，才恢復競爭力。

這說明HyperAgents 的關鍵價值，不在于某一個benchmark多拿了幾個點，而在于它把原本依賴coding場景對齊關系的自我改進，推進成了一個能在非coding任務中運行的框架。

更值得注意的是遷移實驗。

作者把在paper review和robotics任務中演化出來的hyperagents，轉移到Olympiad-level math grading。

雖然這些轉移體自身初始得分仍接近0，但它們作為「生成更優agent的meta agent」，卻能在50輪內把最好生成體推到0.630，對應imp@50從0拉到0.630。

相比之下，來自DGM-custom的轉移體幾乎沒有這種能力。

換句話說，遷移過去的，不只是任務經驗，而是「如何持續變好」的能力。

它開始自己長基礎設施了

很多人看到「自我進化」會以為，無非是AI自己改prompt、調工作流、加幾個規則。

但論文展示給我們、最讓人感到沖擊力的一個地方在于：它開始自己長基礎設施了。

DGM-H在迭代中會自動長出performance tracking、persistent memory、evaluation analysis、compute-aware planning這些基礎設施。

論文中甚至直接給出了自動生成的性能追蹤器代碼和持久記憶條目：它開始記錄跨代指標、總結哪些代際策略有效、診斷過度修正、制定下一輪改進計劃。

這還不是「日志記錄」那么簡單，系統開始把改進看成一個長期經營過程，而不是一次次孤立的pa?tch。

它不只記錄每一代分數，還會比較趨勢、識別回退，并把跨代經驗沉淀進persistent memory。

正如網友所說，真正讓這一切變成現實的關鍵，恰恰是persistent memory的自主出現。

論文展示的memory示例中寫道：某一代評審準確率更高，但過于嚴苛；另一代平衡更好；下一輪要融合兩者優點。

沒有這層記憶，agent往往只會反復「重新發明輪子」；有了它，過去幾代的有效經驗才第一次能真正沉淀為下一輪改進的起點。

這說明Agent正在從「輸出一個結果」，走向「維護一個持續優化系統」。

這不是AGI宣言

但舊規則確實在失效

當然，這篇論文沒有證明「無限自我進化AI」已經降臨。

作者自己也寫得很清楚：

實驗都在沙箱、資源限制和人工監督下完成；外層循環還有不少部分沒有開放給系統自改，比如任務分布、parent selection、evaluation protocol等；真正無界的open-ended self-improvement，還遠遠沒到。

但風險預警已經出現。

一旦AI開始改自己的改進機制，安全討論就變得重要起來。

論文也專門有一節談風險：隨著系統越來越能開放式地修改自己，它的演化速度可能超過人類審計和理解速度。

今天靠sandbox和人工盯著還能管住，明天未必。

HyperAgents代表了一種新的路線，它可能會改寫Agent競爭。

未來比的不只是誰會調模型、誰會寫workflow、誰會做更強單點工具，而是誰能把「改進能力」本身產品化、系統化、可遷移化。

這將改變AI公司的護城河。

真正的壁壘，可能不再只是參數、算力和數據，而是有沒有一套能跨任務累積經驗、跨運行持續變好的自我改進系統。

也會改變開發者位置。

開發者不再只是寫功能的人，而更像是在設計AI可以繼續自我設計的邊界條件。

最重要的一點，它改寫了AI行業過去默認的一條規則：系統可以變強，但變強的方法由人來定義。

現在，這條規則開始松動了。

作者簡介

Jenny Zhang

Jenny Zhang

Jenny Zhang，現為英屬哥倫比亞大學人工智能博士生，師從Jeff Clune，同時也是Vector Institute研究生，并曾在Meta擔任Research Scientist Intern。

她本科畢業于帝國理工學院，研究方向聚焦開放式進化、強化學習與自我改進AI，代表工作包括《Darwin G?del Machine》《HyperAgents》以及OMNI系列研究。

她的長期目標，是構建能夠自主提出新任務、持續自我提升、不斷演化復雜能力的AI系統。

參考資料：

https://x.com/jennyzhangzt/status/2036099935083618487%20

https://arxiv.org/abs/2603.19461

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI創業，已經沒有“出?！边@個詞了丨量子位沙龍

量子位 2026-04-06 13:00:41
0 跟貼 0
Meta-Harness讓Haiku性能狂飆，甚至追平Opus！

新智元 2026-04-04 20:02:38
0 跟貼 0

智能體上線就翻車？AWS 這款 “質檢神器”，幫你把 Agent 穩穩送上生產線

鈦媒體APP 2026-04-06 08:38:20
0 跟貼 0

讓離線強化學習從「局部描摹」變「全局布局」丨ICLR'26

量子位 2026-04-06 13:33:32
0 跟貼 0
小米、字節“老將”帶隊，Meta秘密布局AI新硬件

財聯社 2026-04-04 22:39:04
4 跟貼 4

末日時間表提前了！OpenAI前研究員硬核推演：AI拐點逼近，人類成NPC

新智元 2026-04-04 12:33:02
62 跟貼 62

JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺反思」能力？

機器之心Pro 2025-12-24 14:52:46
0 跟貼 0
AI終于學會「讀懂人心」，帶飛DeepSeek R1，OpenAI o3等模型

機器之心Pro 2025-11-20 15:11:00
0 跟貼 0

這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
具身Scaling Law押對了！獨角獸新品1小時學會新任務，成功率99%

量子位 2026-04-06 13:15:17
0 跟貼 0
高速上跑丟倆輪子，六軸車變五軸，卡友懵了

抓貓的魚 2026-04-03 13:39:09
1 跟貼 1
路上看到一輛電動車，車上還裝著輔助輪，結果左邊的輪子比右邊小一圈

樂動向前 2026-04-03 21:39:10
0 跟貼 0
嬰兒車輪子竟然是平行的，看到這個造型，不由得想起風火輪！

發怒的福貓 2026-04-03 13:42:32
19 跟貼 19
摩博會名場面：王鑄吼張雪 “你沒我專業”，如今被打耳光

金鱗化龍2 2026-04-06 09:50:23
4 跟貼 4
6個輪子和8個輪子的行駛姿態對比

土豆配面 2026-04-05 16:45:04
1 跟貼 1
爸爸安裝的嬰兒車，輪子有自己的想法，動手能力還是太強了！

蝴蝶愛搞笑 2026-04-05 13:17:39
4 跟貼 4
房貸中介偷傳用戶數據，Meta收了8年沒人管

報錯免疫體 2026-04-05 06:15:17
0 跟貼 0
女子清明假期觀看張杰演唱會，看到一個機器人躺在地上“罷工”，工作人員走到跟前將其抱走

氧氣周末 2026-04-04 16:07:18
6 跟貼 6
這是什么情況？開著輪子就掉了！

樂享人生風雨 2026-04-05 17:58:14
0 跟貼 0
媒體：4億美元橋梁被炸F-15墜毀沖突代價已遠超預估

中國新聞周刊 2026-04-05 18:06:30
33241 跟貼 33241
男子打球超帥瞬間，離了很遠直接把球打進了球筐

南陽日報 2026-04-05 19:53:53
195 跟貼 195
百年謎題破解！人類為什么是唯一長下巴的生物？

大橘大利 2026-04-04 15:38:57
1 跟貼 1
人類只用百萬年就進化出智慧文明，為何恐龍上億年都沒做到？

宇宙時空 2026-04-05 14:30:27
2 跟貼 2
這機器人也太過分了吧，居然還上床睡覺，請把她的眼鏡安上！

古德拜街拍 2026-04-04 16:53:33
0 跟貼 0
沙特十二國聯合聲明震撼發布，中東格局巨變，七十年規則終結

春露秋霜 2026-04-06 00:23:20
0 跟貼 0
12,000年前北美獵人就玩骰子，人類概率思維起源被推翻

我是一個粉刷匠2 2026-04-04 21:05:27
0 跟貼 0
讓LLM不再話癆，快手HiPO框架來了

機器之心Pro 2025-11-03 15:10:48
0 跟貼 0
連勝文一句少說話引發熱議，鄭麗文此行真正難點或不在訪問本身

末藍星星 2026-04-06 13:16:52
0 跟貼 0
被機器人代替的下崗工人，該何去何從？以后失業的人會越來越多

小狗漫說 2026-04-02 16:47:23
0 跟貼 0
風箏-鄭耀先被催婚了！一套邏輯下來，說的徐百川啞口無言

龍耀影視 2026-04-03 09:03:13
3 跟貼 3
賈淺淺研究父親賈平凹的作品被指大面積抄襲，親屬研究需避嫌嗎？

之乎者也小魚兒 2026-04-05 22:28:54
3 跟貼 3
Agent接管EDA工作流，不只寫腳本！浙大打通真實芯片設計閉環

新智元 2026-04-06 12:43:01
0 跟貼 0
前小米高管創業機器人，用“爆品邏輯”做工業通用具身智能

36氪 2026-03-03 10:27:10
0 跟貼 0
從襄陽看中國：衛戍、工廠與考場，如何鎖死五億人的命運？

虔青 2026-04-06 13:34:27
0 跟貼 0
球童：多納魯馬把紙條藏毛巾里，我一心想幫波黑就把它拿走了

懂球帝 2026-04-06 07:15:07
304 跟貼 304
小區樓棟加裝電梯只到1個樓層！這家住戶有實力？真相出人意料，網友：是個省錢思路

重慶晨報 2026-04-05 08:10:00
85 跟貼 85
長壽診所爆火，90%人第一步就走錯！看懂三種模型避免百萬打水漂

商悟社 2026-04-06 13:00:04
1 跟貼 1
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2675 跟貼 2675
確定了！江蘇又有新假期！

泰州微視聽 2026-04-05 19:41:00
398 跟貼 398

新智元

AI產業主平臺領航智能+時代

14906文章數 66753關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

手機

親子

藝術

房產

手機 / 數碼

房產 / 家居

AI學會左腳踩右腳自進化？Meta華人新研究改寫Agent法則

前同事被蒸餾成Token，AI能否偷走職場經驗

特朗普希望7日前與伊朗達成協議 專家:實現可能性較低

特朗普希望7日前與伊朗達成協議 專家:實現可能性較低

球員系列賽大滿貫！趙心童10-3世界第一 加冕賽季第4冠

喬任梁離世10年 父母曝舞臺光鮮的背后

118噸！這家央行，大幅拋售黃金！

家用SUV沒駕駛樂趣?極氪8X第一個不同意

態度原創

AI時代，辨別真相的成本變高了

澎湃OS3新進展：小米17 Pro Max手機背屏拍照預覽問題已優化

一定要讓孩子刻在腦子里

20位中國當代名家的25幅油畫

小陽春全面啟動！現房，才是這波行情里最穩的上車票

前同事被蒸餾成Token，AI能否偷走職場經驗

特朗普希望7日前與伊朗達成協議專家:實現可能性較低

特朗普希望7日前與伊朗達成協議專家:實現可能性較低

球員系列賽大滿貫！趙心童10-3世界第一加冕賽季第4冠

喬任梁離世10年父母曝舞臺光鮮的背后

118噸！這家央行，大幅拋售黃金！

AI時代，辨別真相的成本變高了

小陽春全面啟動！現房，才是這波行情里最穩的上車票