網易首頁 > 網易號 > 正文申請入駐

DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網友：這可能就是“王牌”

2026-02-27 14:05:02　來源: AI前線

北京舉報

分享至

　　作者 | 木子

　　說起 AI Coding，之前很多人好歹還有個“心理安慰”：AI 也就寫寫“腳手架代碼”、補補前端頁面，真到核心算法、業務邏輯，還是得人來。

　　但這道“最后防線”，也正在松動。

　　谷歌 DeepMind最近做了一件更狠的事：他們讓LLM 驅動的智能體，直接去改寫、進化算法代碼本身——不是調參數，而是改算法邏輯。

　　改完就丟進真實博弈環境里反復跑，自動評測、優勝劣汰，一輪輪進化。

　　結果呢？它真的做出了全新的多智能體學習算法，在多項測試中超過了人類專家手工打磨的版本。

　　重要的是，這些機制并不直觀，屬于人類很難靠經驗窮舉出來的解。

　　更關鍵的是：人只用定義好了算法骨架，之后的搜索、修改、篩選，全程自動完成，不用手調參數，不用反復試錯，也不靠研究者的直覺微調。

　　這個智能體叫AlphaEvolve，延續了 DeepMind 一貫的“Alpha”命名傳統（AlphaGo、AlphaZero、AlphaFold）。其中 “Evolve” 意為“進化”，點明它的核心機制：通過類似生物進化的方式不斷改寫和篩選算法。

　　這個 AlphaEvolve 本身去年就有，但這是它第一次被用來學習算法。

　　它把 Gemini 系列大模型，和進化搜索結合起來，把代碼不斷生成、測試、篩選、再進化。

　　DeepMind 把把研究過程和成果寫成了一篇 37 頁的論文，題為《基于大語言模型的多智能體學習算法自動發現》（Discovering Multiagent Learning Algorithms with Large Language Models），一發出來就炸了技術圈。

　　有網友看完直呼，這玩意真挺“可怕”的：

“這看起來像是 DeepMind 手中的一張王牌，我認為它可能導致谷歌贏得比賽。”

　　有人銳評：

“這就像教一個孩子讀書，然后看著它自己編寫教科書。”

　　還有人已經開始往更遠處想：既然 AI 已經能設計更好的學習算法，那或許它也該先給自己設計一套更完善的“倫理引擎”，在 ASI 真正爆發之前，先把對齊這件事想清楚。

　　人只選定算法框架，

　　AI 全自動閉環進化

　　來展開看看實驗設計和操作過程。

　　需要說明的是，研究團隊沒有讓模型“從零寫算法”，而是選定兩個成熟框架：

　　CFR（后悔最小化）：CFR 算法族，依賴遞歸定義來累積后悔值并構建平均策略。

　　PSRO（策略種群訓練）：通過迭代計算最優響應并求解元策略，不斷擴展策略種群。

　　過去，在不完全信息博弈求解（比如撲克）中，像 CFR、PSRO 這些經典算法雖然理論扎實，但真正好用的“升級版”，還是要靠人類專家一點點憑經驗調參、改規則、試出來。

　　然后，研究人員把算法核心邏輯，拆成幾個可被改寫的 Python 函數，例如：regret 累積規則、當前策略生成方式、平均策略更新規則、PSRO 的 meta-solver 邏輯。

　　也就是說，他們只開放了“關鍵決策邏輯”給 LLM 改，其余框架固定。這一步很關鍵，相當于給進化定義“基因范圍”。

　　接下來就進入真正的“進化環節”。

　　AlphaEvolve 把當前算法代碼當作“個體”，由 LLM 生成若干語義上有意義的改寫版本：不是隨便亂改，而是改具體邏輯、控制流或更新規則。

　　每一個改寫后的版本，都會被自動編譯、運行，然后丟進一組博弈環境里真實對戰，用 exploitability 這樣的指標打分。表現更好的版本被保留下來，作為下一輪搜索的基礎；表現差的直接淘汰。

　　整個過程是閉環的：生成 → 運行 → 評估 → 篩選 → 再生成，循環推進。人類不參與中間調參，也不手動篩選，只負責設定規則和評價標準。

　　圖注：這張示意圖也是 AI 做的

　　結果，AI 進化出了兩個全新算法。

　　先看 CFR 這一派。AlphaEvolve 進化出了 VAD-CFR。

　　AI 沒有去調那點小參數，而是直接改了“后悔值怎么累計、怎么打折、什么時候開始平均策略”這些核心邏輯。

　　比如引入了 volatility-sensitive discounting（根據波動動態折扣）、hard warm-start schedule（前期蓄力、后期發力）這樣的機制。

　　聽起來挺抽象的，但效果明顯：在多個博弈里，它超過了目前人類手工打磨出來的最強版本。

　　這張圖很直觀，展示了多種 CFR 變體在不同博弈環境中的收斂表現。上半部分是用于搜索階段的訓練游戲，下半部分是規模更大、更復雜的測試游戲。

　　橫軸是迭代次數（最多 1000 次），縱軸是 exploitability（越低越接近均衡）。曲線降得越快、越低，說明算法越強。

　　灰色那條線就是 VAD-CFR。可以看到，在多數游戲里，它下滑得更快、落得更低，明顯壓過 CFR+、DCFR、PCFR+ 這些人類優化過多輪的版本。

　　在一些游戲中，大約 500 次迭代之后，曲線像突然“踩了油門”，下降速度明顯加快——這正是它預熱階段結束、正式發力的時刻。

　　前半段像是在默默蓄力，后半段才真正沖刺。

　　更關鍵的是，在規模更大、難度更高的測試游戲中，VAD-CFR 依然比傳統的 CFR、CFR+、DCFR 等人工設計的算法收斂更快、結果更優，沒有出現“只會做模擬題”的情況。

　　這說明，它不是針對訓練游戲做了小技巧，而是在算法結構層面找到了一種更高效的更新方式。

　　再看PSRO這一派：AI 進化出了SHOR-PSRO算法。

　　它做的事情很簡單也很大膽：重新設計“元求解器”。

　　傳統方法要么偏探索，要么偏逼近均衡，權衡是固定的。而 SHOR 直接把多種更新機制混合在一起，設計了一種混合型 meta-solver，而且隨著訓練進程動態調整，讓訓練過程自動從“多樣性探索”過渡到“逼近均衡”。

　　這張圖，展示的就是它和 Uniform、Nash、AlphaRank、PRD、RM 等經典方法的對比。

　　圖中不同顏色代表不同元求解器：Uniform、Nash、AlphaRank、PRD、Regret Matching（RM），以及進化得到的 SHOR（棕色線）。

　　整張圖分為上下兩部分。上半部分是訓練游戲，下半部分是規模更大、更復雜的測試游戲，用來檢驗算法是否具有泛化能力。

　　橫軸是 PSRO 迭代次數（最多 100 輪），縱軸是 exploitability（可被利用度，對數坐標）；數值越低，說明算法越接近博弈均衡、表現越好。

　　可以看到，在多數游戲中，SHOR 曲線下降更快，而且在第 100 次迭代時的 exploitability 更低，說明它在同樣迭代次數下更有效地逼近均衡。

　　尤其是在更復雜的測試游戲中（如 4-player Kuhn、6-sided Liar’s Dice），SHOR 依然保持優勢，沒有明顯退化。

　　簡單說，SHOR-PSRO 在“什么時候多探索、什么時候專注逼近均衡”這件事上，比傳統方法更靈活、更聰明。

　　它不是靠調參數贏的，而是把調度邏輯本身改了。

　　論文地址：

https://arxiv.org/abs/2602.16928

　　https://x.com/hasantoxr/status/2026371848217456738

　　https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/?utm_source=chatgpt.com

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

曾轟動全球，2年就倒下了

中國新聞周刊 2026-03-29 15:35:03
1 跟貼 1
140萬億Token之后：中國AI亟待從規模領先到價值躍遷

鈦媒體APP 2026-03-29 09:58:10
0 跟貼 0

國產玩家亮劍世界模型！把全模態卷到頂后，天工AI不藏了

量子位 2026-03-27 22:05:37
1 跟貼 1

你的下一批科研隊友，將是AI智能體！生物醫學研究進入智能體驅動新階段

生物世界 2026-03-29 12:06:35
1 跟貼 1
732M模型超越7B！機器人操控新范式：從視頻中「悟」物理

新智元 2026-03-27 21:37:19
0 跟貼 0

上海加碼科學智能生態建設 “養蝦熱”助推AI落地 |直擊GDPS2026

財聯社 2026-03-29 09:21:08
0 跟貼 0

大學無用？奧特曼輟學當了CEO，但名校生撐起了整個OpenAI！

36氪 2026-01-18 10:45:08
37 跟貼 37
Karpathy緊急叫停！別再喂數據了，曝AGI方向全錯

新智元 2026-03-29 09:02:44
0 跟貼 0

騰訊的AI慢戰略，能跑通嗎？

鈦媒體APP 2026-03-29 11:11:05
0 跟貼 0
從能力到商品：Skills市場正在重塑開發者的生產方式

36氪 2026-03-20 10:24:05
19 跟貼 19
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
行業首發！OpenClaw全網刷屏，ClawManager一鍵收服AI龍蝦大軍

新智元 2026-03-29 13:16:08
0 跟貼 0
百億具身智能產業五家頭部廠商創始人罕見同臺 “量產前夜”熱議數據挑戰、標準研制、投融資

財聯社 2026-03-29 11:48:16
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0
五八智能四足機器人平臺Q20A，適用于千行百業

量子位 2025-09-30 15:35:41
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
接陌生電話不要先出聲

大象新聞 2026-03-29 07:29:10
411 跟貼 411
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
機器人管家Figure 03來了，承包一切家務！

量子位 2025-10-11 10:13:00
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
算法堡壘與數字騎士：從美以伊沖突看“軍事革命”

第一財經資訊 2026-03-27 17:51:07
0 跟貼 0
對話「哈薩比斯傳」作者：“他不喜歡奧特曼”

量子位 2026-03-11 17:20:42
4 跟貼 4
明明是兩個不同的齒輪，轉起來卻能絲滑通過，這算法真絕了！

搞笑大蘑菇 2026-03-27 13:35:59
322 跟貼 322
深度｜華為 AI，迎來大變

新智元 2026-03-28 17:07:57
4 跟貼 4
那些滿級人類行為大賞，這是進化過后的人類嗎？

酒癡說夢 2026-03-25 10:41:28
521 跟貼 521
遠程開發崗競爭400人搶1個：2026年這4個策略讓你被看見

灰度測試中 2026-03-29 10:58:51
0 跟貼 0
俄警告韓國勿向烏提供致命性武器

財聯社 2026-03-29 09:30:26
9752 跟貼 9752
空間設計行業，正在被“科技能力”定義新價值｜甲子光年

甲子光年 2026-03-29 13:06:17
0 跟貼 0
新一輪造富浪潮開啟，機器人時代真的要來了！

財才說 2026-03-28 18:24:20
0 跟貼 0
美兩棲攻擊艦載3500名增援到達

每日經濟新聞 2026-03-29 08:11:32
5361 跟貼 5361
俄羅斯：擬自4月1日起禁止汽油出口優先保障俄國內市場供應

每日經濟新聞 2026-03-28 18:40:36
5633 跟貼 5633
當植物有了足夠多的時間進化，它們會變成神話故事中的妖怪嗎

趣知小故事 2026-03-26 12:47:20
1 跟貼 1
深度長文：為什么進化選擇繁衍，而非永生？

宇宙時空 2026-03-29 14:48:08
1 跟貼 1

AI前線

面向AI愛好者、開發者和科學家，提供AI領域技術資訊。

1395文章數 143關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

時尚

數碼

房產

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網友：這可能就是“王牌”

馬斯克承認xAI"建錯了"，11位創始人均離職

美軍地面戰"數周速決"方案披露 欲復刻"42天滅伊"神話

美軍地面戰"數周速決"方案披露 欲復刻"42天滅伊"神話

絕殺衛冕冠軍后，他單手指天把勝利獻給父親

張凌赫事件持續升級！官方點名怒批

Kimi、Minimax 們的算力荒

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

華為鴻蒙手機養龍蝦 何剛測試小藝Claw：支持制定運動計劃 好用！

伊姐周六熱推：電視劇《家事法庭》；電視劇《白日提燈》......

OPPO Pad mini打造小屏旗艦巔峰！搭載 8.8 英寸 2.8K 高刷屏+驍龍 8 Gen5

首日430組來訪，單日120組認籌！海口首個真四代，徹底爆了！

美軍地面戰"數周速決"方案披露欲復刻"42天滅伊"神話

美軍地面戰"數周速決"方案披露欲復刻"42天滅伊"神話

嵐圖泰山X8配置曝光四激光雷達/華為新一代座艙

華為鴻蒙手機養龍蝦何剛測試小藝Claw：支持制定運動計劃好用！