![]()
新智元報道
編輯:定慧
【新智元導讀】DeepMind最新論文:用AlphaEvolve把算法源代碼當基因組,讓Gemini充當遺傳算子,對博弈論算法進行「自然選擇」。進化出的全新算法,采用了人類研究者從未想過的反直覺機制,在幾乎所有測試博弈中碾壓人類花了幾十年設計的最優方案。AI不再只是執行算法——它開始自己發明算法了。
谷歌DeepMind剛剛放了一個大衛星。
他們用AlphaEvolve硬生生「繁殖」出了一批全新的博弈論算法。
這些算法不僅在性能上全面碾壓人類花了幾十年精心設計的經典方案,更令人頭皮發麻的是:
它們使用的底層機制,反直覺到沒有任何一個人類研究者會想到去嘗試。
![]()
論文地址:https://arxiv.org/pdf/2602.16928
代碼即基因組。LLM即造物主。
這一次,AI不是在幫人類寫代碼——它在自己發明數學。
![]()
這不是「讓ChatGPT寫個算法」
首先,框架設定至關重要。
你可能以為這就是對著大模型說「幫我優化一下這個函數」,然后它吐出一段差不多的代碼。
不是的。
![]()
把Gemini當基因工程師使的進化式編碼智能體
這是AlphaEvolve,谷歌DeepMind構建的進化式編碼智能體。
它的工作方式,更接近于達爾文而不是程序員。
它把算法的源代碼當作基因組(genome)。
LLM充當遺傳算子(genetic operator),對代碼進行變異——重寫邏輯、注入新的控制流、對符號操作進行變異。
然后,它在一組博弈論基準游戲上評估每個「后代算法」的適應度——誰的可利用度(exploitability)降得最低,誰就活下來。
活下來的算法進入下一代,繼續被變異、評估、篩選。
這不是提示工程。這是代碼的自然選擇。
目標:博弈論的兩大基石算法家族
AlphaEvolve瞄準的目標,是多智能體強化學習(MARL)中兩個最核心的算法家族:
反事實遺憾最小化(Counterfactual Regret Minimization, CFR)和策略空間響應預言(Policy Space Response Oracles, PSRO)。
![]()
如果你玩過德撲AI、或者聽說過Libratus和Pluribus那些碾壓人類撲克高手的AI——沒錯,它們的核心就是這兩樣東西。
它們的任務是在不完全信息博弈中找到納什均衡——也就是讓每個玩家都無法通過單方面改變策略來獲得更好結果的那個「完美平衡點」。
![]()
過去幾十年,研究者們一直在手動調參、憑直覺設計這些算法的變體:CFR+、DCFR、PCFR+、LCFR……每一個變體都是某個聰明絕頂的博弈論研究者靈光一閃的產物。
但AlphaEvolve說:讓我來。
![]()
為什么博弈論算法的設計這么難?
要理解這篇論文的分量,先得明白一個背景:不完全信息博弈是AI領域最硬的骨頭之一。
什么叫不完全信息博弈?簡單說——你不知道對手手里有什么牌。
德州撲克、騙子骰、甚至國際談判,本質上都是這類問題。在這些場景中,你看到的只是「信息集」(information set)——一組你無法區分的博弈狀態。你的策略必須對同一信息集下的所有可能情況都做出合理回應。
衡量一個算法好不好,博弈論有個硬核指標叫可利用度(Exploitability)。
直覺上說,它度量的是:如果對手知道你的策略并針對性地反擊,你會虧多少。可利用度為零,意味著你的策略是納什均衡——任何對手都無法通過單方面改變策略來占你便宜,這是博弈論中的「終極境界」。
幾十年來,研究者們為了讓算法更快地逼近納什均衡,一直在手動迭代設計。這個過程是這樣的:
某位頂級研究者憑數學直覺觀察到一種規律 → 將其形式化為一個新的折現方案/權重函數/遺憾處理規則 → 在數學上證明收斂性 → 在幾個標準博弈上做實驗 → 發表論文
每一步都需要人類直覺。
問題是,這些算法的設計空間是組合爆炸級別的——你怎么折現歷史遺憾?
正遺憾和負遺憾要不要區別對待?策略平均什么時候開始?用什么權重?這些選擇的排列組合,遠超任何研究者能逐一驗證的范圍。
論文的核心洞察在于:算法設計本質上是一個搜索問題。
![]()
人類研究者受限于數學可推導性,大多只能在「優雅但有限」的設計空間里搜索——比如線性平均、固定折現、對稱處理。但如果把搜索空間擴展到任意可執行代碼呢?
AlphaEvolve做的正是這件事。
它不是在調超參數,而是在進化符號代碼(symbolic code)。
LLM理解代碼的語義,能做出「有意義的變異」——不是隨機翻轉一個比特,而是「把這個線性調度改成指數調度」「給正遺憾加一個增強系數」「在前500次迭代跳過策略累積」。
這讓搜索空間從人類直覺所及的幾百種可能,暴漲到LLM能觸及的幾乎無限種合理變體。
傳統方法:人類設計算法,機器執行算法。
AlphaEvolve:機器設計算法,機器執行算法,人類在旁邊看著驚掉下巴。
![]()
一句話說清楚這篇論文到底干了啥
這篇論文的故事其實特別簡單:
想象你是一個撲克高手教練。你手下有一套打牌的策略手冊,幾十年來,全靠你和其他聰明人一條條手寫規則、反復試錯,才慢慢改進到今天的水平。
現在,DeepMind做了一件事——他們把這本策略手冊的每一頁、每一條規則,都變成了一段可以被改寫的代碼。
然后他們放出了一個AI(AlphaEvolve),讓它像大自然培育物種一樣,不停地改寫這些規則、測試效果、淘汰差的、留下好的。
跑了無數代之后,這個AI進化出了兩套全新的策略手冊。
第一套叫VAD-CFR,它學會了三件人類教練從來沒想過的事:局勢混亂時果斷忘掉舊經驗,發現好招時立刻加倍下注,前500輪純學習不做總結。聽起來很奇怪對吧?但它就是比所有人類設計的方法都好用。
![]()
第二套叫SHOR-PSRO,它學會了前期大膽試探,后期精準收網——而且訓練和考試用不同的策略,訓練時求穩,考試時求準。
![]()
最關鍵的一點是:這些新規則不是AI從某本教科書里抄來的,而是它自己「進化」出來的。
人類博弈論專家看到這些規則后的第一反應是——「這也行?」
但數據不會騙人。在幾乎所有測試的博弈場景中,AI進化出來的算法都打敗了人類花了幾十年心血設計的最好方案。
所以這篇論文真正在說的是:AI已經不只是在執行人類寫的算法了,它開始自己發明算法——而且發明得比人類還好。
這意味著什么?
讓我們退一步,看看這件事的全貌。
過去,博弈論算法的進步長這樣:
某個頂級研究者花幾個月甚至幾年時間,憑直覺和數學推導,提出一個新的折現方案或權重函數 → 在幾個博弈上驗證 → 發論文 → 社區驚呼「天才」
現在呢?
AlphaEvolve啟動 → Gemini對代碼進行變異 → 自動評估適應度 → 進化選擇 → 輸出一個人類研究者根本不會想到的算法 → 在11個博弈中碾壓所有前輩
這不只是效率的提升。
這是范式的轉換。
![]()
論文的結論部分這樣說:
「我們的結果表明,自動發現的算法不對稱性——特別是那些管理遺憾縮放和動態混合調度的機制——能夠產生對人類直覺而言難以捉摸、但在實踐中極其有效的求解器。」
翻譯成人話就是:AI發現了人類想不到的數學。
而且這些「想不到的數學」不是什么花哨的噱頭,而是實打實地在性能上統治了整個基線方陣。
DeepMind在論文最后也給了未來方向的暗示——
他們計劃將這個進化框架應用到深度強化學習智能體的完整設計中去,以及探索合作博弈中的機制發現。
想象一下:不只是博弈論算法,而是讓AI進化出整個學習范式。
代碼的「自然選擇」,這才剛剛開始。
參考資料:
https://x.com/rryssf_/status/2027062703144284521
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.