<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AlphaEvolve再進化!DeepMind用AI「養殖」算法,碾壓所有人類設計

      0
      分享至


      新智元報道

      編輯:定慧

      【新智元導讀】DeepMind最新論文:用AlphaEvolve把算法源代碼當基因組,讓Gemini充當遺傳算子,對博弈論算法進行「自然選擇」。進化出的全新算法,采用了人類研究者從未想過的反直覺機制,在幾乎所有測試博弈中碾壓人類花了幾十年設計的最優方案。AI不再只是執行算法——它開始自己發明算法了。

      谷歌DeepMind剛剛放了一個大衛星。

      他們用AlphaEvolve硬生生「繁殖」出了一批全新的博弈論算法。

      這些算法不僅在性能上全面碾壓人類花了幾十年精心設計的經典方案,更令人頭皮發麻的是:

      它們使用的底層機制,反直覺到沒有任何一個人類研究者會想到去嘗試。


      論文地址:https://arxiv.org/pdf/2602.16928

      代碼即基因組。LLM即造物主。

      這一次,AI不是在幫人類寫代碼——它在自己發明數學。


      這不是「讓ChatGPT寫個算法

      首先,框架設定至關重要。

      你可能以為這就是對著大模型說「幫我優化一下這個函數」,然后它吐出一段差不多的代碼。

      不是的。


      把Gemini當基因工程師使的進化式編碼智能體

      這是AlphaEvolve,谷歌DeepMind構建的進化式編碼智能體。

      它的工作方式,更接近于達爾文而不是程序員。

      它把算法的源代碼當作基因組(genome)。

      LLM充當遺傳算子(genetic operator),對代碼進行變異——重寫邏輯、注入新的控制流、對符號操作進行變異。

      然后,它在一組博弈論基準游戲上評估每個「后代算法」的適應度——誰的可利用度(exploitability)降得最低,誰就活下來。

      活下來的算法進入下一代,繼續被變異、評估、篩選。

      這不是提示工程。這是代碼的自然選擇。

      目標:博弈論的兩大基石算法家族

      AlphaEvolve瞄準的目標,是多智能體強化學習(MARL)中兩個最核心的算法家族:

      反事實遺憾最小化(Counterfactual Regret Minimization, CFR)策略空間響應預言(Policy Space Response Oracles, PSRO)


      如果你玩過德撲AI、或者聽說過Libratus和Pluribus那些碾壓人類撲克高手的AI——沒錯,它們的核心就是這兩樣東西。

      它們的任務是在不完全信息博弈中找到納什均衡——也就是讓每個玩家都無法通過單方面改變策略來獲得更好結果的那個「完美平衡點」。


      過去幾十年,研究者們一直在手動調參、憑直覺設計這些算法的變體:CFR+、DCFR、PCFR+、LCFR……每一個變體都是某個聰明絕頂的博弈論研究者靈光一閃的產物。

      但AlphaEvolve說:讓我來。


      為什么博弈論算法的設計這么難?

      要理解這篇論文的分量,先得明白一個背景:不完全信息博弈是AI領域最硬的骨頭之一。

      什么叫不完全信息博弈?簡單說——你不知道對手手里有什么牌。

      德州撲克、騙子骰、甚至國際談判,本質上都是這類問題。在這些場景中,你看到的只是「信息集」(information set)——一組你無法區分的博弈狀態。你的策略必須對同一信息集下的所有可能情況都做出合理回應。

      衡量一個算法好不好,博弈論有個硬核指標叫可利用度(Exploitability)。

      直覺上說,它度量的是:如果對手知道你的策略并針對性地反擊,你會虧多少。可利用度為零,意味著你的策略是納什均衡——任何對手都無法通過單方面改變策略來占你便宜,這是博弈論中的「終極境界」。

      幾十年來,研究者們為了讓算法更快地逼近納什均衡,一直在手動迭代設計。這個過程是這樣的:

      某位頂級研究者憑數學直覺觀察到一種規律 → 將其形式化為一個新的折現方案/權重函數/遺憾處理規則 → 在數學上證明收斂性 → 在幾個標準博弈上做實驗 → 發表論文

      每一步都需要人類直覺

      問題是,這些算法的設計空間是組合爆炸級別的——你怎么折現歷史遺憾?

      正遺憾和負遺憾要不要區別對待?策略平均什么時候開始?用什么權重?這些選擇的排列組合,遠超任何研究者能逐一驗證的范圍。

      論文的核心洞察在于:算法設計本質上是一個搜索問題。


      人類研究者受限于數學可推導性,大多只能在「優雅但有限」的設計空間里搜索——比如線性平均、固定折現、對稱處理。但如果把搜索空間擴展到任意可執行代碼呢?

      AlphaEvolve做的正是這件事。

      它不是在調超參數,而是在進化符號代碼(symbolic code)。

      LLM理解代碼的語義,能做出「有意義的變異」——不是隨機翻轉一個比特,而是「把這個線性調度改成指數調度」「給正遺憾加一個增強系數」「在前500次迭代跳過策略累積」。

      這讓搜索空間從人類直覺所及的幾百種可能,暴漲到LLM能觸及的幾乎無限種合理變體。

      傳統方法:人類設計算法,機器執行算法。

      AlphaEvolve:機器設計算法,機器執行算法,人類在旁邊看著驚掉下巴。


      一句話說清楚這篇論文到底干了啥

      這篇論文的故事其實特別簡單:

      想象你是一個撲克高手教練。你手下有一套打牌的策略手冊,幾十年來,全靠你和其他聰明人一條條手寫規則、反復試錯,才慢慢改進到今天的水平。

      現在,DeepMind做了一件事——他們把這本策略手冊的每一頁、每一條規則,都變成了一段可以被改寫的代碼

      然后他們放出了一個AI(AlphaEvolve),讓它像大自然培育物種一樣,不停地改寫這些規則、測試效果、淘汰差的、留下好的。

      跑了無數代之后,這個AI進化出了兩套全新的策略手冊。

      第一套叫VAD-CFR,它學會了三件人類教練從來沒想過的事:局勢混亂時果斷忘掉舊經驗,發現好招時立刻加倍下注,前500輪純學習不做總結。聽起來很奇怪對吧?但它就是比所有人類設計的方法都好用。


      第二套叫SHOR-PSRO,它學會了前期大膽試探,后期精準收網——而且訓練和考試用不同的策略,訓練時求穩,考試時求準。


      最關鍵的一點是:這些新規則不是AI從某本教科書里抄來的,而是它自己「進化」出來的。

      人類博弈論專家看到這些規則后的第一反應是——「這也行?」

      但數據不會騙人。在幾乎所有測試的博弈場景中,AI進化出來的算法都打敗了人類花了幾十年心血設計的最好方案。

      所以這篇論文真正在說的是:AI已經不只是在執行人類寫的算法了,它開始自己發明算法——而且發明得比人類還好。

      這意味著什么?

      讓我們退一步,看看這件事的全貌。

      過去,博弈論算法的進步長這樣:

      某個頂級研究者花幾個月甚至幾年時間,憑直覺和數學推導,提出一個新的折現方案或權重函數 → 在幾個博弈上驗證 → 發論文 → 社區驚呼「天才」

      現在呢?

      AlphaEvolve啟動 → Gemini對代碼進行變異 → 自動評估適應度 → 進化選擇 → 輸出一個人類研究者根本不會想到的算法 → 在11個博弈中碾壓所有前輩

      這不只是效率的提升。

      這是范式的轉換。


      論文的結論部分這樣說:

      「我們的結果表明,自動發現的算法不對稱性——特別是那些管理遺憾縮放和動態混合調度的機制——能夠產生對人類直覺而言難以捉摸、但在實踐中極其有效的求解器。」

      翻譯成人話就是:AI發現了人類想不到的數學。

      而且這些「想不到的數學」不是什么花哨的噱頭,而是實打實地在性能上統治了整個基線方陣。

      DeepMind在論文最后也給了未來方向的暗示——

      他們計劃將這個進化框架應用到深度強化學習智能體的完整設計中去,以及探索合作博弈中的機制發現。

      想象一下:不只是博弈論算法,而是讓AI進化出整個學習范式。

      代碼的「自然選擇」,這才剛剛開始。

      參考資料:

      https://x.com/rryssf_/status/2027062703144284521

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      A股跌破發行價最多的20只股票,最高的已破發92%

      A股跌破發行價最多的20只股票,最高的已破發92%

      財經智多星
      2026-03-08 07:58:38
      19分大逆轉!倫納德創歷史紀錄,快船3大新援砍53分,誕生5個現實

      19分大逆轉!倫納德創歷史紀錄,快船3大新援砍53分,誕生5個現實

      毒舌NBA
      2026-03-08 11:50:12
      三峽船閘觀測員投46萬買長江電力,持有14年,分紅+市值賺近200萬

      三峽船閘觀測員投46萬買長江電力,持有14年,分紅+市值賺近200萬

      真實人物采訪
      2026-03-07 10:55:03
      1965年,毛主席聽到特大礦產地名后,說:不好聽,我看叫攀枝花吧

      1965年,毛主席聽到特大礦產地名后,說:不好聽,我看叫攀枝花吧

      墨道榮
      2026-03-06 14:55:40
      中原丟了240年,幽云十六州丟了430年,河西丟600年,云南丟800年

      中原丟了240年,幽云十六州丟了430年,河西丟600年,云南丟800年

      掠影后有感
      2026-03-07 11:45:32
      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      特朗普沒想到:美伊大戰打醒兩個國家,一個是越南,一個是菲律賓

      東極妙嚴
      2026-03-07 12:41:17
      特朗普:打完這一仗,伊朗在地圖上可能就變樣了

      特朗普:打完這一仗,伊朗在地圖上可能就變樣了

      林子說事
      2026-03-08 10:47:39
      山東高中生被老師談話,15分鐘后離奇死亡,尸檢結果讓家人崩潰

      山東高中生被老師談話,15分鐘后離奇死亡,尸檢結果讓家人崩潰

      碎碎紀實
      2026-03-06 18:59:33
      誤拿凳子被螺螄粉潑湯后續:被同事認出,正面照全網傳,閨蜜遭殃

      誤拿凳子被螺螄粉潑湯后續:被同事認出,正面照全網傳,閨蜜遭殃

      小陸搞笑日常
      2026-03-08 05:37:47
      伊朗一座可容納12000人的體育館被摧毀,曾舉辦世界排球聯賽

      伊朗一座可容納12000人的體育館被摧毀,曾舉辦世界排球聯賽

      懂球帝
      2026-03-07 12:16:18
      遼寧鐵人球迷意難平!不僅因為0-3慘敗泰山,更是因為以下五點!

      遼寧鐵人球迷意難平!不僅因為0-3慘敗泰山,更是因為以下五點!

      田先生籃球
      2026-03-07 20:40:14
      文旅部部長:有外國游客購買40箱中國貨離境退稅,被航司罰款后發現還是劃算,手機無人機已成“中國特產”

      文旅部部長:有外國游客購買40箱中國貨離境退稅,被航司罰款后發現還是劃算,手機無人機已成“中國特產”

      極目新聞
      2026-03-07 12:57:58
      補時絕殺!榜首易主:沙特豪門登頂,瘋狂13連勝,C羅爭冠有戲

      補時絕殺!榜首易主:沙特豪門登頂,瘋狂13連勝,C羅爭冠有戲

      足球狗說
      2026-03-08 05:04:04
      周一,世界將迎來“最漫長的一天”

      周一,世界將迎來“最漫長的一天”

      新浪財經
      2026-03-08 07:44:17
      90后單親媽媽擺地攤起家年賺上千萬元:創業初期一天只睡三四個小時,今年要完成收入一個億的“小目標”

      90后單親媽媽擺地攤起家年賺上千萬元:創業初期一天只睡三四個小時,今年要完成收入一個億的“小目標”

      南國今報
      2026-03-07 18:29:43
      迪拜富婆來中國游玩,回國三天后坦言:阿聯酋跟中國差距一目了然

      迪拜富婆來中國游玩,回國三天后坦言:阿聯酋跟中國差距一目了然

      舊鐵皮往南開
      2026-03-07 16:52:44
      圖赫爾現場督戰!5 分災難級發揮,他親手把世界杯門票踢飛

      圖赫爾現場督戰!5 分災難級發揮,他親手把世界杯門票踢飛

      奶蓋熊本熊
      2026-03-08 08:16:53
      退休老黨員不交黨費行不行?3條標準,一看就懂

      退休老黨員不交黨費行不行?3條標準,一看就懂

      智慧生活筆記
      2026-03-08 09:11:59
      2026,“蔚小理”日子誰都不好過

      2026,“蔚小理”日子誰都不好過

      汽車公社
      2026-03-08 08:36:31
      19分逆轉!倫納德28+5全隊第二,加蘭末節爆發,馬瑟林21+1立大功

      19分逆轉!倫納德28+5全隊第二,加蘭末節爆發,馬瑟林21+1立大功

      魚崖大話籃球
      2026-03-08 11:48:43
      2026-03-08 11:59:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14664文章數 66667關注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      頭條要聞

      伊朗公布行動細節 有導彈配備集束彈頭均命中目標

      體育要聞

      大傷后被交易,他說:22歲的我已經死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術26.98萬起

      態度原創

      藝術
      本地
      手機
      數碼
      旅游

      藝術要聞

      他是二王書法的化身?米芾的秘密揭曉!

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      手機要聞

      麒麟9030產能火力全開!華為Mate 80系列銷量激增:已突破400萬臺

      數碼要聞

      華為PC加速鴻蒙化 上半年或推出兩款鴻蒙PC新品!

      旅游要聞

      有一億人?無錫這些地方擠爆了

      無障礙瀏覽 進入關懷版