![]()
新智元報(bào)道
編輯:LRST
【新智元導(dǎo)讀】在經(jīng)濟(jì)學(xué)和博弈論的世界里,找到「納什均衡」往往意味著找到了復(fù)雜局勢(shì)下的最優(yōu)解。多所頂尖高校的研究人員開發(fā)出了一位名為PrimeNash的「AI數(shù)學(xué)家」,不僅能像人類專家一樣推導(dǎo)公式,還能解決許多連傳統(tǒng)算法都束手無策的復(fù)雜博弈難題,成果已發(fā)表在Cell Press旗下的交叉學(xué)科期刊Nexus上。
納什均衡作為博弈論中最核心的解概念,廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)及工程領(lǐng)域,用于預(yù)測(cè)多方策略互動(dòng)下的穩(wěn)定結(jié)果。然而,在現(xiàn)實(shí)世界中,許多博弈場(chǎng)景具有高維度策略空間、跨期依賴關(guān)系以及不連續(xù)、非凸的收益函數(shù)。在這種復(fù)雜的現(xiàn)實(shí)博弈中推導(dǎo)解析形式的納什均衡,面臨著巨大的計(jì)算挑戰(zhàn)。
現(xiàn)有的求解方法各有局限性:解析法依賴于不動(dòng)點(diǎn)定理,雖然精確但難以擴(kuò)展至高維或復(fù)雜動(dòng)態(tài)場(chǎng)景;數(shù)值方法(如蒙特卡洛模擬)雖然靈活,但往往缺乏嚴(yán)謹(jǐn)?shù)氖諗勘WC,且其結(jié)果如同「黑盒」般難以解釋;而基于機(jī)器學(xué)習(xí)的方法(如強(qiáng)化學(xué)習(xí))雖擅長處理高維問題,卻常受困于參數(shù)敏感性與泛化能力的不足。因此,學(xué)術(shù)界與工業(yè)界亟需一種兼具可擴(kuò)展性、透明度與數(shù)學(xué)嚴(yán)謹(jǐn)性的全新計(jì)算范式。隨著大語言模型的崛起,其強(qiáng)大的邏輯推理與代碼生成能力為自動(dòng)化博弈分析開啟了新紀(jì)元。
近日,香港中文大學(xué)(深圳)趙俊華教授、黃建偉教授與葉立新教授團(tuán)隊(duì),聯(lián)合南洋理工大學(xué)、耶魯大學(xué)、美國西北大學(xué)等多所頂尖高校的研究人員,在Cell Press旗下的交叉學(xué)科期刊《Nexus》上發(fā)表了一項(xiàng)重要研究成果。
![]()
論文鏈接:doi:10.1016/j.ynexs.2025.100107
該團(tuán)隊(duì)開發(fā)了一個(gè)名為PrimeNash的大語言模型智能體框架,這是首個(gè)能夠自動(dòng)推導(dǎo)納什均衡閉式解析解并生成機(jī)器可驗(yàn)證證明的系統(tǒng)。
該研究展示了AI智能體不僅能夠模擬人類專家的邏輯推理,還能有效解決傳統(tǒng)算法難以處理的高維、非凸及動(dòng)態(tài)博弈難題。
三階段閉環(huán)框架
整體架構(gòu)與模塊交互
如圖1所示,PrimeNash框架模擬了人類數(shù)學(xué)家的科研路徑,將求解過程解構(gòu)為三個(gè)由LLM驅(qū)動(dòng)的核心模塊:策略生成模塊(SGM)、策略評(píng)估模塊(SEM)和均衡證明模塊(EPM)。
![]()
圖1 PrimeNash模塊交互概述框圖
工作流始于結(jié)構(gòu)化的提示詞,用于定義博弈的玩家、策略空間與規(guī)則。
SGM負(fù)責(zé)生成多樣化的候選策略,SEM基于博弈論原理對(duì)策略進(jìn)行多維度打分與篩選,EPM則執(zhí)行嚴(yán)格的符號(hào)推導(dǎo)與驗(yàn)證。若驗(yàn)證未通過,系統(tǒng)會(huì)觸發(fā)反饋機(jī)制,指導(dǎo)前序模塊進(jìn)行自我修正,直至找到通過嚴(yán)格數(shù)學(xué)檢驗(yàn)的閉式解。
策略生成:多智能體并行與提示增強(qiáng)推理
為了克服單一視角的局限,SGM采用了多智能體并行的策略。如圖2所示,多個(gè)策略生成智能體同時(shí)工作,以探索廣闊的策略空間。
為了提升生成質(zhì)量,PrimeNash引入了提示增強(qiáng)推理技術(shù)。系統(tǒng)會(huì)自動(dòng)從預(yù)設(shè)數(shù)據(jù)庫中檢索相似博弈的解題模版(如博弈論中的相關(guān)定理、最佳響應(yīng)函數(shù)等),輔助智能體更好地理解博弈結(jié)構(gòu)。
此外,智能體并非僅依靠內(nèi)部推演,它們被授權(quán)調(diào)用Python等外部工具執(zhí)行復(fù)雜計(jì)算,并結(jié)合反思機(jī)制對(duì)生成結(jié)果進(jìn)行自我審查與修正。這一過程確保了輸出的策略在邏輯與數(shù)值上具備初步的合理性,為后續(xù)評(píng)估奠定了基礎(chǔ)。
![]()
圖2 策略生成模塊(SGM)智能體設(shè)計(jì)、工作流以及提示增強(qiáng)架構(gòu)
策略評(píng)估與均衡證明:從候選到嚴(yán)謹(jǐn)驗(yàn)證
如圖3所示,SEM模塊充當(dāng)了嚴(yán)格篩選器的角色。該模塊包含評(píng)分智能體和評(píng)估智能體。評(píng)分智能體基于預(yù)定義的博弈論指標(biāo)(如策略一致性、穩(wěn)定性等)對(duì)候選策略進(jìn)行打分,評(píng)估智能體則綜合得分最高的策略,將其精煉為均衡候選者。
隨后,EPM模塊接手進(jìn)行最終的數(shù)學(xué)驗(yàn)證。EPM不依賴模糊估算,而是執(zhí)行嚴(yán)格的符號(hào)推導(dǎo),應(yīng)用最佳響應(yīng)定理或卡羅什-庫恩-塔克(KKT)條件來驗(yàn)證納什均衡條件。對(duì)于動(dòng)態(tài)博弈,EPM還會(huì)驗(yàn)證子博弈完美均衡等更高級(jí)的概念。一旦證明失敗,具體的失敗原因(如未滿足一階條件)將被精準(zhǔn)反饋給上游模塊,驅(qū)動(dòng)系統(tǒng)在下一輪迭代中逼近最終結(jié)果。這種設(shè)計(jì)保證了結(jié)果的可解釋性與可審計(jì)性。
![]()
圖3 策略評(píng)估(SEM)和均衡證明(EPM)模塊架構(gòu)
詳細(xì)結(jié)果
經(jīng)典博弈驗(yàn)證
為了驗(yàn)證系統(tǒng)的魯棒性,研究團(tuán)隊(duì)選取了7個(gè)涵蓋不同動(dòng)態(tài)特征、信息結(jié)構(gòu)與均衡類型的經(jīng)典博弈問題作為「試金石」。
如表1所示,實(shí)驗(yàn)結(jié)果令人振奮:PrimeNash 成功求解了所有的靜態(tài)博弈;在動(dòng)態(tài)博弈方面,在設(shè)定極高標(biāo)準(zhǔn)(即必須獲得符號(hào)閉式解且通過自動(dòng)均衡校驗(yàn))的前提下,成功率依然達(dá)到了70%。這證明了 PrimeNash 并非只能處理特定問題,而是具備了通用的博弈求解能力。
![]()
表1 典型博弈問題求解匯總
此外,如圖4所示,論文以雙寡頭Stackelberg博弈為例,展示框架如何通過標(biāo)準(zhǔn)化提示詞把玩家、行動(dòng)、收益與規(guī)則轉(zhuǎn)化為機(jī)器可處理的格式,并生成均衡表達(dá)式、求解步驟與對(duì)應(yīng)Python代碼。
![]()
圖4 雙寡頭Stackelberg博弈求解架構(gòu)
碳市場(chǎng)動(dòng)態(tài)博弈
PrimeNash的真正威力在于解決現(xiàn)實(shí)世界的復(fù)雜難題。論文以碳排放權(quán)交易市場(chǎng)為例,展示了其在復(fù)雜動(dòng)態(tài)博弈中的應(yīng)用潛力。研究構(gòu)建了一個(gè)包含四個(gè)季度交易期的動(dòng)態(tài)博弈模型,利用逆向歸納法(Backward Induction) 求解。在此案例中,PrimeNash產(chǎn)出了該領(lǐng)域首個(gè)被嚴(yán)格證明的碳市場(chǎng)閉式解析解。如圖5所示,模型不僅推導(dǎo)出了公式,更復(fù)現(xiàn)了真實(shí)的某些市場(chǎng)現(xiàn)象:
期末價(jià)格波動(dòng): 模擬顯示,碳價(jià)在第1-3期維持低位(約18.65 CNY/t),卻在第4期履約截止前急劇飆升至74.71 CNY/t。這種「翹尾效應(yīng)」與現(xiàn)實(shí)市場(chǎng)中企業(yè)的履約焦慮高度一致。
大型國企的市場(chǎng)影響力: 分析揭示了大型國有企業(yè)如何利用其市場(chǎng)地位調(diào)節(jié)供需,從而影響價(jià)格走勢(shì)。
政策杠桿R-value: 論文深入探討了政策參數(shù) R-value(跨期持有激勵(lì))的作用。當(dāng) R-value 較高時(shí),企業(yè)傾向于囤積配額以期未來升值,導(dǎo)致當(dāng)期供給收縮、價(jià)格上漲;反之則會(huì)釋放流動(dòng)性。
以上量化洞見為政策制定者提供了有力的工具,通過調(diào)整參數(shù)或監(jiān)管臨近截止期的交易,可以有效平抑市場(chǎng)投機(jī),維持價(jià)格穩(wěn)定。
![]()
圖5 碳市場(chǎng)博弈問題的動(dòng)態(tài)均衡特征
論文總結(jié)
PrimeNash作為首個(gè)基于LLM智能體的納什均衡解析求解框架,成功建立了「策略生成—收益評(píng)估—均衡證明」的模塊化閉環(huán),將閉式Nash均衡推導(dǎo)從依賴專家的手工工作轉(zhuǎn)化為可復(fù)現(xiàn)、可審計(jì)的計(jì)算流程。
該框架通過多智能體推理、符號(hào)代碼執(zhí)行與形式化驗(yàn)證,能夠有效處理高維策略、跨期遞歸以及不連續(xù)、非凸收益等難題。在七類經(jīng)典模型的測(cè)試中,PrimeNash實(shí)現(xiàn)了對(duì)靜態(tài)博弈的全面求解與對(duì)動(dòng)態(tài)博弈的高比例成功求解。
特別是在碳市場(chǎng)競(jìng)價(jià)博弈案例中,PrimeNash不僅給出了可證明的閉式均衡解,還能復(fù)現(xiàn)履約期末波動(dòng)等關(guān)鍵現(xiàn)象,并將R value等機(jī)制參數(shù)與市場(chǎng)穩(wěn)定性建立了可解釋的聯(lián)系,為市場(chǎng)設(shè)計(jì)與氣候政策分析提供了一種透明、可檢驗(yàn)的量化工具,標(biāo)志著AI驅(qū)動(dòng)的科學(xué)發(fā)現(xiàn)在博弈論與經(jīng)濟(jì)學(xué)領(lǐng)域邁出了重要一步。
研究團(tuán)隊(duì)介紹
論文第一作者為南洋理工大學(xué)柳文軒博士,香港中文大學(xué)(深圳)趙俊華教授為本文的通訊作者,南洋理工大學(xué)周茜緣、悉尼大學(xué)王馨蕾和香港中文大學(xué)(深圳)程裕恒是本文共同第一作者,香港中文大學(xué)(深圳)黃建偉教授是本文共同通訊作者。本文其它合作者包括香港中文大學(xué)(深圳)葉立新教授、美國西北大學(xué)Randall Berry教授及耶魯大學(xué)Leandros Tassiulas教授。
趙俊華教授領(lǐng)銜的人工智能-能源-經(jīng)濟(jì)交叉學(xué)科創(chuàng)新團(tuán)隊(duì)致力于解決大模型智能體算法、能源系統(tǒng)、電力市場(chǎng)、碳市場(chǎng)領(lǐng)域的前沿基礎(chǔ)性科學(xué)問題和關(guān)鍵技術(shù),旨在通過學(xué)科交叉實(shí)現(xiàn)從主體到系統(tǒng)層面的整體解決方案,推動(dòng)相關(guān)領(lǐng)域取得突破性進(jìn)展。近年來在Joule、Nature Communications、Scientific Data、Nexus等國際期刊上發(fā)表系列多學(xué)科交叉論文。
參考資料:
doi:10.1016/j.ynexs.2025.100107
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.