<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ?多智能體強化學習(MARL)核心概念與算法概覽

      0
      分享至

      訓練單個 RL 智能體的過程非常簡單,那么我們現在換一個場景,同時訓練五個智能體,而且每個都有自己的目標、只能看到部分信息,還能互相幫忙。

      這就是多智能體強化學習(Multi-Agent Reinforcement Learning,MARL),但是這樣會很快變得混亂。



      什么是多智能體強化學習

      MARL 是多個決策者(智能體)在同一環境中交互的強化學習。

      環境類型可以很不一樣。競爭性的,比如國際象棋,一方贏一方輸。合作性的,比如團隊運動,大家共享目標。還有混合型的,更像現實生活——現在是隊友,過會兒可能是對手,有時候兩者同時存在。

      但是這里與一個關鍵的問題:從任何一個智能體的視角看世界變成了非平穩的,因為其他智能體也在學習、在改變行為。也就是說在學規則的時候,規則本身也在變。

      MARL 在現實中的位置

      單智能體 RL 適合系統只有一個"大腦"的情況,而MARL 則出現在世界有多個"大腦"的時候。

      現實世界中有很多這樣的案例,比如交通信號控制:每個路口是一個智能體,一個信號燈"貪婪"了,下游路口就會卡死;倉庫機器人:每個機器人自己選路徑,碰撞和擁堵天然是多智能體問題;廣告競價和市場:智能體用不斷變化的策略爭奪有限資源;網絡安全:攻擊者和防御者是相互適應的智能體對;在線游戲和模擬:協調、欺騙、配合、自我對弈——這些都是MARL 的經典試驗場。

      核心概念

      大多數真實場景中,智能體只能看到狀態的一部分。所以 MARL 里的策略通常基于局部觀測,而不是完整的全局狀態。

      單智能體 RL 里環境動態是穩定的,而MARL 不一樣"環境"包括其他智能體。它們在學習,你的轉移動態也就跟著變了。

      這正是經典的 Qlearn在多智能體環境里容易震蕩、甚至崩潰的原因。

      合作任務中團隊拿到獎勵,但功勞該算誰的?團隊成功了,是智能體 2 的動作起了作用,還是智能體 5 在 10 步之前的作用?這就是信用分配問題,這是MARL 里最頭疼的實際難題之一。

      集中式與分布式

      集中訓練、分布式執行(CTDE)

      這是目前最常見的模式。訓練時智能體可以用額外信息,比如全局狀態或其他智能體的動作。執行時每個智能體只根據自己的局部觀測行動。

      這樣的好處是,既有集中學習的穩定性,又不需要在運行時獲取不現實的全局信息。

      完全分布式學習

      智能體只從局部經驗學習。這個聽起來是對的,而且簡單任務也能用。但實際中往往不夠穩定,合作任務尤其如此。

      算法總覽

      合作性基于價值的方法:Independent Q-Learning(IQL)是最簡單的基線,容易實現但通常不穩定;VDN 和 QMIX 通過混合各智能體的價值來學全局團隊價值,合作處理得更好。

      策略梯度和 Actor-Critic 方法:MADDPG 用集中式 Critic 配分布式 Actor,概念上是很好的切入點;MAPPO 在很多合作任務里是靠譜的默認選擇。

      自我對弈(Self-play):和自己不同版本對打來建立泛化的策略。思路簡單粗暴效果也很好。

      用 Python 從零搭一個小 MARL 環境

      來做個玩具游戲:兩個智能體必須協調。經典設定——兩者選同一個動作才有獎勵。每個智能體選 0 或 1,動作一致拿 +1,不一致拿 0。

      我們這里刻意設計得簡單,這樣方便我們聚焦在 MARL 機制本身。

      import random
      from collections import defaultdict
      class CoordinationGame:
      def step(self, a0, a1):
      reward = 1 if a0 == a1 else 0
      done = True # single-step episode
      return reward, done

      接下來是最小化的 Independent Q-Learning 設置,每個智能體學自己的 Q 表。這里沒有狀態,Q 只取決于動作。

      def epsilon_greedy(Q, eps=0.1):
      if random.random() < eps:
      return random.choice([0, 1])
      return 0 if Q[0] >= Q[1] else 1
      Q0 = defaultdict(float) # Q0[action]
      Q1 = defaultdict(float) # Q1[action]
      alpha = 0.1
      eps = 0.2
      env = CoordinationGame()
      for episode in range(5000):
      a0 = epsilon_greedy(Q0, eps)
      a1 = epsilon_greedy(Q1, eps)
      r, done = env.step(a0, a1)
      # One-step update (no next-state)
      Q0[a0] += alpha * (r - Q0[a0])
      Q1[a1] += alpha * (r - Q1[a1])
      # Inspect learned preferences
      print("Agent0 Q:", dict(Q0))
      print("Agent1 Q:", dict(Q1))

      多數運行會收斂到兩種"慣例"之一:兩者都學會總是選 0,或者都學會總是選 1。

      這就是協調從學習中涌現出來的樣子。雖然小但和大型合作 MARL 系統里依賴的模式是同一類東西。

      這個玩具例子太友好了。難一點的任務里,IQL 常常變得不穩定,因為每個智能體都在追一個移動靶。

      讓例子更"MARL"一點

      常見技巧是加共享團隊獎勵,同時保證足夠長的探索期來發現協調,下面是一個帶衰減 epsilon 的訓練循環:

      Q0 = defaultdict(float)
      Q1 = defaultdict(float)
      alpha = 0.1
      eps = 0.9
      eps_decay = 0.999
      eps_min = 0.05
      env = CoordinationGame()
      for episode in range(20000):
      a0 = epsilon_greedy(Q0, eps)
      a1 = epsilon_greedy(Q1, eps)
      r, _ = env.step(a0, a1)
      Q0[a0] += alpha * (r - Q0[a0])
      Q1[a1] += alpha * (r - Q1[a1])
      eps = max(eps_min, eps * eps_decay)
      print("Agent0 Q:", dict(Q0))
      print("Agent1 Q:", dict(Q1))

      這當然不會解決 MARL,但它演示了一個真實原則:早期探索幫助智能體"找到"一個穩定的協調慣例。

      總結

      一旦解決了單步協調問題,還會有三個問題會反復出現:

      虛假學習信號:智能體可能覺得"是自己動作導致了獎勵",實際上是另一個智能體的動作起了作用。

      糟糕的均衡陷阱:在競爭性游戲里,智能體可能卡在穩定但不強的弱策略上。

      規模爆炸:多智能體的狀態和動作空間膨脹很快,需要更好的函數逼近(神經網絡)、更好的訓練方案(CTDE),通常還需要更講究的環境設計。

      應對這些問題沒有萬能解法,但有一些經過驗證的思路。針對虛假學習信號,可以用 CTDE 架構讓 Critic 看到全局信息,幫助每個智能體更準確地評估自己動作的貢獻。均衡陷阱的問題,自我對弈加上一定的探索機制能幫智能體跳出局部最優。規模問題則需要參數共享、注意力機制等技術來降低復雜度。

      實際項目中,建議先在概念上理解集中式 Critic 的工作原理,不用急著寫完整的深度 RL 代碼。這一步會改變你思考可觀測性和穩定性的方式,后面上手具體算法會順暢很多。

      https://avoid.overfit.cn/post/56fb12fbb46e400180fad2999d533292

      作者:Syntal

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      悅心知足
      2026-02-21 23:03:46
      范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸掉了一生

      范元甄:與江青齊名的延安四美之一,嫁主席秘書,卻輸掉了一生

      干史人
      2026-03-05 21:06:35
      “新任指揮官瓦希迪:伊朗革命衛隊的‘冷酷無情’時代來臨!”

      “新任指揮官瓦希迪:伊朗革命衛隊的‘冷酷無情’時代來臨!”

      世界探索者探索
      2026-03-07 15:29:39
      頭號援軍到位,伊朗強勢表態!特朗普做一項決定,臺當局陷入絕望

      頭號援軍到位,伊朗強勢表態!特朗普做一項決定,臺當局陷入絕望

      野史日記
      2026-03-06 13:50:03
      身邊毀三觀的八卦,太炸裂了!不準備兩斤瓜子出不來!

      身邊毀三觀的八卦,太炸裂了!不準備兩斤瓜子出不來!

      另子維愛讀史
      2026-01-24 20:54:02
      倪萍看望漸凍癥終末期的蔡磊,稱看到蔡磊的狀態非常鼓舞自己

      倪萍看望漸凍癥終末期的蔡磊,稱看到蔡磊的狀態非常鼓舞自己

      大象新聞
      2026-03-07 14:39:03
      馬刺29分超級逆轉,小卡空砍30+9!福克斯立功,文班亞馬是頭怪獸

      馬刺29分超級逆轉,小卡空砍30+9!福克斯立功,文班亞馬是頭怪獸

      毒舌NBA
      2026-03-07 13:05:00
      新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

      新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

      千秋歷史
      2026-02-02 20:23:42
      前國腳:梅西并不是公認的球王,個人能力獨一無二,沒有超過C羅

      前國腳:梅西并不是公認的球王,個人能力獨一無二,沒有超過C羅

      夏侯看英超
      2026-03-06 21:05:17
      阿里天才少年出走,硅谷大佬砸重金搶人

      阿里天才少年出走,硅谷大佬砸重金搶人

      大佬灼見
      2026-03-06 16:20:57
      女流直播突然孩子哭鬧,被迫過去“墊一口”,網友:不行下播吧

      女流直播突然孩子哭鬧,被迫過去“墊一口”,網友:不行下播吧

      相思賦予誰a
      2026-03-05 16:09:12
      西方觀察家認為:這次的美伊以沖突會導致永久改寫臺海戰爭的規則

      西方觀察家認為:這次的美伊以沖突會導致永久改寫臺海戰爭的規則

      阿七說史
      2026-03-05 15:43:01
      岳父跟我9年,除夕夜大舅哥來接,臨走時岳父悄悄說:晚點來接我

      岳父跟我9年,除夕夜大舅哥來接,臨走時岳父悄悄說:晚點來接我

      朗威談星座
      2026-03-07 15:21:53
      陳飛宇在巴黎吃麻辣燙被偶遇!衣服破了個大洞,網友:我眼花了?

      陳飛宇在巴黎吃麻辣燙被偶遇!衣服破了個大洞,網友:我眼花了?

      木子愛娛樂大號
      2026-03-06 16:45:32
      隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

      隨著巴黎圣日耳曼爆冷1-3轟然倒下,法甲最新積分榜出爐

      側身凌空斬
      2026-03-07 06:34:39
      韓國網友瘋狂稱贊中國電影《731》配日文字幕上線YouTube!

      韓國網友瘋狂稱贊中國電影《731》配日文字幕上線YouTube!

      奮斗在韓國
      2026-03-05 13:52:04
      中國女籃戰捷克,直播頻道有變,張子宇對比劉禹彤,差距顯而易見

      中國女籃戰捷克,直播頻道有變,張子宇對比劉禹彤,差距顯而易見

      體育大學僧
      2026-03-07 11:40:15
      官方:皇馬與阿聯酋航空續約至2031年;據悉價值每年7400萬歐

      官方:皇馬與阿聯酋航空續約至2031年;據悉價值每年7400萬歐

      懂球帝
      2026-03-07 14:11:07
      F35輕松擊落伊朗戰機!看完五代機實戰發現,難怪中國殲20不出口

      F35輕松擊落伊朗戰機!看完五代機實戰發現,難怪中國殲20不出口

      黑鷹觀軍事
      2026-03-06 17:13:39
      名場面!烏克蘭大使公開拒吊唁伊朗高層,字字戳心撕破偽善面具

      名場面!烏克蘭大使公開拒吊唁伊朗高層,字字戳心撕破偽善面具

      老馬拉車莫少裝
      2026-03-06 13:45:05
      2026-03-07 17:07:00
      deephub incentive-icons
      deephub
      CV NLP和數據挖掘知識
      1940文章數 1456關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      伊朗總統:絕不可能無條件投降 向鄰國表示歉意

      頭條要聞

      伊朗總統:絕不可能無條件投降 向鄰國表示歉意

      體育要聞

      塔圖姆298天走完這段路 只用27分鐘征服這座城

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      數碼
      本地
      時尚
      旅游
      公開課

      數碼要聞

      AI存儲需求進一步增長,三星NAND閃存被曝Q2將繼續漲價

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      這些才是適合普通人的穿搭!搭配腰帶、多穿牛仔褲,簡單舒適

      旅游要聞

      警報聲中的歸途:一個義烏老板娘的中東“驚魂”之旅

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版