<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      BipedalWalker實戰:SAC算法如何讓機器人學會穩定行走

      0
      分享至

      下肢假肢的控制系統設計一直是個老大難問題。傳統控制理論需要建立肢體和環境的精確數學模型,但現實世界可以不一樣,比如說地面摩擦力時刻在變,坡度各不相同,患者隨時可能絆一下。這就需要控制器具備自適應能力,能從失誤中恢復,還得在沒有顯式編程的情況下習得自然的步態模式。



      強化學習給出了一條思路:讓假肢自己通過試錯"學會"走路。但是標準RL算法有個毛病,它太貪心了,找到一種能用的移動方式就死守著不放,一旦外界條件變化,整個控制策略就非常容易崩盤。

      這篇文章用Soft Actor-Critic(SAC)算法解決BipedalWalker-v3環境。但這不只是跑個游戲demo那么簡單,更重要的是從生物工程視角解讀整個問題:把神經網絡對應到神經系統,把獎勵函數對應到代謝效率。

      SAC的核心思想:為什么要"soft"?

      常規強化學習只盯著一個目標——最大化期望累積獎勵。這種貪心策略在國際象棋這類確定性博弈里表現不錯,但放到物理控制任務上問題就非常的多了,這是因為系統動力學稍有變化,貪心策略往往直接翻車。

      要理解SAC里的"軟"字,先得搞清楚Actor-Critic架構。這個框架其實模擬了人類學習運動技能的過程。打個比方:患者(Actor)在學習使用假肢,旁邊有個理療師(Critic)在觀察和指導。

      Actor(策略網絡π)負責控制肢體,觀察當前狀態(關節角度、身體平衡),然后決定該怎么動。訓練初期它啥也不懂只能瞎動彈。Critic(Q函數網絡)負責評估Actor動作的質量,不直接控制肢體,只預測某個動作長期來看能拿到多少獎勵。

      傳統算法里,Actor拼命想找到那個"最優解"來討好Critic。但SAC不一樣,Critic鼓勵Actor嘗試多種不同的成功路徑,不僅看結果,還看方法的多樣性。

      SAC采用最大熵框架,智能體的目標變成了同時最大化期望獎勵和策略熵(隨機性):



      這里的就是熵。

      這對假肢控制有什么意義?

      一方面是探索機制。比如說嬰兒會用隨機運動(所謂motor babbling)來摸索肢體的運動規律。高熵保證了充分探索,避免智能體掉進"安全小碎步"的局部最優陷阱,就是那種幾乎不動、只求不摔的保守策略。另一方面是泛化性,熵最大化訓練出來的智能體掌握了一整套策略組合。某條肌肉激活路徑被干擾了?沒關系,還有備選方案。這讓步態對打滑、絆絆腳之類的意外具備容錯能力。

      從仿真到臨床的映射關系

      BipedalWalker-v3是個24維數字向量。但從生物工程角度看它相當于膝上假肢控制問題的簡化版。

      觀察空間對應傳感器融合

      Gym里的24維觀察向量可以直接對應到Otto Bock Genium這類智能假肢的傳感器配置:



      軀干角度和速度對應前庭系統——"軀干"代表質心位置,硬件上用IMU(慣性測量單元)采集平衡數據。關節編碼器對應本體感覺,仿真里提供的關節角度和速度,在真實假肢上由霍爾傳感器和旋轉編碼器獲取。激光雷達對應視覺前饋,現代研究型假肢已經開始集成深度相機來預判地形。

      動作空間對應執行器

      智能體用[-1, 1]范圍的連續值控制髖關節和膝關節。這對應到硬件上就是直流電機的電流控制,或者氣動人工肌肉(PAMs)的壓力調節。

      為什么連續控制這么重要呢?DQN這類離散算法輸出的是生硬的開關命令,SAC輸出的是連續平滑的扭矩曲線。對患者來說這可不是小事,生硬的驅動會在殘肢上產生剪切力長期下去會損傷組織。

      代碼實現

      以下實現改編自CleanRL并使用PyTorch搭建網絡,通過Gymnasium提供仿真環境運行。

      Actor網絡:物理約束的強制執行

      連續控制的一個核心挑戰是把動作限制在物理邊界內。這里用高斯策略配合tanh函數壓縮輸出,確保電機指令不會超出[?1, 1]的安全范圍。

      # LOGIC: The Actor Network (from sac_bipedalwalker_enhanced.py)
      def get_action(self, x):
      mean, log_std = self(x)
      std = log_std.exp()
      # The Reparameterization Trick:
      # Allows gradients to flow back through the sampling process
      normal = torch.distributions.Normal(mean, std)
      x_t = normal.rsample()
      # Squash output to [-1, 1] for the environment limits
      y_t = torch.tanh(x_t)
      action = y_t * self.action_scale + self.action_bias
      # Correction for the log_prob due to tanh squashing (Math detail)
      log_prob = normal.log_prob(x_t)
      log_prob -= torch.log(self.action_scale * (1 - y_t.pow(2)) + 1e-6)
      log_prob = log_prob.sum(1, keepdim=True)
      return action, log_prob, mean

      注意x_t = normal.rsample()這行。看起來普普通通,實際上是整個算法的數學根基。

      標準隨機策略里,采樣動作是個隨機事件,會打斷反向傳播需要的導數鏈,隨機數生成器沒法求導。重參數化技巧繞開了這個問題:不直接從分布采樣,而是先采一個標準正態噪聲ε,再用網絡輸出的均值μ和標準差σ做變換:xt = μ + σ · ε。因為ε跟網絡參數無關,μ和σ的梯度就能正常計算了,Actor網絡也就能從Critic的反饋里學到東西。沒這個技巧,連續策略根本沒法訓。

      自動熵調節

      早期SAC版本里,溫度參數α是固定的。α太大,智能體走路像喝醉了;α太小,又永遠學不會探索。現在的做法是把α當成可學習參數,讓智能體自己決定什么時候該收斂:

      # LOGIC: Automatic Entropy Tuning (inside training loop)
      if args.autotune:
      with torch.no_grad():
      _, log_pi, _ = actor.get_action(data.observations)
      # Minimize difference between current entropy and target entropy
      # target_entropy is usually -dim(Action Space)
      alpha_loss = (-log_alpha.exp() * (log_pi + target_entropy)).mean()
      a_optimizer.zero_grad()
      alpha_loss.backward()
      a_optimizer.step()
      alpha = log_alpha.exp().item()

      實驗結果分析

      訓練跑了350k步。這里我們要看的不是最終分數多高,而是學出來的步態在生物力學上是否合理。

      學習曲線的解讀

      智能體一開始回報是負的,站都站不穩,跟患者剛裝上新假肢時的狀態很像。

      看下面的學習曲線,藍色陰影是各episode的標準差。0-100k步階段方差很低,但這不好,因為智能體一直在失敗,每次都是秒摔。

      到了150k-250k步,方差突然爆炸。這是個關鍵轉折期,智能體開始嘗試高風險策略,有時走得漂亮,有時摔得很慘。只有進入300k步之后的穩定區,均值高、方差收窄,這樣才能考慮"凍結"策略用于實際部署。方差收窄意味著策略從"碰運氣"進化到了"真會走"。



      而150k步左右發生了"相變",智能體突然開竅了,獎勵曲線急劇上升。250k步后穩定在200分以上,算是解決了這個環境。

      相位圖分析

      光看分數不夠,還得檢查運動學特征。下圖是髖關節的相位圖,橫軸關節角度,縱軸角速度。



      紫色和藍色的散點代表早期階段,角度和速度之間毫無關聯,智能體就是在瞎蹬腿,漫無目的地探索狀態空間。

      隨著訓練推進(顏色向黃綠過渡),散點開始收斂成一個封閉的軌道形狀。這在控制論和生物力學里叫極限環(Limit Cycle)。

      極限環說明系統找到了穩定的周期軌道。即使遇到小擾動,系統也傾向于回到這個環上,這正是動態穩定步態的定義。這個環是從SAC目標函數里自發涌現出來的,不是顯式編程的結果。環的形狀比較光滑并且沒有鋸齒,說明Actor網絡里的tanh壓縮確實產生了平滑的扭矩曲線,避免了離散RL常見的"抖振"問題。這對假肢安全性至關重要。

      能效特征

      最后看Critic損失(智能體的"困惑程度")和動作幅度(扭矩大小)的關系。



      學習階段(50k-200k步),Critic損失達到峰值,智能體還在跟物理規律較勁。極限環建立后(200k步以后),動作幅度穩定下來,Critic損失也降到較低水平。

      更細致地看,可以把訓練過程分成三個力學階段:

      "僵住"階段(0-70k步):動作幅度(綠線)起始值很低。智能體把關節鎖死以避免摔倒懲罰,這在運動學習里叫"共同收縮"策略。不怎么動,自然也不會摔得太慘。

      "瘋狂試探"階段(70k-200k步):Critic損失劇烈震蕩,這正是智能體開始嘗試往前走的時候。反復失敗帶來高"驚訝度"。同時動作幅度急劇攀升說明智能體意識到想走路就得狠狠發力,哪怕暫時會摔。

      "熟練掌握"階段(200k步以后):極限環形成,Critic損失驟降,智能體對物理世界不再感到意外。有意思的是動作幅度:在200k附近達到峰值后反而略有下降然后趨于平穩。這是熟練運動的典型特征,智能體學會了借力,不再每一步都用蠻力,而是順著動力學"流"起來,能量消耗得到了優化。

      一個可能的改進方向是在獎勵函數里加入代謝運輸成本(COT)懲罰項,鼓勵智能體發現更"被動-動態"的步態模式,靠慣性而不是持續肌肉輸出來行走,這對延長真實假肢的電池續航很有價值。

      總結

      SAC算法在BipedalWalker環境中跑了350k步后,智能體從"秒摔"進化到穩定行走(200+分)。相位圖顯示髖關節運動收斂成極限環,動態穩定步態的標志。能效曲線也印證了這點:智能體最終學會借力而非蠻干。

      從假肢控制角度看,SAC的最大熵框架帶來的策略多樣性是關鍵優勢,讓系統對打滑、絆腳這類意外有容錯空間。不過真要落地到Otto Bock C-Leg這類設備上,還得解決傳感器噪聲、執行延遲和安全約束的問題,域隨機化和PID安全籠是兩個可行方向。

      https://avoid.overfit.cn/post/ab5860e7071441e9aab80e9876b2f45d

      作者:Cristlianreal

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗最大“內鬼”被抓?革命衛隊:勾結以色列,指揮官卡尼被拘!

      伊朗最大“內鬼”被抓?革命衛隊:勾結以色列,指揮官卡尼被拘!

      青青子衿
      2026-03-05 11:57:03
      打瘋了!東契奇首節狂轟22+5三分 生涯30次單節20+升歷史第四

      打瘋了!東契奇首節狂轟22+5三分 生涯30次單節20+升歷史第四

      醉臥浮生
      2026-03-07 12:13:33
      伊拉克庫爾德第一夫人宣言:我們不是任人驅使的炮灰!

      伊拉克庫爾德第一夫人宣言:我們不是任人驅使的炮灰!

      勝研集
      2026-03-06 13:44:23
      廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

      廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

      明智家庭教育
      2026-03-06 17:19:16
      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬斷了俄羅斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      “不想為以色列賣命”:帝國最后的遮羞布,美式民主終成笑話

      “不想為以色列賣命”:帝國最后的遮羞布,美式民主終成笑話

      怪口歷史的K先生
      2026-03-06 15:22:51
      為何關閉霍爾木茲海峽就能掐全球脖子?因為伊朗原油是全世界最好的

      為何關閉霍爾木茲海峽就能掐全球脖子?因為伊朗原油是全世界最好的

      風向觀察
      2026-03-06 21:31:15
      兩會不到3天,5大好消息傳來!老百姓暗暗叫好:希望國家盡快落實

      兩會不到3天,5大好消息傳來!老百姓暗暗叫好:希望國家盡快落實

      談史論天地
      2026-03-07 06:54:29
      1979年,張國燾凍死在養老院,許世友:除了主席,沒人是他的對手

      1979年,張國燾凍死在養老院,許世友:除了主席,沒人是他的對手

      文史季季紅
      2026-03-05 13:35:03
      寫入教科書的一天:F-35在德黑蘭完成全球首次實戰空對空擊殺

      寫入教科書的一天:F-35在德黑蘭完成全球首次實戰空對空擊殺

      斌聞天下
      2026-03-06 07:30:03
      伊方:因美以襲擊喪生的伊朗人三成為青少年

      伊方:因美以襲擊喪生的伊朗人三成為青少年

      環球網資訊
      2026-03-07 06:39:29
      為什么美國的華人華裔地位那么低 網友從各方面分析 真就那樣

      為什么美國的華人華裔地位那么低 網友從各方面分析 真就那樣

      侃神評故事
      2026-03-06 07:10:03
      我包養過一個女大學生,七年花了一千多萬

      我包養過一個女大學生,七年花了一千多萬

      煙火人間故事匯
      2026-03-06 23:05:03
      性壓抑已經變態至此了?

      性壓抑已經變態至此了?

      黯泉
      2026-03-07 11:28:43
      蘿莉島,是進入核心圈層的投名狀,你猜他們為什么都穿紅皮鞋

      蘿莉島,是進入核心圈層的投名狀,你猜他們為什么都穿紅皮鞋

      百曉生談歷史
      2026-03-05 22:00:08
      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      妍妍教育日記
      2026-03-07 08:45:06
      伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

      伊朗萬萬沒想到,自家王牌武器遭到破解,美軍多了一張底牌

      空天力量
      2026-03-06 13:09:18
      上次被發現還是1911年!上海寶山驚現1只,專家:可能是坐船來的

      上次被發現還是1911年!上海寶山驚現1只,專家:可能是坐船來的

      萬象硬核本尊
      2026-03-06 23:54:22
      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      回旋鏢
      2026-03-06 21:13:59
      塔圖姆復出15分12板7助攻凱爾特人大勝獨行俠,布朗24分7板7助

      塔圖姆復出15分12板7助攻凱爾特人大勝獨行俠,布朗24分7板7助

      湖人崛起
      2026-03-07 10:25:09
      2026-03-07 13:43:00
      deephub incentive-icons
      deephub
      CV NLP和數據挖掘知識
      1940文章數 1456關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      房產
      數碼
      藝術
      手機
      親子

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      數碼要聞

      蘋果M5 Pro芯片GeekBench跑分曝光:多核破2.8萬

      藝術要聞

      Mark Grantham | 城市街景

      手機要聞

      歐加驍龍8系小平板4月來襲,Find X9系列配件已備好!

      親子要聞

      六個月寶寶查出散光,原因竟是父母長期身旁玩手機,媽媽懵了:我一直以為他閉著眼就沒事

      無障礙瀏覽 進入關懷版