網易首頁 > 網易號 > 正文申請入駐

BipedalWalker實戰：SAC算法如何讓機器人學會穩定行走

2025-11-30 22:31:08　來源: deephub

北京舉報

分享至

下肢假肢的控制系統設計一直是個老大難問題。傳統控制理論需要建立肢體和環境的精確數學模型，但現實世界可以不一樣，比如說地面摩擦力時刻在變，坡度各不相同，患者隨時可能絆一下。這就需要控制器具備自適應能力，能從失誤中恢復，還得在沒有顯式編程的情況下習得自然的步態模式。

強化學習給出了一條思路：讓假肢自己通過試錯"學會"走路。但是標準RL算法有個毛病，它太貪心了，找到一種能用的移動方式就死守著不放，一旦外界條件變化，整個控制策略就非常容易崩盤。

這篇文章用Soft Actor-Critic（SAC）算法解決BipedalWalker-v3環境。但這不只是跑個游戲demo那么簡單，更重要的是從生物工程視角解讀整個問題：把神經網絡對應到神經系統，把獎勵函數對應到代謝效率。

SAC的核心思想：為什么要"soft"？

常規強化學習只盯著一個目標——最大化期望累積獎勵。這種貪心策略在國際象棋這類確定性博弈里表現不錯，但放到物理控制任務上問題就非常的多了，這是因為系統動力學稍有變化，貪心策略往往直接翻車。

要理解SAC里的"軟"字，先得搞清楚Actor-Critic架構。這個框架其實模擬了人類學習運動技能的過程。打個比方：患者（Actor）在學習使用假肢，旁邊有個理療師（Critic）在觀察和指導。

Actor（策略網絡π）負責控制肢體，觀察當前狀態（關節角度、身體平衡），然后決定該怎么動。訓練初期它啥也不懂只能瞎動彈。Critic（Q函數網絡）負責評估Actor動作的質量，不直接控制肢體，只預測某個動作長期來看能拿到多少獎勵。

傳統算法里，Actor拼命想找到那個"最優解"來討好Critic。但SAC不一樣，Critic鼓勵Actor嘗試多種不同的成功路徑，不僅看結果，還看方法的多樣性。

SAC采用最大熵框架，智能體的目標變成了同時最大化期望獎勵和策略熵（隨機性）：

這里的就是熵。

這對假肢控制有什么意義？

一方面是探索機制。比如說嬰兒會用隨機運動（所謂motor babbling）來摸索肢體的運動規律。高熵保證了充分探索，避免智能體掉進"安全小碎步"的局部最優陷阱，就是那種幾乎不動、只求不摔的保守策略。另一方面是泛化性，熵最大化訓練出來的智能體掌握了一整套策略組合。某條肌肉激活路徑被干擾了？沒關系，還有備選方案。這讓步態對打滑、絆絆腳之類的意外具備容錯能力。

從仿真到臨床的映射關系

BipedalWalker-v3是個24維數字向量。但從生物工程角度看它相當于膝上假肢控制問題的簡化版。

觀察空間對應傳感器融合

Gym里的24維觀察向量可以直接對應到Otto Bock Genium這類智能假肢的傳感器配置：

軀干角度和速度對應前庭系統——"軀干"代表質心位置，硬件上用IMU（慣性測量單元）采集平衡數據。關節編碼器對應本體感覺，仿真里提供的關節角度和速度，在真實假肢上由霍爾傳感器和旋轉編碼器獲取。激光雷達對應視覺前饋，現代研究型假肢已經開始集成深度相機來預判地形。

動作空間對應執行器

智能體用[-1, 1]范圍的連續值控制髖關節和膝關節。這對應到硬件上就是直流電機的電流控制，或者氣動人工肌肉（PAMs）的壓力調節。

為什么連續控制這么重要呢？DQN這類離散算法輸出的是生硬的開關命令，SAC輸出的是連續平滑的扭矩曲線。對患者來說這可不是小事，生硬的驅動會在殘肢上產生剪切力長期下去會損傷組織。

代碼實現

以下實現改編自CleanRL并使用PyTorch搭建網絡，通過Gymnasium提供仿真環境運行。

Actor網絡：物理約束的強制執行

連續控制的一個核心挑戰是把動作限制在物理邊界內。這里用高斯策略配合tanh函數壓縮輸出，確保電機指令不會超出[?1, 1]的安全范圍。

# LOGIC: The Actor Network (from sac_bipedalwalker_enhanced.py)
def get_action(self, x):
mean, log_std = self(x)
std = log_std.exp()
# The Reparameterization Trick:
# Allows gradients to flow back through the sampling process
normal = torch.distributions.Normal(mean, std)
x_t = normal.rsample()
# Squash output to [-1, 1] for the environment limits
y_t = torch.tanh(x_t)
action = y_t * self.action_scale + self.action_bias
# Correction for the log_prob due to tanh squashing (Math detail)
log_prob = normal.log_prob(x_t)
log_prob -= torch.log(self.action_scale * (1 - y_t.pow(2)) + 1e-6)
log_prob = log_prob.sum(1, keepdim=True)
return action, log_prob, mean

注意x_t = normal.rsample()這行。看起來普普通通，實際上是整個算法的數學根基。

標準隨機策略里，采樣動作是個隨機事件，會打斷反向傳播需要的導數鏈，隨機數生成器沒法求導。重參數化技巧繞開了這個問題：不直接從分布采樣，而是先采一個標準正態噪聲ε，再用網絡輸出的均值μ和標準差σ做變換：xt = μ + σ · ε。因為ε跟網絡參數無關，μ和σ的梯度就能正常計算了，Actor網絡也就能從Critic的反饋里學到東西。沒這個技巧，連續策略根本沒法訓。

自動熵調節

早期SAC版本里，溫度參數α是固定的。α太大，智能體走路像喝醉了；α太小，又永遠學不會探索。現在的做法是把α當成可學習參數，讓智能體自己決定什么時候該收斂：

# LOGIC: Automatic Entropy Tuning (inside training loop)
if args.autotune:
with torch.no_grad():
_, log_pi, _ = actor.get_action(data.observations)
# Minimize difference between current entropy and target entropy
# target_entropy is usually -dim(Action Space)
alpha_loss = (-log_alpha.exp() * (log_pi + target_entropy)).mean()
a_optimizer.zero_grad()
alpha_loss.backward()
a_optimizer.step()
alpha = log_alpha.exp().item()

實驗結果分析

訓練跑了350k步。這里我們要看的不是最終分數多高，而是學出來的步態在生物力學上是否合理。

學習曲線的解讀

智能體一開始回報是負的，站都站不穩，跟患者剛裝上新假肢時的狀態很像。

看下面的學習曲線，藍色陰影是各episode的標準差。0-100k步階段方差很低，但這不好，因為智能體一直在失敗，每次都是秒摔。

到了150k-250k步，方差突然爆炸。這是個關鍵轉折期，智能體開始嘗試高風險策略，有時走得漂亮，有時摔得很慘。只有進入300k步之后的穩定區，均值高、方差收窄，這樣才能考慮"凍結"策略用于實際部署。方差收窄意味著策略從"碰運氣"進化到了"真會走"。

而150k步左右發生了"相變"，智能體突然開竅了，獎勵曲線急劇上升。250k步后穩定在200分以上，算是解決了這個環境。

相位圖分析

光看分數不夠，還得檢查運動學特征。下圖是髖關節的相位圖，橫軸關節角度，縱軸角速度。

紫色和藍色的散點代表早期階段，角度和速度之間毫無關聯，智能體就是在瞎蹬腿，漫無目的地探索狀態空間。

隨著訓練推進（顏色向黃綠過渡），散點開始收斂成一個封閉的軌道形狀。這在控制論和生物力學里叫極限環（Limit Cycle）。

極限環說明系統找到了穩定的周期軌道。即使遇到小擾動，系統也傾向于回到這個環上，這正是動態穩定步態的定義。這個環是從SAC目標函數里自發涌現出來的，不是顯式編程的結果。環的形狀比較光滑并且沒有鋸齒，說明Actor網絡里的tanh壓縮確實產生了平滑的扭矩曲線，避免了離散RL常見的"抖振"問題。這對假肢安全性至關重要。

能效特征

最后看Critic損失（智能體的"困惑程度"）和動作幅度（扭矩大小）的關系。

學習階段（50k-200k步），Critic損失達到峰值，智能體還在跟物理規律較勁。極限環建立后（200k步以后），動作幅度穩定下來，Critic損失也降到較低水平。

更細致地看，可以把訓練過程分成三個力學階段：

"僵住"階段（0-70k步）：動作幅度（綠線）起始值很低。智能體把關節鎖死以避免摔倒懲罰，這在運動學習里叫"共同收縮"策略。不怎么動，自然也不會摔得太慘。

"瘋狂試探"階段（70k-200k步）：Critic損失劇烈震蕩，這正是智能體開始嘗試往前走的時候。反復失敗帶來高"驚訝度"。同時動作幅度急劇攀升說明智能體意識到想走路就得狠狠發力，哪怕暫時會摔。

"熟練掌握"階段（200k步以后）：極限環形成，Critic損失驟降，智能體對物理世界不再感到意外。有意思的是動作幅度：在200k附近達到峰值后反而略有下降然后趨于平穩。這是熟練運動的典型特征，智能體學會了借力，不再每一步都用蠻力，而是順著動力學"流"起來，能量消耗得到了優化。

一個可能的改進方向是在獎勵函數里加入代謝運輸成本（COT）懲罰項，鼓勵智能體發現更"被動-動態"的步態模式，靠慣性而不是持續肌肉輸出來行走，這對延長真實假肢的電池續航很有價值。

總結

SAC算法在BipedalWalker環境中跑了350k步后，智能體從"秒摔"進化到穩定行走（200+分）。相位圖顯示髖關節運動收斂成極限環，動態穩定步態的標志。能效曲線也印證了這點：智能體最終學會借力而非蠻干。

從假肢控制角度看，SAC的最大熵框架帶來的策略多樣性是關鍵優勢，讓系統對打滑、絆腳這類意外有容錯空間。不過真要落地到Otto Bock C-Leg這類設備上，還得解決傳感器噪聲、執行延遲和安全約束的問題，域隨機化和PID安全籠是兩個可行方向。

https://avoid.overfit.cn/post/ab5860e7071441e9aab80e9876b2f45d

作者：Cristlianreal

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.