![]()
機器之心發布
機器之心編輯部
在 Physical Intelligence 最新的成果 π0.6 論文里,他們介紹了 π0.6 迭代式強化學習的思路來源:
![]()
其中有我們熟悉的 Yuke Zhu 的研究,也有他們自己(Chelsea Finn、Sergey Levine)的一些研究,我們之前對這些工作一直有跟蹤和介紹。此外,還有來自國內具身智能團隊的工作,比如清華大學、星動紀元的研究。隨著 π*0.6 的發布,VLA+online RL 成為了一個行業共識的非常有前景的研究方向(深扒了Π*0.6的論文,發現它不止于真實世界強化學習、英偉達也來做VLA在真實世界自我改進的方法了)大語言模型從SFT到RL的發展方向也逐漸在具身研究中清晰明朗。
一、為什么VLA+RL很重要
![]()
圖注:VLA模型依賴研讀微調
在具身智能(Embodied AI)領域,科學家們正在嘗試將強大的視覺-語言模型(VLM)應用到機器人的底層控制中,這就是所謂的VLA模型。通常,這些模型是通過模仿人類專家的示范數據(監督微調,SFT)來學習的。
![]()
圖注:模仿學習的局限
但是,僅靠模仿是不夠的。如果機器人遇到了從未見過的情況,或者專家數據不夠完美,機器人就會不知所措。
而正如我們在深扒了Π*0.6的論文,發現它不止于真實世界強化學習所說的,模仿學習能讓機器人成功做出動作,但是讓它每次都成功是非常難的。如果想讓機器人非常魯棒、持久的工作,需要借助強化學習的力量。相較于離線強化學習通常受限于演示數據的質量,模型很難超越提供數據的專家,在線 RL 允許智能體通過試錯來發現更優解
二、強化學習應用在VLA的三大難點?
![]()
圖注:VLA RL的難點
理論上,強化學習(RL)可以讓機器人通過與環境互動、試錯來持續進步,但是這其實不是一件容易的事情
![]()
圖注:LLM和具身在RL上的區別
將類似 GPT 這樣的大模型與強化學習結合(如 RLHF)在聊天機器人領域非常成功,但在控制物理機器人時卻困難重重:
- 環境差異:聊天機器人是在離線數據集上訓練的,而機器人需要在物理世界中實時探索。物理任務通常周期長、獎勵稀疏(做完一整套動作才算成功),這使得學習非常困難。
- 模型坍塌與不穩定性:研究發現,如果直接對巨大的 VLA 模型(數十億參數)進行在線強化學習,模型很容易出現“災難性遺忘”或訓練崩潰,導致性能甚至不如微調前。
- 算力負擔:在本地機器上對幾十億參數的模型進行全量梯度的強化學習更新,對硬件要求極高,通常超出了本地機器人控制器的算力極限。
三、星動紀元 iRe-VLA 最先突破 VLA 強化學習困境,也是 π*0.6 的引用來源
對于VLA的強化學習困境,行業內其實有三種類型的解決方案:
- 第一種:外掛式干預:一些嘗試不敢輕易觸碰龐大的 VLA 參數。比如V-GPS (Value-Guided Policy Steering)訓練一個通用的價值函數,在推理時,讓 VLA 生成多個候選動作,用價值函數對它們進行打分和重排序,選擇最好的動作執行;DSRL訓練一個小型的 RL 策略來優化擴散模型的輸入噪聲,通過改變輸入噪聲來“引導”凍結的 VLA 生成高價值動作。這種方法雖然安全,但 VLA沒有真正發生質變。
- 第二種:暴力美學:VLAC為代表的工作嘗試直接用 PPO 等算法全量微調 VLA。雖然勇氣可嘉,但大模型在 RL 訓練中極易出現災難性遺忘和模型坍塌(Model Collapse),且對算力的要求很高。
- 第三種是從探索到內化的循環。讓我們眼前一亮的是一篇以前沒有跟蹤過的,清華和UC Berkeley的《Improving Vision-Language-Action Model with Online Reinforcement Learning》(通過在線強化學習改進視覺-語言-動作模型),來自于清華大學助理教授、星動紀元創始人陳建宇老師組。星動紀元這項研究是全球最早將在線RL引入VLA的工作,在ICRA發表,π*0.6 也引用了該工作,是中美兩方在RL上的頂尖對話。
這兩篇文章代表了第三種路徑。它們不再盲目地套用 RL 算法,而是利用監督微調(SFT)將 RL 探索出的高價值行為(成功軌跡或高優勢動作)穩定地內化為模型的原生能力。
π*0.6 不在此詳細贅述。我們來看下 iRe-VLA。
![]()
- 論文:Improving Vision-Language-Action Model with Online Reinforcement Learning
- 論文鏈接:https://arxiv.org/abs/2501.16664
iRe-VLA 的作者設計了一個兩階段循環迭代的學習流程。這個流程的核心思想是:分而治之,動靜結合。
星動紀元:iRe-VLA 模型架構設計
VLA 模型由兩部分組成:
VLM 主干(大腦):使用預訓練的大型視覺-語言模型(如 BLIP-2),負責理解圖像和指令,擁有豐富的世界知識。
Action Head(四肢):一個輕量級的動作輸出層(由 Token Learner 和 MLP 構成),負責將 VLM 的深層特征轉化為具體的機器人控制信號(如機械臂的移動、夾爪的開合)。
為了提高效率,作者還使用了LoRA(低秩適應)技術,避免全量微調所有參數。
![]()
圖注:模型架構
核心流程:兩個階段的交替
iRe-VLA 方法不是一次性訓練,而是在以下兩個階段中反復迭代:
第一階段:在線強化學習(探索與發現)
![]()
圖注:穩定探索
在這個階段,機器人的目標是去試錯,探索如何完成新任務。
- 凍結大腦(Freeze VLM):為了防止模型崩潰和減少計算量,作者凍結了巨大的 VLM 主干參數。
- 只練四肢(Train Action Head):僅訓練輕量級的 Action Head。同時引入一個Critic Head(評價網絡)來輔助訓練。
- 優勢:因為只更新很少的參數,訓練非常穩定,而且計算量很小,可以在本地機器(如單張 4090 顯卡)上高效運行。機器人通過不斷嘗試,找到了一些能夠成功完成任務的軌跡(Success Trajectories)。
第二階段:監督學習(鞏固與內化)
在第一階段,機器人可能只是碰巧學會了操作,為了讓這種能力真正融入模型,需要進行第二階段。
![]()
圖注:融合與升華
- 全模型微調:解凍 VLM 主干,對整個模型(包括 LoRA 參數)進行訓練。
- 混合數據:訓練數據不僅包含第一階段探索到的新成功軌跡,還混合了原始的專家示范數據。
- 優勢:這不僅利用了大模型的強大表達能力來記住新技能,還因為混合了舊數據,有效防止了災難性遺忘(即學會了新任務,忘了舊任務)。這一步計算量大,通常放在云端服務器(如 A100 集群)上進行。
![]()
圖注:兩階段
總結:機器人先在“小參數模式”下大膽探索(階段1),找到方法后,再在“全參數模式”下把經驗固化到大腦中(階段2),如此循環往復。
![]()
圖注:循環往復
三、 實驗結果與分析
![]()
圖注:三種情況的實驗結果分析
作者在仿真環境(MetaWorld, Franka Kitchen)和真實世界(Panda 機械臂)中進行了大量實驗,驗證了該方法的有效性。
訓練穩定性對比
實驗顯示,如果使用標準的 PPO 算法直接微調 VLA 模型,成功率曲線震蕩劇烈,甚至在很多任務上性能下降(變差了)。而 iRe-VLA 的曲線則穩步上升,證明了“分階段凍結參數”對于穩定訓練至關重要。
![]()
圖注:曲線對比
仿真環境表現
![]()
圖注:仿真環境中具備壓倒性優勢
MetaWorld & Franka Kitchen:在這些基準測試中,iRe-VLA 不僅在原本學過的任務上表現更好(例如從 43% 提升到 83%),還能通過在線探索學會完全沒見過的任務。
對比 SFT:相比僅進行監督微調的模型,經過 iRe-VLA 迭代后的模型在所有任務類別(專家任務、RL 訓練任務、未見過的測試任務)上的成功率都有顯著提升。
![]()
圖注:不同后訓練策略的對比
真實世界挑戰(Real-World Panda)
這是最令人印象深刻的部分。作者讓機器人去抓取它從未見過的物體(如形狀不規則的茄子、胡蘿卜)。
![]()
圖注:真實世界的提升
- 初始狀態:僅靠專家數據(SFT),機器人抓取這些新物體的成功率只有 35% 左右。
- 訓練后:經過 iRe-VLA 的在線學習(利用 SACfD 算法提高樣本效率),抓取成功率飆升到了 80%。
- 泛化能力:更有趣的是,訓練后的模型去抓取完全未參與訓練的第三類物體,成功率也從 37% 提升到了 61%。這說明通過強化學習,模型不僅學會了抓茄子,還變得更聰明、更通用了。
![]()
圖注:實驗和成功率
消融實驗:為什么要解凍 VLM?
作者做了一個對比實驗:如果在第二階段依然凍結 VLM,只訓練 Action Head(即 iRe-VLA-freeze),效果如何?
結果顯示,如果不解凍 VLM,模型的性能提升會遇到瓶頸。這證明了在第二階段解凍大模型參數是必要的,這樣才能利用大模型深層的特征表示能力來徹底掌握復雜技能,并提升泛化性。
![]()
圖注:消融實驗
四、 結論與意義
這篇文章提出了一種切實可行的方案,解決了大模型在機器人控制中落地難的問題。
- 穩定性:解決了大模型直接上 RL 容易訓崩的問題。
- 經濟性:巧妙地分配了算力,讓本地機器人負責輕量級探索,云端服務器負責重量級消化,符合實際部署場景。
- 持續學習:證明了機器人可以通過自我探索,在不遺忘舊技能的前提下,不斷掌握新物體和新任務的操作技能。
![]()
圖注:該架構的優點
國內的星動紀元的iRe-VLA 的基礎上,海外的PI π*0.6,都為我們揭示出了VLA在線強化學習技術的發展前景。這條路還有很多未盡的研究話題,比如如何高效探索與稀疏獎勵下的新技能學習,如何面向大規模 VLA 構造穩定可擴展 RL 算法等。
未來發展,我們拭目以待。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.