<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全球強化學習+VLA范式,PI*0.6背后都有這家中國公司技術伏筆

      0
      分享至



      機器之心發布

      機器之心編輯部

      在 Physical Intelligence 最新的成果 π0.6 論文里,他們介紹了 π0.6 迭代式強化學習的思路來源:



      其中有我們熟悉的 Yuke Zhu 的研究,也有他們自己(Chelsea Finn、Sergey Levine)的一些研究,我們之前對這些工作一直有跟蹤和介紹。此外,還有來自國內具身智能團隊的工作,比如清華大學、星動紀元的研究。隨著 π*0.6 的發布,VLA+online RL 成為了一個行業共識的非常有前景的研究方向(深扒了Π*0.6的論文,發現它不止于真實世界強化學習、英偉達也來做VLA在真實世界自我改進的方法了)大語言模型從SFT到RL的發展方向也逐漸在具身研究中清晰明朗。

      一、為什么VLA+RL很重要



      圖注:VLA模型依賴研讀微調

      在具身智能(Embodied AI)領域,科學家們正在嘗試將強大的視覺-語言模型(VLM)應用到機器人的底層控制中,這就是所謂的VLA模型。通常,這些模型是通過模仿人類專家的示范數據(監督微調,SFT)來學習的。



      圖注:模仿學習的局限

      但是,僅靠模仿是不夠的。如果機器人遇到了從未見過的情況,或者專家數據不夠完美,機器人就會不知所措。

      而正如我們在深扒了Π*0.6的論文,發現它不止于真實世界強化學習所說的,模仿學習能讓機器人成功做出動作,但是讓它每次都成功是非常難的。如果想讓機器人非常魯棒、持久的工作,需要借助強化學習的力量。相較于離線強化學習通常受限于演示數據的質量,模型很難超越提供數據的專家,在線 RL 允許智能體通過試錯來發現更優解

      二、強化學習應用在VLA的三大難點?



      圖注:VLA RL的難點

      理論上,強化學習(RL)可以讓機器人通過與環境互動、試錯來持續進步,但是這其實不是一件容易的事情



      圖注:LLM和具身在RL上的區別

      將類似 GPT 這樣的大模型與強化學習結合(如 RLHF)在聊天機器人領域非常成功,但在控制物理機器人時卻困難重重:

      • 環境差異:聊天機器人是在離線數據集上訓練的,而機器人需要在物理世界中實時探索。物理任務通常周期長、獎勵稀疏(做完一整套動作才算成功),這使得學習非常困難。
      • 模型坍塌與不穩定性:研究發現,如果直接對巨大的 VLA 模型(數十億參數)進行在線強化學習,模型很容易出現“災難性遺忘”或訓練崩潰,導致性能甚至不如微調前。
      • 算力負擔:在本地機器上對幾十億參數的模型進行全量梯度的強化學習更新,對硬件要求極高,通常超出了本地機器人控制器的算力極限。

      三、星動紀元 iRe-VLA 最先突破 VLA 強化學習困境,也是 π*0.6 的引用來源

      對于VLA的強化學習困境,行業內其實有三種類型的解決方案:

      • 第一種:外掛式干預:一些嘗試不敢輕易觸碰龐大的 VLA 參數。比如V-GPS (Value-Guided Policy Steering)訓練一個通用的價值函數,在推理時,讓 VLA 生成多個候選動作,用價值函數對它們進行打分和重排序,選擇最好的動作執行;DSRL訓練一個小型的 RL 策略來優化擴散模型的輸入噪聲,通過改變輸入噪聲來“引導”凍結的 VLA 生成高價值動作。這種方法雖然安全,但 VLA沒有真正發生質變。
      • 第二種:暴力美學:VLAC為代表的工作嘗試直接用 PPO 等算法全量微調 VLA。雖然勇氣可嘉,但大模型在 RL 訓練中極易出現災難性遺忘和模型坍塌(Model Collapse),且對算力的要求很高。
      • 第三種是從探索到內化的循環。讓我們眼前一亮的是一篇以前沒有跟蹤過的,清華和UC Berkeley的《Improving Vision-Language-Action Model with Online Reinforcement Learning》(通過在線強化學習改進視覺-語言-動作模型),來自于清華大學助理教授、星動紀元創始人陳建宇老師組。星動紀元這項研究是全球最早將在線RL引入VLA的工作,在ICRA發表,π*0.6 也引用了該工作,是中美兩方在RL上的頂尖對話。

      這兩篇文章代表了第三種路徑。它們不再盲目地套用 RL 算法,而是利用監督微調(SFT)將 RL 探索出的高價值行為(成功軌跡或高優勢動作)穩定地內化為模型的原生能力。

      π*0.6 不在此詳細贅述。我們來看下 iRe-VLA。



      • 論文:Improving Vision-Language-Action Model with Online Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2501.16664

      iRe-VLA 的作者設計了一個兩階段循環迭代的學習流程。這個流程的核心思想是:分而治之,動靜結合。

      星動紀元:iRe-VLA 模型架構設計

      VLA 模型由兩部分組成:

      VLM 主干(大腦):使用預訓練的大型視覺-語言模型(如 BLIP-2),負責理解圖像和指令,擁有豐富的世界知識。

      Action Head(四肢):一個輕量級的動作輸出層(由 Token Learner 和 MLP 構成),負責將 VLM 的深層特征轉化為具體的機器人控制信號(如機械臂的移動、夾爪的開合)。

      為了提高效率,作者還使用了LoRA(低秩適應)技術,避免全量微調所有參數。



      圖注:模型架構

      核心流程:兩個階段的交替

      iRe-VLA 方法不是一次性訓練,而是在以下兩個階段中反復迭代:

      第一階段:在線強化學習(探索與發現)



      圖注:穩定探索

      在這個階段,機器人的目標是去試錯,探索如何完成新任務。

      • 凍結大腦(Freeze VLM):為了防止模型崩潰和減少計算量,作者凍結了巨大的 VLM 主干參數。
      • 只練四肢(Train Action Head):僅訓練輕量級的 Action Head。同時引入一個Critic Head(評價網絡)來輔助訓練。
      • 優勢:因為只更新很少的參數,訓練非常穩定,而且計算量很小,可以在本地機器(如單張 4090 顯卡)上高效運行。機器人通過不斷嘗試,找到了一些能夠成功完成任務的軌跡(Success Trajectories)。

      第二階段:監督學習(鞏固與內化)

      在第一階段,機器人可能只是碰巧學會了操作,為了讓這種能力真正融入模型,需要進行第二階段。



      圖注:融合與升華

      • 全模型微調:解凍 VLM 主干,對整個模型(包括 LoRA 參數)進行訓練。
      • 混合數據:訓練數據不僅包含第一階段探索到的新成功軌跡,還混合了原始的專家示范數據。
      • 優勢:這不僅利用了大模型的強大表達能力來記住新技能,還因為混合了舊數據,有效防止了災難性遺忘(即學會了新任務,忘了舊任務)。這一步計算量大,通常放在云端服務器(如 A100 集群)上進行。



      圖注:兩階段

      總結:機器人先在“小參數模式”下大膽探索(階段1),找到方法后,再在“全參數模式”下把經驗固化到大腦中(階段2),如此循環往復。



      圖注:循環往復

      三、 實驗結果與分析



      圖注:三種情況的實驗結果分析

      作者在仿真環境(MetaWorld, Franka Kitchen)和真實世界(Panda 機械臂)中進行了大量實驗,驗證了該方法的有效性。

      訓練穩定性對比

      實驗顯示,如果使用標準的 PPO 算法直接微調 VLA 模型,成功率曲線震蕩劇烈,甚至在很多任務上性能下降(變差了)。而 iRe-VLA 的曲線則穩步上升,證明了“分階段凍結參數”對于穩定訓練至關重要。



      圖注:曲線對比

      仿真環境表現



      圖注:仿真環境中具備壓倒性優勢

      MetaWorld & Franka Kitchen:在這些基準測試中,iRe-VLA 不僅在原本學過的任務上表現更好(例如從 43% 提升到 83%),還能通過在線探索學會完全沒見過的任務。

      對比 SFT:相比僅進行監督微調的模型,經過 iRe-VLA 迭代后的模型在所有任務類別(專家任務、RL 訓練任務、未見過的測試任務)上的成功率都有顯著提升。



      圖注:不同后訓練策略的對比

      真實世界挑戰(Real-World Panda)

      這是最令人印象深刻的部分。作者讓機器人去抓取它從未見過的物體(如形狀不規則的茄子、胡蘿卜)。



      圖注:真實世界的提升

      • 初始狀態:僅靠專家數據(SFT),機器人抓取這些新物體的成功率只有 35% 左右。
      • 訓練后:經過 iRe-VLA 的在線學習(利用 SACfD 算法提高樣本效率),抓取成功率飆升到了 80%。
      • 泛化能力:更有趣的是,訓練后的模型去抓取完全未參與訓練的第三類物體,成功率也從 37% 提升到了 61%。這說明通過強化學習,模型不僅學會了抓茄子,還變得更聰明、更通用了。



      圖注:實驗和成功率

      消融實驗:為什么要解凍 VLM?

      作者做了一個對比實驗:如果在第二階段依然凍結 VLM,只訓練 Action Head(即 iRe-VLA-freeze),效果如何?

      結果顯示,如果不解凍 VLM,模型的性能提升會遇到瓶頸。這證明了在第二階段解凍大模型參數是必要的,這樣才能利用大模型深層的特征表示能力來徹底掌握復雜技能,并提升泛化性。



      圖注:消融實驗

      四、 結論與意義

      這篇文章提出了一種切實可行的方案,解決了大模型在機器人控制中落地難的問題。

      • 穩定性:解決了大模型直接上 RL 容易訓崩的問題。
      • 經濟性:巧妙地分配了算力,讓本地機器人負責輕量級探索,云端服務器負責重量級消化,符合實際部署場景。
      • 持續學習:證明了機器人可以通過自我探索,在不遺忘舊技能的前提下,不斷掌握新物體和新任務的操作技能。



      圖注:該架構的優點

      國內的星動紀元的iRe-VLA 的基礎上,海外的PI π*0.6,都為我們揭示出了VLA在線強化學習技術的發展前景。這條路還有很多未盡的研究話題,比如如何高效探索與稀疏獎勵下的新技能學習,如何面向大規模 VLA 構造穩定可擴展 RL 算法等。

      未來發展,我們拭目以待。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鄭麗文被反將一軍,盧秀燕突然宣示2028,野心大發叫囂“國家論”

      鄭麗文被反將一軍,盧秀燕突然宣示2028,野心大發叫囂“國家論”

      策略述
      2025-12-05 17:00:01
      中國人民大學上新“人大紅”超絨羽絨服,四口之家優惠套餐1798元,部分款已斷碼,“人大剛子”上陣“帶貨”

      中國人民大學上新“人大紅”超絨羽絨服,四口之家優惠套餐1798元,部分款已斷碼,“人大剛子”上陣“帶貨”

      極目新聞
      2025-12-11 19:16:41
      40萬人連夜逃亡,洪森拿出了坑佩通坦的招數,但泰國不會再上當

      40萬人連夜逃亡,洪森拿出了坑佩通坦的招數,但泰國不會再上當

      呂璐說
      2025-12-10 19:04:39
      為何印度對吞并斯里蘭卡毫無興趣?那是你不知道印度吃了多大的虧

      為何印度對吞并斯里蘭卡毫無興趣?那是你不知道印度吃了多大的虧

      徐慍解說
      2025-12-10 19:02:31
      裝修公司中標近6億軍火采購案,朱立倫子弟兵批臺軍頭子避重就輕

      裝修公司中標近6億軍火采購案,朱立倫子弟兵批臺軍頭子避重就輕

      海峽導報社
      2025-12-11 15:08:05
      巴薩,自家王牌倒貼錢都要留下,你還猶豫個啥?

      巴薩,自家王牌倒貼錢都要留下,你還猶豫個啥?

      小魏談局勢維度
      2025-12-12 14:48:01
      古畫里,常出現一位手持寶劍提著頭顱的女子,她是誰?

      古畫里,常出現一位手持寶劍提著頭顱的女子,她是誰?

      收藏大視界
      2025-12-10 20:39:32
      2026央視春晚主題官宣僅1天,三大惡心情況發生了,陳佩斯沒說錯

      2026央視春晚主題官宣僅1天,三大惡心情況發生了,陳佩斯沒說錯

      觀察鑒娛
      2025-12-11 08:55:39
      建行回應轉賬備注狗狗幣被鎖

      建行回應轉賬備注狗狗幣被鎖

      新浪財經
      2025-12-11 14:19:32
      這世上最后悔的事,可能就是當年俄羅斯把蘇-30賣給我們。

      這世上最后悔的事,可能就是當年俄羅斯把蘇-30賣給我們。

      荊楚寰宇文樞
      2025-12-11 21:53:46
      比亞迪正建造有史以來最大的工業綜合體

      比亞迪正建造有史以來最大的工業綜合體

      喜之春
      2025-12-11 06:37:06
      一高校原院長,違規為其女操辦婚宴

      一高校原院長,違規為其女操辦婚宴

      南方都市報
      2025-12-12 10:57:41
      這就是真實的香港九龍寨城:并非電視劇場景,圖9場景令人作嘔

      這就是真實的香港九龍寨城:并非電視劇場景,圖9場景令人作嘔

      大壯實驗室
      2025-07-26 14:54:37
      討厭一個人,其實不用翻臉的,最有水平的處理方式是:森田理論

      討厭一個人,其實不用翻臉的,最有水平的處理方式是:森田理論

      德魯克博雅管理
      2025-12-09 17:05:19
      和而泰:公司生產經營一切正常,不存在應披露而未披露的情形

      和而泰:公司生產經營一切正常,不存在應披露而未披露的情形

      每日經濟新聞
      2025-12-12 15:58:08
      GPT-5.2果然反超谷歌Gemini 3 Pro!北大數院校友核心貢獻

      GPT-5.2果然反超谷歌Gemini 3 Pro!北大數院校友核心貢獻

      量子位
      2025-12-12 12:49:03
      拿1億年薪!32歲中超舊將在沙特罷訓 要求俱樂部為他聘請家政人員

      拿1億年薪!32歲中超舊將在沙特罷訓 要求俱樂部為他聘請家政人員

      我愛英超
      2025-12-12 02:35:57
      最新 | 剛剛,天津終于下雪了!

      最新 | 剛剛,天津終于下雪了!

      天津廣播
      2025-12-12 13:41:24
      日本職場,擠滿了破產的老年人……

      日本職場,擠滿了破產的老年人……

      陳天宇
      2025-11-23 01:02:46
      2026屆1270萬畢業生,考研暴跌國考破紀錄,今年真是最好就業年?

      2026屆1270萬畢業生,考研暴跌國考破紀錄,今年真是最好就業年?

      Hi科普啦
      2025-12-11 12:10:08
      2025-12-12 17:24:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11905文章數 142509關注度
      往期回顧 全部

      科技要聞

      凌晨突發!GPT-5.2上線,首批實測感受來了

      頭條要聞

      員工下班踢了老板兩腳 救了老板一命

      頭條要聞

      員工下班踢了老板兩腳 救了老板一命

      體育要聞

      15輪2分,他們怎么成了英超最爛球隊?

      娛樂要聞

      濮存昕外孫女演短劇遭吐槽

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      插混四驅法拉利?849 Testarossa國內發布516.8萬起

      態度原創

      手機
      教育
      房產
      健康
      時尚

      手機要聞

      警示燈亮起:11月美國自越南進口的智能手機規模降至五年來最低

      教育要聞

      女生申請攻讀博士,導師卻建議她直接工作,原因令人唏噓

      房產要聞

      封關倒數!單月狂銷80套,三亞這個全能盤,閉眼入!

      甲狀腺結節到這個程度,該穿刺了!

      為何她們穿得很普通,卻很有氛圍感?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕美人妻亅u乚一596| 熟女免费| 东台市| 成人做爰视频www| 强行糟蹋人妻hd中文字幕| 欧美国产精品啪啪| 久久久久久久久熟女AV| 一本一道人妻久久综合无码| 97人妻精品一区二区三区视频蜜桃0.0.0.| 欧美freesex精品| 国产自产av一区二区三区性色| 美女网站免费福利视频| 日韩精品国产另类专区| 中文字幕亚洲成人| 1024欧美日韩| 久久九九国产精品| 97久久超碰国产精品2021| 国产精品一区二区三区蜜臀| 碰碰免费视频| 濉溪县| 亚洲伊人成无码综合网| 日韩 欧美 亚洲 一区二区| 亚洲中文字幕2022| 一本大道人妻中字幕在线视频 | 中文字幕日韩精品亚洲一区| 97色频道| 人妻少妇无码精品| 日本丶国产丶欧美色综合| 精品无码一区二区三区爱欲| 国产精品无码天天爽视频| 亚州欧美中文日韩| 欧美牲交videossexeso欧美| 国产99视频精品免费视频76| 国产综合无码一区二区色蜜蜜| 成在线人午夜剧场免费无码| 波多野结衣AV不卡无码| 成人亚洲天堂| 午夜免费视频| 国产色无码专区在线观看| 内射自拍| 亚洲熟女综合色一区二区三区|