![]()
新智元報道
編輯:LRST
【新智元導讀】在「大模型+機器人」的浪潮中,讓機器人「聽懂人話」已經不難,真正難的是——既要聽得懂,還要走得對、走得穩。北京大學最新工作MobileVLA-R1把大模型的「鏈式思考(Chain-of-Thought)」真正搬進了四足機器人,在VLN導航仿真和真實Unitree Go2實驗中,對標GPT-4o、NaVILA等強基線,在成功率和路徑效率上實現全線提升,向「既會想、又會走」的具身智能邁出關鍵一步。
過去兩年,RT-2、OpenVLA、NaVILA等Vision-Language-Action(VLA)模型,讓機器人「能聽懂復雜自然語言指令」成為現實。但一旦落地到四足機器人上,兩大老問題依然突出:
語義和控制斷層:模型在語言上「講得通」,但落到連續控制上就開始「晃、抖、走不直」,甚至原地迷路;
決策黑盒,難以糾錯:大模型直接給出一個動作,失敗了也不知道是理解錯了,還是規劃錯了,更談不上線上調試與安全監管。
簡而言之,現在很多VLA更像是「一次性給答案的黑盒」,而不是真正能「邊想邊走」的機器人大腦。
針對這些痛點,北京大學團隊提出MobileVLA-R1,核心理念只有一句話:不再「看圖直接給動作」,而是讓機器人先生成一段可解釋的鏈式推理(CoT),再據此輸出動作。
![]()
論文鏈接:https://arxiv.org/pdf/2511.17889
項目代碼:https://github.com/AIGeeksGroup/MobileVLA-R1
項目主頁:https://aigeeksgroup.github.io/MobileVLA-R1/
![]()
MobileVLA-R1 總體架構。模型從RGB、深度和點云等多模態輸入中抽取3D場景表征,與自然語言指令對齊后,通過鏈式推理生成高層計劃與低層意圖,再由Action Decoder輸出連續控制命令,驅動四足機器人完成復雜路徑規劃與動作執行。
在Vision端,MobileVLA-R1同時接入RGB圖像、深度圖和3D點云 / 地圖等多源感知,由圖像編碼器、深度編碼器和點云編碼器提取表征,再通過統一的Projection Layer融合為時序場景表示;
在Language / Reasoning端,文本編碼器讀取自然語言指令,如「先右轉走到走廊盡頭,再到壁爐前趴下」,并與多模態場景特征對齊;在此基礎上,模型利用我們構建的多粒度鏈式推理數據集MobileVLA-CoT,把一條任務軌跡拆成
「去哪、做什么」的高層目標,
「從哪繞、先避什么」的中層規劃,
以及「當前是加速、轉向還是減速等待」的低層意圖;
在Action端,上層MobileVLA-R1模塊輸出結構化的CoT,再經由Action Decoder轉換為連續速度與轉向指令,驅動四足機器人沿著右側示例中那樣的路徑完成任務。
這樣,MobileVLA-R1更像是一個有自說服能力的機器人管家:每一步該怎么走、為何這么走,都先在「內心獨白」里解釋清楚,再交給腿腳去執行。
![]()
MobileVLA-R1在真實室內環境中的三段示例任務。從左到右分別為:區分垃圾桶和水桶;繞開紙箱到達水桶;穿過椅子間隙到達桌子前。上方展示第三人稱軌跡疊加,下方為相應視頻片段。
CoT+強化學習
把「說得對」變成「走得好」
為了讓「推理」和「控制」真正對齊,MobileVLA-R1采用了類似R1的兩階段訓練范式:先教會「會想」,再逼它「走好」。
第一步:監督階段(SFT)
先把「內心獨白」造出來。
如下左圖所示,研究人員構建了多粒度的MobileVLA-CoT 數據引擎:
既有面向單步控制的Step-CoT,也有覆蓋整條任務軌跡的Episode-CoT / Nav-CoT;
輸入同時包含RGB–Depth視覺、導航軌跡和指令文本,再交給Gemini-2.5生成結構化的 … … 鏈式推理;
通過半自動校驗,確保每一步「想法」都和動作、軌跡對得上。
在這一階段,模型通過監督微調學會像人一樣分步思考、拆解任務,也就是先學會「說得對」。
![]()
MobileVLA-CoT數據引擎。通過導航數據、Step/Episode級別視覺輸入和結構化Prompt,借助Gemini-2.5生成多粒度鏈式推理標注。
第二步:強化階段(GRPO 風格)
再把「想得清楚」變成「走得漂亮」。
研究人員在CoT之上構建了一條GRPO強化學習流水線:
對同一條指令,策略模型一次性生成多條 CoT + 動作方案;設計了三類獎勵:
Movement Reward:速度、轉向等連續控制是否接近專家軌跡;
Action Reward:離散動作選擇是否正確;
Format Reward:是否嚴格遵守 / 結構,保證推理可解析;
綜合獎勵和KL約束,只保留那些「既想得清楚、又走得好看」的策略更新模型。
相比只在文本上做獎勵,MobileVLA-R1的優化目標直接對齊到真實軌跡與動作質量,真正把「大模型式慢思考」壓進了四足機器人的行走行為中。
![]()
MobileVLA-R1的強化學習流水線。策略模型針對同一指令生成多條CoT+動作方案,結合Movement / Action / Format三類獎勵和KL約束進行GRPO更新。
從VLN仿真到真實Go2
對標GPT-4o、NaVILA全面超越
在實驗上,MobileVLA-R1覆蓋了從仿真到真實機器狗的完整評估鏈路:
在VLN-CE R2R-CE、RxR-CE等經典 Vision-and-Language Navigation 基準上,在「未見環境」下的成功率(SR)、路徑效率(SPL)均顯著高于現有導航模型和 VLA 基線;
![]()
在四足控制基準QUARD六大任務上,MobileVLA-R1將平均成功率提升至0.73,在「穿越狹窄區域、復雜繞障、貨物卸載」等高難度任務上依然保持穩定;
![]()
在真實平臺Unitree Go2上,研究人員將MobileVLA-R1部署在Jetson Orin機載計算平臺上,結合L2 LiDAR+RGB-D攝像頭+3D地圖的多模態感知,在室外街道、室內走廊等典型場景中執行長時語言指令(如「繞開垃圾桶到門口停下」「找到黑色自行車并趴在旁邊」),對比GPT-4o、NaVILA,在簡單與復雜長指令下都取得更高完成率和更低導航誤差。
![]()
下方兩個demo分別展示了MobileVLA-R1 在室內Corridor場景和室外Outdoor場景中執行長時語言指令時的真實表現。
視頻 1:室內 demo
MobileVLA-R1根據指令 「Starting from the initial position, walk forward to find a cardboard box, stop in front of it, and lie down」,在真實室內走廊中完成多模態感知(RGB/ Depth / 3D 點云)–鏈式推理–連續控制的完整閉環:自主前進、識別紙箱、在目標前精確停下并執行最終動作。
視頻 2:室外demo
MobileVLA-R1 根據指令「Turn left and slowly go up the stairs, walk straight ahead for five seconds and stop, then turn right and descend the stairs smoothly」,在真實戶外場景中完成上臺階、直行、定點停下、下臺階等連續動作,結合 RGB、深度和點云信息實現穩定的路徑規劃與地形適應能力。
如下圖和上方視頻所示,MobileVLA-R1能在真實環境中將視覺、深度和地圖信息統一到同一推理鏈路中,一邊「內心獨白式」規劃路徑,一邊穩定完成導航與避障。
![]()
MobileVLA-R1在Unitree Go2上的真實部署示意。左:機載Jetson Orin+LiDAR + RGB-D攝像頭的硬件與部署流程;右:在室外街道、室內走廊等場景中執行長時語言指令時的逐步視覺 / 深度 / 地圖可視化。
具身智能邁向
解釋得清、走得穩、可持續優化
相比現有VLA,MobileVLA-R1的意義不只在于多了幾分成功率,而是在于構建了一個更具「工程可用性」的范式:
可解釋:每個動作前都有清晰的CoT,方便線上排查和安全審計;
可優化:可以直接在CoT + 軌跡層面設計新的獎勵與人類偏好反饋;
可擴展:天然可以與3D-R1、3D CoCa等3D場景理解模型、長期記憶模塊結合,走向更大尺度的具身智能系統。
結語
從一條走廊,到更大的世界
當我們看著一只四足機器人,在擁擠的走廊里繞開行人、玻璃門和隨機放置的障礙物,聽懂「幫我把快遞送到前臺,再自己回充電樁」這樣的指令,并穩穩完成任務時,
我們看到的不只是單個模型的性能提升,而是具身智能的一次范式升級。
MobileVLA-R1告訴我們:
只要把「看懂世界」「想清路徑」「走好每一步」真正連成一條可學習、可強化的鏈,機器人距離真正的「聰明可靠」就不再那么遙遠。
參考資料:
https://arxiv.org/pdf/2511.17889
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.