網易首頁 > 網易號 > 正文申請入駐

四足機器人首次同時「思考+走路」，北大提出鏈式推理MobileVLA-R1

R1SE疑似浙江跨晚合體

2025-12-05 10:51:01　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】在「大模型+機器人」的浪潮中，讓機器人「聽懂人話」已經不難，真正難的是——既要聽得懂，還要走得對、走得穩。北京大學最新工作MobileVLA-R1把大模型的「鏈式思考（Chain-of-Thought）」真正搬進了四足機器人，在VLN導航仿真和真實Unitree Go2實驗中，對標GPT-4o、NaVILA等強基線，在成功率和路徑效率上實現全線提升，向「既會想、又會走」的具身智能邁出關鍵一步。

過去兩年，RT-2、OpenVLA、NaVILA等Vision-Language-Action（VLA）模型，讓機器人「能聽懂復雜自然語言指令」成為現實。但一旦落地到四足機器人上，兩大老問題依然突出：

語義和控制斷層：模型在語言上「講得通」，但落到連續控制上就開始「晃、抖、走不直」，甚至原地迷路；
決策黑盒，難以糾錯：大模型直接給出一個動作，失敗了也不知道是理解錯了，還是規劃錯了，更談不上線上調試與安全監管。

簡而言之，現在很多VLA更像是「一次性給答案的黑盒」，而不是真正能「邊想邊走」的機器人大腦。

針對這些痛點，北京大學團隊提出MobileVLA-R1，核心理念只有一句話：不再「看圖直接給動作」，而是讓機器人先生成一段可解釋的鏈式推理（CoT），再據此輸出動作。

論文鏈接：https://arxiv.org/pdf/2511.17889

項目代碼：https://github.com/AIGeeksGroup/MobileVLA-R1

項目主頁：https://aigeeksgroup.github.io/MobileVLA-R1/

MobileVLA-R1 總體架構。模型從RGB、深度和點云等多模態輸入中抽取3D場景表征，與自然語言指令對齊后，通過鏈式推理生成高層計劃與低層意圖，再由Action Decoder輸出連續控制命令，驅動四足機器人完成復雜路徑規劃與動作執行。

在Vision端，MobileVLA-R1同時接入RGB圖像、深度圖和3D點云 / 地圖等多源感知，由圖像編碼器、深度編碼器和點云編碼器提取表征，再通過統一的Projection Layer融合為時序場景表示；

在Language / Reasoning端，文本編碼器讀取自然語言指令，如「先右轉走到走廊盡頭，再到壁爐前趴下」，并與多模態場景特征對齊；在此基礎上，模型利用我們構建的多粒度鏈式推理數據集MobileVLA-CoT，把一條任務軌跡拆成

「去哪、做什么」的高層目標，
「從哪繞、先避什么」的中層規劃，
以及「當前是加速、轉向還是減速等待」的低層意圖；

在Action端，上層MobileVLA-R1模塊輸出結構化的CoT，再經由Action Decoder轉換為連續速度與轉向指令，驅動四足機器人沿著右側示例中那樣的路徑完成任務。

這樣，MobileVLA-R1更像是一個有自說服能力的機器人管家：每一步該怎么走、為何這么走，都先在「內心獨白」里解釋清楚，再交給腿腳去執行。

MobileVLA-R1在真實室內環境中的三段示例任務。從左到右分別為：區分垃圾桶和水桶；繞開紙箱到達水桶；穿過椅子間隙到達桌子前。上方展示第三人稱軌跡疊加，下方為相應視頻片段。

CoT+強化學習

把「說得對」變成「走得好」

為了讓「推理」和「控制」真正對齊，MobileVLA-R1采用了類似R1的兩階段訓練范式：先教會「會想」，再逼它「走好」。

第一步：監督階段（SFT）

先把「內心獨白」造出來。

如下左圖所示，研究人員構建了多粒度的MobileVLA-CoT 數據引擎：

既有面向單步控制的Step-CoT，也有覆蓋整條任務軌跡的Episode-CoT / Nav-CoT；
輸入同時包含RGB–Depth視覺、導航軌跡和指令文本，再交給Gemini-2.5生成結構化的 … … 鏈式推理；
通過半自動校驗，確保每一步「想法」都和動作、軌跡對得上。

在這一階段，模型通過監督微調學會像人一樣分步思考、拆解任務，也就是先學會「說得對」。

MobileVLA-CoT數據引擎。通過導航數據、Step/Episode級別視覺輸入和結構化Prompt，借助Gemini-2.5生成多粒度鏈式推理標注。

第二步：強化階段（GRPO 風格）

再把「想得清楚」變成「走得漂亮」。

研究人員在CoT之上構建了一條GRPO強化學習流水線：

對同一條指令，策略模型一次性生成多條 CoT + 動作方案；設計了三類獎勵：

Movement Reward：速度、轉向等連續控制是否接近專家軌跡；
Action Reward：離散動作選擇是否正確；
Format Reward：是否嚴格遵守 / 結構，保證推理可解析；

綜合獎勵和KL約束，只保留那些「既想得清楚、又走得好看」的策略更新模型。

相比只在文本上做獎勵，MobileVLA-R1的優化目標直接對齊到真實軌跡與動作質量，真正把「大模型式慢思考」壓進了四足機器人的行走行為中。

MobileVLA-R1的強化學習流水線。策略模型針對同一指令生成多條CoT+動作方案，結合Movement / Action / Format三類獎勵和KL約束進行GRPO更新。

從VLN仿真到真實Go2

對標GPT-4o、NaVILA全面超越

在實驗上，MobileVLA-R1覆蓋了從仿真到真實機器狗的完整評估鏈路：

在VLN-CE R2R-CE、RxR-CE等經典 Vision-and-Language Navigation 基準上，在「未見環境」下的成功率（SR）、路徑效率（SPL）均顯著高于現有導航模型和 VLA 基線；

在四足控制基準QUARD六大任務上，MobileVLA-R1將平均成功率提升至0.73，在「穿越狹窄區域、復雜繞障、貨物卸載」等高難度任務上依然保持穩定；

在真實平臺Unitree Go2上，研究人員將MobileVLA-R1部署在Jetson Orin機載計算平臺上，結合L2 LiDAR+RGB-D攝像頭+3D地圖的多模態感知，在室外街道、室內走廊等典型場景中執行長時語言指令（如「繞開垃圾桶到門口停下」「找到黑色自行車并趴在旁邊」），對比GPT-4o、NaVILA，在簡單與復雜長指令下都取得更高完成率和更低導航誤差。

下方兩個demo分別展示了MobileVLA-R1 在室內Corridor場景和室外Outdoor場景中執行長時語言指令時的真實表現。

視頻 1：室內 demo

MobileVLA-R1根據指令「Starting from the initial position, walk forward to find a cardboard box, stop in front of it, and lie down」，在真實室內走廊中完成多模態感知（RGB/ Depth / 3D 點云）–鏈式推理–連續控制的完整閉環：自主前進、識別紙箱、在目標前精確停下并執行最終動作。

視頻 2：室外demo

MobileVLA-R1 根據指令「Turn left and slowly go up the stairs, walk straight ahead for five seconds and stop, then turn right and descend the stairs smoothly」，在真實戶外場景中完成上臺階、直行、定點停下、下臺階等連續動作，結合 RGB、深度和點云信息實現穩定的路徑規劃與地形適應能力。

如下圖和上方視頻所示，MobileVLA-R1能在真實環境中將視覺、深度和地圖信息統一到同一推理鏈路中，一邊「內心獨白式」規劃路徑，一邊穩定完成導航與避障。

MobileVLA-R1在Unitree Go2上的真實部署示意。左：機載Jetson Orin+LiDAR + RGB-D攝像頭的硬件與部署流程；右：在室外街道、室內走廊等場景中執行長時語言指令時的逐步視覺 / 深度 / 地圖可視化。

具身智能邁向

解釋得清、走得穩、可持續優化

相比現有VLA，MobileVLA-R1的意義不只在于多了幾分成功率，而是在于構建了一個更具「工程可用性」的范式：

可解釋：每個動作前都有清晰的CoT，方便線上排查和安全審計；
可優化：可以直接在CoT + 軌跡層面設計新的獎勵與人類偏好反饋；
可擴展：天然可以與3D-R1、3D CoCa等3D場景理解模型、長期記憶模塊結合，走向更大尺度的具身智能系統。

結語

從一條走廊，到更大的世界

當我們看著一只四足機器人，在擁擠的走廊里繞開行人、玻璃門和隨機放置的障礙物，聽懂「幫我把快遞送到前臺，再自己回充電樁」這樣的指令，并穩穩完成任務時，

我們看到的不只是單個模型的性能提升，而是具身智能的一次范式升級。

MobileVLA-R1告訴我們：

只要把「看懂世界」「想清路徑」「走好每一步」真正連成一條可學習、可強化的鏈，機器人距離真正的「聰明可靠」就不再那么遙遠。

參考資料：

https://arxiv.org/pdf/2511.17889

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.