VLA引入本體狀態(tài)，機器人隨時掉鏈子？人大北航攻克難題ICLR26

2026-03-08 15:23:28　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導(dǎo)讀】人大與北航團隊發(fā)現(xiàn)：機器人在動作切換時，視覺常被本體感覺「壓制」而失效。他們提出GAP算法，動態(tài)削弱本體信號的訓(xùn)練權(quán)重，讓視覺重獲學(xué)習(xí)機會，顯著提升機器人精準(zhǔn)操作能力。

本體感覺信息能夠提供機器人狀態(tài)的實時反饋，其與視覺信息的協(xié)同被普遍認(rèn)為有助于提升機器人在復(fù)雜操縱任務(wù)中的性能。

然而，近期研究在視覺–本體感覺策略的泛化能力方面報告了不一致的觀察結(jié)果：有的策略受益于視覺本體覺的聯(lián)合，而有的卻比純視覺策略表現(xiàn)更差——視覺-本體操縱策略究竟何時會「掉鏈子」？

近日，人大高瓴GeWu-Lab與北京航空航天大學(xué)聯(lián)合團隊對該問題進(jìn)行了系統(tǒng)性研究，發(fā)現(xiàn)在操縱任務(wù)的運動轉(zhuǎn)變階段，視覺-本體策略中的視覺模態(tài)「失效」了！

為此，研究團隊提出了基于階段引導(dǎo)的梯度調(diào)整算法（Gradient Adjustment with Phase-guidance，GAP），該研究論文為機器人操縱中視覺-本體感覺策略的設(shè)計與發(fā)展提供了有價值的見解，并已被ICLR 2026接收。

項目主頁：https://gewu-lab.github.io/GAP/

代碼倉庫：https://github.com/GeWu-Lab/GAP

論文鏈接：https://arxiv.org/abs/2602.12032

研究背景

隨著深度學(xué)習(xí)的發(fā)展，研究者們開始將本體感覺信息（如關(guān)節(jié)位置、速度等）引入基于視覺的機器人操縱策略。視覺負(fù)責(zé)「看」，本體覺負(fù)責(zé)「感」，兩者的協(xié)同被認(rèn)為有助于提升策略在復(fù)雜環(huán)境中的泛化能力，讓機器人不僅能在熟悉場景中穩(wěn)定操作，也能在任務(wù)條件變化時靈活應(yīng)對。

然而，現(xiàn)實卻開了個玩笑。多篇研究表明，有時加入了本體信息的策略反而比純視覺策略表現(xiàn)更差。

這一現(xiàn)象并非個例，而是在不同環(huán)境、不同任務(wù)中均有出現(xiàn)（圖1左）。

這些發(fā)現(xiàn)讓人困惑：視覺-本體策略究竟何時會失敗？是模態(tài)融合方式的問題，還是訓(xùn)練過程的失衡？是在所有任務(wù)階段都會失敗，還是只在某些關(guān)鍵時刻掉鏈子？理解這一點，不僅能夠解釋已有矛盾，更有助于設(shè)計真正魯棒的機器人操縱策略。

問題探究

圖1：視覺-本體策略的泛化性

為了探究這些問題，來自人大高瓴GeWu-Lab與北京航空航天大學(xué)聯(lián)合團隊的研究者們設(shè)計了一個精巧的控制實驗。他們讓一個純視覺策略執(zhí)行裝配任務(wù)，但在某些特定時段（僅10個時間步長），將當(dāng)前動作替換為由視覺–本體策略在相同觀測下預(yù)測的動作。

如圖1右側(cè)所示，結(jié)果令人驚訝：

在「向前移動」這類穩(wěn)定運動階段，這種替換幾乎沒有影響；
但在「定位底座」、「裝配零件」這類運動轉(zhuǎn)變階段，替換策略后任務(wù)成功率明顯下降。

這說明在需要視覺發(fā)揮作用的運動轉(zhuǎn)變階段，視覺–本體策略中的視覺模態(tài)「失效」了。為什么視覺會被邊緣化？研究者進(jìn)一步從訓(xùn)練優(yōu)化的角度尋找答案。

他們發(fā)現(xiàn)，在運動轉(zhuǎn)變階段，視覺線索往往非常細(xì)小，有時甚至只是像素級的差異，而本體信號則簡潔、直接。

在訓(xùn)練過程中，策略會本能地依賴那些能讓損失更快下降的本體信號，使得本體模態(tài)在優(yōu)化中占據(jù)主導(dǎo)地位。這種主導(dǎo)地位反過來抑制了視覺模態(tài)的學(xué)習(xí)，導(dǎo)致視覺信息在運動轉(zhuǎn)變階段被嚴(yán)重忽視。

核心技術(shù)

針對視覺模態(tài)在運動轉(zhuǎn)變階段被抑制的問題，研究團隊提出了如圖2所示的基于階段引導(dǎo)的梯度調(diào)整算法（Gradient Adjustment with Phase-guidance, GAP）。核心思路是：先識別出任務(wù)中的運動轉(zhuǎn)變階段，然后在這些關(guān)鍵時刻動態(tài)調(diào)整本體覺信號的優(yōu)化強度，為視覺模態(tài)「讓出學(xué)習(xí)空間」。

圖2：GAP方法架構(gòu)

為了識別運動轉(zhuǎn)變階段，研究團隊首先利用機械臂末端執(zhí)行器的位置、朝向和開合程度來定義機器人的運動。

隨后采用變化點檢測算法，通過計算不同時段運動方向的一致性，將軌跡分割為一系列「運動一致階段」，如「持續(xù)向前移動」、「穩(wěn)定抓取」等。在這些階段之間，就是機器人的「運動轉(zhuǎn)變階段」。

然而，運動的轉(zhuǎn)變是連續(xù)且漸變的，簡單的離散切分難以刻畫該過程的平滑特性。

為此，研究進(jìn)一步引入時序網(wǎng)絡(luò)，利用本體覺信號的時序差異，預(yù)測每個時刻屬于運動轉(zhuǎn)變階段的概率。

在反向傳播時，GAP會根據(jù)當(dāng)前時刻的轉(zhuǎn)變概率，動態(tài)降低本體覺特征提取模塊的梯度更新幅度。轉(zhuǎn)變概率越高，本體覺的梯度被抑制得越明顯，讓視覺模態(tài)有機會被充分學(xué)習(xí)。

性能亮點

GAP算法的有效性在大量實驗中得到了充分驗證。無論是在仿真環(huán)境還是真實機器人上，無論是單臂還是雙臂任務(wù)，GAP加持下的視覺–本體策略都交出了亮眼的成績單。

可以看到，在操縱任務(wù)「移交」中，純視覺策略難以完成精細(xì)的放置操作，而視覺-本體策略在抓取失敗后忽視視覺反饋，仍按照本體的經(jīng)驗繼續(xù)執(zhí)行動作。應(yīng)用GAP的視覺-本體策略則得益于兩者的協(xié)同，順利地完成了任務(wù)。

如表1所示，在多樣的任務(wù)設(shè)置中，GAP不僅幫助了視覺-本體策略超越純視覺策略，真正利用模態(tài)協(xié)同的優(yōu)勢，同時還超越了多種現(xiàn)有的基線方法。

表1：對比實驗結(jié)果

研究團隊同時也驗證了GAP是否適用于視覺-語言-動作模型（VLA）。如表2所示，在多個任務(wù)上，加入本體覺的Octo-VP反而比純視覺的Octo-V表現(xiàn)更差，而GAP的介入則徹底扭轉(zhuǎn)了這一局面。

表2：VLA實驗結(jié)果

研究團隊同時也驗證了GAP對多種常見的模態(tài)融合方式的兼容性（表3），并觀察了GAP預(yù)測的運動轉(zhuǎn)變概率與任務(wù)RGB圖像和視覺不確定性的關(guān)系（圖3），以提升方法的可解釋性。

表3：模態(tài)融合方式實驗

圖3：運動轉(zhuǎn)變概率可視化

結(jié)語

從多篇研究的反直覺現(xiàn)象一步步深入，該研究揭示了運動轉(zhuǎn)變階段中被抑制的視覺模態(tài)學(xué)習(xí)。

研究團隊據(jù)此提出了GAP算法，使得兩種模態(tài)在機器人操縱任務(wù)中更好地協(xié)同。真正的多模態(tài)具身智能，必須建立在對模態(tài)之間動態(tài)關(guān)系的深刻理解之上。

而GAP通過運動轉(zhuǎn)變階段提供了一種分析框架，為具身智能中的高質(zhì)量多模態(tài)融合與交互提供了全新的視角。

參考資料：

https://arxiv.org/pdf/2602.12032

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.