![]()
新智元報道
編輯:LRST
【新智元導(dǎo)讀】人大與北航團隊發(fā)現(xiàn):機器人在動作切換時,視覺常被本體感覺「壓制」而失效。他們提出GAP算法,動態(tài)削弱本體信號的訓(xùn)練權(quán)重,讓視覺重獲學(xué)習(xí)機會,顯著提升機器人精準(zhǔn)操作能力。
本體感覺信息能夠提供機器人狀態(tài)的實時反饋,其與視覺信息的協(xié)同被普遍認(rèn)為有助于提升機器人在復(fù)雜操縱任務(wù)中的性能。
然而,近期研究在視覺–本體感覺策略的泛化能力方面報告了不一致的觀察結(jié)果:有的策略受益于視覺本體覺的聯(lián)合,而有的卻比純視覺策略表現(xiàn)更差——視覺-本體操縱策略究竟何時會「掉鏈子」?
近日,人大高瓴GeWu-Lab與北京航空航天大學(xué)聯(lián)合團隊對該問題進(jìn)行了系統(tǒng)性研究,發(fā)現(xiàn)在操縱任務(wù)的運動轉(zhuǎn)變階段,視覺-本體策略中的視覺模態(tài)「失效」了!
為此,研究團隊提出了基于階段引導(dǎo)的梯度調(diào)整算法(Gradient Adjustment with Phase-guidance,GAP),該研究論文為機器人操縱中視覺-本體感覺策略的設(shè)計與發(fā)展提供了有價值的見解,并已被ICLR 2026接收。
![]()
項目主頁:https://gewu-lab.github.io/GAP/
代碼倉庫:https://github.com/GeWu-Lab/GAP
論文鏈接:https://arxiv.org/abs/2602.12032
研究背景
隨著深度學(xué)習(xí)的發(fā)展,研究者們開始將本體感覺信息(如關(guān)節(jié)位置、速度等)引入基于視覺的機器人操縱策略。視覺負(fù)責(zé)「看」,本體覺負(fù)責(zé)「感」,兩者的協(xié)同被認(rèn)為有助于提升策略在復(fù)雜環(huán)境中的泛化能力,讓機器人不僅能在熟悉場景中穩(wěn)定操作,也能在任務(wù)條件變化時靈活應(yīng)對。
然而,現(xiàn)實卻開了個玩笑。多篇研究表明,有時加入了本體信息的策略反而比純視覺策略表現(xiàn)更差。
這一現(xiàn)象并非個例,而是在不同環(huán)境、不同任務(wù)中均有出現(xiàn)(圖1左)。
這些發(fā)現(xiàn)讓人困惑:視覺-本體策略究竟何時會失敗?是模態(tài)融合方式的問題,還是訓(xùn)練過程的失衡?是在所有任務(wù)階段都會失敗,還是只在某些關(guān)鍵時刻掉鏈子?理解這一點,不僅能夠解釋已有矛盾,更有助于設(shè)計真正魯棒的機器人操縱策略。
問題探究
![]()
圖1:視覺-本體策略的泛化性
為了探究這些問題,來自人大高瓴GeWu-Lab與北京航空航天大學(xué)聯(lián)合團隊的研究者們設(shè)計了一個精巧的控制實驗。他們讓一個純視覺策略執(zhí)行裝配任務(wù),但在某些特定時段(僅10個時間步長),將當(dāng)前動作替換為由視覺–本體策略在相同觀測下預(yù)測的動作。
如圖1右側(cè)所示,結(jié)果令人驚訝:
在「向前移動」這類穩(wěn)定運動階段,這種替換幾乎沒有影響;
但在「定位底座」、「裝配零件」這類運動轉(zhuǎn)變階段,替換策略后任務(wù)成功率明顯下降。
這說明在需要視覺發(fā)揮作用的運動轉(zhuǎn)變階段,視覺–本體策略中的視覺模態(tài)「失效」了。為什么視覺會被邊緣化?研究者進(jìn)一步從訓(xùn)練優(yōu)化的角度尋找答案。
他們發(fā)現(xiàn),在運動轉(zhuǎn)變階段,視覺線索往往非常細(xì)小,有時甚至只是像素級的差異,而本體信號則簡潔、直接。
在訓(xùn)練過程中,策略會本能地依賴那些能讓損失更快下降的本體信號,使得本體模態(tài)在優(yōu)化中占據(jù)主導(dǎo)地位。這種主導(dǎo)地位反過來抑制了視覺模態(tài)的學(xué)習(xí),導(dǎo)致視覺信息在運動轉(zhuǎn)變階段被嚴(yán)重忽視。
核心技術(shù)
針對視覺模態(tài)在運動轉(zhuǎn)變階段被抑制的問題,研究團隊提出了如圖2所示的基于階段引導(dǎo)的梯度調(diào)整算法(Gradient Adjustment with Phase-guidance, GAP)。核心思路是:先識別出任務(wù)中的運動轉(zhuǎn)變階段,然后在這些關(guān)鍵時刻動態(tài)調(diào)整本體覺信號的優(yōu)化強度,為視覺模態(tài)「讓出學(xué)習(xí)空間」。
![]()
圖2:GAP方法架構(gòu)
為了識別運動轉(zhuǎn)變階段,研究團隊首先利用機械臂末端執(zhí)行器的位置、朝向和開合程度來定義機器人的運動。
隨后采用變化點檢測算法,通過計算不同時段運動方向的一致性,將軌跡分割為一系列「運動一致階段」,如「持續(xù)向前移動」、「穩(wěn)定抓取」等。在這些階段之間,就是機器人的「運動轉(zhuǎn)變階段」。
然而,運動的轉(zhuǎn)變是連續(xù)且漸變的,簡單的離散切分難以刻畫該過程的平滑特性。
為此,研究進(jìn)一步引入時序網(wǎng)絡(luò),利用本體覺信號的時序差異,預(yù)測每個時刻屬于運動轉(zhuǎn)變階段的概率。
在反向傳播時,GAP會根據(jù)當(dāng)前時刻的轉(zhuǎn)變概率,動態(tài)降低本體覺特征提取模塊的梯度更新幅度。轉(zhuǎn)變概率越高,本體覺的梯度被抑制得越明顯,讓視覺模態(tài)有機會被充分學(xué)習(xí)。
性能亮點
GAP算法的有效性在大量實驗中得到了充分驗證。無論是在仿真環(huán)境還是真實機器人上,無論是單臂還是雙臂任務(wù),GAP加持下的視覺–本體策略都交出了亮眼的成績單。



可以看到,在操縱任務(wù)「移交」中,純視覺策略難以完成精細(xì)的放置操作,而視覺-本體策略在抓取失敗后忽視視覺反饋,仍按照本體的經(jīng)驗繼續(xù)執(zhí)行動作。應(yīng)用GAP的視覺-本體策略則得益于兩者的協(xié)同,順利地完成了任務(wù)。



如表1所示,在多樣的任務(wù)設(shè)置中,GAP不僅幫助了視覺-本體策略超越純視覺策略,真正利用模態(tài)協(xié)同的優(yōu)勢,同時還超越了多種現(xiàn)有的基線方法。
![]()
表1:對比實驗結(jié)果
研究團隊同時也驗證了GAP是否適用于視覺-語言-動作模型(VLA)。如表2所示,在多個任務(wù)上,加入本體覺的Octo-VP反而比純視覺的Octo-V表現(xiàn)更差,而GAP的介入則徹底扭轉(zhuǎn)了這一局面。
![]()
表2:VLA實驗結(jié)果
研究團隊同時也驗證了GAP對多種常見的模態(tài)融合方式的兼容性(表3),并觀察了GAP預(yù)測的運動轉(zhuǎn)變概率與任務(wù)RGB圖像和視覺不確定性的關(guān)系(圖3),以提升方法的可解釋性。
![]()
表3:模態(tài)融合方式實驗
![]()
圖3:運動轉(zhuǎn)變概率可視化
結(jié)語
從多篇研究的反直覺現(xiàn)象一步步深入,該研究揭示了運動轉(zhuǎn)變階段中被抑制的視覺模態(tài)學(xué)習(xí)。
研究團隊據(jù)此提出了GAP算法,使得兩種模態(tài)在機器人操縱任務(wù)中更好地協(xié)同。真正的多模態(tài)具身智能,必須建立在對模態(tài)之間動態(tài)關(guān)系的深刻理解之上。
而GAP通過運動轉(zhuǎn)變階段提供了一種分析框架,為具身智能中的高質(zhì)量多模態(tài)融合與交互提供了全新的視角。
參考資料:
https://arxiv.org/pdf/2602.12032
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.