![]()
這項工作由伊利諾伊大學(xué)香檳分校 (UIUC)、哈佛大學(xué)、哥倫比亞大學(xué)和麻省理工學(xué)院 (MIT) 的合作完成 。
![]()
- 論文標題:Multi-Modal Manipulation via Policy Consensus
- 論文鏈接:https://arxiv.org/pdf/2509.23468
- 主頁鏈接:https://policyconsensus.github.io/
為什么特征拼接 (Feature Concatenation)會在機器人感知和決策中失效?
想象一下,你在黑漆漆的背包里找鑰匙。你的眼睛此時毫無用處,全靠指尖的觸覺,這對你來說輕而易舉 ,但在機器人領(lǐng)域,這卻是一個非常困難的問題。
殘酷的真相: 目前的機器人學(xué)習主流的多傳感器融合的算法(Feature Concatenation)在處理這種任務(wù)時徹底失敗了。我們的實驗數(shù)據(jù)顯示,當你給機器人加上觸覺數(shù)據(jù)試圖讓它更聰明時,它的抓取成功率竟然從 35% 暴跌至 5%!為什么? 因為傳統(tǒng)的方法把偶爾出現(xiàn)的關(guān)鍵觸覺信號當作了 “噪音” 直接過濾掉了。
當前方法的局限性
目前的多模態(tài)機器人學(xué)習方法通常使用特征拼接 (Feature Concatenation):提取所有傳感器的嵌入 (embeddings),將其拼接成一個大向量,然后輸入到一個單一的神經(jīng)網(wǎng)絡(luò)策略中 。
![]()
這種方法看似合理,但存在兩個根本缺陷:
問題 1:稀疏模態(tài)被視為噪聲
- 例如,一個機器人從不透明袋子中取記號筆的任務(wù)。90% 的過程中依靠視覺接近,但一旦進入袋子,視覺變得無用,觸覺變得至關(guān)重要 。
- 特征拼接會將統(tǒng)計上罕見的信號(觸覺)視為噪聲。在訓(xùn)練中,網(wǎng)絡(luò)會降低觸覺信息的權(quán)重,專注于總是活躍的視覺特征 。
- 我們的實驗結(jié)果:在遮擋抓取任務(wù)中,RGB + 觸覺的拼接基線僅達到 5% 的成功率,而僅使用 RGB 卻有 35%。增加觸覺信息反而因其被視為干擾噪聲而降低了性能!
問題 2:無法靈活添加或移除模態(tài)
- 特征拼接缺乏模塊化。如果想添加新傳感器或移除故障傳感器,必須從頭開始重新訓(xùn)練整個策略,因為所有模態(tài)在特征層面緊密耦合 。
- 這導(dǎo)致了昂貴的重訓(xùn)練成本,且系統(tǒng)在單個傳感器故障時會發(fā)生災(zāi)難性故障 。
我們的解決方案:組合策略 (Compositional Policies)
我們的解決方案是重新思考模態(tài)的結(jié)合方式。我們不將所有傳感器強制輸入單一網(wǎng)絡(luò),而是為每個模態(tài)訓(xùn)練單獨的專家策略,并學(xué)習如何在策略層面組合它們的動作預(yù)測 。
工作原理
- 模態(tài)特定專家 (Modality-Specific Experts):為每個感官模態(tài)(RGB、觸覺、點云等)訓(xùn)練作為擴散策略實例化的基于能量的策略表示 。每個專家專注于自己的感官流,互不干擾 。即使是 “稀疏” 模態(tài)(如觸覺)也有自己的專用網(wǎng)絡(luò),使其能高度專注于接觸動力學(xué) 。
- 模態(tài)內(nèi)分解 (Intra-Modality Factorization):在模態(tài)內(nèi)部進一步分解為互補的子策略。例如,視覺可分為粗略幾何推理和細粒度細節(jié);觸覺可分為初始接觸檢測和持續(xù)力控制 。
- 學(xué)習共識權(quán)重 (Learn Consensus Weights):一個路由器網(wǎng)絡(luò) (Router) 學(xué)習預(yù)測共識權(quán)重,決定每個模態(tài)對最終動作的影響程度 。
![]()
組合式策略框架概述
為什么這能解決問題
解決稀疏性:每個專家學(xué)習自己的動作分布,互不干擾。觸覺專家不再與視覺競爭表示模型的表征能力,從而在富含接觸的操作中變得高度專業(yè)化。
模塊化設(shè)計:專家是獨立訓(xùn)練的。添加新傳感器只需訓(xùn)練一個新的專家,并使用固定權(quán)重或快速微調(diào)將其與現(xiàn)有專家組合,無需重訓(xùn)練整個系統(tǒng) 。
簡單的實現(xiàn)(implementation)方式:組合多個策略對應(yīng)于概率分布相乘,在擴散模型(基于分數(shù)的能量模型)中,這等同于簡單的分數(shù)函數(shù)相加(summing score functions) 。
增量學(xué)習:即插即用的傳感器
為了展示模塊化,我們完全獨立地訓(xùn)練了 RGB 和觸覺策略,然后使用固定的相等權(quán)重將它們組合,沒有進行任何聯(lián)合訓(xùn)練
- 盡管從未一起訓(xùn)練,組合后的策略成功完成了單獨策略都無法處理的遮擋記號筆抓取任務(wù) 。這對于現(xiàn)實世界的部署(傳感器逐步添加或更換)具有深遠的意義 。
![]()
魯棒性與自適應(yīng)性
運行時擾動:在執(zhí)行過程中突然搶走物體,機器人能適應(yīng)并完成任務(wù)。
![]()
傳感器損壞:遮擋一個攝像頭模擬故障,路由器簡單地將權(quán)重轉(zhuǎn)移到剩余的功能傳感器上,表現(xiàn)保持穩(wěn)定。
![]()
物體重新定位:移動任務(wù)相關(guān)物體,策略能成功泛化。
![]()
![]()
統(tǒng)計結(jié)果對比
我們使用了配備雙 RealSense 攝像頭和 FlexiTac 觸覺傳感器的 UR5e 機器人進行驗證 。
RLBench 模擬任務(wù):在四個操作任務(wù)上,我們的方法平均成功率為 66%,顯著優(yōu)于單模態(tài)策略 (49%) 和特征拼接 (56%) 。
真實世界:
- 遮擋記號筆抓取(occluded marker picking):我們的方法成功率為65%,而 RGB-only 為 35%,拼接方法僅為 5%(拼接方法反而沒法很好的利用觸覺確定物體是否被抓住)。
- 勺子重定向 (Spoon Reorientation):一種靈巧的手內(nèi)操作任務(wù)。我們的方法成功率為75%,拼接方法僅為 21% 。
- 拼圖插入 (Puzzle Insertion):需要毫米級精度。我們的方法任務(wù)成功率為52%,拼接方法為 40% 。
![]()
總結(jié)
通過從特征級拼接轉(zhuǎn)向策略級組合,我們?yōu)槟B(tài)稀疏性問題提供了一個系統(tǒng)性的解決方案,同時實現(xiàn)了增量學(xué)習和魯棒部署 。我們的 core insights 很簡單:讓每個模態(tài)擁有自己的 “專家” 并學(xué)習各自的相對影響力,而不是將所有傳感器強制輸入單一網(wǎng)絡(luò)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.