![]()
本文的第一作者為東南大學碩士生莊啟源,合作者為徐赫洋、汪宜俊、趙欣陽、李洋洋。通訊作者為東南大學青年首席教授魏秀參,研究方向為計算機視覺、機器學習與機器人。
在具身智能領域,可供性(affordance)預測 —— 即讓機器人從視覺觀測中理解 "在哪里操作"(接觸點)與 "如何操作"(動作方向)—— 是實現精細化機器人操作的基礎之一。精細操作要求機器人不僅能定位到物體的可交互區域,更要掌握接觸后的準確運動方向,例如判斷抽屜把手的精確拉動方向完成開合。
當前主流方法主要分為兩大范式:基于檢索的方法無需大量機器人數據,卻受限于單一匹配的脆弱性與未見類別的覆蓋盲區;基于訓練的大規模模型雖能學習可遷移視覺模式,卻頻繁出現接觸點定位不準、動作方向預測錯誤的問題,難以支撐精細操作所需的空間精度。
為突破這一瓶頸,東南大學魏秀參團隊提出了 RAAP(檢索增強型可供性預測)。RAAP 將 affordance 分解為靜態接觸點與動態動作方向兩個分量并針對二者設計互補推理機制:接觸點通過與 Top-1 檢索參考的稠密特征匹配可靠遷移;動作方向則由全新的檢索增強對齊模型負責,通過聚合多個參考樣本與雙權重注意力機制為精細操作提供可靠運動指引。整個框架每任務僅需數十個訓練樣本,即可實現跨類別的零樣本精細機器人操作。
目前,該論文已被機器人領域頂級會議 IEEE International Conference on Robotics & Automation (ICRA 2026) 接收。
![]()
- 論文標題: RAAP: Retrieval-Augmented Affordance Prediction with Cross-Image Action Alignment
- 論文鏈接:https://arxiv.org/abs/2603.29419
- 項目主頁:https://github.com/SEU-VIPGroup/RAAP
RAAP:解耦靜態與動態可供性的統一框架
RAAP 的核心設計思路是:靜態接觸點與動態動作方向雖同屬 affordance,但在預測難度和所需信息上有本質區別,已有工作將二者作為可聯合遷移的屬性統一處理,往往顧此失彼。RAAP 明確將兩者解耦,分別采用最適合各自特性的推理機制。
![]()
檢索與靜態 Affordance 遷移
RAAP 從 DROID 和 HOI4D 數據集構建視覺 affordance 記憶庫,存儲分割后的物體圖像、CLIP 特征、任務標簽以及標注的 2D 接觸點與歸一化動作方向向量,供推理時檢索調用。給定查詢場景,RAAP 首先通過 CLIP 文本與圖像編碼器從記憶庫中檢索 Top-K 個語義和視覺上最相關的參考樣本。對于接觸點定位,系統取 Top-1 參考,基于 Stable Diffusion 稠密特征進行像素級匹配,將參考接觸點遷移至查詢圖像的對應位置。這一策略在前人工作中已得到充分驗證。
動態 Affordance 預測:檢索增強跨圖像動作對齊
動作方向的預測是 RAAP 的核心創新所在。不同于接觸點的幾何對應性,動作方向高度依賴任務語義與操作意圖,單一檢索樣本極易因匹配偏差引發全局性方向錯誤。為此,RAAP 引入了一個檢索增強的跨圖像動作對齊模塊,通過聚合 Top-K 個參考樣本的方向先驗來降低預測歧義。
具體而言,查詢圖像與各參考圖像共享 SigLIP-2 骨干網絡提取 patch 級特征。對于每個參考樣本,其標注的動作向量經 FiLM 調制作用于視覺特征,使外觀與操作意圖聯合編碼;隨后多個參考特征拼接為統一的 Key-Value 矩陣,以查詢特征為 Query 經跨注意力機制融合多參考方向線索,再通過 Transformer 編碼器回歸出預測動作方向。
為應對檢索樣本質量參差不齊的問題,RAAP 進一步設計了雙權重注意力機制:以檢索階段的 CLIP 余弦相似度作為外觀先驗權重,以輕量門控網絡輸出的語義相關性作為補充權重,二者歸一化融合后對參考樣本加權 —— 外觀權重拉近視覺相似者,語義門控權重抑制語義錯位的噪聲參考,共同保障多參考聚合的質量。
![]()
2D 到 3D 的 Affordance 提升與執行
預測得到的 2D affordance 經由相機內參與深度點云提升至 3D 空間。抓取后,2D 動作方向結合局部表面法向變換為 3D 位移向量,真實環境中采用笛卡爾阻抗控制執行接觸后動作,保證柔順安全的交互,最終支撐從接觸定位到運動執行的全流程精細操作。
實驗結果與分析
研究團隊在 DROID 和 HOI4D 數據集以及真實 Franka 機械臂平臺上進行了全面評估,與 RAM(單參考檢索遷移框架)和 A0(大規模可供性預測模型)展開系統對比。
![]()
動態可供性預測
以均值角誤差(MAE,越低越好)評估動作方向預測精度。RAAP(K=3)以 32.55° 的整體平均誤差取得最優,相比其他方法降低超過 50%。優勢在開 / 關類任務上尤為顯著 ——RAM 的單樣本遷移和 A0 在方向預測上均頻繁出現全局性偏差,而 RAAP 通過多參考聚合有效消解了方向歧義。值得注意的是,DROID 子集平均每任務僅約 18 個訓練樣本,充分體現了 RAAP 在極低數據代價下的競爭力。
![]()
消融實驗證實了雙權重機制的必要性:去掉門控權重或相似度權重均導致明顯性能下降,退化為均勻加權同樣不及完整模型,說明兩種權重信號功能互補、缺一不可。檢索數量 K 的實驗表明 K=3 為最優選擇:過少時模型易受單次檢索錯誤影響,過多時噪聲參考開始拖累精度。
![]()
真實世界機械臂實驗
研究團隊在 Franka Research 3 機械臂上測試了未見物體泛化(任務相同,物體實例不同)與跨類別泛化(訓練于開 / 關微波爐,測試于開 / 關柜子等新類別)兩類場景,每任務隨機位置下進行 20 次試驗。所有模型僅在 DROID 和 HOI4D 子集上訓練,不使用任何真實世界演示數據。
RAAP 在未見物體場景下于開 / 關抽屜任務上超過 RAM 達 15 至 25 個百分點,在所有拾取任務中同樣取得最高成功率。跨類別場景中,RAAP 在關柜子任務上達到 100% 成功率,在其余任務上持續領先。
![]()
總結
RAAP 為精細機器人操作中的可供性泛化提供了一種將檢索與對齊學習統一的解耦框架。其核心貢獻在于:
- 提出 RAAP,統一檢索與訓練范式,在數據稀缺下實現泛化,每任務僅需少量訓練樣本即可達到強性能,為精細操作場景下的低成本部署提供了可行路徑。
- 設計檢索增強對齊模型,通過雙權重注意力聚合多個參考,同時對靜態與動態 affordance 采用互補機制。
- 在 DROID、HOI4D 及真實平臺上的全面評估,證明 RAAP 在未見物體和跨類別泛化場景下均優于基線,并在仿真與真實環境中驗證了零樣本精細機器人操作能力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.