AAAI 2026 最新錄用｜港科大等提出ReconVLA：利用視覺重構引導，刷新機器人操作精度！

2025-11-11 21:14:46　來源: 算法與數(shù)學之美

北京舉報

分享至

一、導讀

近年來，視覺-語言-動作模型（Vision-Language-Action，VLA）在機器人控制中展現(xiàn)出融合多模態(tài)理解與動作執(zhí)行的能力。

然而，現(xiàn)有模型在感知圖像時視覺注意力（visual attention）往往分散，難以聚焦于需要操作的目標物體，導致執(zhí)行動作不準確。

為此，本文提出了一種重構式視覺-語言-動作模型 ReconVLA，通過引入一個隱式 grounding 機制，讓模型在訓練過程中學習重建圖像中與任務相關的“凝視區(qū)域（gaze region）”，從而引導其更準確地關注目標物體。

該方法在模擬和真實機器人任務中均表現(xiàn)出更精準的操作能力和良好的泛化性能。

二、論文基本信息

論文標題：ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
作者與單位：Wenxuan Song 等，來自香港科技大學（廣州）、西湖大學、浙江大學、莫納什大學等機構
來源：AAAI 2026
代碼鏈接： https://github.com/OpenHelix-Team/ReconVLA

三、主要貢獻與創(chuàng)新

提出 ReconVLA ，一種基于 隱式視覺 grounding 的 VLA 模型，通過重建凝視區(qū)域提升視覺注意力精度。
構建大規(guī)模機器人預訓練數(shù)據(jù)集，包含 100k 軌跡、200 萬樣本 ，增強模型泛化能力。
設計 視覺重構模塊 ，使用擴散變換器（diffusion transformer）從噪聲中重建目標區(qū)域。
在模擬與真實任務中驗證了模型在 長時序任務 和 未見目標 上的優(yōu)越性能。

四、研究方法與原理

ReconVLA 的核心思路是：通過讓模型重建任務相關的圖像區(qū)域，引導其自動聚焦于關鍵目標，從而提升動作執(zhí)行的精確性。

模型包含動作生成與視覺重構兩個部分。輸入為多視角圖像和語言指令。視覺編碼器提取圖像特征，與大語言模型（LLM）交互后，一方面輸出動作指令，另一方面輸出重構 token（reconstructive tokens），用于引導一個擴散去噪過程（denoising process），重建目標區(qū)域的圖像 token。

具體地，重構目標為**凝視區(qū)域 **，其 token 表示為，其中是視覺 tokenizer（采用 VAE）。擴散過程從帶噪聲的 token 出發(fā)，在重構 token 的條件下，通過去噪器預測噪聲并恢復。重構損失函數(shù)為：

整體訓練目標為動作預測損失與視覺重構損失的加權和：

其中是由大語言模型基于視覺 tokens 生成的重構 tokens，是擴散時間步，是加入的噪聲。這一設計迫使模型在生成動作的同時，必須學習對目標區(qū)域的精細視覺表征，從而實現(xiàn)隱式的視覺注意力聚焦。

五、實驗設計與結果分析模擬環(huán)境與數(shù)據(jù)集

實驗使用 CALVIN 基準，包含 34 個任務和 4 種環(huán)境，評估模型在長時序任務中的表現(xiàn)。指標為子任務成功率與平均完成長度。

范式對比實驗
比較三種視覺 grounding 范式：

顯式 grounding（EG） ：使用 YOLOv11 檢測并裁剪目標區(qū)域作為額外輸入。
鏈式思維 grounding（CG） ：模型依次輸出邊界框坐標與動作。
隱式 grounding（IG，即 ReconVLA） ：不顯式輸出坐標，而是通過重建目標區(qū)域隱式學習注意力。

結果顯示，IG 在各項任務中均取得最高成功率，尤其在 5/5 任務中達到 **64.1%**，顯著優(yōu)于 EG（50.2%）和 CG（0%）。

注意力可視化分析
可視化顯示，基線模型的注意力分散，而 ReconVLA 能 精準聚焦于目標物體，如“將西瓜放入黃碗”任務中，注意力集中在西瓜上。

消融實驗
消融實驗驗證了以下設計：

預訓練 ：顯著提升模型在未見環(huán)境中的泛化能力。
重建凝視區(qū)域 ：比重建整圖更有效，引導模型關注目標。
重構模塊本身 ：即使重建整圖也能提升性能，但不如凝視區(qū)域精準。

與先進方法對比
在 ABC→D 和 ABCD→D 任務中，ReconVLA 在多項指標上超越生成式方法（如 GR-1、3D-VLA）和大規(guī)模 VLA 模型（如 OpenVLA、UniVLA），尤其在 長時序任務中表現(xiàn)突出。

真實世界實驗

在四個真實任務（如疊碗、翻杯等）中，ReconVLA 在未見目標上仍保持高成功率，顯著優(yōu)于 OpenVLA 和 PD-VLA。

六、論文結論與評價總結

ReconVLA 通過隱式視覺 grounding 機制，成功引導模型聚焦于任務關鍵區(qū)域，提升了機器人操作的精確性與泛化能力。在模擬與真實任務中均表現(xiàn)出色，尤其在長時序和未見目標任務中優(yōu)勢明顯。

評價

該方法無需依賴外部檢測模型，簡化了系統(tǒng)結構，且通過視覺重構任務增強了模型對細節(jié)的感知能力。然而，該方法依賴于高質量凝視區(qū)域標注，且擴散去噪過程計算開銷較大，可能限制其在實時系統(tǒng)中的部署。未來可探索更輕量的重構機制，或結合自監(jiān)督方式減少對標注數(shù)據(jù)的依賴。

文章來源：CV煉丹術。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.