一、導讀
近年來,視覺-語言-動作模型(Vision-Language-Action,VLA)在機器人控制中展現(xiàn)出融合多模態(tài)理解與動作執(zhí)行的能力。
然而,現(xiàn)有模型在感知圖像時視覺注意力(visual attention)往往分散,難以聚焦于需要操作的目標物體,導致執(zhí)行動作不準確。
為此,本文提出了一種重構式視覺-語言-動作模型 ReconVLA,通過引入一個隱式 grounding 機制,讓模型在訓練過程中學習重建圖像中與任務相關的“凝視區(qū)域(gaze region)”,從而引導其更準確地關注目標物體。
該方法在模擬和真實機器人任務中均表現(xiàn)出更精準的操作能力和良好的泛化性能。
二、論文基本信息
![]()
論文標題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
作者與單位:Wenxuan Song 等,來自香港科技大學(廣州)、西湖大學、浙江大學、莫納什大學等機構
來源:AAAI 2026
代碼鏈接: https://github.com/OpenHelix-Team/ReconVLA
提出 ReconVLA ,一種基于 隱式視覺 grounding 的 VLA 模型,通過重建凝視區(qū)域提升視覺注意力精度。
構建大規(guī)模機器人預訓練數(shù)據(jù)集,包含 100k 軌跡、200 萬樣本 ,增強模型泛化能力。
設計 視覺重構模塊 ,使用擴散變換器(diffusion transformer)從噪聲中重建目標區(qū)域。
在模擬與真實任務中驗證了模型在 長時序任務 和 未見目標 上的優(yōu)越性能。
ReconVLA 的核心思路是:通過讓模型重建任務相關的圖像區(qū)域,引導其自動聚焦于關鍵目標,從而提升動作執(zhí)行的精確性。
![]()
模型包含動作生成與視覺重構兩個部分。輸入為多視角圖像和語言指令。視覺編碼器提取圖像特征,與大語言模型(LLM)交互后,一方面輸出動作指令,另一方面輸出重構 token(reconstructive tokens),用于引導一個擴散去噪過程(denoising process),重建目標區(qū)域的圖像 token。
具體地,重構目標為**凝視區(qū)域 **,其 token 表示為 ,其中 是視覺 tokenizer(采用 VAE)。擴散過程從帶噪聲的 token 出發(fā),在重構 token 的條件下,通過去噪器 預測噪聲并恢復 。重構損失函數(shù)為:
整體訓練目標為動作預測損失與視覺重構損失的加權和:
其中 是由大語言模型基于視覺 tokens 生成的重構 tokens, 是擴散時間步, 是加入的噪聲。這一設計迫使模型在生成動作的同時,必須學習對目標區(qū)域的精細視覺表征,從而實現(xiàn)隱式的視覺注意力聚焦。
五、實驗設計與結果分析 模擬環(huán)境與數(shù)據(jù)集
實驗使用 CALVIN 基準,包含 34 個任務和 4 種環(huán)境,評估模型在長時序任務中的表現(xiàn)。指標為子任務成功率與平均完成長度。
范式對比實驗
比較三種視覺 grounding 范式:
顯式 grounding(EG) :使用 YOLOv11 檢測并裁剪目標區(qū)域作為額外輸入。
鏈式思維 grounding(CG) :模型依次輸出邊界框坐標與動作。
隱式 grounding(IG,即 ReconVLA) :不顯式輸出坐標,而是通過重建目標區(qū)域隱式學習注意力。
![]()
結果顯示,IG 在各項任務中均取得最高成功率,尤其在 5/5 任務中達到 **64.1%**,顯著優(yōu)于 EG(50.2%)和 CG(0%)。
注意力可視化分析
可視化顯示,基線模型的注意力分散,而 ReconVLA 能 精準聚焦于目標物體,如“將西瓜放入黃碗”任務中,注意力集中在西瓜上。
![]()
消融實驗
消融實驗驗證了以下設計:
預訓練 :顯著提升模型在未見環(huán)境中的泛化能力。
重建凝視區(qū)域 :比重建整圖更有效,引導模型關注目標。
重構模塊本身 :即使重建整圖也能提升性能,但不如凝視區(qū)域精準。
![]()
與先進方法對比
在 ABC→D 和 ABCD→D 任務中,ReconVLA 在多項指標上超越生成式方法(如 GR-1、3D-VLA)和大規(guī)模 VLA 模型(如 OpenVLA、UniVLA),尤其在 長時序任務中表現(xiàn)突出。
![]()
真實世界實驗
![]()
在四個真實任務(如疊碗、翻杯等)中,ReconVLA 在未見目標上仍保持高成功率,顯著優(yōu)于 OpenVLA 和 PD-VLA。
![]()
六、論文結論與評價 總結
ReconVLA 通過隱式視覺 grounding 機制,成功引導模型聚焦于任務關鍵區(qū)域,提升了機器人操作的精確性與泛化能力。在模擬與真實任務中均表現(xiàn)出色,尤其在長時序和未見目標任務中優(yōu)勢明顯。
評價
該方法無需依賴外部檢測模型,簡化了系統(tǒng)結構,且通過視覺重構任務增強了模型對細節(jié)的感知能力。然而,該方法依賴于高質量凝視區(qū)域標注,且擴散去噪過程計算開銷較大,可能限制其在實時系統(tǒng)中的部署。未來可探索更輕量的重構機制,或結合自監(jiān)督方式減少對標注數(shù)據(jù)的依賴。
文章來源:CV煉丹術。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.