<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AAAI 2026 最新錄用|港科大等提出ReconVLA:利用視覺重構引導,刷新機器人操作精度!

      0
      分享至

      一、導讀

      近年來,視覺-語言-動作模型(Vision-Language-Action,VLA)在機器人控制中展現(xiàn)出融合多模態(tài)理解與動作執(zhí)行的能力。

      然而,現(xiàn)有模型在感知圖像時視覺注意力(visual attention)往往分散,難以聚焦于需要操作的目標物體,導致執(zhí)行動作不準確。

      為此,本文提出了一種重構式視覺-語言-動作模型 ReconVLA,通過引入一個隱式 grounding 機制,讓模型在訓練過程中學習重建圖像中與任務相關的“凝視區(qū)域(gaze region)”,從而引導其更準確地關注目標物體。

      該方法在模擬和真實機器人任務中均表現(xiàn)出更精準的操作能力和良好的泛化性能。

      二、論文基本信息


      • 論文標題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

      • 作者與單位:Wenxuan Song 等,來自香港科技大學(廣州)、西湖大學、浙江大學、莫納什大學等機構

      • 來源:AAAI 2026

      • 代碼鏈接: https://github.com/OpenHelix-Team/ReconVLA

      三、主要貢獻與創(chuàng)新
      1. 提出 ReconVLA ,一種基于 隱式視覺 grounding 的 VLA 模型,通過重建凝視區(qū)域提升視覺注意力精度。

      2. 構建大規(guī)模機器人預訓練數(shù)據(jù)集,包含 100k 軌跡、200 萬樣本 ,增強模型泛化能力。

      3. 設計 視覺重構模塊 ,使用擴散變換器(diffusion transformer)從噪聲中重建目標區(qū)域。

      4. 在模擬與真實任務中驗證了模型在 長時序任務未見目標 上的優(yōu)越性能。

      四、研究方法與原理

      ReconVLA 的核心思路是:通過讓模型重建任務相關的圖像區(qū)域,引導其自動聚焦于關鍵目標,從而提升動作執(zhí)行的精確性


      模型包含動作生成視覺重構兩個部分。輸入為多視角圖像和語言指令。視覺編碼器提取圖像特征,與大語言模型(LLM)交互后,一方面輸出動作指令,另一方面輸出重構 token(reconstructive tokens),用于引導一個擴散去噪過程(denoising process),重建目標區(qū)域的圖像 token。

      具體地,重構目標為**凝視區(qū)域 **,其 token 表示為 ,其中 是視覺 tokenizer(采用 VAE)。擴散過程從帶噪聲的 token 出發(fā),在重構 token 的條件下,通過去噪器 預測噪聲并恢復 。重構損失函數(shù)為:

      整體訓練目標為動作預測損失與視覺重構損失的加權和:

      其中 是由大語言模型基于視覺 tokens 生成的重構 tokens, 是擴散時間步, 是加入的噪聲。這一設計迫使模型在生成動作的同時,必須學習對目標區(qū)域的精細視覺表征,從而實現(xiàn)隱式的視覺注意力聚焦

      五、實驗設計與結果分析 模擬環(huán)境與數(shù)據(jù)集

      實驗使用 CALVIN 基準,包含 34 個任務和 4 種環(huán)境,評估模型在長時序任務中的表現(xiàn)。指標為子任務成功率平均完成長度

      范式對比實驗
      比較三種視覺 grounding 范式:

      • 顯式 grounding(EG) :使用 YOLOv11 檢測并裁剪目標區(qū)域作為額外輸入。

      • 鏈式思維 grounding(CG) :模型依次輸出邊界框坐標與動作。

      • 隱式 grounding(IG,即 ReconVLA) :不顯式輸出坐標,而是通過重建目標區(qū)域隱式學習注意力。


      結果顯示,IG 在各項任務中均取得最高成功率,尤其在 5/5 任務中達到 **64.1%**,顯著優(yōu)于 EG(50.2%)和 CG(0%)。

      注意力可視化分析
      可視化顯示,基線模型的注意力分散,而 ReconVLA 能 精準聚焦于目標物體,如“將西瓜放入黃碗”任務中,注意力集中在西瓜上。


      消融實驗
      消融實驗驗證了以下設計:

      • 預訓練 :顯著提升模型在未見環(huán)境中的泛化能力。

      • 重建凝視區(qū)域 :比重建整圖更有效,引導模型關注目標。

      • 重構模塊本身 :即使重建整圖也能提升性能,但不如凝視區(qū)域精準。


      與先進方法對比
      在 ABC→D 和 ABCD→D 任務中,ReconVLA 在多項指標上超越生成式方法(如 GR-1、3D-VLA)和大規(guī)模 VLA 模型(如 OpenVLA、UniVLA),尤其在 長時序任務中表現(xiàn)突出。


      真實世界實驗


      在四個真實任務(如疊碗、翻杯等)中,ReconVLA 在未見目標上仍保持高成功率,顯著優(yōu)于 OpenVLA 和 PD-VLA。


      六、論文結論與評價 總結

      ReconVLA 通過隱式視覺 grounding 機制,成功引導模型聚焦于任務關鍵區(qū)域,提升了機器人操作的精確性與泛化能力。在模擬與真實任務中均表現(xiàn)出色,尤其在長時序和未見目標任務中優(yōu)勢明顯。

      評價

      該方法無需依賴外部檢測模型,簡化了系統(tǒng)結構,且通過視覺重構任務增強了模型對細節(jié)的感知能力。然而,該方法依賴于高質量凝視區(qū)域標注,且擴散去噪過程計算開銷較大,可能限制其在實時系統(tǒng)中的部署。未來可探索更輕量的重構機制,或結合自監(jiān)督方式減少對標注數(shù)據(jù)的依賴。

      文章來源:CV煉丹術。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      “最風流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      優(yōu)趣紀史記
      2025-11-29 17:22:29
      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      晴晴的娛樂日記
      2025-12-15 22:06:55
      何晴去世不到24小時,惡心事發(fā)生!私生活被詬病,網(wǎng)友:紅顏薄命

      何晴去世不到24小時,惡心事發(fā)生!私生活被詬病,網(wǎng)友:紅顏薄命

      徐徐道史
      2025-12-14 18:28:32
      廣西54歲李某甘蔗地殺2女后續(xù)!10萬懸賞追逃,當?shù)厝似馗鄡饶?>
    </a>
        <h3>
      <a href=奇思妙想草葉君
      2025-12-14 21:46:07
      醫(yī)生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      醫(yī)生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      紙上的心語
      2025-12-15 21:32:22
      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      近史博覽
      2025-12-15 14:43:10
      突發(fā)!澤連斯基,妥協(xié)了!一切結束了!

      突發(fā)!澤連斯基,妥協(xié)了!一切結束了!

      財經(jīng)要參
      2025-12-15 13:18:38
      人社部定調!穩(wěn)步提高社會保障待遇水平,2026年養(yǎng)老金雙增長嗎?

      人社部定調!穩(wěn)步提高社會保障待遇水平,2026年養(yǎng)老金雙增長嗎?

      財話連篇
      2025-12-15 18:35:49
      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      亞運三金王王莉實名舉報:基地主任索要15萬 體罰辱罵下跪是常事

      醉臥浮生
      2025-12-15 08:01:17
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      張藝興發(fā)文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      張藝興發(fā)文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      極目新聞
      2025-12-14 18:51:00
      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現(xiàn)狀

      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現(xiàn)狀

      黃河新流域
      2025-09-28 13:34:43
      被全網(wǎng)瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      被全網(wǎng)瘋傳的“雙頂流”戀愛瓜,竟是他倆?結果大反轉!

      毒舌八卦
      2025-12-15 22:52:12
      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      復轉這些年
      2025-12-07 15:39:25
      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      凡人說體育
      2025-12-15 13:55:06
      何晴離世消息曝光不到24小時,惡心的一幕出現(xiàn)了!

      何晴離世消息曝光不到24小時,惡心的一幕出現(xiàn)了!

      叨嘮
      2025-12-15 01:57:05
      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

      撒切爾夫人在回憶錄中坦言:當年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

      泠泠說史
      2025-12-15 18:05:17
      西方內訌升級:英銀行家集體反水威脅撤出俄資產(chǎn)

      西方內訌升級:英銀行家集體反水威脅撤出俄資產(chǎn)

      夢想的現(xiàn)實
      2025-12-15 10:41:52
      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      被誤解的時候能微微一笑
      2025-12-15 08:54:45
      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      懂球帝
      2025-12-15 15:24:06
      2025-12-16 06:43:00
      算法與數(shù)學之美 incentive-icons
      算法與數(shù)學之美
      分享知識,交流思想
      5267文章數(shù) 64595關注度
      往期回顧 全部

      科技要聞

      大佬冷酷預言:未來15年 人形機器人成廢鐵

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內部人士回應

      體育要聞

      戰(zhàn)勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現(xiàn)場,前夫許亞軍雙眼泛紅?

      財經(jīng)要聞

      新農(nóng)合漲到400元 農(nóng)民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態(tài)度原創(chuàng)

      數(shù)碼
      游戲
      親子
      家居
      教育

      數(shù)碼要聞

      藍寶石喊話AMD等GPU制造商:給我們芯片和顯存,放開設計自由

      當手機能自動清每日任務,玩家天天上線是為了什么?

      親子要聞

      寶寶為啥一出門就不鬧了?真相不是“看新鮮”,90%家長沒琢磨透

      家居要聞

      溫暖色調 大空間不冷清

      教育要聞

      12月13日雅思大作文示范寫作 | 探索未開發(fā)景點的利與弊

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 成人精品亚洲| 色欲狠狠躁天天躁无码中文字幕 | 国产永久免费高清在线观看| 欲色欲色天天天www| 99啪啪| 人妻无码v| 亚洲无码一二| 欧美野外疯狂做受xxxx高潮| 国产sm重味一区二区三区 | 8av国产精品爽爽ⅴa在线观看| 粗壮挺进人妻水蜜桃成熟| 亚洲免费福利在线视频| 久久久久中文字幕| 超碰人人再线| 射阳县| 亚洲人妻一区二区av| 国产精品久久久久久久久齐齐| 亚洲精品久久午夜无码一区二区 | 于都县| 亚洲熟妇av一区二区三区宅男| 亚洲伊人成无码综合网| 成人3d动漫一区二区三区| 久久久亚洲欧洲日产国码aⅴ| 免费VA国产高清大片在线| 国产精品黄色片| 亚洲人网站| 亚洲熟女乱色综合亚洲| 免费ā片在线观看| 无码午夜人妻一区二区三区不卡视频| 91视频观看| 婷婷四虎东京热无码群交双飞视频 | 亚洲欧美人成人综合在线播放| 日韩av在线不卡一区二区三区| 多人乱p视频在线免费观看| 皮山县| 风流老熟女一区二区三区| 国产精品夜间视频香蕉| 办公室强奷漂亮少妇视频| 日本一卡2卡3卡4卡无卡免费| www黄片| 亚洲天堂中文字幕天天码|