<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ReconVLA:具身智能研究首次獲得AI頂級會議最佳論文獎

      0
      分享至



      在長期以來的 AI 研究版圖中,具身智能雖然在機器人操作、自動化系統與現實應用中至關重要,卻常被視為「系統工程驅動」的研究方向,鮮少被認為能夠在 AI 核心建模范式上產生決定性影響。

      而 ReconVLA 獲得 AAAIOutstandingPaper Awards,釋放了一個清晰而重要的信號:讓智能體在真實世界中「看、想、做」的能力,已經成為人工智能研究的核心問題之一。

      這是具身智能(Embodied Intelligence / Vision-Language-Action)方向歷史上,首次獲得 AI 頂級會議 Best Paper 的研究工作。這是一次真正意義上的 community-level 認可:不僅是對某一個模型、某一項指標的認可,更是對具身智能作為通用智能核心范式之一的肯定。



      • 論文標題:ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver
      • 論文地址:https://arxiv.org/abs/2508.10333
      • 論文代碼:https://github.com/Chowzy069/Reconvla

      VLA 模型關鍵瓶頸:機器人真「看準」了嗎?



      近年來,Vision-Language-Action(VLA)模型在多任務學習與長時序操作中取得了顯著進展。然而,我們在大量實驗中發現,一個基礎但被長期忽視的問題嚴重制約了其性能上限:視覺注意力難以穩定、精準地聚焦于任務相關目標。

      以指令「將藍色積木放到粉色積木上」為例,模型需要在復雜背景中持續鎖定「藍色積木」和「粉色積木」。但現實中,許多 VLA 模型的視覺注意力呈現為近似均勻分布,不同于人類行為專注于目標物體,VLA 模型容易被無關物體或背景干擾,從而導致抓取或放置失敗。

      已有工作主要通過以下方式嘗試緩解這一問題:

      • 顯式裁剪或檢測目標區域(Explicit Grounding)
      • 預測目標邊界框作為中間輸出(COT Grounding)

      然而,這些方法并未從根本上改變模型自身的視覺表征與注意力分配機制,提升效果有限。

      ReconVLA:重建式隱式視覺定位的新范式


      為解決上述瓶頸,我們提出ReconVLA,一種重建式(Reconstructive)Vision-Language-Action 模型。其核心思想是:

      不要求模型顯式輸出「看哪里」,而是通過「能否重建目標區域」,來約束模型必須學會精準關注關鍵物體。

      在 ReconVLA 中,動作預測不再是唯一目標。在生成動作表征的同時,模型還需要完成一項輔助任務:

      重建當前時刻所「凝視」的目標區域 ----- 我們稱之為 Gaze Region。

      這一重建過程由輕量級擴散變換器(Diffusion Transformer)完成,并在潛在空間中進行高保真復原。由于要最小化重建誤差,模型被迫在其內部視覺表示中編碼關于目標物體的精細語義與結構信息,從而在注意力層面實現隱式而穩定的對齊。

      這一機制更接近人類的視覺凝視行為,而非依賴外部檢測器或符號化坐標監督。



      方法概覽


      ReconVLA 的整體框架由兩個協同分支組成:

      1. 動作預測分支: 模型以多視角圖像、自然語言指令與機器人本體狀態為輸入,生成動作 token,直接驅動機器人執行操作。

      2. 視覺重建分支: 利用凍結的視覺 tokenizer,將指令關注的目標區域(Gaze region)編碼為高保真潛在 token。主干網絡額外輸出同維度的重建 token,并以此作為條件,引導擴散去噪過程逐步復原目標區域的視覺表示。

      重建損失在像素與潛在空間層面為模型提供了隱式監督,使視覺表征與動作決策在訓練過程中緊密耦合。



      大規模重建預訓練


      為賦予 ReconVLA 穩定的視覺重建與泛化能力,我們構建了一個大規模機器人預訓練數據集:

      • 數據規模:超過 10 萬條交互軌跡,約 200 萬張圖像。
      • 數據來源:BridgeData V2、LIBERO、CALVIN 等開源機器人數據集。
      • 自動化標注:利用微調后的 Grounding DINO 或 Yolo 等方式,從原始圖像中自動生成指令對應的目標物體區域(Gaze region),用于重建監督。

      該預訓練過程不依賴動作標簽,卻顯著提升了模型在視覺重建、隱式 Grounding 以及跨場景泛化方面的能力,并為未來擴展至互聯網級視頻數據奠定了一定基礎。

      實驗結果



      在 CALVIN 仿真基準上,ReconVLA 在長時序任務中顯著優于現有方法:

      • ABC→D 泛化任務:平均完成長度達到3.95,全面領先同期所有對比方法。
      • ABCD→D 長程任務:平均完成長度為4.23,完整任務成功率達70.5%。

      值得一提的是,在 CALVIN 極具挑戰的長程任務「stack block」上我們的方法成功率達到 79.5%,遠高于 Baseline 的 59.3%,這說明我們的局部重建作為隱式監督的方法可以在復雜長程任務中實現更靈活的運動規劃。



      在真實機器人實驗中,我們基于 AgileX PiPer 六自由度機械臂,測試了疊碗、放水果、翻杯與清理餐桌等任務。ReconVLA 在所有任務上均顯著優于 OpenVLA 與 PD-VLA,并在未見物體條件下仍保持 40% 以上的成功率,展現出強大的視覺泛化能力。



      對比于 Explicit Grounding 和 COT Grounding,ReconVLA 在 CALVIN 上獲得了遠高于前兩者的成功率,由此可分析出:

      僅用精細化的目標區域作為模型隱式監督可以實現更加精確的注意力,更高的任務成功率以及更簡單的模型夾構。



      而消融實驗表明:

      1. 全圖重建仍然由于僅有動作監督的基線,因為全圖重建提升了模型的全局感知和理解能力。但由于視覺冗余使得在未知環境下難以展現更好的效果。

      2. 重建目標區域(Gaze region)具有顯著效果,這個機制使得模型專注于目標物體,避免被無關背景干擾。

      3. 大規模預訓練顯著提升了模型在視覺重建,隱式 Grounding 及跨場景泛化的能力。

      總結


      ReconVLA 的核心貢獻并非引入更復雜的結構,而是重新審視了一個基礎問題:機器人是否真正理解了它正在注視的世界。

      通過重建式隱式監督,我們為 VLA 模型提供了一種更自然、更高效的視覺對齊機制,使機器人在復雜環境中做到「看得準、動得穩」。

      我們期待這一工作能夠推動具身智能從經驗驅動的系統設計,邁向更加扎實、可擴展的通用智能研究范式。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      膽子太大了!俄羅斯大V公開炮轟總統,烏軍3月收復770平方公里

      膽子太大了!俄羅斯大V公開炮轟總統,烏軍3月收復770平方公里

      史政先鋒
      2026-03-20 18:58:01
      三個省級黨委領導班子調整

      三個省級黨委領導班子調整

      吉刻新聞
      2026-03-22 13:08:34
      父親來住5天,妻子甩了4天臉色,春節岳父來這住,我連忙收拾行李

      父親來住5天,妻子甩了4天臉色,春節岳父來這住,我連忙收拾行李

      新時代的兩性情感
      2026-03-23 12:46:48
      美國已入死局!現在打,立馬死,不打,過幾年死,只差咱們掀桌子

      美國已入死局!現在打,立馬死,不打,過幾年死,只差咱們掀桌子

      史智文道
      2026-03-23 09:48:01
      印度計劃投資電動汽車1810億,中國商務部一紙公告,莫迪認清現實

      印度計劃投資電動汽車1810億,中國商務部一紙公告,莫迪認清現實

      有范又有料
      2026-03-23 15:53:35
      中國第一網紅車模“獸獸”翟凌在社交平臺宣布回歸,但風格大變

      中國第一網紅車模“獸獸”翟凌在社交平臺宣布回歸,但風格大變

      老吳教育課堂
      2026-03-23 19:38:34
      “一架美國戰斗機被擊落”

      “一架美國戰斗機被擊落”

      第一財經資訊
      2026-03-23 16:15:50
      匈牙利向俄通報消息,特朗普助選歐爾班,這說明什么?

      匈牙利向俄通報消息,特朗普助選歐爾班,這說明什么?

      山河路口
      2026-03-22 18:32:55
      陳云晚年首次披露:遵義會議上這兩個人死活不同意毛主席,吵得面紅耳赤

      陳云晚年首次披露:遵義會議上這兩個人死活不同意毛主席,吵得面紅耳赤

      老杉說歷史
      2026-03-21 17:38:44
      國家發改委約見馬士基CEO

      國家發改委約見馬士基CEO

      新浪財經
      2026-03-23 09:24:45
      西部最新排名:太陽創NBA奇跡,快船收大禮,4-6名差距縮小

      西部最新排名:太陽創NBA奇跡,快船收大禮,4-6名差距縮小

      籃球大視野
      2026-03-23 12:41:27
      蘇超各隊職業名單:方昊、何小珂在列,費爾南多、宋岳入選

      蘇超各隊職業名單:方昊、何小珂在列,費爾南多、宋岳入選

      懂球帝
      2026-03-23 10:58:32
      湖北油價定了:92號汽油每升8.58元,95號汽油每升9.18元,0號柴油每升8.25元,車主加滿一箱92號汽油約需多花46.5元

      湖北油價定了:92號汽油每升8.58元,95號汽油每升9.18元,0號柴油每升8.25元,車主加滿一箱92號汽油約需多花46.5元

      極目新聞
      2026-03-23 17:28:41
      大疆正式起訴影石,法院已立案

      大疆正式起訴影石,法院已立案

      界面新聞
      2026-03-23 11:17:08
      實探杭州“假裝上班公司”:包月有“全勤獎”,老板稱不愿客戶變成真上班,拒絕做違法違規的事

      實探杭州“假裝上班公司”:包月有“全勤獎”,老板稱不愿客戶變成真上班,拒絕做違法違規的事

      極目新聞
      2026-03-22 22:55:43
      入職7天被辭退!老板稱小姑娘情商低,評論區炸鍋:就是想潛規則

      入職7天被辭退!老板稱小姑娘情商低,評論區炸鍋:就是想潛規則

      火山詩話
      2026-03-22 07:56:23
      去深圳才發現:年輕人都不穿耐克、薩洛蒙了,滿街都是這3個品牌

      去深圳才發現:年輕人都不穿耐克、薩洛蒙了,滿街都是這3個品牌

      白宸侃片
      2026-03-11 13:18:49
      從“水貨”到真香!國安“新比埃拉”,踢出了久違的頂級中場靈性

      從“水貨”到真香!國安“新比埃拉”,踢出了久違的頂級中場靈性

      體壇鑒春秋
      2026-03-23 16:43:43
      為紀錄而生!梅西再進任意球獨享歷史第二,超越儒儒尼奧時間問題

      為紀錄而生!梅西再進任意球獨享歷史第二,超越儒儒尼奧時間問題

      月下小生2018
      2026-03-23 17:39:16
      2場17分,再中5記三分!火箭老射手重回輪換,烏度卡一招盤活2陣

      2場17分,再中5記三分!火箭老射手重回輪換,烏度卡一招盤活2陣

      熊哥愛籃球
      2026-03-23 19:42:18
      2026-03-23 20:52:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12576文章數 142591關注度
      往期回顧 全部

      科技要聞

      裁掉2萬多名員工后,扎克伯格對自己下手了

      頭條要聞

      民警在派出所猥褻女孩獲刑兩年九個月 當地政法委回應

      頭條要聞

      民警在派出所猥褻女孩獲刑兩年九個月 當地政法委回應

      體育要聞

      不敢放手一搏,你拿什么去爭冠?

      娛樂要聞

      劉燁47歲生日,安娜曬全家福為其慶生

      財經要聞

      市場見底了嗎?誰在拋售?機構火線解讀

      汽車要聞

      "拒絕"豪車稅 新款Panamera盡享版99.8萬元起精準入局

      態度原創

      房產
      教育
      親子
      游戲
      軍事航空

      房產要聞

      440億!海南又一城城更計劃曝光!TOP10房企巨頭突然殺入!

      教育要聞

      小升初,求梯形的面積?勾股定理

      親子要聞

      男孩生病,他救的小狗守了他一天!

      索尼確認PS主機將搭載AI幀生成技術 或隨PS6亮相?

      軍事要聞

      伊朗回應美方威脅:將在戰場上堅決對抗

      無障礙瀏覽 進入關懷版