<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      SpatialActor通過解耦語義與幾何,為具身智能注入強魯棒空間基因

      0
      分享至



      機器人操作模型雖然在語義理解上取得巨大成功,但往往被困在 2D 圖像的「錯覺」中。現有的機器人操作模型主要依賴 2D 圖像作為輸入,這意味著它們容易丟失關鍵的深度信息和 3D 幾何結構。

      具體而言,基于點云的方法受限于稀疏采樣,導致細粒度語義信息的丟失;基于圖像的方法通常將 RGB 和深度信息輸入到在 3D 輔助任務上訓練的 2D 骨干網絡中,但它們糾纏在一起的語義和幾何特征對現實世界中固有的深度噪聲非常敏感,從而干擾了語義理解。



      圖 1:不同方法的對比

      針對這一痛點,Dexmal 原力靈機作者團隊提出 SpatialActor,該工作核心在于 「解耦」(Disentanglement):它不再將視覺信息混為一談,而是明確地將語義信息(這是什么?)與空間幾何信息(它在哪里?形狀如何?)分離開來,從而實現語義流與空間流的雙流解耦與后期融合。

      作者通過引入顯式的 3D 空間編碼器,并將其與強大的視覺語言模型結合,使機器人不僅能「讀懂」指令,更能「感知」三維空間。作者在包含 50 多個任務的多個仿真和真實世界場景中評估了 SpatialActor。它在 RLBench 上取得了 87.4% 的成績,達到 SOTA 水平;在不同噪聲條件下,性能提升了 13.9% 至 19.4%,展現出強大的魯棒性。目前該論文已被收錄為 AAAI 2026 Oral,并將于近期開源。



      • 論文名稱:SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
      • 論文鏈接:https://arxiv.org/abs/2511.09555
      • 項目主頁:https://shihao1895.github.io/SpatialActor/

      方法與架構

      作者認為,機器人操作本質上需要兩種能力的協同:一是對任務目標的語義理解(由 VLM 提供),二是對環境幾何的精確把控(由 3D 表征提供)。SpatialActor 并沒有試圖訓練一個全能的端到端網絡,而是采用了一種「雙流解耦 - 融合」的架構設計。

      整體架構



      圖 2:SpatialActor 架構概覽

      該架構采用了獨立的視覺與深度編碼器。語義引導幾何模塊(SGM)通過門控融合機制,將來自預訓練深度專家的魯棒但缺乏細粒度信息的幾何先驗與含噪但有逐像素細節的深度特征自適應地結合,從而生成高層幾何表征。

      在空間 Transformer(SPT)中,低層空間線索被編碼為位置嵌入,用以驅動空間交互。最后,視圖級交互優化了視圖內的特征,而場景級交互則整合了跨視圖的跨模態信息,為后續的動作頭提供支持。

      語義引導幾何模塊(SGM)

      由于傳感器的局限性和環境干擾,現實世界的深度測量往往含有噪聲,而 RGB 圖像則能提供高信噪比的語義線索。大規模預訓練深度估計模型學習到了平滑的 “語義到幾何” 映射,能夠提供魯棒且通用的幾何先驗。相比之下,原始深度特征雖然保留了細粒度的像素級細節,但對噪聲高度敏感。

      為此,SGM 模塊通過一個凍結的大規模預訓練深度估計專家模型從 RGB 輸入中提取魯棒但粗粒度的幾何先驗,同時利用深度編碼器從原始深度中提取細粒度但含噪的幾何特征。如圖 3 (a) 所示,SGM 模塊通過一個多尺度門控機制自適應地融合這些特征,從而生成優化后的幾何表征;該表征在保留細微細節的同時降低了噪聲,并與語義線索保持對齊。



      圖 3:語義引導幾何模塊和空間 Transformer

      空間 Transformer(SPT)

      如圖 3 (b) 所示,SPT 模塊旨在建立精確的 2D 至 3D 映射并融合多模態特征,是生成精準動作的關鍵。首先,模塊將視覺得到的空間特征與機器人本體感知信息(如關節狀態)融合。利用相機內外參矩陣和深度信息,模型將圖像像素坐標轉換為機器人基座坐標系下的三維坐標,并采用旋轉位置編碼技術將這些三維幾何信息嵌入特征中,賦予其低層的空間感知。

      在特征交互層面,SPT 依次執行視圖級和場景級注意力機制:前者優化單視圖內部表征,后者聚合所有視圖與語言指令特征,實現跨模態的全局上下文融合。最終,解碼器通過預測熱力圖確定動作的三維平移位置,并基于該位置的局部特征回歸計算旋轉角度和夾爪開閉狀態,完成端到端的動作生成。

      實驗結果

      為了全面評估 SpatialActor 的有效性,作者在仿真和真實世界環境中均開展了實驗,既比較其與當前最先進方法的表現,也考察其在噪聲干擾下的魯棒性,并進一步驗證其在真實機器人上的實際表現。

      仿真基準測試結果



      表 1:RLBench 仿真測試結果

      作者給出了 SpatialActor 在 18 個 RLBench 任務及其 249 種變體上的成功率。SpatialActor 取得了最佳的整體性能,超越了此前的 SOTA 模型 RVT-2 6.0%。值得注意的是,在諸如 Insert Peg(插銷釘)和 Sort Shape(形狀分類)等需要高空間精度的任務中,SpatialActor 的表現分別優于 RVT-2 53.3% 和 38.3%。

      不同程度噪聲下的表現



      表 2:不同程度噪聲下的表現

      在噪聲實驗中,作者通過加入不同強度的高斯擾動模擬噪聲。結果表明,無論是輕度、中度還是重度噪聲,SpatialActor 的表現都始終明顯優于 RVT-2,平均成功率分別提升 13.9%、16.9% 和 19.4%。在諸如 Insert Peg(插銷釘)這類需要高精度對位的任務中,這一差距更為突出,在三檔噪聲下分別高出 88.0%、78.6% 和 61.3%,展現出對噪聲干擾的強魯棒性。

      真機實驗結果



      圖 4:真機任務

      在真機實驗中,作者使用一臺配備 Intel RealSense D435i RGB-D 相機的 WidowX 單臂機器人;并采用 8 個不同的任務,共計 15 種變體。



      表 6:真機結果

      真機實驗結果如表 6 所示,SpatialActor 的表現持續優于 RVT-2,各任務平均提升約 20%,證明其在真實場景中的有效性。為了評估針對分布變化的魯棒性,作者在被操作物體、接收物體、光照和背景發生變化的情況下對 SpatialActor 進行了測試。在這些多樣且極具挑戰性的條件下,SpatialActor 始終保持了高水平表現,有力證明了其在復雜真實世界場景中的強大魯棒性與泛化能力。

      結論

      在本文中,作者提出了 SpatialActor,這是一個用于機器人操作的魯棒空間表征框架,旨在解決精確空間理解、傳感器噪聲以及有效交互帶來的挑戰。SpatialActor 將語義信息與幾何信息進行了解耦,并將幾何分支劃分為高層和低層兩個組件:SGM 將語義引導的幾何先驗與原始深度特征自適應融合,以構建魯棒的高層幾何;而 SPT 則通過位置感知交互捕捉低層空間線索。

      在 50 多個仿真和真實世界任務上進行的廣泛實驗表明,SpatialActor 在多樣化的條件下均取得了更高的成功率和強大的魯棒性。這些結果凸顯了解耦的空間表征對于開發更加魯棒且具備泛化能力的機器人系統的重要性。

      附論

      機器人操作可以分解為兩個維度:空間感知與時序理解。前者關注如何將視覺與語言映射為精確的 6-DoF 位姿,實現對當前場景的物理 Grounding;后者則需要基于當前與過往的歷史狀態,連續做出多個決策以完成長期目標。



      但是,真實世界的操作并非靜態的空間問題,而是貫穿時間的連續過程。機器人不僅要抓得準,還必須記得住之前的關鍵狀態,才能在長程任務中真正抓得對。這使得記憶機制成為連接空間操作與長程決策的關鍵能力。

      受人類大腦「工作記憶」與「海馬體」記憶機制的啟發,作者團隊還提出了 MemoryVLA,創新性地引入「感知 - 認知記憶」到 VLA,在決策時智能地從記憶庫中「回憶」相關歷史信息,實現時序感知的決策。更多信息可以參考:

      • 論文:https://arxiv.org/abs/2508.19236
      • 項目主頁:https://shihao1895.github.io/MemoryVLA
      • GitHub:https://github.com/shihao1895/MemoryVLA

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      睡覺時盡量把腳露在外面,有什么作用,醫生:經常失眠或與肝相關

      睡覺時盡量把腳露在外面,有什么作用,醫生:經常失眠或與肝相關

      荊醫生科普
      2026-03-13 22:00:09
      你以為麻豆傳媒是賣片的,其實它是賣人的

      你以為麻豆傳媒是賣片的,其實它是賣人的

      創始人筆記
      2026-04-23 21:44:50
      我們贏了!突破摩爾定律限制,中國研制出全球首款二維半導體芯片

      我們贏了!突破摩爾定律限制,中國研制出全球首款二維半導體芯片

      蜉蝣說
      2026-03-31 14:45:26
      賣光主力,連替補也不放過,花600萬請個“常駐醫院”的頂薪先生

      賣光主力,連替補也不放過,花600萬請個“常駐醫院”的頂薪先生

      畫夕
      2026-04-26 20:59:22
      寶視達回應“鏡片裝反孩子近視暴漲到900度”:出廠交付時不存在鏡片裝反情況,愿退還配鏡費用贈送1000元眼鏡及感謝金

      寶視達回應“鏡片裝反孩子近視暴漲到900度”:出廠交付時不存在鏡片裝反情況,愿退還配鏡費用贈送1000元眼鏡及感謝金

      極目新聞
      2026-04-26 09:13:09
      連續8年無緣世錦賽8強!丁俊暉輸球原因曝光,趙心童對手已確定

      連續8年無緣世錦賽8強!丁俊暉輸球原因曝光,趙心童對手已確定

      侃球熊弟
      2026-04-26 19:55:28
      13比9!趙心童戰勝丁俊暉闖入斯諾克世錦賽八強

      13比9!趙心童戰勝丁俊暉闖入斯諾克世錦賽八強

      劉哥談體育
      2026-04-27 00:48:15
      胡錫進否認自己有老干部病房vip待遇,但消炎藥卻用124元一盒的

      胡錫進否認自己有老干部病房vip待遇,但消炎藥卻用124元一盒的

      映射生活的身影
      2026-04-26 20:57:40
      14歲少女凍死野外,法醫在頭頂發現兩枚鐵釘,這隱藏了什么罪惡?

      14歲少女凍死野外,法醫在頭頂發現兩枚鐵釘,這隱藏了什么罪惡?

      路之意
      2026-03-25 04:56:34
      TVB兩大女星合拍內衣廣告!在床上互動打鬧視頻曝光!大曬事業線和白滑美腿!

      TVB兩大女星合拍內衣廣告!在床上互動打鬧視頻曝光!大曬事業線和白滑美腿!

      我愛追港劇
      2026-04-26 22:05:44
      B站最無聊的UP主,拋了十萬次硬幣證明正反面概率不是1比1

      B站最無聊的UP主,拋了十萬次硬幣證明正反面概率不是1比1

      17173游戲網
      2026-04-21 13:44:24
      A股:剛剛,重要消息傳來,核心信號落地,周一行情后市走向預判

      A股:剛剛,重要消息傳來,核心信號落地,周一行情后市走向預判

      云鵬敘事
      2026-04-27 00:00:06
      身體這處毛發變白,暗示活得不長?看看你白了沒有

      身體這處毛發變白,暗示活得不長?看看你白了沒有

      白話電影院
      2026-04-05 22:42:04
      1小時59分30秒!人類馬拉松正式破2,薩維比基普圖姆更有天賦嗎?

      1小時59分30秒!人類馬拉松正式破2,薩維比基普圖姆更有天賦嗎?

      仰臥撐FTUer
      2026-04-26 20:26:11
      麻豆傳媒徹底關停!是什么把它逼上絕路?

      麻豆傳媒徹底關停!是什么把它逼上絕路?

      牲產隊
      2026-04-09 15:05:30
      2013年攤販殺死兩名城管判死刑,其子被伊能靜認養,如今怎樣了?

      2013年攤販殺死兩名城管判死刑,其子被伊能靜認養,如今怎樣了?

      莫地方
      2026-04-25 00:10:03
      烏軍曝出丑聞,西爾斯基怒不可遏:所有指揮官撤職查辦!

      烏軍曝出丑聞,西爾斯基怒不可遏:所有指揮官撤職查辦!

      史政先鋒
      2026-04-25 20:38:13
      離譜!lululemon “甘露寺同款”!網友:中產穿上原地出家了~

      離譜!lululemon “甘露寺同款”!網友:中產穿上原地出家了~

      LOGO研究所
      2026-04-25 21:47:32
      女子花近20萬住進月子中心,配餐是臭的,吃出碎陶瓷片,換店后嬰兒床有書虱!寶寶大小臉、歪脖子,月子中心:正常情況,不要焦慮

      女子花近20萬住進月子中心,配餐是臭的,吃出碎陶瓷片,換店后嬰兒床有書虱!寶寶大小臉、歪脖子,月子中心:正常情況,不要焦慮

      大象新聞
      2026-04-26 15:13:15
      大爆冷!東部第一無情倒下!8換1交易太值了,騎士和哈登機會來了

      大爆冷!東部第一無情倒下!8換1交易太值了,騎士和哈登機會來了

      籃球掃地僧
      2026-04-26 22:43:23
      2026-04-27 02:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12855文章數 142636關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      頭條要聞

      特朗普內閣又一女部長落馬:強迫男下屬為其提供性服務

      體育要聞

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      娛樂要聞

      僅次《指環王》的美劇,有第二季

      財經要聞

      事關新就業群體,中辦、國辦發文

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      家居
      藝術
      時尚
      親子
      公開課

      家居要聞

      自然肌理 溫潤美學

      藝術要聞

      72米舞臺被拆!華晨宇這次玩文旅,翻車了!

      比闊腿褲還時髦?今年夏天一定要有“這條褲子”,減齡又松弛

      親子要聞

      爸爸買的餐椅太好了,早知道早買了#餐椅 #寶寶板凳 #寶寶吃飯 #寶媽推薦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 博兴县| 久久av无码精品人妻出轨| 国产av国片精品一区二区| 成年男女免费视频网站| 好吊av| 18无码粉嫩小泬无套在线观看| av在线无码| 中文字幕天无码久久精品视频免费| 日韩伦人妻无码| 四虎成人精品无码永久在线| 亚洲日韩av无码一区二区三区| 91丝袜视频| 无码人妻aⅴ一区二区三区用会员| 精品人妻少妇| 一个色的导航| AV无码免费不卡在线观看| 精品人无码一区二区三区| 精品乱人伦一区二区三区| 中文字幕人妻综合另类| 国产激情视频在线观看首页| 成全在线电影在线观看| 嫖妓丰满肥熟妇在线精品| 最爽free性欧美人妖| 一本加勒比hezyo无码人妻| 国产V片| 国产精品毛片一区二区在线看 | 丁香婷婷综合激情五月色| 激情内射亚洲一区二区三区| 久久一本人碰碰人碰| 醉酒后少妇被疯狂内射视频| 日韩城人网站| 国产香蕉九九久久精品免费| 伊人久久大香线蕉亚洲五月天| 精品国产一卡2卡3卡4卡新区| 国产情侣草莓视频在线| www.男人的天堂| 亚洲人成伊人成综合网小说| 五月婷婷开心| 95国产精品| 色www88| 中文字幕一区av97|