<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      機器人不抓瞎了!清華系創企提出全新VLA框架,讓模型看懂三維世界

      0
      分享至

      機器人前瞻(公眾號:robot_pro)
      作者 許麗思
      編輯 漠影

      機器人前瞻12月25日報道,近日,Dexmal 原力靈機作者團隊提出一種全新的 VLA 框架 GeoVLA,它在保留現有視覺-語言模型(VLM)的預訓練能力的同時,采用了一種雙流架構(Dual-path Architecture)。


      在具身智能的浪潮中,VLA 模型被視為通往通用機器人的快車道。然而,隨著研究深入到非結構化環境,現有 VLA 模型面臨著一個嚴重的維度缺陷:空間失明。

      目前,大多數 VLA 模型(比如 OpenVLA、RT-2、Pi0、Pi05)單純依賴 2D RGB 圖像作為視覺輸入,導致模型眼中的世界“紙片化”,嚴重缺乏深度信息和幾何先驗;由此帶來的后果是:

      • 深度感知缺失:面對需要精確距離判斷的任務,比如精準投籃、掛扣環,2D 模型往往“抓瞎”,無法準確預測 Z 軸的動作。
      • 空間適應性差:一旦物體尺寸發生變化(Scale Variance)或相機視角發生偏移(Viewpoint Shift),便無法理解物體在空間中的本質位置,導致任務失敗。

      而GeoVLA 在保留 VLM 強大的語義理解能力的同時,引入專用的點云嵌入網絡 PEN 和空間感知動作專家 3DAE,直接利用深度圖生成的點云數據,賦予機器人真正的三維幾何感知能力。

      這一設計不僅在仿真環境中取得 SOTA,更在真實世界的魯棒性測試中,特別是在視角改變和物體尺度變化的極端條件下,展現出較強適應力。

      • 論文名稱: GeoVLA: Empowering 3D Representation in Vision-Language-Action Models
      • 論文鏈接: https://arxiv.org/html/2508.09071v2
      • 項目主頁: https://linsun449.github.io/GeoVLA/
      一、將任務解耦,打造全新的端到端框架

      常見的做法試圖讓一個 VLM 既懂語義又懂幾何,這往往顧此失彼;GeoVLA 的核心邏輯是選擇把任務解耦:讓 VLM 負責“看懂是什么”,讓點云網絡負責“看清在哪里”。


      ▲GeoVLA 框架圖

      GeoVLA 是一個全新的端到端框架,其流程包含三個關鍵組件的協同工作:

      • 語義理解流:利用預訓練的 VLM(如 Prismatic-7B)處理 RGB 圖像和語言指令,提取融合后的視覺-語言特征。
      • 幾何感知流:利用點云嵌入網絡 PEN 處理由深度圖轉換而來的點云,獨立提取高精度的 3D 幾何特征。
      • 動作生成流:通過3D 增強動作專家 3DAE 融合上述兩種特征,生成精確的動作序列。
      二、點云嵌入網絡 PEN專為機器人操作設計

      原始深度圖往往包含大量噪聲,且數據稀疏,直接作為輸入效果不佳。點云嵌入網絡 PEN 專為機器人操作設計,采用雙路徑架構來提取干凈且緊湊的幾何特征:

      • 幾何特征提取:使用大核卷積和局部池化的輕量級 CNN,將非結構化的點云編碼為 Patch 級別的幾何 Token。
      • 空間位置編碼:引入在大語言模型中常見的旋轉位置編碼 RoPE,它能極好地保留 3D 空間中的相對位置信息,這對于操作任務至關重要。


      ▲雙路徑點云嵌入網絡細節圖

      空間錨點(Spatial Anchor)設計是 PEN 的一大亮點。作者團隊并沒有簡單地對所有點云特征進行平均池化,而是選擇對應于末端執行器坐標原點的 Token 作為“錨點”。這種以“手”為中心的視角設計,讓模型能夠顯式地建模“手”與“物體”之間的幾何關系,大幅提升操作精度。

      三、3D 增強動作專家 3DAE

      特征提取只是第一步,如何有效融合 RGB 的語義信息和點云的幾何信息,實現1+1>2的效果,是多模態研究當中的難點。作者團隊在動作生成端采用基于擴散 Transformer (DiTs) 的架構,并創新性地引入混合專家 (MoE) 機制。

      • 靜態路由策略 (Static Routing):這是一個直覺且有效的策略。在訓練過程中,由于 VLM 分支是預訓練的,而點云分支是從頭開始學,如果使用常規的動態路由,模型會傾向于走捷徑,只依賴 VLM 分支,忽略點云信息。
      • 強制解耦:作者團隊采用了靜態路由,隨機丟棄某種模態,逼迫模型必須學會獨立利用幾何信息來解決問題,從而確保了雙流信息的有效融合。
      四、實驗結果相對傳統 2D VLA 模型的壓倒性優勢

      GeoVLA 在仿真和真機實驗中均展現出對傳統 2D VLA 模型的壓倒性優勢,證明顯式 3D 表征在復雜操作中的不可替代性。

      仿真環境測試結果


      ▲LIBERO 評測結果

      在 LIBERO 基準測試中,GeoVLA 超越所有任務套件。在最具挑戰性的 LIBERO-90(長程多任務)中,GeoVLA 達到 97.7% 的成功率,超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。


      ▲ManiSkill2 評測結果

      在物理仿真更為逼真的 ManiSkill2 中,GeoVLA 優勢更加明顯,平均成功率達到 77%,大幅領先 Dita (66%) 和 CogACT (69%);特別是在 PickClutterYCB 這種物體堆疊雜亂、遮擋嚴重的任務中,GeoVLA 憑借點云帶來的幾何理解,保持了極高的操作精度。

      真機環境與魯棒性測試


      ▲真機實驗任務的變體展示

      作者團隊使用 WidowX-250s 機械臂進行了廣泛的真機測試;實驗被分為“基礎任務”和“3D 感知任務”。在域內任務中,GeoVLA 在基礎任務上平均成功率 95.0%,在 3D 感知任務上為 77.5%,總體平均 86.3%,大幅領先 Pi0 (57.5%) 和 CogACT (76.3%)。特別是在 Put Basketball 和 Put Hairclip 等需要精確空間理解的任務中,GeoVLA 表現出更好的魯棒性。


      ▲真機任務評測結果

      更令人印象深刻的是 GeoVLA 在分布外(OOD)場景下的魯棒性,這也是 GeoVLA 最核心的突破點:


      ▲左:投籃任務變體的評測結果;右:套娃任務變體的評測結果

      • 投籃任務變體(高度變化):當籃筐高度被調整到訓練數據未覆蓋的最高位置 (H1) 時,依賴 2D 視覺的 CogACT 和 Pi0 徹底失效,成功率降至 20%;而 GeoVLA 憑借點云信息,依然保持 60% 的成功率。
      • 套娃任務變體(尺寸變化):面對比訓練時大一號的套娃,2D 模型往往因為像素特征不匹配而無法識別;GeoVLA 則通過幾何形狀匹配,保持了 80% 的高成功率。
      • 堆疊積木任務變體(視角變化):堆疊積木時,當相機視角偏移 45°,CogACT 成功率直接歸零,說明 2D 模型極度依賴特定視角的像素記憶;而 GeoVLA 依然穩健,保持 70% 的成功率,證明其學到了真正的 3D 空間結構。
      • 胡蘿卜任務變體(移除海綿墊):訓練時使用的海綿墊在推理階段被移除,胡蘿卜位置被降低,導致大多數方法抓取胡蘿卜失敗;GeoVLA 則能更穩定且成功抓取,展現出更強的泛化能力。
      五、結語: VLA 模型從“看圖說話”向“空間智能跨越

      GeoVLA通過引入點云嵌入網絡 PEN 和 3D 增強動作專家 3DAE,成功打破 VLA 模型在 3D 物理世界中的“感知壁壘”。

      這項工作證明了,在端到端的機器人學習中,顯式引入 3D 幾何表征是提升模型泛化能力和魯棒性的關鍵。GeoVLA 不僅解決了傳統 VLA 模型“看得見但摸不準”的難題,更為未來具身智能邁向更復雜、更開放的非結構化環境提供了一種高效解決方案。

      特別是其雙路徑并行設計和靜態路由策略,為多模態融合提供了一個極具參考價值的范式:既保留了大模型的通用語義知識,又補齊了物理世界的幾何常識。對于追求精確操控的具身智能領域而言,GeoVLA 可能是一個重要的里程碑,標志著 VLA 模型從“看圖說話”向“空間智能”的實質性跨越。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      呆呆榜一“伙夫哥”續接殺豬飯,18日大擺5000桌,不用報名直接來

      呆呆榜一“伙夫哥”續接殺豬飯,18日大擺5000桌,不用報名直接來

      鋭娛之樂
      2026-01-13 13:56:21
      熱搜!iPhone 4回收價最高漲60倍

      熱搜!iPhone 4回收價最高漲60倍

      北京商報
      2026-01-12 19:22:51
      閆學晶道歉,像領導對老百姓講話

      閆學晶道歉,像領導對老百姓講話

      智識漂流
      2026-01-13 20:24:11
      他逃亡16年,靠贓款娶4個漂亮老婆生12個娃,被捕時身家有幾個億

      他逃亡16年,靠贓款娶4個漂亮老婆生12個娃,被捕時身家有幾個億

      小熊侃史
      2026-01-12 07:30:14
      中方直說了,中菲已被推向戰爭邊緣:找100個幫手我們也奉陪到底

      中方直說了,中菲已被推向戰爭邊緣:找100個幫手我們也奉陪到底

      科普100克克
      2026-01-13 17:53:01
      1月13日俄烏:超過122萬損失的新紀錄

      1月13日俄烏:超過122萬損失的新紀錄

      山河路口
      2026-01-13 19:26:02
      新款特斯拉 Model Y 七座版上架!離譜

      新款特斯拉 Model Y 七座版上架!離譜

      花果科技
      2026-01-13 15:32:02
      雪上加霜,閆學晶帳戶被禁止關注,多家公司被曝,王麗云說得沒錯

      雪上加霜,閆學晶帳戶被禁止關注,多家公司被曝,王麗云說得沒錯

      徐幫陽
      2026-01-13 17:55:03
      俄國人預測外蒙古可能回歸中國,甚至連遠東一并歸還!

      俄國人預測外蒙古可能回歸中國,甚至連遠東一并歸還!

      回京歷史夢
      2026-01-13 14:28:00
      朱雨玲奪冠不到24小時,惡心一幕發生,遭殃的何止孫穎莎、王曼昱

      朱雨玲奪冠不到24小時,惡心一幕發生,遭殃的何止孫穎莎、王曼昱

      李健政觀察
      2026-01-13 11:01:43
      “田樸珺們”的上位:這些真相,沒人敢明說

      “田樸珺們”的上位:這些真相,沒人敢明說

      紅大娘娛樂
      2026-01-12 22:10:28
      24-15!打臉杜蘭特!超級血賺重磅大交易

      24-15!打臉杜蘭特!超級血賺重磅大交易

      籃球實戰寶典
      2026-01-13 17:50:02
      A股:做好心理預期,明天(1月14日),會有更大級別的波動?

      A股:做好心理預期,明天(1月14日),會有更大級別的波動?

      財經大拿
      2026-01-13 13:37:03
      多個省會城市政府主要領導調整

      多個省會城市政府主要領導調整

      上觀新聞
      2026-01-13 17:55:07
      錢再多有什么用,64歲郎平如今的現狀,給所有運動員們提了個醒

      錢再多有什么用,64歲郎平如今的現狀,給所有運動員們提了個醒

      削桐作琴
      2025-12-10 16:53:18
      四年跳三級!馬龍執教生涯第一枚棋,或許押在了20歲林詩棟身上

      四年跳三級!馬龍執教生涯第一枚棋,或許押在了20歲林詩棟身上

      籃球看比賽
      2026-01-13 11:19:44
      44歲名宿出任曼聯新帥!擊敗索肖+首秀戰曼城,弗萊徹僅8天便下課

      44歲名宿出任曼聯新帥!擊敗索肖+首秀戰曼城,弗萊徹僅8天便下課

      我愛英超
      2026-01-13 18:26:12
      記者:馬爾穆什被推薦給加拉塔薩雷,球員僅考慮租借離開曼城

      記者:馬爾穆什被推薦給加拉塔薩雷,球員僅考慮租借離開曼城

      懂球帝
      2026-01-13 18:04:23
      立陶宛駐日大使在日本成人日公開自己女兒的和服照片,引熱議

      立陶宛駐日大使在日本成人日公開自己女兒的和服照片,引熱議

      隨波蕩漾的漂流瓶
      2026-01-13 18:10:51
      瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質極佳

      瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質極佳

      古書記史
      2026-01-06 16:31:56
      2026-01-13 21:43:00
      機器人前瞻
      機器人前瞻
      專注于機器人報道的媒體
      300文章數 7關注度
      往期回顧 全部

      科技要聞

      每年10億美元!谷歌大模型注入Siri

      頭條要聞

      李在明訪日與高市早苗會談 提到中國

      頭條要聞

      李在明訪日與高市早苗會談 提到中國

      體育要聞

      他帶出國乒世界冠軍,退休后為愛徒返場

      娛樂要聞

      蔡卓妍承認新戀情,與男友林俊賢感情穩定

      財經要聞

      "天量存款"將到期 資金會否搬入股市?

      汽車要聞

      限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

      態度原創

      旅游
      健康
      手機
      房產
      軍事航空

      旅游要聞

      已達42000萬只!昆明進入最佳觀鷗期,持續至……

      血常規3項異常,是身體警報!

      手機要聞

      榮耀、OPPO、vivo、華為四強爭霸,誰才是真正的“線下之王”?

      房產要聞

      又一新校開建!海口這一片區,迎來教育重磅升級!

      軍事要聞

      美媒:美對伊朗行動選項"遠超傳統空襲"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲人人妻| 久久人人爽人人爽av片| 伊人激情av一区二区三区| 天堂在线V| 亚洲精品系列| 国产免费高清69式视频在线观看| 亚洲成aⅴ人在线观看| 亚洲精品无码专区在线| 色综合久久久久久久久久 | 黑人巨大精品欧美一区二区| 国产jizz| 国产做无码视频在线观看| av色蜜桃一区二区三区| 国产高潮视频在线观看| 免费情侣作爱视频| 18岁日韩内射颜射午夜久久成人| 欧美日韩在线视频| 国产免费AV网站| 国产成人无码性教育视频| www.youjizz日本| 国产亚洲一在无在线观看| 五月综合激情婷婷六月| 国产成人无码精品午夜福利a| 中文有无人妻VS无码人妻激烈| 美日韩精品综合一区二区| 国产精品久久久久9999吃药 | 精品毛片日| 一本大道中文字幕无码29| 四虎影视214hu永久免费观看| www插插插无码免费视频网站| 国产超碰在线| 亚洲www啪成人一区二区| 人人澡超碰碰97碰碰碰| 熟女人妻aⅴ一区二区三区电影 | 日韩色美女| 吉林省| 亚洲欧美日韩人成在线播放| 久久精品国产999大香线焦| 日韩综合色中色| 妖精色av无码国产在线看| 免费乱理伦片在线观看|