<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      突破模型瓶頸:QDepth-VLA讓機(jī)器人擁有更精準(zhǔn)的3D空間感知

      0
      分享至



      視覺-語言-動(dòng)作模型(VLA)在機(jī)器人操控領(lǐng)域展現(xiàn)出巨大潛力。通過賦予預(yù)訓(xùn)練視覺-語言模型(VLM)動(dòng)作生成能力,機(jī)器人能夠理解自然語言指令并在多樣化場(chǎng)景中展現(xiàn)出強(qiáng)大的泛化能力。然而,這類模型在應(yīng)對(duì)長(zhǎng)時(shí)序或精細(xì)操作任務(wù)時(shí),仍然存在性能下降的現(xiàn)象。

      這種現(xiàn)象的根源在于,模型雖具備語義理解能力,卻缺乏對(duì)三維空間的幾何感知與推理能力,導(dǎo)致其難以準(zhǔn)確捕捉如機(jī)械臂夾爪與物體之間相對(duì)位置關(guān)系等關(guān)鍵三維信息。

      為此,由中國科學(xué)院自動(dòng)化研究所與靈寶 CASBOT 共同提出了QDepth-VLA—— 一種結(jié)合量化深度預(yù)測(cè)(Quantized Depth Prediction) 的 3D 信息增強(qiáng)型 VLA 模型。它通過獨(dú)立的Depth Expert模塊來學(xué)習(xí)離散化的深度表示。這種設(shè)計(jì)在保持原有語義對(duì)齊能力的同時(shí),顯著提升了機(jī)器人在復(fù)雜操作場(chǎng)景下的空間推理與操控精度。



      • 論文標(biāo)題:QDepth-VLA: Quantized Depth Prediction as Auxiliary Supervision for Vision–Language–Action Models
      • 論文鏈接:https://arxiv.org/pdf/2510.14836

      研究背景

      如何讓模型具備真實(shí)三維空間理解能力,一直是視覺 - 語言 - 動(dòng)作領(lǐng)域面臨的關(guān)鍵挑戰(zhàn)。盡管 VLA 模型在語義理解與指令跟隨方面取得了顯著進(jìn)展,但其空間感知能力仍然有限。當(dāng)任務(wù)涉及精細(xì)化或長(zhǎng)時(shí)程多步驟操作時(shí),模型往往難以建立穩(wěn)定的三維幾何關(guān)聯(lián),導(dǎo)致定位誤差和操作失敗。

      為填補(bǔ)二維視覺語義理解與 3D 空間感知之間的鴻溝,研究者近年開始探索將三維信息融入 VLA 模型的多種路徑。主流方向可分為三類:

      1. 直接注入 3D 特征。這類方法通常將點(diǎn)云或深度圖編碼為三維特征,再與 VLM 主干網(wǎng)絡(luò)或動(dòng)作專家模塊融合,從而顯式引入幾何信息。盡管能夠提供更豐富的空間線索,但這種方式顯著增加了模型復(fù)雜度,并可能破壞大規(guī)模 VLM 預(yù)訓(xùn)練中形成的二維視覺先驗(yàn)。

      2.3D 特征投影方法。另一類方法將三維特征投影為多視角二維圖像,再輸入原有視覺 - 語言結(jié)構(gòu)。該策略在最大程度上保持了 VLM 的視覺語言能力,但投影過程不可避免地造成信息損失,難以保留細(xì)粒度的空間幾何特征。

      3. 輔助 3D 視覺預(yù)測(cè)任務(wù)。相比直接融合 3D 特征,最新的趨勢(shì)是通過引入輔助任務(wù)(如深度估計(jì)或未來場(chǎng)景預(yù)測(cè))來隱式強(qiáng)化模型的三維空間理解。這種方式無需額外傳感器輸入,具有更好的兼容性與可擴(kuò)展性,是一條更具潛力的研究路線。

      然而,已有工作表明,這類基于深度預(yù)測(cè)的輔助監(jiān)督并非總能帶來性能提升。例如,DreamVLA 等研究發(fā)現(xiàn),直接以像素級(jí)深度圖作為輔助任務(wù)可能引入噪聲監(jiān)督或冗余信號(hào),反而削弱模型的策略學(xué)習(xí)穩(wěn)定性。因此,如何設(shè)計(jì)更高效、語義一致的深度監(jiān)督機(jī)制,使 VLA 在保持二維視覺語義理解的同時(shí)獲得穩(wěn)健的三維感知能力,仍然是當(dāng)前研究的核心難題。

      方法設(shè)計(jì)

      為解決深度預(yù)測(cè)輔助任務(wù)存在的監(jiān)督噪聲和信號(hào)冗余問題,中國科學(xué)院自動(dòng)化研究所與靈寶 CASBOT 共同提出了QDepth-VLA,通過引入量化深度預(yù)測(cè)機(jī)制與混合注意力結(jié)構(gòu),使模型在保持語義一致性的同時(shí),獲得穩(wěn)健的三維空間感知與動(dòng)作決策能力。整體方法包括三部分 (如圖):



      1.深度圖標(biāo)注

      首先采用 Video-Depth-Anything 對(duì)視頻幀進(jìn)行高精度深度標(biāo)注,顯著提升了時(shí)空一致性,從源頭上減少了噪聲和漂移。

      2.深度量化與 Depth Expert

      為了避免直接預(yù)測(cè)像素級(jí)深度圖的噪聲干擾,首先分別利用標(biāo)注好的數(shù)據(jù)集分別訓(xùn)練對(duì)應(yīng)的 VQ-VAE,之后使用 VQ-VAE 對(duì)深度圖進(jìn)行離散化編碼,將其轉(zhuǎn)化為結(jié)構(gòu)化的深度 token。模型優(yōu)化目標(biāo)如下:





      設(shè)計(jì)了獨(dú)立的 Depth Expert 模塊,其結(jié)構(gòu)與 Action Expert 相似,均基于 Transformer 架構(gòu),用于預(yù)測(cè)深度 token,從而在不干擾視覺 - 語言主干的前提下提供穩(wěn)定的幾何感知信號(hào)。

      3.混合注意力機(jī)制

      為實(shí)現(xiàn)跨模態(tài)融合,減小深度模態(tài)可能存在的噪聲干擾,團(tuán)隊(duì)還設(shè)計(jì)了Hybrid Attention Mask,在不同模態(tài)間調(diào)控信息流:

      • 文本與圖像 token 僅在各自模態(tài)內(nèi)自注意,保持語義一致性;
      • 深度 token 同時(shí)關(guān)注圖像與文本,獲得語義上下文;
      • 動(dòng)作 token 則融合前述所有模態(tài),實(shí)現(xiàn)視覺 — 深度 — 動(dòng)作一體化建模。

      這種塊狀注意力設(shè)計(jì)有效防止深度噪聲干擾動(dòng)作生成,同時(shí)保持不同模態(tài)之間的對(duì)齊能力。

      4.聯(lián)合優(yōu)化目標(biāo)

      整體訓(xùn)練目標(biāo)整合動(dòng)作與深度兩類監(jiān)督信號(hào):





      通過上述設(shè)計(jì),QDepth-VLA 實(shí)現(xiàn)了視覺語義、空間幾何與動(dòng)作策略的協(xié)同學(xué)習(xí),在多任務(wù)、多場(chǎng)景中展現(xiàn)出更強(qiáng)的泛化與穩(wěn)定性。

      實(shí)驗(yàn)驗(yàn)證

      為全面評(píng)估 QDepth-VLA 的性能,團(tuán)隊(duì)在兩個(gè)主流機(jī)器人仿真環(huán)境 (SimplerLIBERO) 與真實(shí)環(huán)境下進(jìn)行了測(cè)試,涵蓋多種物體抓取、空間定位與多步操作任務(wù)。結(jié)果顯示,QDepth-VLA 在不同測(cè)試平臺(tái)上均取得了顯著提升。

      這些結(jié)果驗(yàn)證了該方法能夠有效提升模型在長(zhǎng)時(shí)程、多場(chǎng)景操作任務(wù)中的任務(wù)完成能力。

      1. Simpler 仿真結(jié)果

      在 Simpler 任務(wù)中,分別基于 Bridge V2 與 Fractal 數(shù)據(jù)集從頭訓(xùn)練了 QDepth-VLA。實(shí)驗(yàn)結(jié)果表明,在 Simpler 仿真器 的 WidowX250 與 Google Robot 任務(wù)上,相比基礎(chǔ)模型 Open π0,平均成功率分別提升了8.5% 與 3.7%





      2. LIBERO 仿真結(jié)果

      而在 LIBERO 任務(wù)中,QDepth-VLA 則在 Fractal 數(shù)據(jù)集小規(guī)模預(yù)訓(xùn)練得到的權(quán)重基礎(chǔ)上,進(jìn)一步在對(duì)應(yīng)的 LIBERO 數(shù)據(jù)集上進(jìn)行微調(diào)。如下圖所示,在 LIBERO 仿真器上,相較于基于深度圖輸入的 3D-CAVLA,QDepth-VLA 依然保持領(lǐng)先,平均提升約 2.8%。



      3. 真機(jī)實(shí)驗(yàn)結(jié)果



      • Task1 : pick the banana into the yellow basket
      • Task2 : put the chili into the bowl
      • Task3 : put the green block into the bowl
      • Task4 : stack the green block ontop of the yellow block



      4. 消融實(shí)驗(yàn)

      為了驗(yàn)證 QDepth-VLA 各組件的實(shí)際貢獻(xiàn),團(tuán)隊(duì)還在 Simpler 任務(wù)上進(jìn)行了系統(tǒng)的消融實(shí)驗(yàn)。

      當(dāng)團(tuán)隊(duì)將深度損失權(quán)重設(shè)為 0,僅保留模型結(jié)構(gòu)時(shí),平均成功率由 68.5% 降至 65.6%,尤其在 Carrot(-9.6%)和 Eggplant(-12.5%)任務(wù)上下降明顯,表明深度監(jiān)督確實(shí)提供了有意義的空間幾何先驗(yàn)。相反,移除 Depth Expert 后,性能下降最為顯著(-8.5%),在需要精準(zhǔn)三維對(duì)齊的 Stack Block 任務(wù)中跌幅高達(dá) - 23.8%,驗(yàn)證了顯式深度分支對(duì)立體空間感知的關(guān)鍵作用。

      此外,將潛在深度預(yù)測(cè)替換為像素級(jí)回歸導(dǎo)致平均性能下降至 64.6%,說明量化深度表征更能捕捉抽象幾何信息。而移除混合注意力機(jī)制(Hybrid Attention)后,模型在 Carrot 任務(wù)中的表現(xiàn)顯著下降(-15.8%),表明該機(jī)制能有效協(xié)調(diào)深度感知與動(dòng)作生成。

      總體來看,深度監(jiān)督與混合注意力的協(xié)同作用是 QDepth-VLA 取得高性能的關(guān)鍵,它們共同強(qiáng)化了模型的空間理解與動(dòng)作一致性,為復(fù)雜操控任務(wù)提供了穩(wěn)定的三維感知基礎(chǔ)。



      總結(jié)與展望

      QDepth-VLA 作為一種將量化深度預(yù)測(cè)引入視覺 - 語言 - 動(dòng)作建模的機(jī)制,旨在增強(qiáng)機(jī)器人在三維空間中的感知與推理能力。基于 Simpler、LIBERO 以及真實(shí)環(huán)境的系統(tǒng)實(shí)驗(yàn)結(jié)果顯示,引入量化深度監(jiān)督能夠在長(zhǎng)程與精細(xì)操作任務(wù)中帶來顯著的成功率提升,說明三維幾何先驗(yàn)在機(jī)器人穩(wěn)定操控中具有重要價(jià)值。

      未來的研究方向可主要圍繞以下兩點(diǎn)展開:

      • 面向未來的深度預(yù)測(cè):在當(dāng)前深度推斷基礎(chǔ)上擴(kuò)展至未來時(shí)刻的空間結(jié)構(gòu)預(yù)測(cè),以支持更長(zhǎng)時(shí)程的策略規(guī)劃;
      • 更高效的深度表征學(xué)習(xí):通過改進(jìn) VAE 編碼與表征壓縮方式,進(jìn)一步提升深度信息的精確度、可泛化性與推理穩(wěn)定性。

      總體來看,QDepth-VLA 為增強(qiáng) VLA 模型的空間理解能力提供了一條兼具語義一致性與工程可落地性的路徑。從具身智能的發(fā)展趨勢(shì)來看,具備真實(shí)三維空間理解能力的策略模型,是機(jī)器人從 “可演示” 邁向 “可長(zhǎng)期實(shí)際工作” 的關(guān)鍵基礎(chǔ)。QDepth-VLA 強(qiáng)化的三維幾何感知與動(dòng)作一致性能力,將作為核心能力模塊逐步融入靈寶 CASBOT 的多產(chǎn)品序列中:

      • CASBOT 02:用于支持桌面級(jí)與生活化任務(wù)中的穩(wěn)定抓取、遞交、精細(xì)放置;
      • CASBOT W1:用于工業(yè)與商服場(chǎng)景下的多步驟、多對(duì)象柔性操作;
      • Handle-L1 靈巧手:用于更高精度、多接觸點(diǎn)的結(jié)構(gòu)化操控與協(xié)作。

      在此路徑中,深度量化表征、跨模態(tài)一致性建模與在線自適應(yīng)學(xué)習(xí)將持續(xù)協(xié)同演進(jìn),支撐靈寶 CASBOT 構(gòu)建從模型 — 本體 — 場(chǎng)景 — 部署的長(zhǎng)期閉環(huán)能力,推動(dòng)具身智能走向可規(guī)模化、可復(fù)制、可持續(xù)的真實(shí)應(yīng)用階段。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      KTV小姐有償陪侍,花50萬請(qǐng)國企高管,男子沒拿下6億項(xiàng)目怒而曝光

      KTV小姐有償陪侍,花50萬請(qǐng)國企高管,男子沒拿下6億項(xiàng)目怒而曝光

      漢史趣聞
      2025-12-07 14:43:29
      《大生意人》原來,慈禧賜古平原“天下第一茶”竟然有4個(gè)原因!

      《大生意人》原來,慈禧賜古平原“天下第一茶”竟然有4個(gè)原因!

      情感大頭說說
      2025-12-07 16:27:49
      上海知名主持萌叔, 離職5年轉(zhuǎn)行帶貨,如今后悔放棄編制虧100萬

      上海知名主持萌叔, 離職5年轉(zhuǎn)行帶貨,如今后悔放棄編制虧100萬

      一娛三分地
      2025-12-07 23:45:50
      同事搭我便車,高速上一路冷嘲熱諷,到服務(wù)區(qū)后:你在這等我一下

      同事搭我便車,高速上一路冷嘲熱諷,到服務(wù)區(qū)后:你在這等我一下

      蘭姐說故事
      2025-12-03 12:05:07
      為什么感覺金融圈子很淫亂呢?看完回答感受到人性欲望的丑惡

      為什么感覺金融圈子很淫亂呢?看完回答感受到人性欲望的丑惡

      另子維愛讀史
      2025-12-05 21:20:39
      日媒:殲-15開火控雷達(dá)照射F-15J,中國戰(zhàn)機(jī)首次鎖定日本戰(zhàn)機(jī),日方飛行員在長(zhǎng)達(dá)半小時(shí)的鎖定時(shí)間上為什么不逃跑脫離呢?認(rèn)為我們打不到?

      日媒:殲-15開火控雷達(dá)照射F-15J,中國戰(zhàn)機(jī)首次鎖定日本戰(zhàn)機(jī),日方飛行員在長(zhǎng)達(dá)半小時(shí)的鎖定時(shí)間上為什么不逃跑脫離呢?認(rèn)為我們打不到?

      軍霆說
      2025-12-07 23:55:09
      全家4人連續(xù)吃妻子自制饅頭6年,全部確診胰腺癌,一個(gè)細(xì)節(jié)沒注意

      全家4人連續(xù)吃妻子自制饅頭6年,全部確診胰腺癌,一個(gè)細(xì)節(jié)沒注意

      卡西莫多的故事
      2025-12-01 10:26:41
      299個(gè)“外籍院士”竟來自同一機(jī)構(gòu)?誰在買賣學(xué)術(shù)帽子?

      299個(gè)“外籍院士”竟來自同一機(jī)構(gòu)?誰在買賣學(xué)術(shù)帽子?

      過了法考的新聞人
      2025-12-05 17:16:46
      姆巴佩達(dá)成西甲50場(chǎng)里程碑,此前49場(chǎng)貢獻(xiàn)47球7助

      姆巴佩達(dá)成西甲50場(chǎng)里程碑,此前49場(chǎng)貢獻(xiàn)47球7助

      懂球帝
      2025-12-08 04:21:05
      前一秒用槍指著,撕毀4億合同,下一秒全國斷電,才知道誰是大爺

      前一秒用槍指著,撕毀4億合同,下一秒全國斷電,才知道誰是大爺

      一根香煙的少女
      2025-10-11 19:46:47
      高市早苗天塌了,美國宣布退守美洲,李在明提前在臺(tái)海問題上站隊(duì)

      高市早苗天塌了,美國宣布退守美洲,李在明提前在臺(tái)海問題上站隊(duì)

      策略述
      2025-12-07 15:17:06
      皇馬頭號(hào)藥罐子又倒下!拉傷大腿+2年出場(chǎng)率僅32% 10個(gè)后衛(wèi)傷6個(gè)

      皇馬頭號(hào)藥罐子又倒下!拉傷大腿+2年出場(chǎng)率僅32% 10個(gè)后衛(wèi)傷6個(gè)

      風(fēng)過鄉(xiāng)
      2025-12-08 06:05:02
      拆隊(duì)倒計(jì)時(shí)!東部第八+被自家球迷噓,2.2億豪陣啊,就這表現(xiàn)?

      拆隊(duì)倒計(jì)時(shí)!東部第八+被自家球迷噓,2.2億豪陣啊,就這表現(xiàn)?

      球童無忌
      2025-12-08 00:02:30
      京圈大格格或已被封殺?

      京圈大格格或已被封殺?

      微微熱評(píng)
      2025-11-25 10:52:11
      147:5!中俄反對(duì)無效,聯(lián)大通過決議,日本要求中國“自廢武功”

      147:5!中俄反對(duì)無效,聯(lián)大通過決議,日本要求中國“自廢武功”

      混沌錄
      2025-12-05 22:20:08
      王鷗跟女兒散步,母親一起同行,祖孫三代好溫馨!

      王鷗跟女兒散步,母親一起同行,祖孫三代好溫馨!

      小小一米月兒
      2025-12-08 00:50:05
      曾風(fēng)靡一時(shí),又突然消失的7件家電:科技進(jìn)步太快,難怪被淘汰

      曾風(fēng)靡一時(shí),又突然消失的7件家電:科技進(jìn)步太快,難怪被淘汰

      小柱解說游戲
      2025-12-07 10:04:13
      出版社通報(bào):全面下架該書!

      出版社通報(bào):全面下架該書!

      南方都市報(bào)
      2025-12-07 16:39:02
      皇馬四名首發(fā)后衛(wèi)無人踢完全場(chǎng),兩人染紅一人傷退一人被換下

      皇馬四名首發(fā)后衛(wèi)無人踢完全場(chǎng),兩人染紅一人傷退一人被換下

      懂球帝
      2025-12-08 06:20:27
      小瓦格納傷退狀元郎打鐵,布倫森單核爆砍30+9,尼克斯復(fù)仇魔術(shù)

      小瓦格納傷退狀元郎打鐵,布倫森單核爆砍30+9,尼克斯復(fù)仇魔術(shù)

      釘釘陌上花開
      2025-12-08 06:32:22
      2025-12-08 06:55:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      11862文章數(shù) 142509關(guān)注度
      往期回顧 全部

      科技要聞

      獨(dú)家|李笛再創(chuàng)業(yè),炮轟大模型,再戰(zhàn)AI

      頭條要聞

      馬斯克一句話說到梅德韋杰夫心里 卻引發(fā)歐洲政治風(fēng)暴

      頭條要聞

      馬斯克一句話說到梅德韋杰夫心里 卻引發(fā)歐洲政治風(fēng)暴

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎(jiǎng)禮,韓娛愛豆均站起鞠躬

      財(cái)經(jīng)要聞

      五糧液降價(jià)?回應(yīng)來了

      汽車要聞

      傳奇超跑電動(dòng)形態(tài)重生 雷克薩斯LFA純電概念車

      態(tài)度原創(chuàng)

      時(shí)尚
      本地
      數(shù)碼
      家居
      手機(jī)

      遼京:當(dāng)一個(gè)媽媽開始寫作

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      數(shù)碼要聞

      致敬起點(diǎn),雷蛇預(yù)告Boomslang布斯朗悍蛇20周年紀(jì)念版鼠標(biāo)

      家居要聞

      白味湯館 當(dāng)代宴飲儀式

      手機(jī)要聞

      華為Mate80系列:已推送新系統(tǒng)版本!花粉:還沒搶到呢

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 樱花草在线社区www| 狠狠色亚洲| 亚洲精品国产AV| 丁香五月亚洲综合在线| 国产女人看国产在线女人| 精品人妻人人做人人爽夜夜爽| 91制片厂天美传媒网站进入| 军人全身脱精光自慰| 国产成人精品aa毛片| 欧美午夜福利视频| 欧美一区二区三区成人久久片| 亚洲综合精品一区二区三区| 欧美性猛交xxxx乱大交极品| 亚洲成人Aⅴ| 国内精品久久久久影院不卡| 亚洲成AV人片一区二区| 亚洲经典三级| 99re最新6| 在线观看视频一区二区三区| 沂源县| 一群老熟女69| 6699嫩草久久久精品影院| 伊人久久大香线蕉精品,亚洲国产一成人久久精品,久久99精品久久久久久三级,亚 | 男人下部进女人下部视频| 婷婷五月色| 国产乱码一区二区三区的解决方法| 国产91视频| 一本加勒比hezyo无码专区| wwwjizzjizzjizz| 999久久久| 国产玖玖视频| 自拍偷拍欧美| 国产 精品 自在 线免费| 亚洲成人资源在线| www成人国产高清内射| 天天综合天天添夜夜添狠狠添| 免费国产又色又爽又黄的网站| 中文字幕在线一区| 99久久亚洲精品无码毛片| 合作市| 3Pav图|