![]()
![]()
編輯|冷貓
眾所周知,「具身智能」是連接數字世界和現實世界的橋梁。
真正的「具身智能」,是全面自主決策自主行動的通用機器人,需要建立在對物理世界完全理解的基礎上。
空間視覺感知是自動駕駛、機器人操作等真實世界應用的底層能力,核心目標只有一個:讓機器能夠理解并參與三維環境中的交互
這類機器人大多都以 RGB-D 相機獲取真實世界視覺和深度信息,這是行業內綜合了成本,精度,以及實用性后普遍的選擇。
但物理世界是極為復雜的,要想讓這些自主執行任務的機器人卡殼,只需要簡單的一塊玻璃。

家務機器人撞玻璃的翻車場面
對機器來說,玻璃幾乎是世界里的幻影。人類會下意識地把反射、折射進行判斷,但機器人并沒有這種生活經驗。玻璃這類又透明又反光的物體,恰好屏蔽了 RGB-D 相機獲取的全部特征,深度和像素點都很難準確識別。
隨著自動駕駛和智能機器人離我們的生活越來越近,這個現象已經逐漸成為一個亟需解決的痛點。
令人欣喜的是,我們發現剛剛開源的全新具身智能感知模型 LingBot-Depth,非常針對性的解決了機器人識別真實世界的「玻璃問題」。
LingBot-Depth 是螞蟻靈波科技開源的高精度空間感知模型,可在不更換硬件的前提下顯著提升透明、反光等復雜材質場景的深度輸出質量,給機器人一雙看清三維空間的眼睛。

LingBot-Depth 在傳統深度傳感器易失效的復雜場景中,仍可輸出具備真實尺度的高精度深度結果
令人振奮的是,從技術報告來看,這一模型在深度精度和像素覆蓋率方面均優于業界頂級的深度相機。
![]()
- 項目鏈接: https://technology.robbyant.com/lingbot-depth
- HuggingFace 鏈接:https://huggingface.co/robbyant/lingbot-depth
- 技術報告鏈接:https://github.com/Robbyant/lingbot-depth/blob/main/tech-report.pdf
超海量真實場景與嶄新的訓練范式
簡單來講,RGB-D 相機在復雜、多變的物理環境中,卻頻頻暴露出難以回避的短板。
尤其是在面對透明或高反光材質,例如玻璃、鏡面、不銹鋼表面等等,深度相機發射的主動光信號往往無法形成穩定、可靠的回波,導致深度測量值缺失或異常,最終在深度圖中表現為大面積空洞、噪聲密集以及物體邊緣的嚴重斷裂。
即便是最先進的商用傳感器,在一些挑戰性場景中也難以滿足獲取稠密、像素級對齊的幾何信息的需求。

LingBot-Depth 能將含噪且不完整的傳感器深度優化為干凈、稠密且具備真實尺度的三維測量結果。
除了透明與反光場景外,在強逆光、極暗光或明暗對比極端的場景下,RGB 圖像與深度信息之間的對齊關系更容易失效,深度圖的穩定性和一致性顯著下降。
更關鍵的是,感知層面的不可靠會被層層放大,直接影響后續的規劃與控制:不完整的深度圖會導致機器人誤判空間,邊緣破碎會影響抓取位姿的計算,而噪聲與空洞則可能引發對障礙物距離的系統性偏差。這些問題最終體現為抓取失敗、動作猶豫、路徑規劃異常,甚至是不可接受的碰撞風險,成為制約機器人從「能演示」走向「可長期落地」的關鍵瓶頸。
雙線并行的數據集
過去解決方案很難達到令人滿意的效果,核心原因就是數據。巧婦難為無米之炊,RGB-D 數據比僅包含 RGB 的數據要少得多。
更致命的是,現有的大多數 RGB-D 數據集,在設計之初就刻意回避了真實世界中最棘手的成像條件,這類數據過于干凈,要么選擇紋理豐富、反射少的理想場景;要么干脆依賴渲染引擎,生成近乎完美的深度圖。它們幾乎不包含真實傳感過程中自然出現的深度空洞、回波缺失和異常噪聲,徹底回避了真實世界感知的痛點問題。
為了解決這一根本性瓶頸,LingBot-Depth 從數據分布本身入手,系統性地重構了 RGB-D 訓練數據的來源與生成方式。其核心思路只有一個:盡可能保留真實世界傳感過程自然產生的深度缺失模式。
具體來看,螞蟻靈波 構建了一套雙路徑并行的數據篩選與生成流程。一條路徑基于自建高質量 3D 資產,走合成仿真路線;另一條路徑則來自真實世界,通過可擴展的 RGB-D 采集系統,使用奧比中光等工業級深度相機直接采集現實場景數據。
由此,模型訓練數據被明確劃分為兩類子集:來自合成路徑的 LingBot Depth-S,以及來自真實采集路徑的 LingBot Depth-R
與現有方法直接輸出完美深度圖不同,LingBot-Depth 在合成流水線中刻意模擬了真實主動式 RGB-D 相機的成像過程。研究團隊在 Blender 中同時渲染 RGB 圖像、精確深度圖以及帶有斑點結構的灰度立體圖像對,并使用半全局匹配(SGM)算法生成深度結果,從而引入與真實傳感器高度相似的采集偽影。立體基線、焦距等關鍵參數均通過隨機采樣生成,以覆蓋多樣化的成像幾何條件。
![]()
數據生成管線的一條合成數據樣本。每個樣本包含一幅 RGB 圖像、一幅渲染得到的理想深度圖、一對帶有散斑圖案的立體圖像、對應的真實視差圖,以及通過半全局匹配(SGM)計算得到的模擬傳感器深度圖,用以逼近真實世界主動式深度相機所產生的成像偽影。
此前一些嘗試模擬不完美深度測量的工作,數據規模普遍偏小;而部分依賴機器人仿真器的數據集,則在視覺保真度上仍與真實世界存在明顯差距。相比之下,LingBot-Depth 的數據構建方式,更接近真實傳感器在復雜物理環境中的「所見即所得」。
![]()
螞蟻靈波團隊在真實世界 RGB-D 采集數據在不同場景類別下的分布情況。
在此基礎上,除了自行構建的320 萬條數據外,螞蟻靈波還使用了一些開源數據集作為訓練數據,最終共構建了1000 萬條用于掩碼深度建模的訓練樣本,覆蓋了從理想條件到復雜現實環境的多種深度缺失模式。
![]()
數據管道整理的 MDM 數據概覽。展示了共計 210 萬真實采集樣本及模擬采集樣本,同時展示了 RGB-D 輸入和對應的 GT 深度圖。
具身智能感知能力的上限,很大程度上不取決于模型結構,而取決于是否敢于直面真實世界的「不完美」。 LingBot-Depth,正是從數據這一最底層的環節,補上了數據集中被忽略的一塊短板。
嶄新的思路 —— 掩碼深度建模
傳感器輸出的像素與深度信息的不完整是能夠進行優化的,將不一致的數據作為噪聲剔除,隨后通過算法修補,在計算機視覺和深度學習領域已經是歷史悠久的研究方向。
而 LingBot-Depth 創新性地提出了一個全新的思路:與其將這些傳感器故障視為需要丟棄的噪聲,不如將其作為有益的學習信號加以利用。
在這個思路的指引下,掩碼深度建模方法(Masked Depth Modeling, MDM)應運而生,構建了 LingBot-Depth 的根基,通過算法對傳感器輸出進行增強,使機器人獲得更完整、更穩定、更可用的深度圖。
![]()
MDM 預訓練方法利用 RGB-D 傳感器中自然缺失的深度測量值作為掩碼,以學習度量尺度下完整且精確的深度表示。由此產生的 LingBot-Depth 模型可作為強大的空間感知先驗,用于下游應用,包括 3D 點追蹤和靈巧抓取。
整體框架仍然沿用了近年來視覺領域中行之有效的編碼器–解碼器范式,但學習目標是:在 RGB-D 輸入條件下,預測稠密、像素級對齊的場景深度。
與傳統 MAE 方法最大的不同在于,MDM 并不依賴人為構造的隨機掩碼。相反,它直接利用 RGB-D 相機在真實世界中天然產生的深度缺失區域 —— 也就是那些由透明、反光、弱紋理等復雜成像條件引發的「孔洞」,作為訓練時的掩碼信號。
這一轉變看似簡單,卻極具挑戰性。因為這些自然掩碼并非隨機分布,而是高度集中在視覺和幾何最模糊的位置,其重建難度遠高于隨機丟棄的 patch。換句話說,模型必須真正理解 RGB 外觀與幾何結構之間的關系。
為此,MDM 在架構上明確引入了一個關鍵約束:RGB 信息始終完整可見,深度信息則存在真實缺失。模型被迫在「完整的視覺上下文」和「殘缺的幾何觀測」之間建立聯合推理能力。
![]()
MDM 框架示意圖。對應于傳感器缺失測量的深度標記會被掩碼,ViT 編碼器基于上下文標記(即 RGB 圖像)以及剩余未被掩碼的深度標記,學習聯合 Embedding 表示。在解碼階段,潛在的深度標記被丟棄,解碼器僅依賴潛在的上下文標記重建完整的深度圖。右下角展示了一幅未被掩碼的深度圖,作為參考。
面向 RGB-D 的 ViT 設計
在具體實現上,LingBot-Depth 采用了標準的 ViT-Large 作為編碼器主干,但對輸入建模方式進行了針對 RGB-D 場景的定制。
RGB 圖像與深度圖通過兩套獨立的補丁嵌入層進行處理,分別生成在同一空間網格上對齊的 RGB token 和深度 token。這種設計使得 Transformer 的自注意力機制能夠在同一空間位置上,同時建模外觀語義與幾何線索的交互關系。
此外,為避免不同模態在注意力計算中「混淆身份」,模型還顯式引入了模態嵌入,與二維空間位置編碼共同構成每個 token 的位置信息。這種處理方式,使得 ViT 能夠在統一的序列中區分這是「 RGB 信息」還是「深度信息」,同時保留空間一致性。
利用深度缺陷,而不是回避它
在掩碼策略上,MDM 并未簡單地對所有缺失深度一刀切。考慮到真實 RGB-D 數據中,完全沒有深度缺失的樣本同樣具有重要價值,模型采用了一種基于補丁統計的自適應掩碼策略:
- 對深度值完全缺失的 patch,必然作為掩碼;
- 對同時包含有效與無效測量的 patch,提高其被掩碼的概率;
- 若仍未達到目標掩碼比例,再從完全有效的深度 patch 中進行隨機補充。
這一策略的核心目標,是在保證訓練難度的同時,盡可能保留「不完美但有信息量」的深度觀測,讓模型學會在真實、不干凈的數據分布下進行推理。
這也正是 LingBot-Depth 在方法層面最具啟發性的地方,它開創性地嘗試讓模型理解噪聲背后的物理與視覺規律。
領先的精度,落地的性能
LingBot-Depth 讓模型在預訓練階段就直面不完整、帶噪聲的深度世界,會顯著增強它對真實三維結構的理解能力,并在多個下游任務中持續受益。
專業對口:深度補全
MDM 的核心思想,是在深度存在大量缺失和噪聲的情況下,讓模型學會利用 RGB 上下文和殘余深度信息去「腦補」完整的幾何結構。因此,第一個被檢驗的任務,自然是深度補全(Depth Completion)。
研究團隊將基于 MDM 預訓練得到的模型 LingBot-Depth,與多種當前主流方法(如 OMNI-DC、PromptDA、PriorDA)進行了正面對比,并設計了兩種極具現實意義的評測協議。
區塊級深度缺失:模擬深度相機的「翻車現場」
在第一種協議中,研究團隊通過隨機抹掉真實深度圖中的成塊區域,來模擬真實傳感器中常見的深度丟失現象;同時,還人為加入高斯噪聲和類似 Kinect 的散粒噪聲,以還原量化誤差、光子噪聲等傳感器偽影。
結果非常直接:在所有數據集、所有難度級別下,LingBot-Depth 均穩定超越全部對比方法。
![]()
深度補全結果。(a)在 iBims、NYUv2 和 DIODE 數據集上,采用四個難度級別的區塊級深度掩碼進行評估。(b)在 ETH3D 數據集上,使用稀疏 SfM 深度輸入進行評估。
![]()
尤其是在「極端」條件下,其 RMSE 相比此前表現最好的 PromptDA 仍有顯著下降,說明模型并不是靠「記住干凈數據」,而是真正學會了在結構嚴重缺失、測量高度不可靠的情況下恢復合理的三維形狀。
稀疏 SfM 深度:更復雜的現實問題
第二種協議進一步拉高了難度:輸入不再是密集但有缺失的深度圖,而是極度稀疏的 SfM / SLAM 點云。在很多真實應用中,當深度相機不可用時,這是獲取幾何信息的唯一途徑。從定性結果來看,它生成的深度邊界更加清晰,結構連續性更強,尤其在遮擋嚴重或觀測稀疏的區域,優勢尤為明顯。
不止補全:單目深度估計
深度補全之外,螞蟻靈波研究團隊進一步追問一個更本質的問題:如果模型在預訓練階段學會了 RGB 與深度之間的對應關系,這種能力是否能遷移到「只有一張 RGB 圖像」的單目深度估計任務中?
為此,他們將 LingBot-Depth 的 RGB 編碼器作為預訓練主干,替代目前廣泛使用的 DINOv2,用于初始化 MoGe 模型。
需要注意的是,在這一設置下,模型在推理階段完全不再接觸深度輸入 —— 深度分支和解碼器被全部移除,考察的是「幾何理解是否已內化進編碼器」。
![]()
在四個基準數據集上的深度補全方法定性對比。對于每個數據集,依次展示了 RGB 輸入、稀疏 / 被掩碼的深度輸入,以及 OMNI-DC、PromptDA、PriorDA 和 LingBot-Depth 方法的預測結果。可以看到,LingBot-Depth 在深度邊界上更加清晰、結構更加完整,尤其是在存在嚴重遮擋或觀測極為稀疏的區域,優勢尤為明顯。
![]()
使用不同預訓練主干網絡(DINOv2 與 MDM 方法)的 MoGe 單目深度估計結果。在 10 個多樣化的基準數據集上,從仿射不變、尺度不變以及視差不變三類評價指標出發,系統評估了深度預測和點云映射的精度表現。
實驗結果給出了肯定答案:
在多個測試數據集上,基于 MDM 預訓練的編碼器穩定地優于 DINOv2 初始化的模型,并且表現出更好的泛化能力。
這說明,這一方法的確是一種能夠將三維幾何知識壓縮進視覺表示中的預訓練機制
總體而言,LingBot-Depth 依托真實復雜場景數據進行訓練,使模型能夠覆蓋更多透明、反光和極端光照等長尾情況,因而具備更穩定的泛化能力;同時,其對深度空洞與噪聲的有效修復,顯著提升了深度圖的完整性與邊界質量。
落地,已就緒
性能再強,我們當然也不希望它只停留在實驗室里。畢竟,「跑分」從來不是終點 —— 只有那些真正走進真實場景、能夠穩定支撐工業生產和機器人應用的模型,才是行業值得擁抱的模型。
三維世界的穩定追蹤
為了檢驗模型實際落地的能力,LingBot-Depth 被進一步接入到在線三維追蹤任務SpatialTrackerV2中,來看其是否真的能夠支撐更復雜、更長鏈路的幾何應用。
![]()
相機追蹤與場景重建結果。從左到右依次為:RGB 輸入圖像、原始傳感器深度圖、模型生成的精細深度圖、估計得到的相機軌跡,以及最終重建的場景幾何結構。
結果首先體現在相機追蹤上。在包含大量玻璃與反光表面的室內場景中,替換為 LingBot-Depth 補全后的深度圖后,輸出的相機軌跡明顯更加平滑、連續且穩定。
![]()
動態三維點追蹤結果。上:目標物體上的查詢點;中:被持續追蹤的三維軌跡(按時間以彩虹色編碼);下:對應的深度圖結果。
更進一步,動態三維追蹤具有十足的可靠性。基于 LingBot-Depth 輸出的深度,SpatialTrackerV2 能夠恢復出連貫一致的三維運動路徑,彩色軌跡在空間中呈現出清晰的結構與穩定的時序關系。
從應用角度來看,LingBot-Depth 已經具備作為基礎感知能力直接嵌入現有三維系統的成熟度
真實靈巧手的實戰驗證
要驗證 LingBot-Depth 是否真正具備真實世界可用性,最直接、也最有說服力的方式,便是將其直接接入真實的靈巧抓取系統進行實機驗證
驗證系統由 Rokae XMate-SR5 機械臂 + X Hand-1 靈巧手 和 Orbbec RGB-D 相機組成,深度圖先被轉為點云,再用于預測抓取姿態。
![]()
抓取實驗的定性結果。左圖:包含機械臂、靈巧手和深度相機的硬件系統示意。右圖:四個目標物體的 RGB 圖像、原始傳感器深度圖,以及 LingBot-Depth 方法生成的精細深度圖。對于反光物體(鋼杯)和透明物體(玻璃杯、收納盒),原始深度圖嚴重缺失,而 LingBot-Depth 的方法能夠生成完整且幾何上準確的深度圖。
![]()
抓取姿態生成與真實世界執行。上圖:將預測的抓取姿態以靈巧手形式疊加在由精細深度重建的點云上進行渲染。下圖:機器人系統在每個目標物體上成功執行抓取的場景。
結果非常直觀:在包含透明、反光物體的真實場景中,使用原始傳感器深度時,部分物體(如透明收納盒)因深度大面積缺失完全無法抓取;而使用 LingBot-Depth 補全后的深度,系統能夠恢復合理幾何結構,抓取成功率顯著提升

靈巧手抓取反光不銹鋼杯

靈巧手抓取透明玻璃杯
在真正的靈巧手交互中,借助 LingBot-Depth 的能力抓起反光的不銹鋼杯和完全透明的玻璃杯完全不在話下,輕而易舉。
此外, LingBot-Depth 在螞蟻靈波團隊的努力下,已經完成了模型的輕量化,并完全做好了落地的應用準備
首先,LingBot-Depth 模型的部署非常靈活:它無需更換現有的 RGB-D 或 3D 相機硬件,就能作為算法增強模塊直接嵌入現有系統,大幅降低升級成本和工程門檻。
同時,模型完全開源、可復現,便于研究者和產業團隊快速進行驗證、二次訓練和工程化集成,加速從實驗室到真實場景的落地應用。
總結
具身智能具備識別復雜光照環境,甚至精準捕捉透明,反光材質物體的能力,就已標志著通用級具身智能落地的一大障礙的突破。
歸根結底,具身智能的發展不僅是算法迭代的賽跑,更是對行業認知和落地能力的考驗。
LingBot-Depth 展示了一種思路的升級:面對真實世界的復雜性,在硬件受限的情況下,如何運用算法與數據、模型與物理認知的深度融合,來提升對真實世界的感知能力,是未來通用具身智能的核心方向。
螞蟻靈波將 LingBot-Depth完全開源,用戶可以通過開源倉庫獲取模型權重、推理代碼、評測腳本與使用文檔,快速上手實驗與驗證;如需面向具體相機型號或機器人平臺進行工程集成和性能調優,也可以對接官方的合作與技術支持渠道。
開放與可落地的策略,將深刻影響人工智能向現實價值轉化的速度和格局。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.