網易首頁 > 網易號 > 正文申請入駐

300萬對樣本、200萬對實拍：深度估計的數據荒，終于被打破

2026-03-31 11:08:33　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

做深度估計、深度補全的人，大概都有過這樣一個瞬間。

模型在 NYU Depth V2 這樣的經典 benchmark 上跑出了漂亮的分數，指標也足夠好看。可一旦把同一個模型部署到真實機器人上，問題立刻暴露出來：深度圖邊緣發糊、遠處漂移，遇到反光材質幾乎直接失效。

你第一反應往往是實現出了 bug，于是從代碼到訓練流程排查一遍。可最終你會發現，代碼沒問題。

問題出在數據。

其實，這不是個例，而是這個方向長期存在的困境之一。

深度估計和深度補全的學術進展，在某種程度上是被數據集的天花板壓著走的。過去十幾年，社區高度依賴幾個經典數據集：NYU Depth V2 以公寓和辦公室場景為主，室內覆蓋有限；KITTI 面向自動駕駛，室外道路場景扎實，但對具身智能幾乎沒有直接用處；ScanNet 在室內重建方向貢獻巨大，但它的幀序列格式并非為配對深度訓練設計；ETH3D、DIML 各有側重，規模都不足以支撐當下大模型時代的訓練需求。

雖然現在有合成數據集可以填補數據短缺問題，但合成數據在渲染材質和真實場景之間有一道肉眼可辨的鴻溝。模型在合成數據上學到的深度先驗，遇到真實世界的反光金屬、透明玻璃、復雜紋理，往往直接崩壞。

這道鴻溝，沒有大規模真實數據，系統性的解法很難實現。直到 3 月底，這個局面終于出現了松動。

螞蟻靈波完成了一件在這個領域久違的動作：一次性開源約 300 萬對高質量 RGB - 深度數據 ——LingBot-Depth-Dataset。每條樣本同時包含 RGB 圖像、傳感器原始深度以及對應的真值深度，為訓練提供了完整的對照信號。

整個數據集規模達到2.71TB，其中包括約200 萬對真實采集的 RGB-D 數據和 100 萬對高質量渲染數據；在真實數據部分，覆蓋了 Orbbec 335、335L，RealSense D405、D415、D435、D455 共6 款市場主流深度相機，以盡可能還原不同硬件條件下的真實感知分布。

該數據集以 CC BY-NC-SA 4.0 協議開源，允許學術與非商業場景下的自由使用與再創作。

魔搭社區 ModelScope：https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
HuggingFace：https://huggingface.co/datasets/robbyant/mdm_depth

事實上，該數據集的有效性早已在模型層面得到驗證。螞蟻靈波在今年 1 月開源的具身智能感知模型 LingBot-Depth，正是基于這套數據訓練而成的。

從實際效果來看，LingBot-Depth 可在不更換硬件的前提下顯著提升透明、反光等復雜材質場景的深度輸出質量，并且在深度精度和像素覆蓋率這兩項核心指標上，已經全面優于目前市面上頂尖的工業級 RGB-D 相機。

正是在這樣的前提下，螞蟻靈波選擇將這套數據完整開源，將內部驗證過的數據，向整個社區開放。

基于 LingBot-Depth-Dataset 數據集構建的 LingBot-Depth，在傳統深度傳感器易失效的復雜場景中，仍可輸出具備真實尺度的高精度深度結果

LingBot-Depth 相關鏈接：

Hugging Face：https://huggingface.co/robbyant/lingbot-depth
ModelScope：https://modelscope.cn/models/robbyant/lingbot-depth
Tech Report：https://arxiv.org/abs/2601.17895

為什么真實數據規模如此關鍵？

要理解 LingBot-Depth-Dataset 的價值，需要先理解真實采集的深度數據為什么難以獲得。

采集成本是第一道門檻。高質量的 RGB-D 數據采集需要將 RGB 相機與深度傳感器進行時間同步和空間標定，標定精度直接影響深度圖與彩色圖的像素對齊質量。大規模部署多臺設備、在多個場景下系統性采集，工程復雜度遠高于普通視頻采集。此外，不同場景（強光、弱光、反射表面、透明材質）對傳感器性能的影響差異顯著，需要針對性處理。

傳感器原始深度圖存在固有缺陷。結構光和 ToF 傳感器采集到的原始深度圖通常包含大量無效像素（空洞），邊緣處存在飛點（flying pixels），在反射或透明表面上深度值失效。這意味著原始傳感器深度圖不能直接作為訓練真值，需要額外的處理步驟來生成稠密、精確的真值深度圖，而這個處理本身就是一個有技術門檻的問題。

標注真值的獲取難度高。不同于圖像分類可以用人工標注、或者利用網絡弱監督，深度真值必須依賴物理測量或精密的多傳感器融合。激光雷達可以提供高精度稀疏點云，但需要與相機精確標定和時間同步；結構光系統精度有限且對光照敏感；立體匹配可以提供稠密深度但在紋理平坦區域容易失效。沒有哪種單一方案是完美的，大規模采集必須在精度、成本和覆蓋度之間做權衡。

版權與開放意愿是另一道隱性門檻。工業界在大規模數據采集上投入了大量資源，但數據往往被視為競爭護城河而非公共資源。許多團隊擁有規模可觀的內部數據集，卻從未考慮開放。這造成了一種奇特的局面：學術界對數據的渴望與工業界對數據的占有之間存在巨大落差，而學術研究所依賴的數據集，往往是多年前某個團隊順手做的副產品。

正因為以上這些原因，大規模真實場景 RGB-D 數據集在開源社區中至今仍屬稀缺資源。

300 萬對 RGB-D：一次量級躍遷

螞蟻靈波一口氣開源 300 萬對 RGB-D 樣本，在當前開源社區中，這已是規模最大的真實場景 RGB-D 數據集之一。

整個數據集并不是簡單的數據堆疊，而是圍繞真實世界深度感知任務，做了一次結構化設計，由四個子集構成：

RobbyReal：1,400,000 對多設備采集的真實室內場景數據，構成了數據集的核心主體。

這部分數據覆蓋了 Orbbec 335、335L，RealSense D405、D415、D435、D455 共 6 款市場主流深度相機。這些設備在測距范圍、噪聲模式、邊緣表現以及對不同材質的響應上存在顯著差異。這一設計的意義在于：將跨設備差異提前引入訓練分布。

傳統數據集往往綁定單一設備，模型在該設備上表現良好，但一旦遷移到其他硬件環境，性能會明顯下降。而 LingBot-Depth-Dataset 通過多設備數據，讓模型在訓練階段就接觸到不同傳感器特性，從而提升跨設備泛化能力。

對于需要實際部署在機器人、AR 設備或工業系統中的模型來說，這一點直接決定了其工程可用性。

RobbyReal數據集示例

RobbyVla：580,960 對數據，來自機器人在視覺 - 語言 - 動作（VLA）操作任務執行過程中的實際采集。

傳統深度數據集的采集邏輯是人拿著相機掃場景，視角自然、連續，物體在中遠距離。而機器人操作任務的視角截然不同：拍攝目標物體時距離往往只有 20-50cm，物體邊緣的深度精度決定抓取成敗；桌面操作場景的光照復雜，金屬、玻璃、透明塑料等材質的深度測量本身就是難點。

這些特性讓 RobbyVla 數據具備了現有數據集無法替代的價值：它是在真實具身任務約束下采集的深度數據，場景分布與機器人學習任務高度對齊。對于想要訓練空間感知能力服務于操作任務的研究者而言，這批數據可以直接減少分布外泛化的損耗。

RobbyVla數據集示例

RobbySim： 999,264 對仿真渲染數據，基于雙相機視角生成。

單相機渲染容易引入系統性的視角偏差，雙相機設置在生成過程中引入了視差約束，生成的深度圖在幾何一致性上更可靠。

RobbySim數據集示例

RobbySimVal驗證集（38,976 對）則提供了標準化的仿真場景評估基準，便于研究者在不消耗真實數據的前提下快速評估模型在仿真域的表現。

RobbySimVal 驗證集示例

除了數量龐大，螞蟻靈波在數據集質量上同樣設定了極高標準。從原始采集到真值構建，LingBot-Depth-Dataset 并未簡單依賴傳感器輸出，而是對深度數據進行了系統化處理與校正。

每條樣本包含一張 RGB 圖像、傳感器原始深度圖以及真值深度圖

通過提供原始觀測 + 真值的完整對照信號，模型不僅可以學習深度預測，還可以學習如何從噪聲數據中恢復真實結構。

同時，數據在標注過程中遵循統一規范，對精度和一致性進行了嚴格控制，避免了由于標簽噪聲帶來的訓練偏差。這一點在深度學習中尤為關鍵，錯誤的深度標簽，往往比沒有標簽更具破壞性。

也正是在這樣的數量和質量保障下，LingBot-Depth-Dataset 的價值不再只是可用的數據集，而開始具備更基礎性的意義。

過去幾年，行業的關注點更多集中在模型上，更大的參數規模、更復雜的架構、更強的推理能力。但一個越來越清晰的共識是，模型能力的上限，正在越來越多地由數據所決定。尤其是在 AI 從語言走向物理世界的過程中，數據的重要性被放大：世界模型需要可交互的環境數據，機器人依賴長尾且真實的場景分布，多模態系統則必須對齊來自不同感知通道的信號。在這樣的背景下，大規模、高質量、結構化的數據集，正在成為新的競爭核心。

而 LingBot-Depth-Dataset 的出現，本質上推動的是一件更底層的轉變，讓深度感知，從一個依賴理想條件的實驗室問題，逐步走向可落地、可復用的工程問題。

深度估計、補全這個方向，長期處于一種尷尬的狀態：下游需求（機器人、AR、自動駕駛）增長快，但基礎數據資源的開放程度遠不及視覺識別、NLP 等方向。NYUv2 在十多年后仍是標準評測集，某種程度上是因為沒有更好的替代品出現，而非它本身足夠好。

就像 ImageNet 重塑了視覺，模擬環境推動了自動駕駛。對于具身智能而言，高質量的空間感知數據，可能正是那個尚未被充分填補的缺口，而 LingBot-Depth-Dataset 很有可能成為深度估計 / 深度補全領域的新一代 benchmark 基礎。

開源或許不會立刻帶來性能爆炸。但它正在改變一件更底層的事情：我們終于開始擁有，足夠接近真實世界的深度數據。

螞蟻靈波在這層基礎設施上的開源投入，對整個領域而言，每一個不需要從頭采集數據的研究團隊，可以把精力放在更高層的問題上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.