網易首頁 > 網易號 > 正文申請入駐

CVPR 2026｜DROID-W：復雜室外動態場景，也能穩定SLAM

2026-04-08 11:58:01　來源: 機器之心Pro

河北舉報

分享至

圖1：給定任意動態視頻，DROID-W 能夠估計準確的動態點云，相機位姿，以及動態不確定性。

論文標題：DROID-SLAM in the Wild
論文：https://arxiv.org/pdf/2603.19076
項目主頁：https://moyangli00.github.io/droid-w
代碼：https://github.com/MoyangLi00/DROID-W
數據集：https://cvg-data.inf.ethz.ch/DROID-W
作者單位：蘇黎世聯邦理工，微軟

SLAM 在自動駕駛、機器人、AR/VR 乃至具身智能系統中都是至關重要的環節，它決定了算法能否在一個陌生環境中一邊“看懂世界”，一邊“知道自己在哪”。

最近，蘇黎世聯邦理工與微軟的研究團隊提出了 DROID-W：一種基于動態不確定性感知的稠密可微 Bundle Adjustment（BA）的動態 SLAM 框架。該工作在 RTX 5090 上可以達到～30 FPS 的實時性能，即將正式發表于 CVPR 2026。并且，該工作提出的動態不確定性感知模塊可以即插即用地應用到多種 SLAM 框架中，有效提升其在真實動態環境中的性能。

傳統 SLAM 困境：為什么現有方法不通用

傳統 SLAM 系統大都基于靜態場景的假設，然而在真實世界中，行人穿梭、車輛駛過、樹影晃動、反光玻璃……這些看似再日常不過的因素，都會打破“靜態場景”假設，進而導致嚴重的跟蹤漂移，建圖錯誤。過去的動態 SLAM 系統往往依賴于動態物體語意分割 / 檢測等先驗移除動態物體，但需提前預知動態物體類別，嚴重限制了其在真實物理世界的廣泛應用。基于不確定性感知的動態 SLAM 方案 WildGS-SLAM 依賴于高質量的動態場景高斯建圖來估計動態不確定性，但真實環境中的建圖面臨巨大挑戰，嚴重限制了其性能。

與很多依賴預定義動態類別、語義分割先驗或靜態場景建圖的方法不同，DROID-W 選擇了一條更“底層”的路線：不去預設什么東西會動，不需要建立高質量靜態場景，而是讓系統自己從多視角觀測中識別哪些區域不可靠，并在優化時自動降低這些區域的影響。真正實現了讓單目 SLAM 系統適用于“隨手拍”的真實動態場景。

讓不確定性進入 BA，動態區域不再“拖后腿”

圖2: DROID-W 系統架構。系統從序列輸入的圖片中首先選擇關鍵幀，用于提取 DINO 特征，DROID 特征并估計單目深度圖。DROID 特征繼而被送入 ConvGRU 估計對應像素，基于 BA 優化相機位姿和深度。DINO 特征和優化后的位姿，深度被用于優化像素級動態不確定性。兩優化交替進行，最終輸出動態點云和準確的相機軌跡。

DROID-SLAM 是經典的將深度學習與優化優雅結合的 SLAM 框架，其通過稠密可微 BA 持續更新相機位姿和場景結構。但在動態場景里，傳統 BA 默認的剛體運動關系被打破，錯誤殘差會嚴重影響擾亂優化方向與準確性。

基于此，DROID-W 的關鍵改進，就是把“動態帶來的不可靠性”顯式建模為逐像素的動態不確定性。DROID-W 通過度量幀與幀之間的 DINO 特征相似度來衡量物體運動的動態不確定性。這些高不確定區域的殘差項在 BA 優化中會被自動抑制，從而減少動態干擾對相機軌跡和幾何結構估計的影響。但是位姿，深度，動態不確定性的大規模聯合 Gauss-Newton 優化會帶來高昂的計算成本，不適用于在線系統。為此，作者提出了交替優化的解決方案。系統一邊執行位姿與深度的優化，一邊根據多視角視覺特征的一致性迭代更新動態不確定性。

不靠“先驗名單”，

而是讓模型自己發現動態干擾

過去不少動態 SLAM 方法的思路，是先識別“可能運動的東西”再把它們 mask 掉，比如人、車、寵物等。但這種做法天然依賴類別先驗：當場景中出現未知動態物體、非剛體運動、局部遮擋或強反光區域時，系統往往就不夠穩了。DROID-W 則更強調觀測一致性本身。

論文中，研究者借助 DINO 特征來衡量跨視角的一致性，并通過一個局部仿射映射加 Softplus 激活，把這些特征轉化為連續的不確定性估計。相比把動態直接做成硬分割 mask，這種連續表達更細膩：它不只是告訴系統“哪里不能看”，而是進一步告訴系統“哪里該少信一點，哪里可以多信一點”。這帶來一個很重要的好處：系統不會因為場景里有動態物體，就粗暴地把整塊區域全部丟掉。當一個物體只有局部在動，或者重新靜止下來時，DROID-W 仍然有機會利用其中可靠的信息繼續跟蹤。這種“軟抑制”策略，比一刀切的動態 masking 更適合真實世界。

不只是改方法，還做了更“野”的測試集

圖3: DROID-W 數據集實例。

為了驗證方法是否真的適用于真實場景，作者并沒有把實驗局限在常見的室內動態數據集上。除了 Bonn、TUM 和 DyCheck 這些常用數據集外，論文還引入了新的 DROID-W 數據集：這是一組更偏室外、更加開放、也更接近真實拍攝條件的數據，包含 7 段 Downtown 序列，并配有 RTK 支持的真值軌跡。DROID-W 數據集包含高動態場景、圖像過曝、鏡面反射、太陽光暈等高難度片段，很好的模擬了真實野外環境中的復雜場景。除此之外，作者還進一步測試了多段來自 YouTube 的動態視頻片段，用來評估系統在真正“in-the-wild”視頻中的通用性與魯棒性。

實驗結果

DROID-W 在多個動態數據集上都取得了最優的表現。作者指出，在 Bonn、TUM、DyCheck 等數據集上，方法依靠更穩定的不確定性估計，在高動態序列中明顯優于原始 DROID-SLAM，也優于多種現有動態 SLAM 方法。尤其值得注意的是在作者新提出的 DROID-W Dataset --更大尺度、更偏真實世界的室外動態數據集--作者提出的方法在該數據集上平均軌跡誤差僅為 23 厘米，而 DROID-SLAM 誤差卻為 1.46 米。

圖4：動態不確定性估計定性對比。第一行：輸入的視頻幀；其余行：基線方法與 DROID-W 的對比。DROID-W 能夠在各種場景下輸出準確可靠的動態不確定性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.