![]()
![]()
圖1:給定任意動態視頻,DROID-W 能夠估計準確的動態點云,相機位姿,以及動態不確定性。
![]()
- 論文標題:DROID-SLAM in the Wild
- 論文:https://arxiv.org/pdf/2603.19076
- 項目主頁:https://moyangli00.github.io/droid-w
- 代碼:https://github.com/MoyangLi00/DROID-W
- 數據集:https://cvg-data.inf.ethz.ch/DROID-W
- 作者單位:蘇黎世聯邦理工,微軟
SLAM 在自動駕駛、機器人、AR/VR 乃至具身智能系統中都是至關重要的環節,它決定了算法能否在一個陌生環境中一邊“看懂世界”,一邊“知道自己在哪”。
最近,蘇黎世聯邦理工與微軟的研究團隊提出了 DROID-W:一種基于動態不確定性感知的稠密可微 Bundle Adjustment(BA)的動態 SLAM 框架。該工作在 RTX 5090 上可以達到 ~30 FPS 的實時性能,即將正式發表于 CVPR 2026。并且,該工作提出的動態不確定性感知模塊可以即插即用地應用到多種 SLAM 框架中,有效提升其在真實動態環境中的性能。
傳統 SLAM 困境:為什么現有方法不通用
傳統 SLAM 系統大都基于靜態場景的假設,然而在真實世界中,行人穿梭、車輛駛過、樹影晃動、反光玻璃……這些看似再日常不過的因素,都會打破“靜態場景”假設,進而導致嚴重的跟蹤漂移,建圖錯誤。過去的動態 SLAM 系統往往依賴于動態物體語意分割 / 檢測等先驗移除動態物體,但需提前預知動態物體類別,嚴重限制了其在真實物理世界的廣泛應用。基于不確定性感知的動態 SLAM 方案 WildGS-SLAM 依賴于高質量的動態場景高斯建圖來估計動態不確定性,但真實環境中的建圖面臨巨大挑戰,嚴重限制了其性能。
與很多依賴預定義動態類別、語義分割先驗或靜態場景建圖的方法不同,DROID-W 選擇了一條更“底層”的路線:不去預設什么東西會動,不需要建立高質量靜態場景,而是讓系統自己從多視角觀測中識別哪些區域不可靠,并在優化時自動降低這些區域的影響。真正實現了讓單目 SLAM 系統適用于“隨手拍”的真實動態場景。
讓不確定性進入 BA,動態區域不再“拖后腿”
![]()
圖2: DROID-W 系統架構。系統從序列輸入的圖片中首先選擇關鍵幀,用于提取 DINO 特征,DROID 特征并估計單目深度圖。DROID 特征繼而被送入 ConvGRU 估計對應像素,基于 BA 優化相機位姿和深度。DINO 特征和優化后的位姿,深度被用于優化像素級動態不確定性。兩優化交替進行,最終輸出動態點云和準確的相機軌跡。
DROID-SLAM 是經典的將深度學習與優化優雅結合的 SLAM 框架,其通過稠密可微 BA 持續更新相機位姿和場景結構。但在動態場景里,傳統 BA 默認的剛體運動關系被打破,錯誤殘差會嚴重影響擾亂優化方向與準確性。
基于此,DROID-W 的關鍵改進,就是把“動態帶來的不可靠性”顯式建模為逐像素的動態不確定性。DROID-W 通過度量幀與幀之間的 DINO 特征相似度來衡量物體運動的動態不確定性。這些高不確定區域的殘差項在 BA 優化中會被自動抑制,從而減少動態干擾對相機軌跡和幾何結構估計的影響。但是位姿,深度,動態不確定性的大規模聯合 Gauss-Newton 優化會帶來高昂的計算成本,不適用于在線系統。為此,作者提出了交替優化的解決方案。系統一邊執行位姿與深度的優化,一邊根據多視角視覺特征的一致性迭代更新動態不確定性。
不靠“先驗名單”,
而是讓模型自己發現動態干擾
過去不少動態 SLAM 方法的思路,是先識別“可能運動的東西”再把它們 mask 掉,比如人、車、寵物等。但這種做法天然依賴類別先驗:當場景中出現未知動態物體、非剛體運動、局部遮擋或強反光區域時,系統往往就不夠穩了。DROID-W 則更強調觀測一致性本身。
論文中,研究者借助 DINO 特征來衡量跨視角的一致性,并通過一個局部仿射映射加 Softplus 激活,把這些特征轉化為連續的不確定性估計。相比把動態直接做成硬分割 mask,這種連續表達更細膩:它不只是告訴系統“哪里不能看”,而是進一步告訴系統“哪里該少信一點,哪里可以多信一點”。 這帶來一個很重要的好處:系統不會因為場景里有動態物體,就粗暴地把整塊區域全部丟掉。當一個物體只有局部在動,或者重新靜止下來時,DROID-W 仍然有機會利用其中可靠的信息繼續跟蹤。這種“軟抑制”策略,比一刀切的動態 masking 更適合真實世界。
不只是改方法,還做了更“野”的測試集
![]()
圖3: DROID-W 數據集實例。
為了驗證方法是否真的適用于真實場景,作者并沒有把實驗局限在常見的室內動態數據集上。除了 Bonn、TUM 和 DyCheck 這些常用數據集外,論文還引入了新的 DROID-W 數據集:這是一組更偏室外、更加開放、也更接近真實拍攝條件的數據,包含 7 段 Downtown 序列,并配有 RTK 支持的真值軌跡。DROID-W 數據集包含高動態場景、圖像過曝、鏡面反射、太陽光暈等高難度片段,很好的模擬了真實野外環境中的復雜場景。除此之外,作者還進一步測試了多段來自 YouTube 的動態視頻片段,用來評估系統在真正“in-the-wild”視頻中的通用性與魯棒性。
實驗結果
DROID-W 在多個動態數據集上都取得了最優的表現。作者指出,在 Bonn、TUM、DyCheck 等數據集上,方法依靠更穩定的不確定性估計,在高動態序列中明顯優于原始 DROID-SLAM,也優于多種現有動態 SLAM 方法。 尤其值得注意的是在作者新提出的 DROID-W Dataset --更大尺度、更偏真實世界的室外動態數據集--作者提出的方法在該數據集上平均軌跡誤差僅為 23 厘米,而 DROID-SLAM 誤差卻為 1.46 米。
![]()
圖4:動態不確定性估計定性對比。第一行:輸入的視頻幀;其余行:基線方法與 DROID-W 的對比。DROID-W 能夠在各種場景下輸出準確可靠的動態不確定性。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.