萬幀實(shí)時(shí)！流式3D重建天花板，被國產(chǎn)開源模型打破了

2026-04-16 13:25:47　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

編輯｜楊文

螞蟻靈波，下了盤大棋。

今年 1 月，螞蟻靈波一口氣開源了 4 款大模型，包括高精度空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA 與具身世界模型 LingBot-VA，以及世界模型 LingBot-World。

其中，LingBot-Depth 負(fù)責(zé)從圖像中估算深度、感知空間距離，LingBot-World 負(fù)責(zé)對環(huán)境進(jìn)行模擬和理解，LingBot-VLA/VA 負(fù)責(zé)機(jī)器人的決策和動(dòng)作控制。

這四款模型「各司其職」，分別覆蓋感知底層、環(huán)境理解和行動(dòng)輸出，但中間一直缺少一個(gè)關(guān)鍵環(huán)節(jié)，就是如何把連續(xù)的感知數(shù)據(jù)實(shí)時(shí)構(gòu)建成穩(wěn)定的三維空間模型，讓后續(xù)模塊有據(jù)可依。

現(xiàn)在，這個(gè)空缺被填上了。

最近，螞蟻正式開源LingBot-Map，一個(gè)基于幾何上下文 Transformer（Geometric Context Transformer，GCT）的純自回歸的流式 3D 重建基礎(chǔ)模型

它能在幾近恒定內(nèi)存約束下，實(shí)現(xiàn)超萬幀長視頻的實(shí)時(shí)三維重建，處理速度約 20 FPS，并在多個(gè)基準(zhǔn)測試中超越了現(xiàn)有流式方法。

LingBot-Map 與最先進(jìn)的流式重建方法的比較

給定連續(xù)視頻流，LingBot-Map 可同步輸出精確的相機(jī)位姿估計(jì)與高質(zhì)量點(diǎn)云。比如真實(shí)世界航拍俯瞰，LingBot-Map 保持穩(wěn)定的定位能力與高精度 3D 重建效果：

即便在穿越多房間的長序列中，面對環(huán)境劇變與大幅視角變換，模型依然能表現(xiàn)出極強(qiáng)的魯棒性：

在生成視頻建模場景中，LingBot-Map 與主流生成視頻高度兼容，實(shí)現(xiàn)穩(wěn)定的位姿鎖定：

針對長序列戶外場景，模型在快速運(yùn)動(dòng)與頻繁視角切換下同樣維持了可靠的位姿精度：

建筑環(huán)繞場景中，LingBot-Map 則進(jìn)一步強(qiáng)化了回環(huán)重建能力，確保全局一致性：

此次開源內(nèi)容包括技術(shù)報(bào)告、核心代碼和模型權(quán)重，已同步上線 Hugging Face 和 ModelScope 平臺。

論文鏈接：https://arxiv.org/abs/2604.14141
Hugging Face 鏈接：https://huggingface.co/robbyant/lingbot-map
ModelScope 鏈接：https://www.modelscope.cn/models/Robbyant/lingbot-map
GitHub 鏈接：https://github.com/Robbyant/lingbot-map

至此，從單幀深度估計(jì)，到純自回歸的流式 3D 重建，再到場景理解和控制輸出，一條更為完整的技術(shù)鏈路就此貫通。

機(jī)器的空間記憶，為什么這么難？

如果我們在一棟陌生的大樓里轉(zhuǎn)悠二十分鐘，能大致描述出剛才走過的路線和空間結(jié)構(gòu)嗎？大概率可以。這是因?yàn)槿祟惔竽X會在行走過程中持續(xù)建立空間記憶，把一幀一幀的感官信息整合成一張動(dòng)態(tài)地圖。

不過，機(jī)器要做到同樣的事，難得多。

攝像頭可以拍下連續(xù)的畫面，但把這些二維圖像還原成準(zhǔn)確的三維空間模型，同時(shí)保持實(shí)時(shí)更新、實(shí)時(shí)可用，是具身智能和自動(dòng)駕駛領(lǐng)域長期懸而未決的難題。其難點(diǎn)在于，視頻流是沒有終點(diǎn)的，歷史幀的信息不能丟，當(dāng)前幀又必須即時(shí)處理，而內(nèi)存還是有限的。

現(xiàn)有方案，大多只能顧一頭。

傳統(tǒng) 3D 重建方法，比如經(jīng)典的 SfM（運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)），通常需要收集完所有幀之后，再進(jìn)行離線的全局優(yōu)化。這種離線處理方案精度高，但要等視頻錄完才能開始算，難以滿足實(shí)時(shí)運(yùn)行需求。

于是就有了流式重建的思路，讓模型在接收每一幀畫面的同時(shí)，持續(xù)更新三維理解，不做事后處理，但現(xiàn)實(shí)中有兩道坎難以逾越。

一是「災(zāi)難性遺忘」。神經(jīng)網(wǎng)絡(luò)在處理新輸入時(shí)，會傾向于覆蓋舊有信息。視頻越長，模型越容易忘記早期建立的幾何關(guān)系，導(dǎo)致重建結(jié)果在時(shí)間維度上前后矛盾、全局漂移。

一是「內(nèi)存膨脹」。如果想對抗遺忘，最直覺的做法是把歷史幀全部保存下來，隨時(shí)參考。但視頻幀數(shù)一旦過多，內(nèi)存就會爆炸。萬幀以上的長視頻，現(xiàn)有流式方法普遍難以穩(wěn)定應(yīng)對。

在這個(gè)兩難困境里，LingBot-Map 給出了一條不同的路徑。

LingBot-Map 流程。該框架處理相對于初始化集 [T, T) 的當(dāng)前視圖。DINO 骨干網(wǎng)絡(luò)提取圖像特征，然后通過交替的幀注意力層和 GCA 層進(jìn)行細(xì)化。在 GCA 模塊中，輸入視圖聚合來自錨點(diǎn)上下文、局部姿態(tài)參考窗口 [T, T] 和軌跡記憶上下文的信息。最后，特定任務(wù)的頭部預(yù)測相機(jī)姿態(tài)和深度圖，從而實(shí)現(xiàn)對長序列的魯棒、內(nèi)存高效的流式 3D 重建。

它是怎么解決「記憶」問題的？

讓機(jī)器實(shí)時(shí)看懂三維世界，本質(zhì)上是個(gè)記憶問題，比如記什么、怎么壓縮、如何在需要時(shí)快速調(diào)取。

那么，LingBot-Map 是如何解決這一難題的？這就不得不提一個(gè)名為幾何上下文注意力（Geometric Context Attention，GCA）的核心機(jī)制。

核心機(jī)制：幾何上下文注意力（GCA）

GCA 的設(shè)計(jì)靈感，來自機(jī)器人領(lǐng)域的經(jīng)典算法 SLAM。

傳統(tǒng) SLAM 告訴工程師，要讓機(jī)器人在未知環(huán)境里邊走邊建圖，至少需要維護(hù)三類空間記憶：鎖定坐標(biāo)系原點(diǎn)的參考幀、捕捉近鄰幀幾何細(xì)節(jié)的局部窗口，以及記錄全局行走軌跡的稀疏地圖。

不過，傳統(tǒng) SLAM 依賴工程師手動(dòng)編寫復(fù)雜的幾何約束代碼，靈活性有限。LingBot-Map 研究團(tuán)隊(duì)換了條路，將這些空間規(guī)律內(nèi)化到 Transformer 的注意力機(jī)制中，利用因果注意力（Causal Attention）確保模型只利用過去和當(dāng)前的信息，完全符合機(jī)器人邊走邊看的實(shí)時(shí)邏輯。

幾何上下文注意力（GCA）在處理視頻流時(shí)，同時(shí)維護(hù)三類記憶。

第一類是錨點(diǎn)（Anchor），負(fù)責(zé)記住「我從哪里出發(fā)」。它為整個(gè)三維坐標(biāo)系提供穩(wěn)定基準(zhǔn)，空間重建最怕坐標(biāo)漂移，有了錨點(diǎn)，模型在處理第一萬幀時(shí)，仍然清楚第一幀發(fā)生在什么位置。

第二類叫位姿參考窗口（Pose-reference window），負(fù)責(zé)捕捉當(dāng)前位置附近的局部幾何細(xì)節(jié)。這相當(dāng)于對「我身邊有什么」保持清醒的即時(shí)感知，保證了逐幀重建的精度。

第三類為軌跡記憶（Trajectory memory），這是整個(gè)架構(gòu)中較為關(guān)鍵的設(shè)計(jì)。它把龐大的歷史信息壓縮成極其緊湊的逐幀 Token，以較低的存儲代價(jià)保留對過去路徑的「印象」。正是這一機(jī)制，讓 LingBot-Map 的內(nèi)存消耗幾乎不隨視頻長度增長，處理 100 幀和處理 10000 幀，總的計(jì)算量和內(nèi)存占用維持在幾近相同的水平。

三類記憶協(xié)同工作，讓模型在處理當(dāng)前畫面時(shí)，能同時(shí)調(diào)取空間基準(zhǔn)、局部細(xì)節(jié)和歷史軌跡。整套機(jī)制端到端可學(xué)習(xí)，模型在訓(xùn)練中自動(dòng)習(xí)得如何分配和壓縮信息，不依賴人工設(shè)計(jì)的規(guī)則。

這種設(shè)計(jì)帶來的效率提升相當(dāng)可觀。以一段萬幀視頻為例，如果采用樸素的因果注意力緩存所有歷史，模型需要維護(hù)約 500 萬個(gè) token，而 GCA 只需要約 7 萬個(gè)，足足壓縮了近 80 倍，且每處理一幀新畫面，計(jì)算量和內(nèi)存消耗幾乎不隨總幀數(shù)增長。

注意力掩碼比較。每個(gè)方框代表一幀的 Token，由一小段上下文 Token 和一段較大的圖像 Token 組成。(a) 全注意力（Full attention）會關(guān)注所有幀。(b) 因果注意力（Causal attention）支持流式處理，但計(jì)算開銷隨序列長度線性增長。(c) 滑動(dòng)窗口注意力（Sliding-window attention）雖然限制了計(jì)算成本，但會丟失長程上下文。(d) GCA 將流式上下文劃分為錨框 (n=2)、局部窗口 (k=2) 和軌跡記憶，在保持計(jì)算成本隨序列長度增加而近乎恒定的同時(shí)，保留了豐富的長程上下文信息。

如何教會機(jī)器「有選擇地記憶」？

有了 GCA 機(jī)制，還需要配套的訓(xùn)練與推理策略，才能讓模型學(xué)會在長序列中穩(wěn)定工作。

直接在長序列上進(jìn)行訓(xùn)練極具挑戰(zhàn)性。早期幀的位姿誤差會沿軌跡傳播，破壞損失函數(shù)的穩(wěn)定性，導(dǎo)致優(yōu)化速度緩慢甚至發(fā)散。為此，LingBot-Map 采用漸進(jìn)式視圖訓(xùn)練策略：模型從短子序列開始，并在訓(xùn)練過程中逐步增加視角數(shù)量，訓(xùn)練視圖數(shù)量從 24 幀線性遞增至 320 幀，讓模型先在短序列中獲得可靠的局部幾何估計(jì)，再學(xué)習(xí)如何在逐漸延長的軌跡上保持全局一致性。

隨著訓(xùn)練序列長度的增加，跨幀注意力的計(jì)算復(fù)雜度呈平方級增長，GPU 內(nèi)存成為主要瓶頸。對此，LingBot-Map 引入了上下文并行策略，將不同視圖分布至多張 GPU，通過高效的全局通信實(shí)現(xiàn)并行注意力計(jì)算，從而在不犧牲序列長度的前提下完成大規(guī)模訓(xùn)練。

損失函數(shù)同樣經(jīng)過精心設(shè)計(jì)，LingBot-Map 采用一個(gè)復(fù)合損失函數(shù)來訓(xùn)練，該函數(shù)由深度損失、絕對位姿損失與相對位姿損失組成。模型采用相機(jī)到世界坐標(biāo)系的變換進(jìn)行監(jiān)督，規(guī)避了世界到相機(jī)參數(shù)化中旋轉(zhuǎn)與平移耦合帶來的誤差放大問題。此外，視頻時(shí)序位置編碼將幀序信息注入軌跡記憶 Token，使模型能夠感知?dú)v史幀之間的時(shí)間距離，更有效地抑制長程漂移。

推理層面，LingBot-Map 借鑒自回歸大語言模型的KV 緩存機(jī)制，并通過分頁 KV 緩存布局避免頻繁內(nèi)存重分配的開銷，配合FlashInfer 框架的稀疏注意力優(yōu)化，最終在 518×378 分辨率下實(shí)現(xiàn)約 20 FPS 的實(shí)時(shí)推理，相比 PyTorch 基線提速近一倍。

在基準(zhǔn)測試上，它表現(xiàn)如何？

LingBot-Map 團(tuán)隊(duì)建立了一個(gè)全面的評估基準(zhǔn)測試，涵蓋相機(jī)位姿估計(jì)與 3D 重建兩大任務(wù)，橫跨室內(nèi)、室外及大規(guī)模場景，結(jié)果均顯著優(yōu)于現(xiàn)有流式方法。

相機(jī)位姿估計(jì)方面，Oxford Spires 是一個(gè)涵蓋復(fù)雜室內(nèi)外環(huán)境、場景變化顯著的大規(guī)模數(shù)據(jù)集，是檢驗(yàn)流式方法長序列魯棒性的嚴(yán)苛標(biāo)準(zhǔn)。

軌跡對比。(a) 在 Oxford-Spires 場景中，LingBot-Map 甚至優(yōu)于雙向 (DA3-Giant) 和基于優(yōu)化的方法 (ViPE)，能夠在復(fù)雜的室內(nèi)外過渡和昏暗樓梯中準(zhǔn)確地保持軌跡。(b) 在 Tanks and Temples 以及其他 Oxford-Spires 場景中，LingBot-Map 方法始終能夠生成準(zhǔn)確的軌跡，而其他流式方法則存在嚴(yán)重的軌跡漂移。藍(lán)色為真實(shí)軌跡，橙色為預(yù)測軌跡；起點(diǎn)為圓點(diǎn) (●)，終點(diǎn)為叉號 (×)。

在稀疏設(shè)置（每隔 12 幀采樣，共 320 幀）下，LingBot-Map 在幾乎所有指標(biāo)上取得最優(yōu)成績，AUC@15 達(dá)到 61.64，AUC@30 達(dá)到 75.16，絕對軌跡誤差（ATE）僅為 6.42，這一數(shù)字不僅大幅領(lǐng)先所有在線方法，甚至超越了需要訪問全部幀的離線方法，以及依賴迭代優(yōu)化的方法。這一結(jié)果充分說明，GCA 機(jī)制在長序列中的全局一致性保持能力已不輸于后處理優(yōu)化。

Oxford Spires 數(shù)據(jù)集上的位姿與軌跡精度對比。在與先前的離線方法、基于優(yōu)化的方法以及在線方法的對比中，LingBot-Map 的方法在絕大多數(shù)指標(biāo)上均實(shí)現(xiàn)了最優(yōu)性能。

在密集設(shè)置（完整 3840 幀序列）下，大多數(shù)流式方法因軌跡漂移而性能大幅劣化，比如 CUT3R 的 ATE 從 18.16 升至 32.47，Wint3R 從 21.10 升至 32.90。相比之下，LingBot-Map 始終保持較低的誤差，ATE 僅從 6.42 小幅升至 7.11，在序列長度增加 12 倍的情況下，誤差僅略微增加了 0.69，表現(xiàn)出極強(qiáng)的長程穩(wěn)定性。LingBot-Map 還實(shí)現(xiàn)了 20.29 FPS 的極具競爭力的推理速度，同時(shí)在所有流式方法中保持了最佳的軌跡精度。

在 Oxford Spires 數(shù)據(jù)集上關(guān)于稀疏（Sparse）軌跡與稠密（Dense）軌跡的精度對比。研究者對比了在稀疏設(shè)置（320 幀）和稠密設(shè)置（3840 幀）下的絕對軌跡誤差（ATE），衡量了從稀疏到稠密設(shè)置下的精度退化程度。LingBot-Map 保持了近乎恒定的精度，而其他方法則出現(xiàn)了明顯的退化。

在 ETH3D、7-Scenes 和 Tanks and Temples 三個(gè)數(shù)據(jù)集上，LingBot-Map 同樣全面領(lǐng)先。以 ETH3D 為例，其 AUC@3 達(dá)到 27.79，AUC@30 達(dá)到 86.20，ATE 低至 0.22；在 Tanks and Temples 上，AUC@30 高達(dá) 92.80，ATE 僅為 0.20，均為各方法中最優(yōu)。

ETH3D、7-Scenes 和 Tanks & Temples 上的位姿與軌跡精度對比。在 ETH3D、7-Scenes 和 Tanks & Temples 數(shù)據(jù)集上的結(jié)果表明，LingBot-Map 方法在所有數(shù)據(jù)集上均取得了最佳性能。

除了數(shù)值指標(biāo)之外，該團(tuán)隊(duì)還提供了重建質(zhì)量的定性比較。在長時(shí)間間隔后重新訪問場景時(shí)，LingBot-Map 的方法表現(xiàn)出最小的漂移，能夠生成清晰一致的建筑結(jié)構(gòu)重建結(jié)果。相比之下，其他方法由于記憶遺忘而出現(xiàn)嚴(yán)重的軌跡漂移和點(diǎn)云碎片化。這證明了 LingBot-Map 幾何上下文注意力機(jī)制在保持長序列一致性方面的有效性。

點(diǎn)云重建的定性比較。

三維重建方面，在 ETH3D 上，LingBot-Map 的 F1 得分為 98.98，比次優(yōu)方法 Wint3R 高出 22.7 個(gè)百分點(diǎn)；在 NRGBD 數(shù)據(jù)集上，F(xiàn)1 得分達(dá)到 64.26，同樣大幅超過 StreamVGGT 和 TTT3R 等方法。精度與完整度的雙重提升，表明模型在保持重建準(zhǔn)確性的同時(shí)，對場景覆蓋率也有更充分的保障。

ETH3D、7-Scenes 和 NRGBD 上的點(diǎn)云重建對比。LingBot-Map 方法在準(zhǔn)確率、完整性和 F1 分?jǐn)?shù)方面均取得了最佳結(jié)果。

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各組件的貢獻(xiàn)。

單獨(dú)加入錨點(diǎn)初始化可將 AUC@3 從 9.80 提升至 13.63，ATE 從 8.59 降至 7.88；引入相對位姿損失對幀間旋轉(zhuǎn)誤差的約束尤為關(guān)鍵，去掉后 RPE-rot 從 2.26 惡化至 5.35；而上下文 Token 與視頻 RoPE 的聯(lián)合引入則進(jìn)一步將 AUC@3 提升至 16.39，ATE 降至 5.98，說明對全局軌跡信息的精確編碼是長程一致性的重要保障。

長序列姿態(tài)估計(jì)和軌跡精度的消融研究。所有組成部分均對最終性能有顯著貢獻(xiàn)。

效率分析方面，將位姿參考窗口限定為 64 幀而非保留全部歷史，不僅將推理速度從 11.87 FPS 提升至 20.29 FPS，顯存占用從 36.06 GB 降至 13.28 GB，ATE 也從 6.60 進(jìn)一步下降至 5.98，這表明 GCA 所保留的精選幾何上下文，其信息密度實(shí)際上高于不加篩選的完整歷史緩存，在效率與精度上實(shí)現(xiàn)了雙贏。

姿態(tài)參考窗口與全窗口的效率比較。姿態(tài)參考窗口（大小為 64）在顯著提高速度和降低內(nèi)存占用的同時(shí)，實(shí)現(xiàn)了更高的精度。

結(jié)語

純自回歸流式 3D 重建，是具身智能領(lǐng)域公認(rèn)的技術(shù)難點(diǎn)之一。此前，業(yè)內(nèi)方案普遍面臨實(shí)時(shí)性與內(nèi)存占用難以兼顧的困境，制約了具身系統(tǒng)在復(fù)雜、長時(shí)任務(wù)中的實(shí)際表現(xiàn)。

LingBot-Map 的開源，為這一問題提供了一個(gè)可復(fù)現(xiàn)、可驗(yàn)證的解法，也將相關(guān)技術(shù)門檻向下拉了一檔。

從更大的視角來看，這也是螞蟻靈波具身大腦平臺趨于完整的一個(gè)節(jié)點(diǎn)。深度感知、場景理解、決策控制等模塊此前已陸續(xù)開源，LingBot-Map 的加入，補(bǔ)上了實(shí)時(shí)空間建模這一關(guān)鍵缺口。一套具身大腦該有的模塊，正在逐漸變得完整。

當(dāng)然，具身智能真正成熟，還需要無數(shù)真實(shí)場景的打磨和驗(yàn)證，但這類基礎(chǔ)能力的開放共享，或?qū)φw研發(fā)節(jié)奏產(chǎn)生實(shí)質(zhì)性影響。

文中視頻鏈接：https://mp.weixin.qq.com/s/w_Vt1AylNX9WH3NBaKmUwA

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.