<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      萬幀實時!流式3D重建天花板,被國產開源模型打破了

      0
      分享至



      編輯|楊文

      螞蟻靈波,下了盤大棋。

      今年 1 月,螞蟻靈波一口氣開源了 4 款大模型,包括高精度空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA 與具身世界模型 LingBot-VA,以及世界模型 LingBot-World。

      其中,LingBot-Depth 負責從圖像中估算深度、感知空間距離,LingBot-World 負責對環境進行模擬和理解,LingBot-VLA/VA 負責機器人的決策和動作控制。

      這四款模型「各司其職」,分別覆蓋感知底層、環境理解和行動輸出,但中間一直缺少一個關鍵環節,就是如何把連續的感知數據實時構建成穩定的三維空間模型,讓后續模塊有據可依。

      現在,這個空缺被填上了。

      最近,螞蟻正式開源LingBot-Map,一個基于幾何上下文 Transformer(Geometric Context Transformer,GCT)的純自回歸的流式 3D 重建基礎模型

      它能在幾近恒定內存約束下,實現超萬幀長視頻的實時三維重建,處理速度約 20 FPS,并在多個基準測試中超越了現有流式方法。



      LingBot-Map 與最先進的流式重建方法的比較

      給定連續視頻流,LingBot-Map 可同步輸出精確的相機位姿估計與高質量點云。比如真實世界航拍俯瞰,LingBot-Map 保持穩定的定位能力與高精度 3D 重建效果:



      即便在穿越多房間的長序列中,面對環境劇變與大幅視角變換,模型依然能表現出極強的魯棒性:



      在生成視頻建模場景中,LingBot-Map 與主流生成視頻高度兼容,實現穩定的位姿鎖定:



      針對長序列戶外場景,模型在快速運動與頻繁視角切換下同樣維持了可靠的位姿精度:



      建筑環繞場景中,LingBot-Map 則進一步強化了回環重建能力,確保全局一致性:



      此次開源內容包括技術報告、核心代碼和模型權重,已同步上線 Hugging Face 和 ModelScope 平臺。



      • 論文鏈接:https://arxiv.org/abs/2604.14141
      • Hugging Face 鏈接:https://huggingface.co/robbyant/lingbot-map
      • ModelScope 鏈接:https://www.modelscope.cn/models/Robbyant/lingbot-map
      • GitHub 鏈接:https://github.com/Robbyant/lingbot-map

      至此,從單幀深度估計,到純自回歸的流式 3D 重建,再到場景理解和控制輸出,一條更為完整的技術鏈路就此貫通。

      機器的空間記憶,為什么這么難?

      如果我們在一棟陌生的大樓里轉悠二十分鐘,能大致描述出剛才走過的路線和空間結構嗎?大概率可以。這是因為人類大腦會在行走過程中持續建立空間記憶,把一幀一幀的感官信息整合成一張動態地圖。

      不過,機器要做到同樣的事,難得多。

      攝像頭可以拍下連續的畫面,但把這些二維圖像還原成準確的三維空間模型,同時保持實時更新、實時可用,是具身智能和自動駕駛領域長期懸而未決的難題。其難點在于,視頻流是沒有終點的,歷史幀的信息不能丟,當前幀又必須即時處理,而內存還是有限的。

      現有方案,大多只能顧一頭。

      傳統 3D 重建方法,比如經典的 SfM(運動恢復結構),通常需要收集完所有幀之后,再進行離線的全局優化。這種離線處理方案精度高,但要等視頻錄完才能開始算,難以滿足實時運行需求。

      于是就有了流式重建的思路,讓模型在接收每一幀畫面的同時,持續更新三維理解,不做事后處理,但現實中有兩道坎難以逾越。

      一是「災難性遺忘」。神經網絡在處理新輸入時,會傾向于覆蓋舊有信息。視頻越長,模型越容易忘記早期建立的幾何關系,導致重建結果在時間維度上前后矛盾、全局漂移。

      一是「內存膨脹」。如果想對抗遺忘,最直覺的做法是把歷史幀全部保存下來,隨時參考。但視頻幀數一旦過多,內存就會爆炸。萬幀以上的長視頻,現有流式方法普遍難以穩定應對。

      在這個兩難困境里,LingBot-Map 給出了一條不同的路徑。



      LingBot-Map 流程。該框架處理相對于初始化集 [T, T) 的當前視圖。DINO 骨干網絡提取圖像特征,然后通過交替的幀注意力層和 GCA 層進行細化。在 GCA 模塊中,輸入視圖聚合來自錨點上下文、局部姿態參考窗口 [T, T] 和軌跡記憶上下文的信息。最后,特定任務的頭部預測相機姿態和深度圖,從而實現對長序列的魯棒、內存高效的流式 3D 重建。

      它是怎么解決「記憶」問題的?

      讓機器實時看懂三維世界,本質上是個記憶問題,比如記什么、怎么壓縮、如何在需要時快速調取。

      那么,LingBot-Map 是如何解決這一難題的?這就不得不提一個名為幾何上下文注意力(Geometric Context Attention,GCA)的核心機制。

      核心機制:幾何上下文注意力(GCA)

      GCA 的設計靈感,來自機器人領域的經典算法 SLAM。

      傳統 SLAM 告訴工程師,要讓機器人在未知環境里邊走邊建圖,至少需要維護三類空間記憶:鎖定坐標系原點的參考幀、捕捉近鄰幀幾何細節的局部窗口,以及記錄全局行走軌跡的稀疏地圖。

      不過,傳統 SLAM 依賴工程師手動編寫復雜的幾何約束代碼,靈活性有限。LingBot-Map 研究團隊換了條路,將這些空間規律內化到 Transformer 的注意力機制中,利用因果注意力(Causal Attention)確保模型只利用過去和當前的信息,完全符合機器人邊走邊看的實時邏輯。

      幾何上下文注意力(GCA)在處理視頻流時,同時維護三類記憶。

      第一類是錨點(Anchor),負責記住「我從哪里出發」。它為整個三維坐標系提供穩定基準,空間重建最怕坐標漂移,有了錨點,模型在處理第一萬幀時,仍然清楚第一幀發生在什么位置。

      第二類叫位姿參考窗口(Pose-reference window),負責捕捉當前位置附近的局部幾何細節。這相當于對「我身邊有什么」保持清醒的即時感知,保證了逐幀重建的精度。

      第三類為軌跡記憶(Trajectory memory),這是整個架構中較為關鍵的設計。它把龐大的歷史信息壓縮成極其緊湊的逐幀 Token,以較低的存儲代價保留對過去路徑的「印象」。正是這一機制,讓 LingBot-Map 的內存消耗幾乎不隨視頻長度增長,處理 100 幀和處理 10000 幀,總的計算量和內存占用維持在幾近相同的水平。

      三類記憶協同工作,讓模型在處理當前畫面時,能同時調取空間基準、局部細節和歷史軌跡。整套機制端到端可學習,模型在訓練中自動習得如何分配和壓縮信息,不依賴人工設計的規則。

      這種設計帶來的效率提升相當可觀。以一段萬幀視頻為例,如果采用樸素的因果注意力緩存所有歷史,模型需要維護約 500 萬個 token,而 GCA 只需要約 7 萬個,足足壓縮了近 80 倍,且每處理一幀新畫面,計算量和內存消耗幾乎不隨總幀數增長。



      注意力掩碼比較。每個方框代表一幀的 Token,由一小段上下文 Token 和一段較大的圖像 Token 組成。(a) 全注意力(Full attention)會關注所有幀。(b) 因果注意力(Causal attention)支持流式處理,但計算開銷隨序列長度線性增長。(c) 滑動窗口注意力(Sliding-window attention)雖然限制了計算成本,但會丟失長程上下文。(d) GCA 將流式上下文劃分為錨框 (n=2)、局部窗口 (k=2) 和軌跡記憶,在保持計算成本隨序列長度增加而近乎恒定的同時,保留了豐富的長程上下文信息。

      如何教會機器「有選擇地記憶」?

      有了 GCA 機制,還需要配套的訓練與推理策略,才能讓模型學會在長序列中穩定工作。

      直接在長序列上進行訓練極具挑戰性。早期幀的位姿誤差會沿軌跡傳播,破壞損失函數的穩定性,導致優化速度緩慢甚至發散。為此,LingBot-Map 采用漸進式視圖訓練策略:模型從短子序列開始,并在訓練過程中逐步增加視角數量,訓練視圖數量從 24 幀線性遞增至 320 幀,讓模型先在短序列中獲得可靠的局部幾何估計,再學習如何在逐漸延長的軌跡上保持全局一致性。

      隨著訓練序列長度的增加,跨幀注意力的計算復雜度呈平方級增長,GPU 內存成為主要瓶頸。對此,LingBot-Map 引入了上下文并行策略,將不同視圖分布至多張 GPU,通過高效的全局通信實現并行注意力計算,從而在不犧牲序列長度的前提下完成大規模訓練。

      損失函數同樣經過精心設計,LingBot-Map 采用一個復合損失函數來訓練,該函數由深度損失、絕對位姿損失與相對位姿損失組成。模型采用相機到世界坐標系的變換進行監督,規避了世界到相機參數化中旋轉與平移耦合帶來的誤差放大問題。此外,視頻時序位置編碼將幀序信息注入軌跡記憶 Token,使模型能夠感知歷史幀之間的時間距離,更有效地抑制長程漂移。

      推理層面,LingBot-Map 借鑒自回歸大語言模型的KV 緩存機制,并通過分頁 KV 緩存布局避免頻繁內存重分配的開銷,配合FlashInfer 框架的稀疏注意力優化,最終在 518×378 分辨率下實現約 20 FPS 的實時推理,相比 PyTorch 基線提速近一倍。

      在基準測試上,它表現如何?

      LingBot-Map 團隊建立了一個全面的評估基準測試,涵蓋相機位姿估計與 3D 重建兩大任務,橫跨室內、室外及大規模場景,結果均顯著優于現有流式方法。

      相機位姿估計方面,Oxford Spires 是一個涵蓋復雜室內外環境、場景變化顯著的大規模數據集,是檢驗流式方法長序列魯棒性的嚴苛標準。



      軌跡對比。(a) 在 Oxford-Spires 場景中,LingBot-Map 甚至優于雙向 (DA3-Giant) 和基于優化的方法 (ViPE),能夠在復雜的室內外過渡和昏暗樓梯中準確地保持軌跡。(b) 在 Tanks and Temples 以及其他 Oxford-Spires 場景中,LingBot-Map 方法始終能夠生成準確的軌跡,而其他流式方法則存在嚴重的軌跡漂移。藍色為真實軌跡,橙色為預測軌跡;起點為圓點 (●),終點為叉號 (×)。

      在稀疏設置(每隔 12 幀采樣,共 320 幀)下,LingBot-Map 在幾乎所有指標上取得最優成績,AUC@15 達到 61.64,AUC@30 達到 75.16,絕對軌跡誤差(ATE)僅為 6.42,這一數字不僅大幅領先所有在線方法,甚至超越了需要訪問全部幀的離線方法,以及依賴迭代優化的方法。這一結果充分說明,GCA 機制在長序列中的全局一致性保持能力已不輸于后處理優化。



      Oxford Spires 數據集上的位姿與軌跡精度對比。在與先前的離線方法、基于優化的方法以及在線方法的對比中,LingBot-Map 的方法在絕大多數指標上均實現了最優性能。

      在密集設置(完整 3840 幀序列)下,大多數流式方法因軌跡漂移而性能大幅劣化,比如 CUT3R 的 ATE 從 18.16 升至 32.47,Wint3R 從 21.10 升至 32.90。相比之下,LingBot-Map 始終保持較低的誤差,ATE 僅從 6.42 小幅升至 7.11,在序列長度增加 12 倍的情況下,誤差僅略微增加了 0.69,表現出極強的長程穩定性。LingBot-Map 還實現了 20.29 FPS 的極具競爭力的推理速度,同時在所有流式方法中保持了最佳的軌跡精度。



      在 Oxford Spires 數據集上關于稀疏(Sparse)軌跡與稠密(Dense)軌跡的精度對比。研究者對比了在稀疏設置(320 幀)和稠密設置(3840 幀)下的絕對軌跡誤差(ATE),衡量了從稀疏到稠密設置下的精度退化程度。LingBot-Map 保持了近乎恒定的精度,而其他方法則出現了明顯的退化。

      在 ETH3D、7-Scenes 和 Tanks and Temples 三個數據集上,LingBot-Map 同樣全面領先。以 ETH3D 為例,其 AUC@3 達到 27.79,AUC@30 達到 86.20,ATE 低至 0.22;在 Tanks and Temples 上,AUC@30 高達 92.80,ATE 僅為 0.20,均為各方法中最優。



      ETH3D、7-Scenes 和 Tanks & Temples 上的位姿與軌跡精度對比。在 ETH3D、7-Scenes 和 Tanks & Temples 數據集上的結果表明,LingBot-Map 方法在所有數據集上均取得了最佳性能。

      除了數值指標之外,該團隊還提供了重建質量的定性比較。在長時間間隔后重新訪問場景時,LingBot-Map 的方法表現出最小的漂移,能夠生成清晰一致的建筑結構重建結果。相比之下,其他方法由于記憶遺忘而出現嚴重的軌跡漂移和點云碎片化。這證明了 LingBot-Map 幾何上下文注意力機制在保持長序列一致性方面的有效性。



      點云重建的定性比較。

      三維重建方面,在 ETH3D 上,LingBot-Map 的 F1 得分為 98.98,比次優方法 Wint3R 高出 22.7 個百分點;在 NRGBD 數據集上,F1 得分達到 64.26,同樣大幅超過 StreamVGGT 和 TTT3R 等方法。精度與完整度的雙重提升,表明模型在保持重建準確性的同時,對場景覆蓋率也有更充分的保障。



      ETH3D、7-Scenes 和 NRGBD 上的點云重建對比。LingBot-Map 方法在準確率、完整性和 F1 分數方面均取得了最佳結果。

      消融實驗進一步驗證了各組件的貢獻。

      單獨加入錨點初始化可將 AUC@3 從 9.80 提升至 13.63,ATE 從 8.59 降至 7.88;引入相對位姿損失對幀間旋轉誤差的約束尤為關鍵,去掉后 RPE-rot 從 2.26 惡化至 5.35;而上下文 Token 與視頻 RoPE 的聯合引入則進一步將 AUC@3 提升至 16.39,ATE 降至 5.98,說明對全局軌跡信息的精確編碼是長程一致性的重要保障。



      長序列姿態估計和軌跡精度的消融研究。所有組成部分均對最終性能有顯著貢獻。

      效率分析方面,將位姿參考窗口限定為 64 幀而非保留全部歷史,不僅將推理速度從 11.87 FPS 提升至 20.29 FPS,顯存占用從 36.06 GB 降至 13.28 GB,ATE 也從 6.60 進一步下降至 5.98,這表明 GCA 所保留的精選幾何上下文,其信息密度實際上高于不加篩選的完整歷史緩存,在效率與精度上實現了雙贏。



      姿態參考窗口與全窗口的效率比較。姿態參考窗口(大小為 64)在顯著提高速度和降低內存占用的同時,實現了更高的精度。

      結語

      純自回歸流式 3D 重建,是具身智能領域公認的技術難點之一。此前,業內方案普遍面臨實時性與內存占用難以兼顧的困境,制約了具身系統在復雜、長時任務中的實際表現。

      LingBot-Map 的開源,為這一問題提供了一個可復現、可驗證的解法,也將相關技術門檻向下拉了一檔。

      從更大的視角來看,這也是螞蟻靈波具身大腦平臺趨于完整的一個節點。深度感知、場景理解、決策控制等模塊此前已陸續開源,LingBot-Map 的加入,補上了實時空間建模這一關鍵缺口。一套具身大腦該有的模塊,正在逐漸變得完整。

      當然,具身智能真正成熟,還需要無數真實場景的打磨和驗證,但這類基礎能力的開放共享,或將對整體研發節奏產生實質性影響。

      文中視頻鏈接:https://mp.weixin.qq.com/s/w_Vt1AylNX9WH3NBaKmUwA

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      多次遭特朗普大罵“紙老虎”“毫無用處”,北約“罕見”大動作:30國駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

      多次遭特朗普大罵“紙老虎”“毫無用處”,北約“罕見”大動作:30國駐北約大使集體訪日!日本已囤積44.4噸核材料,足夠造5500枚核彈頭

      揚子晚報
      2026-04-19 07:55:51
      用扣子捏了個“財經翻譯官”,最簡單的財報打開方式

      用扣子捏了個“財經翻譯官”,最簡單的財報打開方式

      一點財經
      2026-04-18 13:56:22
      詹姆斯:我媽能看到她兒子和孫子并肩打季后賽,這也太瘋狂了

      詹姆斯:我媽能看到她兒子和孫子并肩打季后賽,這也太瘋狂了

      懂球帝
      2026-04-19 12:31:08
      打蛇打七寸!中國全面斷供開始,日本多行業停擺,高市真慌了

      打蛇打七寸!中國全面斷供開始,日本多行業停擺,高市真慌了

      來科點譜
      2026-04-19 07:17:32
      世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

      世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

      三毛看世界
      2026-04-17 16:43:17
      網友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應:正常回訪,但電話沒接通

      網友稱山西一酒店回訪電話暴露其行程致家庭破碎,酒店回應:正常回訪,但電話沒接通

      瀟湘晨報
      2026-04-18 22:04:11
      25歲女孩下樓梯時低頭玩手機,踩空摔倒致腰椎爆裂性骨折,術前下肢癱瘓大小便失禁:我不會這輩子就完了吧?醫生:小事引發災難性后果

      25歲女孩下樓梯時低頭玩手機,踩空摔倒致腰椎爆裂性骨折,術前下肢癱瘓大小便失禁:我不會這輩子就完了吧?醫生:小事引發災難性后果

      大風新聞
      2026-04-19 10:14:13
      有一種痛苦叫買了“連廊中間戶”的房子,住了三年,天天想換房

      有一種痛苦叫買了“連廊中間戶”的房子,住了三年,天天想換房

      裝修秀
      2026-04-19 10:30:09
      重現死亡之瞳!詹姆斯19+8+13單核制勝 創8項紀錄+4項歷史第一

      重現死亡之瞳!詹姆斯19+8+13單核制勝 創8項紀錄+4項歷史第一

      醉臥浮生
      2026-04-19 11:20:27
      五一假期火車票開售以來,鐵路12306拒絕出票105.6萬張

      五一假期火車票開售以來,鐵路12306拒絕出票105.6萬張

      環球網資訊
      2026-04-19 15:23:04
      突然出手!烏克蘭宣布:發動大規模襲擊

      突然出手!烏克蘭宣布:發動大規模襲擊

      新浪財經
      2026-04-19 00:22:30
      人形機器人半馬前三均打破人類世界紀錄,工程師:不意外,很激動

      人形機器人半馬前三均打破人類世界紀錄,工程師:不意外,很激動

      新京報
      2026-04-19 12:25:11
      “絕對good!”河南男子在美國擺攤賣磨刀器:義烏進價1塊賣5美金,月入1萬美金

      “絕對good!”河南男子在美國擺攤賣磨刀器:義烏進價1塊賣5美金,月入1萬美金

      瀟湘晨報
      2026-04-19 11:48:20
      王偉中對俄羅斯后貝加爾邊疆區交通事故作出批示

      王偉中對俄羅斯后貝加爾邊疆區交通事故作出批示

      新京報
      2026-04-19 12:15:11
      為什么全國人民都在拒接電話?

      為什么全國人民都在拒接電話?

      黯泉
      2026-04-18 17:00:56
      山東乳山銀灘“195平米復式房”1萬元起拍,已有多人競價,拍賣公司:產證面積97.94平米,另有贈送面積,非法拍可隨時過戶

      山東乳山銀灘“195平米復式房”1萬元起拍,已有多人競價,拍賣公司:產證面積97.94平米,另有贈送面積,非法拍可隨時過戶

      極目新聞
      2026-04-19 14:06:31
      吹響集結號!歐亞53國達成共識,澤連斯基宣布不再將美國視為盟友

      吹響集結號!歐亞53國達成共識,澤連斯基宣布不再將美國視為盟友

      史政先鋒
      2026-04-19 13:45:53
      緊急提醒:近期波動上升!廣東報告1起流感暴發疫情,有深圳網友稱家里倆娃全中招

      緊急提醒:近期波動上升!廣東報告1起流感暴發疫情,有深圳網友稱家里倆娃全中招

      南方都市報
      2026-04-19 15:45:59
      快檢查自家陽臺!有人家里已大量出現,官方提醒:千萬別摸

      快檢查自家陽臺!有人家里已大量出現,官方提醒:千萬別摸

      環球網資訊
      2026-04-18 16:23:18
      世紀和解!巴克利自曝與喬丹已冰釋前嫌:兩人相約一起打高爾夫球

      世紀和解!巴克利自曝與喬丹已冰釋前嫌:兩人相約一起打高爾夫球

      羅說NBA
      2026-04-19 10:58:12
      2026-04-19 16:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12792文章數 142632關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張天愛評論區淪陷!被曝卷入小三風波

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      家居
      健康
      數碼
      時尚
      軍事航空

      家居要聞

      法式線條 時光靜淌

      干細胞抗衰4大誤區,90%的人都中招

      數碼要聞

      當貝魚缸2S Ultra:聽見專業的聲音,才敢說這是好魚缸

      3組出游穿搭,驚艷你的假期!

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進入關懷版