![]()
編輯|澤南
AI 領域最前沿的方向「世界模型」,正在出現一場革命。
互聯網上,OpenClaw 的「賽博龍蝦」在虛擬數字世界中靈活穿梭,無所不能;現實中,具身機器人卻依然受困于試驗場的圍欄,難以邁向復雜的物理空間。這道橫跨虛擬與現實的鴻溝,本質上是智能體對空間智能(Spatial Intelligence)感知的缺失。
2024 年,被譽為「AI 教母」的李飛飛教授創立World Labs強勢入局,正式點燃了空間智能這一千億級賽道的全球戰火。就在不久前,該公司完成了最新一輪融資,估值直接飆升至 50 億美元RTFM(實時幀模型)是 World Labs 去年 10 月發布的實時生成式世界模型,其核心在于構建一個擁有永久一致性(Persistence)的 3D 場景,讓智能體不僅能「看見」空間,更能真正理解并實時交互物理世界。
在 50 億美元估值神話的背后,這一空間智能的最新高地正被國內創業公司攻克并推向產業縱深。近日,影溯(InSpatio)正式發布并開源了其實時幀生成模型InSpatio-WorldFM,一個實時交互的 3D 世界模型。這標志著中國團隊在空間智能底層技術上取得了奠基性突破,而且以開放的姿態,正成為推動 AI 從虛擬屏幕走向物理現實的關鍵破局者。
![]()
- InSpatio-WorldFM 項目主頁:https://inspatio.github.io/worldfm/
- 模型 GitHub:https://github.com/inspatio/worldfm
- 模型在線體驗:http://www.inspatio.com/worldfm
InSpatio-WorldFM 的發布和開源不僅是對全球頂尖技術路線的快速響應,更是中國團隊在空間智能領域的獨立思考。由浙江大學計算機輔助設計與圖形系統全國重點實驗室教授、國家杰青章國鋒博士領銜,影溯憑借在 3D 視覺和空間計算領域深耕 20 多年的底蘊,跳出了單純依賴極稀缺「原生 3D 數據」的傳統路徑,通過獨創的「數據升維」與「幾何約束」策略,成功激活了互聯網海量 2D 存量視頻數據中蘊含的 3D 空間知識。
這一技術路徑精準破解了困擾行業已久的「高質量、規模化 3D 數據貧礦」局限,將海量 2D 存量數據高效轉化為驅動 3D 世界模型的高維原動力。
InSpatio-WorldFM 能夠高效地進行多視角一致的空間推理,并支持實時交互式探索。它的效果是這樣的:
![]()
該項目發布后迅速獲得硅谷多位 AI 領域意見領袖轉發關注,在線 Demo 訪問量短時間內激增,一度出現排隊和訪問擁堵。
![]()
得益于 3D 的模型機制,其生成的虛擬世界有高度的一致性,模型生成的場景在空間幾何與光照與物理規律上非常穩定,無限時長推理不會出現遺忘和衰退。
值得關注的是,相比以往的世界模型,InSpatio-WorldFM 對于算力的需求很低。影溯的目標是讓實時的空間推理能在消費級 GPU 上實現,將空間智能從數據中心擴展到邊緣設備 —— 甚至在單塊 RTX 4090 GPU 上就能實現實時的推理,這就一下子打開了商業價值的想象空間。
生成的空間還支持整體一致性編輯 —— 不再是對單個物體或局部區域的零散修改,而是在保持幾何結構、光照關系、材質屬性與物理邏輯全局一致的前提下,進行跨視角、跨區域的統一調整。
比如從這樣:
![]()
到這樣:
![]()
無論是整體風格遷移、空間布局重構,光照材質,系統都能確保改動在所有視角與后續生成結果中保持一致,避免「前后打架」或「視角錯位」。
換句話說,它編輯的不是一幀圖像,而是一個可控、連貫、具物理約束的三維世界本體
技術路線
維度突破,構建原生 3D
目前,不論是科技巨頭還是創業公司都在加速發力世界模型。
圖靈獎得主 Yann LeCun 曾多次表示,僅靠預測下一個 token 的生成式模型無法真正做到理解現實世界,世界模型將會是 AI 下一次技術突破的大方向。然而當前絕大多數主流的世界模型、圖像生成模型(如谷歌的 Genie 3、OpenAI 的 Sora)進行 2D 像素概率預測的本質,并不符合技術前進的需要。
目前絕大多數的世界模型,如谷歌的 Genie3、英偉達 Cosmos、Runway GWM-1、Lingbo-World、PixVerse R1 等,本質上都是基于 2D 的視頻生成模型,其每個時刻的空間狀態都是由平面的 2D 圖像進行表達。但物理世界是 3D 的空間,AI 要和物理世界交互,空間狀態的表達也應該是 3D 的。
影溯所走的技術路線在于善用「第一性原理」,不再執著于逐像素地生成畫面,而是構建原生的 3D 世界。
這意味著需要走一條更具挑戰的路,讓模型學會對真實世界傳感器數據進行抽象建模,過濾掉不可預測的噪聲信息,并在更高層次的表征空間中進行預測與推理。
對此,影溯沒有選擇從零開始學習物理常識,而是將互聯網海量 2D 存量視頻數據中蘊含的 3D 空間知識成功激活。通過精確控制,他們反向抽取出其中蘊含的三維幾何與物理規律。在其生成的 3D 世界中,人或 AI 也可以自由地行動,不必擔心會出現不可靠的細節。
正是基于獨特的 3D 技術路線,影溯的世界模型可以有效解決目前 AIGC 工具「盲盒抽卡」的痛點,不僅能在實時生成的場景自由漫游,而且支持將視頻中的動態前景無縫轉移到另一個空間環境中,并且能嚴格保證轉移后的前景與新背景在空間幾何、光照、物理規則上的高度一致性。 一次生成,精準可控,徹底告別反復重試的算力浪費。
![]()
可以看出,影溯的模型在背景變換與運鏡控制上,展現出卓越的像素級前景鎖定能力和精準運鏡控制,其主體一致性與運鏡穩定性已超越當前主流的世界模型與視頻生成模型。尤為突出的是,即使背景完全變換、光線隨新環境自然適配,前景主體的光照依然能與新背景保持高度一致,細節與結構毫發無傷、紋絲不動。
影溯團隊透露,其世界模型的訓練僅僅動用了 100 張卡的算力規模,遠低于現在視頻模型訓練所需要的算力。當大廠還在用萬張顯卡暴力猜測「下一個 2D 像素是什么」時,影溯直接在底層構建了物理引擎的 3D 骨架。計算物理場,遠比窮舉像素更省算力。
具體來說,影溯這次開源的 InSpatio-WorldFM 具備三大特性:
突破 2D 限制:賦予空間智能一致性
在嘗試當前的先進 AI 視頻生成工具時,你一定遇到過這樣的尷尬:鏡頭一轉,原本的人物變形了,背景里的建筑憑空消失或發生了扭曲。這種現象的本質,是因為基于 2D 的 AI 模型只是在進行像素級的二維變化預測,它們并不懂什么是真正的物理世界。
InSpatio-WorldFM 拋棄了純 2D 的學習路徑,將「三維多視圖一致性」作為內容生成的核心約束機制。無論是在預計算階段還是實時推理中,模型都被強制要求理解并保持 3D 空間結構的連貫性。
![]()
多視一致的生成模型
于是在 InSpatio-WorldFM 生成的世界里,物體不僅具備真實的物理體積,而且不會隨時間發生漂移或形變。它賦予了空間智能最稀缺的品質 —— 物理級的持久一致性。
InSpatio-WorldFM 在構建 3D 世界時,可以保持生成的場景在時空上的持久一致性,無論在這個虛擬空間里轉多久,場景都不會像其他 AI 生成的視頻那樣崩壞變形,這對影視制作、游戲資產和具身智能來說是殺手級特性,證明了模型不是在「畫畫」,而是在「計算物理場」。由此生成的虛擬世界不再只是炫酷的視頻,而是直接為未來的機器人生準備的數以萬計的虛擬訓練場。
這種 3D 機制突破了 2D 視頻模型的極限時空記憶,解決了世界模型一直以來頭疼的「長時序遺忘」和「空間幾何崩塌」問題。
實現高效率
InSpatio-WorldFM 構建了輕量化與高效率的框架。通過基于幀的架構,輔以模型蒸餾和推理優化技術,影溯成功地壓縮了龐大的空間計算需求。影溯的目標是:在消費級 GPU 上實現實時的空間推理。這不僅能讓實時交互成為可能,更意味著空間智能將徹底走出數據中心,真正被部署到從機器人到 XR 眼鏡的各類端側設備中。
![]()
高效率低延遲的實時生成
顯式錨點 + 隱式記憶:實現空間記憶
空間智能的終極考驗在于「記憶」:如果一個機器人在轉頭的瞬間,就忘記了身后倉庫的布局和貨架的位置,那么高階規劃和自主導航就無從談起。為了解決這一痛點,InSpatio-WorldFM 創新地采用了一種「顯式錨點 + 隱式記憶」混合架構設計
在該模型中,團隊利用前沿的前饋式重建技術生成顯式的物理空間錨點,為模型提供穩固的 3D 結構支撐。與此同時,模型會將參考幀作為生成模型內部的隱式記憶。
![]()
這就像是讓 AI 擁有了「三維坐標體系」,不論鏡頭怎么轉,生成場景的內容都不會發生漂移和變化。
這種設計讓 AI 不僅能像神經元一樣靈活思考,還能擁有幾何級別的嚴密記憶,確保了 AI 即使在跨越復雜視點、經歷長時間推移后,依然能保持穩定、高效且可擴展的空間推理能力。
在以往,視頻模型由于空間記憶限制,隨著時長延長,復雜度指數級上升,因此 Genie3 等世界模型能夠生成的時長有限。InSpatio-WorldFM 理論上生成的時長則是無限的。
除此以外,在訓練數據上,影溯團隊利用自身在 SLAM(同步定位與建圖)、NeRF(神經輻射場)和 3DGS 等領域的技術積累,能夠極低成本地合成海量高質量的 3D 訓練數據,從而打破了 3D 訓練數據極度匱乏的行業瓶頸。
正是得益于這些架構的創新與底層數據的積累,從目前的一系列 demo 中可以看出,InSpatio-WorldFM 呈現出了很強的「工程可用性」。
這種創新與實用的并重,讓我們不得不把目光轉向影溯的核心團隊。
頂尖團隊下場創業
等了 20 年的「3D 時刻」
訓練 3D 世界模型是一個極具挑戰的任務,互聯網上存在海量的 2D 視頻數據,但 3D 數據極其匱乏,另一方面,精通 3D 視覺與圖形學的人才長期以來極為稀缺。
在通往空間智能的 AI 終極賽道上,影溯選擇硬核的原生 3D 路線,其底氣源自核心團隊在 3D 領域 20 多年的技術積淀。
影溯的班底堪稱國內空間計算領域「夢之隊」,由浙江大學計算機輔助設計與圖形系統全國重點實驗室(圖形學領域全球排名第三,僅次于斯坦福和 MIT)與原商湯科技 3D 視覺與混合現實團隊的頂尖專家組成:
其中創始人章國鋒為浙江大學求是特聘教授、國家杰青,前商湯數字空間事業群首席科學家。作為國內空間計算領域的領軍人物,他在 SLAM(同步定位與建圖)和 3D 重建領域深耕已超過 20 年,是國內空間計算領域公認的引領者。
聯合創始人兼 CTO 劉浩敏是前商湯研究總監、浙大博士。他的一個重要成就是:曾主導實現了業內首個手機端無標志 SLAM 商業系統,比蘋果的 ARKit 和谷歌的 ARCore 早了整整 3 年。
隨著生成式 AI 的爆發,3D 空間的重建與生成開始合流。影溯團隊敏銳地捕捉到了這個歷史性的「3D 時刻」,于 2025 年 7 月下場創業,致力于打造屬于中國的 3D 世界模型。
在這場世界模型的狂歡中,影溯的目標是讓 AI 真正理解 3D 物理世界中的空間幾何、物理規則和因果關系,利用 3D 視覺和圖形學的底座,來實現 AI 的升維,通向真正的世界模型。
基于團隊 20 多年的空間計算 / 智能的技術積累,影溯已經構建了一個三維場景重建與生成平臺,具備大尺度真實場景的快速掃描與重建生成能力,提供了從數據采集、場景生成、場景編輯到應用開發的完整工具鏈,可通過無人機、全景相機甚至手機拍攝實現低成本純視覺三維重建和生成。
影溯構建了一套行業內獨有的「3D 數據升維引擎」:不盲目耗費海量算力,而是從現有的海量視頻抽取 3D 知識,用成熟的幾何約束工具鏈打破 3D 數據荒。這是大廠短期內拿算力也砸不出來的能力,也是影溯的核心商業壁壘。
長期 3D 視覺和圖形學算法的積累、成熟的工程化工具鏈,構成了影溯難以被輕易復制的技術護城河。他們用著相對少的資源,撬動了空間智能的未來。
結語
與 World Labs 選擇閉源的商業路徑不同,影溯從一開始便確立了開源共建的核心戰略,認為空間智能的未來不應由單一企業定義,而應由全球開發者共同創造。
InSpatio-WorldFM 推出之后,為了支持全球 AI 社區的共建,影溯團隊下一步計劃提供更豐富的技術細節。同時,擴展版模型,以及支持與動態世界實時交互的體驗應用也將在不久后推出。
隨著 InSpatio-WorldFM 等開源空間智能模型的推出,生成模型、具身智能體和現實世界的機器人現在站在了全新的起跑線上。
AI 的下一個故事,才剛剛開始。
文中視頻鏈接:https://mp.weixin.qq.com/s/T3F7-xFx72KmZ9nkhdr2-w
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.