和身邊投資人、創業者朋友聊,AI圈近幾年,每年都有能擾動所有人注意力的大詞:
23年是大模型,24年是具身智能,25年是Agent……
那么26年的關鍵詞的是什么呢?
一個很高頻提及的,是世界模型。
就在今天1月29日,螞蟻集團旗下的具身智能公司靈波科技,發布了世界模型 LingBot-World,并且全面開源。
![]()
https://technology.robbyant.com/lingbot-world
過去兩年的視頻生成模型,大體還停留在抽卡式影像拼接,但這次,更像是給 AI 安裝了一個可以長期運轉、能被人實時操控、還能記住世界狀態的「數字宇宙引擎」。
給大家看一下真實的部署后的效果:
比當時讓人感慨「物理學不存在了」的Sora,更進了一步。
它不只能生成好看的視頻,還嘗試回答一個更大的問題:AI 能不能在一個持續存在、可交互、符合物理直覺的世界里長期演化。
![]()
我只覺得,這次開源,如果理解為一個新模型發布就太小了,至少為很多AI團隊26年的發展方向指了條路——
把世界模型從論文概念,推進到工程可復現、社區可參與、產業可落地的階段。
在視頻保真度、動態幅度、長時一致性、實時交互能力上,LingBot-World整體水位,已經不亞于Google Genie 3這一代閉源世界模型。
![]()
但它直接開源了權重和推理代碼,比去年DeepSeek R1的開源還要徹底。
似乎,很多行業都要因此改變了:具身智能、自動駕駛、游戲開發,都將擁有一個高保真、可控、低成本試錯的數字演練場和新的AI引擎。
![]()
生成的一幀一幀畫面,第一次看到的時候,真的很震撼……
而完整的視頻呈現,則是進一步把現實空間和物理場景,還原到了一個近乎超越真實的程度。
長記憶、廣視角、高連續的視覺呈現,是靈波給我帶來的第一個驚喜。
像故宮這種宏大場景,非常豐富的建筑群,在連續性和一致性上都達到了很高的水準。
01. 從生成視頻到模擬世界:范式真的變了
靈波這次開源的技術路線,從關鍵數據的獲取到處理,再到建模、計算和訓練,都和之前的視頻模型及世界模型有很大不同。
![]()
世界模型最難的不是網絡結構,是數據。
普通網絡視頻無法提供“動作—環境變化”對齊信號,而這卻正是世界模型必須學習的因果。
LingBot-World構建了一套混合數據引擎:
一部分來自清洗后的真實視頻,提供視覺多樣性;
一部分來自游戲錄制,嚴格對齊用戶操作、相機位姿和畫面;
還有一部分來自 Unreal Engine 合成管線,直接導出無 UI 干擾的純凈畫面和精確相機參數。
更關鍵的是他們設計了分層語義標注體系:
敘事級 caption、場景靜態 caption、時間密集 caption 三層描述,把“環境是什么”和“鏡頭/動作發生了什么”解耦。
![]()
這種標注方式的本質,是在幫模型區分“世界狀態”和“觀察方式”,這對學習穩定世界表征極其重要。
可以說,這套數據引擎不只是為 LingBot-World 服務,而是為未來所有開源世界模型提供了一個可參考的工業級范式。
![]()
過去的視頻大模型,很大程度上還是統計和概率:根據像素時序分布去猜下一幀長什么樣。
這類模型擅長做短視頻、情緒氛圍、鏡頭語言,但一旦時間拉長,問題就會暴露——角色換臉、建筑變形、物體消失、空間拓撲錯亂,都屬于典型的長時漂移(long-term drift)。
LingBot-World試圖跨過這道坎,它開始不再把任務定義為“生成一段視頻”,而去學習一個世界狀態在動作驅動下如何演進。
論文中把問題形式化為:在已有歷史畫面和動作序列的條件下,預測未來一段時間的世界狀態分布。
這種建模方式,在我看來已經超出了視覺生成的范疇,轉向了“環境動力學建模”。
![]()
這種差異尤其關鍵。
因為一旦模型真的學到“動作 → 世界變化”的因果關系,它就不只是內容生成工具,變成了可被智能體利用的模擬器。
對機器人來說,它可以在這里先“想象”一條路徑再去現實執行;
對自動駕駛來說,它可以在虛擬世界里經歷極端長尾場景;
對游戲來說,它意味著開放世界不再依賴手工腳本,而可以實時生成、實時響應。
更重要的是,這種世界建模天然要求記憶能力。
LingBot-World 展示了一個非常具有象征意義的能力:鏡頭移開一個房子60秒,再轉回來,那個房子還在,結構一致,位置合理。
不管是高速運動視角、俯拍還是仰拍,相關景象、物體始終出現在物理合理的位置。
游戲場景的迅速切換、形態及動作變化,很真實自然。
這說明模型內部已經形成了一種隱式的空間記憶和狀態延續的能力,已經不是只盯著當前畫面做局部預測。
這也是給我的第二個驚喜——對物理世界的還原,尤其運動狀態或者游戲建模,非常遵循物理規律,而且能把復雜動態處理好。
02. 10分鐘無損長視頻:世界模型真正的門檻
長視頻穩定生成不是錦上添花,是世界模型是否可用的生死線。
因為任何真實任務,比如找路、搬運、探索,比如物流、交通,都不是 5 秒鐘能完成的。
LingBot-World 通過多階段訓練和并行化推理,把連續穩定生成時間推進到了接近 10 分鐘,并且在長時間鏡頭切換后,場景結構仍能維持一致。
以此來看,模型開始具備長程任務承載能力,不再只是短時視覺玩具。
論文里有一個很關鍵的訓練策略:逐步拉長視頻時長的課程學習(curriculum learning)。
![]()
從原始數據,到視頻片段,再到最終數據和敘事結構。
模型會先在 5 秒視頻上建立基本視頻先驗,再逐步擴展到 60 秒甚至更長序列,讓它在高噪聲階段更多關注全局結構,從而減少長時漂移。
先學畫面,再學世界,分階段演化,把一個視頻生成模型,一步步馴化成了世界模擬器,感覺還是很有創意的。
![]()
同時,LingBot-World采用了 MoE(Mixture of Experts)結構,把擴散過程拆成高噪聲專家和低噪聲專家:
前者負責世界整體布局,后者負責細節打磨。
既保持了高分辨率視頻能力,又讓長程結構更穩定。
看這個結構設計,靈波團隊沒有說是全盤推倒重來,是在現有視頻大模型技術棧上,做了有針對性的世界化改造。
看實際效果,各種細節也可圈可點。
03. 真正可玩:實時交互 + 文本觸發世界事件
如果只有長視頻,沒有實時性,它仍然只是離線渲染器。
LingBot-World另一個跨越式進展是:在約 16 FPS 吞吐下,把端到端交互延遲壓到 1 秒以內。
也就是說,用戶按下鍵盤,畫面幾乎立刻響應,已經接近可玩體驗的門檻。
技術上,他們做了兩件關鍵的事:
一是把雙向擴散模型蒸餾成因果自回歸結構,用 block causal attention 保留局部雙向信息,同時滿足全局時間因果;
二是通過 few-step distillation,把原本多步采樣壓縮成少步推理,才能實現準實時生成。
![]()
這個階段的訓練,本質是在把“畫質優先的老師模型”壓縮成“速度優先但邏輯仍在的學生模型”。
更有意思的是文本觸發世界事件能力。
用戶可以輸入“下雪”“夜晚”“像素風”“煙花”等提示,世界會在保持幾何結構一致的前提下發生風格或物理狀態變化。
上一代世界模型,更多是簡單的風格遷移,但是靈波這次,是在一個持續世界狀態上施加條件干預。
從應用角度看,這就是未來數字孿生和訓練環境構造的核心能力:人可以系統性地改變環境變量,不用重新生成一段無關視頻。
終于開始有了可以實時編輯、互動、修改變量的能力。
04. 開源的真正重量:不是模型,而是生態位
還有幾個讓我印象很深的亮點:
首先是動態離屏記憶,使模型能維持對視野外物體的持久性記憶,確保其在未被觀察時仍能自然演進;
其次是探索生成邊界,通過極高的時空相干性,支持生成超長且畫質穩定的高保真環境;
最后是具身物理約束,模型能夠遵循真實的碰撞動力學和空間邏輯,防止物體穿模或忽略物理屏障,從而生成符合物理規律的真實畫面。
![]()
基于這些持續涌現,不斷演化的特質,一個世界模型生態的雛形已經出現。
之前提到的游戲渲染、3D場景,還只是虛擬生態的延伸;而靈波代表的世界模型的觸角,已經真實觸達了物理現實。
比如說,現實世界里,機器人訓練最大的瓶頸是:長程復雜任務數據極度稀缺。
真實機器人跑一次實驗成本高、周期長、風險大。
LingBot-World 就提供了一種折中方案:在一個高保真、長時一致、可交互的數字世界里,先進行大規模試錯。
它能支持不同光照、擺放變化、風格變化,天然具備 domain randomization 的效果,這對提升現實泛化能力至關重要。
![]()
同時,論文還展示了從生成視頻中進行 3D 重建的能力,點云結構跨幀一致,說明模型內部已經隱式維持了幾何一致性。
這意味著世界模型未來可能成為3D 數據生成的源頭工廠,反向為具身感知模型提供訓練材料。
從更長遠看,我覺得這類模型是在搭建一個認知傳感器:
智能體可以在這里形成對物理世界的長期預測能力,已經不需要每一步都依賴真實sensor。
05. 世界模型,開始有“世界味”了
現在世界范圍內,最強的世界模型幾乎都閉源,導致研究者們,很難真正復現可交互的模型的能力。
LingBot-World是第一次,把權重、推理代碼公開。
這也是在向社區釋放一個信號:世界模型不該只存在于少數巨頭實驗室,可以真正走進更多行業。
仔細研究下來,我只覺得,這一步對生態的意義,可能比模型本身更大。
因為一旦開源社區開始圍繞世界模型做數據構建、控制接口、物理增強、記憶模塊擴展,就會形成一整條新的技術棧,終于不再是只停留在視頻生成賽道了。
當然,它還遠未完美。
論文里也坦誠:記憶仍是涌現能力、不穩定;動作空間有限;細粒度物體交互困難;推理成本高;多智能體尚未支持。
但這些問題的存在,本身說明它已經從演示級模型進入了可工程迭代的階段。
![]()
最后我想說,LingBot-World 代表的不僅是一次模型刷新,更是一次方向確認:
AI 正在從生成內容,走向生成可被持續體驗、被智能體利用、被人類實時介入的世界。
當視頻長度變成分鐘級,當鏡頭離開再回來物體仍在,當你按下鍵盤世界就響應,當一句話可以改變天氣和風格——這已經不是生成或者消費AI作品,是真的在進入 AI 構建的環境。
對靈波而言,世界模型還有個很重要的意義:為具身智能搭建一個可以反復試錯、低成本進化的數字現實。
在真實物理世界中,機器人每一次訓練都昂貴且緩慢,而世界模型讓智能體能夠在虛擬環境里提前經歷長時序任務、理解“動作如何改變環境”的因果關系,并逐步形成穩定的規劃與決策能力。
當這些能力在數字世界中被充分打磨后,再遷移到現實世界,具身智能的落地速度和泛化能力才真正具備規模化可能。
在這條路上,LingBot-World 讓開源陣營第一次站到了第一梯隊門口。
接下來,真正的變化,可能不在論文,就在接下來長出來的具身智能新系統、新智能體和新應用里。
2026年,世界模型這個核心命題,螞蟻靈波已經打響了關鍵的一槍……
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.