![]()
新智元報道
編輯:Aeneas
【新智元導讀】世界模型迎來高光時刻:谷歌還在閉源,中國團隊已經把SOTA級世界模型全面開源了,LingBot-World正面硬剛Genie 3,徹底打破了全球壟斷!
剛剛,國內AI公司,又給了業(yè)界不小的震撼。
螞蟻靈波科技發(fā)布的LingBot-World,剛剛成為開源SOTA級的世界模型。
可以說,它已經全面對標了谷歌Genie 3,甚至在一些性能指標上超越了Genie 3!
更令人震撼的是,LingBot-World是開源的。開源陣營,又一次領跑,徹底打破了閉源壟斷。
Demo一放出,立刻驚呆了外國網友。
![]()
才沒過多久,X上已經被LingBot-World刷屏了,直接登頂了熱搜榜的TOP 1。
![]()
海外網友瘋狂打call,直呼這個來自中國的模型太震撼了!
![]()
更耐人尋味的是,LingBot-World在X上發(fā)布后,Genie甚至宣布將于近期開源。
![]()
全面對標Genie 3
在可交互性、生成質量、物理一致性和生成時長上,LingBot-World都能全面對標Genie 3。
可能你會問,為什么要對標Genie 3?
不可否認的是,谷歌DeepMind發(fā)布的Genie 3,代表著該領域的最高水平。
然而Genie 3有一個大問題:它是閉源的,因而社區(qū)無法基于它進行開發(fā)和迭代。因此如果學術界和初創(chuàng)公司想訓練一個高質量世界模型,門檻是極高的。
![]()
Genie 3仍處于閉源狀態(tài)
但螞蟻靈波的這次開源,直接就讓大家擁有了SOTA級的物理仿真底座,根本無需從零造輪子。
無論是代碼、權重還是數據管線,都全部公開,全球社區(qū)都將依此打造無限可玩的下一代虛擬世界!
![]()
在多個領域,LingBot-World都能打造高保真、高動態(tài)、高物理一致性的可交互動態(tài)環(huán)境,包括照片級真實景觀、科學可視化和風格和的藝術世界
讓我們具體來看看,LingBot-World具有哪些性能優(yōu)勢?
首先,這是一個高保真的世界模型。
它能進行多模態(tài)的角色模擬,具備強大的泛化能力。貓怎么跳、螞蟻怎么爬,關羽怎么揮刀、龍騎士怎么起飛,這背后復雜的物理動態(tài)和行為邏輯,它都能理解和模擬。同時,還能模擬極具表現力的動態(tài)環(huán)境。
細粒度可控性,讓它實現了對角色相機的精準控制;Zero-shot的交互生成,還能把故宮實拍這類真實場景和游戲截圖直接生成可交互的視頻流。
LingBot-World高保真模擬與精準控制能力令人驚嘆
關羽騎馬揮刀動作背后的物理動態(tài)和行為邏輯,模擬得十分精確
故宮這類真實場景的可交互視頻流,看不出破綻
其次,它有著SOTA級長視頻生成能力,還是完全開源的!
一個真正厲害的世界模型,就在于不僅記得住,還能記得久。
LingBot-World的長時記憶,即便在大幅度運鏡或長時間跨度下,依然能讓主體特征保持穩(wěn)定性,不漂移、不遺忘。
林教頭風雪山神廟的的多種場景中,始終保持著長時序的一致性與記憶
對它來說,60秒的無損生成只是起點。依托強大的記憶能力,它突破了時序一致性的瓶頸,直接實現了10分鐘的高質量無損輸出!
從此,我們不必擔心再多看一會就要穿幫,在這個連續(xù)運行的世界里,角色、環(huán)境和故事都可以自然地發(fā)生。世界模型,真正開始「像一個世界」。
選擇一個世界設定和一個特定事件,它就能生成一個世界
最后,它的下游應用潛力也是巨大的。
因為整個世界都能講得通,物理仿真環(huán)境前后一致、邏輯自洽,還有穩(wěn)定的長時記憶,它就成為了3D場景重建和具身智能、游戲Agent訓練的理想底座。
可以說,這是一個永遠不會塌的訓練場:世界是穩(wěn)定的,時間是連續(xù)的,智能體可以在里面不斷試錯、不斷成長。
LingBot-World,摘下圣杯
長期以來,理解并模擬物理世界的技術,一直都是AI領域的圣杯。
然而,盡管當前的SOTA模型在渲染視覺連貫的短片段時已經非常逼真,但本質上,它們卻仍然是基于統計關聯性來生成像素過渡,并不能真正理解因果關系、物體恒存性以及交互后果這些底層規(guī)律。
可以說,從視頻生成到世界模型之間,有著巨大的鴻溝,原因就在于高質量互動數據的稀缺、擴散架構的災難性遺忘,以及實時控制的計算成本過高。
甚至,該領域最先進的方案始終處于專利壟斷狀態(tài),而現在LingBot-World框架的誕生,徹底打破了這種壁壘!
從此,大規(guī)模虛擬世界的研究會更加普及,內容創(chuàng)作、游戲開發(fā)、機器人學習的實踐,會注入一股強大動力。
對內容創(chuàng)作者來說,靈感不會再被制作成本所限制——一個想法,就能生成一個可持續(xù)運轉的世界。
游戲里的角色,不再只是在腳本里走流程;機器人也能在穩(wěn)定的虛擬環(huán)境中反復試錯。
LingBot-World框架不僅是一個生成式模型,更是一個能實時學習虛擬世界動態(tài)并進行渲染的完整系統。
而團隊創(chuàng)新背后的三大支柱,就是具備層級語義的可擴展數據引擎、多階段的進化訓練流程,以及具身人工智能的多功能應用。
為了構建能穩(wěn)健處理新視角、復雜動態(tài)和長期規(guī)劃的世界模型,團隊將數據引擎結構化為數據采集、數據分析和數據標注協同的統一流程。
![]()
通過下圖這個分析引擎,團隊有效彌合了原始視頻數據與訓練用資源之間的鴻溝。
![]()
接下來,團隊提出了一個多階段的進化策略,將基礎視頻生成器轉化為交互式的世界模擬器。
在這個訓練流程中,第一階段(預訓練)會建立一個通用視頻先驗。第二階段(中期訓練)會注入世界知識;第三階段(后訓練)則是實現低延遲與嚴格因果關系。
![]()
LingBot-World的視頻生成流程如下。
左圖顯示,系統會以圖像或視頻、噪聲潛在變量及用戶自定義動作信號為輸入,生成具有長期連貫性、空間記憶和精準動作跟隨能力的視頻序列。
而在右圖中,DiT模塊首先經過自注意力層,讓系統學習時空一致性、發(fā)展空間記憶能力,然后通過Plucker編碼器注入動作信號,最后通過交叉注意力層,將文本嵌入向量條件化到視頻潛在變量上。
![]()
最終,LingBot-World能生成可控的視覺世界,而非隨機的視頻生成。
定性分析結果顯示,LingBot-World能有效處理不同物體的屬性和空間構型,幀與幀之間的過渡極其流暢,并且邏輯自洽。
![]()
![]()
![]()
另外,這個世界模型還表現出一個關鍵特性,就是能自發(fā)地保持全局一致性。這就證明:視頻模型已經具備了物體重現的隱性記憶!
因此,它不僅能呈現動態(tài)視覺效果,還能推理未觀測狀態(tài)的演變。
比如下圖第5行中,離開畫面的車輛在未被觀測的情況下仍會繼續(xù)其運動軌跡,并在物理上合理的位置重新出現。這就表明,該模型模擬的是現實世界中潛在的時空一致性,而非簡單地記憶像素數據。
![]()
總之,對于交互式世界模型而言,LingBot-World能提供更具動態(tài)感和交互性的環(huán)境,這就能大大提升用戶在交互式場景中的沉浸式體驗。
如此強大的效果,讓LingBot-World在多個場景中都有著巨大的應用價值。
比如,引入可操控的全局事件,它就可以根據文本提示,來生成多樣化的未來軌跡。
結果顯示,模型既能處理「冬季」「像素藝術」這樣的全局性環(huán)境變化,也能精準調控「煙花」「魚類」這樣的局部情境,并且始終保持物理與時間維度的連貫性。另外,它還可以作為一個行動智能體,預測一系列模擬環(huán)境探索的動作,轉換為相機軌跡,從而驅動后續(xù)的世界生成。
![]()
最后,通過大規(guī)模3D重建基礎模型,我們還能將生成的視頻序列進一步轉化為高質量的場景點云。
因為這些點云展現出了高度的空間一致性,就為下游的具身智能訓練提供了多樣化的數據來源。
![]()
這一點,我們會在下面詳細展開。
螞蟻靈波為何同時布局VLA和世界模型
巧的是,就在前兩天,螞蟻靈波剛剛發(fā)布了空間感知和VLA基座模型。全新開源的LingBot-VLA,刷新了具身智能開源SOTA。
29號,緊接著又發(fā)布了LingBot-World世界模型。
從這一系列動作和布局可以看出,螞蟻靈波在堅持這樣一條路線:做「大腦」,做「智能基座」。
為何選擇同時布局VLA和世界模型?
原因就在于,VLA負責在真實世界中執(zhí)行任務(Action),而世界模型負責在虛擬空間中進行低成本試錯與推演。
前者是機器人的「大腦」和「手」,后者賦予機器人物理常識,二者分工不同,卻天然互補。
VLA擅長直面真實世界,把感知轉化為具體動作,真正去完成「拿、放、走、避讓」等動作,但真實環(huán)境的成本很高,試錯代價很大。此時世界模型的出現,恰好補上了這塊短板。
后者在虛擬空間中復刻現實世界的物理規(guī)律和時序邏輯,讓大量失敗和修正,都可以在低成本的可控環(huán)境中完成,選出最符合物理定律、最安全的路徑,然后再遷移到真實世界執(zhí)行。
二者的深度融合,就形成了「感知-行動-認知」的閉環(huán),解決了具身智能數據獲取難、訓練成本高、泛化能力弱的行業(yè)核心痛點。
這種閉環(huán)機制,就從根本上解決了具身智能長期面臨的「數據獲取難、訓練成本高、泛化能力弱」三大難題。
在這些逼真的虛擬環(huán)境中,機器人能快速試錯、學習,再應用到真實世界,這樣就極大降低了研發(fā)成本。

因此,世界模型也成為兵家必爭之地,無論是OpenAI、谷歌還是英偉達,都在押注世界模型。
要知道,機器人完成一項任務,往往要持續(xù)很久,但傳統模型生成的視頻,通常只能穩(wěn)定幾秒,之后畫面就會開始崩壞,因此,機器人很難把任務從頭到尾順利完成。
然而LingBot-World卻能做到10分鐘級別的無損生成,而且在多步驟、長序列任務中都能保證訓練的穩(wěn)定性。這對機器人訓練的意義,可以說是范式級的!

原因在于,機器人訓練里最痛的點之一,就是動作是對的,但過一段時間就全錯了。不過,如果模型能穩(wěn)定生成10分鐘級別的視頻,意味著它具備了長時記憶狀態(tài),以及行為之間的因果一致性。
因此,找 → 拿 → 搬 → 放 → 整理這種多技能組合,都可以在一個連續(xù)軌跡里學完,這對通用機器人有決定性的意義,讓它們「在腦子里練習」成為真正成為可能。
從此,機器人第一次真正具備了長期行為能力!

部署后實時演示的實拍視頻
PhysicalAI時代,誰將成為巨頭?
可以看到,世界模型在當下仍然處于前沿探索階段,技術路徑尚未真正收斂,研發(fā)投入高、周期長,注定不是一條「快錢」的路線。
但正因如此,選擇堅定投入世界模型與VLA融合的公司,本身就做出了一次清晰而長遠的判斷——他們押注的不是短期應用,而是機器人未來的「理解力」和「行動力」。
這個行業(yè),終究要有人去做「大腦」,而不僅僅是「軀體」。
從表面看,螞蟻靈波選擇打造「智能基座」,似乎是一條與宇樹、智元等硬件路線錯位競爭的道路,但這恰恰是一條最難的基礎設施級賽道。
不過,打造智能基座雖然最難,增量空間也是最大的。
更重要的是,當這樣的能力選擇對社區(qū)開放,接受真實世界的檢驗與迭代,其影響力將不只屬于某一家公司,而會成為推動具身智能乃至整個AI時代向前演進的一股關鍵力量。
Physical AI時代,感謝有螞蟻靈波。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.