網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“世界模型”競(jìng)賽升級(jí)：Runway推出GWM-1，實(shí)時(shí)交互可持續(xù)數(shù)分鐘之久

2025-12-13 18:35:48　來源: 華爾街見聞官方

上海舉報(bào)

分享至

AI視頻的戰(zhàn)場(chǎng)，正從單純的比拼畫質(zhì)，進(jìn)化到比拼對(duì)物理世界的理解。

12月11日，AI視頻生成獨(dú)角獸Runway正式發(fā)布了其首款通用世界模型（General World Model）——GWM-1，正式殺入由谷歌、英偉達(dá)等巨頭領(lǐng)先的“世界模擬”戰(zhàn)場(chǎng)。

與傳統(tǒng)的AI視頻生成模型不同，GWM-1被設(shè)計(jì)為一個(gè)能夠理解物理規(guī)律、幾何結(jié)構(gòu)及環(huán)境動(dòng)態(tài)的模擬系統(tǒng)，其核心突破在于“連貫性”與“交互性”。

Runway宣稱，基于對(duì)物理規(guī)律和環(huán)境動(dòng)態(tài)的理解，該模型能通過逐幀預(yù)測(cè)來模擬世界隨時(shí)間演變的過程，并支持長(zhǎng)達(dá)數(shù)分鐘的連貫實(shí)時(shí)交互。

拆解GWM-1：從“像素預(yù)測(cè)”到“通用模擬”

所謂“世界模型”，是指在讓AI在內(nèi)部構(gòu)建對(duì)現(xiàn)實(shí)世界運(yùn)行機(jī)制的模擬，使其能夠在無(wú)需遍歷現(xiàn)實(shí)所有場(chǎng)景的情況下，具備推理、規(guī)劃和行動(dòng)的能力。

“要構(gòu)建一個(gè)世界模型，首先需要構(gòu)建一個(gè)真正卓越的視頻模型。”Runway首席技術(shù)官Anastasis Germanidis在發(fā)布會(huì)上指出，教模型直接預(yù)測(cè)像素，是實(shí)現(xiàn)通用模擬的最佳路徑。

不過，盡管被冠以“通用”之名，但目前的GWM-1實(shí)際上是由三個(gè)針對(duì)不同領(lǐng)域進(jìn)行后訓(xùn)練的自回歸模型（GWM-Worlds、GWM-Robotics和GWM-Avatars）組成的模型系列，且均建立在Runway最新的Gen-4.5基座模型之上。

Runway明確表示，其最終愿景是將這些不同的領(lǐng)域和動(dòng)作空間統(tǒng)一到一個(gè)單一的基礎(chǔ)世界模型中。

（1）GWM-Worlds：可交互的數(shù)字環(huán)境探索界面

先看GWM-Worlds。

如前所述，GWM-Worlds是建立在Runway最新的Gen-4.5基座模型之上，進(jìn)行后訓(xùn)練的自回歸模型。這意味著，它采用了逐幀預(yù)測(cè)的方式預(yù)測(cè)下一幀。

換而言之，在任何時(shí)刻，用戶都可以根據(jù)應(yīng)用場(chǎng)景進(jìn)行干預(yù)，例如在空間中移動(dòng)、控制機(jī)械臂或與智能體交互，模型都會(huì)模擬接下來發(fā)生的事情。

在官方的演示素材中能看到，該模型提供了一個(gè)用于探索數(shù)字環(huán)境的界面，用戶可以通過提示詞或參考圖像設(shè)定場(chǎng)景，模型將以24fps的幀率和720p的分辨率生成環(huán)境。

與傳統(tǒng)視頻生成不同，用戶可以實(shí)時(shí)改變鏡頭視角、環(huán)境條件或物體狀態(tài)，模型能夠理解幾何與光影，確保生成的畫面在長(zhǎng)序列運(yùn)動(dòng)中保持連貫性。

除了游戲設(shè)計(jì)預(yù)覽和VR環(huán)境生成外，GWM-Worlds更深遠(yuǎn)的意義可能在于為AI Agent提供訓(xùn)練場(chǎng)，教導(dǎo)它們?nèi)绾卧谖锢硎澜缰袑?dǎo)航和行動(dòng)。

（2）GWM-Robotics：解決具身智能的“數(shù)據(jù)饑渴”

如果說GWM-Worlds還帶有創(chuàng)意工具的基因，那么GWM-Robotics的推出，則展示了Runway進(jìn)軍工業(yè)與具身智能領(lǐng)域的野心。

在機(jī)器人研發(fā)中，獲取極端天氣、突發(fā)障礙等“長(zhǎng)尾場(chǎng)景”的真實(shí)數(shù)據(jù)成本極高。GWM-Robotics旨在解決這一痛點(diǎn)，通過生成高質(zhì)量的“合成數(shù)據(jù)”，模擬各種環(huán)境變數(shù)，幫助機(jī)器人在虛擬空間中進(jìn)行策略評(píng)估。這不僅能大幅降低訓(xùn)練成本，還能在機(jī)器人投入真實(shí)世界前預(yù)判其違規(guī)風(fēng)險(xiǎn)。

Runway已明確表示，目前正通過SDK向部分企業(yè)開放GWM-Robotics，并與多家機(jī)器人公司保持積極接觸。顯然，Runway試圖在單純的SaaS訂閱收入之外，開辟面向B端工業(yè)客戶的新業(yè)務(wù)。

（3） GWM-Avatars：統(tǒng)一視頻與語(yǔ)音的交互終端

GWM-Avatars則瞄準(zhǔn)了人機(jī)交互。這是一個(gè)將視頻生成與語(yǔ)音結(jié)合的統(tǒng)一模型，Runway宣稱其生成的數(shù)字人能進(jìn)行長(zhǎng)時(shí)間連續(xù)對(duì)話且無(wú)畫質(zhì)損耗。

若該技術(shù)效果屬實(shí)且能規(guī)模化落地，或?qū)?duì)客戶服務(wù)及在線教育行業(yè)產(chǎn)生顛覆性影響。

基座進(jìn)化與算力軍備

在仰望“世界模型”的同時(shí)，Runway并未放松對(duì)現(xiàn)金牛業(yè)務(wù)的鞏固，也對(duì)當(dāng)家的視頻生成基座進(jìn)行了防御性升級(jí)，以應(yīng)對(duì)來自Kling（可靈）等競(jìng)爭(zhēng)對(duì)手的追趕。

同期發(fā)布的Gen-4.5模型更新，補(bǔ)齊了原生音頻和多鏡頭編輯的短板。新版本支持生成長(zhǎng)達(dá)一分鐘的視頻，并能保持角色一致性、生成原生對(duì)話和背景音效，繼續(xù)從“C端玩具”邁向“B端生產(chǎn)力工具”的征程。

值得一提的是，為了支撐公司從創(chuàng)意生成邁向世界模擬的龐大算力需求，Runway還宣布與云服務(wù)商CoreWeave達(dá)成協(xié)議。據(jù)Runway披露，未來將利用CoreWeave云基礎(chǔ)設(shè)施上的Nvidia GB300 NVL72機(jī)架進(jìn)行模型訓(xùn)練與推理。

結(jié)語(yǔ)

從影視創(chuàng)意工具到機(jī)器人模擬器，Runway的戰(zhàn)略版圖正在極速擴(kuò)張。但在世界模型這一新賽道上，它已不再擁有視頻生成初期的先發(fā)優(yōu)勢(shì)。

面對(duì)Google、Nvidia等擁有深厚底層資源和科研積累的巨頭，能否利用GWM-1證明自己不僅是一家影視行業(yè)的“特效供應(yīng)商”，而是有能力成為物理世界的“AI架構(gòu)師”，將是評(píng)估其估值能否邁向下一階段的關(guān)鍵。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.