AI視頻的戰(zhàn)場(chǎng),正從單純的比拼畫質(zhì),進(jìn)化到比拼對(duì)物理世界的理解。
12月11日,AI視頻生成獨(dú)角獸Runway正式發(fā)布了其首款通用世界模型(General World Model)——GWM-1,正式殺入由谷歌、英偉達(dá)等巨頭領(lǐng)先的“世界模擬”戰(zhàn)場(chǎng)。
與傳統(tǒng)的AI視頻生成模型不同,GWM-1被設(shè)計(jì)為一個(gè)能夠理解物理規(guī)律、幾何結(jié)構(gòu)及環(huán)境動(dòng)態(tài)的模擬系統(tǒng),其核心突破在于“連貫性”與“交互性”。
Runway宣稱,基于對(duì)物理規(guī)律和環(huán)境動(dòng)態(tài)的理解,該模型能通過逐幀預(yù)測(cè)來模擬世界隨時(shí)間演變的過程,并支持長(zhǎng)達(dá)數(shù)分鐘的連貫實(shí)時(shí)交互。
![]()
拆解GWM-1:從“像素預(yù)測(cè)”到“通用模擬”
所謂“世界模型”,是指在讓AI在內(nèi)部構(gòu)建對(duì)現(xiàn)實(shí)世界運(yùn)行機(jī)制的模擬,使其能夠在無(wú)需遍歷現(xiàn)實(shí)所有場(chǎng)景的情況下,具備推理、規(guī)劃和行動(dòng)的能力。
“要構(gòu)建一個(gè)世界模型,首先需要構(gòu)建一個(gè)真正卓越的視頻模型。”Runway首席技術(shù)官Anastasis Germanidis在發(fā)布會(huì)上指出,教模型直接預(yù)測(cè)像素,是實(shí)現(xiàn)通用模擬的最佳路徑。
不過,盡管被冠以“通用”之名,但目前的GWM-1實(shí)際上是由三個(gè)針對(duì)不同領(lǐng)域進(jìn)行后訓(xùn)練的自回歸模型(GWM-Worlds、GWM-Robotics和GWM-Avatars)組成的模型系列,且均建立在Runway最新的Gen-4.5基座模型之上。
Runway明確表示,其最終愿景是將這些不同的領(lǐng)域和動(dòng)作空間統(tǒng)一到一個(gè)單一的基礎(chǔ)世界模型中。
(1)GWM-Worlds:可交互的數(shù)字環(huán)境探索界面
先看GWM-Worlds。
如前所述,GWM-Worlds是建立在Runway最新的Gen-4.5基座模型之上,進(jìn)行后訓(xùn)練的自回歸模型。這意味著,它采用了逐幀預(yù)測(cè)的方式預(yù)測(cè)下一幀。
換而言之,在任何時(shí)刻,用戶都可以根據(jù)應(yīng)用場(chǎng)景進(jìn)行干預(yù),例如在空間中移動(dòng)、控制機(jī)械臂或與智能體交互,模型都會(huì)模擬接下來發(fā)生的事情。
在官方的演示素材中能看到,該模型提供了一個(gè)用于探索數(shù)字環(huán)境的界面,用戶可以通過提示詞或參考圖像設(shè)定場(chǎng)景,模型將以24fps的幀率和720p的分辨率生成環(huán)境。
與傳統(tǒng)視頻生成不同,用戶可以實(shí)時(shí)改變鏡頭視角、環(huán)境條件或物體狀態(tài),模型能夠理解幾何與光影,確保生成的畫面在長(zhǎng)序列運(yùn)動(dòng)中保持連貫性。
除了游戲設(shè)計(jì)預(yù)覽和VR環(huán)境生成外,GWM-Worlds更深遠(yuǎn)的意義可能在于為AI Agent提供訓(xùn)練場(chǎng),教導(dǎo)它們?nèi)绾卧谖锢硎澜缰袑?dǎo)航和行動(dòng)。
![]()
(2)GWM-Robotics:解決具身智能的“數(shù)據(jù)饑渴”
如果說GWM-Worlds還帶有創(chuàng)意工具的基因,那么GWM-Robotics的推出,則展示了Runway進(jìn)軍工業(yè)與具身智能領(lǐng)域的野心。
在機(jī)器人研發(fā)中,獲取極端天氣、突發(fā)障礙等“長(zhǎng)尾場(chǎng)景”的真實(shí)數(shù)據(jù)成本極高。GWM-Robotics旨在解決這一痛點(diǎn),通過生成高質(zhì)量的“合成數(shù)據(jù)”,模擬各種環(huán)境變數(shù),幫助機(jī)器人在虛擬空間中進(jìn)行策略評(píng)估。這不僅能大幅降低訓(xùn)練成本,還能在機(jī)器人投入真實(shí)世界前預(yù)判其違規(guī)風(fēng)險(xiǎn)。
Runway已明確表示,目前正通過SDK向部分企業(yè)開放GWM-Robotics,并與多家機(jī)器人公司保持積極接觸。顯然,Runway試圖在單純的SaaS訂閱收入之外,開辟面向B端工業(yè)客戶的新業(yè)務(wù)。
![]()
(3) GWM-Avatars:統(tǒng)一視頻與語(yǔ)音的交互終端
GWM-Avatars則瞄準(zhǔn)了人機(jī)交互。這是一個(gè)將視頻生成與語(yǔ)音結(jié)合的統(tǒng)一模型,Runway宣稱其生成的數(shù)字人能進(jìn)行長(zhǎng)時(shí)間連續(xù)對(duì)話且無(wú)畫質(zhì)損耗。
若該技術(shù)效果屬實(shí)且能規(guī)模化落地,或?qū)?duì)客戶服務(wù)及在線教育行業(yè)產(chǎn)生顛覆性影響。
![]()
基座進(jìn)化與算力軍備
在仰望“世界模型”的同時(shí),Runway并未放松對(duì)現(xiàn)金牛業(yè)務(wù)的鞏固,也對(duì)當(dāng)家的視頻生成基座進(jìn)行了防御性升級(jí),以應(yīng)對(duì)來自Kling(可靈)等競(jìng)爭(zhēng)對(duì)手的追趕。
同期發(fā)布的Gen-4.5模型更新,補(bǔ)齊了原生音頻和多鏡頭編輯的短板。新版本支持生成長(zhǎng)達(dá)一分鐘的視頻,并能保持角色一致性、生成原生對(duì)話和背景音效,繼續(xù)從“C端玩具”邁向“B端生產(chǎn)力工具”的征程。
值得一提的是,為了支撐公司從創(chuàng)意生成邁向世界模擬的龐大算力需求,Runway還宣布與云服務(wù)商CoreWeave達(dá)成協(xié)議。據(jù)Runway披露,未來將利用CoreWeave云基礎(chǔ)設(shè)施上的Nvidia GB300 NVL72機(jī)架進(jìn)行模型訓(xùn)練與推理。
結(jié)語(yǔ)
從影視創(chuàng)意工具到機(jī)器人模擬器,Runway的戰(zhàn)略版圖正在極速擴(kuò)張。但在世界模型這一新賽道上,它已不再擁有視頻生成初期的先發(fā)優(yōu)勢(shì)。
面對(duì)Google、Nvidia等擁有深厚底層資源和科研積累的巨頭,能否利用GWM-1證明自己不僅是一家影視行業(yè)的“特效供應(yīng)商”,而是有能力成為物理世界的“AI架構(gòu)師”,將是評(píng)估其估值能否邁向下一階段的關(guān)鍵。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.