![]()
作者 | Kino
編輯 | 張潔
注意看,這個(gè)男人正躺在沙發(fā)上呼呼大睡,屏幕下方的輸入框里有一行字:“What would you like to happen next?”(你希望接下來(lái)發(fā)生什么?)。
![]()
你可以輸入任何天馬行空的指令把男人弄醒,比如讓壁爐的火蔓延到房間,引發(fā)濃煙把他嗆醒;或是讓窗外突然雷雨交加,把他吵醒;甚至憑空變出一個(gè)外星人把他劫走。
在輸入文字/語(yǔ)音指令后,AI會(huì)在幾秒內(nèi)生成相應(yīng)的視頻內(nèi)容。但可能是因?yàn)槌跏荚O(shè)定,這個(gè)男人最終總會(huì)回到沙發(fā)上,繼續(xù)呼呼大睡。
![]()
看起來(lái)像是一個(gè)AI惡作劇游戲,但這其實(shí)是PixVerse最新發(fā)布的通用實(shí)時(shí)世界模型——PixVerse R1帶來(lái)的真實(shí)體驗(yàn)。
PixVerse于上周發(fā)布了全球首個(gè)支持1080P分辨率通用實(shí)時(shí)世界模型PixVerse R1,在AI視頻圈迎來(lái)了一個(gè)小高潮。
簡(jiǎn)單來(lái)說(shuō),以前我們用AI生成視頻,需要先輸入提示詞,然后等待生成,最后得到一條視頻。但PixVerse R1主打的是一種實(shí)時(shí)生成和交互的無(wú)限流體驗(yàn)。
在PixVerse R1的官方演示視頻中,畫(huà)面左下角不斷出現(xiàn)實(shí)時(shí)的指令輸入,例如“一架黑色烏鴉飛過(guò)”“士兵拼命逃跑”“桌子翻倒”等。這些指令輸入后,視頻中的畫(huà)面立即隨之改變,且畫(huà)面是連續(xù)不斷演進(jìn)的。
理論上,只要你不斷輸入指令,視頻就可以永遠(yuǎn)生成下去,像一場(chǎng)沒(méi)有盡頭的電影。過(guò)程中,我們能隨時(shí)通過(guò)提示詞改變畫(huà)面走向,隨意操控視頻中的世界,這種體驗(yàn)類似于玩一款言出法隨的游戲。
就像上文那條視頻的演示,人人都可以體驗(yàn)當(dāng)上帝《楚門(mén)的世界》導(dǎo)演了。
對(duì)于PixVerse R1的上線,社交媒體上充滿了溢美之詞,仿佛視頻生成的終極形態(tài)已經(jīng)到來(lái)。我們也第一時(shí)間拿到了R1的試用資格。
雖然,如果以當(dāng)前主流AI視頻生成工具的質(zhì)量標(biāo)準(zhǔn)來(lái)衡量,R1的表現(xiàn)很難稱得上驚艷,提示詞遵循度、畫(huà)面的精細(xì)度和穩(wěn)定性都有待提高。
但我們需要意識(shí)到,目前的PixVerse R1,本質(zhì)上還處于早期內(nèi)測(cè)階段,而并非一個(gè)成熟的商業(yè)化產(chǎn)品。就像以往很多大模型一樣,世界模型更接近一次基礎(chǔ)設(shè)施層面的重塑,需要各行各業(yè)的進(jìn)一步探索和落地。
在AI生成視頻技術(shù)已經(jīng)如此成熟的今天,世界模型的革命性到底在哪里?為什么世界模型是下一個(gè)技術(shù)前沿?以及為什么現(xiàn)階段的它看起來(lái)并不是那么完美?
今天,我們決定從PixVerse R1切入,聊聊世界模型究竟是什么,并盤(pán)點(diǎn)那些爆火的世界模型,嘗試探討一下世界模型將如何重塑游戲、影視、內(nèi)容創(chuàng)作等行業(yè)。
![]()
實(shí)測(cè)PixVerse,
一場(chǎng)無(wú)限流交互體驗(yàn)
在PixVerse R1的官網(wǎng)首頁(yè)(https://realtime.pixverse.ai/),有一個(gè)名為“探索交互世界”的廣場(chǎng),這里預(yù)設(shè)了多個(gè)風(fēng)格迥異的可交互虛擬世界。
你可以潛入深海探索、登上月球漫步,也可以穿越回二戰(zhàn)戰(zhàn)場(chǎng)體驗(yàn),或是進(jìn)入《塞爾達(dá)傳說(shuō)》中的海拉魯大陸冒險(xiǎn)。
![]()
![]()
其中最能體現(xiàn)交互式趣味的,莫過(guò)于我們?cè)陂_(kāi)頭提到的《Can You Wake Him Up? 》。
當(dāng)然,如果你不想玩預(yù)設(shè)好的劇本,PixVerse R1也提供了從零開(kāi)始的創(chuàng)造模式。只需要確定好視頻畫(huà)幅比例,選擇一種視覺(jué)風(fēng)格(如第一人稱視角的POV、氛圍感或戲劇性),最后輸入你構(gòu)想的世界觀。設(shè)定完成后,一個(gè)屬于你的、可供探索的實(shí)時(shí)生成世界就誕生了。
![]()
接下來(lái)展示幾個(gè)我們的測(cè)試結(jié)果。
我先是選擇了一個(gè)名為“Cybergens”的主題場(chǎng)景,畫(huà)面主體是一個(gè)充滿金屬質(zhì)感的旋轉(zhuǎn)機(jī)械骷髏頭。
我輸入“戴上一頂西部牛仔帽”的指令,我的預(yù)期是在保持機(jī)械骷髏主體不變的前提下,頭頂憑空生成一頂帽子。實(shí)際上卻是機(jī)械骷髏瞬間變成了一個(gè)戴著牛仔帽、眼鏡和留著胡子的真人男性,但還是挺酷炫的。
然后我又嘗試了另一個(gè)指令“頭部被小丑撲克牌環(huán)繞”,很顯然生成的不是小丑撲克牌,但原本的骷髏頭變成了一個(gè)。我恍然大悟,好像是這么個(gè)邏輯:我說(shuō)西部牛仔帽,它理解成西部牛仔;我說(shuō)小丑撲克牌,它理解成小丑。
進(jìn)入這個(gè)塞爾達(dá)風(fēng)格的世界后,一個(gè)酷似林克的卡通角色正在曠野上奔跑。我輸入指令“長(zhǎng)出一對(duì)白色翅膀在天空飛翔”。
我的預(yù)期是角色應(yīng)該像《原神》中使用風(fēng)之翼那樣,自然地展開(kāi)翅膀升空、滑翔,保持動(dòng)作的流暢性。結(jié)果卻是原本正在向前奔跑的角色突然停下,然后莫名其妙地轉(zhuǎn)過(guò)身來(lái)正對(duì)鏡頭,背后長(zhǎng)出一對(duì)白色羽翼,原地?fù)潋v了幾下。
在這個(gè)名為月球漫步的世界中,我先后輸入指令“一艘UFO降落在地表”和“幾個(gè)外星人從UFO下來(lái)”,結(jié)果UFO是有了,但從UFO上下來(lái)的卻不是外星人,而是幾個(gè)宇航員。
在經(jīng)歷了前幾次指令翻車(chē)后,我意識(shí)到目前的PixVerse R1在理解因果邏輯時(shí)存在短板。于是我決定放棄人為干預(yù),看看如果不輸入任何指令,模型靠自己的想象力會(huì)如何發(fā)展。
這次我選擇了容錯(cuò)率最高的“賽博朋克城市”主題,因?yàn)橘惒┡罂吮旧硎莻€(gè)超現(xiàn)實(shí)題材,離奇和崩壞也就沒(méi)那么不合理了。
出乎意料的是,這竟然是效果最好的一次,讓人仿佛置身于動(dòng)畫(huà)《賽博朋克:邊緣行者》的場(chǎng)景中。
視頻開(kāi)始于一段第一人稱視角的城市漫游,巨大的全息金魚(yú)在街道上空游動(dòng),街邊的拉面攤冒著熱氣,無(wú)人機(jī)在一座巨大的發(fā)光時(shí)鐘旁穿梭……
伴隨模型PixVerse R1發(fā)布的,還有一份技術(shù)報(bào)告,PixVerse R1由三個(gè)模塊支撐:Omni、Memory和IRE。
Omni原生多模態(tài)基座是端到端的多模態(tài)模型,文本、圖像、視頻、音頻被統(tǒng)一編碼成連續(xù)token流。在保證實(shí)時(shí)性的同時(shí),PixVerse R1維持了1080P的高分辨率,依靠Omni多模態(tài)底座,將文本、圖像、音頻和視頻統(tǒng)一處理,實(shí)現(xiàn)了視聽(tīng)同步,還是很有技術(shù)挑戰(zhàn)性的。
![]()
盤(pán)點(diǎn)那些爆火的世界模型
如果我們把視線從PixVerse R1身上移開(kāi),環(huán)顧整個(gè)世界模型賽道,會(huì)發(fā)現(xiàn)這里早已硝煙彌漫。在這個(gè)賽場(chǎng),還有幾位不得不提的重量級(jí)玩家。
據(jù)“AI新榜”觀察,目前世界模型的底層架構(gòu)主要分為三大流派,且呈現(xiàn)出相互融合的趨勢(shì)。一派是以PixVerse R1和Odyssey-2為代表的“視頻派”,以生成視頻為核心;另一派是以Marble為代表的“3D/空間智能派”,這一路徑往往可以生成可交互、可導(dǎo)航、可編輯的三維環(huán)境;還有以NVIDIA Cosmos為代表的“物理派”,目標(biāo)是構(gòu)建極其精確、仿真的數(shù)字孿生世界,用來(lái)訓(xùn)練機(jī)器人和自動(dòng)駕駛。
Genie 3
https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/
![]()
Genie 3是谷歌DeepMind于2025年8月推出的最新一代世界模型,它能根據(jù)簡(jiǎn)單的文字提示實(shí)時(shí)創(chuàng)造可交互、可探索的虛擬世界環(huán)境。這個(gè)虛擬世界像游戲那樣可以自由移動(dòng)、互動(dòng),而且在短時(shí)間內(nèi)保持物理及視覺(jué)一致性,讓用戶(或者訓(xùn)練中的智能體)像進(jìn)入一個(gè)真正的世界一樣探索和操作。
跟傳統(tǒng)的文本生成視頻模型不同,Genie 3要同時(shí)理解世界的邏輯、物理與持久性,它能在720P分辨率、每秒24幀的條件下保持?jǐn)?shù)分鐘內(nèi)世界的連貫性。這意味著你在一個(gè)場(chǎng)景里改變了某個(gè)對(duì)象的位置、天氣等等,它能夠記住這些場(chǎng)景狀態(tài)。當(dāng)用戶控制角色離開(kāi)某個(gè)場(chǎng)景再返回時(shí),場(chǎng)景內(nèi)的物體布局等狀態(tài)保持不變。
從官方介紹看,谷歌也把Genie 3定義為第一款支持實(shí)時(shí)交互的世界模型。相比Genie 2,Genie 3在交互性和畫(huà)質(zhì)上實(shí)現(xiàn)了質(zhì)的飛躍:用戶不僅能控制角色移動(dòng),還能通過(guò)文本指令實(shí)時(shí)修改環(huán)境規(guī)則,比如“把白天變成黑夜”、“讓重力失效”。這種能力證明了模型對(duì)物理語(yǔ)義的深度理解。
Odyssey-2
https://odyssey.ml/the-dawn-of-a-world-simulator
![]()
Odyssey-2是Odyssey(AI創(chuàng)業(yè)公司)2025年推出的實(shí)時(shí)互動(dòng)式AI視頻世界模型,和PixVerse R1十分相似,同樣主打?qū)崟r(shí)生成和可交互,能以約20幀每秒的速度實(shí)時(shí)生成視頻幀。
據(jù)我們的測(cè)試,Odyssey-2生成的視頻畫(huà)質(zhì)和流暢度不如PixVerse R1,但可以點(diǎn)擊畫(huà)面元素觸發(fā)推薦提示詞,更有交互感。
Marble
https://marble.worldlabs.ai/
![]()
Marble是由李飛飛創(chuàng)業(yè)公司W(wǎng)orld Labs于2025年11月推出的多模態(tài)世界模型與3D世界生成平臺(tái)。
Marble的核心能力在于它可以根據(jù)一句文字描述、一張圖片、一段視頻,甚至是粗略的3D布局,生成3D世界。生成后的3D世界可以進(jìn)行交互式編輯、擴(kuò)展,并導(dǎo)出為高斯?jié)姙R、三角網(wǎng)格、視頻等多種格式,可無(wú)縫導(dǎo)入主流游戲引擎如Unreal、Unity、Blender等。
李飛飛團(tuán)隊(duì)認(rèn)為,真正的智能必須具備空間感,其創(chuàng)立的World Labs就致力于構(gòu)建具有空間智能的大型世界模型。
傳統(tǒng)3D內(nèi)容創(chuàng)作通常需要龐大的建模團(tuán)隊(duì)和復(fù)雜工具,而Marble能在幾分鐘內(nèi)根據(jù)簡(jiǎn)單描述生成完整的環(huán)境,大幅降低創(chuàng)作門(mén)檻。同時(shí),它也為機(jī)器人學(xué)、建筑可視化、互動(dòng)娛樂(lè)等需要精細(xì)空間理解的領(lǐng)域提供了新的工具。
Oasis
https://oasis.decart.ai/introduction
![]()
Oasis是由Decart AI于2024年10月推出的實(shí)時(shí)交互式AI世界模型/游戲生成系統(tǒng)。它標(biāo)榜自己為世界上第一個(gè)能夠?qū)崟r(shí)生成并讓用戶互動(dòng)的開(kāi)放世界AI模型。
區(qū)別于傳統(tǒng)的游戲引擎,Oasis能夠根據(jù)玩家的輸入,利用大規(guī)模預(yù)訓(xùn)練得到的模式理解和概率預(yù)測(cè),在沒(méi)有底層游戲邏輯和代碼的情況下實(shí)時(shí)生成整個(gè)游戲世界。可以理解為Oasis是一個(gè)完全由AI生成的、可玩的Minecraft克隆版。
目前,Oasis在世界持續(xù)性、高精度交互細(xì)節(jié)、分辨率與畫(huà)面穩(wěn)定性等方面仍有限制。
NVIDIA Cosmos
https://www.nvidia.com/en-us/ai/cosmos/
![]()
NVIDIA Cosmos是英偉達(dá)于2025年1月推出的面向“物理AI”開(kāi)發(fā)的世界基礎(chǔ)模型平臺(tái),專注于讓機(jī)器人、自動(dòng)駕駛汽車(chē)等具備理解現(xiàn)實(shí)世界、預(yù)測(cè)物理狀態(tài)、生成合成訓(xùn)練數(shù)據(jù)的能力。
在實(shí)際應(yīng)用層面,Cosmos能顯著改進(jìn)以下方面:用自動(dòng)生成的數(shù)據(jù)訓(xùn)練機(jī)器人和自動(dòng)駕駛系統(tǒng),減少對(duì)真實(shí)采集數(shù)據(jù)的依賴;模擬復(fù)雜環(huán)境(如城市交通等)用于AI認(rèn)知和策略學(xué)習(xí);與NVIDIA的Omniverse等仿真平臺(tái)協(xié)同,為物理AI系統(tǒng)提供更逼真的環(huán)境和更高效的開(kāi)發(fā)流程。
![]()
那么,世界模型究竟會(huì)如何重塑行業(yè)呢?
在多個(gè)潛在應(yīng)用方向中,游戲和互動(dòng)娛樂(lè)行業(yè)可能是最先被世界模型改變的領(lǐng)域之一。
過(guò)去,游戲世界是由策劃和美術(shù)提前設(shè)計(jì)完成,玩家只能在有限規(guī)則、關(guān)卡內(nèi)探索。而世界模型引入了一種新的范式,玩家不再只是沿著游戲設(shè)計(jì)者預(yù)設(shè)的規(guī)則行動(dòng),而是能夠實(shí)時(shí)生成游戲世界,并進(jìn)行探索和交互,這種變化將重塑游戲的開(kāi)發(fā)流程。未來(lái)的游戲可能是由一個(gè)訓(xùn)練好的大模型實(shí)時(shí)生成,這將帶來(lái)無(wú)限的開(kāi)放世界和動(dòng)態(tài)劇情。
影視與內(nèi)容創(chuàng)作行業(yè)同樣會(huì)受到深遠(yuǎn)影響。
想象一下,以互動(dòng)影視為代表的互動(dòng)敘事作品中,觀眾不再只是被動(dòng)觀看,而是可以在觀看過(guò)程中持續(xù)影響劇情走向。這種以參與和反饋為核心的創(chuàng)作形態(tài),也天然適配劇情向內(nèi)容賬號(hào)、互動(dòng)直播欄目等,需要用戶介入和實(shí)時(shí)反應(yīng)驅(qū)動(dòng)的內(nèi)容形態(tài)。
而且隨著可導(dǎo)航、可編輯的虛擬世界逐漸成熟,創(chuàng)作者可以在一個(gè)完整的虛擬環(huán)境中“取景”和“拍攝”,場(chǎng)景、光照和鏡頭調(diào)度都可以在這個(gè)空間中完成。這種轉(zhuǎn)變尤其適用于虛擬拍攝、視效制作和動(dòng)畫(huà)工業(yè)。
相比創(chuàng)意產(chǎn)業(yè),在機(jī)器人和自動(dòng)駕駛等領(lǐng)域,世界模型的意義更加偏向工程和基礎(chǔ)設(shè)施層面。這類行業(yè)高度依賴大量真實(shí)世界數(shù)據(jù),但真實(shí)數(shù)據(jù)的采集成本高、周期長(zhǎng),而且在許多極端或危險(xiǎn)場(chǎng)景中幾乎不可行。世界模型通過(guò)構(gòu)建具有物理一致性的模擬環(huán)境,為智能系統(tǒng)提供了一個(gè)可以反復(fù)試錯(cuò)和訓(xùn)練的“替代現(xiàn)實(shí)”。在這樣的環(huán)境中,模型不僅可以學(xué)習(xí)感知,還可以學(xué)習(xí)決策和長(zhǎng)期規(guī)劃。
可以確定的是,我們正站在一個(gè)清晰的臨界點(diǎn)上,當(dāng)AI逐漸成為構(gòu)建和模擬真實(shí)世界的引擎,不僅將重塑影視、游戲、具身智能等行業(yè)的內(nèi)容形態(tài)和交互體驗(yàn),也被普遍視為通向通用人工智能過(guò)程中不可或缺的一步。
但世界模型的真正價(jià)值,仍有賴于各行各業(yè)的開(kāi)發(fā)者和創(chuàng)作者在此基礎(chǔ)上,進(jìn)行持續(xù)探索、應(yīng)用落地和再創(chuàng)造。
「AI新榜交流群」進(jìn)群方式:添加微信“banggebangmei”并備注姓名+職業(yè)/公司+進(jìn)群,歡迎玩家們來(lái)群里交流,一起探索見(jiàn)證AI的進(jìn)化。
歡迎分享、點(diǎn)贊、推薦
一起研究AI
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.