網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)被吹爆的PixVerse R1，聊聊我們需要什么樣的世界模型

2026-01-23 16:01:34　來(lái)源: 頭號(hào)AI玩家

上海舉報(bào)

分享至

作者 | Kino

編輯 | 張潔

注意看，這個(gè)男人正躺在沙發(fā)上呼呼大睡，屏幕下方的輸入框里有一行字：“What would you like to happen next?”（你希望接下來(lái)發(fā)生什么？）。

你可以輸入任何天馬行空的指令把男人弄醒，比如讓壁爐的火蔓延到房間，引發(fā)濃煙把他嗆醒；或是讓窗外突然雷雨交加，把他吵醒；甚至憑空變出一個(gè)外星人把他劫走。

在輸入文字/語(yǔ)音指令后，AI會(huì)在幾秒內(nèi)生成相應(yīng)的視頻內(nèi)容。但可能是因?yàn)槌跏荚O(shè)定，這個(gè)男人最終總會(huì)回到沙發(fā)上，繼續(xù)呼呼大睡。

看起來(lái)像是一個(gè)AI惡作劇游戲，但這其實(shí)是PixVerse最新發(fā)布的通用實(shí)時(shí)世界模型——PixVerse R1帶來(lái)的真實(shí)體驗(yàn)。

PixVerse于上周發(fā)布了全球首個(gè)支持1080P分辨率通用實(shí)時(shí)世界模型PixVerse R1，在AI視頻圈迎來(lái)了一個(gè)小高潮。

簡(jiǎn)單來(lái)說(shuō)，以前我們用AI生成視頻，需要先輸入提示詞，然后等待生成，最后得到一條視頻。但PixVerse R1主打的是一種實(shí)時(shí)生成和交互的無(wú)限流體驗(yàn)。

在PixVerse R1的官方演示視頻中，畫(huà)面左下角不斷出現(xiàn)實(shí)時(shí)的指令輸入，例如“一架黑色烏鴉飛過(guò)”“士兵拼命逃跑”“桌子翻倒”等。這些指令輸入后，視頻中的畫(huà)面立即隨之改變，且畫(huà)面是連續(xù)不斷演進(jìn)的。

理論上，只要你不斷輸入指令，視頻就可以永遠(yuǎn)生成下去，像一場(chǎng)沒(méi)有盡頭的電影。過(guò)程中，我們能隨時(shí)通過(guò)提示詞改變畫(huà)面走向，隨意操控視頻中的世界，這種體驗(yàn)類似于玩一款言出法隨的游戲。

就像上文那條視頻的演示，人人都可以體驗(yàn)當(dāng)上帝《楚門(mén)的世界》導(dǎo)演了。

對(duì)于PixVerse R1的上線，社交媒體上充滿了溢美之詞，仿佛視頻生成的終極形態(tài)已經(jīng)到來(lái)。我們也第一時(shí)間拿到了R1的試用資格。

雖然，如果以當(dāng)前主流AI視頻生成工具的質(zhì)量標(biāo)準(zhǔn)來(lái)衡量，R1的表現(xiàn)很難稱得上驚艷，提示詞遵循度、畫(huà)面的精細(xì)度和穩(wěn)定性都有待提高。

但我們需要意識(shí)到，目前的PixVerse R1，本質(zhì)上還處于早期內(nèi)測(cè)階段，而并非一個(gè)成熟的商業(yè)化產(chǎn)品。就像以往很多大模型一樣，世界模型更接近一次基礎(chǔ)設(shè)施層面的重塑，需要各行各業(yè)的進(jìn)一步探索和落地。

在AI生成視頻技術(shù)已經(jīng)如此成熟的今天，世界模型的革命性到底在哪里？為什么世界模型是下一個(gè)技術(shù)前沿？以及為什么現(xiàn)階段的它看起來(lái)并不是那么完美？

今天，我們決定從PixVerse R1切入，聊聊世界模型究竟是什么，并盤(pán)點(diǎn)那些爆火的世界模型，嘗試探討一下世界模型將如何重塑游戲、影視、內(nèi)容創(chuàng)作等行業(yè)。

實(shí)測(cè)PixVerse，

一場(chǎng)無(wú)限流交互體驗(yàn)

在PixVerse R1的官網(wǎng)首頁(yè)（https://realtime.pixverse.ai/），有一個(gè)名為“探索交互世界”的廣場(chǎng)，這里預(yù)設(shè)了多個(gè)風(fēng)格迥異的可交互虛擬世界。

你可以潛入深海探索、登上月球漫步，也可以穿越回二戰(zhàn)戰(zhàn)場(chǎng)體驗(yàn)，或是進(jìn)入《塞爾達(dá)傳說(shuō)》中的海拉魯大陸冒險(xiǎn)。

其中最能體現(xiàn)交互式趣味的，莫過(guò)于我們?cè)陂_(kāi)頭提到的《Can You Wake Him Up? 》。

當(dāng)然，如果你不想玩預(yù)設(shè)好的劇本，PixVerse R1也提供了從零開(kāi)始的創(chuàng)造模式。只需要確定好視頻畫(huà)幅比例，選擇一種視覺(jué)風(fēng)格（如第一人稱視角的POV、氛圍感或戲劇性），最后輸入你構(gòu)想的世界觀。設(shè)定完成后，一個(gè)屬于你的、可供探索的實(shí)時(shí)生成世界就誕生了。

接下來(lái)展示幾個(gè)我們的測(cè)試結(jié)果。

我先是選擇了一個(gè)名為“Cybergens”的主題場(chǎng)景，畫(huà)面主體是一個(gè)充滿金屬質(zhì)感的旋轉(zhuǎn)機(jī)械骷髏頭。

我輸入“戴上一頂西部牛仔帽”的指令，我的預(yù)期是在保持機(jī)械骷髏主體不變的前提下，頭頂憑空生成一頂帽子。實(shí)際上卻是機(jī)械骷髏瞬間變成了一個(gè)戴著牛仔帽、眼鏡和留著胡子的真人男性，但還是挺酷炫的。

然后我又嘗試了另一個(gè)指令“頭部被小丑撲克牌環(huán)繞”，很顯然生成的不是小丑撲克牌，但原本的骷髏頭變成了一個(gè)。我恍然大悟，好像是這么個(gè)邏輯：我說(shuō)西部牛仔帽，它理解成西部牛仔；我說(shuō)小丑撲克牌，它理解成小丑。

進(jìn)入這個(gè)塞爾達(dá)風(fēng)格的世界后，一個(gè)酷似林克的卡通角色正在曠野上奔跑。我輸入指令“長(zhǎng)出一對(duì)白色翅膀在天空飛翔”。

我的預(yù)期是角色應(yīng)該像《原神》中使用風(fēng)之翼那樣，自然地展開(kāi)翅膀升空、滑翔，保持動(dòng)作的流暢性。結(jié)果卻是原本正在向前奔跑的角色突然停下，然后莫名其妙地轉(zhuǎn)過(guò)身來(lái)正對(duì)鏡頭，背后長(zhǎng)出一對(duì)白色羽翼，原地?fù)潋v了幾下。

在這個(gè)名為月球漫步的世界中，我先后輸入指令“一艘UFO降落在地表”和“幾個(gè)外星人從UFO下來(lái)”，結(jié)果UFO是有了，但從UFO上下來(lái)的卻不是外星人，而是幾個(gè)宇航員。

在經(jīng)歷了前幾次指令翻車(chē)后，我意識(shí)到目前的PixVerse R1在理解因果邏輯時(shí)存在短板。于是我決定放棄人為干預(yù)，看看如果不輸入任何指令，模型靠自己的想象力會(huì)如何發(fā)展。

這次我選擇了容錯(cuò)率最高的“賽博朋克城市”主題，因?yàn)橘惒┡罂吮旧硎莻€(gè)超現(xiàn)實(shí)題材，離奇和崩壞也就沒(méi)那么不合理了。

出乎意料的是，這竟然是效果最好的一次，讓人仿佛置身于動(dòng)畫(huà)《賽博朋克：邊緣行者》的場(chǎng)景中。

視頻開(kāi)始于一段第一人稱視角的城市漫游，巨大的全息金魚(yú)在街道上空游動(dòng)，街邊的拉面攤冒著熱氣，無(wú)人機(jī)在一座巨大的發(fā)光時(shí)鐘旁穿梭……

伴隨模型PixVerse R1發(fā)布的，還有一份技術(shù)報(bào)告，PixVerse R1由三個(gè)模塊支撐：Omni、Memory和IRE。

Omni原生多模態(tài)基座是端到端的多模態(tài)模型，文本、圖像、視頻、音頻被統(tǒng)一編碼成連續(xù)token流。在保證實(shí)時(shí)性的同時(shí)，PixVerse R1維持了1080P的高分辨率，依靠Omni多模態(tài)底座，將文本、圖像、音頻和視頻統(tǒng)一處理，實(shí)現(xiàn)了視聽(tīng)同步，還是很有技術(shù)挑戰(zhàn)性的。

盤(pán)點(diǎn)那些爆火的世界模型

如果我們把視線從PixVerse R1身上移開(kāi)，環(huán)顧整個(gè)世界模型賽道，會(huì)發(fā)現(xiàn)這里早已硝煙彌漫。在這個(gè)賽場(chǎng)，還有幾位不得不提的重量級(jí)玩家。

據(jù)“AI新榜”觀察，目前世界模型的底層架構(gòu)主要分為三大流派，且呈現(xiàn)出相互融合的趨勢(shì)。一派是以PixVerse R1和Odyssey-2為代表的“視頻派”，以生成視頻為核心；另一派是以Marble為代表的“3D/空間智能派”，這一路徑往往可以生成可交互、可導(dǎo)航、可編輯的三維環(huán)境；還有以NVIDIA Cosmos為代表的“物理派”，目標(biāo)是構(gòu)建極其精確、仿真的數(shù)字孿生世界，用來(lái)訓(xùn)練機(jī)器人和自動(dòng)駕駛。

Genie 3

https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/

Genie 3是谷歌DeepMind于2025年8月推出的最新一代世界模型，它能根據(jù)簡(jiǎn)單的文字提示實(shí)時(shí)創(chuàng)造可交互、可探索的虛擬世界環(huán)境。這個(gè)虛擬世界像游戲那樣可以自由移動(dòng)、互動(dòng)，而且在短時(shí)間內(nèi)保持物理及視覺(jué)一致性，讓用戶（或者訓(xùn)練中的智能體）像進(jìn)入一個(gè)真正的世界一樣探索和操作。

跟傳統(tǒng)的文本生成視頻模型不同，Genie 3要同時(shí)理解世界的邏輯、物理與持久性，它能在720P分辨率、每秒24幀的條件下保持?jǐn)?shù)分鐘內(nèi)世界的連貫性。這意味著你在一個(gè)場(chǎng)景里改變了某個(gè)對(duì)象的位置、天氣等等，它能夠記住這些場(chǎng)景狀態(tài)。當(dāng)用戶控制角色離開(kāi)某個(gè)場(chǎng)景再返回時(shí)，場(chǎng)景內(nèi)的物體布局等狀態(tài)保持不變。

從官方介紹看，谷歌也把Genie 3定義為第一款支持實(shí)時(shí)交互的世界模型。相比Genie 2，Genie 3在交互性和畫(huà)質(zhì)上實(shí)現(xiàn)了質(zhì)的飛躍：用戶不僅能控制角色移動(dòng)，還能通過(guò)文本指令實(shí)時(shí)修改環(huán)境規(guī)則，比如“把白天變成黑夜”、“讓重力失效”。這種能力證明了模型對(duì)物理語(yǔ)義的深度理解。

Odyssey-2

https://odyssey.ml/the-dawn-of-a-world-simulator

Odyssey-2是Odyssey（AI創(chuàng)業(yè)公司）2025年推出的實(shí)時(shí)互動(dòng)式AI視頻世界模型，和PixVerse R1十分相似，同樣主打?qū)崟r(shí)生成和可交互，能以約20幀每秒的速度實(shí)時(shí)生成視頻幀。

據(jù)我們的測(cè)試，Odyssey-2生成的視頻畫(huà)質(zhì)和流暢度不如PixVerse R1，但可以點(diǎn)擊畫(huà)面元素觸發(fā)推薦提示詞，更有交互感。

Marble

https://marble.worldlabs.ai/

Marble是由李飛飛創(chuàng)業(yè)公司W(wǎng)orld Labs于2025年11月推出的多模態(tài)世界模型與3D世界生成平臺(tái)。

Marble的核心能力在于它可以根據(jù)一句文字描述、一張圖片、一段視頻，甚至是粗略的3D布局，生成3D世界。生成后的3D世界可以進(jìn)行交互式編輯、擴(kuò)展，并導(dǎo)出為高斯?jié)姙R、三角網(wǎng)格、視頻等多種格式，可無(wú)縫導(dǎo)入主流游戲引擎如Unreal、Unity、Blender等。

李飛飛團(tuán)隊(duì)認(rèn)為，真正的智能必須具備空間感，其創(chuàng)立的World Labs就致力于構(gòu)建具有空間智能的大型世界模型。

傳統(tǒng)3D內(nèi)容創(chuàng)作通常需要龐大的建模團(tuán)隊(duì)和復(fù)雜工具，而Marble能在幾分鐘內(nèi)根據(jù)簡(jiǎn)單描述生成完整的環(huán)境，大幅降低創(chuàng)作門(mén)檻。同時(shí)，它也為機(jī)器人學(xué)、建筑可視化、互動(dòng)娛樂(lè)等需要精細(xì)空間理解的領(lǐng)域提供了新的工具。

Oasis

https://oasis.decart.ai/introduction

Oasis是由Decart AI于2024年10月推出的實(shí)時(shí)交互式AI世界模型/游戲生成系統(tǒng)。它標(biāo)榜自己為世界上第一個(gè)能夠?qū)崟r(shí)生成并讓用戶互動(dòng)的開(kāi)放世界AI模型。

區(qū)別于傳統(tǒng)的游戲引擎，Oasis能夠根據(jù)玩家的輸入，利用大規(guī)模預(yù)訓(xùn)練得到的模式理解和概率預(yù)測(cè)，在沒(méi)有底層游戲邏輯和代碼的情況下實(shí)時(shí)生成整個(gè)游戲世界。可以理解為Oasis是一個(gè)完全由AI生成的、可玩的Minecraft克隆版。

目前，Oasis在世界持續(xù)性、高精度交互細(xì)節(jié)、分辨率與畫(huà)面穩(wěn)定性等方面仍有限制。

NVIDIA Cosmos

https://www.nvidia.com/en-us/ai/cosmos/

NVIDIA Cosmos是英偉達(dá)于2025年1月推出的面向“物理AI”開(kāi)發(fā)的世界基礎(chǔ)模型平臺(tái)，專注于讓機(jī)器人、自動(dòng)駕駛汽車(chē)等具備理解現(xiàn)實(shí)世界、預(yù)測(cè)物理狀態(tài)、生成合成訓(xùn)練數(shù)據(jù)的能力。

在實(shí)際應(yīng)用層面，Cosmos能顯著改進(jìn)以下方面：用自動(dòng)生成的數(shù)據(jù)訓(xùn)練機(jī)器人和自動(dòng)駕駛系統(tǒng)，減少對(duì)真實(shí)采集數(shù)據(jù)的依賴；模擬復(fù)雜環(huán)境（如城市交通等）用于AI認(rèn)知和策略學(xué)習(xí)；與NVIDIA的Omniverse等仿真平臺(tái)協(xié)同，為物理AI系統(tǒng)提供更逼真的環(huán)境和更高效的開(kāi)發(fā)流程。

那么，世界模型究竟會(huì)如何重塑行業(yè)呢？

在多個(gè)潛在應(yīng)用方向中，游戲和互動(dòng)娛樂(lè)行業(yè)可能是最先被世界模型改變的領(lǐng)域之一。

過(guò)去，游戲世界是由策劃和美術(shù)提前設(shè)計(jì)完成，玩家只能在有限規(guī)則、關(guān)卡內(nèi)探索。而世界模型引入了一種新的范式，玩家不再只是沿著游戲設(shè)計(jì)者預(yù)設(shè)的規(guī)則行動(dòng)，而是能夠實(shí)時(shí)生成游戲世界，并進(jìn)行探索和交互，這種變化將重塑游戲的開(kāi)發(fā)流程。未來(lái)的游戲可能是由一個(gè)訓(xùn)練好的大模型實(shí)時(shí)生成，這將帶來(lái)無(wú)限的開(kāi)放世界和動(dòng)態(tài)劇情。

影視與內(nèi)容創(chuàng)作行業(yè)同樣會(huì)受到深遠(yuǎn)影響。

想象一下，以互動(dòng)影視為代表的互動(dòng)敘事作品中，觀眾不再只是被動(dòng)觀看，而是可以在觀看過(guò)程中持續(xù)影響劇情走向。這種以參與和反饋為核心的創(chuàng)作形態(tài)，也天然適配劇情向內(nèi)容賬號(hào)、互動(dòng)直播欄目等，需要用戶介入和實(shí)時(shí)反應(yīng)驅(qū)動(dòng)的內(nèi)容形態(tài)。

而且隨著可導(dǎo)航、可編輯的虛擬世界逐漸成熟，創(chuàng)作者可以在一個(gè)完整的虛擬環(huán)境中“取景”和“拍攝”，場(chǎng)景、光照和鏡頭調(diào)度都可以在這個(gè)空間中完成。這種轉(zhuǎn)變尤其適用于虛擬拍攝、視效制作和動(dòng)畫(huà)工業(yè)。

相比創(chuàng)意產(chǎn)業(yè)，在機(jī)器人和自動(dòng)駕駛等領(lǐng)域，世界模型的意義更加偏向工程和基礎(chǔ)設(shè)施層面。這類行業(yè)高度依賴大量真實(shí)世界數(shù)據(jù)，但真實(shí)數(shù)據(jù)的采集成本高、周期長(zhǎng)，而且在許多極端或危險(xiǎn)場(chǎng)景中幾乎不可行。世界模型通過(guò)構(gòu)建具有物理一致性的模擬環(huán)境，為智能系統(tǒng)提供了一個(gè)可以反復(fù)試錯(cuò)和訓(xùn)練的“替代現(xiàn)實(shí)”。在這樣的環(huán)境中，模型不僅可以學(xué)習(xí)感知，還可以學(xué)習(xí)決策和長(zhǎng)期規(guī)劃。

可以確定的是，我們正站在一個(gè)清晰的臨界點(diǎn)上，當(dāng)AI逐漸成為構(gòu)建和模擬真實(shí)世界的引擎，不僅將重塑影視、游戲、具身智能等行業(yè)的內(nèi)容形態(tài)和交互體驗(yàn)，也被普遍視為通向通用人工智能過(guò)程中不可或缺的一步。

但世界模型的真正價(jià)值，仍有賴于各行各業(yè)的開(kāi)發(fā)者和創(chuàng)作者在此基礎(chǔ)上，進(jìn)行持續(xù)探索、應(yīng)用落地和再創(chuàng)造。

「AI新榜交流群」進(jìn)群方式：添加微信“banggebangmei”并備注姓名+職業(yè)/公司+進(jìn)群，歡迎玩家們來(lái)群里交流，一起探索見(jiàn)證AI的進(jìn)化。

歡迎分享、點(diǎn)贊、推薦

一起研究AI

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.