網易首頁 > 網易號 > 正文申請入駐

PixVerse R1 世界模型，以及它的原理｜言出法隨、實時生成...無限月讀

2026-01-15 15:08:20　來源: 賽博禪心

北京舉報

分享至

PixVerse 發布了一個新東西，感覺...這是一場無限月讀的夢境

畫面持續生成，輸入的指令可以即時改變畫面內容

官方技術報告的說法是：無限、連續的視覺流式傳輸

分辨率最高 1080P，響應延遲秒級
（現在的 Demo 只是 720P，算力實在有限）

下面這個，是官方宣傳片，文末還有更多試玩錄屏：

世界模型到底在說什么

在世界模型這塊，老實說我只能算個門外漢，看到這個 PixVerse 的發布之后，我趕忙的去查看了相關的技術報告，以及詢問各種行業專家，以求給大家帶來更準確的描述

恰好的，昨天 Luma AI 的模型產品負責人來到 AGI Bar，我們聊了一會兒，他平時在灣區，對技術細節比較了解，前段時間剛融了 9 個億的美金，做世界模型

這就很...及時了，我們聊了半個多小時的模型發展，也包括現在各家的進展，再結合我之前學習的各類報告，有了這篇文章

對于世界模型，楊立昆有個說法，大意是：

給定一個現在的物理世界的狀態，比如這個杯子停在桌子邊緣。再給定一個事件，比如：我把杯子推下去，會怎樣對于人類的我們，可以想象：塑料杯的話，會彈起來；玻璃杯，則會摔碎不得不說，人腦真的很厲害現在的模型怎么知道這些？它得看過塑料杯摔在地上，看過玻璃杯摔在地上，看過各種杯子摔在地上的視頻但如果我能通過語言模型的知識，知道這是玻璃杯還是塑料杯，知道玻璃落地會碎、塑料落地會保持完整，然后根據這個推斷去生成視頻，那就不一樣了

這個「杯子理論」，核心要表達的是：模型到底是在做模式匹配，還是真的理解了物理規律

兩條技術路線

現在做世界模型的團隊，技術路線上分成兩派：視頻路線和3D 重建路線

視頻路線 vs 3D重建 視頻路線

Genie 3、PixVerse R1、Luma 走的都是這條路
核心思路是：通過足夠多的視頻信息，去理解 3D 的構成

比如怎么知道一個物體從正面看是什么樣、從側面看是什么樣、從上面看是什么樣。模型從大量視頻中學習這些視角關系

講道理，我覺得人腦是這么學習的

3D 重建

李飛飛的 World Labs 走的是另一條路
用 Gaussian Splatting 把 3D 世界重建出來，人在里面走動，場景產生變化，這個有點像小扎之前提到的元宇宙

他們是直接用 Gaussian Splatting，把 3D 的世界給重建出來了。然后人在里面走，產生交互或者動作，去模擬出來

兩條路線，各有側重（只是目前來說）

3D 重建：空間一致性更強、可以導出資產
視頻路線：生成速度快、可以做實時交互；

PixVerse R1 的技術架構

伴隨 PixVerse R1 發布的，還有一份技術報告，有興趣的可以讀一下

https://pixverse.ai/en/blog/pixverse-r1-next-generation-real-time-world-model

根據這份報告，PixVerse R1 由三個模塊支撐：Omni、Memory 和 IRE

Omni：原生多模態基座

端到端的多模態模型，文本、圖像、視頻、音頻被統一編碼成連續 token 流

「原生」的含義是：多模態融合發生在模型底層，而非通過外掛編碼器拼接。減少模態之間的接口誤差

基座模型在大規模真實世界視頻上訓練，學習場景演化的規律

Memory：自回歸流式生成

擴散模型生成固定長度片段，PixVerse R1 用自回歸機制，逐幀預測，理論上無長度限制

自回歸的經典問題是誤差累積。PixVerse R1 加了記憶增強注意力機制：當前幀生成時，會參考前序幀的隱狀態表示，維持長程一致性

聊到這里，朋友提了一個有意思的點：

自回歸的圖片模型從去年開始有了，Grok、GPT-4o Image、Gemini 的圖片生成，基本上都是自回歸加 Diffusion 的某種 Fusion 架構圖片模型上能看到對文字、對物理規律有更好的呈現那大家猜測，用同樣的架構在視頻上實現，可能也能更好的理解物理世界規律但自回歸的視頻模型，真的很難

國內最早探索這個方向，并產出成果的，應該是 Sand AI，曹越他們

PixVerse R1 的這次嘗試，則是把這個東西，推向了一個新的高度

IRE：實時響應引擎

實現「實時」的關鍵模塊

擴散模型通常需要幾十步去噪迭代，延遲高。PixVerse R1 把采樣步數壓到 1 到 4 步

這里有三個技術點：

Direct Transport Mapping
網絡直接預測目標分布，跳過逐步去噪

引導蒸餾
把 Classifier-Free Guidance 的條件梯度合并進學生模型，省掉推理時的額外計算

稀疏注意力
減少長序列依賴的冗余計算

產業背景

世界模型這個詞，最早進入大眾視野可能要追溯到 Sora

標題：視頻生成模型，也是世界模擬器

Sora 的時候大家都覺得這是一個視頻模型。但 OpenAI 當時說的是 World Model 他們當時說的 World Model，是指在視頻的基礎上，模型能夠符合我們對于一個視頻的正常預期。比如鳥飛是什么樣的，原來的 Diffusion 模型很多東西跑起來不太符合客觀規律。Sora 把這個事情做了

現在各家的布局：

Google Genie 3（2025年8月） 720p 分辨率，24fps 幀率，持續交互可達數分鐘。還是基于 DiT 架構，做了一些改進

World Labs Marble（2025年11月）李飛飛創立，首輪融資 2.3 億美元。生成持久化、可下載的 3D 環境，支持導出 Gaussian Splats 和 Mesh 格式

NVIDIA Cosmos（2025年1月）物理 AI 基礎設施平臺，已被下載超 200 萬次。定位是服務自動駕駛和機器人訓練

Runway GWM-1（2025年12月）分化為三條產品線：交互式探索、機器人合成數據、人類行為模擬

PixVerse R1 剛剛發布，聚焦實時響應。公司2025年9月獲得阿里巴巴領投的 6000 萬美元融資，年化經常性收入約 4000 萬美元

局限性

技術報告里提到兩個約束：

誤差累積 長時間生成后，早期的小誤差可能逐步放大

物理精度與速度的權衡 為了實現實時，物理細節的渲染精度有所妥協

目前單次會話限時 5 分鐘，算力消耗較大

還有一個更根本的問題，字節 Seed 團隊 2024年11月的研究（ICML 2025 發表）指出：視頻生成模型在分布外泛化上表現不好，縮放模型規模也沒用。核心問題是模型可能并沒有真正學會物理規則，只是在做模式匹配

這也是杯子理論指向的問題：看過足夠多杯子摔碎的視頻，和真正理解「玻璃落地會碎」，可能是兩回事

收尾

體驗地址：realtime.pixverse.ai

目前內測中，需要邀請碼，我爭取了，但算力實在有限，實在沒有多余的，能在這里群發了（

最后，放一下更多 case 的試玩錄屏

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.