PixVerse 發布了一個新東西,感覺...這是一場無限月讀的夢境
畫面持續生成,輸入的指令可以即時改變畫面內容
官方技術報告的說法是:無限、連續的視覺流式傳輸
分辨率最高 1080P,響應延遲秒級
(現在的 Demo 只是 720P,算力實在有限)
下面這個,是官方宣傳片,文末還有更多試玩錄屏:
世界模型到底在說什么
在世界模型這塊,老實說我只能算個門外漢,看到這個 PixVerse 的發布之后,我趕忙的去查看了相關的技術報告,以及詢問各種行業專家,以求給大家帶來更準確的描述
恰好的,昨天 Luma AI 的模型產品負責人來到 AGI Bar,我們聊了一會兒,他平時在灣區,對技術細節比較了解,前段時間剛融了 9 個億的美金,做世界模型
這就很...及時了,我們聊了半個多小時的模型發展,也包括現在各家的進展,再結合我之前學習的各類報告,有了這篇文章
對于世界模型,楊立昆有個說法,大意是:
給定一個現在的物理世界的狀態,比如這個杯子停在桌子邊緣。再給定一個事件,比如:我把杯子推下去,會怎樣 對于人類的我們,可以想象:塑料杯的話,會彈起來;玻璃杯,則會摔碎 不得不說,人腦真的很厲害 現在的模型怎么知道這些?它得看過塑料杯摔在地上,看過玻璃杯摔在地上,看過各種杯子摔在地上的視頻 但如果我能通過語言模型的知識,知道這是玻璃杯還是塑料杯,知道玻璃落地會碎、塑料落地會保持完整,然后根據這個推斷去生成視頻,那就不一樣了
這個「杯子理論」,核心要表達的是:模型到底是在做模式匹配,還是真的理解了物理規律
兩條技術路線
現在做世界模型的團隊,技術路線上分成兩派:視頻路線和3D 重建路線
![]()
視頻路線 vs 3D重建 視頻路線
Genie 3、PixVerse R1、Luma 走的都是這條路
核心思路是:通過足夠多的視頻信息,去理解 3D 的構成
比如怎么知道一個物體從正面看是什么樣、從側面看是什么樣、從上面看是什么樣。模型從大量視頻中學習這些視角關系
講道理,我覺得人腦是這么學習的
3D 重建
李飛飛的 World Labs 走的是另一條路
用 Gaussian Splatting 把 3D 世界重建出來,人在里面走動,場景產生變化,這個有點像小扎之前提到的元宇宙
他們是直接用 Gaussian Splatting,把 3D 的世界給重建出來了。然后人在里面走,產生交互或者動作,去模擬出來
兩條路線,各有側重(只是目前來說)
3D 重建:空間一致性更強、可以導出資產
視頻路線:生成速度快、可以做實時交互;
PixVerse R1 的技術架構
伴隨 PixVerse R1 發布的,還有一份技術報告,有興趣的可以讀一下
![]()
https://pixverse.ai/en/blog/pixverse-r1-next-generation-real-time-world-model
根據這份報告,PixVerse R1 由三個模塊支撐:Omni、Memory 和 IRE
Omni:原生多模態基座
端到端的多模態模型,文本、圖像、視頻、音頻被統一編碼成連續 token 流
「原生」的含義是:多模態融合發生在模型底層,而非通過外掛編碼器拼接。減少模態之間的接口誤差
![]()
基座模型在大規模真實世界視頻上訓練,學習場景演化的規律
Memory:自回歸流式生成
擴散模型生成固定長度片段,PixVerse R1 用自回歸機制,逐幀預測,理論上無長度限制
自回歸的經典問題是誤差累積。PixVerse R1 加了記憶增強注意力機制:當前幀生成時,會參考前序幀的隱狀態表示,維持長程一致性
![]()
聊到這里,朋友提了一個有意思的點:
自回歸的圖片模型從去年開始有了,Grok、GPT-4o Image、Gemini 的圖片生成,基本上都是自回歸加 Diffusion 的某種 Fusion 架構 圖片模型上能看到對文字、對物理規律有更好的呈現 那大家猜測,用同樣的架構在視頻上實現,可能也能更好的理解物理世界規律 但自回歸的視頻模型,真的很難
國內最早探索這個方向,并產出成果的,應該是 Sand AI,曹越他們
PixVerse R1 的這次嘗試,則是把這個東西,推向了一個新的高度
IRE:實時響應引擎
實現「實時」的關鍵模塊
擴散模型通常需要幾十步去噪迭代,延遲高。PixVerse R1 把采樣步數壓到 1 到 4 步
![]()
這里有三個技術點:
Direct Transport Mapping
網絡直接預測目標分布,跳過逐步去噪
引導蒸餾
把 Classifier-Free Guidance 的條件梯度合并進學生模型,省掉推理時的額外計算
稀疏注意力
減少長序列依賴的冗余計算
產業背景
世界模型這個詞,最早進入大眾視野可能要追溯到 Sora
![]()
標題:視頻生成模型,也是世界模擬器
Sora 的時候大家都覺得這是一個視頻模型。但 OpenAI 當時說的是 World Model 他們當時說的 World Model,是指在視頻的基礎上,模型能夠符合我們對于一個視頻的正常預期。比如鳥飛是什么樣的,原來的 Diffusion 模型很多東西跑起來不太符合客觀規律。Sora 把這個事情做了
現在各家的布局:
Google Genie 3(2025年8月) 720p 分辨率,24fps 幀率,持續交互可達數分鐘。還是基于 DiT 架構,做了一些改進
World Labs Marble(2025年11月) 李飛飛創立,首輪融資 2.3 億美元。生成持久化、可下載的 3D 環境,支持導出 Gaussian Splats 和 Mesh 格式
NVIDIA Cosmos(2025年1月) 物理 AI 基礎設施平臺,已被下載超 200 萬次。定位是服務自動駕駛和機器人訓練
Runway GWM-1(2025年12月) 分化為三條產品線:交互式探索、機器人合成數據、人類行為模擬
PixVerse R1 剛剛發布,聚焦實時響應。公司2025年9月獲得阿里巴巴領投的 6000 萬美元融資,年化經常性收入約 4000 萬美元
局限性
技術報告里提到兩個約束:
誤差累積 長時間生成后,早期的小誤差可能逐步放大
物理精度與速度的權衡 為了實現實時,物理細節的渲染精度有所妥協
目前單次會話限時 5 分鐘,算力消耗較大
還有一個更根本的問題,字節 Seed 團隊 2024年11月的研究(ICML 2025 發表)指出:視頻生成模型在分布外泛化上表現不好,縮放模型規模也沒用。核心問題是模型可能并沒有真正學會物理規則,只是在做模式匹配
![]()
這也是杯子理論指向的問題:看過足夠多杯子摔碎的視頻,和真正理解「玻璃落地會碎」,可能是兩回事
收尾
體驗地址:realtime.pixverse.ai
目前內測中,需要邀請碼,我爭取了,但算力實在有限,實在沒有多余的,能在這里群發了(
最后,放一下更多 case 的試玩錄屏
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.