過去兩年,見證了國產視頻大模型的很多突破。
從底層模型到功能到效果,一點點對Sora完成了全方位的圍剿。
直到2026年、到現在,最讓我興奮的,是 PixVerse R1。
有點像去年用上 DeepSeek R1 的感覺——這是把游戲規則改寫了。
![]()
01. PixVerse給視頻下了新定義
最牛的公司,有行業定義能力。
單論視覺消費的形態,好萊塢定義了電影,YouTube定義了互聯網長視頻,抖音定義了短視頻。
站在2026年,我想說,PixVerse給AI視頻下了新的定義。
按官方的說法,這是全球首個真正意義上的「實時生成世界模型(Real-time World Model)」。
之前兩三年,AI 視頻領域的主旋律其實非常單一。
大家都在卷:畫質更高一點,時長更長一點,人物一致性再穩一點,鏡頭語言再像人類導演一點。
說重要當然重要,但它解決的是同一個問題:如何更好地“生成一個結果”。
PixVerse R1讓我覺得,AI視頻,不是AI生圖的視頻版,也不是什么換個平臺看AI版的抖音,是一種新形態。
![]()
就像喬布斯定義的iPhone,在產品沒出來前,人們甚至不容易想明白需求到底什么樣。
PixVerse 不像抖音也不像Sora,不像任何一個已經存在的產品,甚至不再把視頻當成一個“靜態結果”,第一次,給了一個可以實時交互的、活著的、流式生成的世界。
就好像,以前的《阿凡達》都是已經完成的、鎖死的,但現在,阿凡達宇宙活了,我也能參與進去,并且沒人知道接下來會發生啥。
我甚至不知道該把它叫啥,不是游戲、不是AI,像個開放的個性內容新平臺。
讓我能站在新世界的中央,世界隨你的意圖變化。
再有代入感,都不如,讓我親身來當主角,自己來下定義。
02. 視頻不再是靜態文件,能隨時參與
過去所有的視頻,不管是實拍的,還是 AI 生成的,本質上都是一樣的東西:像素點的排列組合,封裝成一個 MP4 或 MOV 文件。
它是死的。一旦生成,就已經結束了。
最多只能在播放層面控制快慢、暫停、回放,但無法介入“發生本身”。
不能在視頻播放到一半的時候說:“等一下,讓火大一點”“天黑下來”“這個角色轉過身”。
PixVerse R1 現在可以實時生成了。

PixVerse R1里面設定好的宇宙觀非常豐富,上天入地、神話影視,都有。
而且發現,上線一天的時間里,還在新增、還在完善,比如新加的冰山場景就很好玩。
先選擇這個冰山vlog,開啟體驗。
![]()
打雪仗、變雪人,都很流暢。

月球漫步這個,也很有電影感,直接選中就可以。
我嘗試了一下加入新角色,遇到一個“月球龍”,幾秒鐘視頻就出現了。
操作體驗非常簡單易上手,大家從官網進入直接用就行,幾乎不需要操作指南和教程。
很絲滑,而且每一刻的輸入,都會即時影響下一刻世界的狀態。
畫面不是一幀一幀被播放出來的,更像現實一樣,被連續地采樣出來、現場此刻發生。
我的語言、情緒、意圖,可以實時驅動PixVerse R1這個「現實模擬器」。
能把世界模型做成實時的,底層架構一定是硬實力。
這是從系統層、推理層、延遲控制、資源調度全棧重構的結果,不是調參能調出來的。
03. 人人都能渲染游戲?
我第一次真正被 R1 打到,是在一個非常簡單、甚至有點幼稚的場景里。
我想要更多游戲化的交互,比如像寶可夢里玩法那樣。
于是讓它生成了一只可達鴨。
![]()
畫面出來之后,我沒有停下來重新生成,而是直接開口說:“讓火變藍色。”
火焰真的在畫面里慢慢變藍色。
我又說:“天黑下來,紅色光。”
環境不是純黑,而是像現實世界一樣,光線逐漸變化。
我說:“它轉過身。”
可達鴨轉了過來,看著我。
整個過程中,沒有重新生成的斷裂感。
除了給定的場景,我也嘗試了一下從零自己寫Prompt,去創造世界。
![]()
我給的Prompt是:
一片茂盛的粉色森林,樹葉像粉色的羽毛在微風中搖曳。樹干是淡紫色的,掛著發光的粉色燈籠果實。一只發光的粉色小鹿(或者奇異生物)在森林中跳躍,每一步都會在地面上激起粉色的光暈漣漪。
速度響應比我想象要快,不需要切走屏幕,稍等即可。

中間我想讓出現鱷魚,以及更多場景和角色的變化,指令依循度都比較高。
整個過程就像是你在當上帝,隨手一揮,世界就變了。
說實話,我現在還想象不到它怎么和具身智能結合。
但這事,我就單純覺得好玩。它有點像小時候看動畫片或者打魂斗羅游戲的那種感覺,我在一個世界里待著,然后還能通過簡單的方式控制畫面的走動。
傳統 AI 視頻,每一次修改,本質上都是一次“推翻重來”。
人是站在視頻外面,對結果指指點點。
但在 R1 里,我是在視頻里面,像做夢一樣,夢境在流動,而你可以控制夢的走向。
那種感覺,非常接近一種“上帝視角”的造物體驗。
你不是在使用工具,你是在掌控一個世界。
04. 交互的背后是技術:從按鈕到意圖
第二個讓我后背發涼的,是交互方式的變化。
我們太習慣參數、按鈕、滑桿了:亮一點、暗一點、快一點、慢一點。這是工業軟件的交互邏輯。
PixVerse R1 完全繞開了這一層。不需要點按鈕,也不用調參數,只需要說話。甚至都不需要說得那么精確,只要表達意圖。
這就有了一個很重要的轉變:用戶不再是“使用者”,而是“共同創作者”。
PixVerse 自己用了一個詞,叫 Playable Reality。
它既不是視頻,也不是游戲,也不是虛擬世界,但又同時具備三者的特征。

PixVerse也公開了他們的技術論文:《PixVerse-R1: Next-Generation Real-Time World Model》。
核心目標是:把視頻生成,從“離線片段”,變成“連續、可交互、實時響應的視覺流”。
![]()
怎么做到的呢?簡單來說由三部分構成:「Omni基座模型 + 無限流式生成架構 + 實時生成引擎」
Omni基座模型,是一個端到端的原生多模態模型,把文本、圖像、視頻、音頻統一成連續的token流。
![]()
在訓練階段,它學習了大量真實世界的視頻數據,因此具備生成復雜、長時間一致場景的能力——也就是我們直觀感受到的“世界感”。
![]()
生成機制上,PixVerse R1采用的是自回歸生成,不是傳統擴散模型那種“先算完整片段”的方式。
![]()
這意味著,它可以持續生成、無限延展視覺流,而不是只能吐出一個固定長度的視頻。

所以說,表面上是交互或者形式的創新,底層還是技術,還是新的架構設計。
05. 作為前字節人,說說我眼里的PixVerse
說點更個人的視角。
我不是今天才認識愛詩科技的。V1 到 V5.5,我幾乎完整見證了 PixVerse 的進化路徑。
24年到25年,那時我在字節AI視頻業務做產品,也讓我對外部的創業團隊,更加佩服,因為他們真的用遠比大廠更少的資源,做出了更創新的事和更好的效果
后來,畫面、敘事、穩定性一點點被補齊,畫布等等能力,做漫劇都不在話下。
![]()
但直到 R1,我才意識到:他們不只在做一個視頻模型產品,也在探索 AI 時代視頻的終極形態。
這家公司身上有一種我在字節很熟悉、但到哪都很稀缺的氣質——務實的浪漫。
他們不滿足于在一個已知賽道里做到最好,更愿意在所有人都在卷結果的時候,跳出來重塑過程和定義本身。
這是非常冒險的選擇。
也是只有真正的技術先行者,才敢做的選擇。
2024年初,Sora橫空出世。那時候,我看到了一個「AI視頻新物種」。
![]()
心里有一種很矛盾的震撼。
一方面,能清楚感覺到,視頻生成這條路,被硬生生往前推了一個量級。
畫面、鏡頭、連貫性、敘事能力,第一次看起來像電影,再也不是零散的碎片。
另一方面,我又會隱約覺得哪里不對勁——它很強,但它沒有生命、沒有沉浸。
輸入 prompt,等,出結果;再改 prompt,再等,再出結果。整個過程完全是抽卡,是在和模型的隨機性做等待和對抗。
我會反復問自己一個問題:這是AI視頻的終點嗎?更自然的更好的交互在哪?
我們真的只是把“拍視頻”這件事,從攝影機換成了 prompt 嗎?
如果未來真的是虛擬現實、沉浸式世界、通用 AGI 作為敘事主體,那視頻這種媒介,難道不應該是「活著的」嗎?
這個問題,2025年一整年,我都沒有答案。
![]()
今天,PixVerse R1 給出了參考答案。
它帶來的影響,很可能不亞于去年的 DeepSeek R1——它讓一種舊媒介,第一次具備了全新的交互性和游戲性。
如果說去年我們見證了“模型能力的躍遷”,那今年,我們可能正在站在視頻媒介的奇點時刻。
而這一次,世界不再只是被觀看。
它開始回應你了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.