AI視頻的下一步會是什么?
更快?更清晰?更可控?這些點都很明確了,
但我確實兒沒想到,我26年先看到的會是這樣一個,
能夠一邊打字一邊實時生成的新視頻生成模型,也可以叫實時世界模型,
Pixverse R1
可能我這么說,大家還感受不太到,直接給大家看一個case。
試玩demo https://realtime.pixverse.ai/
這個過程最頭皮發(fā)麻的地方在于,世界是連續(xù)的。
不是重新生成了一個新視頻,而是在剛剛那個世界的基礎(chǔ)上,實時地為林克裝備了一把武器。這感覺就像你在玩游戲時,突然擁有了開發(fā)者權(quán)限,可以隨時用語言為游戲增加新的元素。
這段演示里還有一個細節(jié),當(dāng)指令變得復(fù)雜,比如讓怪物追趕林克時,怪物的行為會有些笨拙。

這種不完美反而證明了它不是一段預(yù)設(shè)好生成好拼接好的AI動畫,
而是一個真的擁有初步物理和行為邏輯的世界。
可能它的清晰度還不太完美,
但仔細想想從360p的AI視頻畫質(zhì)到穩(wěn)定低價的1080p,我們只用了18個月。
所以我根本不擔(dān)心這個問題,我關(guān)心的是它在根據(jù)我的指令,實時地進行演算。
這種可被觀察的演算過程,正是它與傳統(tǒng)AI視頻最大的不同。
修的都不是同一個體系,而且從他們技術(shù)報告上看,這個視頻能自己無限期演下去。
![]()
技術(shù)報告 https://pixverse.ai/en/blog/pixverse-r1-next-generation-real-time-world-model
R1叫世界模型,3D模型也叫世界模型,Banana2也叫世界模型,
用人話來說,世界知識就是給生成內(nèi)容裝上一個能自洽的底層引擎,讓它不止能把畫面長得像,還得把因果,物理,常識都對上號。
經(jīng)得起推敲的,不會穿幫的,能按照你模糊的提示語補充細節(jié)的。
打開Demo,打開麥克風(fēng),就這樣一邊說話,R1一邊就把劇情全出了。
![]()
聲畫一體的Sora和Veo都很強大,創(chuàng)作流程基本上也都是許愿-等待-開獎。
當(dāng)我寫下一段幾百字的咒語,點擊生成,然后就是盯著進度條等。幾分鐘,甚至十幾分鐘后,才能打開那個盲盒。運氣好,開出神作;運氣不好,人物崩了,物理飛了,只能自認倒霉,回頭再去改那段天知道哪里不對的咒語,然后開始新一輪的抽卡。
Veo3.1還可以用json約束一下,但很多別的視頻模型還是要慢慢磨自然語言。
![]()
Pixverse這個就給我一個很新的感受,
它的整個過程其實有點像是導(dǎo)演在現(xiàn)場指揮演員。
你可以設(shè)想一下,在一個電視劇或電影的片場,演員在表演時,導(dǎo)演有時會在畫外音中進行一些實時指導(dǎo),告訴演員如何去演、做哪些動作,或者表情哪里不到位。
這樣的實時指導(dǎo)就非常像我現(xiàn)在用PixVerse R1的感覺,通過打字告訴視頻,我需要接下來的這個人物去進行怎樣的動作,或者進入到什么樣的場景。
這種交互體驗真的蠻能圓我導(dǎo)演夢的。
比如這個太空駕駛的場景,
一連串的文字像寫劇本一樣,實時駕駛著飛船逃離地球、飛向月球、遭遇神秘光線、最后被巨大的土星所震撼。我感覺自己不再是觀眾,而是第一人稱的導(dǎo)演。我輸入的每一個字,都像是在給飛船添加燃料,驅(qū)動著它飛向我想象中的下一幀。
再比如這個,直升機飛越巴黎時,輸入突然天空轉(zhuǎn)暗,電閃雷鳴,畫面立刻風(fēng)云突變;接著輸入“遠處一個巨大的煙花綻放”,天空中真的就升起了一朵煙花,天氣也隨之轉(zhuǎn)晴。整個環(huán)境和特效都能配合著指令實時做出互動,是一個非常連續(xù)性的展示。
你就看這個Pixverse實機操作的錄屏界面,我感覺這玩意兒根本不只是一個視頻生成器,更像是一個可以被語言實時編程的微型世界。
我就好奇了,這背后到底是怎么做出來?為什么要做一個跟別人不一樣的?
我去啃了一下他們的技術(shù)論文,
用人話翻譯一下,R1能做到這個實時生成的效果,主要靠這三樣:
第一個是叫Omni的原生多模態(tài)大模型。
你可以把它想象成一個從小就同時學(xué)習(xí)了看、聽、說三種語言的天才。它不像別的模型需要把音視頻翻譯成文本才能懂,它天生就能在一個系統(tǒng)里,同時理解視頻、音頻和文字。這讓它的反應(yīng)快得像是本能。
![]()
第二個零件是一種叫自回歸的機制。
這東西就像一個擁有超強短期記憶的說書人,它永遠記得自己上一秒講了什么,所以下一秒的故事,總能和前面無縫銜接。這保證了視頻可以像一條無限的河流一樣,持續(xù)地連貫地生成下去。
![]()
最后,也是最關(guān)鍵的,是一種叫即時響應(yīng)引擎(IRE)的技術(shù)。
如果說傳統(tǒng)AI視頻生成,像是搭樂高,需要一步步拼接(幾十步的采樣),IRE就像是變魔術(shù),它能直接預(yù)測出最終成品的輪廓,然后用極少的步驟(一到四步)就把它變出來。
![]()
這些正是它能實現(xiàn)實時交互的秘密武器。
所以,它到底用在哪?
我個人是感覺,PixVerse R1這類實時模型,并非要取代Veo們在敘事性短片創(chuàng)作上的作用。它們其實可以并駕齊驅(qū),Sora們在追求成為頂級的電影工作流,
而R1正在努力成為一個充滿無限可能的互動娛樂引擎。
它真正開疆拓土的地方,在于那些極度依賴實時交互的領(lǐng)域。
比方游戲, 想象一下你走到NPC面前,不需要幾周目才能引導(dǎo)變化,不再是從預(yù)設(shè)的三個選項里選一句對話。你可以自由輸入任何你想說的話,NPC會根據(jù)他的性格和你們之前的經(jīng)歷,實時生成獨一無二的表情和互動場景,
我甚至可以開個上帝模式,對游戲世界本身下指令,
我希望我這個賽博釣魚佬可以回回上魚,那我真的要笑到合不上嘴了
![]()
也就是說,游戲,將從一個玩家只能被動體驗的故事,變成一個真正可參與的世界。
再再比方說互動電影,
現(xiàn)在去大商場體驗4D電影都要out了,我大膽想象一下,我可以擺脫A/B選項式的偽互動,隨時暫停,給主角下達一個全新的指令,別相信他,先看看他口袋里藏了什么,
然后電影會為你即時地生成一段新的故事脈絡(luò),我就經(jīng)常在想要是故事不會結(jié)束就好了。

盜夢空間這個陀螺我是真希望能看到它停下來,被一個新的幕后之人拿起來
寫到這里,
我突然想到了一個可能離我們每個人都更近的使用場景。
你有沒有過這樣的經(jīng)歷?
做了一個無比清晰的奇幻夢,畫面感強到你自己都起雞皮疙瘩,
但我醒來后想跟朋友描述,搜腸刮肚用了無數(shù)的形容詞,要不就發(fā)現(xiàn)忘了,要不就是形容不出來,
什么叫我在鰲太線拿著四塊壓縮餅干在大爺海煮火鍋啊(我至今形容不出來神秘園究竟在我腦子里留下了什么)。
這還能聯(lián)系上一個科學(xué)名詞,
夢境遺忘(dream amnesia)
夢大多發(fā)生在REM期(快速眼動睡眠)或臨近醒來的過渡階段,醒來屬于從一個腦狀態(tài)跳到另一個腦狀態(tài),所以會出現(xiàn)一種典型的感覺,
就是我知道我剛剛看到了什么,但現(xiàn)在就是想不起來。
因為在夢里體驗的是視覺,空間,情緒,氛圍,象征感,但醒來我要把它壓縮成線性的句子的話,這個過程中會出現(xiàn)一種夢的不可言說感(dream ineffability)。
這時候想要最大程度保證夢不被遺忘,可以先寫關(guān)鍵詞,不要追求完整敘事,比如,銀色樓梯,潮濕的風(fēng),我逃跑的時候踩空了,也可以用感官描述替代抽象形容詞,光像浸水的霓虹、空氣里有鐵銹甜味、遠處的聲音像倒放的合唱。
![]()
說實話,我每天都在跟這種轉(zhuǎn)達的損耗作斗爭。
但R1這類實時模型的出現(xiàn),
或許為我們提供了一種全新的表達方式。
它能讓我能把那個轉(zhuǎn)瞬即逝的夢境,用一種更直觀,更無損的方式復(fù)現(xiàn)出來。
它將創(chuàng)作的反饋周期從數(shù)小時甚至數(shù)天,壓縮到了零。
而這種即時反饋極大地釋放了我的實驗精神和表達欲望。
現(xiàn)在已經(jīng)可以排隊內(nèi)測了,
目前能體驗360p了,
過幾天還能用上720p,
趁著還沒收費之前,
我要多跑五六七八九十個。
@ 作者 / 卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉(zhuǎn)發(fā)|評論
如果想要第一時間收到推送,不妨給我個星標(biāo)
如果你有更有趣的玩法,歡迎在評論區(qū)和我聊聊
更多的內(nèi)容正在不斷填坑中……
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.