![]()
視頻成為了一種可玩、共創的「過程」。
作者|連冉
編輯|鄭玄
如果你玩過 AI 視頻,一定對「等待期」深有體會:在輸入框敲下一串 Prompt,按下生成鍵,然后便得對著旋轉圓圈等待至少幾十秒或者幾分鐘。
而且也不知道幾分鐘后返回來的 MP4 是一場驚喜還是一次貨不對板的驚嚇。這種有些割裂的、異步式的創作,讓 AI 變得像個略有些笨重的遠程工具,雖然好玩,但也沒那么好玩。
直到我剛剛試用了愛詩科技發布的 PixVerse R1。
在「賽博朋克城市」的場景中,我并沒有按下「生成」按鈕,也沒有盯著旋轉的進度條發呆。
我只是在輸入框輸入我想要的畫面,「開始下大雨,霓虹燈在濕潤的地面上反射出來」,接著「突然,城市大停電。只有緊急紅燈亮著」,「快速向上飛,穿過摩天大樓到達城市的上層區域。」
視頻來源:極客公園
畫面中的光影立刻隨著語意發生了流轉。沒有黑屏加載,沒有重新渲染的割裂感,就像鏡頭真的聽懂了我的指揮,實時向前推進。
一個 AI 模型正在以即時響應級的速度,為我「實時編織」一個從未存在的視覺世界。
這是愛詩科技剛剛發布的 PixVerse R1,是「全球首個支持最高 1080P 分辨率實時生成的世界模型」。
當視頻不再是一個確定的「結果」,而變成了一個可以被實時干預、持續存在的「過程」時,它還是我們印象里的「視頻」嗎?
這種被稱為「Playable Reality」(可玩現實)的新形態,究竟是噱頭還是未來?
01
進度條的消亡
2024 年年初,Sora 基于 DiT(Diffusion Transformer)架構,把長視頻生成的效果提高到前所未有的水平,掀起了全球范圍內的視頻生成熱潮。
但在 AI 視頻行業狂飆突進的這兩年里,我們雖然被 Sora、被各種視頻大模型驚艷,但這種驚艷始終帶著一種「延遲感」。這種延遲不僅是技術上的,更是心理上的。
過往,AI 視頻生成被戲稱為「開盲盒」。用戶輸入一段長長的提示詞,然后進入一段名為「生成中」的垃圾時間。這段時間長則數分鐘,短則幾十秒,但在人類的創作心流中,這幾十秒足以讓靈感斷裂。
用戶得到的是一個 MP4 文件,如果光影不對、構圖不佳,只能修改提示詞,再次進入漫長的等待循環。這種「輸入-等待-輸出」的異步邏輯,本質上是人類在遷就機器的算力和算法邏輯。
PixVerse R1 的出現,正在試圖終結這種「遷就」。實時生成的真正意義,絕不僅僅是「快」。如果啟動延遲降低的足夠低,幀率也足夠穩定在,人類的感知系統會發生錯覺:你不再覺得自己是在使用一個工具,而是覺得你正處于一個「活著的」世界里。
視頻來源:愛詩科技
可以看到,在這個視頻里,PixVerse R1 展現出一種水流般的即時感。當指令發出,畫面的色彩、材質、甚至物理規律會瞬間響應。
隨著「A city wall ahead.Jump over it and enter the city」指令的輸入,角色從樹林場景瞬間傳送到了中式城樓前的石橋上,正朝著城樓大門跑去;隨著「Transform into a robot and fight」指令的輸入,畫面拉近,主角從小人變身機器人并且迅速進行了一番打斗,場景和角色動作的切換非常流暢自然。
這種「實時編織」讓創作從「離線渲染」變成了「在線生產」。當技術響應速度追平了思維速度,令人困擾的「進度條」就此消亡,技術本身變得透明,它變成了感官的自然延伸。
而這種質變源于愛詩科技過去 800 天的「狂奔式迭代」。早在 2023 年 10 月,愛詩科技就發布了早于 Sora 的全球首個 4K 模型 V1;2024 年 2 月,它成為國內首家落地 DiT 架構的創業公司。這種對底層架構的「先行一步」,讓 PixVerse 在全球斬獲了超過 1 億用戶。如今 R1 實現的「即時感」,正是這種長期架構押注后的必然爆發。
02
Playable Reality,
介于游戲與視頻之間的新物種?
長期以來,視頻和游戲被視為兩條平行線:視頻擁有高擬真的質感但缺乏互動,游戲擁有高互動性但在視覺擬真度上受限于算力。而 PixVerse R1 正在打破這種邊界。
PixVerse R1 定義的「Playable Reality(可玩現實)」,正是這兩條平行線的交叉點。它不是傳統意義上的視頻,因為它允許實時干預;它也不是傳統意義上的游戲,因為它不是由程序員預設的代碼邏輯驅動,而是由 AI 對現實世界的模擬能力(世界模型)驅動。
從確定的、封閉的、一次性交付的 MP4 文件,到被 R1 定義的「過程」,一個可以被實時干預、持續存在的視覺世界。只要你持續給予交互,這個世界就會持續演化。
在這個創作過程中,用戶不再是坐在屏幕前的觀眾,也不僅僅是復雜的參數調試者,而是變成了「共同創作者」,可以用語言、情緒、意圖直接干預世界的走向。
這意味著視頻創作門檻的進一步降低。理想狀態下,我們不再需要學習復雜的非線性剪輯,也不需要理解光影參數,只需要通過簡單的交互——無論是文字還是語音——就能控制視頻的發展。
支撐這種「隨心而動」體驗的,是 PixVerse R1 背后的三大技術支柱:Omni 原生多模態基礎模型、自回歸流式生成機制,以及一套專門為交互設計的瞬時響應引擎。
首先,是 Omni 原生多模態基礎模型。不同于以往通過插件或疊加模型來理解語意,R1 從底層邏輯上就實現了視覺與語意的深度融合。這意味著模型在指令發出的瞬間,就在潛空間里完成了對物理世界的重構。
其次,為了消滅畫面切換時的「閃爍」與「刷新感」,愛詩科技引入了自回歸流式生成機制。在傳統的生成邏輯中,每一幀往往是孤立或弱相關的,但在 R1 的體系下,視頻不再是由一個個「固定片段」拼接而成,而是一條無限、連續且交互的視覺流。這種機制確保了在實時交互時,每一幀的演變都極其絲滑,沒有重新加載的割裂感。
最后,支撐即時反饋的物理基礎是其自研的瞬時響應引擎。通過對算力的極限調度和算法優化,它將啟動延遲壓縮到了人類幾乎感知不到的程度
在愛詩科技發布的技術報告中,他們將這種演進描述為從 Fix-length clip(固定片段)向 Infinite visual stream(無限可視化流)的范式轉移。這意味著,AI 視頻不再是一次性的煙花,而是一個可以無限延伸的數字宇宙。
當然,PixVerse R1 并非完美。愛詩科技在報告中坦誠地提到了「時間誤差累積」的挑戰——在極長的時間線里,微小的誤差可能會讓物理模擬出現波動。
為了追求 1080P 的實時響應,團隊在某些極致物理細節上做了取舍。但這種「權衡」恰恰展現了某種務實:與其追求一個只能在服務器里跑幾小時才能出來的完美標本,不如給用戶一個可以即時觸碰、盡管尚有微瑕的「活世界」。
03
當技術「隱形」,把世界還給想象
PixVerse R1 目前展示出的能力,本質上是給數字世界鋪設了一層「實時生成層」。這層能力的釋放,其影響力將遠超視頻創作本身。
想象一下,當這種能力被 API 化,它將如何重塑數字娛樂?
比如未來的游戲 NPC 不再只有固定動作,基于實時生成技術,他們可以根據你的語氣實時生成獨特的表情動作和視覺反饋。
電影也不再有唯一的結局,而是變成每個人都能走進其中的開放世界,通過交互,都會看到一個屬于自己的、實時編排的獨一無二的故事。
對于這種范式轉移,愛詩科技創始人兼 CEO 王長虎有著更具本質色彩的定義。他認為,PixVerse R1 是一種全新的媒體形式。
「傳統視頻是被記錄的歷史,而 PixVerse R1 開創了『正在發生的現在』的實時生成新紀元。」王長虎表示,在這樣的背景下,創作與消費的邊界將逐漸模糊——視頻消費者本身也成為創作者,可以在觀看的同時即時調整和生成新內容。
這種「所想即所現」(As You Think)的能力,讓王長虎對未來的數字生態充滿了想象:「無論是 AI 原生游戲、互動電影,還是生成式直播電商體驗,敘事都能實時響應用戶意圖。我們相信,每個人都能成為動態敘事的創作者。
愛詩科技的愿景是「讓每個人都能成為自己生活的導演」。當技術足夠先進、響應足夠敏捷時,技術本身就會變得透明。PixVerse R1 正在做的,就是讓「生成」這個繁瑣的技術動作隱形,讓位于人類最本能的「想象」與「表達」。
盡管 PixVerse R1 目前尚處于內測階段,且暫未在國內上線體驗,但它已然開啟了「流動世界」的大門。
接下來,愛詩科技將采用內測碼/定向邀請機制,一部分創作者將有機會先親自觸碰這個「流動的世界」。
*頭圖來源:PixVerse 官網
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
極客一問
你如何看待視頻媒介的「交互」時代?
前比亞迪高管趙長江,宣布加入智界,將出任執行副總裁。
點贊關注極客公園視頻號,
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.