網易首頁 > 網易號 > 正文申請入駐

首個實時世界模型發布：視頻媒介的「交互」時代開始了

2026-01-14 12:06:51　來源: 極客公園

北京舉報

分享至

視頻成為了一種可玩、共創的「過程」。

作者｜連冉

編輯｜鄭玄

如果你玩過 AI 視頻，一定對「等待期」深有體會：在輸入框敲下一串 Prompt，按下生成鍵，然后便得對著旋轉圓圈等待至少幾十秒或者幾分鐘。

而且也不知道幾分鐘后返回來的 MP4 是一場驚喜還是一次貨不對板的驚嚇。這種有些割裂的、異步式的創作，讓 AI 變得像個略有些笨重的遠程工具，雖然好玩，但也沒那么好玩。

直到我剛剛試用了愛詩科技發布的 PixVerse R1。

在「賽博朋克城市」的場景中，我并沒有按下「生成」按鈕，也沒有盯著旋轉的進度條發呆。

我只是在輸入框輸入我想要的畫面，「開始下大雨，霓虹燈在濕潤的地面上反射出來」，接著「突然，城市大停電。只有緊急紅燈亮著」，「快速向上飛，穿過摩天大樓到達城市的上層區域。」

視頻來源：極客公園

畫面中的光影立刻隨著語意發生了流轉。沒有黑屏加載，沒有重新渲染的割裂感，就像鏡頭真的聽懂了我的指揮，實時向前推進。

一個 AI 模型正在以即時響應級的速度，為我「實時編織」一個從未存在的視覺世界。

這是愛詩科技剛剛發布的 PixVerse R1，是「全球首個支持最高 1080P 分辨率實時生成的世界模型」。

當視頻不再是一個確定的「結果」，而變成了一個可以被實時干預、持續存在的「過程」時，它還是我們印象里的「視頻」嗎？

這種被稱為「Playable Reality」（可玩現實）的新形態，究竟是噱頭還是未來？

進度條的消亡

2024 年年初，Sora 基于 DiT（Diffusion Transformer）架構，把長視頻生成的效果提高到前所未有的水平，掀起了全球范圍內的視頻生成熱潮。

但在 AI 視頻行業狂飆突進的這兩年里，我們雖然被 Sora、被各種視頻大模型驚艷，但這種驚艷始終帶著一種「延遲感」。這種延遲不僅是技術上的，更是心理上的。

過往，AI 視頻生成被戲稱為「開盲盒」。用戶輸入一段長長的提示詞，然后進入一段名為「生成中」的垃圾時間。這段時間長則數分鐘，短則幾十秒，但在人類的創作心流中，這幾十秒足以讓靈感斷裂。

用戶得到的是一個 MP4 文件，如果光影不對、構圖不佳，只能修改提示詞，再次進入漫長的等待循環。這種「輸入-等待-輸出」的異步邏輯，本質上是人類在遷就機器的算力和算法邏輯。

PixVerse R1 的出現，正在試圖終結這種「遷就」。實時生成的真正意義，絕不僅僅是「快」。如果啟動延遲降低的足夠低，幀率也足夠穩定在，人類的感知系統會發生錯覺：你不再覺得自己是在使用一個工具，而是覺得你正處于一個「活著的」世界里。

視頻來源：愛詩科技

可以看到，在這個視頻里，PixVerse R1 展現出一種水流般的即時感。當指令發出，畫面的色彩、材質、甚至物理規律會瞬間響應。

隨著「A city wall ahead.Jump over it and enter the city」指令的輸入，角色從樹林場景瞬間傳送到了中式城樓前的石橋上，正朝著城樓大門跑去；隨著「Transform into a robot and fight」指令的輸入，畫面拉近，主角從小人變身機器人并且迅速進行了一番打斗，場景和角色動作的切換非常流暢自然。

這種「實時編織」讓創作從「離線渲染」變成了「在線生產」。當技術響應速度追平了思維速度，令人困擾的「進度條」就此消亡，技術本身變得透明，它變成了感官的自然延伸。

而這種質變源于愛詩科技過去 800 天的「狂奔式迭代」。早在 2023 年 10 月，愛詩科技就發布了早于 Sora 的全球首個 4K 模型 V1；2024 年 2 月，它成為國內首家落地 DiT 架構的創業公司。這種對底層架構的「先行一步」，讓 PixVerse 在全球斬獲了超過 1 億用戶。如今 R1 實現的「即時感」，正是這種長期架構押注后的必然爆發。

Playable Reality，

介于游戲與視頻之間的新物種？

長期以來，視頻和游戲被視為兩條平行線：視頻擁有高擬真的質感但缺乏互動，游戲擁有高互動性但在視覺擬真度上受限于算力。而 PixVerse R1 正在打破這種邊界。

PixVerse R1 定義的「Playable Reality（可玩現實）」，正是這兩條平行線的交叉點。它不是傳統意義上的視頻，因為它允許實時干預；它也不是傳統意義上的游戲，因為它不是由程序員預設的代碼邏輯驅動，而是由 AI 對現實世界的模擬能力（世界模型）驅動。

從確定的、封閉的、一次性交付的 MP4 文件，到被 R1 定義的「過程」，一個可以被實時干預、持續存在的視覺世界。只要你持續給予交互，這個世界就會持續演化。

在這個創作過程中，用戶不再是坐在屏幕前的觀眾，也不僅僅是復雜的參數調試者，而是變成了「共同創作者」，可以用語言、情緒、意圖直接干預世界的走向。

這意味著視頻創作門檻的進一步降低。理想狀態下，我們不再需要學習復雜的非線性剪輯，也不需要理解光影參數，只需要通過簡單的交互——無論是文字還是語音——就能控制視頻的發展。

支撐這種「隨心而動」體驗的，是 PixVerse R1 背后的三大技術支柱：Omni 原生多模態基礎模型、自回歸流式生成機制，以及一套專門為交互設計的瞬時響應引擎。

首先，是 Omni 原生多模態基礎模型。不同于以往通過插件或疊加模型來理解語意，R1 從底層邏輯上就實現了視覺與語意的深度融合。這意味著模型在指令發出的瞬間，就在潛空間里完成了對物理世界的重構。

其次，為了消滅畫面切換時的「閃爍」與「刷新感」，愛詩科技引入了自回歸流式生成機制。在傳統的生成邏輯中，每一幀往往是孤立或弱相關的，但在 R1 的體系下，視頻不再是由一個個「固定片段」拼接而成，而是一條無限、連續且交互的視覺流。這種機制確保了在實時交互時，每一幀的演變都極其絲滑，沒有重新加載的割裂感。

最后，支撐即時反饋的物理基礎是其自研的瞬時響應引擎。通過對算力的極限調度和算法優化，它將啟動延遲壓縮到了人類幾乎感知不到的程度

在愛詩科技發布的技術報告中，他們將這種演進描述為從 Fix-length clip（固定片段）向 Infinite visual stream（無限可視化流）的范式轉移。這意味著，AI 視頻不再是一次性的煙花，而是一個可以無限延伸的數字宇宙。

當然，PixVerse R1 并非完美。愛詩科技在報告中坦誠地提到了「時間誤差累積」的挑戰——在極長的時間線里，微小的誤差可能會讓物理模擬出現波動。

為了追求 1080P 的實時響應，團隊在某些極致物理細節上做了取舍。但這種「權衡」恰恰展現了某種務實：與其追求一個只能在服務器里跑幾小時才能出來的完美標本，不如給用戶一個可以即時觸碰、盡管尚有微瑕的「活世界」。

當技術「隱形」，把世界還給想象

PixVerse R1 目前展示出的能力，本質上是給數字世界鋪設了一層「實時生成層」。這層能力的釋放，其影響力將遠超視頻創作本身。

想象一下，當這種能力被 API 化，它將如何重塑數字娛樂？

比如未來的游戲 NPC 不再只有固定動作，基于實時生成技術，他們可以根據你的語氣實時生成獨特的表情動作和視覺反饋。

電影也不再有唯一的結局，而是變成每個人都能走進其中的開放世界，通過交互，都會看到一個屬于自己的、實時編排的獨一無二的故事。

對于這種范式轉移，愛詩科技創始人兼 CEO 王長虎有著更具本質色彩的定義。他認為，PixVerse R1 是一種全新的媒體形式。

「傳統視頻是被記錄的歷史，而 PixVerse R1 開創了『正在發生的現在』的實時生成新紀元。」王長虎表示，在這樣的背景下，創作與消費的邊界將逐漸模糊——視頻消費者本身也成為創作者，可以在觀看的同時即時調整和生成新內容。

這種「所想即所現」（As You Think）的能力，讓王長虎對未來的數字生態充滿了想象：「無論是 AI 原生游戲、互動電影，還是生成式直播電商體驗，敘事都能實時響應用戶意圖。我們相信，每個人都能成為動態敘事的創作者。

愛詩科技的愿景是「讓每個人都能成為自己生活的導演」。當技術足夠先進、響應足夠敏捷時，技術本身就會變得透明。PixVerse R1 正在做的，就是讓「生成」這個繁瑣的技術動作隱形，讓位于人類最本能的「想象」與「表達」。

盡管 PixVerse R1 目前尚處于內測階段，且暫未在國內上線體驗，但它已然開啟了「流動世界」的大門。

接下來，愛詩科技將采用內測碼/定向邀請機制，一部分創作者將有機會先親自觸碰這個「流動的世界」。

*頭圖來源：PixVerse 官網

本文為極客公園原創文章，轉載請聯系極客君微信 geekparkGO

極客一問

你如何看待視頻媒介的「交互」時代？

前比亞迪高管趙長江，宣布加入智界，將出任執行副總裁。

點贊關注極客公園視頻號，

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.