前幾天測試的 Pixverse R1 終于發布了,這是一個可以實時生成并且可以隨時通過提示詞介入修改后續內容的世界模型。
極限情況下可以實時生成 1080P 的高清視頻,感覺成本再下來一點以后 AI 游戲和交互式的影視內容有戲了啊。
簡單介紹一下使用體驗,目前他們在一個單獨的平臺測試需要邀請碼。
你可以選擇預制的的三個主題進行體驗,三個主題分別是巨龍巢穴、二戰主題、海底世界,正式版本會增加到 6 個。
也可以創建自己的主題,選擇畫面比例、風格輸入主題相關提示詞就可以了。
生成之后主要的互動就是在他播放的過程中輸入提示詞來改變當前視頻生成的劇情走向。
而且這里生成的視頻居然還是帶音樂、音效混合旁白的,比以前所謂的實時生成的模型強了不少。
算法和架構上主要的優化有:
這是個原生的多模態模型支持將文本、圖像、視頻、音頻統一為連續的 Token 流,接受任何模態的輸入。
PixVerse-R1 改成了非擴散的自回歸架構,用來實現無限連續的生成,還使用了增加注意力機制,確保長時間生成的內容一致性。
為了適配實時視頻生成的性能,他們將原來的迭代降噪邏輯進行了多項優化,他們叫瞬時響應引擎 (IRE),主要包括三個優化:
Temporal Trajectory Folding:傳統模型從噪點到清晰圖像需要迭代幾十步,他們直接暴力壓縮到僅需 1–4 步。
Guidance Rectification:直接將傳統的 CFG 邏輯蒸餾到了模型參數內部,節省了時間。
Adaptive Sparse Attention:生成高分辨率的視頻的時候讓模型學會學會“抓大放小”,自動識別重要區域進行精細計算,大幅降低計算負載。
目前由于成本問題需要邀請碼才能測試,生成的分辨率是 480P,過幾天會提高到 720P。
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.