前幾天測(cè)試的 Pixverse R1 終于發(fā)布了,這是一個(gè)可以實(shí)時(shí)生成并且可以隨時(shí)通過提示詞介入修改后續(xù)內(nèi)容的世界模型。
極限情況下可以實(shí)時(shí)生成 1080P 的高清視頻,感覺成本再下來(lái)一點(diǎn)以后 AI 游戲和交互式的影視內(nèi)容有戲了啊。
簡(jiǎn)單介紹一下使用體驗(yàn),目前他們?cè)谝粋€(gè)單獨(dú)的平臺(tái)測(cè)試需要邀請(qǐng)碼。
你可以選擇預(yù)制的的三個(gè)主題進(jìn)行體驗(yàn),三個(gè)主題分別是巨龍巢穴、二戰(zhàn)主題、海底世界,正式版本會(huì)增加到 6 個(gè)。
也可以創(chuàng)建自己的主題,選擇畫面比例、風(fēng)格輸入主題相關(guān)提示詞就可以了。
生成之后主要的互動(dòng)就是在他播放的過程中輸入提示詞來(lái)改變當(dāng)前視頻生成的劇情走向。
而且這里生成的視頻居然還是帶音樂、音效混合旁白的,比以前所謂的實(shí)時(shí)生成的模型強(qiáng)了不少。
算法和架構(gòu)上主要的優(yōu)化有:
這是個(gè)原生的多模態(tài)模型支持將文本、圖像、視頻、音頻統(tǒng)一為連續(xù)的 Token 流,接受任何模態(tài)的輸入。
PixVerse-R1 改成了非擴(kuò)散的自回歸架構(gòu),用來(lái)實(shí)現(xiàn)無(wú)限連續(xù)的生成,還使用了增加注意力機(jī)制,確保長(zhǎng)時(shí)間生成的內(nèi)容一致性。
為了適配實(shí)時(shí)視頻生成的性能,他們將原來(lái)的迭代降噪邏輯進(jìn)行了多項(xiàng)優(yōu)化,他們叫瞬時(shí)響應(yīng)引擎 (IRE),主要包括三個(gè)優(yōu)化:
Temporal Trajectory Folding:傳統(tǒng)模型從噪點(diǎn)到清晰圖像需要迭代幾十步,他們直接暴力壓縮到僅需 1–4 步。
Guidance Rectification:直接將傳統(tǒng)的 CFG 邏輯蒸餾到了模型參數(shù)內(nèi)部,節(jié)省了時(shí)間。
Adaptive Sparse Attention:生成高分辨率的視頻的時(shí)候讓模型學(xué)會(huì)學(xué)會(huì)“抓大放小”,自動(dòng)識(shí)別重要區(qū)域進(jìn)行精細(xì)計(jì)算,大幅降低計(jì)算負(fù)載。
目前由于成本問題需要邀請(qǐng)碼才能測(cè)試,生成的分辨率是 480P,過幾天會(huì)提高到 720P。
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.