![]()
這篇10個月前的文章,或多或少揭示了「PixelDance」背后的細(xì)節(jié)
昨天最炸場的AI新聞,無疑是字節(jié)發(fā)布兩款視頻生成模型:豆包視頻生成-「PixelDance」和豆包視頻生成-「Seaweed」。
目前,這兩款模型還未正式對公眾開放。不過火山引擎的小伙伴對「四木相對論」表示,大家已經(jīng)可以在火山引擎上排隊申請「PixelDance」。至于「Seaweed」,有消息稱目前沒有申請渠道。
*申請路徑:火山引擎官網(wǎng)-控制臺-火山方舟-體驗中心
https://console.volcengine.com/ark
這是字節(jié)繼公開發(fā)布「Dreamina/即夢」之后,再次推出視頻生成模型。
也正在這段時間內(nèi),快手發(fā)布自家的視頻生成大模型「可靈.AI」。在不少人看來,可靈的效果優(yōu)于即夢,也一度讓外界認(rèn)為字節(jié)在視頻生成領(lǐng)域落后。
不過,這次發(fā)布的「PixelDance」和「Seaweed」——尤其是「PixelDance」,雖暫時只有一些測評片段流出,外界已對這些片段的效果感到驚艷。
在期待正式開放的同時,「四木相對論」還觀察到,PixelDance并不算全新模型。
早在去年11月,字節(jié)團隊已經(jīng)發(fā)布了一篇名為《Make Pixels Dance: High-Dynamic Video Generation》的論文,介紹這款名為PixelDance的視頻生成模型。
當(dāng)時,文章中強調(diào)PixelDance具有強一致性,并能生成時間較長、講述完整故事的視頻。而且,論文還表示,PixelDance代表了基于潛在擴散模型的視頻生成方法——這幾個特點,都和今天正式發(fā)布的「PixelDance」如出一轍。
另一個有趣的細(xì)節(jié)在于,這次發(fā)布的豆包視頻生成模型基于DiT架構(gòu),讓視頻在大動態(tài)與運鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力。
而當(dāng)團隊于2023年11月發(fā)布這篇論文時,Sora還未出現(xiàn),DiT架構(gòu)不為人知。當(dāng)時論文中稱,PixelDance 是以自回歸方式生成連續(xù)的視頻片段。
到了現(xiàn)在,國內(nèi)的視頻生成模型紛紛強調(diào)DiT架構(gòu),只有智源研究院聲稱還在研究自回歸路線的生成式多模態(tài)模型。
總之,這篇發(fā)布于10個月前文章,或多或少地幫我們揭示了「PixelDance」背后的細(xì)節(jié)。
以下是論文全文(供參考):
1. 引言
生成包含豐富動作的高動態(tài)視頻、復(fù)雜的視覺效果、自然的鏡頭轉(zhuǎn)換或復(fù)雜的相機移動,一直是人工智能領(lǐng)域中的一個高遠(yuǎn)但具有挑戰(zhàn)性的目標(biāo)。
不幸的是,大多數(shù)專注于文本到視頻生成的方法仍然局限于合成簡單的場景,通常在視覺細(xì)節(jié)和動態(tài)動作方面表現(xiàn)不足。
盡管近年來最先進(jìn)的模型通過結(jié)合圖像輸入,顯著提高了文本到視頻的生成質(zhì)量,這為視頻生成提供了更精細(xì)的視覺細(xì)節(jié),但生成的視頻往往表現(xiàn)出有限的運動,如圖 2 所示。
當(dāng)輸入圖像顯示的是訓(xùn)練數(shù)據(jù)中未見過的領(lǐng)域內(nèi)容時,這個問題尤其嚴(yán)重。
![]()
圖2. 由最新的視頻生成模型生成的視頻
為生成高動態(tài)視頻,我們提出了一種新穎的視頻生成方法,結(jié)合了視頻片段的首幀和末幀圖像指令,以及文本指令。
首幀圖像指令描述了視頻片段的主要場景。末幀圖像指令(在訓(xùn)練和推理過程中可選使用)描繪了視頻片段的結(jié)尾,并提供了額外的控制。圖像指令使得模型能夠構(gòu)建復(fù)雜的場景和動作。
此外,我們的方法還可以生成較長的視頻,在這種情況下,模型被多次應(yīng)用,前一個片段的末幀作為下一個片段的首幀指令使用。
與文本指令相比,圖像指令更加直接且易于獲取。我們使用真實視頻幀作為訓(xùn)練中的圖像指令,這很容易獲取。相比之下,使用詳細(xì)的文本注釋以精確描述視頻的幀和動作,不僅成本高昂,且模型難以學(xué)習(xí)。
為了理解并遵循復(fù)雜的文本指令,模型需要大幅擴展規(guī)模。結(jié)合圖像指令和文本指令能夠克服這些挑戰(zhàn)。
在訓(xùn)練中給出這三種指令,模型可以專注于學(xué)習(xí)視頻內(nèi)容的動態(tài)性,在推理時模型能夠更好地將學(xué)到的動態(tài)知識泛化到超出域的指令中。
具體來說,我們提出了 PixelDance,這是一種基于潛在擴散模型的視頻生成方法,基于<文本,首幀,末幀>指令。
文本指令由預(yù)訓(xùn)練的文本編碼器編碼,并通過交叉注意力融入擴散模型。圖像指令由預(yù)訓(xùn)練的 VAE 編碼器編碼,并與受擾的視頻潛變量或高斯噪聲一起作為擴散模型的輸入。
在訓(xùn)練過程中,我們使用(真實的)首幀指令來強制模型嚴(yán)格遵循該指令,從而保持連續(xù)視頻片段之間的一致性。在推理過程中,這個指令可以方便地通過 T2I 模型獲得,或由用戶直接提供。
我們的方法獨特之處在于使用末幀指令的方式。我們有意避免讓模型完全復(fù)制末幀指令,因為在推理過程中提供一個完美的末幀是很困難的,模型應(yīng)該能夠處理用戶提供的粗略草稿,并作為指導(dǎo)。用戶可以通過基本的圖像編輯工具,輕松創(chuàng)建這種類型的指令。
為此,我們開發(fā)了三項技術(shù)。
首先,在訓(xùn)練過程中,末幀指令是從視頻片段的最后三幀(真實的)中隨機選擇的。其次,我們向指令中引入了噪聲,以減少對指令的依賴性并提高模型的魯棒性。第三,我們在訓(xùn)練中以一定概率(例如 25%)隨機丟棄末幀指令。
相應(yīng)地,我們提出了一種簡單但有效的推理策略。在前 τ 次去噪步驟中,利用末幀指令引導(dǎo)視頻生成朝向期望的結(jié)束狀態(tài)。在剩余的步驟中,指令被丟棄,允許模型生成時間上更連貫的視頻。通過調(diào)整 τ,可以控制末幀指令對生成結(jié)果的影響。
我們模型利用圖像指令的能力,使得能夠更有效地利用公開的視頻-文本數(shù)據(jù)集,例如 WebVid-10M。
該數(shù)據(jù)集僅包含與視頻松散相關(guān)的粗粒度描述,并且缺乏多樣化風(fēng)格的內(nèi)容(如漫畫和卡通)。我們的模型僅包含 15 億參數(shù),主要在 WebVid-10M 上訓(xùn)練,在多個場景中達(dá)到了最先進(jìn)的性能。
首先,給定只有文本指令,PixelDance 通過 T2I 模型獲取首幀指令生成視頻,在 MSR-VTT 和 UCF-101上分別達(dá)到了 381 和 242.8 的 FVD 分?jǐn)?shù)。當(dāng)給定文本和首幀指令時(首幀指令也可以由用戶提供),PixelDance 能夠生成比現(xiàn)有模型更多動作豐富的視頻。
其次,PixelDance 能夠生成連續(xù)的視頻片段,在時間一致性和視頻質(zhì)量方面優(yōu)于現(xiàn)有的長視頻生成方法。第三,末幀指令被證明是生成復(fù)雜場景或動作的域外視頻的重要組成部分,如圖 1 所示。
![]()
圖 1. PixelDance 的生成結(jié)果,基于文本輸入生成。第一幀的指令用紅框標(biāo)出,最后一幀的指令用綠框標(biāo)出。從16幀的剪輯中采樣展示了六幀。本論文中呈現(xiàn)的人臉是通過文本到圖像模型合成的。
總的來說,通過與 PixelDance 的主動互動,我們首次生成了一段三分鐘的視頻,具有清晰的故事情節(jié),且在各個復(fù)雜場景中角色保持一致。
我們的貢獻(xiàn)可以總結(jié)如下:
- 我們提出了一種基于擴散模型的新型視頻生成方法 PixelDance,結(jié)合了首幀和末幀圖像指令以及文本指令。
- 我們開發(fā)了 PixelDance 的訓(xùn)練和推理技術(shù),不僅有效提升了生成視頻的質(zhì)量,還為用戶提供了更多對視頻生成過程的控制。
- 我們的模型在公開數(shù)據(jù)上訓(xùn)練后,在具有復(fù)雜場景和動作的高動態(tài)視頻生成方面展示了顯著性能,設(shè)定了視頻生成的新標(biāo)準(zhǔn)。
2. 相關(guān)工作
2.1 視頻生成
視頻生成長期以來一直是一個有吸引力且重要的研究課題。以往的研究依賴于不同類型的生成模型,例如 GANs和帶有 VQVAE 的 Transformers。
擴散模型顯著推動了文本到圖像生成的進(jìn)展,它們展示出比 GANs 更強的魯棒性,并且與基于 Transformer 的方法相比,所需參數(shù)更少。潛在擴散模型(Latent Diffusion Models) 被提出用于在壓縮的低維潛在空間中訓(xùn)練擴散模型,以減少計算負(fù)擔(dān)。
對于視頻生成,先前的研究通常在預(yù)訓(xùn)練的文本到圖像擴散模型的 2D UNet 上添加時間卷積層和時間注意力層。盡管這些進(jìn)展通過集成超分辨率模塊鋪平了生成高分辨率視頻的道路,但生成的視頻仍然以簡單、運動較少為特點,如圖 2 所示。
最近,視頻編輯領(lǐng)域取得了顯著進(jìn)展,尤其是在修改視頻內(nèi)容同時保持原始結(jié)構(gòu)和動作方面,例如將一頭牛變成一頭奶牛。盡管取得了這些成就,尋找合適的參考視頻進(jìn)行編輯仍然非常耗時。
此外,這種方法本質(zhì)上限制了創(chuàng)作的范圍,因為它排除了生成完全新穎內(nèi)容(例如一只北極熊在長城上行走)的可能性,這些內(nèi)容在任何參考視頻中都可能不存在。
2.2 長視頻生成
長視頻生成是一項更加具有挑戰(zhàn)性的任務(wù),它需要在連續(xù)的視頻片段之間實現(xiàn)無縫轉(zhuǎn)換,并且保持場景和角色的長期一致性。
通常有兩種方法:1)自回歸方法 使用滑動窗口生成一個新片段,條件是基于前一個片段;2)分層方法 首先生成稀疏幀,然后插值生成中間幀。
然而,自回歸方法容易因隨時間推移積累的錯誤導(dǎo)致質(zhì)量下降。至于分層方法,它需要長視頻進(jìn)行訓(xùn)練,由于在線視頻中頻繁的鏡頭切換,獲取長視頻變得困難。此外,生成跨越較長時間間隔的時間一致幀加劇了挑戰(zhàn),往往導(dǎo)致初始幀質(zhì)量較低,難以在后續(xù)的插值階段取得良好的結(jié)果。
在本文中,PixelDance 以自回歸方式生成連續(xù)的視頻片段,并在合成長期一致幀方面表現(xiàn)優(yōu)于現(xiàn)有模型。同時,我們提倡用戶積極參與生成過程,類似于電影導(dǎo)演的角色,以確保生成的內(nèi)容與用戶的期望緊密一致。
3. 方法
現(xiàn)有的文本到視頻,和圖像到視頻生成模型通常生成動作簡單且有限的視頻。在本文中,我們嘗試使模型專注于學(xué)習(xí)視頻內(nèi)容的動態(tài)性,以生成包含豐富動作的視頻。
我們提出了一種新穎的方法,結(jié)合視頻片段的首幀和末幀圖像指令與文本指令進(jìn)行視頻生成,并且我們有效地利用了公開的視頻數(shù)據(jù)進(jìn)行訓(xùn)練。接下來我們將詳細(xì)介紹模型架構(gòu)(第 3.1 節(jié)),并介紹為我們的方法定制的訓(xùn)練和推理技術(shù)(第 3.2 節(jié))。
3.1 模型架構(gòu)
潛在擴散架構(gòu)
我們采用了潛在擴散模型進(jìn)行視頻生成。潛在擴散模型在預(yù)訓(xùn)練 VAE 的潛在空間中,通過去噪訓(xùn)練以減少計算負(fù)擔(dān)。
我們采用廣泛使用的 2D UNet作為擴散模型,該模型由一系列空間下采樣層和一系列空間上采樣層構(gòu)建,并插入了跳躍連接。具體來說,它由兩個基本模塊構(gòu)建,即 2D 卷積模塊和 2D 注意力模塊。
我們通過插入時間層將 2D UNet 擴展為 3D 變體,其中在 2D 卷積層之后插入 1D 時間卷積層,2D 注意力層之后插入 1D 時間注意力層。模型可以通過圖像和視頻聯(lián)合訓(xùn)練,在空間維度上保持高保真生成能力。
對于圖像輸入,1D 時間操作被禁用。我們在所有時間注意力層中使用雙向自注意力。我們使用預(yù)訓(xùn)練的 CLIP 文本編碼器對文本指令進(jìn)行編碼,并通過交叉注意力層將嵌入的 ctext注入到 UNet 中,UNet 中的隱藏狀態(tài)作為查詢,ctext作為鍵和值。
圖像指令注入
我們結(jié)合了視頻片段的首幀和末幀圖像指令與文本指令。我們使用真實視頻幀作為訓(xùn)練中的圖像指令,這很容易獲取。給定首幀和末幀圖像指令,分別記為 {Ifirst, Ilast},我們首先使用 VAE 對它們進(jìn)行編碼,將其映射到擴散模型的輸入空間,得到 {ffirst, flast},其中 f ∈ RC×H×W。為了在注入指令時不丟失時間位置信息,最終的圖像條件構(gòu)造如下:
c^image= [f^first,PADs, f^last] ∈ R^(F×C×H×W),(1)
其中 PADs ∈ R^[(F?2)×C×H×W]。條件 c^image然后與帶噪聲的潛變量 z(t)在通道維度上連接,作為擴散模型的輸入。
3.2 訓(xùn)練與推理
訓(xùn)練過程如圖 3 所示。
![]()
圖 3. PixelDance 訓(xùn)練過程的示意圖。原始視頻片段和圖像指令(分別在紅色和綠色框中)被編碼為 z 和 cimage,然后在經(jīng)過不同噪聲擾動后,沿通道維度進(jìn)行拼接。
對于首幀指令,我們在訓(xùn)練中采用真實首幀,確保模型在推理過程中嚴(yán)格遵循首幀指令。
相比之下,我們有意避免讓模型完全復(fù)制末幀指令。在推理過程中,由于無法提前獲取真實末幀,模型需要適應(yīng)用戶提供的粗略草稿以生成時間一致的視頻。為此,我們引入了三項技術(shù)。
首先,我們從片段的最后三幀中隨機選擇一幀作為訓(xùn)練中的末幀指令。
其次,為了提高模型的魯棒性,我們對圖像指令 cimage進(jìn)行噪聲擾動。
第三,在訓(xùn)練過程中,我們以一定概率 η 隨機丟棄末幀指令,用零替換相應(yīng)的潛變量。
相應(yīng)地,我們提出了一種簡單但有效的推理技術(shù)。在推理過程中,在總?cè)ピ氩襟E T 的前 τ 步中,使用末幀指令引導(dǎo)視頻生成朝向期望的結(jié)束狀態(tài),并在后續(xù)步驟中丟棄該指令,以生成更連貫且時間一致的視頻:
![]()
τ 決定了模型對末幀指令的依賴強度,通過調(diào)整 τ 可以實現(xiàn)各種應(yīng)用。例如,我們的模型可以在沒有末幀指令的情況下生成高動態(tài)視頻(即 τ = 0)。此外,我們在推理中應(yīng)用了分類器自由指導(dǎo),它將條件于文本提示和不帶文本提示的模型得分估計混合在一起。
4. 實驗
4.1 實現(xiàn)細(xì)節(jié)
按照之前的工作,我們在 WebVid-10M數(shù)據(jù)集上訓(xùn)練了視頻擴散模型,該數(shù)據(jù)集包含大約 1000 萬個短視頻片段,平均時長為 18 秒,分辨率通常為 336 × 596。每個視頻都附有與視頻內(nèi)容松散相關(guān)的文本描述。
WebVid-10M 的另一個問題是所有視頻上都帶有水印,這導(dǎo)致生成的視頻中也會包含水印。因此,我們將訓(xùn)練數(shù)據(jù)擴展為另外自收集的 50 萬個無水印視頻片段,這些視頻片段包含真實世界的實體,如人類、動物、物體和風(fēng)景,并附有粗粒度的文本描述。
盡管這一額外數(shù)據(jù)集只占了很小比例,但我們驚訝地發(fā)現(xiàn),將該數(shù)據(jù)集與 WebVid-10M 結(jié)合訓(xùn)練后,如果圖像指令沒有水印,PixelDance 就能夠生成無水印的視頻。
PixelDance 在視頻-文本數(shù)據(jù)集和圖像-文本數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練。
對于視頻數(shù)據(jù),我們從每個視頻中隨機采樣 16 個連續(xù)幀,每秒 4 幀。按照之前的工作,我們采用 LAION-400M 作為圖像-文本數(shù)據(jù)集。每 8 次訓(xùn)練迭代使用一次圖像-文本數(shù)據(jù)。
在訓(xùn)練過程中,預(yù)訓(xùn)練的文本編碼器和 VAE 模型的權(quán)重保持凍結(jié)。我們采用 DDPM進(jìn)行訓(xùn)練,使用 1000 個時間步。圖像指令 cimage 引入了對應(yīng)于 100 個時間步的噪聲。
我們首先在 256×256 分辨率下訓(xùn)練模型,批大小為 192,使用 32 個 A100 GPU 進(jìn)行 200K 次迭代,這些用于定量評估。該模型隨后經(jīng)過 50K 次迭代的微調(diào),分辨率更高。我們采用 ε-prediction作為訓(xùn)練目標(biāo)。
4.2 視頻生成
4.2.1 定量評估
我們對 PixelDance 的零樣本視頻生成能力進(jìn)行了評估,使用了 MSR-VTT 和 UCF-101數(shù)據(jù)集,遵循之前的工作。
MSR-VTT 是一個視頻檢索數(shù)據(jù)集,提供每個視頻的描述,而 UCF-101 是一個包含 101 個動作類別的動作識別數(shù)據(jù)集。為了與之前只基于文本提示的文本到視頻方法進(jìn)行比較,我們僅使用文本指令進(jìn)行評估。
具體來說,我們利用現(xiàn)成的 T2I 穩(wěn)定擴散 V2.1 模型來獲取首幀指令,并結(jié)合文本和首幀指令生成視頻。按照之前的工作,我們隨機為每個示例選擇一個提示詞,共生成 2990 個視頻進(jìn)行評估,并在 MSR-VTT 數(shù)據(jù)集上報告 Fréchet 視頻距離(FVD) 和 CLIP 相似性(CLIPSIM)。
對于 UCF-101 數(shù)據(jù)集,我們?yōu)槊總€類別構(gòu)建描述性文本提示,并生成大約 10K 個視頻,按照之前的工作,報告廣泛使用的 Inception 分?jǐn)?shù)(IS)、Fréchet Inception 距離(FID)和 FVD。FID 和 FVD 都衡量生成視頻與真實數(shù)據(jù)之間的分布距離,而 IS 評估生成視頻的質(zhì)量,CLIPSIM 估計生成視頻與對應(yīng)文本之間的相似性。
MSR-VTT 和 UCF-101 上的零樣本評估結(jié)果分別顯示在表 1 和表 2 中。與其他文本到視頻方法相比,PixelDance 在 MSR-VTT 數(shù)據(jù)集上實現(xiàn)了最先進(jìn)的 FVD 和 CLIPSIM 分?jǐn)?shù),展示了它生成高質(zhì)量視頻并更好地與文本提示對齊的卓越能力。
值得注意的是,PixelDance 的 FVD 分?jǐn)?shù)為 381,顯著超越了之前的最先進(jìn)方法 ModelScope 的 550。在 UCF-101 基準(zhǔn)測試中,PixelDance 在各種指標(biāo)上優(yōu)于其他模型,包括 IS、FID 和 FVD。
![]()
表 1. 在 MSR-VTT 數(shù)據(jù)集上進(jìn)行零樣本 T2V(文本到視頻)性能比較。所有方法生成空間分辨率為 256×256 的視頻。最佳結(jié)果用粗體標(biāo)出。
![]()
表 2. 在 UCF-101 數(shù)據(jù)集上進(jìn)行零樣本 T2V(文本到視頻)性能比較。所有方法生成空間分辨率為 256×256 的視頻。最佳結(jié)果用粗體標(biāo)出。
![]()
圖 4. 基于文本和首幀指令生成視頻的示意圖。
4.2.2 定性分析
每個指令的有效性
我們的生成視頻方法結(jié)合了三種不同的指令:文本、首幀和末幀指令。在本節(jié)中,我們將深入探討每種指令對生成視頻質(zhì)量的影響。
在 PixelDance 中,文本指令可以是簡潔的,因為首幀指令已經(jīng)提供了對象/角色和場景,這些信息難以用簡潔和精確的文本描述。
然而,文本提示在指定各種動作時起著至關(guān)重要的作用,包括但不限于身體動作、面部表情、物體運動和視覺效果(如圖 4 的前兩行所示)。此外,它允許通過特定的提示詞操控相機運動,例如“放大/縮小”、“旋轉(zhuǎn)”和“特寫”,如圖 4 的最后一行所示。此外,文本指令有助于保持指定關(guān)鍵元素的跨幀一致性,例如角色的詳細(xì)描述(圖 6 中的北極熊)。
首幀指令通過提供更精細(xì)的視覺細(xì)節(jié)顯著提升了視頻質(zhì)量。此外,它是生成多個連續(xù)視頻片段的關(guān)鍵。有了文本和首幀指令,PixelDance 能夠生成比現(xiàn)有模型更具運動感的視頻(如圖 4 和圖 6 所示)。
末幀指令描繪了視頻片段的結(jié)束狀態(tài),提供了額外的控制。這種指令對合成復(fù)雜動作非常有用,尤其在生成域外視頻時至關(guān)重要,如圖 1 和圖 5 所示的前兩個示例。此外,我們可以使用末幀指令生成自然的鏡頭轉(zhuǎn)換(圖 6 的最后一個示例)。
![]()
圖 5. 基于文本、首幀和末幀指令生成復(fù)雜視頻的示意圖。
![]()
圖 6. 前兩行:文本指令有助于增強關(guān)鍵元素(如北極熊的黑色帽子和紅色領(lǐng)結(jié))在不同幀之間的一致性。最后一行:自然的鏡頭過渡。
末幀指令引導(dǎo)的強度
為了使模型在用戶提供的草稿不夠精確時依然能夠正常工作,我們有意避免鼓勵模型完全復(fù)制末幀指令,使用了第 3 節(jié)中詳細(xì)介紹的技術(shù)。
如圖 7 所示,如果不采用我們的技術(shù),生成的視頻會突然以給定的末幀指令為結(jié)尾。而使用了我們的方法后,生成的視頻更加流暢且在時間上連貫。
![]()
圖 7. 示意圖展示了所提出技術(shù)(τ = 25)在避免復(fù)制最后一幀指令方面的有效性。
域外圖像指令的泛化能力
盡管在訓(xùn)練中缺少非現(xiàn)實風(fēng)格(例如科幻、漫畫和卡通)的視頻,PixelDance 依然表現(xiàn)出生成高質(zhì)量視頻的顯著能力,甚至在這些域外類別中。
這種泛化能力可以歸因于我們的模型專注于學(xué)習(xí)動態(tài)并確保時間一致性,只要給定圖像指令。PixelDance 學(xué)習(xí)了真實世界中動作的基本原理,因此它能夠在不同風(fēng)格的圖像指令之間泛化。
4.3消融實驗
![]()
表 3 展示了 UCF-101 數(shù)據(jù)集上的消融實驗結(jié)果。
為了評估 PixelDance 的關(guān)鍵組件,我們在 UCF-101 數(shù)據(jù)集上進(jìn)行了定量消融實驗,按照第 4.2.1 節(jié)中的零樣本評估設(shè)置進(jìn)行。
首先,我們提供了一個 T2V 基準(zhǔn)模型(?)進(jìn)行比較,基于相同數(shù)據(jù)集進(jìn)行訓(xùn)練。我們進(jìn)一步分析了模型中使用的指令的有效性。
由于首幀指令在生成連續(xù)視頻片段時至關(guān)重要,我們的消融實驗主要針對文本指令(?)和末幀指令(?)。
實驗結(jié)果表明,省略任意指令都會顯著降低視頻質(zhì)量。值得注意的是,即使在評估中不包含末幀指令,訓(xùn)練時使用末幀指令的模型(?)依然優(yōu)于未使用該指令的模型(?)。
這一觀察表明,單靠<文本,首幀>生成視頻在視頻內(nèi)容的多樣性方面面臨巨大挑戰(zhàn)。相比之下,結(jié)合所有三種指令增強了 PixelDance 模型捕捉動作動態(tài)和保持時間一致性的能力。
4.4 長視頻生成
4.4.1 定量評估
如前所述,PixelDance 在訓(xùn)練中嚴(yán)格遵循首幀指令,以便生成長視頻,其中前一個片段的末幀被用作生成下一個片段的首幀指令。
為了評估 PixelDance 的長視頻生成能力,我們按照之前的工作,在 UCF-101 數(shù)據(jù)集上生成了 512 個包含 1024 幀的視頻,遵循第 4.2.1 節(jié)中的零樣本設(shè)置。我們報告了從生成的視頻中每 16 幀提取的 FVD 結(jié)果。
結(jié)果如圖 8 所示,PixelDance 展示了較低的 FVD 分?jǐn)?shù)和更平滑的時間變化,與自回歸模型 TATS-AR和 LVDM-AR以及分層方法 LVDM-Hi 相比,表現(xiàn)出更優(yōu)的性能。
![]()
圖8. UCF-101數(shù)據(jù)集上長視頻生成(1024幀)的FVD比較。AR: 自回歸。Hi: 分層。使用PixelDance生成長視頻的方式是自回歸的。
4.4.2 定性分析
考慮到大多數(shù)現(xiàn)實世界中的長視頻(例如 YouTube 上的視頻或電影)由多個鏡頭組成,而不是單一的連續(xù)鏡頭,本節(jié)的定性分析集中在 PixelDance 生成復(fù)合鏡頭的能力。這種復(fù)合鏡頭是通過串聯(lián)多個連續(xù)視頻片段并保持時間一致性來實現(xiàn)的。
圖 9 展示了 PixelDance 在處理復(fù)雜鏡頭組合方面的能力,這些鏡頭涉及復(fù)雜的相機運動(如極地場景中的鏡頭)、平滑的動畫效果(北極熊在熱氣球上飛越長城)和對火箭軌跡的精確控制。這些實例展示了用戶如何通過 PixelDance 的高級生成能力來構(gòu)建期望的視頻序列。
借助 PixelDance 的高級生成功能,我們成功地合成了一段三分鐘的視頻,該視頻不僅講述了一個連貫的故事,而且角色在整個視頻中的表現(xiàn)保持一致。
![]()
圖 9. PixelDance 處理復(fù)雜鏡頭構(gòu)圖的示意圖,包括兩個連續(xù)的視頻片段,其中第一個片段的最后一幀作為第二個片段的首幀指令。
4.5 更多應(yīng)用
草圖指令
我們提出的方法可以擴展到其他類型的圖像指令,例如語義圖、圖像草圖、人體姿態(tài)和邊界框。為了證明這一點,我們以圖像草圖為例,使用圖像草圖作為末幀指令對 PixelDance 進(jìn)行微調(diào)。結(jié)果如圖 10 的前兩行所示,展示了一個簡單的草圖圖像如何引導(dǎo)視頻生成過程。
![]()
圖10. 使用草圖圖像作為最后一幀指令生成視頻的示例(前兩個例子),以及通過PixelDance進(jìn)行零樣本視頻編輯的示例(c)
零樣本視頻編輯
PixelDance 能夠在無需任何訓(xùn)練的情況下進(jìn)行視頻編輯,通過將視頻編輯任務(wù)轉(zhuǎn)化為圖像編輯任務(wù)來實現(xiàn)。如圖 10 中的最后一個示例所示,通過編輯提供視頻的首幀和末幀,PixelDance 生成了與用戶期望一致且時間連貫的視頻。
結(jié)論
在本文中,我們提出了一種基于擴散模型的新型視頻生成方法——PixelDance,該方法結(jié)合了首幀和末幀的圖像指令以及文本指令。
我們?yōu)檫@種方法開發(fā)了定制的訓(xùn)練和推理技術(shù),主要在 WebVid-10M 上訓(xùn)練的 PixelDance 展現(xiàn)出在合成復(fù)雜場景和動作方面的卓越能力,設(shè)定了視頻生成的新標(biāo)準(zhǔn)。
盡管我們的方法取得了顯著成果,但仍有進(jìn)一步改進(jìn)的潛力。
首先,模型可以從高質(zhì)量的開放域視頻數(shù)據(jù)訓(xùn)練中受益。其次,在特定領(lǐng)域內(nèi)微調(diào)模型可以進(jìn)一步增強其能力。第三,結(jié)合注釋文本來概述視頻的關(guān)鍵元素和動作,可能會提高模型與用戶指令的對齊程度。最后,PixelDance 目前只包含 15 億個參數(shù),未來可以通過進(jìn)一步擴展模型規(guī)模來提升性能。
我們將在未來的工作中進(jìn)一步研究這些方面。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.