網易首頁 > 網易號 > 正文申請入駐

一篇10個月前的論文，揭秘字節(jié)視頻生成模型PixelDance的變化

2024-09-25 21:44:22　來源: 四木相對論

北京舉報

分享至

這篇10個月前的文章，或多或少揭示了「PixelDance」背后的細節(jié)

昨天最炸場的AI新聞，無疑是字節(jié)發(fā)布兩款視頻生成模型：豆包視頻生成-「PixelDance」和豆包視頻生成-「Seaweed」。

目前，這兩款模型還未正式對公眾開放。不過火山引擎的小伙伴對「四木相對論」表示，大家已經可以在火山引擎上排隊申請「PixelDance」。至于「Seaweed」，有消息稱目前沒有申請渠道。

*申請路徑：火山引擎官網-控制臺-火山方舟-體驗中心

https://console.volcengine.com/ark

這是字節(jié)繼公開發(fā)布「Dreamina/即夢」之后，再次推出視頻生成模型。

也正在這段時間內，快手發(fā)布自家的視頻生成大模型「可靈.AI」。在不少人看來，可靈的效果優(yōu)于即夢，也一度讓外界認為字節(jié)在視頻生成領域落后。

不過，這次發(fā)布的「PixelDance」和「Seaweed」——尤其是「PixelDance」，雖暫時只有一些測評片段流出，外界已對這些片段的效果感到驚艷。

在期待正式開放的同時，「四木相對論」還觀察到，PixelDance并不算全新模型。

早在去年11月，字節(jié)團隊已經發(fā)布了一篇名為《Make Pixels Dance: High-Dynamic Video Generation》的論文，介紹這款名為PixelDance的視頻生成模型。

當時，文章中強調PixelDance具有強一致性，并能生成時間較長、講述完整故事的視頻。而且，論文還表示，PixelDance代表了基于潛在擴散模型的視頻生成方法——這幾個特點，都和今天正式發(fā)布的「PixelDance」如出一轍。

另一個有趣的細節(jié)在于，這次發(fā)布的豆包視頻生成模型基于DiT架構，讓視頻在大動態(tài)與運鏡中自由切換，擁有變焦、環(huán)繞、平搖、縮放、目標跟隨等多鏡頭語言能力。

而當團隊于2023年11月發(fā)布這篇論文時，Sora還未出現(xiàn)，DiT架構不為人知。當時論文中稱，PixelDance 是以自回歸方式生成連續(xù)的視頻片段。

到了現(xiàn)在，國內的視頻生成模型紛紛強調DiT架構，只有智源研究院聲稱還在研究自回歸路線的生成式多模態(tài)模型。

總之，這篇發(fā)布于10個月前文章，或多或少地幫我們揭示了「PixelDance」背后的細節(jié)。

以下是論文全文（供參考）：

1. 引言

生成包含豐富動作的高動態(tài)視頻、復雜的視覺效果、自然的鏡頭轉換或復雜的相機移動，一直是人工智能領域中的一個高遠但具有挑戰(zhàn)性的目標。

不幸的是，大多數(shù)專注于文本到視頻生成的方法仍然局限于合成簡單的場景，通常在視覺細節(jié)和動態(tài)動作方面表現(xiàn)不足。

盡管近年來最先進的模型通過結合圖像輸入，顯著提高了文本到視頻的生成質量，這為視頻生成提供了更精細的視覺細節(jié)，但生成的視頻往往表現(xiàn)出有限的運動，如圖 2 所示。

當輸入圖像顯示的是訓練數(shù)據(jù)中未見過的領域內容時，這個問題尤其嚴重。

圖2. 由最新的視頻生成模型生成的視頻

為生成高動態(tài)視頻，我們提出了一種新穎的視頻生成方法，結合了視頻片段的首幀和末幀圖像指令，以及文本指令。

首幀圖像指令描述了視頻片段的主要場景。末幀圖像指令（在訓練和推理過程中可選使用）描繪了視頻片段的結尾，并提供了額外的控制。圖像指令使得模型能夠構建復雜的場景和動作。

此外，我們的方法還可以生成較長的視頻，在這種情況下，模型被多次應用，前一個片段的末幀作為下一個片段的首幀指令使用。

與文本指令相比，圖像指令更加直接且易于獲取。我們使用真實視頻幀作為訓練中的圖像指令，這很容易獲取。相比之下，使用詳細的文本注釋以精確描述視頻的幀和動作，不僅成本高昂，且模型難以學習。

為了理解并遵循復雜的文本指令，模型需要大幅擴展規(guī)模。結合圖像指令和文本指令能夠克服這些挑戰(zhàn)。

在訓練中給出這三種指令，模型可以專注于學習視頻內容的動態(tài)性，在推理時模型能夠更好地將學到的動態(tài)知識泛化到超出域的指令中。

具體來說，我們提出了 PixelDance，這是一種基于潛在擴散模型的視頻生成方法，基于<文本，首幀，末幀>指令。

文本指令由預訓練的文本編碼器編碼，并通過交叉注意力融入擴散模型。圖像指令由預訓練的 VAE 編碼器編碼，并與受擾的視頻潛變量或高斯噪聲一起作為擴散模型的輸入。

在訓練過程中，我們使用（真實的）首幀指令來強制模型嚴格遵循該指令，從而保持連續(xù)視頻片段之間的一致性。在推理過程中，這個指令可以方便地通過 T2I 模型獲得，或由用戶直接提供。

我們的方法獨特之處在于使用末幀指令的方式。我們有意避免讓模型完全復制末幀指令，因為在推理過程中提供一個完美的末幀是很困難的，模型應該能夠處理用戶提供的粗略草稿，并作為指導。用戶可以通過基本的圖像編輯工具，輕松創(chuàng)建這種類型的指令。

為此，我們開發(fā)了三項技術。

首先，在訓練過程中，末幀指令是從視頻片段的最后三幀（真實的）中隨機選擇的。其次，我們向指令中引入了噪聲，以減少對指令的依賴性并提高模型的魯棒性。第三，我們在訓練中以一定概率（例如 25%）隨機丟棄末幀指令。

相應地，我們提出了一種簡單但有效的推理策略。在前 τ 次去噪步驟中，利用末幀指令引導視頻生成朝向期望的結束狀態(tài)。在剩余的步驟中，指令被丟棄，允許模型生成時間上更連貫的視頻。通過調整 τ，可以控制末幀指令對生成結果的影響。

我們模型利用圖像指令的能力，使得能夠更有效地利用公開的視頻-文本數(shù)據(jù)集，例如 WebVid-10M。

該數(shù)據(jù)集僅包含與視頻松散相關的粗粒度描述，并且缺乏多樣化風格的內容（如漫畫和卡通）。我們的模型僅包含 15 億參數(shù)，主要在 WebVid-10M 上訓練，在多個場景中達到了最先進的性能。

首先，給定只有文本指令，PixelDance 通過 T2I 模型獲取首幀指令生成視頻，在 MSR-VTT 和 UCF-101上分別達到了 381 和 242.8 的 FVD 分數(shù)。當給定文本和首幀指令時（首幀指令也可以由用戶提供），PixelDance 能夠生成比現(xiàn)有模型更多動作豐富的視頻。

其次，PixelDance 能夠生成連續(xù)的視頻片段，在時間一致性和視頻質量方面優(yōu)于現(xiàn)有的長視頻生成方法。第三，末幀指令被證明是生成復雜場景或動作的域外視頻的重要組成部分，如圖 1 所示。

圖 1. PixelDance 的生成結果，基于文本輸入生成。第一幀的指令用紅框標出，最后一幀的指令用綠框標出。從16幀的剪輯中采樣展示了六幀。本論文中呈現(xiàn)的人臉是通過文本到圖像模型合成的。

總的來說，通過與 PixelDance 的主動互動，我們首次生成了一段三分鐘的視頻，具有清晰的故事情節(jié)，且在各個復雜場景中角色保持一致。

我們的貢獻可以總結如下：

我們提出了一種基于擴散模型的新型視頻生成方法 PixelDance，結合了首幀和末幀圖像指令以及文本指令。
我們開發(fā)了 PixelDance 的訓練和推理技術，不僅有效提升了生成視頻的質量，還為用戶提供了更多對視頻生成過程的控制。
我們的模型在公開數(shù)據(jù)上訓練后，在具有復雜場景和動作的高動態(tài)視頻生成方面展示了顯著性能，設定了視頻生成的新標準。

2. 相關工作

2.1 視頻生成

視頻生成長期以來一直是一個有吸引力且重要的研究課題。以往的研究依賴于不同類型的生成模型，例如 GANs和帶有 VQVAE 的 Transformers。

擴散模型顯著推動了文本到圖像生成的進展，它們展示出比 GANs 更強的魯棒性，并且與基于 Transformer 的方法相比，所需參數(shù)更少。潛在擴散模型（Latent Diffusion Models）被提出用于在壓縮的低維潛在空間中訓練擴散模型，以減少計算負擔。

對于視頻生成，先前的研究通常在預訓練的文本到圖像擴散模型的 2D UNet 上添加時間卷積層和時間注意力層。盡管這些進展通過集成超分辨率模塊鋪平了生成高分辨率視頻的道路，但生成的視頻仍然以簡單、運動較少為特點，如圖 2 所示。

最近，視頻編輯領域取得了顯著進展，尤其是在修改視頻內容同時保持原始結構和動作方面，例如將一頭牛變成一頭奶牛。盡管取得了這些成就，尋找合適的參考視頻進行編輯仍然非常耗時。

此外，這種方法本質上限制了創(chuàng)作的范圍，因為它排除了生成完全新穎內容（例如一只北極熊在長城上行走）的可能性，這些內容在任何參考視頻中都可能不存在。

2.2 長視頻生成

長視頻生成是一項更加具有挑戰(zhàn)性的任務，它需要在連續(xù)的視頻片段之間實現(xiàn)無縫轉換，并且保持場景和角色的長期一致性。

通常有兩種方法：1）自回歸方法使用滑動窗口生成一個新片段，條件是基于前一個片段；2）分層方法首先生成稀疏幀，然后插值生成中間幀。

然而，自回歸方法容易因隨時間推移積累的錯誤導致質量下降。至于分層方法，它需要長視頻進行訓練，由于在線視頻中頻繁的鏡頭切換，獲取長視頻變得困難。此外，生成跨越較長時間間隔的時間一致幀加劇了挑戰(zhàn)，往往導致初始幀質量較低，難以在后續(xù)的插值階段取得良好的結果。

在本文中，PixelDance 以自回歸方式生成連續(xù)的視頻片段，并在合成長期一致幀方面表現(xiàn)優(yōu)于現(xiàn)有模型。同時，我們提倡用戶積極參與生成過程，類似于電影導演的角色，以確保生成的內容與用戶的期望緊密一致。

3. 方法

現(xiàn)有的文本到視頻，和圖像到視頻生成模型通常生成動作簡單且有限的視頻。在本文中，我們嘗試使模型專注于學習視頻內容的動態(tài)性，以生成包含豐富動作的視頻。

我們提出了一種新穎的方法，結合視頻片段的首幀和末幀圖像指令與文本指令進行視頻生成，并且我們有效地利用了公開的視頻數(shù)據(jù)進行訓練。接下來我們將詳細介紹模型架構（第 3.1 節(jié)），并介紹為我們的方法定制的訓練和推理技術（第 3.2 節(jié)）。

3.1 模型架構

潛在擴散架構

我們采用了潛在擴散模型進行視頻生成。潛在擴散模型在預訓練 VAE 的潛在空間中，通過去噪訓練以減少計算負擔。

我們采用廣泛使用的 2D UNet作為擴散模型，該模型由一系列空間下采樣層和一系列空間上采樣層構建，并插入了跳躍連接。具體來說，它由兩個基本模塊構建，即 2D 卷積模塊和 2D 注意力模塊。

我們通過插入時間層將 2D UNet 擴展為 3D 變體，其中在 2D 卷積層之后插入 1D 時間卷積層，2D 注意力層之后插入 1D 時間注意力層。模型可以通過圖像和視頻聯(lián)合訓練，在空間維度上保持高保真生成能力。

對于圖像輸入，1D 時間操作被禁用。我們在所有時間注意力層中使用雙向自注意力。我們使用預訓練的 CLIP 文本編碼器對文本指令進行編碼，并通過交叉注意力層將嵌入的 ctext注入到 UNet 中，UNet 中的隱藏狀態(tài)作為查詢，ctext作為鍵和值。

圖像指令注入

我們結合了視頻片段的首幀和末幀圖像指令與文本指令。我們使用真實視頻幀作為訓練中的圖像指令，這很容易獲取。給定首幀和末幀圖像指令，分別記為 {Ifirst, Ilast}，我們首先使用 VAE 對它們進行編碼，將其映射到擴散模型的輸入空間，得到 {ffirst, flast}，其中 f ∈ RC×H×W。為了在注入指令時不丟失時間位置信息，最終的圖像條件構造如下：

c^image= [f^first,PADs, f^last] ∈ R^(F×C×H×W)，(1)

其中 PADs ∈ R^[(F?2)×C×H×W]。條件 c^image然后與帶噪聲的潛變量 z(t)在通道維度上連接，作為擴散模型的輸入。

3.2 訓練與推理

訓練過程如圖 3 所示。

圖 3. PixelDance 訓練過程的示意圖。原始視頻片段和圖像指令（分別在紅色和綠色框中）被編碼為 z 和 cimage，然后在經過不同噪聲擾動后，沿通道維度進行拼接。

對于首幀指令，我們在訓練中采用真實首幀，確保模型在推理過程中嚴格遵循首幀指令。

相比之下，我們有意避免讓模型完全復制末幀指令。在推理過程中，由于無法提前獲取真實末幀，模型需要適應用戶提供的粗略草稿以生成時間一致的視頻。為此，我們引入了三項技術。

首先，我們從片段的最后三幀中隨機選擇一幀作為訓練中的末幀指令。

其次，為了提高模型的魯棒性，我們對圖像指令 cimage進行噪聲擾動。

第三，在訓練過程中，我們以一定概率 η 隨機丟棄末幀指令，用零替換相應的潛變量。

相應地，我們提出了一種簡單但有效的推理技術。在推理過程中，在總去噪步驟 T 的前 τ 步中，使用末幀指令引導視頻生成朝向期望的結束狀態(tài)，并在后續(xù)步驟中丟棄該指令，以生成更連貫且時間一致的視頻：

τ 決定了模型對末幀指令的依賴強度，通過調整 τ 可以實現(xiàn)各種應用。例如，我們的模型可以在沒有末幀指令的情況下生成高動態(tài)視頻（即 τ = 0）。此外，我們在推理中應用了分類器自由指導，它將條件于文本提示和不帶文本提示的模型得分估計混合在一起。

4. 實驗

4.1 實現(xiàn)細節(jié)

按照之前的工作，我們在 WebVid-10M數(shù)據(jù)集上訓練了視頻擴散模型，該數(shù)據(jù)集包含大約 1000 萬個短視頻片段，平均時長為 18 秒，分辨率通常為 336 × 596。每個視頻都附有與視頻內容松散相關的文本描述。

WebVid-10M 的另一個問題是所有視頻上都帶有水印，這導致生成的視頻中也會包含水印。因此，我們將訓練數(shù)據(jù)擴展為另外自收集的 50 萬個無水印視頻片段，這些視頻片段包含真實世界的實體，如人類、動物、物體和風景，并附有粗粒度的文本描述。

盡管這一額外數(shù)據(jù)集只占了很小比例，但我們驚訝地發(fā)現(xiàn)，將該數(shù)據(jù)集與 WebVid-10M 結合訓練后，如果圖像指令沒有水印，PixelDance 就能夠生成無水印的視頻。

PixelDance 在視頻-文本數(shù)據(jù)集和圖像-文本數(shù)據(jù)集上進行聯(lián)合訓練。

對于視頻數(shù)據(jù)，我們從每個視頻中隨機采樣 16 個連續(xù)幀，每秒 4 幀。按照之前的工作，我們采用 LAION-400M 作為圖像-文本數(shù)據(jù)集。每 8 次訓練迭代使用一次圖像-文本數(shù)據(jù)。

在訓練過程中，預訓練的文本編碼器和 VAE 模型的權重保持凍結。我們采用 DDPM進行訓練，使用 1000 個時間步。圖像指令 cimage 引入了對應于 100 個時間步的噪聲。

我們首先在 256×256 分辨率下訓練模型，批大小為 192，使用 32 個 A100 GPU 進行 200K 次迭代，這些用于定量評估。該模型隨后經過 50K 次迭代的微調，分辨率更高。我們采用 ε-prediction作為訓練目標。

4.2 視頻生成

4.2.1 定量評估

我們對 PixelDance 的零樣本視頻生成能力進行了評估，使用了 MSR-VTT 和 UCF-101數(shù)據(jù)集，遵循之前的工作。

MSR-VTT 是一個視頻檢索數(shù)據(jù)集，提供每個視頻的描述，而 UCF-101 是一個包含 101 個動作類別的動作識別數(shù)據(jù)集。為了與之前只基于文本提示的文本到視頻方法進行比較，我們僅使用文本指令進行評估。

具體來說，我們利用現(xiàn)成的 T2I 穩(wěn)定擴散 V2.1 模型來獲取首幀指令，并結合文本和首幀指令生成視頻。按照之前的工作，我們隨機為每個示例選擇一個提示詞，共生成 2990 個視頻進行評估，并在 MSR-VTT 數(shù)據(jù)集上報告 Fréchet 視頻距離（FVD）和 CLIP 相似性（CLIPSIM）。

對于 UCF-101 數(shù)據(jù)集，我們?yōu)槊總€類別構建描述性文本提示，并生成大約 10K 個視頻，按照之前的工作，報告廣泛使用的 Inception 分數(shù)（IS）、Fréchet Inception 距離（FID）和 FVD。FID 和 FVD 都衡量生成視頻與真實數(shù)據(jù)之間的分布距離，而 IS 評估生成視頻的質量，CLIPSIM 估計生成視頻與對應文本之間的相似性。

MSR-VTT 和 UCF-101 上的零樣本評估結果分別顯示在表 1 和表 2 中。與其他文本到視頻方法相比，PixelDance 在 MSR-VTT 數(shù)據(jù)集上實現(xiàn)了最先進的 FVD 和 CLIPSIM 分數(shù)，展示了它生成高質量視頻并更好地與文本提示對齊的卓越能力。

值得注意的是，PixelDance 的 FVD 分數(shù)為 381，顯著超越了之前的最先進方法 ModelScope 的 550。在 UCF-101 基準測試中，PixelDance 在各種指標上優(yōu)于其他模型，包括 IS、FID 和 FVD。

表 1. 在 MSR-VTT 數(shù)據(jù)集上進行零樣本 T2V（文本到視頻）性能比較。所有方法生成空間分辨率為 256×256 的視頻。最佳結果用粗體標出。

表 2. 在 UCF-101 數(shù)據(jù)集上進行零樣本 T2V（文本到視頻）性能比較。所有方法生成空間分辨率為 256×256 的視頻。最佳結果用粗體標出。

圖 4. 基于文本和首幀指令生成視頻的示意圖。

4.2.2 定性分析

每個指令的有效性

我們的生成視頻方法結合了三種不同的指令：文本、首幀和末幀指令。在本節(jié)中，我們將深入探討每種指令對生成視頻質量的影響。

在 PixelDance 中，文本指令可以是簡潔的，因為首幀指令已經提供了對象/角色和場景，這些信息難以用簡潔和精確的文本描述。

然而，文本提示在指定各種動作時起著至關重要的作用，包括但不限于身體動作、面部表情、物體運動和視覺效果（如圖 4 的前兩行所示）。此外，它允許通過特定的提示詞操控相機運動，例如“放大/縮小”、“旋轉”和“特寫”，如圖 4 的最后一行所示。此外，文本指令有助于保持指定關鍵元素的跨幀一致性，例如角色的詳細描述（圖 6 中的北極熊）。

首幀指令通過提供更精細的視覺細節(jié)顯著提升了視頻質量。此外，它是生成多個連續(xù)視頻片段的關鍵。有了文本和首幀指令，PixelDance 能夠生成比現(xiàn)有模型更具運動感的視頻（如圖 4 和圖 6 所示）。

末幀指令描繪了視頻片段的結束狀態(tài)，提供了額外的控制。這種指令對合成復雜動作非常有用，尤其在生成域外視頻時至關重要，如圖 1 和圖 5 所示的前兩個示例。此外，我們可以使用末幀指令生成自然的鏡頭轉換（圖 6 的最后一個示例）。

圖 5. 基于文本、首幀和末幀指令生成復雜視頻的示意圖。

圖 6. 前兩行：文本指令有助于增強關鍵元素（如北極熊的黑色帽子和紅色領結）在不同幀之間的一致性。最后一行：自然的鏡頭過渡。

末幀指令引導的強度

為了使模型在用戶提供的草稿不夠精確時依然能夠正常工作，我們有意避免鼓勵模型完全復制末幀指令，使用了第 3 節(jié)中詳細介紹的技術。

如圖 7 所示，如果不采用我們的技術，生成的視頻會突然以給定的末幀指令為結尾。而使用了我們的方法后，生成的視頻更加流暢且在時間上連貫。

圖 7. 示意圖展示了所提出技術（τ = 25）在避免復制最后一幀指令方面的有效性。

域外圖像指令的泛化能力

盡管在訓練中缺少非現(xiàn)實風格（例如科幻、漫畫和卡通）的視頻，PixelDance 依然表現(xiàn)出生成高質量視頻的顯著能力，甚至在這些域外類別中。

這種泛化能力可以歸因于我們的模型專注于學習動態(tài)并確保時間一致性，只要給定圖像指令。PixelDance 學習了真實世界中動作的基本原理，因此它能夠在不同風格的圖像指令之間泛化。

4.3消融實驗

表 3 展示了 UCF-101 數(shù)據(jù)集上的消融實驗結果。

為了評估 PixelDance 的關鍵組件，我們在 UCF-101 數(shù)據(jù)集上進行了定量消融實驗，按照第 4.2.1 節(jié)中的零樣本評估設置進行。

首先，我們提供了一個 T2V 基準模型（?）進行比較，基于相同數(shù)據(jù)集進行訓練。我們進一步分析了模型中使用的指令的有效性。

由于首幀指令在生成連續(xù)視頻片段時至關重要，我們的消融實驗主要針對文本指令（?）和末幀指令（?）。

實驗結果表明，省略任意指令都會顯著降低視頻質量。值得注意的是，即使在評估中不包含末幀指令，訓練時使用末幀指令的模型（?）依然優(yōu)于未使用該指令的模型（?）。

這一觀察表明，單靠<文本，首幀>生成視頻在視頻內容的多樣性方面面臨巨大挑戰(zhàn)。相比之下，結合所有三種指令增強了 PixelDance 模型捕捉動作動態(tài)和保持時間一致性的能力。

4.4 長視頻生成

4.4.1 定量評估

如前所述，PixelDance 在訓練中嚴格遵循首幀指令，以便生成長視頻，其中前一個片段的末幀被用作生成下一個片段的首幀指令。

為了評估 PixelDance 的長視頻生成能力，我們按照之前的工作，在 UCF-101 數(shù)據(jù)集上生成了 512 個包含 1024 幀的視頻，遵循第 4.2.1 節(jié)中的零樣本設置。我們報告了從生成的視頻中每 16 幀提取的 FVD 結果。

結果如圖 8 所示，PixelDance 展示了較低的 FVD 分數(shù)和更平滑的時間變化，與自回歸模型 TATS-AR和 LVDM-AR以及分層方法 LVDM-Hi 相比，表現(xiàn)出更優(yōu)的性能。

圖8. UCF-101數(shù)據(jù)集上長視頻生成（1024幀）的FVD比較。AR: 自回歸。Hi: 分層。使用PixelDance生成長視頻的方式是自回歸的。

4.4.2 定性分析

考慮到大多數(shù)現(xiàn)實世界中的長視頻（例如 YouTube 上的視頻或電影）由多個鏡頭組成，而不是單一的連續(xù)鏡頭，本節(jié)的定性分析集中在 PixelDance 生成復合鏡頭的能力。這種復合鏡頭是通過串聯(lián)多個連續(xù)視頻片段并保持時間一致性來實現(xiàn)的。

圖 9 展示了 PixelDance 在處理復雜鏡頭組合方面的能力，這些鏡頭涉及復雜的相機運動（如極地場景中的鏡頭）、平滑的動畫效果（北極熊在熱氣球上飛越長城）和對火箭軌跡的精確控制。這些實例展示了用戶如何通過 PixelDance 的高級生成能力來構建期望的視頻序列。

借助 PixelDance 的高級生成功能，我們成功地合成了一段三分鐘的視頻，該視頻不僅講述了一個連貫的故事，而且角色在整個視頻中的表現(xiàn)保持一致。

圖 9. PixelDance 處理復雜鏡頭構圖的示意圖，包括兩個連續(xù)的視頻片段，其中第一個片段的最后一幀作為第二個片段的首幀指令。

4.5 更多應用

草圖指令

我們提出的方法可以擴展到其他類型的圖像指令，例如語義圖、圖像草圖、人體姿態(tài)和邊界框。為了證明這一點，我們以圖像草圖為例，使用圖像草圖作為末幀指令對 PixelDance 進行微調。結果如圖 10 的前兩行所示，展示了一個簡單的草圖圖像如何引導視頻生成過程。

圖10. 使用草圖圖像作為最后一幀指令生成視頻的示例（前兩個例子），以及通過PixelDance進行零樣本視頻編輯的示例（c）

零樣本視頻編輯

PixelDance 能夠在無需任何訓練的情況下進行視頻編輯，通過將視頻編輯任務轉化為圖像編輯任務來實現(xiàn)。如圖 10 中的最后一個示例所示，通過編輯提供視頻的首幀和末幀，PixelDance 生成了與用戶期望一致且時間連貫的視頻。

結論

在本文中，我們提出了一種基于擴散模型的新型視頻生成方法——PixelDance，該方法結合了首幀和末幀的圖像指令以及文本指令。

我們?yōu)檫@種方法開發(fā)了定制的訓練和推理技術，主要在 WebVid-10M 上訓練的 PixelDance 展現(xiàn)出在合成復雜場景和動作方面的卓越能力，設定了視頻生成的新標準。

盡管我們的方法取得了顯著成果，但仍有進一步改進的潛力。

首先，模型可以從高質量的開放域視頻數(shù)據(jù)訓練中受益。其次，在特定領域內微調模型可以進一步增強其能力。第三，結合注釋文本來概述視頻的關鍵元素和動作，可能會提高模型與用戶指令的對齊程度。最后，PixelDance 目前只包含 15 億個參數(shù)，未來可以通過進一步擴展模型規(guī)模來提升性能。

我們將在未來的工作中進一步研究這些方面。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.