<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      一篇10個月前的論文,揭秘字節(jié)視頻生成模型PixelDance的變化

      0
      分享至


      這篇10個月前的文章,或多或少揭示了「PixelDance」背后的細(xì)節(jié)

      昨天最炸場的AI新聞,無疑是字節(jié)發(fā)布兩款視頻生成模型:豆包視頻生成-「PixelDance」和豆包視頻生成-「Seaweed」。

      目前,這兩款模型還未正式對公眾開放。不過火山引擎的小伙伴對「四木相對論」表示,大家已經(jīng)可以在火山引擎上排隊申請「PixelDance」。至于「Seaweed」,有消息稱目前沒有申請渠道。

      *申請路徑:火山引擎官網(wǎng)-控制臺-火山方舟-體驗中心

      https://console.volcengine.com/ark

      這是字節(jié)繼公開發(fā)布「Dreamina/即夢」之后,再次推出視頻生成模型。

      也正在這段時間內(nèi),快手發(fā)布自家的視頻生成大模型「可靈.AI」。在不少人看來,可靈的效果優(yōu)于即夢,也一度讓外界認(rèn)為字節(jié)在視頻生成領(lǐng)域落后。

      不過,這次發(fā)布的「PixelDance」和「Seaweed」——尤其是「PixelDance」,雖暫時只有一些測評片段流出,外界已對這些片段的效果感到驚艷。

      在期待正式開放的同時,「四木相對論」還觀察到,PixelDance并不算全新模型。

      早在去年11月,字節(jié)團隊已經(jīng)發(fā)布了一篇名為《Make Pixels Dance: High-Dynamic Video Generation》的論文,介紹這款名為PixelDance的視頻生成模型。

      當(dāng)時,文章中強調(diào)PixelDance具有強一致性,并能生成時間較長、講述完整故事的視頻。而且,論文還表示,PixelDance代表了基于潛在擴散模型的視頻生成方法——這幾個特點,都和今天正式發(fā)布的「PixelDance」如出一轍。

      另一個有趣的細(xì)節(jié)在于,這次發(fā)布的豆包視頻生成模型基于DiT架構(gòu),讓視頻在大動態(tài)與運鏡中自由切換,擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力。

      而當(dāng)團隊于2023年11月發(fā)布這篇論文時,Sora還未出現(xiàn),DiT架構(gòu)不為人知。當(dāng)時論文中稱,PixelDance 是以自回歸方式生成連續(xù)的視頻片段。

      到了現(xiàn)在,國內(nèi)的視頻生成模型紛紛強調(diào)DiT架構(gòu),只有智源研究院聲稱還在研究自回歸路線的生成式多模態(tài)模型。

      總之,這篇發(fā)布于10個月前文章,或多或少地幫我們揭示了「PixelDance」背后的細(xì)節(jié)。

      以下是論文全文(供參考):

      1. 引言

      生成包含豐富動作的高動態(tài)視頻、復(fù)雜的視覺效果、自然的鏡頭轉(zhuǎn)換或復(fù)雜的相機移動,一直是人工智能領(lǐng)域中的一個高遠(yuǎn)但具有挑戰(zhàn)性的目標(biāo)。

      不幸的是,大多數(shù)專注于文本到視頻生成的方法仍然局限于合成簡單的場景,通常在視覺細(xì)節(jié)和動態(tài)動作方面表現(xiàn)不足。

      盡管近年來最先進(jìn)的模型通過結(jié)合圖像輸入,顯著提高了文本到視頻的生成質(zhì)量,這為視頻生成提供了更精細(xì)的視覺細(xì)節(jié),但生成的視頻往往表現(xiàn)出有限的運動,如圖 2 所示。

      當(dāng)輸入圖像顯示的是訓(xùn)練數(shù)據(jù)中未見過的領(lǐng)域內(nèi)容時,這個問題尤其嚴(yán)重。


      圖2. 由最新的視頻生成模型生成的視頻

      為生成高動態(tài)視頻,我們提出了一種新穎的視頻生成方法,結(jié)合了視頻片段的首幀和末幀圖像指令,以及文本指令。

      首幀圖像指令描述了視頻片段的主要場景。末幀圖像指令(在訓(xùn)練和推理過程中可選使用)描繪了視頻片段的結(jié)尾,并提供了額外的控制。圖像指令使得模型能夠構(gòu)建復(fù)雜的場景和動作。

      此外,我們的方法還可以生成較長的視頻,在這種情況下,模型被多次應(yīng)用,前一個片段的末幀作為下一個片段的首幀指令使用。

      與文本指令相比,圖像指令更加直接且易于獲取。我們使用真實視頻幀作為訓(xùn)練中的圖像指令,這很容易獲取。相比之下,使用詳細(xì)的文本注釋以精確描述視頻的幀和動作,不僅成本高昂,且模型難以學(xué)習(xí)。

      為了理解并遵循復(fù)雜的文本指令,模型需要大幅擴展規(guī)模。結(jié)合圖像指令和文本指令能夠克服這些挑戰(zhàn)。

      在訓(xùn)練中給出這三種指令,模型可以專注于學(xué)習(xí)視頻內(nèi)容的動態(tài)性,在推理時模型能夠更好地將學(xué)到的動態(tài)知識泛化到超出域的指令中。

      具體來說,我們提出了 PixelDance,這是一種基于潛在擴散模型的視頻生成方法,基于<文本,首幀,末幀>指令。

      文本指令由預(yù)訓(xùn)練的文本編碼器編碼,并通過交叉注意力融入擴散模型。圖像指令由預(yù)訓(xùn)練的 VAE 編碼器編碼,并與受擾的視頻潛變量或高斯噪聲一起作為擴散模型的輸入。

      在訓(xùn)練過程中,我們使用(真實的)首幀指令來強制模型嚴(yán)格遵循該指令,從而保持連續(xù)視頻片段之間的一致性。在推理過程中,這個指令可以方便地通過 T2I 模型獲得,或由用戶直接提供。

      我們的方法獨特之處在于使用末幀指令的方式。我們有意避免讓模型完全復(fù)制末幀指令,因為在推理過程中提供一個完美的末幀是很困難的,模型應(yīng)該能夠處理用戶提供的粗略草稿,并作為指導(dǎo)。用戶可以通過基本的圖像編輯工具,輕松創(chuàng)建這種類型的指令。

      為此,我們開發(fā)了三項技術(shù)。

      首先,在訓(xùn)練過程中,末幀指令是從視頻片段的最后三幀(真實的)中隨機選擇的。其次,我們向指令中引入了噪聲,以減少對指令的依賴性并提高模型的魯棒性。第三,我們在訓(xùn)練中以一定概率(例如 25%)隨機丟棄末幀指令。

      相應(yīng)地,我們提出了一種簡單但有效的推理策略。在前 τ 次去噪步驟中,利用末幀指令引導(dǎo)視頻生成朝向期望的結(jié)束狀態(tài)。在剩余的步驟中,指令被丟棄,允許模型生成時間上更連貫的視頻。通過調(diào)整 τ,可以控制末幀指令對生成結(jié)果的影響。

      我們模型利用圖像指令的能力,使得能夠更有效地利用公開的視頻-文本數(shù)據(jù)集,例如 WebVid-10M。

      該數(shù)據(jù)集僅包含與視頻松散相關(guān)的粗粒度描述,并且缺乏多樣化風(fēng)格的內(nèi)容(如漫畫和卡通)。我們的模型僅包含 15 億參數(shù),主要在 WebVid-10M 上訓(xùn)練,在多個場景中達(dá)到了最先進(jìn)的性能。

      首先,給定只有文本指令,PixelDance 通過 T2I 模型獲取首幀指令生成視頻,在 MSR-VTT 和 UCF-101上分別達(dá)到了 381 和 242.8 的 FVD 分?jǐn)?shù)。當(dāng)給定文本和首幀指令時(首幀指令也可以由用戶提供),PixelDance 能夠生成比現(xiàn)有模型更多動作豐富的視頻

      其次,PixelDance 能夠生成連續(xù)的視頻片段,在時間一致性和視頻質(zhì)量方面優(yōu)于現(xiàn)有的長視頻生成方法。第三,末幀指令被證明是生成復(fù)雜場景或動作的域外視頻的重要組成部分,如圖 1 所示。



      圖 1. PixelDance 的生成結(jié)果,基于文本輸入生成。第一幀的指令用紅框標(biāo)出,最后一幀的指令用綠框標(biāo)出。從16幀的剪輯中采樣展示了六幀。本論文中呈現(xiàn)的人臉是通過文本到圖像模型合成的。

      總的來說,通過與 PixelDance 的主動互動,我們首次生成了一段三分鐘的視頻,具有清晰的故事情節(jié),且在各個復(fù)雜場景中角色保持一致。

      我們的貢獻(xiàn)可以總結(jié)如下:

      • 我們提出了一種基于擴散模型的新型視頻生成方法 PixelDance,結(jié)合了首幀和末幀圖像指令以及文本指令。
      • 我們開發(fā)了 PixelDance 的訓(xùn)練和推理技術(shù),不僅有效提升了生成視頻的質(zhì)量,還為用戶提供了更多對視頻生成過程的控制。
      • 我們的模型在公開數(shù)據(jù)上訓(xùn)練后,在具有復(fù)雜場景和動作的高動態(tài)視頻生成方面展示了顯著性能,設(shè)定了視頻生成的新標(biāo)準(zhǔn)。

      2. 相關(guān)工作

      2.1 視頻生成

      視頻生成長期以來一直是一個有吸引力且重要的研究課題。以往的研究依賴于不同類型的生成模型,例如 GANs和帶有 VQVAE 的 Transformers。

      擴散模型顯著推動了文本到圖像生成的進(jìn)展,它們展示出比 GANs 更強的魯棒性,并且與基于 Transformer 的方法相比,所需參數(shù)更少。潛在擴散模型(Latent Diffusion Models) 被提出用于在壓縮的低維潛在空間中訓(xùn)練擴散模型,以減少計算負(fù)擔(dān)。

      對于視頻生成,先前的研究通常在預(yù)訓(xùn)練的文本到圖像擴散模型的 2D UNet 上添加時間卷積層和時間注意力層。盡管這些進(jìn)展通過集成超分辨率模塊鋪平了生成高分辨率視頻的道路,但生成的視頻仍然以簡單、運動較少為特點,如圖 2 所示。

      最近,視頻編輯領(lǐng)域取得了顯著進(jìn)展,尤其是在修改視頻內(nèi)容同時保持原始結(jié)構(gòu)和動作方面,例如將一頭牛變成一頭奶牛。盡管取得了這些成就,尋找合適的參考視頻進(jìn)行編輯仍然非常耗時。

      此外,這種方法本質(zhì)上限制了創(chuàng)作的范圍,因為它排除了生成完全新穎內(nèi)容(例如一只北極熊在長城上行走)的可能性,這些內(nèi)容在任何參考視頻中都可能不存在。

      2.2 長視頻生成

      長視頻生成是一項更加具有挑戰(zhàn)性的任務(wù),它需要在連續(xù)的視頻片段之間實現(xiàn)無縫轉(zhuǎn)換,并且保持場景和角色的長期一致性。

      通常有兩種方法:1)自回歸方法 使用滑動窗口生成一個新片段,條件是基于前一個片段;2)分層方法 首先生成稀疏幀,然后插值生成中間幀。

      然而,自回歸方法容易因隨時間推移積累的錯誤導(dǎo)致質(zhì)量下降。至于分層方法,它需要長視頻進(jìn)行訓(xùn)練,由于在線視頻中頻繁的鏡頭切換,獲取長視頻變得困難。此外,生成跨越較長時間間隔的時間一致幀加劇了挑戰(zhàn),往往導(dǎo)致初始幀質(zhì)量較低,難以在后續(xù)的插值階段取得良好的結(jié)果。

      在本文中,PixelDance 以自回歸方式生成連續(xù)的視頻片段,并在合成長期一致幀方面表現(xiàn)優(yōu)于現(xiàn)有模型。同時,我們提倡用戶積極參與生成過程,類似于電影導(dǎo)演的角色,以確保生成的內(nèi)容與用戶的期望緊密一致。

      3. 方法

      現(xiàn)有的文本到視頻,和圖像到視頻生成模型通常生成動作簡單且有限的視頻。在本文中,我們嘗試使模型專注于學(xué)習(xí)視頻內(nèi)容的動態(tài)性,以生成包含豐富動作的視頻。

      我們提出了一種新穎的方法,結(jié)合視頻片段的首幀和末幀圖像指令與文本指令進(jìn)行視頻生成,并且我們有效地利用了公開的視頻數(shù)據(jù)進(jìn)行訓(xùn)練。接下來我們將詳細(xì)介紹模型架構(gòu)(第 3.1 節(jié)),并介紹為我們的方法定制的訓(xùn)練和推理技術(shù)(第 3.2 節(jié))。

      3.1 模型架構(gòu)

      潛在擴散架構(gòu)

      我們采用了潛在擴散模型進(jìn)行視頻生成。潛在擴散模型在預(yù)訓(xùn)練 VAE 的潛在空間中,通過去噪訓(xùn)練以減少計算負(fù)擔(dān)。

      我們采用廣泛使用的 2D UNet作為擴散模型,該模型由一系列空間下采樣層和一系列空間上采樣層構(gòu)建,并插入了跳躍連接。具體來說,它由兩個基本模塊構(gòu)建,即 2D 卷積模塊和 2D 注意力模塊。

      我們通過插入時間層將 2D UNet 擴展為 3D 變體,其中在 2D 卷積層之后插入 1D 時間卷積層,2D 注意力層之后插入 1D 時間注意力層。模型可以通過圖像和視頻聯(lián)合訓(xùn)練,在空間維度上保持高保真生成能力。

      對于圖像輸入,1D 時間操作被禁用。我們在所有時間注意力層中使用雙向自注意力。我們使用預(yù)訓(xùn)練的 CLIP 文本編碼器對文本指令進(jìn)行編碼,并通過交叉注意力層將嵌入的 ctext注入到 UNet 中,UNet 中的隱藏狀態(tài)作為查詢,ctext作為鍵和值。

      圖像指令注入

      我們結(jié)合了視頻片段的首幀和末幀圖像指令與文本指令。我們使用真實視頻幀作為訓(xùn)練中的圖像指令,這很容易獲取。給定首幀和末幀圖像指令,分別記為 {Ifirst, Ilast},我們首先使用 VAE 對它們進(jìn)行編碼,將其映射到擴散模型的輸入空間,得到 {ffirst, flast},其中 f ∈ RC×H×W。為了在注入指令時不丟失時間位置信息,最終的圖像條件構(gòu)造如下:

      c^image= [f^first,PADs, f^last] ∈ R^(F×C×H×W),(1)

      其中 PADs ∈ R^[(F?2)×C×H×W]。條件 c^image然后與帶噪聲的潛變量 z(t)在通道維度上連接,作為擴散模型的輸入。

      3.2 訓(xùn)練與推理

      訓(xùn)練過程如圖 3 所示。



      圖 3. PixelDance 訓(xùn)練過程的示意圖。原始視頻片段和圖像指令(分別在紅色和綠色框中)被編碼為 z 和 cimage,然后在經(jīng)過不同噪聲擾動后,沿通道維度進(jìn)行拼接。

      對于首幀指令,我們在訓(xùn)練中采用真實首幀,確保模型在推理過程中嚴(yán)格遵循首幀指令。

      相比之下,我們有意避免讓模型完全復(fù)制末幀指令。在推理過程中,由于無法提前獲取真實末幀,模型需要適應(yīng)用戶提供的粗略草稿以生成時間一致的視頻。為此,我們引入了三項技術(shù)。

      首先,我們從片段的最后三幀中隨機選擇一幀作為訓(xùn)練中的末幀指令。

      其次,為了提高模型的魯棒性,我們對圖像指令 cimage進(jìn)行噪聲擾動。

      第三,在訓(xùn)練過程中,我們以一定概率 η 隨機丟棄末幀指令,用零替換相應(yīng)的潛變量。

      相應(yīng)地,我們提出了一種簡單但有效的推理技術(shù)。在推理過程中,在總?cè)ピ氩襟E T 的前 τ 步中,使用末幀指令引導(dǎo)視頻生成朝向期望的結(jié)束狀態(tài),并在后續(xù)步驟中丟棄該指令,以生成更連貫且時間一致的視頻:



      τ 決定了模型對末幀指令的依賴強度,通過調(diào)整 τ 可以實現(xiàn)各種應(yīng)用。例如,我們的模型可以在沒有末幀指令的情況下生成高動態(tài)視頻(即 τ = 0)。此外,我們在推理中應(yīng)用了分類器自由指導(dǎo),它將條件于文本提示和不帶文本提示的模型得分估計混合在一起。

      4. 實驗

      4.1 實現(xiàn)細(xì)節(jié)

      按照之前的工作,我們在 WebVid-10M數(shù)據(jù)集上訓(xùn)練了視頻擴散模型,該數(shù)據(jù)集包含大約 1000 萬個短視頻片段,平均時長為 18 秒,分辨率通常為 336 × 596。每個視頻都附有與視頻內(nèi)容松散相關(guān)的文本描述。

      WebVid-10M 的另一個問題是所有視頻上都帶有水印,這導(dǎo)致生成的視頻中也會包含水印。因此,我們將訓(xùn)練數(shù)據(jù)擴展為另外自收集的 50 萬個無水印視頻片段,這些視頻片段包含真實世界的實體,如人類、動物、物體和風(fēng)景,并附有粗粒度的文本描述。

      盡管這一額外數(shù)據(jù)集只占了很小比例,但我們驚訝地發(fā)現(xiàn),將該數(shù)據(jù)集與 WebVid-10M 結(jié)合訓(xùn)練后,如果圖像指令沒有水印,PixelDance 就能夠生成無水印的視頻。

      PixelDance 在視頻-文本數(shù)據(jù)集和圖像-文本數(shù)據(jù)集上進(jìn)行聯(lián)合訓(xùn)練。

      對于視頻數(shù)據(jù),我們從每個視頻中隨機采樣 16 個連續(xù)幀,每秒 4 幀。按照之前的工作,我們采用 LAION-400M 作為圖像-文本數(shù)據(jù)集。每 8 次訓(xùn)練迭代使用一次圖像-文本數(shù)據(jù)。

      在訓(xùn)練過程中,預(yù)訓(xùn)練的文本編碼器和 VAE 模型的權(quán)重保持凍結(jié)。我們采用 DDPM進(jìn)行訓(xùn)練,使用 1000 個時間步。圖像指令 cimage 引入了對應(yīng)于 100 個時間步的噪聲。

      我們首先在 256×256 分辨率下訓(xùn)練模型,批大小為 192,使用 32 個 A100 GPU 進(jìn)行 200K 次迭代,這些用于定量評估。該模型隨后經(jīng)過 50K 次迭代的微調(diào),分辨率更高。我們采用 ε-prediction作為訓(xùn)練目標(biāo)。

      4.2 視頻生成

      4.2.1 定量評估

      我們對 PixelDance 的零樣本視頻生成能力進(jìn)行了評估,使用了 MSR-VTT 和 UCF-101數(shù)據(jù)集,遵循之前的工作。

      MSR-VTT 是一個視頻檢索數(shù)據(jù)集,提供每個視頻的描述,而 UCF-101 是一個包含 101 個動作類別的動作識別數(shù)據(jù)集。為了與之前只基于文本提示的文本到視頻方法進(jìn)行比較,我們僅使用文本指令進(jìn)行評估。

      具體來說,我們利用現(xiàn)成的 T2I 穩(wěn)定擴散 V2.1 模型來獲取首幀指令,并結(jié)合文本和首幀指令生成視頻。按照之前的工作,我們隨機為每個示例選擇一個提示詞,共生成 2990 個視頻進(jìn)行評估,并在 MSR-VTT 數(shù)據(jù)集上報告 Fréchet 視頻距離(FVD) 和 CLIP 相似性(CLIPSIM)。

      對于 UCF-101 數(shù)據(jù)集,我們?yōu)槊總€類別構(gòu)建描述性文本提示,并生成大約 10K 個視頻,按照之前的工作,報告廣泛使用的 Inception 分?jǐn)?shù)(IS)、Fréchet Inception 距離(FID)和 FVD。FID 和 FVD 都衡量生成視頻與真實數(shù)據(jù)之間的分布距離,而 IS 評估生成視頻的質(zhì)量,CLIPSIM 估計生成視頻與對應(yīng)文本之間的相似性。

      MSR-VTT 和 UCF-101 上的零樣本評估結(jié)果分別顯示在表 1 和表 2 中。與其他文本到視頻方法相比,PixelDance 在 MSR-VTT 數(shù)據(jù)集上實現(xiàn)了最先進(jìn)的 FVD 和 CLIPSIM 分?jǐn)?shù),展示了它生成高質(zhì)量視頻并更好地與文本提示對齊的卓越能力。

      值得注意的是,PixelDance 的 FVD 分?jǐn)?shù)為 381,顯著超越了之前的最先進(jìn)方法 ModelScope 的 550。在 UCF-101 基準(zhǔn)測試中,PixelDance 在各種指標(biāo)上優(yōu)于其他模型,包括 IS、FID 和 FVD。



      表 1. 在 MSR-VTT 數(shù)據(jù)集上進(jìn)行零樣本 T2V(文本到視頻)性能比較。所有方法生成空間分辨率為 256×256 的視頻。最佳結(jié)果用粗體標(biāo)出。



      表 2. 在 UCF-101 數(shù)據(jù)集上進(jìn)行零樣本 T2V(文本到視頻)性能比較。所有方法生成空間分辨率為 256×256 的視頻。最佳結(jié)果用粗體標(biāo)出。



      圖 4. 基于文本和首幀指令生成視頻的示意圖。

      4.2.2 定性分析

      每個指令的有效性

      我們的生成視頻方法結(jié)合了三種不同的指令:文本、首幀和末幀指令。在本節(jié)中,我們將深入探討每種指令對生成視頻質(zhì)量的影響。

      在 PixelDance 中,文本指令可以是簡潔的,因為首幀指令已經(jīng)提供了對象/角色和場景,這些信息難以用簡潔和精確的文本描述。

      然而,文本提示在指定各種動作時起著至關(guān)重要的作用,包括但不限于身體動作、面部表情、物體運動和視覺效果(如圖 4 的前兩行所示)。此外,它允許通過特定的提示詞操控相機運動,例如“放大/縮小”、“旋轉(zhuǎn)”和“特寫”,如圖 4 的最后一行所示。此外,文本指令有助于保持指定關(guān)鍵元素的跨幀一致性,例如角色的詳細(xì)描述(圖 6 中的北極熊)。

      首幀指令通過提供更精細(xì)的視覺細(xì)節(jié)顯著提升了視頻質(zhì)量。此外,它是生成多個連續(xù)視頻片段的關(guān)鍵。有了文本和首幀指令,PixelDance 能夠生成比現(xiàn)有模型更具運動感的視頻(如圖 4 和圖 6 所示)。

      末幀指令描繪了視頻片段的結(jié)束狀態(tài),提供了額外的控制。這種指令對合成復(fù)雜動作非常有用,尤其在生成域外視頻時至關(guān)重要,如圖 1 和圖 5 所示的前兩個示例。此外,我們可以使用末幀指令生成自然的鏡頭轉(zhuǎn)換(圖 6 的最后一個示例)。



      圖 5. 基于文本、首幀和末幀指令生成復(fù)雜視頻的示意圖。



      圖 6. 前兩行:文本指令有助于增強關(guān)鍵元素(如北極熊的黑色帽子和紅色領(lǐng)結(jié))在不同幀之間的一致性。最后一行:自然的鏡頭過渡。

      末幀指令引導(dǎo)的強度

      為了使模型在用戶提供的草稿不夠精確時依然能夠正常工作,我們有意避免鼓勵模型完全復(fù)制末幀指令,使用了第 3 節(jié)中詳細(xì)介紹的技術(shù)。

      如圖 7 所示,如果不采用我們的技術(shù),生成的視頻會突然以給定的末幀指令為結(jié)尾。而使用了我們的方法后,生成的視頻更加流暢且在時間上連貫。



      圖 7. 示意圖展示了所提出技術(shù)(τ = 25)在避免復(fù)制最后一幀指令方面的有效性。

      域外圖像指令的泛化能力

      盡管在訓(xùn)練中缺少非現(xiàn)實風(fēng)格(例如科幻、漫畫和卡通)的視頻,PixelDance 依然表現(xiàn)出生成高質(zhì)量視頻的顯著能力,甚至在這些域外類別中。

      這種泛化能力可以歸因于我們的模型專注于學(xué)習(xí)動態(tài)并確保時間一致性,只要給定圖像指令。PixelDance 學(xué)習(xí)了真實世界中動作的基本原理,因此它能夠在不同風(fēng)格的圖像指令之間泛化。

      4.3消融實驗



      表 3 展示了 UCF-101 數(shù)據(jù)集上的消融實驗結(jié)果。

      為了評估 PixelDance 的關(guān)鍵組件,我們在 UCF-101 數(shù)據(jù)集上進(jìn)行了定量消融實驗,按照第 4.2.1 節(jié)中的零樣本評估設(shè)置進(jìn)行。

      首先,我們提供了一個 T2V 基準(zhǔn)模型(?)進(jìn)行比較,基于相同數(shù)據(jù)集進(jìn)行訓(xùn)練。我們進(jìn)一步分析了模型中使用的指令的有效性。

      由于首幀指令在生成連續(xù)視頻片段時至關(guān)重要,我們的消融實驗主要針對文本指令(?)和末幀指令(?)。

      實驗結(jié)果表明,省略任意指令都會顯著降低視頻質(zhì)量。值得注意的是,即使在評估中不包含末幀指令,訓(xùn)練時使用末幀指令的模型(?)依然優(yōu)于未使用該指令的模型(?)。

      這一觀察表明,單靠<文本,首幀>生成視頻在視頻內(nèi)容的多樣性方面面臨巨大挑戰(zhàn)。相比之下,結(jié)合所有三種指令增強了 PixelDance 模型捕捉動作動態(tài)和保持時間一致性的能力。

      4.4 長視頻生成

      4.4.1 定量評估

      如前所述,PixelDance 在訓(xùn)練中嚴(yán)格遵循首幀指令,以便生成長視頻,其中前一個片段的末幀被用作生成下一個片段的首幀指令。

      為了評估 PixelDance 的長視頻生成能力,我們按照之前的工作,在 UCF-101 數(shù)據(jù)集上生成了 512 個包含 1024 幀的視頻,遵循第 4.2.1 節(jié)中的零樣本設(shè)置。我們報告了從生成的視頻中每 16 幀提取的 FVD 結(jié)果。

      結(jié)果如圖 8 所示,PixelDance 展示了較低的 FVD 分?jǐn)?shù)和更平滑的時間變化,與自回歸模型 TATS-AR和 LVDM-AR以及分層方法 LVDM-Hi 相比,表現(xiàn)出更優(yōu)的性能。



      圖8. UCF-101數(shù)據(jù)集上長視頻生成(1024幀)的FVD比較。AR: 自回歸。Hi: 分層。使用PixelDance生成長視頻的方式是自回歸的。

      4.4.2 定性分析

      考慮到大多數(shù)現(xiàn)實世界中的長視頻(例如 YouTube 上的視頻或電影)由多個鏡頭組成,而不是單一的連續(xù)鏡頭,本節(jié)的定性分析集中在 PixelDance 生成復(fù)合鏡頭的能力。這種復(fù)合鏡頭是通過串聯(lián)多個連續(xù)視頻片段并保持時間一致性來實現(xiàn)的。

      圖 9 展示了 PixelDance 在處理復(fù)雜鏡頭組合方面的能力,這些鏡頭涉及復(fù)雜的相機運動(如極地場景中的鏡頭)、平滑的動畫效果(北極熊在熱氣球上飛越長城)和對火箭軌跡的精確控制。這些實例展示了用戶如何通過 PixelDance 的高級生成能力來構(gòu)建期望的視頻序列。

      借助 PixelDance 的高級生成功能,我們成功地合成了一段三分鐘的視頻,該視頻不僅講述了一個連貫的故事,而且角色在整個視頻中的表現(xiàn)保持一致。



      圖 9. PixelDance 處理復(fù)雜鏡頭構(gòu)圖的示意圖,包括兩個連續(xù)的視頻片段,其中第一個片段的最后一幀作為第二個片段的首幀指令。

      4.5 更多應(yīng)用

      草圖指令

      我們提出的方法可以擴展到其他類型的圖像指令,例如語義圖、圖像草圖、人體姿態(tài)和邊界框。為了證明這一點,我們以圖像草圖為例,使用圖像草圖作為末幀指令對 PixelDance 進(jìn)行微調(diào)。結(jié)果如圖 10 的前兩行所示,展示了一個簡單的草圖圖像如何引導(dǎo)視頻生成過程。



      圖10. 使用草圖圖像作為最后一幀指令生成視頻的示例(前兩個例子),以及通過PixelDance進(jìn)行零樣本視頻編輯的示例(c)

      零樣本視頻編輯

      PixelDance 能夠在無需任何訓(xùn)練的情況下進(jìn)行視頻編輯,通過將視頻編輯任務(wù)轉(zhuǎn)化為圖像編輯任務(wù)來實現(xiàn)。如圖 10 中的最后一個示例所示,通過編輯提供視頻的首幀和末幀,PixelDance 生成了與用戶期望一致且時間連貫的視頻。

      結(jié)論

      在本文中,我們提出了一種基于擴散模型的新型視頻生成方法——PixelDance,該方法結(jié)合了首幀和末幀的圖像指令以及文本指令。

      我們?yōu)檫@種方法開發(fā)了定制的訓(xùn)練和推理技術(shù),主要在 WebVid-10M 上訓(xùn)練的 PixelDance 展現(xiàn)出在合成復(fù)雜場景和動作方面的卓越能力,設(shè)定了視頻生成的新標(biāo)準(zhǔn)。

      盡管我們的方法取得了顯著成果,但仍有進(jìn)一步改進(jìn)的潛力。

      首先,模型可以從高質(zhì)量的開放域視頻數(shù)據(jù)訓(xùn)練中受益。其次,在特定領(lǐng)域內(nèi)微調(diào)模型可以進(jìn)一步增強其能力。第三,結(jié)合注釋文本來概述視頻的關(guān)鍵元素和動作,可能會提高模型與用戶指令的對齊程度。最后,PixelDance 目前只包含 15 億個參數(shù),未來可以通過進(jìn)一步擴展模型規(guī)模來提升性能。

      我們將在未來的工作中進(jìn)一步研究這些方面。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      3-2!姆巴佩獨造3球,逼近C羅紀(jì)錄,皇馬險勝弱旅,阿隆索難堪

      3-2!姆巴佩獨造3球,逼近C羅紀(jì)錄,皇馬險勝弱旅,阿隆索難堪

      我的護(hù)球最獨特
      2025-12-18 06:03:49
      廖京生不忍了!公開回應(yīng)照顧何晴10年傳聞,兩人真實關(guān)系真相大白

      廖京生不忍了!公開回應(yīng)照顧何晴10年傳聞,兩人真實關(guān)系真相大白

      叨嘮
      2025-12-17 22:20:18
      東亞錦標(biāo)賽大冷門!43歲日本籍主帥神了:率中國香港2-0韓國+領(lǐng)跑

      東亞錦標(biāo)賽大冷門!43歲日本籍主帥神了:率中國香港2-0韓國+領(lǐng)跑

      側(cè)身凌空斬
      2025-12-18 11:42:17
      曾醫(yī)生預(yù)約掛號一放出來直接秒空,給滿嘴仁義道德人一記響亮耳光

      曾醫(yī)生預(yù)約掛號一放出來直接秒空,給滿嘴仁義道德人一記響亮耳光

      沒有偏旁的常慶
      2025-12-18 10:45:09
      周柯宇嫌棄陳妍希!?

      周柯宇嫌棄陳妍希!?

      八卦瘋叔
      2025-12-18 11:02:27
      8換1?再見字母哥!湖人掏空所有,豪賭3巨頭,為詹姆斯力拼第5冠

      8換1?再見字母哥!湖人掏空所有,豪賭3巨頭,為詹姆斯力拼第5冠

      毒舌NBA
      2025-12-18 08:49:06
      湖南省綏寧縣委書記佘芝云接受紀(jì)律審查和監(jiān)察調(diào)查

      湖南省綏寧縣委書記佘芝云接受紀(jì)律審查和監(jiān)察調(diào)查

      環(huán)球網(wǎng)資訊
      2025-12-18 09:20:07
      云南體育局出手!徹查亞運三金得主王莉舉報領(lǐng)導(dǎo)!奧運冠軍也力挺

      云南體育局出手!徹查亞運三金得主王莉舉報領(lǐng)導(dǎo)!奧運冠軍也力挺

      禾寒?dāng)?/span>
      2025-12-17 18:21:23
      記者:蔣圣龍接受微創(chuàng)穿刺手術(shù),從腎臟部位抽出了6管積液

      記者:蔣圣龍接受微創(chuàng)穿刺手術(shù),從腎臟部位抽出了6管積液

      懂球帝
      2025-12-18 08:17:04
      炸裂!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      炸裂!印度首富小兒媳和大兒子被曝驚天丑聞,倆人牽手摸腰很自然

      詩意世界
      2025-12-17 10:20:57
      紅軍城之戰(zhàn)——三天,76空降師兩個營,化為烏有

      紅軍城之戰(zhàn)——三天,76空降師兩個營,化為烏有

      高博新視野
      2025-12-15 22:43:42
      東契奇沒做到!諾天王也沒做到!18歲弗拉格直接改歷史!

      東契奇沒做到!諾天王也沒做到!18歲弗拉格直接改歷史!

      巧手曉廚娘
      2025-12-17 19:32:36
      毛主席學(xué)問有多淵博?北大中文教授蘆荻做過主席侍讀,看她怎么說

      毛主席學(xué)問有多淵博?北大中文教授蘆荻做過主席侍讀,看她怎么說

      混沌錄
      2025-12-17 21:15:08
      河南女生被廣西室友催去洗澡后“發(fā)飆”:半年洗的次數(shù)超我十年

      河南女生被廣西室友催去洗澡后“發(fā)飆”:半年洗的次數(shù)超我十年

      一言二拍pro
      2025-12-18 11:22:11
      柬埔寨為啥不用中國戰(zhàn)斗機去應(yīng)戰(zhàn)泰國?不是不想,而是真的沒法用

      柬埔寨為啥不用中國戰(zhàn)斗機去應(yīng)戰(zhàn)泰國?不是不想,而是真的沒法用

      詩意世界
      2025-12-17 10:14:24
      房產(chǎn)稅的前身“房屋養(yǎng)老金”要來了,博主分析:明年的二手房慘了

      房產(chǎn)稅的前身“房屋養(yǎng)老金”要來了,博主分析:明年的二手房慘了

      三言四拍
      2025-12-17 11:43:14
      一夜之間有關(guān)大師的文章正在被全網(wǎng)刪除,答案或許就在這里!

      一夜之間有關(guān)大師的文章正在被全網(wǎng)刪除,答案或許就在這里!

      清哲木觀察
      2025-12-17 10:59:57
      3000萬中年男人硬抬,萬人嫌的國產(chǎn)鍵盤,快把Cherry干沒了?

      3000萬中年男人硬抬,萬人嫌的國產(chǎn)鍵盤,快把Cherry干沒了?

      黑馬公社
      2025-12-15 11:07:41
      32歲黃毛男子“喜當(dāng)爺”,網(wǎng)友:重孫進(jìn)廠的時候,太爺爺還沒退休

      32歲黃毛男子“喜當(dāng)爺”,網(wǎng)友:重孫進(jìn)廠的時候,太爺爺還沒退休

      妍妍教育日記
      2025-11-27 19:53:59
      沖突已10天,戰(zhàn)火蔓延至海上,洪瑪奈父子變臉,中式導(dǎo)彈被繳獲

      沖突已10天,戰(zhàn)火蔓延至海上,洪瑪奈父子變臉,中式導(dǎo)彈被繳獲

      樂天閑聊
      2025-12-18 11:36:30
      2025-12-18 13:00:53
      四木相對論 incentive-icons
      四木相對論
      嘮嘮科技,看看世界
      89文章數(shù) 1關(guān)注度
      往期回顧 全部

      科技要聞

      谷歌凌晨炸場,Pro級智商只賣“白菜價”

      頭條要聞

      牛彈琴:泰柬激烈沖突泰軍占上風(fēng) 中國又出手了

      頭條要聞

      牛彈琴:泰柬激烈沖突泰軍占上風(fēng) 中國又出手了

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      內(nèi)娛解約大戰(zhàn):鞠婧祎和絲芭,誰是狼人

      財經(jīng)要聞

      重大改革,身關(guān)14億人的政策徹底變了!

      汽車要聞

      開箱日產(chǎn)大沙發(fā) 精致辦公or躺平追劇 哪個更適配?

      態(tài)度原創(chuàng)

      藝術(shù)
      健康
      房產(chǎn)
      數(shù)碼
      家居

      藝術(shù)要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      這些新療法,讓化療不再那么痛苦

      房產(chǎn)要聞

      太強了!封關(guān)時刻,兩天砸下50億!央企綠發(fā),重倉三亞!

      數(shù)碼要聞

      華為全新MatePad 11.5宣布12月22日發(fā)布 類自然光顯示 更護(hù)眼

      家居要聞

      高端私宅 理想隱居圣地

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 天长市| 欧美寡妇xxxx黑人猛交| 免费看成人欧美片爱潮app| 柘荣县| 国产免费va| 99久久精品久久久久久婷婷| 精品国产精品三级精品av网址| 九九精品视频在线免费观看| 国产熟妇婬乱A片免费看牛牛| 中文字幕无码人妻aaa片| 无码人妻黑人中文字幕| 国产一区二区波多野结衣| 日本a在线播放| 国产精品美女久久久久av爽| 亚洲久悠悠色悠在线播放| 免费看无码网站成人A片| 国产欧美精品一区二区三区-老狼| 日本熟妇色xxxxx欧美老妇 | 顶级少妇做爰视频在线观看| 日韩亚洲国产中文字幕欧美| 亚州Av无码| 色哟哟91| 四虎永久精品免费视频| 亚洲欧美成人一区二区在线电影 | 亚洲中文字幕无码中文字 | 十九岁的日本电影免费观看| 少妇大叫太大太爽受不了| 在线无码av一区二区三区| 伊人久久人妻| 97色婷婷| 国产精品久久| 亚洲欧洲∨国产一区二区三区| 丰满少妇人妻无码| 色又黄又爽18禁免费视频| 99久久人妻无码中文字幕系列| 欧亚av| 91网站在线看| 男人j进入女人j内部免费网站| 最近中文字幕免费mv在线视频| 无码精品国产va在线观看dvd| 仙居县|