文:城主
寫在前面:今天OpenAI和微軟聯(lián)合發(fā)布了Sora的官方論文。這里和關(guān)心Sora的同學(xué)們分享本城翻譯制作的中文版(全文3.4萬字)
英文原版?zhèn)魉烷T:https://arxiv.org/pdf/2402.17177v1.pdf
Sora:大型視覺模型的背景、技術(shù)、局限性和機遇綜述
Yixin Liu1* Kai Zhang1* Yuan Li1* Zhiling Yan1* Chujie Gao1*
Ruoxi Chen1* Zhengqing Yuan1* Yue Huang1Hanchi Sun1
Jianfeng Gao2 Lifang He1 Lichao Sun1?
1利哈伊大學(xué)2微軟研究院
摘要
Sora是一款由OpenAI在2024年2月發(fā)布的文本到視頻生成的AI模型。該模型被訓(xùn)練用于根據(jù)文本指令生成現(xiàn)實或想象場景的視頻,并展現(xiàn)出模擬物理世界的潛力。基于公開的技術(shù)報告和逆向工程,本文對該模型的背景、相關(guān)技術(shù)、應(yīng)用、現(xiàn)存挑戰(zhàn)和文本到視頻AI模型的未來方向進行了全面的綜述。我們首先追溯Sora的發(fā)展,并探究用于構(gòu)建這一“世界模擬器”的底層技術(shù)。然后,我們詳細(xì)描述了Sora在從電影制作和教育到市場營銷等多個行業(yè)中的應(yīng)用和潛在影響。我們討論了需要解決的主要挑戰(zhàn)和局限性,以便廣泛部署Sora,例如確保安全且無偏見的視頻生成。最后,我們討論了Sora和一般視頻生成模型的未來發(fā)展,以及該領(lǐng)域的進步如何能夠?qū)崿F(xiàn)新的人工智能交互方式,提高視頻生成的生產(chǎn)力和創(chuàng)造力。
![]()
圖1:Sora:AI驅(qū)動視覺生成的突破。
*平等貢獻。順序是通過擲骰子確定的。Chujie, Ruoxi, Yuan, Yue, 和 Zhengqing 是在利哈伊大學(xué)LAIR實驗室的訪問學(xué)生。GitHub鏈接為 https://github.com/lichao-sun/SoraReview
?Lichao Sun 是共同通訊作者:lis221@lehigh.edu
目錄
1 引言
2 背景
2.1 歷史
2.2 高級概念
3 技術(shù)
3.1 Sora概述
3.2 數(shù)據(jù)預(yù)處理
3.2.1 變量持續(xù)時間、分辨率、寬高比
3.2.2 統(tǒng)一視覺表示
3.2.3 視頻壓縮網(wǎng)絡(luò)
3.2.4 時空潛在補丁
3.2.5 討論
3.2.6 擴散變換器
3.3 建模
3.3.1 討論
3.4 遵循語言指令
3.4.1 大型語言模型
3.4.2 文本到圖像
3.4.3 文本到視頻
3.4.4 討論
3.5 提示工程
3.5.1 文本提示
3.5.2 圖像提示
3.5.3 視頻提示
3.5.4 討論
3.6 可信度
3.6.1 安全問題
3.6.2 其他利用
3.6.3 對齊
3.6.4 討論
4 應(yīng)用
4.1 電影
4.2 教育
4.3 游戲
4.4 醫(yī)療保健
4.5 機器人技術(shù)
5 討論
5.1 局限性
5.2 機遇
6 結(jié)論
A 相關(guān)工作
1 引言
自從 2022 年 11 月 ChatGPT 發(fā)布以來,人工智能技術(shù)的出現(xiàn)標(biāo)志著一個重大的轉(zhuǎn)變,重塑了交互方式,并深入融入日常生活和行業(yè)的各個方面[1, 2]。基于這一勢頭,OpenAI 在 2024 年 2 月發(fā)布了 Sora,一個文本到視頻的生成式 AI 模型,能夠根據(jù)文本提示生成現(xiàn)實或想象場景的視頻。與之前的視頻生成模型相比,Sora 的特點是能夠在遵循用戶文本指令的同時,生成長達(dá) 1 分鐘的高質(zhì)量視頻[3]。Sora 的進步體現(xiàn)了長期以來人工智能研究任務(wù)的實質(zhì),即賦予 AI 系統(tǒng)(或 AI 代理)理解和與運動中的物理世界互動的能力。這涉及到開發(fā)不僅能解釋復(fù)雜用戶指令,而且能將這種理解應(yīng)用于通過動態(tài)和富有上下文的模擬解決現(xiàn)實世界問題的 AI 模型。
![]()
圖 2:Sora 在文本到視頻生成中的示例。文本指令被給予 OpenAI Sora 模型,它根據(jù)指令生成三個視頻。
Sora 展示了準(zhǔn)確解釋和執(zhí)行復(fù)雜人類指令的顯著能力,如圖 2 所示。該模型能生成包含多個執(zhí)行特定動作的角色以及復(fù)雜背景的詳細(xì)場景。研究人員將 Sora 的熟練程度歸因于不僅處理用戶生成的文本提示,而且還能辨別場景內(nèi)元素之間復(fù)雜的相互作用。Sora 最引人注目的方面之一是其生成長達(dá)一分鐘的視頻的能力,同時保持高視覺質(zhì)量和引人入勝的視覺連貫性。與只能生成短視頻片段的早期模型不同,Sora 的一分鐘長視頻創(chuàng)作具有進展感和從第一幀到最后一幀的視覺一致性之旅。此外,Sora 的進步在于其生成具有細(xì)膩運動和互動描繪的擴展視頻序列的能力,克服了早期視頻生成模型所特有的短片段和簡單視覺呈現(xiàn)的限制。這一能力代表了 AI 驅(qū)動創(chuàng)意工具向前的一大步,允許用戶將文本敘述轉(zhuǎn)換為豐富的視覺故事。總的來說,這些進步展示了 Sora 作為世界模擬器的潛力,為描繪場景的物理和上下文動態(tài)提供了細(xì)膩的見解。[3]。
技術(shù)。Sora 的核心是一個預(yù)訓(xùn)練的擴散變換器[4]。變換器模型已被證明對許多自然語言任務(wù)具有可擴展性和有效性。與 GPT-4 等強大的大型語言模型(LLMs)類似,Sora 能夠解析文本并理解復(fù)雜的用戶指令。為了使視頻生成在計算上高效,Sora 使用時空潛在補丁作為其構(gòu)建塊。具體來說,Sora 將原始輸入視頻壓縮成一個時空潛在表示。然后,從壓縮視頻中提取一系列時空潛在補丁,以封裝短時間間隔內(nèi)的視覺外觀和運動動態(tài)。這些補丁,類似于語言模型中的單詞標(biāo)記,為 Sora 提供了用于構(gòu)建視頻的詳細(xì)視覺短語。Sora 的文本到視頻生成是通過擴散變換器模型執(zhí)行的。從一個充滿視覺噪聲的幀開始,模型迭代地去除噪聲并根據(jù)提供的文本提示引入特定細(xì)節(jié)。本質(zhì)上,生成的視頻通過多步精煉過程出現(xiàn),每一步都使視頻更加符合期望的內(nèi)容和質(zhì)量。
Sora 的亮點。Sora 的能力在各個方面都有深遠(yuǎn)的影響:
? 提高模擬能力:將 Sora 進行大規(guī)模訓(xùn)練歸功于其模擬物理世界各個方面的顯著能力。盡管缺乏顯式的 3D 建模,Sora 展現(xiàn)了具有動態(tài)相機運動和長距離連貫性的 3D 一致性,包括對象持久性和模擬與世界的簡單互動。此外,Sora 有趣地模擬了像 Minecraft 這樣的數(shù)字環(huán)境,由基本策略控制,同時保持視覺保真度。這些涌現(xiàn)能力表明,擴大視頻模型的規(guī)模在創(chuàng)建模擬物理和數(shù)字世界復(fù)雜性的 AI 模型方面是有效的。
? 促進創(chuàng)造力:想象通過文本概述一個概念,無論是一個簡單的對象還是一個完整的場景,并在幾秒鐘內(nèi)看到一個現(xiàn)實的或高度風(fēng)格化的視頻被渲染出來。Sora 使設(shè)計過程加速,加快了探索和精煉想法的速度,從而顯著提高了藝術(shù)家、電影制作人和設(shè)計師的創(chuàng)造力。
? 推動教育創(chuàng)新:視覺輔助工具長期以來一直是理解教育中重要概念的核心。有了 Sora,教育工作者可以輕松地將課堂計劃從文本轉(zhuǎn)換為視頻,以吸引學(xué)生的注意力并提高學(xué)習(xí)效率。從科學(xué)模擬到歷史劇情再現(xiàn),可能性是無限的。
? 增強可訪問性:在視覺領(lǐng)域增強可訪問性至關(guān)重要。Sora 通過將文本描述轉(zhuǎn)換為視覺內(nèi)容提供了一種創(chuàng)新解決方案。這一能力使所有人,包括視覺障礙者,都能積極參與內(nèi)容創(chuàng)作并以更有效的方式與他人互動。因此,它為每個人提供了通過視頻表達(dá)自己想法的機會,創(chuàng)造了一個更具包容性的環(huán)境。
? 培育新興應(yīng)用:Sora 的應(yīng)用范圍廣泛。例如,營銷人員可能使用它創(chuàng)建針對特定受眾描述的動態(tài)廣告。游戲開發(fā)者可能使用它從玩家敘述中生成定制化的視覺效果甚至角色動作。
限制和機遇。盡管 Sora 的成就突出了 AI 方面的重大進步,但仍存在挑戰(zhàn)。描繪復(fù)雜動作或捕捉微妙的面部表情是模型可以增強的領(lǐng)域之一。此外,如何減輕生成內(nèi)容中的偏見并防止有害視覺輸出等倫理考慮,強調(diào)了開發(fā)者、研究人員和更廣泛社區(qū)負(fù)責(zé)任使用的重要性。確保 Sora 的輸出始終安全且無偏見是一個主要挑戰(zhàn)。視頻生成領(lǐng)域正在迅速發(fā)展,學(xué)術(shù)和行業(yè)研究團隊正在不懈努力。競爭性文本到視頻模型的出現(xiàn)表明,Sora 可能很快就會成為一個動態(tài)生態(tài)系統(tǒng)的一部分。這種協(xié)作和競爭環(huán)境促進了創(chuàng)新,導(dǎo)致視頻質(zhì)量的提高和新應(yīng)用的出現(xiàn),這些應(yīng)用有助于提高工人的生產(chǎn)力并使人們的生活更加有趣。
我們的貢獻。基于已發(fā)布的技術(shù)報告和我們的逆向工程,本文提出了 Sora 的背景、相關(guān)技術(shù)、新興應(yīng)用、當(dāng)前限制和未來機遇的首次全面審查。
2 背景2.1 歷史
在計算機視覺(CV)領(lǐng)域,在深度學(xué)習(xí)革命之前,傳統(tǒng)的圖像生成技術(shù)依賴于諸如紋理合成[5]和紋理映射[6]等方法,這些方法基于手工制作的特征。然而,這些方法在生成復(fù)雜和生動的圖像方面的能力是有限的。
![]()
圖3:視覺領(lǐng)域生成式AI的歷史。
生成對抗網(wǎng)絡(luò)(GANs)[7]和變分自編碼器(VAEs)[8]的引入標(biāo)志著一個重要的轉(zhuǎn)折點,因為它在各種應(yīng)用中展現(xiàn)出了非凡的能力。隨后的發(fā)展,如流模型[9]和擴散模型[10],進一步提高了圖像生成的細(xì)節(jié)和質(zhì)量。最近在人工智能生成內(nèi)容(AIGC)技術(shù)方面的進展,使內(nèi)容創(chuàng)作民主化,使用戶能夠通過簡單的文本指令生成所需內(nèi)容[11]。
在過去的十年中,生成式計算機視覺(CV)模型的發(fā)展采取了多種路徑,如圖3所示。這一格局在成功應(yīng)用變壓器架構(gòu)[12]于自然語言處理(NLP)后開始顯著轉(zhuǎn)變,如BERT[13]和GPT[14]所示。在CV中,研究人員通過將變壓器架構(gòu)與視覺組件相結(jié)合,將這一概念推向更遠(yuǎn),使其能夠應(yīng)用于下游CV任務(wù),如視覺變壓器(ViT)[15]和Swin變壓器[16]。與變壓器的成功平行,擴散模型在圖像和視頻生成領(lǐng)域也取得了重大進展[10]。擴散模型提供了一個數(shù)學(xué)上合理的框架,通過U-Nets[17]將噪聲轉(zhuǎn)換成圖像,其中U-Nets通過學(xué)習(xí)在每一步預(yù)測和減輕噪聲來促進這一過程。
自2021年以來,AI領(lǐng)域的一個重要焦點是能夠解釋人類指令的生成式語言和視覺模型,即多模態(tài)模型。例如,CLIP[18]是一種開創(chuàng)性的視覺-語言模型,它將變壓器架構(gòu)與視覺元素相結(jié)合,使其能夠在大量的文本和圖像數(shù)據(jù)集上進行訓(xùn)練。通過從一開始就整合視覺和語言知識,CLIP可以在多模態(tài)生成框架中充當(dāng)圖像編碼器。另一個值得注意的例子是Stable Diffusion[19],這是一個多才多藝的文本到圖像AI模型,以其適應(yīng)性和易用性而受到贊譽。它采用變壓器架構(gòu)和潛在擴散技術(shù)來解碼文本輸入,并生成各種風(fēng)格的圖像,進一步展示了多模態(tài)AI的進步。
隨著2022年11月ChatGPT的發(fā)布,我們在2023年見證了商業(yè)文本到圖像產(chǎn)品的出現(xiàn),如Stable Diffusion[19]、Midjourney[20]、DALL-E 3[21]。這些工具使用戶能夠用簡單的文本提示生成高分辨率和高質(zhì)量的新圖像,展示了AI在創(chuàng)意圖像生成方面的潛力。然而,從文本到圖像過渡到文本到視頻由于視頻的時間復(fù)雜性而具有挑戰(zhàn)性。盡管工業(yè)界和學(xué)術(shù)界做出了許多努力,但大多數(shù)現(xiàn)有的視頻生成工具,如Pika[22]和Gen-2[23],僅限于生成幾秒鐘的短視頻片段。在這種背景下,Sora代表了一個重大突破,類似于ChatGPT在NLP領(lǐng)域的影響。Sora是第一個能夠根據(jù)人類指令生成長達(dá)一分鐘的視頻的模型,標(biāo)志著對生成式AI研究和開發(fā)產(chǎn)生深遠(yuǎn)影響的里程碑。為了便于輕松訪問最新的視覺生成模型進展,最新的作品已被匯編并提供在附錄和我們的GitHub中。
2.2 高級概念
視覺模型的規(guī)模化定律。有了LLMs的規(guī)模化定律,自然會問視覺模型的發(fā)展是否遵循類似的規(guī)模化定律。最近,Zhai等人[24]展示了,有足夠訓(xùn)練數(shù)據(jù)的ViT模型的性能-計算前沿大致遵循(飽和)冪律。繼他們之后,谷歌研究[25]提出了一種高效穩(wěn)定訓(xùn)練22B參數(shù)ViT的方法。結(jié)果顯示,使用凍結(jié)模型產(chǎn)生嵌入,然后在頂部訓(xùn)練薄層可以實現(xiàn)出色的性能。Sora作為一個大型視覺模型(LVM),符合這些規(guī)模化原則,揭示了文本到視頻生成中的幾種新興能力。這一重大進展強調(diào)了LVMs實現(xiàn)類似LLMs所見進步的潛力。
新興能力。LLMs中的新興能力是在某些規(guī)模上——通常與模型參數(shù)的大小有關(guān)——表現(xiàn)出的復(fù)雜行為或功能,這些行為或功能并未被開發(fā)者明確編程或預(yù)期。這些能力被稱為“新興”,因為它們源于模型在多樣化數(shù)據(jù)集上的全面訓(xùn)練,以及其龐大的參數(shù)數(shù)量。這種組合使模型能夠形成聯(lián)系并做出超越簡單模式識別或死記硬背的推斷。通常,這些能力的出現(xiàn)不能通過從小規(guī)模模型的性能外推來直接預(yù)測。雖然許多LLMs,如ChatGPT和GPT-4,展示了新興能力,但直到Sora的出現(xiàn),展示類似能力的視覺模型還很少。根據(jù)Sora的技術(shù)報告,它是第一個展示確認(rèn)新興能力的視覺模型,標(biāo)志著計算機視覺領(lǐng)域的一個重要里程碑。
除了其新興能力,Sora還展示了其他顯著能力,包括遵循指令、視覺提示工程和視頻理解。Sora的這些功能方面代表了視覺領(lǐng)域的重大進步,并將在后續(xù)部分進行探討和討論。
3 技術(shù)3.1 Sora概述
從核心本質(zhì)上看,Sora是一個具有靈活采樣維度的擴散變壓器[4],如圖4所示。它有三個部分:(1)時空壓縮器首先將原始視頻映射到潛在空間。(2)ViT然后處理標(biāo)記化的潛在表示,并輸出去噪的潛在表示。(3)類似CLIP[26]的條件機制接收LLM增強的用戶指令和可能的視覺提示,以指導(dǎo)擴散模型生成風(fēng)格化或主題化的視頻。經(jīng)過多次去噪
![]()
圖4:逆向工程:Sora框架概覽
在這一步驟中,生成視頻的潛在表示被獲得,然后通過相應(yīng)的解碼器映射回像素空間。在本節(jié)中,我們的目標(biāo)是對Sora使用的技術(shù)進行逆向工程,并討論廣泛的相關(guān)工作。
3.2 數(shù)據(jù)預(yù)處理3.2.1 變化的持續(xù)時間、分辨率、寬高比
Sora的一個區(qū)別特征是其能夠在原始尺寸上訓(xùn)練、理解和生成視頻及圖像,如圖5所示。傳統(tǒng)方法通常會調(diào)整視頻的大小、裁剪或調(diào)整寬高比,以適應(yīng)一個統(tǒng)一標(biāo)準(zhǔn)——通常是以固定低分辨率的正方形幀的短片段[27][28][29]。這些樣本通常在更寬的時間跨度上生成,并依賴于分別訓(xùn)練的幀插入和分辨率渲染模型作為最后一步,這在視頻中造成了不一致性。利用擴散變換器架構(gòu)[4](見3.2.4節(jié)),Sora是第一個擁抱視覺數(shù)據(jù)多樣性的模型,并且可以在從寬屏1920x1080p視頻到豎屏1080x1920p視頻以及之間的任何格式上采樣,而不會損害它們的原始尺寸。
![]()
圖5:Sora可以生成從1920x1080p到1080x1920p及其間任何尺寸或分辨率的圖像。
![]()
圖6:Sora(右)與一個修改版的模型(左)之間的比較,后者將視頻裁剪成正方形——這是模型訓(xùn)練中的一種常見做法——凸顯了優(yōu)勢。
在原始尺寸上訓(xùn)練數(shù)據(jù)顯著改善了生成視頻的構(gòu)圖和框架。經(jīng)驗發(fā)現(xiàn),通過保持原始寬高比,Sora實現(xiàn)了更自然和連貫的視覺敘事。如圖6所示,Sora與一個在統(tǒng)一裁剪的正方形視頻上訓(xùn)練的模型之間的比較展示了明顯的優(yōu)勢。Sora生成的視頻展示了更好的框架,確保場景中完全捕捉到了主體,與正方形裁剪導(dǎo)致的有時被截斷的視圖相反。
這種對原始視頻和圖像特征的細(xì)膩理解和保留標(biāo)志著生成模型領(lǐng)域的一個重大進步。Sora的方法不僅展示了生成更真實和吸引人視頻的潛力,而且還強調(diào)了在訓(xùn)練數(shù)據(jù)中的多樣性對于在生成AI中實現(xiàn)高質(zhì)量結(jié)果的重要性。Sora的訓(xùn)練方法與Richard Sutton的《苦澀的教訓(xùn)》[30]的核心原則一致,該原則指出,利用計算而不是人為設(shè)計的特征,可以導(dǎo)致更有效和靈活的AI系統(tǒng)。正如擴散變換器的原始設(shè)計尋求簡單性和可擴展性[31],Sora在原始尺寸上訓(xùn)練數(shù)據(jù)的策略避免了傳統(tǒng)AI對人為抽象的依賴,而是選擇了一種隨著計算能力擴展的通用方法。在本節(jié)的其余部分,我們嘗試對Sora的架構(gòu)設(shè)計進行逆向工程,并討論實現(xiàn)這一驚人特性的相關(guān)技術(shù)。
3.2.2 統(tǒng)一的視覺表示
為了有效處理包括具有不同持續(xù)時間、分辨率和寬高比的圖像和視頻在內(nèi)的多樣化視覺輸入,一個關(guān)鍵方法涉及將所有形式的視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一表示,這有助于生成模型的大規(guī)模訓(xùn)練。具體來說,Sora通過最初將視頻壓縮到較低維度的潛在空間,然后將表示分解為時空補丁來對視頻進行分塊。然而,Sora的技術(shù)報告[3]僅提出了一個高層次的想法,使得研究社區(qū)難以復(fù)制。在本節(jié)中,我們嘗試逆向工程潛在的成分和技術(shù)路徑。此外,我們將討論可行的替代方案,這些方案可以復(fù)制Sora的功能,借鑒現(xiàn)有文獻中的見解。
![]()
圖7:在高層次上,Sora通過首先將視頻壓縮到較低維度的潛在空間,然后將表示分解為時空補丁來對視頻進行分塊。來源:Sora的技術(shù)報告[3]。
3.2.3 視頻壓縮網(wǎng)絡(luò)
![]()
圖8:ViT將圖像分割成固定大小的補丁,線性嵌入每個補丁,添加位置嵌入,然后將生成的向量序列輸入標(biāo)準(zhǔn)的Transformer編碼器。
Sora的視頻壓縮網(wǎng)絡(luò)(或視覺編碼器)旨在降低輸入數(shù)據(jù)的維度,尤其是原始視頻,并輸出一個在時間和空間上都被壓縮的潛在表示,如圖7所示。根據(jù)技術(shù)報告中的參考文獻,壓縮網(wǎng)絡(luò)是基于VAE或向量量化-VAE(VQ-VAE)[32]構(gòu)建的。然而,如果不使用調(diào)整大小和裁剪,如技術(shù)報告中所述,VAE難以將任何大小的視覺數(shù)據(jù)映射到統(tǒng)一且固定大小的潛在空間。我們總結(jié)了兩種不同的實現(xiàn)來解決這個問題:空間補丁壓縮。
這涉及將視頻幀轉(zhuǎn)換為固定大小的補丁,類似于ViT[15]和MAE[33](見圖8)中使用的方法,然后將它們編碼到潛在空間中。這種方法特別適用于適應(yīng)不同分辨率和寬高比的視頻,因為它通過處理個別補丁來編碼整個幀。隨后,這些空間標(biāo)記按時間順序組織,創(chuàng)建一個空間-時間潛在表示。這種技術(shù)強調(diào)了幾個關(guān)鍵考慮因素:時間維度的可變性——鑒于訓(xùn)練視頻的持續(xù)時間不同,時間維度潛在空間表示的維度不能固定。為了解決這個問題,可以選擇采樣特定數(shù)量的幀(對于較短的視頻可能需要填充或時間插值[34]),或者為后續(xù)處理定義一個通用的擴展(超長)輸入長度(更多細(xì)節(jié)在第3.2.4節(jié)中描述);使用預(yù)訓(xùn)練的視覺編碼器——為了處理高分辨率視頻,利用現(xiàn)有的預(yù)訓(xùn)練視覺編碼器,如Stable Diffusion[19]中的VAE編碼器,對大多數(shù)研究者來說是可取的,而Sora的團隊則預(yù)期將從頭開始通過訓(xùn)練潛在擴散模型[19, 35, 36]的方式訓(xùn)練自己的壓縮網(wǎng)絡(luò)及解碼器(視頻生成器)。這些編碼器可以高效壓縮大尺寸的圖塊(例如,256×256),便于大規(guī)模數(shù)據(jù)的管理;時間信息聚合——由于這種方法主要關(guān)注空間圖塊壓縮,因此需要一個額外的機制在模型內(nèi)聚合時間信息。這一方面對于捕捉隨時間動態(tài)變化至關(guān)重要,并在后續(xù)章節(jié)中進一步闡述(詳見第3.2.6節(jié)和圖14)。
空間-時間-圖塊壓縮。這項技術(shù)旨在封裝視頻數(shù)據(jù)的空間和時間維度,提供全面的表示。這項技術(shù)不僅僅分析靜態(tài)幀,還考慮幀間的運動和變化,從而捕捉視頻的動態(tài)方面。使用3D卷積作為實現(xiàn)這種整合的直接和強大方法[37]。圖形說明和與純空間圖塊化的比較在圖9中展示。與空間圖塊壓縮類似,采用空間-時間圖塊壓縮并預(yù)設(shè)卷積核參數(shù)——如固定的核大小、步長和輸出通道——會由于視頻輸入的不同特性導(dǎo)致潛在空間維度的變化。這種變異主要由處理的視頻的不同持續(xù)時間和分辨率驅(qū)動。為了緩解這一挑戰(zhàn),采用空間圖塊化的方法同樣適用且有效。
![]()
圖9:視頻壓縮的不同圖塊化比較。來源:ViViT[38]。(左)空間圖塊化僅采樣nt幀,并獨立嵌入每個2D幀,遵循ViT。(右)空間-時間圖塊化提取并線性嵌入跨越時空輸入體積的非重疊或重疊管狀體。
總結(jié)來說,我們基于VAE或其變體如VQ-VQE對兩種圖塊級壓縮方法進行了逆向工程,因為對圖塊的操作在處理不同類型的視頻時更加靈活。由于Sora旨在生成高保真視頻,因此使用大圖塊尺寸或核大小進行高效壓縮。這里,我們期望使用固定大小的圖塊,以簡化、可擴展性和訓(xùn)練穩(wěn)定性。但也可以使用不同大小的圖塊[39],使整個幀或視頻在潛在空間的維度一致。然而,這可能導(dǎo)致無效的位置編碼,并為解碼器生成不同大小潛在圖塊的視頻帶來挑戰(zhàn)。
![]()
圖10:圖塊打包允許保持縱橫比的可變分辨率圖像或視頻。6令牌丟棄在某種程度上可以被視為數(shù)據(jù)增強。來源:NaViT[40]。
3.2.4 時空潛在圖塊
在壓縮網(wǎng)絡(luò)部分仍有一個關(guān)鍵問題:如何處理潛在空間維度的變化性(即,來自不同視頻類型的潛在特征塊或圖塊的數(shù)量)在將圖塊輸入到擴散變換器的輸入層之前。這里,我們討論了幾種解決方案。基于Sora的技術(shù)報告和相應(yīng)的參考文獻,圖塊打包(PNP)[40]可能是解決方案。PNP將來自不同圖像的多個圖塊打包成單個序列,如圖10所示。這種方法受到自然語言處理中示例打包的啟發(fā)[41],通過丟棄令牌來適應(yīng)可變長度輸入的高效訓(xùn)練。這里需要在壓縮網(wǎng)絡(luò)中完成圖塊化和令牌嵌入步驟,但Sora可能會進一步將潛在圖塊化為變換器令牌,如擴散變換器所做[4]。無論是否進行第二輪圖塊化,我們需要解決兩個問題,如何以緊湊的方式打包這些令牌以及如何控制應(yīng)該丟棄哪些令牌。對于第一個問題,使用了一種簡單的貪婪方法,將示例添加到有足夠剩余空間的第一個序列中。一旦沒有更多示例可以適配,序列就用填充令牌填充,產(chǎn)生批處理操作所需的固定序列長度。這種簡單的打包算法可能導(dǎo)致顯著的填充,這取決于輸入長度的分布。另一方面,我們可以通過調(diào)整序列長度和限制填充來控制我們采樣的分辨率和幀,以確保高效打包。對于第二個問題,一種直觀的方法是丟棄相似的令牌[42, 43, 33, 44],或者像PNP那樣應(yīng)用丟棄率調(diào)度器。然而,值得注意的是,3D一致性是Sora的一個好特性。在訓(xùn)練期間丟棄令牌可能會忽略細(xì)微的細(xì)節(jié)。因此,我們相信OpenAI可能會使用超長的上下文窗口并打包所有視頻的令牌,盡管這樣做在計算上是昂貴的,例如,多頭注意力[45, 46]操作在序列長度上展示出二次成本。具體來說,來自長時視頻的時空潛在圖塊可以打包成一個序列,而來自幾個短時視頻的圖塊則在另一個序列中連接。
3.2.5 討論
我們討論了Sora可能使用的兩種數(shù)據(jù)預(yù)處理的技術(shù)解決方案。這兩種解決方案都是在圖塊級別執(zhí)行的,因為它們對于建模具有靈活性和可擴展性的特點。與之前將視頻調(diào)整大小、裁剪或修剪到標(biāo)準(zhǔn)大小的方法不同,Sora在其原生大小上進行訓(xùn)練。盡管有幾個好處(詳見第3.2.1節(jié)分析),但它帶來了一些技術(shù)挑戰(zhàn),其中最顯著的是,神經(jīng)網(wǎng)絡(luò)不能固有地處理具有可變持續(xù)時間、分辨率和縱橫比的視覺數(shù)據(jù)。通過逆向工程,我們相信Sora首先將視覺圖塊壓縮成低維潛在表示,并將這樣的潛在圖塊或進一步圖塊化的潛在圖塊排列成序列,然后將噪聲注入這些潛在圖塊中。在將它們輸入擴散變換器的輸入層之前。Sora采用了時空分塊化,因為它易于實現(xiàn),并且可以通過高信息密度的令牌有效減少上下文長度,并降低后續(xù)對時間信息建模的復(fù)雜性。對于研究社區(qū),我們推薦使用成本效益高的替代解決方案進行視頻壓縮和表示,包括利用預(yù)訓(xùn)練的檢查點(例如,壓縮網(wǎng)絡(luò))[47],縮短上下文窗口,使用輕量級建模機制如(分組的)多查詢注意力[48, 49]或高效的架構(gòu)(例如,Mamba [50]),必要時對數(shù)據(jù)進行下采樣和丟棄令牌。視頻建模的效果與效率之間的權(quán)衡是一個重要的研究課題。
3.2.6 擴散變換器
![]()
圖11:DiT(左)和U-ViT(右)的整體框架。
3.3 建模
圖像擴散變換器。傳統(tǒng)的擴散模型[51, 52, 53]主要利用包括下采樣和上采樣塊的卷積U-Net作為去噪網(wǎng)絡(luò)骨干。然而,最近的研究表明,U-Net架構(gòu)對擴散模型的良好性能并不是關(guān)鍵。通過整合更靈活的變換器架構(gòu),基于變換器的擴散模型可以使用更多的訓(xùn)練數(shù)據(jù)和更大的模型參數(shù)。沿著這一思路,DiT[4]和U-ViT[54]是首批采用視覺變換器的潛在擴散模型之一。如同ViT,DiT采用了多頭自注意力層和逐點前饋網(wǎng)絡(luò),其中穿插了一些層歸一化和縮放層。此外,如圖11所示,DiT通過自適應(yīng)層歸一化(AdaLN)加上一個額外的MLP層進行條件化,該層用于零初始化,它將每個殘差塊初始化為恒等函數(shù),從而極大地穩(wěn)定了訓(xùn)練過程。DiT的可擴展性和靈活性得到了實證驗證。DiT成為擴散模型的新骨干。在U-ViT中,如圖11所示,它們將所有輸入,包括時間、條件和噪聲圖像塊,視為令牌,并在淺層和深層變換器層之間提出長跳躍連接。結(jié)果表明,基于CNN的U-Net中的下采樣和上采樣操作并不總是必要的,U-ViT在圖像和文本到圖像生成中取得了破紀(jì)錄的FID分?jǐn)?shù)。
像掩碼自編碼器(MAE)[33]一樣,掩碼擴散變換器(MDT)[55]將掩碼潛在建模整合到擴散過程中,以顯式增強圖像合成中對象語義部分之間的上下文關(guān)系學(xué)習(xí)。具體來說,如圖12所示,MDT在訓(xùn)練期間使用側(cè)插值來進行額外的掩碼令牌重建任務(wù),以提高訓(xùn)練效率并學(xué)習(xí)強大的上下文感知位置嵌入以用于推理。與DiT[4]相比,MDT實現(xiàn)了更好的性能和更快的學(xué)習(xí)速度。Hatamizadeh等人[56]介紹了擴散視覺變換器(DiffiT),它使用了一個時間依賴的自注意力(TMSA)模塊來對采樣時間步驟上的動態(tài)去噪行為進行建模,而不是使用AdaLN(即,移位和縮放)進行時間條件建模。此外,DiffiT使用了兩種混合的分層架構(gòu),分別用于像素空間和潛在空間中的高效去噪,并在各種生成任務(wù)中實現(xiàn)了新的最佳結(jié)果。總的來說,這些研究在使用視覺變換器進行圖像潛在擴散方面展示了有希望的結(jié)果,為未來其他模態(tài)的研究鋪平了道路。
![]()
圖12:掩碼擴散變換器(MDT)的整體框架。實線/虛線表示每個時間步驟的訓(xùn)練/推理過程。掩碼和側(cè)插值僅在訓(xùn)練期間使用,在推理期間被移除。
視頻擴散變換器。在文本到圖像(T2I)擴散模型的基礎(chǔ)工作之上,最近的研究集中在實現(xiàn)擴散變換器用于文本到視頻(T2V)生成任務(wù)的潛力。由于視頻的時間性質(zhì),將DiTs應(yīng)用于視頻領(lǐng)域的關(guān)鍵挑戰(zhàn)是:i) 如何在潛在空間中對視頻進行空間和時間上的壓縮以實現(xiàn)高效去噪;ii) 如何將壓縮的潛在表示轉(zhuǎn)換為塊并將它們輸入變換器;以及iii) 如何處理長期的時間和空間依賴性并確保內(nèi)容一致性。請參閱第3.2.3節(jié)以了解第一個挑戰(zhàn)。在本節(jié)中,我們將討論旨在在空間和時間壓縮的潛在空間中操作的基于變換器的去噪網(wǎng)絡(luò)架構(gòu),我們將詳細(xì)回顧OpenAI Sora技術(shù)報告參考列表中描述的兩項重要工作(Imagen Video [29]和Video LDM [36])。
![]()
(a)左:級聯(lián)擴散模型。級聯(lián)采樣管道的基礎(chǔ)擴散模型和六個向上采樣模型,操作的空間和時間。文本嵌入被注入到所有的擴散模型。
(b)右:視頻U-Net時空可分離塊。空間操作進行獨立的幀與共享的參數(shù),而時間的操作混合激活幀。時間注意僅用于在基本模型的記憶效率。
圖13:Imagen Video的整體框架。來源:Imagen Video [29]。
基礎(chǔ)模型用于低分辨率視頻生成,然后通過級聯(lián)擴散模型進行細(xì)化以提高分辨率。基礎(chǔ)視頻和超分辨率模型采用3D U-Net架構(gòu),以時空可分離的方式使用。該架構(gòu)將時間注意力和卷積層與空間對應(yīng)物結(jié)合起來,以有效捕獲幀間依賴性。它采用v-預(yù)測參數(shù)化以確保數(shù)值穩(wěn)定性,并使用條件增強來促進模型間的并行訓(xùn)練。該過程涉及對圖像和視頻的聯(lián)合訓(xùn)練,將每個圖像視為一個幀以利用更大的數(shù)據(jù)集,并使用無分類器引導(dǎo)[57]來增強提示的忠實度。應(yīng)用漸進式蒸餾[58]來簡化采樣過程,顯著減少計算負(fù)載同時保持感知質(zhì)量。結(jié)合這些方法和技術(shù),Imagen Video不僅能生成高保真度的視頻,還能展現(xiàn)出卓越的可控性,如其生成多樣化視頻、文字動畫和各種藝術(shù)風(fēng)格內(nèi)容的能力所示。
![]()
14(a)額外的時間層。通過插入學(xué)習(xí)將幀對齊成時間一致序列的時間層,將預(yù)訓(xùn)練的LDM轉(zhuǎn)變?yōu)橐曨l生成器。在優(yōu)化過程中,圖像骨干θ保持固定,只有時間層li的參數(shù)?接受訓(xùn)練。
![]()
14(b)視頻LDM堆棧。視頻LDM首先生成稀疏關(guān)鍵幀,然后使用相同的潛在擴散模型進行兩次時間插值以實現(xiàn)高幀率。最后,將潛在視頻解碼到像素空間,并可選地應(yīng)用視頻上采樣器擴散模型。
圖14:視頻LDM的整體框架。來源:視頻LDM [36]。
Blattmann等人[36]提出將2D潛在擴散模型轉(zhuǎn)變?yōu)橐曨l潛在擴散模型(視頻LDM)。他們通過在U-Net骨干和VAE解碼器的現(xiàn)有空間層之間添加一些事后時間層來實現(xiàn)這一點,這些時間層學(xué)習(xí)對齊單個幀。這些時間層在編碼的視頻數(shù)據(jù)上訓(xùn)練,而空間層保持固定,使模型能夠利用大型圖像數(shù)據(jù)集進行預(yù)訓(xùn)練。LDM的解碼器經(jīng)過微調(diào)以在像素空間中實現(xiàn)時間一致性,并且時間對齊擴散模型上采樣器用于增強空間分辨率。為了生成非常長的視頻,模型被訓(xùn)練以預(yù)測給定一些上下文幀的未來幀,允許在采樣過程中使用無分類器引導(dǎo)。為了實現(xiàn)高時間分辨率,視頻合成過程被劃分為關(guān)鍵幀生成和這些關(guān)鍵幀之間的插值。遵循級聯(lián)LDMs,使用DM進一步將視頻LDM輸出擴大4倍,確保高空間分辨率同時保持時間一致性。這種方法使得以計算高效的方式生成全局一致的長視頻成為可能。此外,作者展示了將預(yù)訓(xùn)練的圖像LDM(例如,穩(wěn)定擴散)轉(zhuǎn)換為文本到視頻模型的能力,僅通過訓(xùn)練時間對齊層,實現(xiàn)了高達(dá)1280×2048分辨率的視頻合成。
3.3.1 討論
空間和時間上采樣的級聯(lián)擴散模型。Sora能生成高分辨率視頻。通過回顧現(xiàn)有工作和我們的逆向工程,我們推測Sora也利用了級聯(lián)擴散模型架構(gòu)[59],該架構(gòu)由一個基礎(chǔ)模型和多個時空細(xì)化模型組成。在基礎(chǔ)擴散模型和低分辨率擴散模型中,考慮到在高分辨率情況下使用注意力機制的高計算成本和有限的性能增益,注意力模塊不太可能被大量使用。對于空間和時間場景一致性,正如先前的工作所示,對于視頻/場景生成,時間一致性比空間一致性更重要,Sora可能會通過使用較長視頻(用于時間一致性)和較低分辨率的高效訓(xùn)練策略來實現(xiàn)這一點。此外,Sora可能會使用v參數(shù)化擴散模型[58],考慮到其與預(yù)測原始潛在值或噪聲?的其他變體相比的卓越性能。
關(guān)于潛在編碼器。為了訓(xùn)練效率,大多數(shù)現(xiàn)有工作利用穩(wěn)定擴散[60, 61]的預(yù)訓(xùn)練VAE編碼器作為初始化模型檢查點。然而,編碼器缺乏時間壓縮能力。盡管一些工作提出只對解碼器進行微調(diào)以處理時間信息,但解碼器在壓縮潛在空間中處理視頻時間數(shù)據(jù)的性能仍然不是最佳的。根據(jù)技術(shù)報告,我們的逆向工程顯示,與其使用現(xiàn)有的預(yù)訓(xùn)練VAE編碼器,Sora可能使用從頭開始在視頻數(shù)據(jù)上訓(xùn)練的時空VAE編碼器,該編碼器在具有視頻導(dǎo)向的壓縮潛在空間中的性能優(yōu)于現(xiàn)有的編碼器。
3.4 語言指令跟隨
用戶主要通過自然語言指令,即文本提示[62, 63],與生成式AI模型進行交互。模型指令調(diào)整旨在增強AI模型遵循提示的能力。這種在遵循指令方面的改進能力使模型能夠生成更接近于對自然語言查詢的人類響應(yīng)的輸出。我們從回顧大型語言模型(LLMs)和諸如DALL·E 3之類的文本到圖像模型的指令跟隨技術(shù)開始討論。為了增強文本到視頻模型遵循文本指令的能力,Sora采用了類似于DALL·E 3的方法。該方法涉及訓(xùn)練描述性字幕器并使用字幕器生成的數(shù)據(jù)進行微調(diào)。由于指令調(diào)整,Sora能夠適應(yīng)廣泛的用戶請求,確保對指令中的細(xì)節(jié)給予細(xì)致的注意,并生成精確滿足用戶需求的視頻。
3.4.1 大型語言模型
LLMs遵循指令的能力已被廣泛探索[64, 65, 66]。這種能力使LLMs能夠閱讀、理解并適當(dāng)響應(yīng)描述未見任務(wù)的指令,而無需示例。通過在格式化為指令的任務(wù)混合物上對LLMs進行微調(diào)[64, 66],獲得并增強了遵循提示的能力,這稱為指令調(diào)整。Wei等人[65]展示了經(jīng)過指令調(diào)整的模型能夠更準(zhǔn)確地遵循指令。LLMs在未見任務(wù)上的表現(xiàn)顯著優(yōu)于未調(diào)整的模型。指令遵循能力將LLMs轉(zhuǎn)變?yōu)橥ㄓ萌蝿?wù)解決器,標(biāo)志著AI發(fā)展歷史上的一個范式轉(zhuǎn)變。
3.4.2 文本到圖像
DALL·E 3中的指令遵循通過一種假設(shè)為基礎(chǔ)的標(biāo)題改進方法來解決,即模型訓(xùn)練所依賴的文本-圖像對的質(zhì)量決定了最終文本到圖像模型的性能。數(shù)據(jù)的低質(zhì)量,特別是噪聲數(shù)據(jù)的普遍存在和省略大量視覺信息的簡短標(biāo)題,導(dǎo)致了許多問題,如忽略關(guān)鍵詞和詞序,以及誤解用戶意圖。標(biāo)題改進方法通過用詳細(xì)、描述性的標(biāo)題重新標(biāo)注現(xiàn)有圖像來解決這些問題。該方法首先訓(xùn)練一個圖像標(biāo)題生成器,這是一個視覺-語言模型,用于生成精確和描述性的圖像標(biāo)題。然后,使用標(biāo)題生成器生成的描述性圖像標(biāo)題來微調(diào)文本到圖像模型。具體來說,DALL·E 3遵循對比標(biāo)題生成器(CoCa)的方法,聯(lián)合訓(xùn)練一個圖像標(biāo)題生成器,該生成器具有CLIP架構(gòu)和一個語言模型目標(biāo)。這個圖像標(biāo)題生成器結(jié)合了一個圖像編碼器、一個單模態(tài)文本編碼器用于提取語言信息,以及一個多模態(tài)文本解碼器。它首先使用單模態(tài)圖像和文本嵌入之間的對比損失,然后是多模態(tài)解碼器輸出的標(biāo)題生成損失。進一步在詳細(xì)描述圖像的主要對象、周圍環(huán)境、背景、文本、風(fēng)格和顏色方面進行微調(diào)后,圖像標(biāo)題生成器能夠為圖像生成詳細(xì)的描述性標(biāo)題。文本到圖像模型的訓(xùn)練數(shù)據(jù)集是由圖像標(biāo)題生成器生成的重新標(biāo)注數(shù)據(jù)集和真實人類編寫的數(shù)據(jù)混合而成,以確保模型能夠捕捉用戶輸入。這種圖像標(biāo)題改進方法引入了一個潛在問題:實際用戶提示與訓(xùn)練數(shù)據(jù)中的描述性圖像描述之間的不匹配。DALL·E 3通過上采樣來解決這個問題,其中LLMs被用來將簡短的用戶提示重寫為詳細(xì)且冗長的指令。這確保了模型在推理時接收到的文本輸入與模型訓(xùn)練中的輸入一致。
3.4.3 文本到視頻
為了增強指令遵循能力,Sora采用了類似的標(biāo)題改進方法。該方法首先通過訓(xùn)練一個能夠為視頻生成詳細(xì)描述的視頻標(biāo)題生成器來實現(xiàn)。然后,將這個視頻標(biāo)題生成器應(yīng)用于訓(xùn)練數(shù)據(jù)中的所有視頻,以生成高質(zhì)量的(視頻,描述性標(biāo)題)對,這些對被用來微調(diào)Sora,以提高其指令遵循能力。Sora的技術(shù)報告沒有透露視頻標(biāo)題生成器是如何訓(xùn)練的。鑒于視頻標(biāo)題生成器是一個視頻到文本的模型,構(gòu)建它有許多方法。一種直接的方法是利用CoCa架構(gòu)進行視頻標(biāo)題生成,通過取視頻的多個幀并將每個幀輸入到圖像編碼器,稱為VideoCoCa。VideoCoCa基于CoCa,并重用預(yù)訓(xùn)練的圖像編碼器權(quán)重,獨立地應(yīng)用于采樣的視頻幀。結(jié)果產(chǎn)生的幀令牌嵌入被展平并連接成一個長序列的視頻表示。這些展平的幀令牌隨后被一個生成性池化器和一個對比性池化器處理,這兩者與對比損失和標(biāo)題生成損失一起聯(lián)合訓(xùn)練。構(gòu)建視頻標(biāo)題生成器的其他替代方法包括mPLUG-2、GIT、FrozenBiLM等。最后,為了確保用戶提示與訓(xùn)練數(shù)據(jù)中的描述性標(biāo)題格式一致,Sora執(zhí)行了一個額外的提示擴展步驟,其中GPT-4V被用來將用戶輸入擴展為詳細(xì)的描述性提示。
3.4.4 討論
對于Sora來說,遵循指令的能力對于生成忠實于用戶意圖的、包含復(fù)雜場景的一分鐘長視頻至關(guān)重要。根據(jù)Sora的技術(shù)報告,這種能力是通過上述方法獲得的。通過開發(fā)一個能夠生成長而詳細(xì)的標(biāo)題的字幕器,然后用這些標(biāo)題來訓(xùn)練模型。然而,收集用于訓(xùn)練此類字幕器的數(shù)據(jù)的過程是未知的,且可能需要大量勞動,因為它可能需要視頻的詳細(xì)描述。此外,描述性視頻字幕器可能會虛構(gòu)視頻的重要細(xì)節(jié)。我們認(rèn)為,如何改進視頻字幕器值得進一步研究,并且對于增強文本到圖像模型的遵循指令能力至關(guān)重要。
3.5 提示工程
提示工程指的是設(shè)計和完善提供給AI系統(tǒng)的輸入的過程,特別是在生成模型的背景下,以實現(xiàn)特定的或優(yōu)化的輸出。提示工程的藝術(shù)和科學(xué)涉及以一種引導(dǎo)模型產(chǎn)生盡可能準(zhǔn)確、相關(guān)和連貫響應(yīng)的方式來構(gòu)建這些輸入。
3.5.1 文本提示
文本提示工程對于指導(dǎo)文本到視頻模型(例如,Sora)生成在視覺上引人注目同時精確滿足用戶規(guī)格的視頻至關(guān)重要。這涉及到制定詳細(xì)描述,以指導(dǎo)模型有效地彌合人類創(chuàng)造力和AI執(zhí)行能力之間的差距。Sora的提示涵蓋了廣泛的場景。最近的工作(例如,VoP、Make-A-Video和Tune-A-Video)展示了提示工程如何利用模型的自然語言理解能力來解碼復(fù)雜指令,并將它們渲染成連貫、生動和高質(zhì)量的視頻敘述。如圖15所示,“一個穿著時尚的女人走在霓虹燈照亮的東京街道上...”是一個精心制作的文本提示,它確保Sora生成的視頻與預(yù)期視覺良好對齊。提示工程的質(zhì)量取決于對詞語的仔細(xì)選擇、提供的細(xì)節(jié)的具體性,以及理解它們對模型輸出的影響。例如,圖15中的提示詳細(xì)指定了場景的動作、設(shè)置、角色外觀,甚至是期望的情緒和氛圍。
![]()
圖15:一個關(guān)于文本到視頻生成的提示工程案例研究,使用顏色編碼來劃分創(chuàng)造過程。藍(lán)色高亮的文本描述了Sora生成的元素,如對一個時尚女性的描繪。相比之下,黃色的文本強調(diào)了模型對動作、設(shè)置和角色外觀的解釋,展示了一個精心制作的提示是如何轉(zhuǎn)化為生動和動態(tài)的視頻敘述的。
3.5.2 圖像提示
圖像提示作為即將生成視頻的內(nèi)容和其他元素(如角色、設(shè)置和情緒)的視覺錨點。此外,文本提示可以指導(dǎo)模型通過添加運動層、互動和敘事進展等來使這些元素動起來,從而使靜態(tài)圖像變得生動。通過利用視覺和文本信息,圖像提示允許Sora將靜態(tài)圖像轉(zhuǎn)換為動態(tài)、敘事驅(qū)動的視頻。在圖16中,我們展示了使用DALL·E生成的圖像提示Sora的AI生成視頻的例子,如“一個戴貝雷帽和高領(lǐng)衫的柴犬”、“一個獨特的怪物家庭”、“形成‘SORA’字樣的云”和“沖浪者在一個歷史悠久的大廳內(nèi)導(dǎo)航巨浪”。這些例子展示了通過向Sora提示DALL·E生成的圖像可以實現(xiàn)什么。
![]()
圖16:這個例子展示了圖像提示指導(dǎo)Sora的文本到視頻模型生成的過程。紅色框體視覺上錨定了每個場景的關(guān)鍵元素——不同設(shè)計的怪物、拼寫“SORA”的云形成和在華麗大廳面對巨大海浪的沖浪者。
3.5.3 視頻提示
如[82, 83]所示,視頻提示也可以用于視頻生成。最近的工作(例如,Moonshot和Fast-Vid2Vid)顯示,好的視頻提示需要具體且靈活。這確保模型在特定目標(biāo)上獲得清晰的指導(dǎo),如特定對象和視覺主題的描繪,并且還允許在最終輸出中進行富有想象力的變化。例如,在視頻擴展任務(wù)中,提示可以指定方向(向前或向后時間)和擴展的上下文或主題。在圖17(a)中,視頻提示指導(dǎo)Sora向時間倒退擴展視頻,以探索導(dǎo)致原始起點的事件。在通過視頻提示進行視頻到視頻編輯時,如圖17(b)所示,模型需要清楚地理解所需的轉(zhuǎn)變,如改變視頻的風(fēng)格、設(shè)置或氛圍,或改變細(xì)微方面,如照明或情緒。在圖17(c)中,提示指導(dǎo)Sora連接視頻,同時確保不同場景中的對象之間平滑過渡。
3.5.4 討論
提示工程允許用戶指導(dǎo)AI模型生成與他們的意圖一致的內(nèi)容。例如,文本、圖像和視頻提示的綜合使用使Sora能夠創(chuàng)建的內(nèi)容不僅在視覺上引人注目,而且與用戶的期望和意圖良好對齊。盡管之前的提示工程研究主要集中在LLMs和LVMs的文本和圖像提示上,但我們預(yù)計對視頻生成模型的視頻提示將會越來越受到關(guān)注。
3.6 可信度
隨著ChatGPT、GPT4-V和Sora等復(fù)雜模型的快速發(fā)展,這些模型的能力得到了顯著增強。這些發(fā)展為提高工作效率和推動技術(shù)進步做出了重大貢獻。然而,這些進步也引發(fā)了對這些技術(shù)潛在濫用的擔(dān)憂,包括生成假新聞、隱私泄露和倫理困境。因此,在大型模型中的可信度問題已經(jīng)從學(xué)術(shù)界和工業(yè)界獲得了廣泛關(guān)注,成為當(dāng)代研究討論的焦點。
![]()
圖17:這些示例展示了Sora模型的視頻提示技術(shù):(a)視頻擴展,模型將序列向原始素材的反方向外推;(b)視頻編輯,根據(jù)文本提示,特定元素如場景被轉(zhuǎn)換;以及(c)視頻連接,兩個不同的視頻提示被無縫融合以創(chuàng)建連貫的敘述。每個過程都由一個視覺錨點指導(dǎo),用紅色框標(biāo)記,確保生成的視頻內(nèi)容連續(xù)性和精確性。
3.6.1 安全問題
一個主要關(guān)注點是模型的安全性,特別是其抵抗濫用和所謂的“越獄”攻擊的能力,用戶試圖利用漏洞生成禁止或有害內(nèi)容[96, 97, 98, 99, 100, 101, 102, 103, 104, 105]。例如,AutoDAN[103],一種基于梯度技術(shù)的新型可解釋對抗攻擊方法,被引入以實現(xiàn)系統(tǒng)繞過。在最近的一項研究中,研究人員探討了大型語言模型(LLMs)難以抵抗越獄攻擊的兩個原因:目標(biāo)沖突和泛化不匹配[106]。除了文本攻擊外,視覺越獄也威脅到多模態(tài)模型的安全(例如,GPT-4V[90]和Sora[3])。最近的一項研究[107]發(fā)現(xiàn),大型多模態(tài)模型更容易受到攻擊,因為額外的視覺輸入的連續(xù)性和高維性使其對對抗攻擊更加脆弱,代表了擴大的攻擊面。
3.6.2 其他利用
由于大型基礎(chǔ)模型(例如,ChatGPT[89]和Sora[3])的訓(xùn)練數(shù)據(jù)集規(guī)模和訓(xùn)練方法,這些模型的真實性需要得到增強,因為相關(guān)問題如幻覺已被廣泛討論[108]。在這個上下文中,幻覺指的是模型傾向于生成看似令人信服但是無根據(jù)或虛假的回應(yīng)[96]。這一現(xiàn)象提出了關(guān)于模型輸出可靠性和可信度的關(guān)鍵問題,需要采取全面的方法來評估和解決這一問題。已有大量研究致力于從各個角度剖析幻覺問題。這包括旨在評估不同模型和場景中幻覺的程度和性質(zhì)的努力[109, 96, 110, 111]。這些評估提供了寶貴的見解,說明了幻覺如何以及為什么發(fā)生,為制定減少其發(fā)生的策略奠定了基礎(chǔ)。同時,大量研究集中于設(shè)計和實施方法以減少這些大型模型中的幻覺[112, 113, 114]。
另一個關(guān)于可信度的重要方面是公平性和偏見。開發(fā)不會傳播或加劇社會偏見的模型的重要性是一個至關(guān)重要的關(guān)注點。這一優(yōu)先事項源于這樣的認(rèn)識:這些模型中編碼的偏見可以加強現(xiàn)有的社會不平等,導(dǎo)致歧視性結(jié)果。在這一領(lǐng)域的研究,如Gallegos等人[115]、張等人[116]、梁等人[117]和Friedrich等人[118]的工作,致力于這些固有偏見的細(xì)致識別和糾正。目標(biāo)是培養(yǎng)公平運作的模型,公平對待所有個體,不對種族、性別或其他敏感屬性持有偏見。這不僅涉及檢測和減輕數(shù)據(jù)集中的偏見,還包括設(shè)計能夠主動對抗這些偏見傳播的算法[119, 120]。
隱私保護成為部署這些模型時的另一個基礎(chǔ)支柱。在數(shù)據(jù)隱私關(guān)切日益升高的時代,保護用戶數(shù)據(jù)的重點從未如此關(guān)鍵。公眾對個人數(shù)據(jù)處理方式的日益關(guān)注和擔(dān)憂促使對大型模型進行了更嚴(yán)格的評估。這些評估關(guān)注模型保護用戶數(shù)據(jù)的能力,確保個人信息保持機密,不會無意中泄露。Mireshghallah等人[121]、Plant等人[122]和Li等人[123]的研究代表了推進保護隱私的方法和技術(shù)的努力。
3.6.3 對齊
在應(yīng)對這些挑戰(zhàn)時,確保大型模型的可信度已成為研究人員的主要關(guān)切之一[124, 96, 99, 125]。最重要的技術(shù)之一是模型對齊[125, 126],它指的是確保模型的行為和輸出與人類設(shè)計者的意圖和倫理標(biāo)準(zhǔn)一致的過程和目標(biāo)。這涉及技術(shù)的發(fā)展、其道德責(zé)任和社會價值。在大型語言模型(LLMs)領(lǐng)域,使用人類反饋的強化學(xué)習(xí)(RLHF)[127, 128]方法已被廣泛應(yīng)用于模型對齊。這種方法結(jié)合了強化學(xué)習(xí)(RL)和直接人類反饋,允許模型更好地與人類的期望和標(biāo)準(zhǔn)對齊,以理解和執(zhí)行任務(wù)。
3.6.4 討論
從Sora(特別是其技術(shù)報告)中,我們總結(jié)了一些有見地的發(fā)現(xiàn),這些發(fā)現(xiàn)可能為未來的工作提供有益的指導(dǎo):
模型和外部安全的綜合保護:隨著模型變得更強大,特別是在內(nèi)容生成方面,確保它們不被濫用來生產(chǎn)有害內(nèi)容(如仇恨言論[129]和虛假信息[92, 91])已成為一個嚴(yán)峻的挑戰(zhàn)。除了對模型本身進行調(diào)整外,外部安全保護同樣重要。這包括內(nèi)容過濾和審查機制、使用權(quán)限和訪問控制、數(shù)據(jù)隱私保護,以及在透明度和可解釋性方面的增強。例如,OpenAI現(xiàn)在使用檢測分類器來判斷給定視頻是否由Sora生成[130]。此外,還部署了文本分類器來檢測潛在有害的文本輸入[130]。
多模態(tài)模型的安全挑戰(zhàn):多模態(tài)模型,如文本到視頻模型Sora,由于其理解和生成各種類型內(nèi)容(文本、圖像、視頻等)的能力,給安全帶來額外的復(fù)雜性。多模態(tài)模型可以以各種形式生產(chǎn)內(nèi)容,增加了濫用和版權(quán)問題的方式和范圍。由于多模態(tài)模型生成的內(nèi)容更加復(fù)雜和多樣,傳統(tǒng)的內(nèi)容驗證和真實性方法可能不再有效。這要求開發(fā)新的技術(shù)和方法來識別和過濾這些模型生成的有害內(nèi)容,增加了監(jiān)管和管理的難度。
跨學(xué)科合作的需求:確保模型的安全不僅是一個技術(shù)問題,還需要跨學(xué)科合作。為了應(yīng)對這些挑戰(zhàn),來自各個領(lǐng)域的專家,如法律[131]和心理學(xué)[132],需要共同努力制定適當(dāng)?shù)囊?guī)范(例如,什么是安全的,什么是不安全的?)、政策和技術(shù)解決方案。跨學(xué)科合作的需求顯著增加了解決這些問題的復(fù)雜性。
4 應(yīng)用
![]()
圖18:Sora的應(yīng)用。
隨著Sora等視頻擴散模型作為前沿技術(shù)的興起,它們在不同研究領(lǐng)域和行業(yè)中的采用正在迅速加速。這項技術(shù)的影響遠(yuǎn)遠(yuǎn)超出了簡單的視頻創(chuàng)作,為從自動化內(nèi)容生成到復(fù)雜決策過程的任務(wù)提供了變革性的潛力。在本節(jié)中,我們將深入探討視頻擴散模型當(dāng)前的應(yīng)用情況,重點介紹Sora不僅展示了其能力,而且還革新了解決復(fù)雜問題方法的關(guān)鍵領(lǐng)域。我們旨在為實際部署場景提供一個廣闊的視角(見圖18)。
4.1 電影
傳統(tǒng)上,創(chuàng)作電影杰作是一個艱巨且昂貴的過程,通常需要數(shù)十年的努力、尖端設(shè)備和大量的財務(wù)投資。然而,先進視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作的新時代,一個從簡單文本輸入自主制作電影的夢想正在成為現(xiàn)實的時代。研究人員通過將視頻生成模型擴展到電影制作領(lǐng)域,MovieFactory[133]應(yīng)用擴散模型從ChatGPT[89]生成的詳細(xì)劇本生成電影風(fēng)格的視頻,代表了一次重大飛躍。在后續(xù)中,MobileVidFactory[134]可以僅根據(jù)用戶提供的簡單文本自動生成垂直移動視頻。Vlogger[135]使用戶能夠組成一分鐘長的視頻博客。這些發(fā)展,以Sora輕松生成引人入勝的電影內(nèi)容的能力為典范,標(biāo)志著電影制作民主化的關(guān)鍵時刻。它們展示了一個未來的畫面,任何人都可以成為電影制作者,顯著降低了進入電影行業(yè)的門檻,并引入了將傳統(tǒng)敘事與AI驅(qū)動的創(chuàng)造力相結(jié)合的電影制作新維度。這些技術(shù)的影響不僅僅是簡化,它們承諾將重塑電影制作的格局,使其在不斷變化的觀眾偏好和分發(fā)渠道面前變得更加易于訪問和多樣化。
4.2 教育
教育內(nèi)容的格局長期以來一直被靜態(tài)資源所主導(dǎo),盡管它們具有價值,但往往無法滿足當(dāng)今學(xué)生多樣化的需求和學(xué)習(xí)風(fēng)格。視頻擴散模型站在教育革命的前沿,提供了前所未有的機會,以顯著增強學(xué)習(xí)者的參與度和理解力,定制和動態(tài)化教育材料。這些先進技術(shù)使教育者能夠?qū)⑽谋久枋龌蛘n程大綱轉(zhuǎn)化為針對個別學(xué)習(xí)者的特定風(fēng)格和興趣量身定制的動態(tài)、引人入勝的視頻內(nèi)容[136, 137, 138, 139]。此外,圖像到視頻編輯技術(shù)[140, 141, 142]提供了將靜態(tài)教育資產(chǎn)轉(zhuǎn)換為互動視頻的創(chuàng)新途徑,從而支持一系列學(xué)習(xí)偏好,并有可能增加學(xué)生的參與度。通過將這些模型整合到教育內(nèi)容創(chuàng)作中,教育者可以就廣泛的主題制作視頻,使復(fù)雜概念對學(xué)生更加易于理解和吸引人。Sora在教育領(lǐng)域的應(yīng)用體現(xiàn)了這些技術(shù)的變革潛力。這種轉(zhuǎn)向個性化、動態(tài)教育內(nèi)容的轉(zhuǎn)變預(yù)示著教育的新時代。
4.3 游戲
游戲行業(yè)不斷尋求推動現(xiàn)實主義和沉浸感的界限,然而傳統(tǒng)游戲開發(fā)經(jīng)常與預(yù)渲染環(huán)境和腳本事件的限制作斗爭。擴散模型生成的動態(tài)、高保真視頻內(nèi)容和實時效果的真實聲音,承諾克服現(xiàn)有限制,為開發(fā)者提供創(chuàng)建響應(yīng)玩家行動和游戲事件的不斷發(fā)展的游戲環(huán)境的工具[143, 144]。這可能包括生成變化的天氣條件、變換的景觀,甚至即興創(chuàng)造全新的設(shè)置,使游戲世界更加沉浸和響應(yīng)。一些方法[145, 146]還從視頻輸入中合成真實的沖擊聲音,增強游戲音頻體驗。通過將Sora整合到游戲領(lǐng)域,可以創(chuàng)造前所未有的沉浸式體驗,吸引并吸引玩家。游戲的開發(fā)、玩法和體驗將得到創(chuàng)新,同時為敘事、互動和沉浸打開新的可能性。
4.4 醫(yī)療保健
盡管具有生成能力,視頻擴散模型在理解和生成復(fù)雜視頻序列方面表現(xiàn)出色,使它們特別適合識別身體內(nèi)的動態(tài)異常,如早期細(xì)胞凋亡[147]、皮膚病變進展[148]和不規(guī)則人體運動[149],這對于早期疾病檢測和干預(yù)策略至關(guān)重要。此外,像MedSegDiffV2[150]和[151]這樣的模型利用變壓器的力量,以前所未有的精度對醫(yī)學(xué)圖像進行分割,使臨床醫(yī)生能夠在各種成像模式中準(zhǔn)確地定位感興趣的區(qū)域。將Sora整合到臨床實踐中,不僅承諾改進診斷過程,還提供基于精確醫(yī)學(xué)成像分析的個性化患者護理。然而,這種技術(shù)整合帶來了自身的一系列挑戰(zhàn),包括需要強大的數(shù)據(jù)隱私措施和解決醫(yī)療保健中的倫理考慮。
4.5 機器人
視頻擴散模型在機器人學(xué)中扮演著重要角色,展示了一個新時代,其中機器人可以生成和解釋復(fù)雜視頻序列,以增強感知[152, 153]和決策[154, 155, 156]。這些模型為機器人解鎖了新的能力,使它們能夠與環(huán)境互動并以前所未有的復(fù)雜性和精確度執(zhí)行任務(wù)。將網(wǎng)絡(luò)規(guī)模的擴散模型引入機器人學(xué)[152]展示了利用大規(guī)模模型增強機器人視覺和理解的潛力。潛在擴散模型用于語言指導(dǎo)的視頻預(yù)測[157],通過預(yù)測視頻格式中動作的結(jié)果,使機器人能夠理解和執(zhí)行任務(wù)。此外,對于機器人研究依賴模擬環(huán)境的問題,已通過能夠創(chuàng)建高度逼真視頻序列的視頻擴散模型得到了創(chuàng)新性的解決[158, 159]。這使得能夠為機器人生成多樣化的訓(xùn)練場景,減輕了現(xiàn)實世界數(shù)據(jù)稀缺所帶來的限制。我們相信,像Sora這樣的技術(shù)整合到機器人領(lǐng)域,預(yù)示著突破性的發(fā)展。通過利用Sora的力量,機器人的未來正迎來前所未有的進步,機器人能夠無縫地導(dǎo)航和與環(huán)境互動。
5 討論
Sora展現(xiàn)出了精確理解和執(zhí)行人類復(fù)雜指令的非凡才能。這個模型擅長創(chuàng)建具有各種角色的詳細(xì)視頻,所有這些都設(shè)置在精心制作的環(huán)境中。Sora的一個特別令人印象深刻的屬性是其能夠制作長達(dá)一分鐘的視頻,同時確保一致且引人入勝的敘事。這標(biāo)志著相比之前專注于更短視頻片段的嘗試,Sora的擴展序列展現(xiàn)了清晰的敘事流程,并從頭到尾保持視覺一致性。此外,Sora通過生成捕捉復(fù)雜動作和互動的更長視頻序列,超越了早期模型只能處理短片和基本圖像的限制。這一進步在AI驅(qū)動的創(chuàng)意工具中標(biāo)志著重大步伐,使用戶能夠?qū)婀适罗D(zhuǎn)化為生動的視頻,達(dá)到以前無法實現(xiàn)的細(xì)節(jié)和復(fù)雜度水平。
5.1 限制
物理現(xiàn)實性的挑戰(zhàn)。作為一個模擬平臺,Sora展現(xiàn)出一系列限制,這些限制削弱了其準(zhǔn)確描繪復(fù)雜場景的有效性。最重要的是它在處理復(fù)雜場景中的物理原理時的不一致性,導(dǎo)致無法準(zhǔn)確復(fù)制特定示例的因果關(guān)系。例如,吃掉一部分餅干可能不會產(chǎn)生相應(yīng)的咬痕,說明系統(tǒng)偶爾偏離物理的可能性。這個問題擴展到運動的模擬,其中Sora生成的運動挑戰(zhàn)了現(xiàn)實的物理建模,如物體的不自然變化或椅子等剛性結(jié)構(gòu)的錯誤模擬,導(dǎo)致不現(xiàn)實的物理互動。當(dāng)模擬物體和角色之間的復(fù)雜互動時,挑戰(zhàn)進一步增加,偶爾產(chǎn)生傾向于幽默的結(jié)果。
空間和時間的復(fù)雜性。Sora偶爾誤解與給定提示中的物體和角色的放置或排列相關(guān)的指令,導(dǎo)致對方向的混淆(例如,將左右弄反)。此外,它在保持事件的時間準(zhǔn)確性方面面臨挑戰(zhàn),特別是在遵循指定的攝像機移動或序列時。這可能導(dǎo)致偏離場景預(yù)期的時間流。在涉及多個角色或元素的復(fù)雜場景中,Sora傾向于插入不相關(guān)的動物或人物。這樣的添加可以顯著改變最初設(shè)想的場景構(gòu)成和氛圍,偏離計劃的敘事或視覺布局。這個問題不僅影響模型準(zhǔn)確重現(xiàn)特定場景或敘事的能力,也影響其生成與用戶期望和生成輸出的連貫性緊密對齊的內(nèi)容的可靠性。
人機交互(HCI)的限制。Sora在視頻生成領(lǐng)域顯示出潛力,但在HCI方面面臨重大限制。這些限制主要體現(xiàn)在用戶系統(tǒng)互動的連貫性和效率上,特別是在對生成內(nèi)容進行詳細(xì)修改或優(yōu)化時。例如,用戶可能發(fā)現(xiàn)很難精確指定或調(diào)整視頻中特定元素的呈現(xiàn),如動作細(xì)節(jié)和場景轉(zhuǎn)換。此外,Sora在理解復(fù)雜的語言指令或捕捉微妙的語義差異方面的限制可能導(dǎo)致在視頻內(nèi)容方面,若不能完全滿足用戶的期望或需求,這些不足之處限制了Sora在視頻編輯和增強方面的潛力,也影響了用戶體驗的整體滿意度。
使用限制。關(guān)于使用限制,OpenAI尚未為Sora公開訪問設(shè)定具體的發(fā)布日期,強調(diào)在廣泛部署之前對安全性和準(zhǔn)備情況采取謹(jǐn)慎的態(tài)度。這表明Sora可能仍需要在安全性、隱私保護和內(nèi)容審查等領(lǐng)域進行進一步的改進和測試。此外,目前Sora只能生成長達(dá)一分鐘的視頻,根據(jù)已發(fā)布的案例,大多數(shù)生成的視頻僅有幾十秒長。這一限制限制了其在需要較長內(nèi)容展示的應(yīng)用中的使用,例如詳細(xì)的教學(xué)視頻或深入的故事講述。這一限制減少了Sora在內(nèi)容創(chuàng)作中的靈活性。
5.2機遇
學(xué)術(shù)界。(1) OpenAI推出Sora標(biāo)志著向鼓勵更廣泛的AI社區(qū)深入探索文本到視頻模型的戰(zhàn)略轉(zhuǎn)變,利用擴散和變換器技術(shù)。這一舉措旨在將焦點轉(zhuǎn)向直接從文本描述創(chuàng)建高度復(fù)雜和細(xì)膩視頻內(nèi)容的潛力,這是一個有望徹底改變內(nèi)容創(chuàng)作、講故事和信息分享的前沿。(2) 以其原生大小對Sora進行訓(xùn)練的創(chuàng)新方法,與傳統(tǒng)的調(diào)整大小或裁剪方法相反,為學(xué)術(shù)界提供了突破性的靈感。它通過強調(diào)使用未修改數(shù)據(jù)集的好處,開辟了新的路徑,這導(dǎo)致了更高級的生成模型的創(chuàng)建。
行業(yè)。(1) Sora目前的能力預(yù)示著視頻模擬技術(shù)進步的有希望的道路,突出了在物理和數(shù)字領(lǐng)域內(nèi)顯著增強現(xiàn)實感的潛力。Sora通過文本描述創(chuàng)建高度逼真環(huán)境的前景為內(nèi)容創(chuàng)作提供了充滿希望的未來。這一潛力擴展到了革命性地改變游戲開發(fā),提供了一個未來的窺視,其中沉浸式生成的世界可以以前所未有的便捷性和準(zhǔn)確性被創(chuàng)造。(2) 公司可以利用Sora生產(chǎn)迅速適應(yīng)市場變化的廣告視頻,并創(chuàng)建定制化的營銷內(nèi)容。這不僅降低了生產(chǎn)成本,還增強了廣告的吸引力和效果。Sora僅憑文本描述就能生成高度逼真的視頻內(nèi)容的能力,可能會徹底改變品牌與其受眾互動的方式,允許創(chuàng)造沉浸式和引人入勝的視頻,以前所未有的方式捕捉其產(chǎn)品或服務(wù)的精髓。
社會。(1) 雖然利用文本到視頻技術(shù)替代傳統(tǒng)電影制作的前景仍然遙遠(yuǎn),但Sora和類似平臺對社交媒體上的內(nèi)容創(chuàng)作具有變革性的潛力。當(dāng)前視頻長度的限制并未減少這些工具在使高質(zhì)量視頻制作普及化方面可以產(chǎn)生的影響,使個人能夠在無需昂貴設(shè)備的情況下制作引人入勝的內(nèi)容。這代表了向賦予像TikTok和Reels這樣的平臺上的內(nèi)容創(chuàng)作者更多權(quán)力的重大轉(zhuǎn)變,開啟了創(chuàng)意和參與的新時代。(2) 編劇和創(chuàng)意專業(yè)人士可以使用Sora將書面劇本轉(zhuǎn)換為視頻,幫助他們更好地展示和分享他們的創(chuàng)意概念,甚至制作短片和動畫。從劇本創(chuàng)建詳細(xì)、生動的視頻的能力可以從根本上改變電影制作和動畫的前期制作過程,提供了一個窺視未來的故事講述者如何提案、開發(fā)和完善他們敘述的方式。這項技術(shù)為腳本開發(fā)提供了一種更動態(tài)和互動的形式,其中想法可以實時可視化和評估,為創(chuàng)意和協(xié)作提供了強大的工具。(3) 記者和新聞機構(gòu)也可以利用Sora快速生成新聞報道或解釋性視頻,使新聞內(nèi)容更加生動和吸引人。這可以顯著增加新聞報道的覆蓋范圍和觀眾參與度。通過提供一個可以模擬逼真環(huán)境和場景的工具,Sora為視覺敘事提供了強大的解決方案。使記者能夠通過吸引人的視頻傳達(dá)以前難以制作或成本高昂的復(fù)雜故事。總之,Sora在跨越市場營銷、新聞業(yè)和娛樂業(yè)的內(nèi)容創(chuàng)作方面革命性的潛力是巨大的。
6 結(jié)論
我們提供了對Sora的全面審查,以幫助開發(fā)者和研究人員研究Sora的能力和相關(guān)工作。該審查基于我們對已發(fā)布的技術(shù)報告的調(diào)查和基于現(xiàn)有文獻的逆向工程。當(dāng)Sora的API可用且有關(guān)Sora的更多細(xì)節(jié)被揭露時,我們將繼續(xù)更新本文。我們希望這篇綜述論文能為開源研究社區(qū)提供寶貴的資源,并為社區(qū)在不久的將來共同開發(fā)一個開源版本的Sora奠定基礎(chǔ),以在AIGC時代民主化視頻自動創(chuàng)作。為了實現(xiàn)這一目標(biāo),我們邀請在所有方面進行討論、建議和合作。
參考文獻
(注:論文英文名可見原文)
[1] OpenAI, “Chatgpt: 獲取即時答案,尋找創(chuàng)意靈感,學(xué)習(xí)新事物。” https://openai.com/chatgpt, 2022。
[2] OpenAI, “Gpt-4技術(shù)報告”,2023。
[3] OpenAI, “Sora: 從文本創(chuàng)建視頻。” https://openai.com/sora, 2024。
[4] W. Peebles 和 S. Xie, “使用變壓器的可擴展擴散模型”,在IEEE/CVF國際計算機視覺會議論文集中,第4195-4205頁,2023。
[5] A. A. Efros 和 T. K. Leung, “通過非參數(shù)采樣的紋理合成”,在第七屆IEEE國際計算機視覺會議論文集中,第2卷,第1033-1038頁,IEEE,1999。
[6] P. S. Heckbert, “紋理映射概述”,IEEE計算機圖形學(xué)及應(yīng)用,第6卷,第11期,第56-67頁,1986。
[7] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, 和 Y. Bengio, “生成對抗網(wǎng)絡(luò)”,arXiv,2014。
[8] D. P. Kingma 和 M. Welling, “自動編碼變分貝葉斯”,arXiv預(yù)印本arXiv:1312.6114,2013。
[9] L. Dinh, D. Krueger, 和 Y. Bengio, “Nice: 非線性獨立成分估計”,arXiv預(yù)印本arXiv:1410.8516,2014。
[10] Y. Song 和 S. Ermon, “通過估計數(shù)據(jù)分布的梯度進行生成建模”,在神經(jīng)信息處理系統(tǒng)進展中,第32卷,2019。
[11] Y. Cao, S. Li, Y. Liu, Z. Yan, Y. Dai, P. S. Yu, 和 L. Sun, “AI生成內(nèi)容的全面調(diào)查(AIGC):從GAN到ChatGPT的生成AI歷史”,arXiv預(yù)印本arXiv:2303.04226,2023。
[12] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. u. Kaiser, 和 I. Polosukhin, “只需注意力”,在神經(jīng)信息處理系統(tǒng)進展中(I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, 和 R. Garnett, 編輯),第30卷,Curran Associates, Inc., 2017。
[13] J. Devlin, M.-W. Chang, K. Lee, 和 K. Toutanova, “Bert: 深度雙向變壓器的語言理解預(yù)訓(xùn)練”,arXiv預(yù)印本arXiv:1810.04805,2018。
[14] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever, 等, “通過生成預(yù)訓(xùn)練提高語言理解”,2018。
[15] A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, 等, “一幅圖像值得16x16個詞:變壓器在大規(guī)模圖像識別中的應(yīng)用”,arXiv預(yù)印本arXiv:2010.11929,2020。
[16] Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, 和 B. Guo, “Swin變壓器:使用移動窗口的分層視覺變壓器”,在IEEE/CVF國際計算機視覺會議論文集中,第10012-10022頁,2021。
[17] O. Ronneberger, P. Fischer, 和 T. Brox, “U-net: 用于生物醫(yī)學(xué)圖像分割的卷積網(wǎng)絡(luò)”,在醫(yī)學(xué)圖像計算和計算機輔助干預(yù)-MICCAI 2015:第18屆國際會議,慕尼黑,德國,2015年10月5-9日,論文集,第三部分18,第234-241頁,Springer,2015。
[18] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, 和 I. Sutskever, “從自然語言監(jiān)督中學(xué)習(xí)可轉(zhuǎn)移的視覺模型”,2021。
[19] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, 和 B. Ommer, “高分辨率圖像合成與潛在擴散模型”,在IEEE/CVF計算機視覺和模式識別會議論文集中,第10684-10695頁,2022。
[20] M. AI, “Midjourney: 使用AI藝術(shù)生成器從文本到圖像。” https://www.midjourneyai.ai/en, 2023。
[21] J. Betker, G. Goh, L. Jing, T. Brooks, J. Wang, L. Li, L. Ouyang, J. Zhuang, J. Lee, Y. Guo, 等, “通過更好的標(biāo)題改善圖像生成”,計算機科學(xué)。https://cdn.openai.com/papers/dall-e-3.pdf,第2卷,第3頁,2023。
[22] P. AI, “Pika是將您的創(chuàng)意付諸行動的從想法到視頻的平臺。” https://pika.art/home,2023。
[23] R. AI, “Gen-2: 生成AI的下一步。” https://research.runwayml.com/gen2,2023。
[24] X. Zhai, A. Kolesnikov, N. Houlsby, 和 L. Beyer, “擴展視覺變壓器”,在IEEE/CVF計算機視覺和模式識別會議論文集中,第12104-12113頁,2022。
[25] M. Dehghani, J. Djolonga, B. Mustafa, P. Padlewski, J. Heek, J. Gilmer, A. P. Steiner, M. Caron, R. Geirhos, I. Alabdulmohsin, 等, “將視覺變壓器擴展到220億參數(shù)”,在國際機器學(xué)習(xí)會議論文集中,第7480-7512頁,PMLR,2023。
[26] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, 等, “從自然語言監(jiān)督中學(xué)習(xí)可轉(zhuǎn)移的視覺模型”,在國際機器學(xué)習(xí)會議論文集中,第8748-8763頁,PMLR,2021。
[27] A. Blattmann, T. Dockhorn, S. Kulal, D. Mendelevitch, M. Kilian, D. Lorenz, Y. Levi, Z. English, V. Voleti, A. Letts, 等, “穩(wěn)定視頻擴散:將潛在視頻擴散模型擴展到大型數(shù)據(jù)集”,arXiv預(yù)印本arXiv:2311.15127,2023。[28] U. Singer, A. Polyak, T. Hayes, X. Yin, J. An, S. Zhang, Q. Hu, H. Yang, O. Ashual, O. Gafni, D. Parikh, S. Gupta, 和 Y. Taigman, “無需文本視頻數(shù)據(jù)的文本到視頻生成”,2022年。
[29] J. Ho, W. Chan, C. Saharia, J. Whang, R. Gao, A. Gritsenko, D. P. Kingma, B. Poole, M. Norouzi, D. J. Fleet 等,“Imagen video: 使用擴散模型生成高清視頻”,arXiv預(yù)印本arXiv:2210.02303,2022年。
[30] R. Sutton, “苦澀的教訓(xùn)”。http://www.incompleteideas.net/IncIdeas/BitterLesson.html,2019年3月。訪問日期:您的訪問日期在此。
[31] S. Xie, “關(guān)于sora技術(shù)報告的看法”。https://twitter.com/sainingxie/status/1758433676105310543,2024年。
[32] A. Van Den Oord, O. Vinyals 等,“神經(jīng)離散表示學(xué)習(xí)”,在神經(jīng)信息處理系統(tǒng)進展中,第30卷,2017年。
[33] K. He, X. Chen, S. Xie, Y. Li, P. Dollár, 和 R. Girshick, “掩蔽自編碼器是可擴展的視覺學(xué)習(xí)者”,在IEEE/CVF計算機視覺與模式識別會議論文集中,第16000-16009頁,2022年。
[34] S. Ge, S. Nah, G. Liu, T. Poon, A. Tao, B. Catanzaro, D. Jacobs, J.-B. Huang, M.-Y. Liu, 和 Y. Balaji,“保留你自己的相關(guān)性:視頻擴散模型的噪聲先驗”,在IEEE/CVF國際計算機視覺會議論文集中,第22930-22941頁,2023年。
[35] A. Sauer, D. Lorenz, A. Blattmann, 和 R. Rombach, “對抗性擴散蒸餾”,arXiv預(yù)印本arXiv:2311.17042,2023年。
[36] A. Blattmann, R. Rombach, H. Ling, T. Dockhorn, S. W. Kim, S. Fidler, 和 K. Kreis, “對齊你的潛變量:使用潛在擴散模型的高分辨率視頻合成”,在IEEE/CVF計算機視覺與模式識別會議論文集中,第22563-22575頁,2023年。
[37] M. Ryoo, A. Piergiovanni, A. Arnab, M. Dehghani, 和 A. Angelova, “Tokenlearner:視頻的自適應(yīng)時空標(biāo)記化”,在神經(jīng)信息處理系統(tǒng)進展中,第34卷,第12786-12797頁,2021年。
[38] A. Arnab, M. Dehghani, G. Heigold, C. Sun, M. Lu?i?, 和 C. Schmid, “Vivit:一個視頻視覺變換器”,arXiv預(yù)印本arXiv:2103.15691,2021年。
[39] L. Beyer, P. Izmailov, A. Kolesnikov, M. Caron, S. Kornblith, X. Zhai, M. Minderer, M. Tschannen, I. Alabdulmohsin, 和 F. Pavetic, “Flexivit:適用于所有補丁大小的模型”,在IEEE/CVF計算機視覺與模式識別會議論文集中,第14496-14506頁,2023年。
[40] M. Dehghani, B. Mustafa, J. Djolonga, J. Heek, M. Minderer, M. Caron, A. Steiner, J. Puigcerver, R. Geirhos, I. M. Alabdulmohsin 等,“Patch n’pack:Navit,一個適用于任何寬高比和分辨率的視覺變換器”,在神經(jīng)信息處理系統(tǒng)進展中,第36卷,2024年。
[41] M. M. Krell, M. Kosec, S. P. Perez, 和 A. Fitzgibbon, “高效序列打包無交叉污染:加速大型語言模型而不影響性能”,arXiv預(yù)印本arXiv:2107.02027,2021年。
[42] H. Yin, A. Vahdat, J. M. Alvarez, A. Mallya, J. Kautz, 和 P. Molchanov, “A-vit:高效視覺變換器的自適應(yīng)標(biāo)記”,在IEEE/CVF計算機視覺與模式識別會議論文集中,第10809-10818頁,2022年。
[43] D. Bolya, C.-Y. Fu, X. Dai, P. Zhang, C. Feichtenhofer, 和 J. Hoffman, “標(biāo)記合并:你的vit但更快”,在第十一屆國際學(xué)習(xí)表示會議中,2022年。
[44] M. Fayyaz, S. A. Koohpayegani, F. R. Jafari, S. Sengupta, H. R. V. Joze, E. Sommerlade, H. Pirsia- vash, 和 J. Gall, “自適應(yīng)標(biāo)記采樣用于高效視覺變換器”,在歐洲計算機視覺會議中,第396-414頁,Springer, 2022年。
[45] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, ?. Kaiser, 和 I. Polosukhin, “注意力就是你所需要的”,在神經(jīng)信息處理系統(tǒng)進展中,第30卷,2017年。
[46] G. Bertasius, H. Wang, 和 L. Torresani, “時空注意力就是你所需要的用于視頻理解嗎?”,在ICML中,第2卷,第4頁,2021年。
[47] L. Yu, J. Lezama, N. B. Gundavarapu, L. Versari, K. Sohn, D. Minnen, Y. Cheng, A. Gupta, X. Gu, A. G. Hauptmann 等,“語言模型勝過擴散-標(biāo)記器是視覺生成的關(guān)鍵”,arXiv預(yù)印本arXiv:2310.05737,2023年。
[48] N. Shazeer, “快速變換器解碼:你所需要的只有一個寫頭”,2019年。
[49] J. Ainslie, J. Lee-Thorp, M. de Jong, Y. Zemlyanskiy, F. Lebrón, 和 S. Sanghai, “Gqa:從多頭檢查點訓(xùn)練泛化的多查詢變換器模型”,arXiv預(yù)印本arXiv:2305.13245,2023年。
[50] A. Gu 和 T. Dao, “Mamba:具有選擇性狀態(tài)空間的線性時間序列建模”,arXiv預(yù)印本arXiv:2312.00752,2023年。
[51] J. Sohl-Dickstein, E. A. Weiss, N. Maheswaranathan, 和 S. Ganguli, “使用非平衡熱力學(xué)的深度無監(jiān)督學(xué)習(xí)”,arXiv預(yù)印本arXiv:1503.03585,2015年。
[52] J. Ho, A. Jain, 和 P. Abbeel, “去噪擴散概率模型”,在神經(jīng)信息處理系統(tǒng)進展中,第33卷,第6840-6851頁,2020年。
[53] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, 和 B. Poole, “通過隨機微分方程的得分基生成模型”,arXiv預(yù)印本arXiv:2011.13456,2020年。
[54] F. Bao, S. Nie, K. Xue, Y. Cao, C. Li, H. Su, 和 J. Zhu, “所有都值得一言:用于擴散模型的vit骨干”,在IEEE/CVF計算機視覺與模式識別會議論文集(CVPR)中,2023年。
[55] S. Gao, P. Zhou, M.-M. Cheng, 和 S. Yan, “掩蔽擴散變換器是一個強大的圖像合成器”,arXiv預(yù)印本arXiv:2303.14389,2023年。
[56] A. Hatamizadeh, J. Song, G. Liu, J. Kautz, 和 A. Vahdat, “Diffit:用于圖像生成的擴散視覺變換器”,arXiv預(yù)印本arXiv:2312.02139,2023年。
[57] J. Ho 和 T. Salimans, “無分類器擴散指導(dǎo)”,arXiv預(yù)印本arXiv:2207.12598,2022年。
[58] T. Salimans 和 J. Ho, “漸進式蒸餾用于擴散模型的快速采樣”,arXiv預(yù)印本arXiv:2202.00512,2022年。
[59] J. Ho, C. Saharia, W. Chan, D. J. Fleet, M. Norouzi, 和 T. Salimans, “級聯(lián)擴散模型用于高保真圖像生成”,機器學(xué)習(xí)研究雜志,第23卷,第1期,第2249-2281頁,2022年。[60] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, 和 B. Ommer, “使用潛在擴散模型的高分辨率圖像合成”,2021年。
[61] D. Podell, Z. English, K. Lacey, A. Blattmann, T. Dockhorn, J. Müller, J. Penna, 和 R. Rombach, “Sdxl: 改進潛在擴散模型以合成高分辨率圖像”,arXiv預(yù)印本 arXiv:2307.01952,2023年。
[62] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell 等,“語言模型是少數(shù)樣本學(xué)習(xí)者”,arXiv,2020年。
[63] K. Zhou, J. Yang, C. C. Loy, 和 Z. Liu, “條件提示學(xué)習(xí)用于視覺-語言模型”,在 IEEE/CVF 計算機視覺與模式識別會議論文集中,第16816-16825頁,2022年。
[64] V. Sanh, A. Webson, C. Raffel, S. H. Bach, L. Sutawika, Z. Alyafeai, A. Chaffin, A. Stiegler, T. L. Scao, A. Raja 等,“多任務(wù)提示訓(xùn)練實現(xiàn)零樣本任務(wù)泛化”,arXiv預(yù)印本 arXiv:2110.08207,2021年。
[65] J. Wei, M. Bosma, V. Y. Zhao, K. Guu, A. W. Yu, B. Lester, N. Du, A. M. Dai, 和 Q. V. Le,“微調(diào)語言模型是零樣本學(xué)習(xí)者”,arXiv預(yù)印本 arXiv:2109.01652,2021年。
[66] L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray 等,“訓(xùn)練語言模型根據(jù)人類反饋執(zhí)行指令”,在神經(jīng)信息處理系統(tǒng)進展中,第35卷,第27730-27744頁,2022年。
[67] C. Jia, Y. Yang, Y. Xia, Y.-T. Chen, Z. Parekh, H. Pham, Q. Le, Y.-H. Sung, Z. Li, 和 T. Duerig,“通過噪聲文本監(jiān)督擴大視覺和視覺-語言表示學(xué)習(xí)”,在國際機器學(xué)習(xí)會議論文集中,第4904-4916頁,PMLR,2021年。
[68] J. Yu, Z. Wang, V. Vasudevan, L. Yeung, M. Seyedhosseini, 和 Y. Wu, “Coca: 對比性標(biāo)題生成器是圖像-文本基礎(chǔ)模型”,arXiv預(yù)印本 arXiv:2205.01917,2022年。
[69] S. Yan, T. Zhu, Z. Wang, Y. Cao, M. Zhang, S. Ghosh, Y. Wu, 和 J. Yu, “視頻-文本建模與對比性標(biāo)題生成器的零樣本遷移”,arXiv預(yù)印本 arXiv:2212.04979,2022年。
[70] H. Xu, Q. Ye, M. Yan, Y. Shi, J. Ye, Y. Xu, C. Li, B. Bi, Q. Qian, W. Wang 等,“mplug-2: 一個跨文本、圖像和視頻的模塊化多模態(tài)基礎(chǔ)模型”,arXiv預(yù)印本 arXiv:2302.00402,2023年。
[71] J. Wang, Z. Yang, X. Hu, L. Li, K. Lin, Z. Gan, Z. Liu, C. Liu, 和 L. Wang, “Git: 一個用于視覺和語言的生成圖像到文本變換器”,arXiv預(yù)印本 arXiv:2205.14100,2022年。
[72] A. Yang, A. Miech, J. Sivic, I. Laptev, 和 C. Schmid, “通過凍結(jié)的雙向語言模型進行零樣本視頻問答”,在神經(jīng)信息處理系統(tǒng)進展中,第35卷,第124-141頁,2022年。
[73] Y. Li, “零樣本提示設(shè)計的實用調(diào)查,用于上下文學(xué)習(xí)”,在自然語言處理的大型語言模型會議最近進展論文集中,RANLP, INCOMA Ltd., Shoumen, 保加利亞,2023年。
[74] B. Chen, Z. Zhang, N. Langrené, 和 S. Zhu, “釋放大型語言模型中提示工程的潛力:一項全面回顧”,arXiv預(yù)印本 arXiv:2310.14735,2023年。
[75] S. Pitis, M. R. Zhang, A. Wang, 和 J. Ba, “大型語言模型的提升提示集合”,2023年。
[76] Y. Hao, Z. Chi, L. Dong, 和 F. Wei, “優(yōu)化文本到圖像生成的提示”,2023年。
[77] S. Huang, B. Gong, Y. Pan, J. Jiang, Y. Lv, Y. Li, 和 D. Wang, “Vop: 文本-視頻合作提示調(diào)整用于跨模態(tài)檢索”,2023年。
[78] J. Z. Wu, Y. Ge, X. Wang, W. Lei, Y. Gu, Y. Shi, W. Hsu, Y. Shan, X. Qie, 和 M. Z. Shou, “Tune-a-video: 一次性調(diào)整圖像擴散模型用于文本到視頻生成”,2023年。
[79] T. Lüddecke 和 A. Ecker, “使用文本和圖像提示的圖像分割”,在 IEEE/CVF 計算機視覺與模式識別會議論文集中,第7086-7096頁,2022年6月。
[80] X. Chen, Y. Wang, L. Zhang, S. Zhuang, X. Ma, J. Yu, Y. Wang, D. Lin, Y. Qiao, 和 Z. Liu, “Seine: 用于生成過渡和預(yù)測的短到長視頻擴散模型”,2023年。
[81] H. Chen, Y. Zhang, X. Cun, M. Xia, X. Wang, C. Weng, 和 Y. Shan, “Videocrafter2: 克服數(shù)據(jù)限制以實現(xiàn)高質(zhì)量視頻擴散模型”,2024年。
[82] T.-C. Wang, M.-Y. Liu, J.-Y. Zhu, G. Liu, A. Tao, J. Kautz, 和 B. Catanzaro, “視頻到視頻合成”,2018年。
[83] T.-C. Wang, M.-Y. Liu, A. Tao, G. Liu, J. Kautz, 和 B. Catanzaro, “少樣本視頻到視頻合成”,2019年。
[84] D. J. Zhang, D. Li, H. Le, M. Z. Shou, C. Xiong, 和 D. Sahoo, “Moonshot: 朝向可控視頻生成和編輯的多模態(tài)條件”,2024年。
[85] L. Zhuo, G. Wang, S. Li, W. Wu, 和 Z. Liu, “Fast-vid2vid: 用于視頻到視頻合成的空間-時間壓縮”,2022年。
[86] P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, 和 G. Neubig, “預(yù)訓(xùn)練、提示和預(yù)測:自然語言處理中提示方法的系統(tǒng)調(diào)查”,2021年。
[87] B. Lester, R. Al-Rfou, 和 N. Constant, “規(guī)模的力量對于參數(shù)高效的提示調(diào)整”,在2021年自然語言處理實證方法會議論文集中,第3045-3059頁,2021年。
[88] M. Jia, L. Tang, B.-C. Chen, C. Cardie, S. Belongie, B. Hariharan, 和 S.-N. Lim, “視覺提示調(diào)整”,在歐洲計算機視覺會議論文集中,第709-727頁,Springer,2022年。
[89] OpenAI, “介紹chatgpt”,2023年。
[90] OpenAI, “Gpt-4v(視覺)系統(tǒng)卡片”,2023年。
[91] Y. Huang 和 L. Sun, “在假新聞中利用chatgpt的力量:生成、檢測和解釋的深入探索”,2023年。
[92] C. Chen 和 K. Shu, “可以檢測到由LLM生成的錯誤信息嗎?”,2023年。
[93] Z. Liu, Y. Huang, X. Yu, L. Zhang, Z. Wu, C. Cao, H. Dai, L. Zhao, Y. Li, P. Shu, F. Zeng, L. Sun, W. Liu, D. Shen, Q. Li, T. Liu, D. Zhu, 和 X. Li, “Deid-gpt: 通過gpt-4進行零樣本醫(yī)學(xué)文本去識別”,2023年。[94] J. Yao, X. Yi, X. Wang, Y. Gong, 和 X. Xie, “價值支點:將大型語言模型映射到基本人類價值的多維譜系中”,2023。
[95] Y. Huang, Q. Zhang, P. S. Y, 和 L. Sun, “Trustgpt:一個可信賴和負(fù)責(zé)任的大型語言模型基準(zhǔn)”,2023。
[96] L. Sun, Y. Huang, H. Wang, S. Wu, Q. Zhang, C. Gao, Y. Huang, W. Lyu, Y. Zhang, X. Li, Z. Liu, Y. Liu, Y. Wang, Z. Zhang, B. Kailkhura, C. Xiong, C. Xiao, C. Li, E. Xing, F. Huang, H. Liu, H. Ji, H. Wang, H. Zhang, H. Yao, M. Kellis, M. Zitnik, M. Jiang, M. Bansal, J. Zou, J. Pei, J. Liu, J. Gao, J. Han, J. Zhao, J. Tang, J. Wang, J. Mitchell, K. Shu, K. Xu, K.-W. Chang, L. He, L. Huang, M. Backes, N. Z. Gong, P. S. Yu, P.-Y. Chen, Q. Gu, R. Xu, R. Ying, S. Ji, S. Jana, T. Chen, T. Liu, T. Zhou, W. Wang, X. Li, X. Zhang, X. Wang, X. Xie, X. Chen, X. Wang, Y. Liu, Y. Ye, Y. Cao, Y. Chen, 和 Y. Zhao, “Trustllm:大型語言模型中的可信度”,2024。
[97] M. Mazeika, L. Phan, X. Yin, A. Zou, Z. Wang, N. Mu, E. Sakhaee, N. Li, S. Basart, B. Li, D. Forsyth, 和 D. Hendrycks, “Harmbench:一個用于自動化紅隊操作和強健拒絕的標(biāo)準(zhǔn)化評估框架”,2024。
[98] Y. Wang, H. Li, X. Han, P. Nakov, 和 T. Baldwin, “不回答:一個用于評估LLMs中安全防護的數(shù)據(jù)集”,2023。
[99] B. Wang, W. Chen, H. Pei, C. Xie, M. Kang, C. Zhang, C. Xu, Z. Xiong, R. Dutta, R. Schaeffer, 等,“Decodingtrust:GPT模型中信任度的全面評估”,arXiv預(yù)印本arXiv:2306.11698,2023。
[100] Z. Zhang, L. Lei, L. Wu, R. Sun, Y. Huang, C. Long, X. Liu, X. Lei, J. Tang, 和 M. Huang, “Safetybench:使用多項選擇題評估大型語言模型的安全性”,2023。
[101] X. Shen, Z. Chen, M. Backes, Y. Shen, 和 Y. Zhang, “現(xiàn)在就做任何事:在大型語言模型上表征和評估野外越獄提示”,arXiv預(yù)印本arXiv:2308.03825,2023。
[102] X. Liu, N. Xu, M. Chen, 和 C. Xiao, “Autodan:在對齊的大型語言模型上生成隱蔽的越獄提示”,arXiv預(yù)印本arXiv:2310.04451,2023。
[103] S. Zhu, R. Zhang, B. An, G. Wu, J. Barrow, Z. Wang, F. Huang, A. Nenkova, 和 T. Sun, “Autodan:對大型語言模型的可解釋梯度基對抗攻擊”,2023。
[104] A. Zhou, B. Li, 和 H. Wang, “針對越獄攻擊保護語言模型的強健提示優(yōu)化”,arXiv預(yù)印本arXiv:2401.17263,2024。
[105] X. Guo, F. Yu, H. Zhang, L. Qin, 和 B. Hu, “Cold-attack:用隱蔽性和可控性越獄LLMs”,2024。
[106] A. Wei, N. Haghtalab, 和 J. Steinhardt, “越獄了:LLM安全訓(xùn)練如何失敗?”,arXiv預(yù)印本arXiv:2307.02483,2023。
[107] Z. Niu, H. Ren, X. Gao, G. Hua, 和 R. Jin, “針對多模態(tài)大型語言模型的越獄攻擊”,2024。
[108] H. Liu, W. Xue, Y. Chen, D. Chen, X. Zhao, K. Wang, L. Hou, R. Li, 和 W. Peng, “關(guān)于大型視覺-語言模型中的幻覺的調(diào)查”,2024。
[109] T. Guan, F. Liu, X. Wu, R. Xian, Z. Li, X. Liu, X. Wang, L. Chen, F. Huang, Y. Yacoob, D. Manocha, 和 T. Zhou, “Hallusionbench:一個用于大型視覺-語言模型中糾纏的語言幻覺和視覺錯覺的高級診斷套件”,2023。
[110] Y. Li, Y. Du, K. Zhou, J. Wang, W. X. Zhao, 和 J.-R. Wen, “評估大型視覺-語言模型中的對象幻覺”,2023。
[111] Y. Huang, J. Shi, Y. Li, C. Fan, S. Wu, Q. Zhang, Y. Liu, P. Zhou, Y. Wan, N. Z. Gong, 等,“大型語言模型的Metatool基準(zhǔn):決定是否使用工具以及使用哪種工具”,arXiv預(yù)印本arXiv:2310.03128,2023。
[112] F. Liu, K. Lin, L. Li, J. Wang, Y. Yacoob, 和 L. Wang, “通過強健指令調(diào)整減輕大型多模態(tài)模型中的幻覺”,2023。
[113] L. Wang, J. He, S. Li, N. Liu, 和 E.-P. Lim, “通過用標(biāo)題重寫微調(diào)大型視覺-語言模型來減輕細(xì)粒度幻覺”,在國際多媒體建模會議上,第32-45頁,Springer,2024。
[114] Y. Zhou, C. Cui, J. Yoon, L. Zhang, Z. Deng, C. Finn, M. Bansal, 和 H. Yao, “分析和減輕大型視覺-語言模型中的對象幻覺”,arXiv預(yù)印本arXiv:2310.00754,2023。
[115] I. O. Gallegos, R. A. Ros...
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.