網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI Sora負(fù)責(zé)人最新萬(wàn)字干貨深訪 · 完整版+視頻

2024-04-26 16:59:30　來(lái)源: Web3天空之城

浙江舉報(bào)

分享至

未經(jīng)許可不得轉(zhuǎn)自，保留原文出處和公眾號(hào)傳送按鈕

文：天空之城·城主

在視頻生成領(lǐng)域，只有兩種模型：OpenAI Sora模型，以及其他不是Sora的模型。

Sora視頻生成的能力相比其他視頻生成模型完全是代際的碾壓，號(hào)稱視頻生成的GPT時(shí)刻當(dāng)之無(wú)愧。只可惜Sora還沒(méi)有發(fā)布時(shí)間表，很多時(shí)候，關(guān)心視頻生成的人只能看著偶爾發(fā)布的幾個(gè)生成樣例望梅止渴。

剛剛，NoPriors播客最新發(fā)布了Sora項(xiàng)目團(tuán)隊(duì)三位負(fù)責(zé)人的現(xiàn)場(chǎng)訪談。在這個(gè)訪談里，三位負(fù)責(zé)人透露了大量Sora的研究訓(xùn)練和使用的細(xì)節(jié)，投資人主持的問(wèn)題也可圈可點(diǎn)。這可以說(shuō)是至今關(guān)于Sora最詳細(xì)的一次探討，非常推薦！

B站傳送門(mén)：【精校】OpenAI Sora視頻生成模型團(tuán)隊(duì)最新訪談 2024.4.26【中英】-嗶哩嗶哩】

https://b23.tv/6CCxToW

Sora的核心負(fù)責(zé)人由三位才華橫溢的年輕研究者組成。他們分別是Tim Brooks、William Peebles(昵稱Bill)和Aditya Ramesh。

Tim Brooks是DALL-E 3的主要作者之一。他本科就讀于卡內(nèi)基梅隆大學(xué)，主修邏輯與計(jì)算，輔修計(jì)算機(jī)科學(xué)。去年1月，他順利從加州大學(xué)伯克利分校獲得博士學(xué)位后，立即加入OpenAI，參與了DALL-E 3和Sora的開(kāi)發(fā)工作。

與Tim同樣畢業(yè)于伯克利、只是晚了4個(gè)月的William Peebles，是Sora的另一位核心成員。Bill本科就讀于麻省理工學(xué)院，主修計(jì)算機(jī)科學(xué)。在校期間，他參與了GAN和text2video的研究，還在英偉達(dá)實(shí)習(xí)，專注于深度學(xué)習(xí)、自動(dòng)駕駛和計(jì)算機(jī)視覺(jué)。2022年，Bill在Meta實(shí)習(xí)期間，與謝賽寧合作發(fā)表了DiT模型，開(kāi)創(chuàng)性地將Transformer與擴(kuò)散模型結(jié)合。這一突破性成果被ICCV 2023錄用為Oral論文。有趣的是，業(yè)界普遍認(rèn)為OpenAI的Sora正是基于DiT模型構(gòu)建的。去年5月，Bill從伯克利畢業(yè)后也加入了OpenAI。

相比之下，Aditya Ramesh在OpenAI已經(jīng)是個(gè)"老人"。作為DALL-E的創(chuàng)造者，他主導(dǎo)了三代DALL-E的研究工作，并在每一版論文中都擔(dān)任共同一作。

三位負(fù)責(zé)人都認(rèn)為，像Sora這樣的模型是實(shí)現(xiàn)人工智能的關(guān)鍵步驟，因?yàn)樗苣M復(fù)雜的環(huán)境和世界。他們預(yù)計(jì)，隨著模型的擴(kuò)大，將能構(gòu)建類似世界模擬器的東西，任何人都可以與之互動(dòng)，這是通往人工智能的道路。

目前，Sora模型的訪問(wèn)權(quán)限已提供給一小部分藝術(shù)家和紅隊(duì)成員，以了解其可能產(chǎn)生的影響。他們從藝術(shù)家那里得到了反饋，關(guān)于如何讓它成為對(duì)他們最有用的工具，以及從紅隊(duì)成員那里得到了反饋，關(guān)于如何讓它安全，如何將它介紹給公眾。這將為他們未來(lái)的研究設(shè)定路線圖，并告知他們未來(lái)是否最終會(huì)推出產(chǎn)品，確切的時(shí)間表是什么。

三位負(fù)責(zé)人討論了模型的世界模擬功能，接著討論了模型的創(chuàng)新，包括擴(kuò)散Transformer的概念和應(yīng)用，以及模型的縮放定律。Sora的開(kāi)發(fā)需要處理大量數(shù)據(jù)，需要開(kāi)發(fā)新的基礎(chǔ)設(shè)施和系統(tǒng)。Sora的架構(gòu)與其他模型有所不同，它并不是從圖像生成器開(kāi)始并嘗試添加視頻，而是從頭開(kāi)始，專注于視頻生成。

Sora的應(yīng)用可能超越了當(dāng)前沒(méi)有應(yīng)用端到端深度學(xué)習(xí)的領(lǐng)域，包括自動(dòng)駕駛等。Sora的視覺(jué)美感引人注目，但其美學(xué)并未深入嵌入模型中。然而，Sora的語(yǔ)言理解能力允許用戶以一種比其他模型更難的方式來(lái)操縱它。

討論還涉及了Sora的潛在應(yīng)用，包括教育和娛樂(lè)。例如，制作定制的教育視頻或用視頻闡述觀點(diǎn)。此外，Sora也可能應(yīng)用于數(shù)字化身份等領(lǐng)域，但目前團(tuán)隊(duì)的重點(diǎn)仍在于技術(shù)的基礎(chǔ)發(fā)展，而不是特定的下游應(yīng)用。

Aditya提到，許多安全緩解措施可以從DALL-E 3移植過(guò)來(lái)，但也會(huì)有新的安全問(wèn)題需要關(guān)注，例如錯(cuò)誤信息和攻擊性文字的生成。

Tim分享了他對(duì)未來(lái)產(chǎn)品路線圖的興奮，特別是人們?nèi)绾卫盟麄兊漠a(chǎn)品創(chuàng)造新的東西。他期待這項(xiàng)技術(shù)能幫助才華橫溢、富有創(chuàng)造力的人創(chuàng)造出他們想要的東西。

Bill討論了讓這項(xiàng)技術(shù)更廣泛普及的挑戰(zhàn)，包括如何降低成本，以及如何處理可能出現(xiàn)的錯(cuò)誤信息和相關(guān)風(fēng)險(xiǎn)。他還提到了他們正在研究的一些功能，如更準(zhǔn)確的長(zhǎng)期物理交互。

Tim比較了Sora過(guò)程與人類大腦的工作方式，強(qiáng)調(diào)了世界建模在人類智能中的重要性。他對(duì)Sora的前景持樂(lè)觀態(tài)度，認(rèn)為它將取代人類的某些能力，并有朝一日超越人類的智慧。并且認(rèn)為，隨著規(guī)模的擴(kuò)大，真正有效的方法仍然只是預(yù)測(cè)數(shù)據(jù)，這就是他們?cè)赟ora中對(duì)文本和視覺(jué)數(shù)據(jù)所做的。預(yù)測(cè)數(shù)據(jù)是以可擴(kuò)展的方式學(xué)習(xí)智能的最佳方法。

Aditya則認(rèn)為，只需擴(kuò)大模型的規(guī)模就能賦予它們驚人的能力，這一點(diǎn)在GPT模型中已得到證實(shí)。將同樣的方法應(yīng)用于視頻模型也會(huì)帶來(lái)非常驚人的能力，Sora 1就是這一觀點(diǎn)的存在證明。

=以下是訪談全文的天空之城書(shū)面版=

主持人：

今天，我們有幸能與 OpenAI 的 Sora 項(xiàng)目團(tuán)隊(duì)進(jìn)行交談。Sora 是一種全新的視頻生成模型，它能根據(jù)文本提示生成高清、視覺(jué)連貫且長(zhǎng)達(dá)一分鐘的剪輯。Sora 還探討了這些大型視頻模型是否能成為世界模擬器的問(wèn)題，并將可擴(kuò)展的 Transformers 架構(gòu)應(yīng)用于視頻領(lǐng)域。我們今天的嘉賓是 Sora 項(xiàng)目團(tuán)隊(duì)的 Aditya Ramesh、Tim Brooks 和 Bill Peebles。歡迎大家收聽(tīng) NoPriors，非常感謝你們接受我們的邀請(qǐng)。

首先，我們希望你們每個(gè)人都能簡(jiǎn)單介紹一下自己，這樣我們的聽(tīng)眾就能知道我們正在與誰(shuí)交談。Aditya，你愿意先開(kāi)始嗎？

Aditya: 好的，我是 Aditya，我與 Tim 和 Bill 一起領(lǐng)導(dǎo) Sora 項(xiàng)目團(tuán)隊(duì)。

Tim: 大家好，我是 Tim，我也是 Sora 項(xiàng)目團(tuán)隊(duì)的leader。

Bill：我是 Bill，同樣是 Sora 項(xiàng)目團(tuán)隊(duì)的leader。

很好。或許我們可以從 OpenAI 的使命開(kāi)始談起，那就是實(shí)現(xiàn) AGI，也就是更強(qiáng)大的人工智能。那么，文本轉(zhuǎn)視頻的技術(shù)是否符合這個(gè)使命呢？你們是如何開(kāi)始研究這個(gè)領(lǐng)域的呢？

Bill:是的，我們堅(jiān)信像 Sora 這樣的模型確實(shí)是實(shí)現(xiàn) AGI 的關(guān)鍵步驟。我們認(rèn)為一個(gè)很好的例子就是一群人在冬天穿過(guò)東京的場(chǎng)景。在這個(gè)場(chǎng)景中，復(fù)雜性無(wú)處不在。你可以想象一個(gè)攝像機(jī)飛過(guò)這個(gè)場(chǎng)景，有很多人在互動(dòng)，他們?cè)谡f(shuō)話，他們手牽著手，有人在附近的攤位上賣東西。我們真的認(rèn)為這個(gè)例子說(shuō)明了 Sora 是如何在神經(jīng)網(wǎng)絡(luò)的權(quán)重范圍內(nèi)模擬極其復(fù)雜的環(huán)境和世界的。

展望未來(lái)，為了生成真正逼真的視頻，你必須學(xué)習(xí)一些關(guān)于人們?nèi)绾喂ぷ鳌⑷绾闻c他人互動(dòng)、最終如何思考的模型。這不僅包括人，還有動(dòng)物，以及任何你想要模擬的物體。因此，展望未來(lái)，隨著我們繼續(xù)擴(kuò)大像 Sora 這樣的模型，我們認(rèn)為我們將能夠構(gòu)建這些類似世界模擬器的東西，基本上任何人都可以與它們互動(dòng)。作為人類，我可以運(yùn)行自己的模擬器，我可以去給模擬器中的人布置工作，他們做完后可以帶著工作回來(lái)。我們認(rèn)為這是通往 AGI 的道路，隨著我們未來(lái)擴(kuò)大 Sora 的規(guī)模，AGI 就會(huì)實(shí)現(xiàn)。

有人說(shuō)，盡管對(duì)消費(fèi)產(chǎn)品的需求巨大，但我們?nèi)匀贿b不可及，比如路線圖上的內(nèi)容是什么？在更廣泛地使用 Sora 之前，您需要做什么工作？Tim，你愿意談?wù)勥@個(gè)問(wèn)題嗎？

Tim:是的，我們真的希望能與 OpenAI 以外的人交流，思考 Sora 將如何影響世界，它將如何對(duì)人類有用。因此，我們目前還沒(méi)有制定產(chǎn)品的即時(shí)計(jì)劃，甚至沒(méi)有制定產(chǎn)品的時(shí)間表。然而，我們正在做的是，我們將Sora的訪問(wèn)權(quán)限提供給一小部分藝術(shù)家以及紅隊(duì)成員，以開(kāi)始了解Sora將產(chǎn)生的影響。我們從藝術(shù)家那里得到了反饋，關(guān)于如何讓它成為對(duì)他們最有用的工具，以及從紅隊(duì)成員那里得到了反饋，關(guān)于如何讓它安全，如何將它介紹給公眾。這將為我們未來(lái)的研究設(shè)定路線圖，并告知我們未來(lái)是否最終會(huì)推出產(chǎn)品，確切的時(shí)間表是什么。

你能告訴我們你得到的一些反饋嗎？

Aditya:是的，我們已經(jīng)將Sora的訪問(wèn)權(quán)限提供給了少數(shù)藝術(shù)家和創(chuàng)作者，只是為了獲得早期反饋。總的來(lái)說(shuō)，我認(rèn)為一件大事就是可控性。目前模型實(shí)際上只接受文本作為輸入。雖然這很有用，但在能夠指定你想要的精確描述方面仍然相當(dāng)受限。因此，我們正在考慮如何在未來(lái)擴(kuò)展模型的功能，以便您能夠提供除文本之外的輸入。

你們有沒(méi)有看到藝術(shù)家或其他人用它制作的最喜歡的東西，或者最喜歡的視頻或你覺(jué)得非常鼓舞人心的東西？

我知道，當(dāng)它推出時(shí)，很多人都被一些圖像的美麗、引人注目所震撼，你會(huì)看到一只貓?jiān)谒刂械挠白踊蛑T如此類的東西。但我只是好奇，隨著越來(lái)越多的人開(kāi)始使用它，你看到了什么。

Tim:是的，看到藝術(shù)家們用這個(gè)模型做了什么真的很棒，因?yàn)槲覀冇凶约旱南敕ㄈL試一些東西。但是，那些以制作創(chuàng)意內(nèi)容為職業(yè)的人非常有創(chuàng)造力，做了如此令人驚嘆的事情。例如，Shy Kids制作了一個(gè)非常酷的視頻，他們制作了這個(gè)短篇故事Airhead，這個(gè)角色有一個(gè)氣球。他們真的很喜歡這個(gè)故事。看到Sora能夠解鎖并讓這個(gè)故事更容易講述，這真的很酷。我認(rèn)為這甚至與Sora制作的某個(gè)特定剪輯或視頻無(wú)關(guān)，而與這些藝術(shù)家想要講述并能夠分享的故事有關(guān)，而Sora可以幫助實(shí)現(xiàn)這一點(diǎn)。這真的很棒。

你提到了東京場(chǎng)景。其他的呢？

Bill:我個(gè)人最喜歡的我們制作的樣本是Bling Zoo。我在我們推出Sora的那天在Twitter上發(fā)布了這個(gè)。它本質(zhì)上是一個(gè)紐約動(dòng)物園的多鏡頭場(chǎng)景，它也是一家珠寶店。所以你會(huì)看到劍齒虎裝飾著閃亮的東西。

這非常超現(xiàn)實(shí)。

Bill:是的，我喜歡這些樣本，因?yàn)?strong>作為一個(gè)喜歡創(chuàng)造內(nèi)容但又沒(méi)有足夠技能的人，使用這個(gè)模型并激發(fā)出一堆想法并得到一些非常引人注目的東西是非常容易的。比如，在迭代提示方面，實(shí)際生成它所花費(fèi)的時(shí)間真的不到一個(gè)小時(shí)，我就得到了我真正喜歡的東西。所以我很開(kāi)心只是玩這個(gè)模型來(lái)得到這樣的東西。我非常高興地看到藝術(shù)家們也熱衷于使用這些模型，并從中創(chuàng)作出精彩的作品。

這些模型在短片或其他領(lǐng)域的廣泛應(yīng)用的時(shí)間表是什么？如果你回顧皮克斯的發(fā)展歷程，你會(huì)發(fā)現(xiàn)他們最初是制作短片，然后部分短片逐漸演變成了長(zhǎng)片。這在很大程度上與他們?nèi)绾尉?xì)模擬頭發(fā)運(yùn)動(dòng)等細(xì)節(jié)有關(guān)。觀察上一代技術(shù)的發(fā)展過(guò)程非常有趣，我認(rèn)為它已經(jīng)有30年的歷史了。

我們何時(shí)會(huì)開(kāi)始看到來(lái)自Sora或其他模型的實(shí)際內(nèi)容，這些內(nèi)容將由專業(yè)人士制作，并成為更廣泛媒體類型的一部分？

Tim:這是一個(gè)好問(wèn)題。我沒(méi)有確切的時(shí)間表預(yù)測(cè)，但我對(duì)此非常感興趣，那就是除了傳統(tǒng)電影之外，人們可能會(huì)將其用于什么。我認(rèn)為，在接下來(lái)的幾年里，我們會(huì)看到人們開(kāi)始制作越來(lái)越多的電影，但我認(rèn)為人們也會(huì)找到使用這些模型的全新方式，這些方式與我們習(xí)慣的當(dāng)前媒體完全不同。因?yàn)檫@是一個(gè)非常不同的范例，你可以告訴這些模型你希望它們看到什么，它們可以做出某種反應(yīng)，也許它們就像真正有創(chuàng)造力的藝術(shù)家想出的新內(nèi)容交互模式。所以我實(shí)際上最興奮的是人們將要做的事情，這些事情與我們目前所做的完全不同。

你提到的一點(diǎn)非常有趣，這也是一種進(jìn)行世界建模的方法。Aditya在OpenAI工作了大約五年，因此你見(jiàn)證了許多模型和公司的發(fā)展。最初是機(jī)械臂之類的東西，它是游戲的自動(dòng)play之類的東西。

當(dāng)你考慮這個(gè)世界模擬模型的功能時(shí)，你認(rèn)為它會(huì)成為模擬的物理引擎嗎？人們實(shí)際上正在模擬風(fēng)洞？它是機(jī)器人技術(shù)的基礎(chǔ)嗎？還是別的東西？我對(duì)未來(lái)可能出現(xiàn)的其他一些前瞻性應(yīng)用非常好奇。

Aditya：是的，我完全認(rèn)為在視頻模型中進(jìn)行模擬是我們將來(lái)某個(gè)時(shí)候能夠做到的事情。Bill實(shí)際上對(duì)這種事情有很多想法。

Bill：我認(rèn)為你說(shuō)到了點(diǎn)子上。對(duì)于像機(jī)器人這樣的應(yīng)用，你可以從視頻中學(xué)到很多東西，而這些不一定能從其他模式中獲得。OpenAI等公司過(guò)去在這方面投入了大量資金，比如語(yǔ)言，比如手臂和關(guān)節(jié)如何在空間中移動(dòng)的細(xì)節(jié)，再次回到東京的那個(gè)場(chǎng)景，那些腿是如何移動(dòng)的，它們是如何以物理上準(zhǔn)確的方式與地面接觸的。所以，你只需通過(guò)對(duì)原始視頻的訓(xùn)練就能學(xué)到很多關(guān)于物理世界的知識(shí)，我們真的相信，這對(duì)于未來(lái)的物理體現(xiàn)等事情至關(guān)重要。

再談?wù)勀Ｐ捅旧恚@里有很多非常有趣的創(chuàng)新。所以不是要讓你為難，Tim，你能向廣大技術(shù)受眾描述一下什么是擴(kuò)散Transformer嗎？

Tim：所以Sora建立在OpenAI的DALL-E模型和GPT模型的研究之上。擴(kuò)散是一種數(shù)據(jù)生成過(guò)程，以我們的案例為例，即視頻生成。這個(gè)過(guò)程從噪音開(kāi)始，通過(guò)反復(fù)多次去除噪音，直到最終去除了足夠多的噪音，只生成一個(gè)樣本。這就是我們生成視頻的過(guò)程。我們從一段有噪音的視頻開(kāi)始，逐步去除噪音。

然而，從架構(gòu)角度來(lái)看，我們的模型必須是可擴(kuò)展的，它們需要能夠從大量數(shù)據(jù)中學(xué)習(xí)，并理解視頻中那些非常復(fù)雜且具有挑戰(zhàn)性的關(guān)系，這一點(diǎn)至關(guān)重要。因此，我們采用了一種類似于GPT模型的架構(gòu)，稱為T(mén)ransformer。因此，將這兩個(gè)概念與Transformer架構(gòu)結(jié)合起來(lái)的擴(kuò)散Transformer使我們能夠擴(kuò)展這些模型。隨著我們投入更多的計(jì)算和更多的數(shù)據(jù)來(lái)訓(xùn)練它們，它們的性能會(huì)越來(lái)越好。

我們甚至發(fā)布了一份關(guān)于Sora的技術(shù)報(bào)告，展示了在使用較少、中等和更多的計(jì)算量時(shí)，從同一提示中獲得的結(jié)果。我們堅(jiān)信，通過(guò)使用這種方法，隨著你使用越來(lái)越多的計(jì)算，結(jié)果會(huì)越來(lái)越好。因此，通過(guò)使用這種非常簡(jiǎn)單的方法，我們將能夠通過(guò)增加更多的計(jì)算來(lái)繼續(xù)改進(jìn)這些模型，添加更多數(shù)據(jù)，它們將能夠完成我們一直在談?wù)摰乃羞@些令人驚奇的事情，包括更好的模擬和更長(zhǎng)期的生成。

我們能否描述一下這種模型的縮放定律是什么樣的？

Bill：這是一個(gè)好問(wèn)題。正如Tim所提到的，使用Transformer的好處之一是，你可以繼承我們?cè)谡Z(yǔ)言等其他領(lǐng)域看到的所有優(yōu)秀屬性。因此，你完全可以開(kāi)始提出視頻而不是語(yǔ)言的縮放定律。這是我們團(tuán)隊(duì)正在積極研究的事情，我們不僅在構(gòu)建這些模型，還在尋找讓它們變得更好的方法。所以，如果我使用相同數(shù)量的訓(xùn)練計(jì)算，我是否可以在不從根本上增加所需計(jì)算量的情況下獲得更好的損失？這些都是我們的研究團(tuán)隊(duì)每天要解決的問(wèn)題，以使Sora和未來(lái)的模型盡可能好。

關(guān)于在這個(gè)領(lǐng)域應(yīng)用Transformer的問(wèn)題之一就是標(biāo)記化（Tokenization），對(duì)嗎？順便說(shuō)一句，我不知道是誰(shuí)想出了這個(gè)名字，但像Latent Spacetime Patches這樣的科幻名字在這里很棒。你能解釋一下它是什么以及為什么它與此相關(guān)嗎？因?yàn)椋軌蜻M(jìn)行長(zhǎng)達(dá)一分鐘的生成并獲得視覺(jué)和時(shí)間連貫性真的很棒。

Tim：我認(rèn)為我們想出的并不是一個(gè)名字，而是一個(gè)描述性的東西，確切地描述了我們稱之為什么。

是的，甚至更好。

Tim：因此，LLM范式的一個(gè)關(guān)鍵成功就是token的概念。如果你看看互聯(lián)網(wǎng)，你會(huì)發(fā)現(xiàn)上面有各種各樣的文本數(shù)據(jù)。有書(shū)籍、代碼和數(shù)學(xué)。語(yǔ)言模型的妙處在于它們有token這一單一概念，這使得它們能夠在如此廣泛的數(shù)據(jù)上進(jìn)行訓(xùn)練。之前的視覺(jué)生成模型真的沒(méi)有類似的東西。所以，在Sora之前，非常標(biāo)準(zhǔn)的做法是，你會(huì)在256 x 256分辨率的圖像或256 x 256的視頻上訓(xùn)練圖像生成模型或視頻生成模型，這些視頻正好是四秒長(zhǎng)。這個(gè)問(wèn)題的關(guān)鍵在于，數(shù)據(jù)類型的使用受到了嚴(yán)重的限制，這使得我們無(wú)法充分利用互聯(lián)網(wǎng)上大量存在的視覺(jué)數(shù)據(jù)。這種限制也削弱了模型的通用性。因此，在Sora項(xiàng)目中，我們引入了“時(shí)空補(bǔ)丁”的概念。這種方法允許我們僅表示數(shù)據(jù)，而這些數(shù)據(jù)可以存在于圖像、長(zhǎng)視頻和高垂直視頻中，我們只需提取立方體即可。

你可以將視頻想象為一個(gè)堆棧，就像一個(gè)垂直堆疊的單個(gè)圖像，你可以從中提取這些3D立方體。當(dāng)我們最終將其輸入Transformer時(shí)，這就是我們對(duì)token的理解。因此，Sora能夠做的不僅僅是生成固定時(shí)長(zhǎng)的720p視頻。你可以生成垂直視頻、寬屏視頻，甚至可以在一比二到二比一之間執(zhí)行任何操作。它還可以生成圖像，這是一個(gè)圖像生成模型。

實(shí)際上，這是第一個(gè)具有廣度的視覺(jué)內(nèi)容生成模型，就像語(yǔ)言模型一樣。這就是我們追求這個(gè)方向的真正原因。

在輸入和訓(xùn)練方面，它同樣重要，因?yàn)樗軌蚪邮詹煌愋偷囊曨l。

Bill：這個(gè)項(xiàng)目的很大一部分實(shí)際上是開(kāi)發(fā)基礎(chǔ)設(shè)施和系統(tǒng)，以便能夠以以前的圖像或視頻生成系統(tǒng)所不需要的方式處理如此龐大的數(shù)據(jù)。

Tim：在Sora之前，許多處理視頻的模型實(shí)際上都在考慮擴(kuò)展圖像生成模型。在圖像生成方面有很多出色的工作。許多人一直在做的是使用圖像生成器并對(duì)其進(jìn)行一些擴(kuò)展，而不是生成一張圖像，你可以生成幾秒鐘的圖像。但對(duì)于Sora來(lái)說(shuō)，真正重要的是架構(gòu)上的差異，而不是從圖像生成器開(kāi)始并嘗試添加視頻，而是從頭開(kāi)始，我們從如何制作一分鐘的高清鏡頭的問(wèn)題開(kāi)始。這就是我們的目標(biāo)。

當(dāng)你有這個(gè)目標(biāo)時(shí)，我們知道我們不能僅僅擴(kuò)展圖像生成器。我們知道，為了制作一分鐘的高清鏡頭，我們需要可擴(kuò)展的東西，將數(shù)據(jù)分解成非常簡(jiǎn)單的方式，以便我們可以使用可擴(kuò)展的模型。所以我認(rèn)為這確實(shí)是從圖像生成器到Sora的架構(gòu)演變。

這是一個(gè)非常有趣的框架，因?yàn)樗杏X(jué)可以應(yīng)用于人們目前沒(méi)有應(yīng)用端到端深度學(xué)習(xí)的各種其他領(lǐng)域。

Tim: 這是有道理的，因?yàn)樵谧疃痰臅r(shí)間內(nèi)，我們并不是第一個(gè)推出視頻生成器的人。很多人，很多人在視頻生成方面做了令人印象深刻的工作，但我們覺(jué)得，好吧，我們寧愿選擇未來(lái)的一個(gè)點(diǎn)，然后，花一年時(shí)間研究它。而且有這種快速做事的壓力，因?yàn)槿斯ぶ悄芴炝恕?/strong>最快的做法是，哦，讓我們采用現(xiàn)在有效的東西，然后添加一些東西。正如您所說(shuō)，這可能比將圖像轉(zhuǎn)換為視頻更為普遍，還涉及其他方面。然而，有時(shí)候我們需要退后一步進(jìn)行思考，例如，三年后這個(gè)問(wèn)題的解決方案會(huì)是什么樣子？讓我們開(kāi)始構(gòu)建它。

確實(shí)，最近在自動(dòng)駕駛領(lǐng)域也出現(xiàn)了類似的轉(zhuǎn)變，人們從定制的邊緣案例預(yù)測(cè)和啟發(fā)式方法轉(zhuǎn)向了新模型中的端到端深度學(xué)習(xí)。因此，看到它在視頻中的應(yīng)用非常令人興奮。

Sora最引人注目的一點(diǎn)就是它的視覺(jué)美感。我對(duì)此感到好奇，你是如何調(diào)整或制作這種美感的？因?yàn)槲抑涝谝恍└鼈鹘y(tǒng)的圖像生成模型中，你們都有反饋，有助于影響美感的演變。但在某些情況下，人們實(shí)際上是在調(diào)整模型。所以我有點(diǎn)好奇你在Sora的背景下是如何考慮這個(gè)問(wèn)題的。

Bill: 實(shí)際上，我們并沒(méi)有為Sora投入大量精力。世界很美？這是一個(gè)很好的答案。我認(rèn)為這可能是對(duì)大部分問(wèn)題的誠(chéng)實(shí)回答。我認(rèn)為Sora的語(yǔ)言理解絕對(duì)允許用戶以一種比其他模型更難的方式來(lái)操縱它。你可以提供很多提示和視覺(jué)提示，這些提示將引導(dǎo)模型朝著你想要的代數(shù)類型發(fā)展。

但美學(xué)并不是深深嵌入的。

我認(rèn)為展望未來(lái)，模型會(huì)賦予人們某種力量，讓他們理解你的個(gè)人審美感，這將是很多人期待的事情。

我們接觸的許多藝術(shù)家和創(chuàng)作者都希望將他們的全部資產(chǎn)上傳到模型中，這樣在寫(xiě)標(biāo)題時(shí)就可以借鑒大量的作品，并讓模型理解他們?cè)O(shè)計(jì)公司幾十年來(lái)積累的術(shù)語(yǔ)等等。因此我認(rèn)為個(gè)性化以及它如何與美學(xué)結(jié)合在一起將會(huì)成為以后值得探索的一件很酷的事情。

我認(rèn)為T(mén)im所說(shuō)的就像超越傳統(tǒng)娛樂(lè)的新應(yīng)用。我工作、旅行，還有年幼的孩子。所以我不知道這是否是需要評(píng)判的事情。但我今天做的事情之一是制作一些類似短篇有聲讀物的東西，里面有聲音克隆、多莉圖像，還有你知道的，風(fēng)格類似的故事，比如魔法樹(shù)屋之類的，或者圍繞我感興趣的某個(gè)話題，比如，哦，和羅馬皇帝十世一起出去玩，對(duì)吧？或者女孩們、我的孩子感興趣的東西。

但這在計(jì)算上很昂貴，很難，而且不太可能。但我想象每個(gè)人都會(huì)擁有類似桌面皮克斯的某個(gè)版本，我認(rèn)為孩子們會(huì)首先發(fā)現(xiàn)這一點(diǎn)，但我會(huì)講述一個(gè)故事，并讓神奇的視覺(jué)效果實(shí)時(shí)發(fā)生。我認(rèn)為這是一種與我們現(xiàn)在完全不同的娛樂(lè)模式。

我們會(huì)得到它嗎？

Tim：我認(rèn)為我們正朝著那個(gè)方向前進(jìn)。還有不同的娛樂(lè)模式、不同的教育模式和交流模式。娛樂(lè)是其中很重要的一部分，但我認(rèn)為一旦真正理解了我們的世界，就會(huì)有很多潛在的應(yīng)用。我們的世界和我們體驗(yàn)世界的方式很大程度上都是視覺(jué)化的。這些模型真正酷的地方在于，它們開(kāi)始更好地理解我們的世界、我們的生活和我們所做的事情。我們可以利用這些技術(shù)來(lái)娛樂(lè)自己，也可以用它們來(lái)教育我們。有時(shí)候，當(dāng)我想學(xué)習(xí)一些東西時(shí)，最有效的方法就是找一個(gè)定制的教育視頻來(lái)解釋。同樣，如果我想和某人交流一些觀點(diǎn)，可能最好的方式就是制作一個(gè)視頻來(lái)闡述我的觀點(diǎn)。因此，我認(rèn)為娛樂(lè)和視頻模型可能有更廣泛的潛在應(yīng)用。

這是非常合理的。這引起了我的共鳴，我認(rèn)為如果你問(wèn)年輕一代的人，他們會(huì)說(shuō)當(dāng)今世界上最大的教育推動(dòng)力是 YouTube。

無(wú)論是好是壞。你們有嘗試過(guò)將這些技術(shù)應(yīng)用于數(shù)字化身份等方面嗎？像 Synesthesia、Heygen 這樣的公司在這個(gè)領(lǐng)域做了一些有趣的事情。但是，擁有一種真正能夠以非常深刻和豐富的方式囊括一個(gè)人的技術(shù)，似乎是一種有趣的潛在適應(yīng)性方法。我只是好奇你是否已經(jīng)嘗試過(guò)類似的事情，或者這是否不太適用，因?yàn)樗袷俏谋镜揭曨l的提示。

Tim：到目前為止，我們并沒(méi)有真正專注于其背后的核心技術(shù)。因此，我們并沒(méi)有過(guò)多關(guān)注特定的應(yīng)用，包括化身的概念，這是非常有意義的。我認(rèn)為嘗試一下會(huì)很酷。我認(rèn)為我們現(xiàn)在在 Sora 的軌跡中的位置就像是這種新視覺(jué)模型范式的 GPT-1。我們真正在研究基礎(chǔ)研究，以使它們變得更好，使其成為可以為所有這些不同事物提供動(dòng)力的更好的引擎。所以，我們現(xiàn)在的重點(diǎn)只是這項(xiàng)技術(shù)的基礎(chǔ)發(fā)展，可能比特定的下游應(yīng)用更重要。這是非常有道理的。

是的，我問(wèn)化身問(wèn)題的原因之一是它開(kāi)始引發(fā)有關(guān)安全性的問(wèn)題。所以我有點(diǎn)好奇，你們是如何看待視頻模型中的安全性以及進(jìn)行深度偽造或惡搞之類的事情的可能性的。

Aditya：是的，我可以談一談這個(gè)。這絕對(duì)是一個(gè)相當(dāng)復(fù)雜的話題。我認(rèn)為很多安全緩解措施可能都可以從 DALL-E 3 中移植過(guò)來(lái)。例如，我們處理色情圖片或血腥圖片的方式，諸如此類。肯定會(huì)有新的安全問(wèn)題需要擔(dān)心，例如錯(cuò)誤信息。或者例如，我們是否允許用戶生成帶有攻擊性文字的圖片？

我認(rèn)為這里要弄清楚的一個(gè)關(guān)鍵問(wèn)題是，部署這項(xiàng)技術(shù)的公司承擔(dān)多少責(zé)任？例如，社交媒體公司應(yīng)該做多少工作來(lái)告知用戶他們看到的內(nèi)容可能不是來(lái)自可信來(lái)源？用戶在使用這項(xiàng)技術(shù)創(chuàng)造某些東西時(shí)要承擔(dān)多少責(zé)任？所以我認(rèn)為這很棘手。我們需要認(rèn)真思考這些問(wèn)題，以找到我們認(rèn)為對(duì)人們最有利的立場(chǎng)。這是有道理的。

而且，還有很多先例。就像人們過(guò)去使用 Photoshop 處理圖像然后發(fā)布它們一樣。并提出索賠。人們并沒(méi)有說(shuō)，因此，Photoshop 的制造商要為濫用該技術(shù)的人負(fù)責(zé)。因此，在考慮這些事情方面，似乎有很多先例。

Aditya：確實(shí)如此，我們的目標(biāo)是發(fā)布一些能讓人們真正感受到自由，可以自由表達(dá)自己并做他們想做的事情的產(chǎn)品。然而，有時(shí)這與做一些負(fù)責(zé)任的事情以及以人們可以習(xí)慣的方式逐步發(fā)布技術(shù)相矛盾。

我想向在座的各位提出一個(gè)問(wèn)題，也許可以從Tim開(kāi)始，如果你能分享這一點(diǎn)，那就太好了。關(guān)于未來(lái)的產(chǎn)品路線圖、你的發(fā)展方向或你接下來(lái)要開(kāi)發(fā)的一些功能，你最興奮的是什么？

Tim：確實(shí)，這是一個(gè)好問(wèn)題。我對(duì)人們將如何利用我們的產(chǎn)品創(chuàng)造出新的東西感到非常興奮。我認(rèn)為有很多才華橫溢、富有創(chuàng)造力的人都有自己想要?jiǎng)?chuàng)造的東西。但有時(shí)要做到這一點(diǎn)真的很困難，因?yàn)樗麄兛赡苋狈Ρ匾馁Y源、工具或其他東西。這項(xiàng)技術(shù)有可能讓許多有才華橫溢、富有創(chuàng)造力的人創(chuàng)造出他們想要的東西。我真的很期待他們將要制作出什么了不起的東西，以及這項(xiàng)技術(shù)將如何幫助他們。

Bill，我想問(wèn)你一個(gè)問(wèn)題，這是否像你剛才提到的GPT-1一樣，我們還有很長(zhǎng)的路要走。這不是普通大眾有機(jī)會(huì)嘗試的東西。除了長(zhǎng)度等顯而易見(jiàn)的問(wèn)題之外，你能描述一下你想要解決的局限性或差距嗎？

Bill：是的，我認(rèn)為，在讓這項(xiàng)技術(shù)更廣泛地普及方面，有很多服務(wù)方面的考慮需要考慮。一個(gè)大問(wèn)題是如何讓這項(xiàng)技術(shù)足夠便宜，讓人們可以使用。我們過(guò)去說(shuō)過(guò)，在生成視頻方面，這在很大程度上取決于確切的參數(shù)，比如你正在制作的視頻的分辨率和時(shí)長(zhǎng)。但是，這不是即時(shí)的。你必須至少等待幾分鐘才能看到我們生成的這些很長(zhǎng)的視頻。所以我們正在積極地研究線程，以降低成本，以便更廣泛地普及它。

我認(rèn)為，正如Aditya和Sam所暗示的那樣，在安全方面也有很多考慮。因此，為了讓這項(xiàng)技術(shù)真正變得更加廣泛地普及，我們需要確保，特別是在選舉年，我們對(duì)可能出現(xiàn)的錯(cuò)誤信息和任何相關(guān)風(fēng)險(xiǎn)非常謹(jǐn)慎。我們今天正在積極努力解決這些問(wèn)題。這是我們研究路線圖的重要組成部分。

那么，關(guān)于核心問(wèn)題，比如質(zhì)量問(wèn)題，有沒(méi)有更好的術(shù)語(yǔ)？有沒(méi)有具體的事情，比如你正在考慮物體永久性或某些類型的交互？

Bill：是的，當(dāng)我們展望GPT-2或GPT-3的時(shí)刻時(shí)，我們真的很高興非常復(fù)雜的長(zhǎng)期物理交互變得更加準(zhǔn)確。舉一個(gè)具體例子，如果我有一段某人踢足球的視頻，他們?cè)谔咔颍谀硞€(gè)時(shí)刻，那個(gè)球可能會(huì)蒸發(fā)掉，也許會(huì)回來(lái)。所以它可以相當(dāng)可靠地進(jìn)行某些更簡(jiǎn)單的交互，比如人們走路。但這些更詳細(xì)的對(duì)象與對(duì)象之間的交互肯定仍然是一個(gè)正在醞釀的功能，我們認(rèn)為隨著規(guī)模的擴(kuò)大，它會(huì)變得更好。但這是一件值得期待的事情。

我認(rèn)為有一個(gè)例子可以作為少數(shù)幾個(gè)的縮影。當(dāng)然，這樣的例子有很多，但我曾經(jīng)見(jiàn)過(guò)的一個(gè)例子是，一個(gè)男人咬了一口漢堡，而這一口在漢堡里留下的痕跡，就像保持了某種狀態(tài)一樣，這非常酷。

Bill：是的，我們對(duì)這個(gè)非常興奮。還有另一個(gè)例子，就像一個(gè)女人用水彩在畫(huà)布上作畫(huà)，畫(huà)筆在畫(huà)布上真的留下了痕跡。所以，正如你所說(shuō)，目前的模型中有一些這種能力的閃光點(diǎn)，我們認(rèn)為它在未來(lái)會(huì)變得更好。

你能談?wù)勀阍赟ora項(xiàng)目上的工作是如何影響更廣泛的研究路線圖的嗎？

Tim：是的，我認(rèn)為這是關(guān)于Sora項(xiàng)目的一個(gè)重要方面，即通過(guò)查看所有這些視覺(jué)數(shù)據(jù)來(lái)了解世界的知識(shí)。它理解3D，這是一件很酷的事情，因?yàn)槲覀冞€沒(méi)有對(duì)它進(jìn)行訓(xùn)練。我們并沒(méi)有明確地將3D信息融入其中。我們只是用視頻數(shù)據(jù)對(duì)它進(jìn)行了訓(xùn)練，它學(xué)會(huì)了3D，因?yàn)檫@些視頻中存在3D。它還學(xué)會(huì)了當(dāng)你咬一口漢堡包時(shí)，會(huì)留下咬痕。所以它學(xué)到了很多關(guān)于我們這個(gè)世界的東西。當(dāng)我們與世界互動(dòng)時(shí)，很多都是視覺(jué)的。我們一生中看到和學(xué)到的東西很多都是視覺(jué)信息。所以我們真的認(rèn)為，對(duì)于智能，對(duì)于引導(dǎo)更智能的人工智能模型，更好地理解世界，這對(duì)它們來(lái)說(shuō)非常重要，因?yàn)樗鼈冃枰羞@樣的基礎(chǔ)，比如，嘿，這就是我們生活的世界。這里面有太多的復(fù)雜性。有很多關(guān)于人們?nèi)绾位?dòng)、事情如何發(fā)生、過(guò)去的事件如何影響未來(lái)的事件的內(nèi)容，這實(shí)際上會(huì)導(dǎo)致比生成視頻更廣泛的更智能的人工智能模型。

這幾乎就像你同時(shí)發(fā)明了未來(lái)的視覺(jué)皮層和大腦推理部分的某些部分。

Tim: 是的，這是一個(gè)很酷的比較，因?yàn)?strong>人類擁有的很多智能實(shí)際上都與世界建模有關(guān)，對(duì)吧？當(dāng)我們思考如何做事時(shí)，我們總是在腦海中演繹各種場(chǎng)景。我們會(huì)在夢(mèng)中在腦海中演繹各種場(chǎng)景。我們?cè)谧鍪轮皶?huì)提前思考。如果我這樣做，這件事就會(huì)發(fā)生。如果我做另一件事，會(huì)發(fā)生什么，對(duì)吧？所以我們有一個(gè)世界模型，將Sora構(gòu)建為世界模型與人類擁有的大部分智能非常相似。

你們?nèi)绾慰创c人類的類比，即擁有一個(gè)非常近似的世界模型，而不是像傳統(tǒng)意義上的物理引擎那樣精確的東西，對(duì)吧？因?yàn)槿绻夷弥粋€(gè)蘋(píng)果然后把它扔下，我預(yù)計(jì)它會(huì)以一定的速度掉落，但大多數(shù)人并不認(rèn)為這是用計(jì)算速度來(lái)表達(dá)路徑。你認(rèn)為這種學(xué)習(xí)在大型模型中就像是并行的嗎？

Bill：我認(rèn)為這是一個(gè)非常有趣的觀察。我認(rèn)為我們思考事物的方式是，它幾乎就像人類的一個(gè)缺陷，就是它沒(méi)有那么高的保真度。因此，當(dāng)你涉及到一組非常狹窄的物理學(xué)時(shí)，我們實(shí)際上無(wú)法做出非常準(zhǔn)確的長(zhǎng)期預(yù)測(cè)，這是我們可以通過(guò)其中一些系統(tǒng)進(jìn)行改進(jìn)的。因此，我們對(duì)Sora的前景持樂(lè)觀態(tài)度，認(rèn)為它將取代人類的某些能力。從長(zhǎng)遠(yuǎn)來(lái)看，我們相信Sora有朝一日將超越人類的智慧，成為世界模型的代表。然而，這也是一個(gè)明確的證據(jù)，表明對(duì)于其他類型的智能來(lái)說(shuō)，Sora并非必需。無(wú)論如何，這仍然是Sora和未來(lái)模型可以改進(jìn)的地方。

顯然，對(duì)于預(yù)測(cè)投擲足球的軌跡，下一版本的模型將會(huì)有更好的表現(xiàn)，比如我的模型就會(huì)更好。

Tim：如果我可以補(bǔ)充一點(diǎn)，這與規(guī)模范式有關(guān)，也與我們希望隨著計(jì)算能力的增加，方法能夠不斷改進(jìn)的一些痛苦經(jīng)驗(yàn)有關(guān)。在這個(gè)范式中，真正有效的方法就是執(zhí)行簡(jiǎn)單但具有挑戰(zhàn)性的任務(wù)，即預(yù)測(cè)數(shù)據(jù)。你可以嘗試提出更復(fù)雜的任務(wù)，例如，不直接使用視頻，而是在某種類似的空間中模擬近似的事物。但是，當(dāng)涉及到方法如何隨著規(guī)模的擴(kuò)大而改進(jìn)的縮放定律時(shí)，所有這些復(fù)雜性實(shí)際上并沒(méi)有帶來(lái)任何好處。隨著規(guī)模的擴(kuò)大，真正有效的方法仍然只是預(yù)測(cè)數(shù)據(jù)。這就是我們對(duì)文本所做的，我們只是預(yù)測(cè)文本。這也是我們?cè)赟ora中對(duì)視覺(jué)數(shù)據(jù)所做的，我們并沒(méi)有復(fù)雜化問(wèn)題，而是試圖找出一些新的東西來(lái)優(yōu)化。我們認(rèn)為，以可擴(kuò)展的方式學(xué)習(xí)智能的最好方法就是預(yù)測(cè)數(shù)據(jù)，這是非常有道理的。

關(guān)于你所說(shuō)的，預(yù)測(cè)會(huì)變得更好，沒(méi)有必要的限制來(lái)接近人類。你認(rèn)為公眾對(duì)視頻模型或Sora有什么誤解嗎？或者你想讓他們知道什么？

Aditya：我認(rèn)為，對(duì)于公眾來(lái)說(shuō)，Sora的發(fā)布可能是最大的更新。正如Bill和Tim所說(shuō)，在內(nèi)部，我們一直在將Sora與GPT模型進(jìn)行比較。當(dāng)GPT-1和GPT-2問(wèn)世時(shí)，人們開(kāi)始越來(lái)越清楚地認(rèn)識(shí)到，只需擴(kuò)大這些模型的規(guī)模就能賦予它們驚人的能力。目前還不清楚，擴(kuò)大下一個(gè)標(biāo)記預(yù)測(cè)的規(guī)模是否會(huì)產(chǎn)生一個(gè)有助于編寫(xiě)代碼的語(yǔ)言模型。對(duì)我們來(lái)說(shuō)，很明顯，將同樣的方法應(yīng)用于視頻模型也會(huì)帶來(lái)非常驚人的能力。我認(rèn)為Sora 1是一種存在證明，表明現(xiàn)在縮放曲線上有一個(gè)點(diǎn)，我們對(duì)這將帶來(lái)什么感到非常興奮。

這真是太棒了。我不知道為什么這讓每個(gè)人都如此驚訝，但痛苦的教訓(xùn)又一次得到了證實(shí)。

是的，我只想說(shuō)，正如Tim和Aditya所暗示的那樣，我們確實(shí)覺(jué)得這是GPT-1的時(shí)刻，這些模型很快就會(huì)變得更好。我們真的很興奮，我們認(rèn)為這將給創(chuàng)意世界帶來(lái)令人難以置信的好處，這對(duì)AGI的長(zhǎng)期影響是什么。

與此同時(shí)，我們正在努力非常注意安全考慮，并構(gòu)建一個(gè)強(qiáng)大的堆棧，以確保社會(huì)真正從中獲益，同時(shí)減輕負(fù)面影響。但這是一個(gè)令人激動(dòng)的時(shí)刻，我們期待著未來(lái)模型能夠?qū)崿F(xiàn)什么。

確實(shí)，這是一次驚人的發(fā)布，要祝賀各位。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.