Google發(fā)布“世界模型” Genie！可根據(jù)圖像生成視頻游戲

2024-02-29 17:42:31　來源: 北茗的AI茶館

北京舉報

分享至

電子游戲最吸引人的地方在于它提供了一種逃避現(xiàn)實(shí)的方式，或是帶領(lǐng)我們進(jìn)入一個與現(xiàn)實(shí)迥異的幻想世界。現(xiàn)在，請想象一下，如果你能夠創(chuàng)造出自己的世界會是怎樣一番景象。

好消息是，谷歌DeepMind的研究人員已經(jīng)開發(fā)出一項(xiàng)技術(shù)，讓你能夠創(chuàng)造出自己的虛構(gòu)世界，這些世界與我們在高能量游戲中見到的奇異景觀頗為相似。

谷歌DeepMind最近推出了Genie，這是一個全新的模型，能夠僅憑一段文本或一張圖片的提示，就生成互動視頻游戲。而且，這一切都無需任何關(guān)于游戲機(jī)制（即構(gòu)成游戲的規(guī)則、元素和過程）的事先訓(xùn)練。

Genie是什么？

根據(jù)谷歌DeepMind的官方博客文章，Genie是一個基于互聯(lián)網(wǎng)視頻資源訓(xùn)練的基礎(chǔ)世界模型。該模型能夠“從合成圖像、照片乃至草圖中，生成無盡變化的可玩（動作可控）世界”。

研究論文《Genie：生成式互動環(huán)境》指出，Genie是第一個以非監(jiān)督方式從未標(biāo)記的互聯(lián)網(wǎng)視頻中訓(xùn)練出來的生成式互動環(huán)境。就規(guī)模而言，Genie擁有11B個參數(shù)，包括一個時空視頻標(biāo)記器、一個自回歸動力學(xué)模型，以及一個簡單且可擴(kuò)展的潛在動作模型。

這些技術(shù)規(guī)格使得Genie能夠即使在缺乏訓(xùn)練、標(biāo)簽或任何其他特定領(lǐng)域要求的情況下，也能在生成的環(huán)境中逐幀進(jìn)行動作。

Genie能做什么？

根據(jù)研究論文，Genie是一種新型的生成式AI，它使任何人——甚至是兒童——都能夠想象并進(jìn)入類似于人類設(shè)計的模擬環(huán)境的生成世界。盡管Genie僅接受視頻數(shù)據(jù)的訓(xùn)練，但它能夠生成多樣化的互動和可控環(huán)境。

簡而言之，我們已經(jīng)看到了許多生成式AI模型，它們能夠產(chǎn)生創(chuàng)意內(nèi)容，包括語言、圖像乃至視頻。Genie的突破在于，它能夠從單一圖像提示中制作出可玩的環(huán)境。

試著回想《哈利·波特與魔法石》中的一幕，哈利和他的朋友們進(jìn)入霍格沃茨城堡，前往格蘭芬多公共休息室的途中。年輕的學(xué)生們看到一面充滿畫像的墻壁，每個角色都在畫框中細(xì)膩地移動著。Genie實(shí)際上就是將靜態(tài)圖像賦予生命，為它們創(chuàng)造出自己的世界。

據(jù)谷歌DeepMind介紹，Genie可以使用它從未見過的圖像作為提示，這包括現(xiàn)實(shí)世界的照片、草圖，讓人們與他們想象中的虛擬世界互動。這就是所謂的基礎(chǔ)世界模型。

在訓(xùn)練方面，研究論文強(qiáng)調(diào)他們更多地關(guān)注2D平臺游戲和機(jī)器人學(xué)的視頻。Genie采用一種通用方法進(jìn)行訓(xùn)練，使其能夠在任何類型的領(lǐng)域中工作，并且能夠擴(kuò)展到更大的互聯(lián)網(wǎng)數(shù)據(jù)集。

為什么它很重要？

Genie的突出之處在于它能夠僅從互聯(lián)網(wǎng)視頻中學(xué)習(xí)并再現(xiàn)游戲角色的控制方式。這一點(diǎn)值得關(guān)注，因?yàn)榛ヂ?lián)網(wǎng)視頻并沒有關(guān)于視頻中執(zhí)行的動作的標(biāo)簽，甚至沒有哪部分圖像應(yīng)該被控制的信息。

“Genie不僅學(xué)會了哪些觀察部分通常是可控的，還推斷出了在生成的環(huán)境中一致的多樣潛在動作。注意，相同的潛在動作在不同的提示圖像中產(chǎn)生了相似的行為，”Google發(fā)布的博客中這樣說。

谷歌DeepMind表示，這個模型最獨(dú)特的地方在于，它允許你從單一圖像中創(chuàng)造出一個全新的互動環(huán)境。這開辟了許多可能性，特別是創(chuàng)造和進(jìn)入虛擬世界的新方式。

為了證明這一點(diǎn)，研究人員使用文本到圖像模型Imagen 2創(chuàng)建了一個圖像，然后使用它作為提示來創(chuàng)建虛擬世界。同樣的操作也可以用于草圖。

有了Genie，任何人都將能夠創(chuàng)造出自己完全想象出的虛擬世界。此外，該模型學(xué)習(xí)和開發(fā)新世界模型的能力，標(biāo)志著朝著通用AI代理（一個通過感知其周圍環(huán)境與環(huán)境互動的獨(dú)立程序或?qū)嶓w）的重大跨越。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.