![]()
電子游戲最吸引人的地方在于它提供了一種逃避現實的方式,或是帶領我們進入一個與現實迥異的幻想世界。現在,請想象一下,如果你能夠創造出自己的世界會是怎樣一番景象。
好消息是,谷歌DeepMind的研究人員已經開發出一項技術,讓你能夠創造出自己的虛構世界,這些世界與我們在高能量游戲中見到的奇異景觀頗為相似。
谷歌DeepMind最近推出了Genie,這是一個全新的模型,能夠僅憑一段文本或一張圖片的提示,就生成互動視頻游戲。而且,這一切都無需任何關于游戲機制(即構成游戲的規則、元素和過程)的事先訓練。
Genie是什么?
根據谷歌DeepMind的官方博客文章,Genie是一個基于互聯網視頻資源訓練的基礎世界模型。該模型能夠“從合成圖像、照片乃至草圖中,生成無盡變化的可玩(動作可控)世界”。
![]()

研究論文《Genie:生成式互動環境》指出,Genie是第一個以非監督方式從未標記的互聯網視頻中訓練出來的生成式互動環境。就規模而言,Genie擁有11B個參數,包括一個時空視頻標記器、一個自回歸動力學模型,以及一個簡單且可擴展的潛在動作模型。
這些技術規格使得Genie能夠即使在缺乏訓練、標簽或任何其他特定領域要求的情況下,也能在生成的環境中逐幀進行動作。
Genie能做什么?
根據研究論文,Genie是一種新型的生成式AI,它使任何人——甚至是兒童——都能夠想象并進入類似于人類設計的模擬環境的生成世界。盡管Genie僅接受視頻數據的訓練,但它能夠生成多樣化的互動和可控環境。
簡而言之,我們已經看到了許多生成式AI模型,它們能夠產生創意內容,包括語言、圖像乃至視頻。Genie的突破在于,它能夠從單一圖像提示中制作出可玩的環境。
試著回想《哈利·波特與魔法石》中的一幕,哈利和他的朋友們進入霍格沃茨城堡,前往格蘭芬多公共休息室的途中。年輕的學生們看到一面充滿畫像的墻壁,每個角色都在畫框中細膩地移動著。Genie實際上就是將靜態圖像賦予生命,為它們創造出自己的世界。
![]()
據谷歌DeepMind介紹,Genie可以使用它從未見過的圖像作為提示,這包括現實世界的照片、草圖,讓人們與他們想象中的虛擬世界互動。這就是所謂的基礎世界模型。
在訓練方面,研究論文強調他們更多地關注2D平臺游戲和機器人學的視頻。Genie采用一種通用方法進行訓練,使其能夠在任何類型的領域中工作,并且能夠擴展到更大的互聯網數據集。
為什么它很重要?
Genie的突出之處在于它能夠僅從互聯網視頻中學習并再現游戲角色的控制方式。這一點值得關注,因為互聯網視頻并沒有關于視頻中執行的動作的標簽,甚至沒有哪部分圖像應該被控制的信息。
“Genie不僅學會了哪些觀察部分通常是可控的,還推斷出了在生成的環境中一致的多樣潛在動作。注意,相同的潛在動作在不同的提示圖像中產生了相似的行為,”Google發布的博客中這樣說。
谷歌DeepMind表示,這個模型最獨特的地方在于,它允許你從單一圖像中創造出一個全新的互動環境。這開辟了許多可能性,特別是創造和進入虛擬世界的新方式。
為了證明這一點,研究人員使用文本到圖像模型Imagen 2創建了一個圖像,然后使用它作為提示來創建虛擬世界。同樣的操作也可以用于草圖。
有了Genie,任何人都將能夠創造出自己完全想象出的虛擬世界。此外,該模型學習和開發新世界模型的能力,標志著朝著通用AI代理(一個通過感知其周圍環境與環境互動的獨立程序或實體)的重大跨越。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.