在開始之前,我想先問大家一個簡單的問題:
你們還在苦苦等待《GTA 6》的發售嗎?
我是不清楚大家的想法啦,但小雷真的非常期待它的到來。要知道《GTA 5》發布至今已經過去十三年了,時至今日卻依然魅力不減。讓人不得不期待,在漫長的等待后,R星究竟能夠端出一款怎樣的作品。
不過,雖然現在說出來可能有點潑冷水,但在R星還在為發售日期遮遮掩掩的時候,大洋彼岸的谷歌DeepMind團隊卻悄悄搞出了一個大動作。如果不出現意外,這東西可能會徹底改變我們對游戲這兩個字的理解。
近日,谷歌在官方博客正式宣布,已向部分用戶開放體驗Project Genie原型版本,能讓用戶生成屬于自己的可玩游戲世界。
![]()
(圖源:雷科技)
消息一出,《GTA》開發商R星的母公司Take-Two Interactive股價縮水10%,在線游戲平臺Roblox下跌了超過12%,最慘的是游戲引擎制造商Unity下跌了21%,反而是國內廠商網易、騰訊基本沒有受到什么影響。
趁這機會,小雷打算和大伙好好聊聊,這個敢搶《GTA 6》風頭的AI到底是何方神圣,它現在的體驗究竟到了什么地步,以及在不遠的未來,我們的游戲和虛擬世界到底會變成什么樣。
只要一張圖,萬物皆可玩
在介紹技術之前,我們得先搞清楚它有多離譜。
過去我們想做一款游戲,流程是怎樣的?你需要策劃寫劇本,美術畫貼圖,程序員敲代碼,最后還得通過引擎渲染出來。
這個過程可謂既漫長又燒錢,即便是育碧、EA這樣的游戲巨頭,也要做到數十年如一日地投資,最終成品卻沒有人能夠篤定效果如何。
但Project Genie的誕生,把這個邏輯完全顛覆了。
![]()
(圖源:谷歌)
它的核心能力可以概括為一句話:生成即交互。
你給它一張照片,或者一張手繪的草圖,甚至是一句簡單的文字描述,它就能把世界和角色搭出來。
![]()
(圖源:谷歌)
然后,你可以指定游戲的操作方法,例如走路、騎行、飛行還是開車,ProjectGenie就會試圖理解物理規律,然后直接生成一個可以操控的世界:
![]()
(圖源:谷歌)
沒錯,就像上面這個樣子。
世界一旦生成,我們就可以直接在里面行動了。在ProjectGenie里,你往前走,前方路徑會實時生成,你轉視角,鏡頭也會跟著同步調整,整個過程更像是在一個持續展開的空間里進行探索。
不滿意,那就把這個世界修改一下。
和其他AIGC內容類似,ProjectGenie生成的世界并不是一次性產品,我們還可以在已有世界的提示詞基礎上繼續修改,比如把狗換成粉色氣球兔子。
![]()
(圖源:谷歌)
你甚至可以丟一個真實世界的圖片進去,讓ProjectGenie幫我們做二創并讓其動起來,完成之后,還能直接導出成視頻,方便保存或分享。
也正因為功能如此之強大,于是乎,腦洞大開的網友們很快就把它玩出了花。
在嗶哩嗶哩上,就有UP主上傳了一張主播許昊龍的經典照片。在ProjectGenie的處理下,下一秒,畫面里的炫狗就變成了可操控的角色,你可以按下鍵盤的方向鍵,控制他在那個車庫背景里跑動、跳躍,甚至能和世界里的物品產生真實接觸。

(圖源:bilibili)
經典耄耋梗圖?給我動起來!

(圖源:bilibili)
給它一張《原神》的圖,它也能自動生成風之翼的效果,讓角色在空中自由馳騁,甚至能模擬出滑翔的效果。

(圖源:bilibili)
在推特上,甚至有人隨手在紙上畫了幾個火柴人,旁邊畫了幾道波浪線代表水,拍張照上傳給ProjectGenie。系統就能把這個涂鴉變成一個關卡,火柴人真的能跳過那些波浪線,甚至如果不小心掉下去,還能模擬出墜落的效果。
而這就是ProjectGenie最嚇人的地方:
它不需要代碼,也不需要3D建模,它僅僅通過看圖,就理解了什么是地面、什么是障礙物、角色該怎么動。
與之對比,國內游戲大廠們其實也沒閑著,但方向多少有點小家子氣。
你看,網易的《逆水寒》天天吹噓AI NPC有多會聊天,騰訊忙著讓AI在《王者榮耀》里虐菜。然而這些所謂的黑科技,說白了就是在用AI賦能游戲,本質還是機器人,遠遠達不到顛覆游戲創作流程的水平。
只能說國內廠商們,還是任重而道遠啊。
看起來很美,但是不成熟
誒,有的讀者可能要問了,既然這東西說得這么神,是不是明天游戲公司都要倒閉了?
嗯...這倒也不至于。
盡管看起來有些類似,但是ProjectGenie本質上和我們玩的《黑暗之魂》或者《王者榮耀》之類的游戲完全是兩個物種。
傳統游戲是基于游戲引擎的,你按一下跳躍鍵,程序會根據重力參數計算你跳多高;你扔出一個鐵球,程序利用經典物理公式來計算它的下落速度;你打開手電筒,程序則會模擬光照和物體材質,來實時渲染光照的效果。
而Project Genie是基于Genie 3、Nano Banana Pro和Gemini的,其核心Genie 3本質上是一個采用自回歸生成機制的幀生成模型,它會根據世界描述和用戶操作,逐幀生成環境狀態,而不是播放預先生成好的內容。
![]()
(圖源:谷歌)
我知道,在老黃大肆推廣的今天,幀生成已經不是什么新鮮玩意了。
它的工作原理,就是看著前幾幀畫面,然后猜測下一幀的畫面。
通過學習谷歌龐大數據庫里超過20萬小時的游戲視頻,Genie 3記住了每一種“當屏幕上有個小人,且玩家按下右鍵時,下一幀畫面通常會發生什么”的可能性,并會在玩家做出的操作生成對應的畫面。
問題就在這里,Genie 3根本不懂物理,沒有可靠的邏輯計算,而是通過不斷猜測來拓展世界的,這也導致了目前的體驗有兩個非常明顯的硬傷。
首先是缺乏一致性。
盡管谷歌方面聲稱,為了防止AI算力過載或者邏輯崩壞,玩家只能生成一分鐘的片段。
但在一分鐘的限制下,我們依然能看到嚴重的記憶丟失。就用上面舉例的許昊龍,明明玩家導入的是一張正面照片,但在實際操作角色10秒后,再次切到正臉,你會發現角色的面部發生了180°改變——變成了一個純種白人大叔。

(圖源:bilibili)
我想,除了玩Roguelike游戲的時候,應該沒有多少人愿意接受這種在一個游戲里,同一個地方每次去都不太一樣的情況吧
其次是沒什么邏輯。
在傳統游戲里,你撞到墻會被彈回來,對吧。
但在ProjectGenie的世界里,AI是有猜錯的時候。這就導致你控制的角色可能會突然穿墻而過,或者跳著跳著突然融化進了地板里,甚至有時候走著走著,身后突然長出一棵樹來。

(圖源:bilibili)
這種體驗非常詭異,就像我們在做清醒夢,你知道自己在控制著角色,但世界總是在發生一些毫無邏輯的形變。
需要明確的是,相比前代以及其他視覺語言模型/世界模型,Genie 3的一致性、穩定性已經強出不少,但出戲的情況仍然有相當大的概率出現,這在追求可玩性的游戲里絕對是不可接受的。
正因如此,它目前的價值,更多是給游戲設計師提供一個快速驗證靈感的方法。
對我們普通玩家來說,當個新鮮玩具,玩個幾分鐘娛樂一下或許還行。距離真正的沉浸式娛樂,還有很長一段路要走。
世界模型,才是AI的下一個戰場
說到這里,可能有人會覺得,既然畫質這么渣,Bug這么多,那谷歌花這么多錢搞這個Project Genie,是不是點錯科技樹了?
在我看來,恰恰相反。
ProjectGenie的出現,其意義遠不止做個游戲這么簡單,它代表了人工智能從“理解靜態世界”邁向了“模擬真實世界”的關鍵一步。
我們現在熟悉的Sora、Runway這些視頻生成模型,雖然能做出好萊塢級別的畫面,但它們是被動展示的。觀眾只能看,不能互動。
![]()
(圖源:OpenAI)
而Genie 3代表的世界模型,則是要讓AI理解:因為我做了一個動作,所以世界發生了改變,讓AI從被動展示到主動交互,從靜態敘事到動態推演,這正是通往通用人工智能(AGI)的必經之路。
試想一下,如果未來的Genie能進化到4K畫質、60幀,并且物理邏輯完全準確,那意味著什么?
舉個簡單的例子,這意味著我們不需要在現實中去訓練機器人了。我們可以讓AI機器人在ProjectGenie生成的虛擬世界里,摔倒一萬次,學會走路,學會拿杯子,然后再把這個算法加載到實體機器人身上。
當然了,目前盯著這個賽道的,可不止谷歌一家。
OpenAI明確說過Sora本質上也是世界模型,英偉達剛推出的Cosmos模型號稱專注于讓AI理解物理定律,國內的眾多大廠也在暗中布局。大家都在賭,誰能先造出那個成熟的世界雛形。
對這種新生代物種來說,好戲才剛剛開場。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.