上周,谷歌Deep Mind發(fā)布了新的通用世界模型Genie 3。
![]()
它引發(fā)了非常熱烈的討論,其中有包括看好和質(zhì)疑。一部分人認為,它的廣泛應(yīng)用能夠給虛擬世界建設(shè)“解放生產(chǎn)力”,而另一方面則認為這只是谷歌的營銷,實際上并沒有什么真正的用途。
但無論如何,這個能夠?qū)崟r生成虛擬世界的模型,仍然值得XR行業(yè)關(guān)注。
什么是Genie 3 Not only see, but also in...teractive
Genie 3是可在實時交互中生成動態(tài)環(huán)境的通用世界模型。
它能根據(jù)文本提示,生成720p、24fps的可導(dǎo)航場景,并保持幾分鐘內(nèi)的物理與視覺一致性。這意味著,從前需要依賴手工建模、游戲引擎預(yù)構(gòu)建的虛擬世界,如今可以直接由模型實時生成。
用大白話來說,它更3D、更擬真、更細膩。
更3D就是指在Genie生成的視頻中,人是可以跟環(huán)境產(chǎn)生互動的。你可以操作人在視頻里行走,移動的維度也有了前后左右上上下下。而在普通的AI視頻里,只能夠拖進度條。
我們也用谷歌案例的提示詞,在Sora里生成了一段視頻:

而這是Genie 3的同樣提示詞的視頻:

可以看到,Genie 3的視頻是像玩游戲一樣,可以進行移動,甚至走進蘑菇屋里面去。
Genie在擬真方面也有了長足的進步,也就是谷歌官方所說的,幾分鐘內(nèi)的物理與視覺一致性。
比如這段案例,在羅馬風(fēng)格的大理石建筑面前移動,前面的樹會根據(jù)你的移動和現(xiàn)實世界的物理特性,呈現(xiàn)出近大遠小的空間感,并且在你“回頭”的時候,也會出現(xiàn)在真實世界中會出現(xiàn)的位置上。

一些其他視頻很可能會在你回頭時,重新生成一段你從來沒見過的畫面。
這個特性就有點像GPT的上下文記憶,不過Genie 3的“記憶”是視覺和空間狀態(tài),包括場景里物體的位置、外觀、狀態(tài),比如門開著還是關(guān)著、涂了什么顏色等等。可以理解為AI更加進化了,已經(jīng)擁有了打造“世界連續(xù)性”的能力。
更細膩,也是Genie體現(xiàn)在“物理”上的能力。比如海浪拍打到水岸,下雨后泥濘的街道和水坑,陽光隨著你的行走而變換角度等等,一切都更加貼近真實世界。

像這段雨林樹葉就非常典型:

除了近大遠小之外,能夠看到上層的葉子更嫩綠(因為是新長出來的),下層的葉子顏色更深。此外,也能感受到葉片的肥厚,正好符合一種雨林感。
此外,Genie 3還支持實時互動,根據(jù)你新增的提示詞即時生成內(nèi)容。
比如在滑雪視頻里生成一個Genie 3滑雪愛好者:
![]()
或者一根坐著滑翔傘的香蕉:
![]()
可以看到,畫面基本上是沒有太大變動的,整體主世界比較穩(wěn)定,生成的事件也是出現(xiàn)在相對真實的位置。
Genie 3就像本段標(biāo)題所說,不止是AI生成的平面視頻——用來看的,更是能夠“生活”在其中,身臨其境,并與環(huán)境產(chǎn)生交互,也能看到環(huán)境因為你的存在、你視角變化而產(chǎn)生變化。
對XR來說有什么用?
創(chuàng)造一個虛擬世界,本質(zhì)上是現(xiàn)實世界的替代品,在未來也許是從平替向貴替的進化。
為了讓我們更快適應(yīng)虛擬世界,盡可能的擬真是必不可少的追求。因為XR和視頻、圖片最大的不同在于,它是隔著屏幕看,而是讓我們沉浸其中。在這種情況下,如果你背后的物體突然變樣,光影跟你習(xí)慣的反著移動,你的大腦會立刻察覺“這是假的”,沉浸感瞬間崩塌不說,還可能會引發(fā)毛骨悚然的想象(倒是很適合做驚悚類的……)
Genie 3這種高度的世界型AI,也許會極大催生XR世界的內(nèi)容繁榮。
在最初的報道中,就有媒體提到,Genie 3對教育行業(yè)會產(chǎn)生有效幫助。我們都知道那句互聯(lián)網(wǎng)名梗“媽媽啊,人生是曠野”——有些風(fēng)景看過,就是比沒看更印象深刻、更能理解其中深意。

Genie 3 能讓學(xué)生進入一個可交互、可探索的虛擬環(huán)境,比如在生物課里走進細胞世界觀察細胞器的結(jié)構(gòu);在歷史課里漫步古羅馬廣場,和當(dāng)時的市民擦肩而過;在地理課里穿越不同的氣候帶,觀察環(huán)境與動植物的變化。這種體驗不僅記憶更深,也能讓學(xué)生通過交互獲得更加深刻的“參與感”——而且成本非常低。
在游戲領(lǐng)域,Genie 3 也有想象空間。在Reddit上就有玩家提到,如果足夠靈活,Genie 3可以用來玩D&D。
與劇本殺大家共用一個劇本不同,這種游戲通常由一個DM來擔(dān)任主要劇情敘述,甚至可以說大家進行的游戲世界,完全依賴于DM的口述和想象。當(dāng)然這在線下面對面玩非常有趣,但也不乏有更多人希望能夠“看到”。
![]()
接入 Genie 3 后,DM 可以即時輸入提示詞,在世界中創(chuàng)造一扇門、一座城堡,或一條蜿蜒的地道,讓玩家“所說即所見”,把口述想象變成可探索的空間。
在這個基礎(chǔ)上,AIGC也會在游戲里獲得更廣泛的應(yīng)用。比如接入Genie 3的API后,一個單純的房間會變得更有互動感,每個人進入后得到的內(nèi)容也許會不太一樣、更加靈活。
此外,未來,當(dāng)Genie 3與云渲染和AR眼鏡結(jié)合,用戶可能隨時將周圍環(huán)境換成另一種景象,也可能會隨機觸發(fā)一個賽博涂鴉藝術(shù)家的彩蛋——就像漫步在Bristol街頭尋找Banksy一樣,讓虛擬與現(xiàn)實的交織變成一種日常驚喜。
![]()
從長遠看,Genie 3 這種具備高擬真、強交互、長時一致性的世界模型,可能會成為 XR 內(nèi)容生態(tài)的“底座技術(shù)”。它不只是讓我們能看見更多虛擬風(fēng)景,而是讓虛擬世界開始像現(xiàn)實一樣擁有秩序、記憶和可預(yù)期性。
一旦這種能力被普及,XR 應(yīng)用的形態(tài)就會從一次性的“項目體驗”,轉(zhuǎn)向持續(xù)演進的“生活空間”。它甚至可能是全球共享的“公共休息室”,也是永遠開放、動態(tài)更新的游戲世界。
到那時,我們可能不再區(qū)分“真實”和“虛擬”,而是習(xí)慣在兩者之間無縫切換——就像今天的我們習(xí)慣在現(xiàn)實和線上社交之間穿梭一樣。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.