Genie 3的推出是AI發展史上的重要里程碑,它為中國AI大模型企業指明了方向,帶來了機遇與挑戰。
![]()
2025年8月5日,Google DeepMind宣布推出Genie 3,這是一個通用世界模型,能夠根據文本提示生成各種可互動的3D環境。該模型在720p分辨率下以24幀/秒實時生成環境,用戶可以像玩游戲一樣自由移動,并且場景在幾分鐘內保持一致。此舉標志著DeepMind在世界模型領域的又一次重要躍進,距上一代Genie 2發布僅一年多時間。
我們梳理了目前Google官方報告和參與內測的用戶的反饋,以及Genie3背后團隊的深度訪談,為大家提供核心信息的匯總,更好地了解這個模型。
十年磨一劍,世界模型迎來“ChatGPT時刻”?
在Google DeepMind,我們已超過十年時間在模擬環境領域進行開創性研究,從訓練智能體到掌握實時策略游戲,再到為開放式學習和機器人技術開發模擬環境。這項工作促使我們開發了世界模型,即能夠利用其對世界的理解來模擬世界某些方面的AI系統,使智能體能夠預測環境將如何演變以及其行為將如何影響環境。
世界模型也是通往通用人工智能(AGI)道路上的關鍵里程碑,因為它們使得在豐富的模擬環境中對人工智能代理進行無限課程訓練成為可能。去年,我們推出了首個基礎世界模型Genie 1和Genie 2,它們能夠為代理生成新環境。我們還繼續通過我們的模型Veo 2和Veo 3推動視頻生成技術的最前沿,這些模型展現出對直觀物理學的深刻理解。
這些模型標志著在模擬世界不同能力方面的進展。Genie 3是我們首個允許實時交互的世界模型,同時與Genie 2相比,它還提高了連貫性和真實性。
官方對Genie 3的能力做了簡潔描述:
1. 該模型能夠從任意文本提示生成可互動世界:實時輸出720p、24fps的動態環境,且場景在長達一分鐘的交互中保持物理一致;用戶還可以通過追加提示改變天氣或加入人物。
2. 模擬世界物理屬性:該模型能呈現水、光線等自然現象,以及復雜的環境交互。
3. 模擬自然世界:能生成豐富的生態系統,涵蓋動物行為與復雜植物。
4. 模擬動畫與虛構場景:能激發想象力,生成奇幻場景與富有表現力的動畫角色。
5. 探索特定地點與歷史場景:能突破地理與時間限制,呈現特定地點與過往時代。
實時交互+長時程一致性,Genie 3如何實現?
Genie 3實現高度可控性與實時交互,離不開重大技術突破。在逐幀自回歸生成過程中,模型需納入隨時間累積的歷史軌跡——例如,當用戶一分鐘后重返某地時,模型需調用一分鐘前的相關信息。為實現實時交互,系統需每秒多次響應新輸入并完成計算。
AI生成的世界要具備沉浸感,必須在長時間內保持物理一致性。但自回歸生成環境比生成完整視頻更具技術挑戰,因為誤差會隨時間累積。盡管如此,Genie 3生成的環境仍能在數分鐘內保持穩定,視覺記憶可追溯至一分鐘前。
Genie 3的一致性是一種自然涌現的能力。NeRFs和高斯濺射等方法也能生成可導航的一致性3D環境,但依賴明確的3D模型;而Genie 3生成的世界更動態豐富,因為它基于世界描述和用戶行為逐幀創建。
除導航輸入外,Genie 3還支持更靈活的文本交互——即“可提示的世界事件”。
這類事件能改變生成的世界(如調整天氣、引入新物體或角色),超越單純的導航控制,豐富交互體驗。
這一能力還能擴展“反事實場景”(即“如果……會怎樣”)的范圍,幫助智能體通過經驗學習應對突發情況。
推動具身智能體研究
為了測試Genie 3創建的世界對未來智能體訓練的兼容性,我們為最近版本的SIMA智能體生成了世界,這是我們用于3D虛擬環境的通用智能體。在每個世界中,我們指示智能體追求一組不同的目標,它通過向Genie 3發送導航動作來試圖實現這些目標。像任何其他環境一樣,Genie 3并不了解智能體的目標,而是根據智能體的動作來模擬未來。
由于Genie 3能夠保持一致性,現在可以執行更長的動作序列,從而實現更復雜的目標。我們預計這項技術將在我們邁向通用人工智能(AGI)的過程中發揮關鍵作用,并且智能體將在世界上扮演更重要的角色。
局限性與風險
盡管Genie 3拓展了世界模型所能實現的范圍,但有必要承認其當前局限性:
1. 有限的行動空間:盡管可提示的世界事件允許進行廣泛的環境干預,但這些干預并非一定由代理自身執行。代理可直接執行的行動范圍目前仍受限制。
2. 其他代理的交互與模擬:在共享環境中準確模擬多個獨立代理之間的復雜交互,仍然是持續的研究挑戰。
3. 真實世界位置的準確表示:Genie 3目前無法以完美的地理精度模擬真實世界位置。
4. 文本渲染:只有當輸入的世界描述中提供清晰易讀的文本時,才會生成。
5. 交互時長有限:該模型目前僅支持幾分鐘的連續交互,而非長時間。
我們相信,基礎技術從一開始就需要對責任有深刻的承諾。Genie 3中的技術創新,特別是其開放式和實時能力,為安全和責任帶來了新的挑戰。為了在最大化益處的同時應對這些獨特風險,我們與負責任發展與創新團隊緊密合作。
在Google DeepMind,我們致力于以既能增強人類創造力又能限制非預期影響的方式開發我們一流的模型。隨著我們繼續探索Genie的潛在應用,我們宣布將Genie 3作為一項有限的研究預覽發布,向一小部分學者和創作者提供早期訪問權限。 這種做法使我們能夠在探索這一新領域的過程中收集至關重要的反饋和跨學科視角,并繼續加深我們對風險及其適當緩解措施的理解。我們期待與社區進一步合作,以負責任的方式開發這項技術。
我們相信Genie 3是世界模型的一個重要時刻,它將開始對人工智能研究和生成式媒體等多個領域產生影響。為此,我們正在探索如何在將來讓更多測試者能夠使用Genie 3。
對中國AI大模型企業的啟示
Genie 3的推出,無疑為全球AI發展樹立了新的標桿,也為中國AI大模型企業帶來了諸多啟示。
1. 技術創新是核心驅動力
谷歌DeepMind在世界模型領域長達十年的深耕,才孕育出Genie 3這樣的突破性成果。中國AI企業應意識到,大模型的發展不是一蹴而就的,需要持續投入大量資源進行基礎研究和技術創新。以字節跳動為例,其在云雀模型的研發過程中,不斷探索新型架構和訓練算法,在自然語言處理的多個任務上取得了優異成績。技術創新不僅體現在模型架構和算法上,還包括對多模態融合、強化學習等技術的深入探索,以提升模型的綜合能力。
2. 重視應用場景拓展
Genie 3在教育、培訓、機器人訓練等多領域展現出巨大潛力,這表明AI大模型的價值最終要通過實際應用來體現。中國企業應積極挖掘大模型在不同行業的應用場景,如醫療領域的輔助診斷、金融領域的風險評估、工業領域的智能制造等。例如,百度的文心一言在智能客服、智能寫作等場景得到廣泛應用,通過與各行業的深度融合,為企業和用戶創造實際價值。
3. 關注模型的倫理與安全問題
隨著AI技術的廣泛應用,倫理與安全問題日益凸顯。Genie 3在發布時就強調了對責任的承諾,并通過有限研究預覽來管理風險。中國AI企業在發展大模型時,也應建立完善的倫理審查機制,確保模型的開發和應用符合道德規范和法律法規。例如,在數據采集和使用過程中,要充分保護用戶隱私;在模型決策過程中,要避免產生偏見和歧視。
4. 加強國際合作與交流
AI是全球性的技術革命,國際合作與交流至關重要。中國AI企業應積極參與國際AI社區,與全球頂尖機構和企業共同推動技術進步。一方面,可以學習借鑒國際先進經驗和技術,提升自身實力;另一方面,也可以通過合作,共同應對AI發展帶來的全球性挑戰,如數據安全、倫理規范等問題。
Genie 3的推出是AI發展史上的重要里程碑,它為中國AI大模型企業指明了方向,帶來了機遇與挑戰。中國企業應在技術創新、應用拓展、倫理安全和國際合作等方面積極探索,不斷提升自身競爭力,在全球AI浪潮中占據一席之地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.