![]()
近年來,我們已經習慣了看到AI生成的文本、圖片、視頻甚至計算機代碼。但如果它能更進一步,創造出完整的世界呢?
對于致力于開發能夠模擬完整3D環境的生成工具類別的開發者來說,這正是他們的目標。
世界模型旨在生成身臨其境的3D環境,完整包含居民和運行的物理系統,我們可以探索和操控這些環境,就像真的身處其中一樣。
想象一下我們在視頻游戲或虛擬現實中移動的那種3D空間,但這些空間不是人類精心制作的,而是完全由機器構建的。
人們認為世界模型將對工程學、建筑學、機器人學和醫學等各個領域產生巨大影響,通過創建有助于我們理解真實世界的模擬環境。
讓我們深入了解一下這些世界模型到底是什么、誰在構建它們,以及為什么它們是當今AI研究最重要的領域之一。
世界模型如何運作
AI模型目前可以使用兩種不同的方法來創建虛擬世界和環境。
第一種是在用戶與世界交互時動態建模一切。這類似于生成視頻模型的工作方式——通過根據其對物理和對象行為的理解來預測每個像素如何隨時間變化。
只是世界模型會響應用戶在世界中導航時的輸入,通過移動鏡頭或與其中包含的人和對象交互,而不僅僅是解釋提示來決定應該生成什么視頻。
使用這種方法,整個世界基于模型對環境和對象應如何行為的內部理解,逐幀連續生成。
這種方法允許創建高度靈活、逼真和獨特的環境。例如,想象一個視頻游戲世界,字面上可以發生任何事情。可能性不限于游戲程序員編寫到代碼中的情況和選擇,因為模型會生成視覺和聲音來匹配玩家做出的任何選擇。
一個主要缺點是這種方法需要大量計算資源。這意味著當今最先進的實時世界模型由于高CPU開銷,在保持世界一致性方面僅限于幾分鐘。
這就是為什么其他模型采用不同的方法來解決世界生成問題。它們不是實時逐幀生成世界,而是接受提示并將其轉換為持久的幾何模型、數字資產和物理元數據。
然后可以下載這些數據并導入其他軟件工具中進行操控、編輯和探索。
誰在構建世界模型
一些AI領域的知名公司目前正在開發自己的世界模型。
其中包括谷歌,其Genie 3平臺目前處于研究預覽階段,能夠創建保持數分鐘持續性的世界。
Meta(Facebook)也在開發自己的世界模型,采用與谷歌相同的動態生成技術。其平臺Habitat 3旨在創建虛擬環境,讓具身AI(物理機器人)可以在部署到現實世界之前,在其中訓練導航、操控對象和與人類安全交互。
然而,由AI先驅李飛飛領導的World Labs采用了不同的方法,其Marble世界模型從文本、圖像或視頻提示創建持久的、可下載的3D環境。
甚至埃隆·馬斯克也參與其中,他的xAI開發團隊正在開發一個目前未命名的世界模型,據報道將用于視頻游戲和訓練機器人。
它們將做什么
從商業角度來看,世界模型的應用案例可能與文本、圖像和聲音生成一樣無限。
除了在視頻游戲和娛樂領域的明顯用途外,潛在應用案例包括醫療保健環境,可以用來創建臨床環境的沉浸式數字孿生來模擬患者交互。
這些環境還將用于為工業機器人、自動駕駛汽車和其他將在現實環境中運作的具身AI對象創建虛擬訓練場。
它們將讓制造商在工廠中測試新的布局、設備放置和工作流程,為安全、能效和減少停機時間建模。
建筑師將使用它們來建模、查看和交互建筑物,在放置第一塊磚之前測試它們如何對物理、照明、氣流和人員移動做出反應。
由于它們將在微觀和宏觀尺度上建模,它們可以用來模擬人體環境和決定新藥物和治療方法功效的分子反應。
為什么這如此重要
我相信世界模型有潛力成為當前正在進行的由生成式AI驅動的商業和社會更廣泛轉型不可或缺的一部分。
我不是唯一這樣想的人——實際上,谷歌DeepMind的杰克·帕克-霍爾德和什洛米·弗魯赫特表示,他們相信這將是通往通用人工智能道路上的關鍵踏腳石。
通用人工智能,即AI發展的當前"圣杯",通常被概括為指能夠將其知識和能力應用于任何任務的機器,無論它們是否接受過專門訓練來做這件事,就像人類一樣。
為了導航和理解世界,AI需要知道世界是如何構建的、由什么組成的,以及如何保持在一起。
世界模型承諾以增強其語言和視覺能力的方式賦予它這種能力。
這就是為什么我相信它們是當前AI發展中最令人興奮和至關重要的領域之一,任何想要了解AI將如何影響和塑造未來的人都應該饒有興趣地關注這個領域。
Q&A
Q1:世界模型是什么?它能做什么?
A:世界模型是一種AI工具,旨在生成身臨其境的3D環境,完整包含居民和運行的物理系統。用戶可以探索和操控這些環境,就像真的身處其中一樣。它們能創建類似視頻游戲或虛擬現實中的3D空間,但完全由機器構建而非人類制作。
Q2:目前有哪些公司在開發世界模型?
A:主要包括谷歌的Genie 3平臺、Meta的Habitat 3平臺、由李飛飛領導的World Labs的Marble世界模型,以及埃隆·馬斯克的xAI開發團隊。這些公司采用不同的技術方法,有的專注于動態生成,有的創建持久可下載的3D環境。
Q3:世界模型在實際應用中有什么用途?
A:應用領域廣泛,包括醫療保健中創建臨床環境的數字孿生、為工業機器人和自動駕駛汽車創建虛擬訓練場、幫助制造商測試工廠布局和工作流程、讓建筑師在建造前測試建筑物的物理反應,以及模擬人體環境和分子反應來測試新藥物功效。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.