網易首頁 > 網易號 > 正文申請入駐

世界模型，大語言模型之后的第二場革命

2025-10-20 22:20:47　來源: 數據猿DataYuan

內蒙古舉報

分享至

“大語言模型是基礎，世界模型是途徑，自主智能才是AI的終極奧義。

在過去兩年里，大語言模型（LLM）在語言理解、文本生成、推理、指令執行等方向取得突破，使AI在理解語義層面變得越來越可靠。

然而，語言智能只是通向通用智能的一環。要讓AI在懂語言的基礎上，去理解真正的世界，就必須讓它理解環境、感知動態、在環境中做出行動判斷。這其中的關鍵，就是世界模型（World Model）。

世界模型的核心是讓AI內部構建一個可交互的世界，要理解物理規則、模擬未來狀態、預測動作結果。實現從靜態圖像、視頻生成，逐步走向多模態、帶動作控制的視覺語言動作模型（VLA，Vision-Language-Action）。

從OpenAI的Sora（文本→視頻世界模擬）到DeepMind的Genie（可交互世界生成），從Meta的V-JEPA 2（視覺自監督世界模型）到特斯拉在自動駕駛系統中隱含的世界意識探索，乃至國內諸如華為ADS等智駕系統，這些案例都表明世界模型正成為AI Agent化路徑上的關鍵支點。

可以預見，未來的AI Agent很可能是“LLM+世界模型+執行動作層”的三層協同結構。理解這一趨勢，對我們判斷產業方向、技術路線、戰略布局至關重要。

從語言到世界：AI理解的邊界在延伸

如果說大語言模型讓AI學會了理解語言，那么世界模型的出現，則意味著AI開始嘗試理解世界。

在人工智能研究的脈絡中，“世界模型”（World Model）并不是一個全新的概念。早在2018年，谷歌大腦研究科學家David Ha與瑞士AI實驗室IDSIA負責人Jürgen Schmidhuber在經典論文《World Models》中提出，智能體要想高效學習，就必須在大腦中構建世界的內部模型。這種模型能夠通過感知輸入，去預測外部世界在未來的變化，在內部“想象”出一系列可能的結果，從而據此選擇行動。

智能體包含緊密相連的三個模塊：視覺 (V)、記憶 (M) 和控制器 (C)（來自World Models）

彼時，世界模型還主要服務于強化學習領域，用于在游戲或仿真環境中幫助智能體做規劃與決策。

隨著算力的提升和多模態學習的成熟，世界模型的內涵被重新定義，從在仿真環境里學習，演進為讓AI自己生成并理解環境。比如谷歌DeepMind在Dreamer系列工作中，讓智能體能夠在潛在空間（latent）中對未來進行滾動預測（roll-out），從而無需真實環境就能完成策略優化。這種思路，被視為世界模型的早期成熟版本，也讓預測未來成為機器學習的新邊界。

而真正讓世界模型走出學術圈，成為AI產業熱詞，是視頻生成技術的突破。

2024年2月15日，OpenAI發布Sora模型，并在官方論文中首次明確提出，視頻生成模型正在成為世界模擬器（world simulator）。Sora不僅能生成語義上合理的視頻，還能在物理規律、光影運動、空間連續性等層面維持一致性，讓AI演繹世界成為可能。

Sora2

幾乎在同一時間，Meta發布視覺自監督模型 V-JEPA（Visual Joint Embedding Predictive Architecture）。這是由Yann LeCun團隊主導的項目，旨在讓AI通過預測視覺序列中的時空變化，在潛在空間中理解世界的結構與規律。與生成式模型不同，V-JEPA不直接生成圖像，而是學習世界的抽象表征，這是Meta首次在視覺領域明確提出構建世界模型的研究方向。

僅在那十余天后，DeepMind發布了Genie模型。與Sora不同，Genie并不是單純的視頻生成器，而是一個“可玩世界”的生成模型，可以從普通視頻素材中學習環境規律，并生成可實時交互的二維游戲場景。用戶可以控制角色在生成的世界中移動、碰撞、跳躍，這種“生成—交互—反饋”的閉環，被認為是世界模型從被動感知邁向主動參與的重要一步。

Sora、V-JEPA與Genie，分別代表了世界模型演化的三個方向，生成世界、理解世界、參與世界。三者幾乎出現在同一時間節點，共同組成了世界模型認知層面的突破。

而另一條更具現實意義的路徑，則來自執行層面的落地。

自2023年底起，特斯拉在其自動駕駛系統FSD（Full Self-Driving）中推行端到端神經網絡架構，從感知到規劃再到控制，全部由統一模型完成。

馬斯克將FSD V12稱為世界模型驅動的駕駛系統，因為車輛已不依賴高精地圖或人工編碼規則，而是通過多攝像頭視頻流在內部重建外部環境，并實時預測交通參與者的行為。今年上半年推出的FSD V13進一步加入時序記憶與多模態預測，使這一世界模型式駕駛的雛形更趨完整。

而在國內，這樣的探索思路也幾乎同步落地。

比如華為在2024年4月發布ADS 3.0（乾崑），以去高精地圖與世界建模感知為核心，依托多源傳感重建動態場景；

小鵬在2024年5月公布XPlanner（規劃與控制大模型），與感知網絡XNet、車載大模型XBrain組成端到端量產棧，將長時序預測引入軌跡規劃；

百度Apollo則在同月推出ADFM自動駕駛基礎模型，并搭載到第六代 Robotaxi。

這些系統共同指向一個趨勢，世界模型正在從虛擬場景走向真實世界，從“認知世界”轉向“執行世界”。如果說Sora、V-JEPA、Genie們構建的是AI的感知與想象層，那么FSD、ADS、XPlanner、Apollo們則構建了AI的行動與落地層。前者是通往通用智能的基礎，后者則是將智能具象化的通道。

中美雙極：世界模型競賽的兩種路徑

如今，世界模型已經成為全球AI競爭的新焦點。其中，最具代表性的當屬中美之間的競爭。

這場看似關于算法的較量，背后卻是認知方式與產業邏輯的分歧，也正因為這種分歧，中美兩國正走在兩條不同的路徑上。

前文說過，在美國，OpenAI、DeepMind、Google、Meta、Anthropic五大巨頭構成了最具體系化的“世界建模陣營”。

它們的共同特征是，從語言模型出發，沿著認知—生成—具身（Embodied）的路線，把AI從語言理解延伸到物理模擬。

今年9月，Sora 2登場，不僅整合了音視頻統一建模和動態光照控制，還新增 “Cameo”功能，讓用戶可以直接把自己嵌入生成的世界中。

今年8月，DeepMind發布Genie 3，允許從自然語言直接生成三維、可操作的虛擬世界，用戶能實時控制角色，與環境交互并觀察反饋。

今年6月，Meta V-JEPA 2以自監督方式讓AI理解視頻中的時序與動力規律，成為世界模型“視覺直覺”的雛形。它不依賴標簽數據，而是通過預測畫面未來幀的方式，逼近人類感知世界的方式。

與此同時，盡管Google Gemini 2.5 Pro與Anthropic Claude 4.5不算嚴格意義上的世界模型，但它們都在讓語言模型具備理解世界的能力，前者通過多模態語義建模理解現實邏輯，后者通過隱式因果推理保持認知一致性。

以此可見，美國的研究體系已經形成了完整的認知鏈條，從理解語言、預測視覺變化到生成并模擬世界。

而在中國，世界模型的側重方向更貼近執行層面。

從智能駕駛到行業智能體，再到具身機器人，國內企業更關注AI在真實物理環境中的可感知、可預測與可執行性。可以說，中國企業更看重系統集成與工程落地。

智能駕駛之外，國內世界模型的思想和策略也正在進入更多行業場景。

比如華為盤古大模型引入物理建模框架，將世界模型理念應用到氣象預測、制造、制藥等工業領域；

百度文心在視頻理解和數字人交互中融入動態世界建模機制，此類案例非常多，這里就不一一展開。

更具代表性的，是中國在具身智能方向的系統化突破。

過去一年，宇樹、優必選、傅利葉、小米等公司，陸續推出新一代人形與四足機器人，讓世界模型從算法概念真正落地到機器身體。

比如宇樹發布的R1人形機器人，支持圖像與語音多模態融合，可進行動態行走與交互；

優必選 Walker S2具備靈巧雙臂與自主換電功能，更貼近工業執行場景；

傅利葉推出可遙操作的GR-3C人形機器人版本，可用于康復與人機協作；

從智能駕駛，到智能機器人，中國的AI正在推動世界模型從虛擬走向物理，從算法走向具身。

中美世界模型生態邏輯對比：

當然，這種解讀僅限于生態偏重，不涉及能力邊界。

美國并非只有認知與生成。以特斯拉、Figure AI、Boston Dynamics為代表的企業，已經在構建具身智能與自動駕駛的世界建模系統建立一定優勢。

國內也不止于感知與執行。萬相、可靈等視頻生成模型，也在構建中國版的“視覺世界模擬器”。

盡管中美兩國為代表的世界模型演變生態邏輯不同，但從更長的技術周期看，這種分野正逐漸進化為互補關系。

世界模型的最終方向，肯定不是生成完美的視頻，也不是控制一輛汽車，而是打通“理解—預測—行動”的完整閉環。從這個層面來說，中美兩國正共同構建通向通用智能的現實路徑。

AI的下一個臨界點：

世界模型接管智能體

過去十年，AI的每一次躍遷都源自輸入方式的變革：文字帶來了語言智能，圖像催生了視覺智能，而如今，世界模型正在讓AI理解現實世界，一個有時間、有空間、有因果的動態系統。

這正是世界模型的核心價值，它讓AI獲得了具身智能（Embodied Intelligence）的基礎。

在過去的一年中，具身智能已經成為全球AI研究的共識。

如OpenAI投資的Figure AI，正在以GPT系列模型驅動人形機器人的決策系統；特斯拉的FSD與Optimus，分別在道路和工廠場景中驗證世界模型驅動的閉環控制；中國的機器人企業也在讓模型直接掌控傳感器與電機，使算法真正落地到身體。

這種趨勢背后，AI正在經歷一場從虛擬智能到物理智能的轉變。在虛擬世界中，它生成一段視頻或一段話，而在物理世界中，它必須理解摩擦力、時間延遲和人的意圖。

可以預見，未來的智能體將是一個多層協作系統：上層的大語言模型負責目標規劃與邏輯推理，中層的世界模型負責環境建模與因果預測，底層的執行系統則負責感知、行動與反饋。

當這三層閉合，AI才真正擁有“意圖—計劃—行動”的完整循環，這正是通用智能的現實路徑。

再往前一步，便是AI的終極奧義——自主智能（Autonomous Intelligence）。

一旦AI能在內部模擬世界、預測變化并根據反饋修正決策，它就不再只是生成內容、執行動作，甚至可能思考如何存在。

這意味著，AI將具備一種內在的驅動力：能根據環境變化自主設定目標、規劃路徑、評估后果、修正策略。這種能力不再依賴外部指令，而是建立在長期記憶、世界建模與價值函數的協同基礎之上。

可以說，自主智能是AI自我意識的一種雛形，即不以人類輸入為中心，而以世界模型為認知坐標系，主動發現問題、驗證假設、優化自身。

智能的定義，也將被徹底改寫。

挑戰與啟示：從概念到產業化仍有距離

當然，這是最順暢的路徑。事實上，每一次智能的躍遷，都伴隨著新的復雜性與不確定性。

首先，是技術和生態層面的挑戰。

與語言模型不同，世界模型必須同時理解文本、圖像、視頻、語音、動作等多模態信息。數據維度暴漲、推理鏈條加深、模型參數呈指數級增長，對算力、能耗與數據質量提出了前所未有的要求。

Sora級別的視頻生成模型都需要巨量GPU支撐，而具身智能又要求在端側實現實時計算，其中的復雜性將考驗當下的算力極限。

同時，世界模型也缺乏跨平臺協同的工程體系配套。目前而言，世界模型沒有標準，缺乏統一的訓練語料、可比的評價指標與公共實驗平臺，企業往往各自為戰。

如果無法實現跨模型的可驗證性與可復用性，世界模型的生態就很難真正形成規模化創新。

其次，是認知層面的挑戰。

世界模型的強大之處，在于它可以在內部推演與預測，但這也讓它的決策過程愈發難以被人類理解。試想一下，當一個模型能在潛在空間中模擬成千上萬種結果時，我們還能否追蹤它的決策邏輯？

從自動駕駛的責任歸屬，到自主智能之間，有沒有可能產生長期目標漂移（Goal Drift）？進而延伸出AI的目標是否仍與人類一致的問題。

一旦AI從被動執行轉為主動學習，安全與倫理的議題，也隨之從技術層面上升到價值層面。

接下來，是產業和倫理層面的挑戰。

世界模型的進一步發展，勢必重新定義產業邊界。AI不僅可能重構交通、制造、醫療、金融等領域的決策體系，也將催動算法主權、智能監管等制度議題。

中美雖然在路徑上各有偏重，美國憑借資本與開放生態快速試錯，中國依托產業鏈協同推進落地，但雙方都面臨同一問題，當世界模型真正嵌入社會運行系統，它將以何種規則參與人類世界？

就目前而言，世界模型所依托的世界，仍建立在人類提供的語料、規則與經驗上。但AI進化下，人類需要持續地在技術、倫理與治理層面為智能設定邊界，這會是一項長期的考驗。

總之，世界模型是算法從符號空間步入物理現實的通道。大語言模型構建了AI的語義基礎，世界模型打開了AI的行動途徑，目標是智能的真正落地。

可以肯定的是，世界模型的意義，絕對不是讓AI更像人，而是讓人類在AI的協同下，走向更遠的未來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.