<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      全面解析“世界模型”:定義、路線、實(shí)踐與AGI的更近一步

      0
      分享至

      撰稿 :張珺玥

      如今的AI看起來似乎“無所不能”:能寫深奧的論文、復(fù)雜的代碼,做出頂級的畫面和視頻。然而,它仍然缺乏理解世界、預(yù)測世界以及在世界里推演并行動的能力。

      而為了解決這個問題,OpenAI、谷歌、微軟等大公司,Yann LeCun、李飛飛等頂尖學(xué)者都開始搶著研究同一件事,那就是——世界模型。


      不少AI科學(xué)家認(rèn)為,隨著多模態(tài)走向普及和成熟,如果這條技術(shù)線完全跑通,它將徹底重塑整個AI格局。但我們也注意到,“世界模型”的爆火也帶來了新的問題:仿佛整個AI圈,一夜之間都變成了“世界模型”:無論是做視頻生成的、做機(jī)器人的,還是自動駕駛、游戲開發(fā)等等,只要跟“世界”沾點(diǎn)邊,幾乎都是世界模型。

      世界模型到底是什么,它跟大語言模型有什么區(qū)別?這些看起來完全不同的路線,是在做同一件事嗎?世界模型的到來,又會給各行各業(yè)以及整個社會帶來什么樣的改變?以及,它會是人類通往AGI的終極密碼嗎?

      這期視頻,硅谷101團(tuán)隊(duì)花了幾個月時(shí)間做了深度研究、采訪和后期特效制作,想解釋清楚這個被業(yè)界不少大佬認(rèn)為是“AI下個十年最重要的研究方向”到底是在研究啥。希望對大家理解AI最前沿的討論和研發(fā)有所幫助,內(nèi)容有點(diǎn)硬核有點(diǎn)長,大家enjoy~

      (本文為視頻改寫,歡迎大家收看以下視頻)

      01

      什么是世界模型?

      關(guān)于世界模型的定義,目前仍然還沒有一個非常清晰的、被所有人都認(rèn)可的說法。但我們可以先來聊一聊這個概念的起源,以及它究竟想解決什么事情。

      先從一個再簡單不過的問題開始:你是怎么知道,一杯水放在桌邊,它可能會掉下去的呢?

      科學(xué)家們認(rèn)為,人類之所以能預(yù)測杯子會掉落、門往哪邊開、球會順著斜坡滾,是因?yàn)閺暮苄〉臅r(shí)候,我們就在腦子里構(gòu)建了一個“世界怎么運(yùn)作”的模型。我們能預(yù)判下一秒會發(fā)生什么,能想象“如果我這么做,會怎么樣”,并在腦海中提前排演各種可能性,在認(rèn)知科學(xué)中,這被稱為心智模型(Mental Model)


      早在上個世紀(jì),科學(xué)家們就已經(jīng)開始研究人類的心智模型。1943年,Kenneth Craik在其著作《解釋的本質(zhì)》中就提出:人在對現(xiàn)實(shí)作出反應(yīng)之前,會先在大腦中構(gòu)建一個“小規(guī)模的世界模型”,用它來模擬可能發(fā)生的過程,再據(jù)此選擇行動。也就是說,我們每個人腦子里,都有一個看不見的“小世界”。

      既然人類智能依賴于這樣的內(nèi)部世界,很多AI研究者也開始追問:機(jī)器要想具備真正的智能,是否也需要一個屬于自己的世界?


      于是,在AI和強(qiáng)化學(xué)習(xí)的早期研究中,這個思想以不同的名字反復(fù)出現(xiàn)。比如在1991年,Richard Sutton、Doina Precup和Satinder Singh在論文《An Integrated Architecture for Learning, Planning, and Reacting》中提出了后來被稱為Dyna架構(gòu)的設(shè)計(jì)思路。

      Dyna的核心在于:智能體在學(xué)習(xí)行動策略的同時(shí),也要學(xué)習(xí)model of the world。也就是,當(dāng)我采取某個動作之后,世界會如何變化,這也是第一次將“世界模型”明確確立為智能體內(nèi)部的一項(xiàng)基礎(chǔ)能力。


      在此之后,世界模型并沒有沿著單一路線發(fā)展,而是在不同研究領(lǐng)域中被不斷拆解、強(qiáng)化和改寫。比如在強(qiáng)化學(xué)習(xí)和機(jī)器人中,它體現(xiàn)為Forward Model;在自動控制和工業(yè)系統(tǒng)中,則發(fā)展出了Model Predictive Control(模型預(yù)測控制)。


      這些理論的名字雖然不同,但背后共享著同一個核心假設(shè):智能體之所以能做出更好的決策,不是因?yàn)榉磻?yīng)更快,而是因?yàn)樗茉谛袆又埃趦?nèi)部世界中先“看到未來”。

      在此后在很長一段時(shí)間里,世界模型更多停留在偏理論、偏算法的層面,直到深度學(xué)習(xí)和表示學(xué)習(xí)逐漸成熟。2018年,Google Brain的David Ha與深度學(xué)習(xí)元老級教父Jürgen Schmidhuber共同發(fā)表了論文《World Models》。這篇論文正式提出了“世界模型”(World models)這個精煉化的名稱,同時(shí)還給出了一個比較簡潔的世界模型理解框架:

      世界模型=觀察世界(V)+預(yù)測世界(M)+在內(nèi)部世界中學(xué)習(xí)行動(C對應(yīng)的是視覺(Vision)、記憶(Memory)和控制(Controller)三個核心模塊。


      我們用一個簡單的例子來解釋一下:想象你是一個從未打過乒乓球的新手,當(dāng)你站在球臺前,眼睛接收到的是大量復(fù)雜的視覺信息。視覺模塊(V)并不會記住每一個像素,而是會自動提取出對決策真正重要的部分,它將原本上百萬像素的畫面壓縮成僅有幾十個數(shù)字的精華編碼。

      記憶模塊(M)接收到這些編碼后,便立即開始內(nèi)部模擬。經(jīng)過多次練習(xí),你的大腦已經(jīng)建立起對乒乓球運(yùn)動規(guī)律的理解。記憶模塊就像你內(nèi)心的“物理引擎”,能預(yù)測“如果我這樣做,會發(fā)生什么”。


      所以,當(dāng)球飛來時(shí),視覺模塊提取特征,記憶模塊模擬方案,而控制模塊(C)就主要是在記憶模塊(M)所創(chuàng)造的“內(nèi)部世界”中進(jìn)行訓(xùn)練,你并不需要真的揮拍一百次試錯,而是在記憶模塊的“夢境”中找到最佳策略后,再在現(xiàn)實(shí)中只執(zhí)行一次最優(yōu)解。而這種“想象-規(guī)劃-行動”的認(rèn)知過程,正是人類智能的核心特征。


      在這篇論文中,他們也做出了一個有意思的demo,讓模型在完全虛擬的小世界里學(xué)會了玩一款賽車游戲,證明了AI可以像人類一樣,通過內(nèi)部世界的想象來進(jìn)行學(xué)習(xí)。

      總結(jié)下來,研究者們普遍認(rèn)為世界模型應(yīng)該具有三大特質(zhì)

      第一,表示世界(Representation)。模型能夠理解所處的環(huán)境里有什么、物體在哪里,以及物與物之間是什么關(guān)系。

      第二,預(yù)測未來(Prediction)。它能夠?qū)κ录M(jìn)行模擬和生成,如果我推一下杯子、打開一扇門、往前走兩步,世界會發(fā)生什么樣的改變。

      第三,在世界里規(guī)劃和行動(Planning & Control)。當(dāng)能預(yù)測接下來會發(fā)生什么之后,我應(yīng)該如何采取行動。


      Yiqi Zhao Product Design Lead, Meta 它是把世界抽象到一個潛在的、被壓縮過的空間里,在這個潛在空間里,你能夠通過學(xué)到的物理規(guī)律,去做對未來的預(yù)測,形成一個對真實(shí)世界的模擬器。相當(dāng)于它是一個模擬系統(tǒng),有點(diǎn)像是一個縮小的平行宇宙。這感覺就像如果你有一個真正的AI大腦,它就擁有自己的AI世界觀。因?yàn)榭梢宰鲱A(yù)測,所以就可以去做未來的推演,就可以做決策。

      世界模型的本質(zhì),就是想讓AI從一個“只會回答問題”的語言機(jī)器,走向能夠真正像人類一樣“會觀察、會推理、會行動”的真正智能體。但是問題來了,作為一個上個世紀(jì)就開始被研究的概念,為什么突然在最近一段時(shí)間火了起來?它跟我們現(xiàn)在所熟悉的大語言模型又有什么區(qū)別或是聯(lián)系呢?

      02

      為什么要研究世界模型

      Chapter 2.1 世界模型與大語言模型的不同


      從主要任務(wù)和預(yù)測目標(biāo)來看:

      • 大語言模型的目標(biāo)是生成在語言維度上最合理的序列,預(yù)測的是下一個詞或token。比如你問“杯子會從桌子上掉下來嗎?”,它回答“會”,因?yàn)檫@是在無數(shù)文本里出現(xiàn)過的正確答案。

      • 世界模型的任務(wù)是預(yù)測下一秒世界會變成什么樣”,預(yù)測的是下一幀畫面、下一步動作、下一次狀態(tài)變化,它需要理解物理規(guī)律、空間關(guān)系和動態(tài)變化

      從訓(xùn)練數(shù)據(jù)來看:

      • 大語言模型主要依賴文本數(shù)據(jù),也包括一些圖像和視頻,數(shù)據(jù)特點(diǎn)是以靜態(tài)內(nèi)容為主

      • 世界模型則主要依賴視頻等動態(tài)數(shù)據(jù),包括攝像頭看到的畫面、機(jī)器人的傳感器反饋、動作的結(jié)果、環(huán)境的變化,數(shù)據(jù)特點(diǎn)是動態(tài)的、時(shí)序性的

      從輸出結(jié)果看:

      • 大語言模型輸出的是語言或圖像等內(nèi)容。

      • 世界模型輸出的是對未來狀態(tài)的預(yù)測、對行為的模擬,以及可執(zhí)行的行動方案

      從學(xué)習(xí)方式看:

      • 大語言模型是通過語言間接理解世界,更像一個“知識容器”。

      • 世界模型是通過交互和推演直接理解世界,不僅能“看見”,還能“預(yù)測”和“干預(yù)”。

      因此,大語言模型更適合對話、寫作、翻譯、問答。而世界模型更適合機(jī)器人、自動駕駛、物理模擬和決策系統(tǒng)這些必須進(jìn)入真實(shí)世界的任務(wù)。

      此前,李飛飛也曾在采訪中精煉總結(jié)過兩者在目的和訓(xùn)練模態(tài)上的不同:


      李飛飛 World Labs創(chuàng)始人、資深A(yù)I科學(xué)家 一種是關(guān)于表達(dá),另一種是關(guān)于觀察和行動。因此它們本質(zhì)上是截然不同的模態(tài)。大型語言模型的基本單元是詞庫,無論是字母還是單詞,而我們使用的世界模型的基本單元是像素或體素。
      Chapter2.2 大語言模型路線遇到瓶頸了嗎?

      雖然大語言模型和世界模型是兩條不一樣的技術(shù)路線,但它們的終極目標(biāo)都是要實(shí)現(xiàn)通用人工智能。那么現(xiàn)在為什么要突然非常關(guān)注世界模型呢?是因?yàn)榇笳Z言模型這條路已經(jīng)走不動了嗎?

      關(guān)于這個問題,研究界目前仍然存在著不同的觀點(diǎn)。

      一些研究者們旗幟鮮明地提出,大語言模型是死路,這一派的代表人物之一就是Yann LeCun。


      圖片來源:Reuters

      離開工作了12年的Meta后,這位65歲的圖靈獎得主、深度學(xué)習(xí)先驅(qū)并沒有選擇退休,而是回到巴黎創(chuàng)立了一家名為Advanced Machine Intelligence的公司。他要做的事情,與硅谷主流的大模型路線截然不同。

      他在最近的采訪中表示,AI領(lǐng)域的Moravec悖論一直存在。所謂Moravec悖論,是指AI可以輕松處理對人類極其困難的高智力任務(wù),比如下棋、微積分、讀論文。但直覺性的感知、社交等人類和動物輕松完成的初級技能,對機(jī)器卻極其困難。Yann LeCun認(rèn)為,這個悖論至今未解決,就是因?yàn)槲覀冄芯緼I的路線錯了。

      人類智能的核心在于不依賴海量數(shù)據(jù)就能自主學(xué)習(xí),但現(xiàn)在的LLM是在擬合語言的統(tǒng)計(jì)相關(guān)性,對現(xiàn)實(shí)世界幾乎沒有直接建模能力,如果繼續(xù)沿著LLM路線“堆量”,最多只能做出一個更會說話、更會寫字的模型。


      他甚至放言稱,再過5年,GPT之類的大語言模型就不會有人再用了。而關(guān)于大家都在憧憬AGI很快到來,他也認(rèn)為是一種幻想,最樂觀也要5到10年,機(jī)器的智能才能勉強(qiáng)接近一只狗。


      Yann LeCun Meta前首席AI科學(xué)家、深度學(xué)習(xí)先驅(qū)、圖靈獎得主 那些吹噓一兩年內(nèi)就能實(shí)現(xiàn)通用人工智能的人,純粹是癡人說夢,徹頭徹尾的妄想,因?yàn)楝F(xiàn)實(shí)世界遠(yuǎn)比這復(fù)雜得多。你不可能通過“將世界token化”和使用大語言模型來解決這個問題,這根本不可能實(shí)現(xiàn)。

      而除了Yann LeCun之外,學(xué)術(shù)界中有不少的大佬級人物也都持有類似的觀點(diǎn),比如圖靈獎獲得者、強(qiáng)化學(xué)習(xí)之父Richard Sutton。


      Richard Sutton 強(qiáng)化學(xué)習(xí)之父、圖靈獎得主 大語言模型試圖在沒有目標(biāo)、也沒有‘好壞優(yōu)劣’這種評價(jià)標(biāo)準(zhǔn)的情況下運(yùn)作,這其實(shí)一開始就走錯了方向。

      李飛飛最近也在密集地發(fā)聲,她說大語言模型仍然是黑暗中的文字匠人:能言善辯,卻缺乏經(jīng)驗(yàn);知識淵博,卻脫離現(xiàn)實(shí)。


      所以,大語言模型這條路線是不是真的走不通了呢?嚴(yán)格來說,現(xiàn)在還沒有標(biāo)準(zhǔn)答案,但有幾件事,大家開始有了越來越多的共識

      首先,單純把模型做得更大,已經(jīng)不會再像過去那樣帶來立竿見影的突破。規(guī)模繼續(xù)上去當(dāng)然可以變強(qiáng),但在算力、數(shù)據(jù)、能源、成本這些硬約束下,它的性價(jià)比正在迅速下降。

      其次,AI需要更直接地接觸“真實(shí)世界”。語言世界太干凈了,它無法提供現(xiàn)實(shí)世界里那種混亂、連續(xù)、充滿不確定性的因果經(jīng)驗(yàn)。AI想繼續(xù)往前走,需要新的輸入方式、需要多模態(tài)感知、需要和環(huán)境互動。

      最后,大家普遍認(rèn)為世界模型和大模型將會是一個互補(bǔ)的關(guān)系。陳羽北就在訪談中提到,世界模型并不是要完全將大語言模型推翻重來,而是為大語言模型補(bǔ)上“現(xiàn)實(shí)世界”的維度。


      陳羽北 加州大學(xué)戴維斯分校電子與計(jì)算機(jī)工程系助理教授 在語言中我們有了GPT的話,當(dāng)預(yù)訓(xùn)練的好處達(dá)到一定程度的時(shí)候,它可以被快速地變成任何的下游應(yīng)用。世界模型可以被認(rèn)為是一個大號的GPT,它包含了感知和控制。如果我們在這里也能獲得根本上的成功,未來我們所有的機(jī)器人、所有的智能體都可以用這樣預(yù)訓(xùn)練和后訓(xùn)練的方式產(chǎn)生,這有可能會徹底地解鎖一些AI的應(yīng)用場景。
      Chapter2.3 為什么是現(xiàn)在?

      既然世界模型如此重要,為什么最近一段時(shí)間它才突然被行業(yè)普遍討論和關(guān)注呢?

      第一個原因就是上文我們所討論的,大模型的原生能力遇到了天花板,但人們對AI在現(xiàn)實(shí)生活中的期待卻越來越高。

      另一個原因是,隨著多模態(tài)時(shí)代的到來,讓我們第一次有能力訓(xùn)練“真正的世界模型”。訓(xùn)練世界模型需要海量的視覺與動作數(shù)據(jù)、多模態(tài)傳感器輸入、大規(guī)模視頻模型能力以及足夠強(qiáng)的算力來支持“世界推演”,這些條件直到最近幾年才逐步成熟。


      總得來說,因?yàn)榇竽P偷奶旎ò逡呀?jīng)顯現(xiàn),而且全行業(yè)都在邁向具身智能,再加上我們現(xiàn)在有了讓AI看世界、理解世界的技術(shù)基礎(chǔ),世界模型就順理成章地成為了下一輪AI競賽的核心舞臺。而這些嘗試,很快在行業(yè)里分成了幾條不同的技術(shù)流派。

      03

      當(dāng)前推進(jìn)世界模型的主要路線

      雖然世界模型的最終目標(biāo)看起來是相對清晰的,但落實(shí)在實(shí)踐探索層面,卻常常會讓人感到困惑。比如有的在做視頻生成,有的在做3D場景,有的在做機(jī)器人,有的在做智能體,它們都叫做世界模型,但在做的事情似乎完全不同。

      我們究竟應(yīng)該怎么去理解,現(xiàn)在整個行業(yè)到底在做些什么?

      關(guān)于這個問題,我們的嘉賓Yiqi結(jié)合世界模型的理論知識以及她在Meta的一些實(shí)踐觀察,在采訪中提出了一個我們認(rèn)為非常有幫助于大家理解的框架,就是把整個世界模型領(lǐng)域拆解成“三層結(jié)構(gòu)”,在這個架構(gòu)中:

      底層,是世界模型的思想與范式也就是我們之前所討論的,世界模型的抽象、預(yù)測、規(guī)劃特征,以及它要解決的問題。這一層涉及到目前很多研究層面的創(chuàng)新。

      第二層,是世界模型的當(dāng)前的“表現(xiàn)形式”指模型到底是用什么方式來表示世界和預(yù)測世界,世界應(yīng)該如何被生成出來。

      第三層,是世界模型的“目的層”,也就是智能體訓(xùn)練,讓AI最終能在這個世界里行動、做任務(wù)、完成決策。


      Yiqi Zhao Product Design Lead, Meta Latent MDP(潛在狀態(tài)表示)+Learn Dynamics(環(huán)境動力學(xué)模型)+Simulator(內(nèi)部模擬能力),這三者結(jié)合起來就是底層的世界模型核心層級,但是它是抽象的、不可見的。 如果要讓人和AI看到,需要有一個表現(xiàn)形式,這個表現(xiàn)形式需要AI幫忙生成,所以生成的層級會比它之前的層級稍微高一點(diǎn)。
      等生成完了之后,AI大腦里有了世界觀,就可以看到這個世界了。那接下來這個世界里需要有東西,讓人和AI智能體都要活在里面。 所以智能體在里面存在的方式就是:我終于有一個宇宙了,我要在里面玩、學(xué)習(xí),要對這個世界造成影響,和這個世界有一個交互,互相產(chǎn)生影響。

      04

      世界模型的表現(xiàn)形式:世界生成

      如果我們把當(dāng)前產(chǎn)業(yè)界的主要嘗試放在這個框架中去看的話,它們其實(shí)很多都聚焦在第二層級:世界生成。這也是目前整個領(lǐng)域最熱鬧的地方。

      Chapter4.1 為什么要先做世界生成

      很多研究者認(rèn)為,構(gòu)建世界模型的第一步不是讓AI直接“推理”或“行動”,而是讓它能夠去“生成世界”,這看似簡單,卻是世界模型的根基。

      所謂“理解世界”,本質(zhì)是理解世界如何隨時(shí)間和行為變化。物體如何移動、光線如何變化、風(fēng)吹過樹葉會發(fā)生什么,要獲得這種對“世界演化”的直覺,最直接的方式就是讓模型先能夠生成一個可連續(xù)變化的世界。

      此外,強(qiáng)大的世界生成模型能為智能體提供廉價(jià)的訓(xùn)練場。比如訓(xùn)練一個機(jī)器人倒咖啡,讓它在現(xiàn)實(shí)中倒幾萬次、打碎幾千個杯子顯然性價(jià)比太低,而地震、火災(zāi)、車禍這些邊緣場景也可以在虛擬世界中自由進(jìn)行反事實(shí)推理的實(shí)踐。

      因此,世界生成既是世界模型的外殼,也是整個體系的入口。而在世界生成這件事情上,目前主要有兩大技術(shù)路線:

      第一類,用“視頻生成”的方式去重建世界,包括OpenAI Sora、谷歌的Genie等。

      第二類,用“3D空間生成”的方式去顯式建模世界,其中的代表是李飛飛的World Labs。

      Chapter4.2 視頻生成路線

      視頻生成應(yīng)該是目前最具代表性的、也是最為大眾所熟悉的世界模型路線。它的目標(biāo)很直觀,就是嘗試讓AI直接生成一個“能動起來的世界”,并讓這個世界隨著時(shí)間流動、演化、變化。

      OpenAI在發(fā)布Sora之初,它們就將其定義為一個“世界模擬器”。Sora并不是簡單地把一段視頻用靜態(tài)圖像一張張“拼出來”,而是讓畫面里的事物能夠隨著時(shí)間連續(xù)地演化。這些視頻細(xì)節(jié)之所以令人震撼,是因?yàn)槿藗儼l(fā)現(xiàn),模型似乎開始真的“理解”了事物變化的背后規(guī)律,它知道光線在材質(zhì)上如何變化,知道一個物體在受到外力后該怎樣移動。而目前與Sora類似的,還有Seedance、Veo、Kling等一系列視頻生成模型。


      如果說Sora等模型是能夠去“播放一個世界”,Google的Genie系列模型則是讓我們能去“探索一個世界”。在Genie 3中,模型能夠根據(jù)用戶的文本或圖像提示,實(shí)時(shí)生成可供用戶及智能體進(jìn)行互動的虛擬環(huán)境。相比前代產(chǎn)品,Genie 3的核心突破在于“實(shí)時(shí)交互性”和“長時(shí)間一致性”,用戶可以跟模型進(jìn)行長達(dá)數(shù)分鐘的互動。

      Yiqi Zhao Product Design Lead, Meta Genie 3跟傳統(tǒng)的視頻生成模型很不同的一點(diǎn)在于,它生成出來的內(nèi)容,你是可以跟它實(shí)時(shí)交互的。你生成出來的內(nèi)容,比如黑板上寫了字,我走到別的地方回來之后這個字它還在黑板上。說明它雖然還是有frame by frame(逐幀生成)的生成方式,但是它已經(jīng)能夠記住世界里面的這些狀態(tài)。

      Genie 3的這種可控性,意味著模型內(nèi)部不再只是預(yù)測下一幀是什么,而是已經(jīng)在模擬“未來的世界狀態(tài)”。它讓視頻生成從“播放”走向“交互”,開始從“電影式生成”走向“游戲式模擬”,更接近一個真正的“世界引擎”,也更接近智能體將來需要使用的環(huán)境。


      就在今年1月,谷歌還推出了基于Genie 3打造的實(shí)驗(yàn)室原型Project Genie,首次將Genie 3的能力第一次封裝成為了一個“人人都可以直接上手體驗(yàn)”的產(chǎn)品形態(tài)。它的強(qiáng)大在于多模態(tài)的深度協(xié)同:由Gemini提供邏輯支撐,Nano Banana Pro生成高精度的場景與角色,再由核心引擎Genie 3將靜態(tài)設(shè)計(jì)“激活”為可互動的3D世界。依托TPU v5的算力,Project Genie實(shí)現(xiàn)了720p/24fps的實(shí)時(shí)環(huán)境渲染,同時(shí)允許用戶對同一個世界進(jìn)行“重新混剪”,具有長達(dá)60秒的強(qiáng)一致性記憶。

      Project Genie的發(fā)布意味著“世界模型”或許開始真正從PPT走進(jìn)現(xiàn)實(shí),它不再只是個會“變魔術(shù)”的算法,而是通過一句話就能“變”出一個可運(yùn)行的小型游戲世界的生產(chǎn)力工具。

      從行業(yè)視角來看,視頻生成路線有一個非常明顯的優(yōu)勢就是它的結(jié)果“看得見”。我們能直接觀察世界模型是否具備物理一致性、是否理解時(shí)空結(jié)構(gòu),而且它能快速商業(yè)化落地,影視、廣告、教育、游戲都能立刻使用。


      從技術(shù)角度看,視頻生成的優(yōu)點(diǎn)也很突出:首先,訓(xùn)練數(shù)據(jù)相對容易獲得。互聯(lián)網(wǎng)上有大量真實(shí)世界視頻,為模型學(xué)習(xí)世界規(guī)律提供了訓(xùn)練空間。其次,它對Scaling Law非常敏感,模型規(guī)模越大、數(shù)據(jù)越多,視頻的一致性和物理合理性就呈指數(shù)級提升。此外,視頻數(shù)據(jù)天然包含多樣化場景,模型泛化能力也更強(qiáng)。

      正因?yàn)檫@種“可觀察性”和“可規(guī)模化訓(xùn)練”的組合,讓視頻生成路線在過去一、兩年成為世界模型最引人注目的方向。

      但視頻生成的局限也同樣明顯,最重要的一點(diǎn)是,雖然它的輸出是“顯式”的,但內(nèi)部對世界的理解是“隱式”的,我們無法直接讀取,也無法將能力直接移植到機(jī)器人或決策系統(tǒng)中。


      視頻生成路線其實(shí)和大語言模型很像,兩者都是典型“scale-driven(規(guī)模驅(qū)動)模型”。語言模型通過學(xué)習(xí)互聯(lián)網(wǎng)文本掌握語言統(tǒng)計(jì)規(guī)律,視頻模型通過學(xué)習(xí)海量視頻掌握視覺統(tǒng)計(jì)規(guī)律,區(qū)別在于:視頻數(shù)據(jù)天然包含物體運(yùn)動、加速度、重力等物理特征,因此視頻模型能更直接地看到真實(shí)世界的運(yùn)作方式。

      但和語言模型一樣,視頻模型理解的世界規(guī)律依然“藏在權(quán)重里”。語言模型預(yù)測下一個token,視頻模型預(yù)測下一幀,但都很難告訴你世界內(nèi)部的結(jié)構(gòu)是什么。比如你讓Sora生成一輛車的行駛視頻,造型和光影可能很逼真,但如果你問,這輛車的長寬高是多少?被擋住的輪胎在哪里?它答不上來。因?yàn)镾ora并沒有構(gòu)建一個3D的幾何車輛模型,它只是學(xué)到了像素組合的概率分布。

      Chapter4.3 3D生成(空間智能)路線

      所以視頻生成雖然是目前最直觀、最能應(yīng)用落地的一步,但它目前也只是畫出了世界的一層皮,但還缺少有血有肉的框架。那如何才能勾勒出世界表層下的框架呢?

      李飛飛提出的思路是:3D生成,也就是空間智能。

      與視頻生成相比,3D生成路線走的是一條截然不同的技術(shù)選擇,不是把世界畫出來,而是把世界建出來。這也是李飛飛領(lǐng)導(dǎo)創(chuàng)建的World Labs目前的技術(shù)路線。它們不追求畫面有多逼真或“電影級”連續(xù)性,而是更關(guān)注世界的結(jié)構(gòu),包括物體在哪里?空間的幾何關(guān)系是什么?物體之間如何相互影響?生成的世界是否能被“進(jìn)入”與“操作”?


      WorldLabs最新發(fā)布的模型叫Marble它的特點(diǎn)是給它一個語言指令、一張照片或視頻,就能通過高斯?jié)姙R技術(shù)重建出完整的3D場景結(jié)構(gòu)。簡單來說,Marble就像建筑師,看到圖片時(shí)不只看到“像素”,而是看到背后的三維結(jié)構(gòu)。比如你同樣問它圖片里汽車的長寬高,它能回答出是長4.5米、寬1.8米,還能輸出3D網(wǎng)格文件。

      為什么李飛飛如此強(qiáng)調(diào)3D呢?因?yàn)樗J(rèn)為真正的世界就不是2D的,而是3D的,AI必須理解空間,才能理解世界。人類能抓住物體、避開障礙、記住空間,是因?yàn)槲覀兲焐邆錁?gòu)建3D模型的能力。機(jī)器人要抓取物體需要知道形狀、體積、位置,自動駕駛要理解空間和距離,這些都不是二維像素能表達(dá)的。AI要真正進(jìn)入現(xiàn)實(shí)世界,首先要知道“世界的三維結(jié)構(gòu)”。

      從技術(shù)層面看,3D生成路線有個巨大優(yōu)勢:與視頻模型的“隱式物理直覺”不同,它生成的是顯式結(jié)構(gòu),模型知道每個物體的具體位置,因此物理模擬、規(guī)劃、控制都更容易實(shí)現(xiàn)。一旦掌握這些顯式信息,它就能繼承傳統(tǒng)物理引擎的優(yōu)勢,確保碰撞、遮擋、施力等表現(xiàn)嚴(yán)格正確,成為“可操作世界模型”的底座。


      此外,3D生成在游戲、影視制作、室內(nèi)設(shè)計(jì)等場景也能快速落地,讓它能夠在商業(yè)轉(zhuǎn)化上具有優(yōu)勢。不久前,Worldlabs宣布了最新一輪10億美元的融資,估值達(dá)到了50億美元,短短一年半時(shí)間,它的估值飆升了5倍之多,一定程度上也反映了市場對于“3D生成”這條路線潛力的認(rèn)可。

      雖然3D生成對世界模型的發(fā)展具有巨大的戰(zhàn)略意義,但它的實(shí)現(xiàn)難度也要比視頻生成大很多:

      首先是訓(xùn)練數(shù)據(jù)稀缺。互聯(lián)網(wǎng)是巨大的2D視頻礦山,但3D數(shù)據(jù)卻很少。高質(zhì)量3D數(shù)據(jù)主要靠LiDAR、結(jié)構(gòu)光掃描儀等專業(yè)設(shè)備采集,不僅設(shè)備貴,流程還繁瑣,標(biāo)注成本也比2D高出一個量級。

      其次是幾何結(jié)構(gòu)難建。3D模型需要確保生成的物體封閉、無穿模、無破損,而預(yù)測柔體、流體、鏈?zhǔn)脚鲎驳葟?fù)雜3D動態(tài)交互則難度更大。

      最后對算力需求很大。無論是訓(xùn)練中的3D渲染還是實(shí)時(shí)物理模擬,計(jì)算量都遠(yuǎn)超2D模型,直接推高了研究門檻。


      胡淵鳴 Meshy AI CEO 我們?nèi)绻梢粡?024x1024分辨率的圖片,大約一百萬個像素。但是如果要生成一個3D的模型,最大的挑戰(zhàn)就是多出來一個新的維度,就不太可能直接用1024x1024x1024分辨率這樣的表示方式去做,計(jì)算量實(shí)在是太大了,所以大家就發(fā)明了很多新的創(chuàng)造性方法: 比如Meshy用的技術(shù)路線,是基于擴(kuò)散模型或者自回歸模型,通常先生成一個低分辨率版本的模型,然后再去把它Upscale(上采樣)。在Upscale(上采樣)的過程中,就會發(fā)現(xiàn)有一些區(qū)域不屬于我們關(guān)心的范圍,所以在這種情況下,我們就可以把計(jì)算量集中在我們特別關(guān)心的區(qū)域。


      總結(jié)來說,3D生成路線能夠更加真實(shí)地去還原世界,但它實(shí)現(xiàn)難度更大、成本更高。

      不過我們以上討論的其實(shí)都是如何把世界生成出來,但光有生成,還遠(yuǎn)遠(yuǎn)不夠,因?yàn)槭澜缒P偷恼嬲哪繕?biāo)不是去生成一個世界,而是要讓AI在這個世界里行動。

      05

      世界模型的目的:智能體訓(xùn)練

      如果“世界生成”是為了讓AI看見世界、重建世界,“智能體訓(xùn)練”就是要讓AI能在這個世界里“做事”,從“世界長什么樣”走向“我能在這個世界里做什么”。目前,業(yè)界主要有兩種探索路線。


      Chapter5.1 基于虛擬世界訓(xùn)練路線——SIMA

      第一條路線,就是直接把世界生成模型當(dāng)成“訓(xùn)練環(huán)境”,讓AI在虛擬生成的世界里不斷去犯錯、探索、總結(jié),最終學(xué)會一套可以遷移到真實(shí)世界的能力,這一類的代表是Google SIMA。

      SIMA的思路非常直接:既然現(xiàn)實(shí)世界太復(fù)雜、真實(shí)的訓(xùn)練太昂貴,那我們就用虛擬世界來教AI如何行動,而游戲就成為了它最佳的訓(xùn)練場。視頻游戲作為復(fù)雜、可交互、實(shí)時(shí)反饋的環(huán)境,一直是AI發(fā)展的搖籃,從早期的Atari到AlphaStar在《星際爭霸II》中打到世界前0.2%,DeepMind一直用游戲訓(xùn)練更智能的AI。


      SIMA的訓(xùn)練方式就是把AI放進(jìn)很多不同類型的游戲環(huán)境里去“練級”。最新的SIMA 2還將Gemini嵌入內(nèi)核,并首次使用Genie 3生成的游戲世界進(jìn)行了訓(xùn)練。

      SIMA 2展現(xiàn)出幾個令人矚目的能力突破:

      首先,它不僅能“跟指令做事”,還能“自己思考”。它可以理解復(fù)雜、多步、抽象的任務(wù),在陌生環(huán)境中自主探索、規(guī)劃行動、尋找解決方案。

      其次,它具有強(qiáng)大的“泛化能力”,能在從未見過的游戲環(huán)境中表現(xiàn)出色比如在Genie實(shí)時(shí)生成的世界中仍能合理辨別方向、理解指令、采取有意義的行動。此外,SIMA 2被設(shè)計(jì)為能跨游戲、跨環(huán)境執(zhí)行任務(wù)的通用AI智能體,這也為將來的具身機(jī)器人遷移奠定了基礎(chǔ)。


      SIMA想做的事情,顯然比“玩游戲”本身更大。游戲只是現(xiàn)實(shí)世界的縮影,它最終想要實(shí)現(xiàn)的,是讓AI能在任何3D世界里行動、探索、推理、解決問題。然而對于這個目標(biāo),不是所有研究者都認(rèn)為“要行動,就必須先生成一個世界”。以Yann LeCun代表的另一派,就選擇了一條完全不同的路線。

      Chapter5.2 直接學(xué)習(xí)世界的抽象結(jié)構(gòu)——JEPA

      Yann LeCun實(shí)現(xiàn)世界模型的思路是:不用去把世界“畫”出來,而是讓AI直接去學(xué)習(xí)世界的抽象結(jié)構(gòu)。

      在他看來,不管是生成圖片、生成視頻,還是生成3D世界,生成式模型都有一個共同的問題:消耗了大量算力去“畫細(xì)節(jié)”,卻未必真正理解了世界的結(jié)構(gòu)。比如人類學(xué)習(xí)走路時(shí),我們只需要知道:地面在哪里,障礙物在哪里,下一步該往哪走。


      理解世界的結(jié)構(gòu),比生成世界的外觀更重要。這正是Yann LeCun所提出的JEPA(Joint Embedding Predictive Architecture,聯(lián)合嵌入預(yù)測架構(gòu))理論的核心思想。JEPA不預(yù)測圖像、不預(yù)測像素,也不重建視覺內(nèi)容,它做的事情是把真實(shí)世界壓縮成一個抽象的、高維的潛在表示,然后在這個潛在空間里進(jìn)行預(yù)測。預(yù)測的目標(biāo)可以是空間上被遮擋的區(qū)域,也可以是時(shí)間上的后續(xù)狀態(tài)。


      我們來舉個簡單的例子:如果你輕輕推一個球,視頻模型要預(yù)測的是下一幀里球的位置、陰影、光照、材質(zhì)反射。但JEPA不關(guān)心這些,它只關(guān)心球會往哪個方向滾,速度會怎么變,會不會撞到障礙物,哪些變化與任務(wù)和決策相關(guān)。它學(xué)習(xí)的是未來的結(jié)構(gòu),而不是未來的畫面。

      JEPA的基本結(jié)構(gòu)可以拆成三件事:首先,用Encoder(編碼器)將視覺和動作壓縮成抽象表征,然后用Predictor(預(yù)測器)預(yù)測這些抽象狀態(tài)在未來如何變化,最后將預(yù)測結(jié)果與真實(shí)未來狀態(tài)的編碼進(jìn)行對齊,讓模型學(xué)會捕捉世界的關(guān)鍵因果結(jié)構(gòu)。

      基于JEPA架構(gòu),Yann LeCun在Meta也先后發(fā)布了I-JEPA和V-JEPA,前者讓AI理解靜態(tài)圖像的結(jié)構(gòu),后者則讓AI學(xué)習(xí)視頻中世界隨時(shí)間變化的規(guī)律。


      JEPA的路線背后,有非常重要的技術(shù)動機(jī):

      首先,生成像素既昂貴又低效,而絕大多數(shù)像素信息與行動決策無關(guān)。JEPA不“畫世界”,因此計(jì)算成本更低。

      其次,由于只保留關(guān)鍵結(jié)構(gòu)信息,JEPA更容易捕捉因果關(guān)系,也更具跨場景、跨任務(wù)的泛化能力。

      更重要的是,這種抽象、結(jié)構(gòu)化的世界表示,更接近機(jī)器人和具身智能真正需要的“可操作世界”。比如對于機(jī)器人來說,它不需要知道物體的光影紋理,它只需要知道物體的可達(dá)性、跟自己的位置關(guān)系以及下一步該做什么,而JEPA的輸出的就是這種結(jié)構(gòu)化的抽象信息。


      早在幾年前,Yann LeCun就已經(jīng)在為JEPA路線搖旗吶喊了,但它至今仍然未能成為世界模型的研究的主流,因?yàn)镴EPA路線在實(shí)際推進(jìn)中面臨了很多現(xiàn)實(shí)問題:

      首先,它是“不可見的”。Sora能用逼真的畫面震撼所有人,Genie可以生成可探索的游戲世界,WorldLabs能用3D場景告訴你“我理解了空間結(jié)構(gòu)”。但JEPA學(xué)到的所有東西,都藏在一個抽象的潛在空間里,這意味著我們難以直接看到和驗(yàn)證模型到底“理解了什么”。

      其次,它的自監(jiān)督目標(biāo)極難設(shè)計(jì)。JEPA不像視頻生成那樣有現(xiàn)成的目標(biāo),你給它一幀讓它預(yù)測下一幀,JEPA想預(yù)測的是“未來的結(jié)構(gòu)”。但什么才是“結(jié)構(gòu)”?哪些因素該保留、哪些該忽略?目前仍沒有統(tǒng)一答案。

      最后,缺乏統(tǒng)一的評估和規(guī)模化推進(jìn)體系。JEPA的表征質(zhì)量藏在潛在空間里,研究社區(qū)多依賴下游任務(wù)或行為表現(xiàn)來評估模型,缺乏類似圖像生成或語言模型那樣統(tǒng)一的benchmark(基準(zhǔn)指標(biāo)),這也使不同設(shè)計(jì)路線之間的效果比較變得更加困難。正因?yàn)檫@些限制,JEPA更像一個“世界模型的前額葉原型”,方向很可能是對的,但距離成熟落地還仍然有一段距離。

      到這里,我們把世界模型最核心的幾條技術(shù)路線都梳理了一遍:有人用視頻把世界“畫”出來;有人用 3D 把世界“搭”出來;有人在虛擬世界里訓(xùn)練行動智能;也有人干脆不畫世界,想讓AI直接學(xué)習(xí)世界的結(jié)構(gòu)。


      當(dāng)然,還有一些我們沒有展開的路線:比如Dreamer這一類以動力學(xué)為核心的世界模型更專注于控制與想象;有的試圖從物理規(guī)律出發(fā),用可微分模擬器去逼近真實(shí)世界;也有越來越多工作,正在模糊世界模型、預(yù)測模型與決策模型之間的邊界。

      這些路線看起來方向不同,但它們正在指向同一個未來:讓AI不再只是“輸出信息”,而是真正理解世界、推理世界、在世界里行動。

      Yiqi表示,因?yàn)槟壳笆澜缒P驮诼涞貙用孢€在早期階段,并沒有看到哪一條路線具體的商業(yè)應(yīng)用形式,所以包括Meta在內(nèi)的大廠們,實(shí)際是在各個路線上都在做布局和研究。


      Yiqi Zhao Product Design Lead, Meta Meta在世界模型的路線上,不同的技術(shù)路線全部都做了,主要是因?yàn)樗挠脩魣鼍昂痛怪眻鼍暗男枨蟛煌K詾橛螒蚍?wù)的我們就做了AI游戲引擎,叫做Meta Horizon Studio。為內(nèi)容創(chuàng)作來服務(wù),我們就做了純視頻方向的。為了數(shù)字重建和3D重建,我們就做了高斯?jié)姙R的方式。所以我們希望能夠把方方面面的需求都概括進(jìn)去,各種場景都適用,我相信其他公司也是這樣想的。

      不過可以預(yù)見的是,當(dāng)世界模型真正成熟,對產(chǎn)業(yè)帶來的改變,絕對不會只是讓“視頻生產(chǎn)效率更高”這么簡單,它將是一次橫跨軟件、硬件、制造、娛樂等眾多行業(yè)的系統(tǒng)性沖擊。

      06

      世界模型會改寫哪些關(guān)鍵行業(yè)?

      Chapter6.1 機(jī)器人

      如果說有哪個行業(yè),會最直接地被世界模型撬動,那一定是機(jī)器人行業(yè)。

      過去幾十年,機(jī)器人的發(fā)展受制于硬件、算力和應(yīng)用場景等多重因素。但更深層、也更關(guān)鍵的瓶頸在于它們還不“懂”世界,因此難以實(shí)現(xiàn)跨環(huán)境的遷移和泛化。今天的絕大多數(shù)機(jī)器人看起來很厲害,但它們做的一切,本質(zhì)上都是“被編程好的動作”,所以只要環(huán)境稍微變化,它們就會立刻“失能”。

      機(jī)器人行業(yè)過去一直難以擴(kuò)張的原因就在于:每一項(xiàng)新任務(wù),都意味著一次新的工程項(xiàng)目。

      而世界模型帶來的,是讓機(jī)器人擁有“世界的內(nèi)部模型”。它能看到現(xiàn)在,也能預(yù)測未來,知道物體怎么動,也能推斷自己的動作會產(chǎn)生什么后果。它能先在腦子里模擬,再決定要不要執(zhí)行。


      比如它可以模擬箱子會不會翻倒、門把的角度能否順利轉(zhuǎn)動、路徑是否足夠安全、抓取是否會失敗。過去要花工程師幾十小時(shí)調(diào)參的任務(wù),現(xiàn)在機(jī)器人在模擬世界里自主練習(xí)就能掌握。

      更重要的是,機(jī)器人開始具備遷移能力。它不需要每次換一個物體、換一個場景、換一個任務(wù)都重新示教一遍,它能把內(nèi)部模型里學(xué)到的規(guī)律遷移到現(xiàn)實(shí)世界。盡管仿真到現(xiàn)實(shí)的遷移至今仍是一個開放難題,世界模型有望大幅降低這道門檻,讓機(jī)器人面對從未見過的物品時(shí),仍然能做出合理決策。

      這對機(jī)器人來說是一次范式級的改變。無論是家庭服務(wù)機(jī)器人、倉儲機(jī)器人、工廠協(xié)作機(jī)器人、餐飲零售機(jī)器人,還是專業(yè)級的巡檢、建筑、醫(yī)療輔助手臂,世界模型都可能成為它們跨過智能門檻的那把鑰匙。

      Chapter6.2 自動駕駛

      大約從5年前開始,馬斯克就開始講L5要來了,但為什么時(shí)至今天,L5級的自動駕駛依然沒有全面普及?背后原因之一就在于:系統(tǒng)雖然“看得見世界”,卻還難以真正預(yù)測世界。

      我們現(xiàn)在常說的L2、L3自動駕駛,本質(zhì)上依賴的仍然是“感知—預(yù)測—規(guī)劃”的分層體系:識別車、人、車道線、交通燈,再通過規(guī)劃系統(tǒng)給車輛下指令。

      特斯拉更強(qiáng)調(diào)用大規(guī)模真實(shí)道路數(shù)據(jù),通過端到端方式不斷逼近人類駕駛。而Waymo則長期在高度結(jié)構(gòu)化的系統(tǒng)中,追求可驗(yàn)證的安全性。但無論是哪種路線,都面臨一個共同的問題:它們對“現(xiàn)在”的感知已經(jīng)很強(qiáng),卻很難穩(wěn)定地理解“接下來會發(fā)生什么”。

      再加上極端天氣、突發(fā)事故、不規(guī)范行人等長尾場景在真實(shí)道路中極其稀少,也成為制約自動駕駛規(guī)模化的關(guān)鍵瓶頸。


      而這正是世界模型開始真正進(jìn)入工程體系的地方。比如Waymo在最近的技術(shù)博客中提出,他們正在將自動駕駛系統(tǒng)的核心,構(gòu)建為一個Foundation model(基礎(chǔ)模型),它采用了“分段式端到端”的架構(gòu),內(nèi)部可以進(jìn)行端到端訓(xùn)練和反向傳播,同時(shí)又保留了對世界的結(jié)構(gòu)化表達(dá)。這個模型不只是完成單一任務(wù),而是學(xué)習(xí)“世界如何運(yùn)轉(zhuǎn)”,它被要求輸出物體、語義屬性和道路結(jié)構(gòu)等中間表征,讓系統(tǒng)在出錯時(shí),能夠定位問題出在世界理解的哪一層。

      這些結(jié)構(gòu)化世界信息,也支撐起更高質(zhì)量的仿真系統(tǒng):不僅還原場景,還能在不同假設(shè)下預(yù)測交通參與者的行為,并在內(nèi)部同時(shí)推演大量可能的決策路徑,從中篩選出最安全、最穩(wěn)定的一條。這不再只是“識別”,也不只是“反應(yīng)”,而是讓自動駕駛系統(tǒng)開始具備一種接近人類駕駛的預(yù)判能力。

      也正因?yàn)槿绱耍澜缒P捅徽J(rèn)為是推動自動駕駛從局部可用,走向可驗(yàn)證、安全的大規(guī)模商業(yè)化落地的核心技術(shù)之一。

      Chapter6.3 穿戴式設(shè)備

      如今我們所熟知的可穿戴設(shè)備,本質(zhì)上還是停留在記錄層面,看上去很智能,但實(shí)際上卻并不理解你周圍的環(huán)境。而世界模型會讓這一切發(fā)生質(zhì)變:


      一方面,它能讓設(shè)備真正讀懂你的3D世界,實(shí)時(shí)推斷空間結(jié)構(gòu)、物體關(guān)系和潛在風(fēng)險(xiǎn),把數(shù)字內(nèi)容自然融合進(jìn)現(xiàn)實(shí)環(huán)境。另一方面,它的預(yù)測和規(guī)劃能力,會讓可穿戴設(shè)備從工具變成你的“數(shù)字伙伴”。理解你在什么環(huán)境、看什么、可能要做什么,比如提前提醒路面濕滑,在廚房識別缺少的食材,甚至在你開口前就意識到你需要幫助。

      從更長遠(yuǎn)看,這不只是設(shè)備升級,更是一種新的“人機(jī)關(guān)系”,世界模型會讓可穿戴設(shè)備從“信息終端”變成隨身的“世界理解引擎”,眼鏡、耳機(jī)、手表,都可能進(jìn)化為與你共同生活、共同行動的智能體。而這,也可能會是下一代計(jì)算平臺的起點(diǎn)。

      Chapter6.4 內(nèi)容生成、游戲與影視制作

      如果說機(jī)器人、自動駕駛等“具身智能”是世界模型在現(xiàn)實(shí)世界的落地,內(nèi)容相關(guān)的產(chǎn)業(yè),就是世界模型在“想象世界”里的爆發(fā)奇點(diǎn)。

      如今我們已經(jīng)看到視頻生成模型所帶來的一些震撼效果,而世界模型的到來,可以讓未來的內(nèi)容創(chuàng)作只需要給一個世界觀、一個任務(wù)、一個初始狀態(tài),模型就能自動“長出一個世界”。比如在影視行業(yè),一個導(dǎo)演不需要去反復(fù)搭景、重拍、做模型,只需要定義“這是一座被雨水淹沒的城市”,AI就能生成整個城市的狀態(tài)變化。

      而在游戲行業(yè),世界模型帶來的改變更是顛覆性的。過去的游戲世界需要一磚一瓦搭建,地形、天氣、物理引擎、NPC行為、任務(wù)鏈等等條件,我們都需要數(shù)百人團(tuán)隊(duì)、花費(fèi)幾年時(shí)間,才能做出一個開放世界。但世界模型意味著游戲世界不需要“制作”,而可以自動生成和進(jìn)化。一個設(shè)計(jì)師只需要設(shè)定規(guī)則、生態(tài)、沖突,AI就能生長出森林、河流、生物、文化、經(jīng)濟(jì)系統(tǒng),甚至NPC的性格、記憶和演化方向。


      胡淵鳴 Meshy AI CEO 大家以前玩的游戲都是靜止的游戲,所有的規(guī)則已經(jīng)被寫好了,有一個游戲設(shè)計(jì)師和游戲程序員去實(shí)現(xiàn)這個規(guī)則就可以了。但是如果我們在游戲場景當(dāng)中有這種生成式AI技術(shù),就可以實(shí)現(xiàn)游戲是on the fly(即時(shí))生成的。比如谷歌的Genie 3,按上下左右鍵,它可以on the fly(即時(shí))生成下一秒的東西。 我們在做的事情就是,先用3D的模型,再自己做一個多模態(tài)的大模型,這個大模型可以先生成角色的外形,然后再給它加上人物邏輯,包括它的性格等等各種各樣的形式的邏輯。我們通過這條路徑也可以實(shí)現(xiàn)一個世界模型。

      所以對于整個內(nèi)容行業(yè)來說,世界模型帶來的不僅僅是制作效率的提升,而是一場敘事方式、創(chuàng)作方式、內(nèi)容形式的全面重寫。

      Chapter6.5 AI Agent

      世界模型的到來,還會加速AI Agent的進(jìn)化。當(dāng)我們今天在聊AI Agent的時(shí)候,很多討論其實(shí)都集中在Agent能不能更聰明、規(guī)劃能力夠不夠強(qiáng)、工具調(diào)用做得好不好。但如果退一步看,會發(fā)現(xiàn)一個更底層的問題一直沒有被真正解決:Agent到底是在什么環(huán)境里學(xué)會“行動”的?

      從強(qiáng)化學(xué)習(xí)的視角看,Agent的一切能力,都來自與環(huán)境的交互:執(zhí)行動作,接收反饋。但真實(shí)世界太昂貴、太緩慢,也太危險(xiǎn),幾乎不可能支撐大規(guī)模試錯。

      而世界模型解決的,正是“環(huán)境”本身的問題。它通過學(xué)習(xí)真實(shí)系統(tǒng)的數(shù)據(jù),在模型內(nèi)部構(gòu)建一個可運(yùn)行的世界,當(dāng)Agent采取行動時(shí),世界模型可以直接推演這個動作可能帶來的結(jié)果。這樣Agent就可以在世界模型中進(jìn)行大規(guī)模訓(xùn)練,如果這個世界足夠接近真實(shí),在虛擬環(huán)境中學(xué)到的能力,就可以穩(wěn)定遷移到現(xiàn)實(shí)系統(tǒng)中。


      世界模型并不是讓Agent立刻變得更聰明,而是第一次為Agent提供了一個可訓(xùn)練、可試錯、接近真實(shí)的“內(nèi)在世界”。這層世界底座,才是真正決定AI Agent能否走向現(xiàn)實(shí)世界的關(guān)鍵。

      所以世界模型改變的不只是某一個行業(yè)、某一個產(chǎn)品、某一種形態(tài),而是整套人與世界互動的方式。陳羽北在采訪中就談到,如果世界模型真的從根本上走通了,甚至有可能創(chuàng)造出一種新的文明。


      陳羽北 加州大學(xué)戴維斯分校電子與計(jì)算機(jī)工程系助理教授 如果你能實(shí)現(xiàn)World model(世界模型),已經(jīng)包羅萬象,把這個世界所有的邏輯問題和規(guī)律都掌握了,而且不是簡單的外延,而是可以在比較根本的程度上產(chǎn)生泛化,產(chǎn)生數(shù)據(jù)、產(chǎn)生意識,產(chǎn)生到超越人類的程度。那在給予一定意識的情況下,這個模型似乎已經(jīng)具備了建立一個新的文明的能力。

      07

      世界模型的潛在風(fēng)險(xiǎn)

      當(dāng)然,任何足以改變技術(shù)版圖的突破都會帶來新的風(fēng)險(xiǎn)。而世界模型的風(fēng)險(xiǎn),不再只是“胡說八道”那么簡單:

      首先,是更隱蔽、也更危險(xiǎn)的模型幻覺。無論哪條路線,世界模型本質(zhì)上都是在給AI構(gòu)建一個高度逼真的“夢境”,讓它在其中模擬和推演。但虛擬世界永遠(yuǎn)無法完全覆蓋真實(shí)世界,始終存在Sim-to-Real Gap(虛實(shí)差異)。語言模型的幻覺是編造事實(shí),視頻模型的幻覺是畫面錯誤。而世界模型的幻覺,出現(xiàn)在整個“世界結(jié)構(gòu)”里,比如誤判物體重量、高估動作可行性、低估碰撞后果,甚至構(gòu)建了錯誤的因果關(guān)系。


      這些問題不一定立刻被察覺,卻會直接影響智能體的決策與行動,進(jìn)而導(dǎo)致機(jī)器人失常、自動駕駛偏離,甚至關(guān)鍵系統(tǒng)被系統(tǒng)性誤導(dǎo)。所以當(dāng)世界模型出現(xiàn)幻覺,錯誤將是“系統(tǒng)級”的,這也是更難發(fā)現(xiàn)、更難對齊的風(fēng)險(xiǎn)。

      其次,是世界模型帶來的權(quán)力集中問題。未來可能只有極少數(shù)機(jī)構(gòu)具備構(gòu)建和運(yùn)行世界模型的能力,而成熟的世界模型,意味著前所未有的預(yù)測能力。對市場、社會行為、群體反應(yīng)的高精度推演,可能帶來新的信息壟斷,也可能被用于更高效的社會操控與商業(yè)操縱。

      更重要的是,當(dāng)世界模型越來越真實(shí),虛擬與現(xiàn)實(shí)的邊界會越來越模糊,“自主智能體”的到來也加大了AI不受控的風(fēng)險(xiǎn)。


      一旦AI真正理解并模擬世界,深度偽造與虛假場景將進(jìn)入“超真實(shí)”階段,AR/VR世界可能與現(xiàn)實(shí)幾乎無差,甚至更具吸引力。與此同時(shí),當(dāng)越來越多真實(shí)系統(tǒng)開始依賴這些模型,現(xiàn)實(shí)世界本身,也可能反過來“對齊”模型的假設(shè)。而當(dāng)世界模型變成決策底座,內(nèi)部狀態(tài)難以審計(jì)、推理過程不可見,我們甚至很難判斷它究竟“理解”了什么、在朝什么方向演化,這也意味著,它所帶來的監(jiān)管挑戰(zhàn),將遠(yuǎn)高于今天的大模型。

      所以,世界模型潛力巨大,但帶來的風(fēng)險(xiǎn)也比我們過去面對的任何AI技術(shù)都更危險(xiǎn)。它不只是內(nèi)容層面的風(fēng)險(xiǎn),而是會真的影響現(xiàn)實(shí)世界。

      當(dāng)AI不只是看世界、畫世界,而是開始在現(xiàn)實(shí)中推演、行動、做決定,我們需要從系統(tǒng)、對齊、倫理、監(jiān)管所有層面重新討論這件事。

      08

      AI的下一段旅程

      過去一、兩年,我們看到了AI在語言、圖像、視頻上的極速爆發(fā),仿佛一夜之間,AI已經(jīng)無所不能。但當(dāng)你開始思考,AI是否真的理解世界,是否能預(yù)測未來,是否能像人類一樣在世界中行動?你會發(fā)現(xiàn),現(xiàn)在的大模型其實(shí)還仍然停留在“表層智能”的階段。而世界模型,向我們提供了真正走向“深層智能”的可能。

      它讓AI從“看到世界”走向“理解世界”,從“預(yù)測句子”走向“預(yù)測未來”,從“生成畫面”走向“在世界里行動”。這不僅會改變機(jī)器人、制造業(yè)、自動駕駛、內(nèi)容產(chǎn)業(yè),也會改變我們和數(shù)字世界的關(guān)系,甚至改變我們對“智能”本身的理解。


      當(dāng)然,世界模型的道路還很長。它面臨巨大的技術(shù)挑戰(zhàn),也伴隨新的風(fēng)險(xiǎn)。目前我們?nèi)匀徊恢滥囊粭l路線會最終勝出,但我們知道的是:當(dāng)AI能夠真正理解世界、模擬世界、在世界里試錯和行動時(shí),它離“通用智能”,也就是我們一直在尋找的那個終極目標(biāo),又會近了一大步。而這,也許AI時(shí)代真正的拐點(diǎn),而我們現(xiàn)在,正在見證它的開端。

      最后,我們還想補(bǔ)充的是,因?yàn)槭澜缒P捅旧磉€沒有一個被學(xué)界和產(chǎn)業(yè)完全統(tǒng)一的定義。所以這一期內(nèi)容,并不是想給世界模型下一個“標(biāo)準(zhǔn)答案”,而是希望從我們的視角,為大家梳理出一個理解世界模型的框架。

      不同團(tuán)隊(duì)、不同方向的每一條路線背后,其實(shí)都牽涉到大量具體的技術(shù)細(xì)節(jié)、方法選擇,以及仍在快速演化的新嘗試。接下來,我們也會持續(xù)圍繞這個主題,做更深入的拆解和系列內(nèi)容,歡迎大家持續(xù)關(guān)注。

      注:部分圖片來源于網(wǎng)絡(luò)

      【本期節(jié)目不構(gòu)成任何投資建議】

      【視頻播放渠道】

      國內(nèi):B站|騰訊|視頻號|西瓜|頭條|百家號|36kr|微博|虎嗅

      海外:Youtube

      聯(lián)系我們:video@sv101.net

      【創(chuàng)作團(tuán)隊(duì)】

      監(jiān)制|泓君 陳茜

      撰稿 |張珺玥

      文稿編輯|陳茜 王梓沁

      文稿支持|Kolento

      主持 |陳茜

      剪輯|Jacob

      動效|踹 AK12

      運(yùn)營|孫澤平 王梓沁

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      董路發(fā)文回?fù)酎S健翔,稱對陣英格蘭二隊(duì)還被摁在禁區(qū),他們到頭了

      董路發(fā)文回?fù)酎S健翔,稱對陣英格蘭二隊(duì)還被摁在禁區(qū),他們到頭了

      體壇風(fēng)之子
      2026-04-11 07:00:09
      賴清德做夢也想不到,鄭麗文只用6天時(shí)間,或扭轉(zhuǎn)國民黨20年頹勢

      賴清德做夢也想不到,鄭麗文只用6天時(shí)間,或扭轉(zhuǎn)國民黨20年頹勢

      肖茲探秘說
      2026-04-10 18:09:23
      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      近史談
      2026-03-31 18:57:49
      恭喜俄羅斯和烏克蘭!打了1500天,終于打成全世界都喜歡的樣子!

      恭喜俄羅斯和烏克蘭!打了1500天,終于打成全世界都喜歡的樣子!

      溫讀史
      2026-04-08 17:38:05
      “跳成這樣,還好意思當(dāng)老師?”15年舞蹈教師被全網(wǎng)嘲笑:快退費(fèi)

      “跳成這樣,還好意思當(dāng)老師?”15年舞蹈教師被全網(wǎng)嘲笑:快退費(fèi)

      妍妍教育日記
      2026-03-31 09:50:03
      比賴清德還狂的人出現(xiàn)了,如果她當(dāng)選臺灣領(lǐng)導(dǎo)人,解放軍必定收臺

      比賴清德還狂的人出現(xiàn)了,如果她當(dāng)選臺灣領(lǐng)導(dǎo)人,解放軍必定收臺

      芳芳?xì)v史燴
      2026-03-29 21:09:31
      澤連斯基死定了?他最后的下場,或?qū)⒏ㄔ坪退_達(dá)姆一樣

      澤連斯基死定了?他最后的下場,或?qū)⒏ㄔ坪退_達(dá)姆一樣

      燦若銀爛
      2026-04-11 13:31:30
      有一種病叫“性成癮”:一旦發(fā)作,比煙癮、酒癮厲害多了,很痛苦

      有一種病叫“性成癮”:一旦發(fā)作,比煙癮、酒癮厲害多了,很痛苦

      熊貓醫(yī)學(xué)社
      2026-04-05 12:05:03
      禁止所有中國外交官入境,不讓兩岸統(tǒng)一,這個國家比美國還要囂張

      禁止所有中國外交官入境,不讓兩岸統(tǒng)一,這個國家比美國還要囂張

      羽逸地之光
      2026-03-19 14:02:05
      新冠后遺癥的長期侵襲,無數(shù)人在不知不覺中深陷困境

      新冠后遺癥的長期侵襲,無數(shù)人在不知不覺中深陷困境

      律法刑道
      2026-04-01 10:15:47
      3·15晚會曝光“萬能神藥”涉事企業(yè)被吊銷營業(yè)執(zhí)照并罰200萬元

      3·15晚會曝光“萬能神藥”涉事企業(yè)被吊銷營業(yè)執(zhí)照并罰200萬元

      界面新聞
      2026-04-11 14:07:04
      Lululemon憋了3年的鞋,被用戶發(fā)現(xiàn)能當(dāng)兩雙穿

      Lululemon憋了3年的鞋,被用戶發(fā)現(xiàn)能當(dāng)兩雙穿

      追星雷達(dá)站
      2026-04-11 08:07:29
      事發(fā)凌晨!深圳一小區(qū)電動車起火,濃煙滾滾!網(wǎng)友:聞到焦味!消防緊急出動

      事發(fā)凌晨!深圳一小區(qū)電動車起火,濃煙滾滾!網(wǎng)友:聞到焦味!消防緊急出動

      南方都市報(bào)
      2026-04-11 12:09:56
      在上海,不降薪根本找不到工作

      在上海,不降薪根本找不到工作

      一口娛樂
      2026-04-12 00:23:08
      中朝邊境鴨綠江口現(xiàn)狀:朝鮮領(lǐng)土正在不斷增加,中方卻在逐漸減少

      中朝邊境鴨綠江口現(xiàn)狀:朝鮮領(lǐng)土正在不斷增加,中方卻在逐漸減少

      普覽
      2026-02-26 21:29:19
      觀點(diǎn):在討論換外援、教練之前,傷掉一半首發(fā)的上海海港,或該先換個好隊(duì)醫(yī)!

      觀點(diǎn):在討論換外援、教練之前,傷掉一半首發(fā)的上海海港,或該先換個好隊(duì)醫(yī)!

      上觀新聞
      2026-04-12 05:04:18
      每天3分鐘5個動作,肌肉質(zhì)量暴漲45%?打工人終于能坐著瘦!

      每天3分鐘5個動作,肌肉質(zhì)量暴漲45%?打工人終于能坐著瘦!

      徐孟醫(yī)生說疼痛
      2026-04-02 19:00:06
      一年虧損四千萬,全國陷“關(guān)停潮”,曾經(jīng)的金飯碗如今正慘遭拋棄

      一年虧損四千萬,全國陷“關(guān)停潮”,曾經(jīng)的金飯碗如今正慘遭拋棄

      忠于法紀(jì)
      2026-04-06 15:10:31
      創(chuàng)造歷史,林加德成為首位出戰(zhàn)解放者杯的英格蘭球員

      創(chuàng)造歷史,林加德成為首位出戰(zhàn)解放者杯的英格蘭球員

      懂球帝
      2026-04-11 15:19:36
      鄭麗文書法爭議:她的字真的不是自己寫的嗎?

      鄭麗文書法爭議:她的字真的不是自己寫的嗎?

      書畫相約
      2026-04-08 08:19:04
      2026-04-12 05:51:00
      硅谷101 incentive-icons
      硅谷101
      從這里駛向未來
      165文章數(shù) 105關(guān)注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

      頭條要聞

      美國提過分要求 美伊談判雙方嚴(yán)重分歧披露

      頭條要聞

      美國提過分要求 美伊談判雙方嚴(yán)重分歧披露

      體育要聞

      換帥之后,他們從降級區(qū)沖到升級區(qū)

      娛樂要聞

      鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

      財(cái)經(jīng)要聞

      從日本翻身看:這次誰能扛住高油價(jià)?

      汽車要聞

      煥新極氪007/007GT上市 限時(shí)19.39萬起

      態(tài)度原創(chuàng)

      游戲
      藝術(shù)
      親子
      本地
      公開課

      排面拉滿!《影之刃零》入選國家級藝術(shù)雜志

      藝術(shù)要聞

      一輩子都沒見過的藝術(shù),太絕了!

      親子要聞

      響應(yīng)深圳衛(wèi)健委號召,應(yīng)強(qiáng)制不再打算生育的國男結(jié)扎

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版