楊立昆發(fā)布史上最“輕”世界模型，單GPU可訓(xùn)，規(guī)劃速度提升48倍

2026-03-24 17:52:42　來源: DeepTech深科技

北京舉報

分享至

在通往通用智能（AGI）的道路上，世界模型（World Model）正被視為最關(guān)鍵的下一步。

通俗來說，世界模型就像是給 AI 裝上了一個“大腦模擬器”。它讓機(jī)器人不再僅僅是機(jī)械地執(zhí)行指令，而是具備了在想象空間中預(yù)演未來的能力。當(dāng)一個機(jī)械臂試圖抓取杯子時，世界模型允許它在真正動手前，先在腦海中模擬不同動作可能導(dǎo)致的結(jié)果。

為了構(gòu)建這種模型，圖靈獎得主楊立昆提出了聯(lián)合嵌入預(yù)測架構(gòu)（JEPA）。該方法不直接讓 AI 預(yù)測復(fù)雜的畫面變化，而是先把畫面“壓縮”成一串簡單的核心特征，再讓 AI 學(xué)怎么預(yù)測這些核心特征的變化。這樣一來，AI 不用關(guān)注畫面的細(xì)枝末節(jié)，只抓關(guān)鍵規(guī)律，效率會高很多。

然而，傳統(tǒng) JEPA 技術(shù)打造的 “模擬器”，始終存在核心痛點，成為其落地應(yīng)用的阻礙。

其一，訓(xùn)練易 “表示崩潰”，穩(wěn)定性差。為了輕松完成特征預(yù)測任務(wù)，AI 會出現(xiàn)“偷懶”行為：將所有不同的視覺輸入映射為幾乎相同的潛特征，看似預(yù)測精準(zhǔn)，實則這些特征毫無實際價值，這一問題被稱為“表示崩潰”；其二，超參數(shù)繁瑣，調(diào)參成本極高。主流端到端 JEPA 方法如 PLDM 擁有 6 個可調(diào)超參數(shù)，參數(shù)的細(xì)微變化都會導(dǎo)致模型性能天差地別，調(diào)參不僅需要大量的時間和計算資源，且參數(shù)無法跨任務(wù)復(fù)用，換一個任務(wù)就需要重新調(diào)試，門檻極高。

其三，計算成本高，規(guī)劃運行緩慢。部分方法為避免“表示崩潰”，會依賴提前訓(xùn)練好的超大視覺預(yù)訓(xùn)練模型作為基礎(chǔ)，雖能提升穩(wěn)定性，卻讓模型體積臃腫、編碼效率低下，AI 完成一次決策規(guī)劃需要耗費大量時間。

近日，楊立昆團(tuán)隊發(fā)表的論文，提出了一款名為 LeWorldModel（簡稱 LeWM）的全新世界模型，核心解決了傳統(tǒng) JEPA 訓(xùn)練不穩(wěn)定、易崩潰、超參數(shù)多、計算成本高的問題，是首個能從原始像素數(shù)據(jù)端到端穩(wěn)定訓(xùn)練的世界模型。整個模型就 2 個核心組件、2 個損失項，15M 參數(shù)，單 GPU 幾小時就能訓(xùn)完，只有 1 個有效可調(diào)超參數(shù)。

（來源：上述論文）

LeWM 的組成特別精簡，包括兩部分。一個是編碼器，用輕量的視覺模型，把攝像頭拍的彩色畫面，變成一串簡短的核心特征，抓住畫面里的關(guān)鍵信息；另一個是預(yù)測器，根據(jù) “當(dāng)前的核心特征以及要做的動作”，精準(zhǔn)預(yù)測下一步的核心特征，比如 “推一下方塊，它的位置特征會變成什么樣”，學(xué)懂環(huán)境的運行規(guī)律。

LeWM 最核心的突破，在于用兩個簡單且有科學(xué)支撐的訓(xùn)練目標(biāo)，從根本上解決了傳統(tǒng) JEPA 的“表示崩潰”問題，徹底摒棄了經(jīng)驗性技巧。其一為預(yù)測損失，是讓 AI 精準(zhǔn)預(yù)測未來的核心特征，保證學(xué)的規(guī)律有用；其二是 SIGReg 正則化，逼著 AI 把核心特征分布得均勻多樣，不讓它把所有畫面都映射成一樣的特征。

同時，LeWM 把調(diào)參的難度降到了最低，過去要調(diào) 6 個參數(shù)，現(xiàn)在只需要調(diào) 1 個，而且調(diào)參的方法特別簡單，不用反復(fù)試錯，普通人也能上手。

在實際性能測試中，研究團(tuán)隊在二維導(dǎo)航、機(jī)械臂控制、推方塊等經(jīng)典連續(xù)控制任務(wù)上測試了 LeWM，并與當(dāng)前主流的 JEPA 方法（DINO-WM、PLDM）、行為克隆（GCBC）、離線強化學(xué)習(xí)（GCIVL、GCIQL）等方法展開對比。

在二維導(dǎo)航任務(wù)中，智能體需要從一個房間穿過唯一的門，導(dǎo)航至另一個房間的指定目標(biāo)位置，考驗 AI 的路徑規(guī)劃和環(huán)境感知能力。LeWM 在該任務(wù)中雖略遜于傳統(tǒng)方法，但其潛特征仍能精準(zhǔn)捕捉智能體的位置信息，后續(xù)研究證實，這一表現(xiàn)差異并非源于特征學(xué)習(xí)不足，而是簡單環(huán)境的內(nèi)在維度與 SIGReg 的正則化要求存在適配性問題，并非模型本身的性能缺陷。

圖 | LeWM 在不同任務(wù)測試中的表現(xiàn)（來源：上述論文）

在推方塊任務(wù)中，LeWM 實現(xiàn)了性能突破，成功率比主流端到端方法 PLDM 高出 18%，更關(guān)鍵的是，僅依靠純像素輸入的 LeWM，性能竟超越了額外融合機(jī)器人本體感受信息（關(guān)節(jié)狀態(tài)、運動數(shù)據(jù)）的 DINO-WM，充分證明其能從純視覺畫面中，精準(zhǔn)捕捉到任務(wù)所需的全部關(guān)鍵規(guī)律，無需額外信息輔助。

除此之外，LeWM 的規(guī)劃效率更是實現(xiàn)了質(zhì)的飛躍。因為模型輕、特征簡單，LeWM 做決策規(guī)劃的速度，最高是傳統(tǒng)大模型方法的 48 倍，單次規(guī)劃不到 1 秒，不同任務(wù)、不同環(huán)境下速度都很穩(wěn)定。

同時，LeWM 的訓(xùn)練穩(wěn)定性遠(yuǎn)超傳統(tǒng)方法：傳統(tǒng) PLDM 的訓(xùn)練曲線波動劇烈，像“坐過山車”，而 LeWM 的訓(xùn)練曲線平滑單調(diào)收斂，預(yù)測損失穩(wěn)步下降，SIGReg 損失在訓(xùn)練初期快速下降后趨于平穩(wěn)，且不同隨機(jī)種子下的訓(xùn)練結(jié)果方差極小，可復(fù)現(xiàn)性大幅提升，徹底解決了傳統(tǒng)方法“一次成功、次次翻車”的問題。

圖 | LeWM 訓(xùn)練路徑（來源：上述論文）

最厲害的是，LeWM 造的 “模擬器”，不是單純靠死記硬背數(shù)據(jù)，而是真的學(xué)懂了物理世界的規(guī)律。

實驗中，研究人員能從 LeWM 的核心特征里，精準(zhǔn)提取出物體位置、角度、速度這些物理量，精度比傳統(tǒng)方法高很多；更有趣的是，給 LeWM 看三種視頻：物體正常運動、物體顏色突然變了、物體突然瞬移（違反物理規(guī)律），LeWM 對瞬移會表現(xiàn)出明顯的驚訝（預(yù)測誤差驟增），對顏色變化卻幾乎沒反應(yīng)。這說明它能分清“只是外觀變了”和“物理規(guī)律被打破了”，真正理解了世界的運行邏輯，而不是只記得畫面的表面特征。

當(dāng)然，目前 LeWM 還有一些小短板：比如現(xiàn)在只能做短期的決策規(guī)劃，規(guī)劃太久會積累誤差；在特別簡單的環(huán)境里，部分訓(xùn)練規(guī)則的效果會打折扣；訓(xùn)練時還需要明確的“動作標(biāo)簽”，比如“推方塊”要標(biāo)注出推的方向和力度。

針對這些問題，研究團(tuán)隊也指出了未來的改進(jìn)方向，比如把長任務(wù)拆成短任務(wù)實現(xiàn)長期規(guī)劃、讓模型從海量自然視頻里學(xué)通用物理規(guī)律、讓模型自己從畫面里學(xué)動作，不用額外標(biāo)注。

1.https://arxiv.org/pdf/2603.19312

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.