大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技
文丨丁靈波
今天,國內(nèi)具身智能明星公司 星海圖發(fā)表了一篇新論文, 星海圖聯(lián)合創(chuàng)始人兼首席科學(xué)家趙行發(fā)帖表示:最近對世界行動模型(WAM)的研究發(fā)現(xiàn),WAM的核心優(yōu)勢不在于測試時對未來的“想象”,而在于訓(xùn)練時來自未來視頻預(yù)測的監(jiān)督。
該團(tuán)隊提出了Fast-WAM,它使推理變得簡單、快速且以策略為中心。
趙行除了在公司任職,目前也擔(dān)任清華大學(xué)交叉信息學(xué)院的助理教授、Mars lab主任;2026年2月,星海圖完成10億元B輪融資,截至本輪,該公司累計融資額近30億元,估值達(dá)百億級別。
![]()
這篇新論文引起了不少業(yè)內(nèi)研究員關(guān)注和評論,AI圈知名青年學(xué)者、現(xiàn)任AMI聯(lián)合創(chuàng)始人兼首席科學(xué)官的謝賽寧轉(zhuǎn)發(fā)稱:“ 最好與LeWorldModel論文一起閱讀,別問我為什么。 ”
謝賽寧提到的“ LeWorldModel”是圖靈獎得主、AMI創(chuàng)立者Yann LeCun最新發(fā)表的另一篇論文成果。
一起來看看,這兩項(xiàng)最新研究都講了什么。
比現(xiàn)有WAM快4倍以上
在目前的具身控制領(lǐng)域中,世界動作模型(WAMs)被視為替代視覺-語言-動作(VLA)模型的一種極具前景的方案。
現(xiàn)有大多數(shù)WAM均采用先想象后執(zhí)行范式,迭代式視頻去噪會產(chǎn)生顯著的測試時延,然而,顯式預(yù)測未來畫面對實(shí)現(xiàn)優(yōu)異動作性能是否必不可少,目前尚不明確。
星海圖(Galaxea AI)團(tuán)隊在新論文中展開探討:WAM在測試階段是否需要顯式的未來想象,其性能增益是否主要來自訓(xùn)練階段的視頻建模?
![]()
該團(tuán)隊提出了Fast-WAM架構(gòu),將訓(xùn)練階段的視頻建模與推理階段的顯式未來生成解耦——該架構(gòu)在訓(xùn)練時保留視頻聯(lián)合訓(xùn)練,測試時則跳過未來預(yù)測環(huán)節(jié),此外,還進(jìn)一步設(shè)計了多種Fast-WAM變體,以實(shí)現(xiàn)對這兩種因素的對照研究。
![]()
簡單來說,F(xiàn)ast-WAM基于預(yù)訓(xùn)練的視頻擴(kuò)散變換器骨干網(wǎng)絡(luò)和動作專家DiT構(gòu)建。
在訓(xùn)練過程中,它聯(lián)合學(xué)習(xí)動作預(yù)測和視頻建模,從而使共享的視覺骨干網(wǎng)絡(luò)獲得更強(qiáng)的與世界相關(guān)的表征。
在推理階段,F(xiàn)ast-WAM僅保留當(dāng)前觀測中干凈的潛在標(biāo)記,并利用視頻主干網(wǎng)對其進(jìn)行一次處理,然后直接生成動作,無需顯式地對后續(xù)視頻進(jìn)行去噪,這消除了先想象后執(zhí)行的WAM的主要運(yùn)行時瓶頸。
實(shí)驗(yàn)結(jié)果表明:Fast-WAM的性能與“先想象后執(zhí)行”類模型性能相當(dāng),而移除視頻聯(lián)合訓(xùn)練會導(dǎo)致性能大幅下降。
![]()
![]()
在無需具身預(yù)訓(xùn)練的條件下,F(xiàn)ast-WAM在仿真基準(zhǔn)(LIBERO、RoboTwin)和真實(shí)世界任務(wù)上均取得了與當(dāng)前最優(yōu)方法可比的效果,該模型可實(shí)時運(yùn)行,時延僅190毫秒,速度比現(xiàn)有先想象后執(zhí)行的WAM快4倍以上。
而“先想象后執(zhí)行”類變體則明顯更慢,尤其是Fast-WAM-IDM時延高達(dá)810毫秒,這使得Fast-WAM成為更適合實(shí)際部署的優(yōu)選方案,在保持出色任務(wù)性能的同時,大幅降低了推理開銷。
![]()
通過在仿真與真實(shí)機(jī)器人基準(zhǔn)上的對照實(shí)驗(yàn)(含有無視頻聯(lián)合訓(xùn)練的變體),該團(tuán)隊證明WAM中視頻預(yù)測的主要價值,更多體現(xiàn)在訓(xùn)練階段學(xué)習(xí)更優(yōu)質(zhì)的世界表征,而非測試階段生成未來觀測。
單GPU可跑的世界模型
而謝賽寧建議和Fast-WAM一起看的“LeWorldModel”是Yann LeCun近期署名的一篇新作,也是對他此前提出的聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)的一種優(yōu)化延展。
![]()
人工智能的核心目標(biāo)之一,是研發(fā)能夠在多樣化任務(wù)與環(huán)境中習(xí)得技能的智能體,世界模型(WMs)被視為是一種頗具潛力的方法,一旦訓(xùn)練成功,世界模型能讓智能體僅依靠自身構(gòu)建的世界模型進(jìn)行規(guī)劃與自我提升,即在想象空間中完成學(xué)習(xí)。
這在離線學(xué)習(xí)場景下尤為重要:智能體只能從固定數(shù)據(jù)集中學(xué)習(xí),無法與環(huán)境交互,可借助世界模型生成仿真經(jīng)驗(yàn),并評估反事實(shí)動作序列。
一種主流的世界模型學(xué)習(xí)方法便是聯(lián)合嵌入預(yù)測架構(gòu)(JEPA),JEPA并不試圖建模環(huán)境的全部細(xì)節(jié),而是專注于捕捉預(yù)測未來狀態(tài)所需的最關(guān)鍵特征,盡管理念簡潔,但現(xiàn)有JEPA方法極易發(fā)生表征坍縮,避免坍縮是訓(xùn)練JEPA模型的核心挑戰(zhàn)之一。
為突破這項(xiàng)挑戰(zhàn),該團(tuán)隊提出了LeWorldModel(LeWM),該方法首次實(shí)現(xiàn)了從原始像素端到端學(xué)習(xí)穩(wěn)定的JEPA模型。
![]()
值得關(guān)注的是,LeWM僅是一個1500萬參數(shù)的緊湊模型,可在單張GPU上完成訓(xùn)練,大幅降低了相關(guān)研究的入門門檻。
![]()
![]()
研究人員在2D與3D環(huán)境中的各類操作、導(dǎo)航與運(yùn)動任務(wù)上對LeWM進(jìn)行了全面評估,并檢驗(yàn)了模型對物理規(guī)律的直觀理解能力,LeWM與基于基礎(chǔ)模型的世界模型相比性能相當(dāng),但成本大幅更低,規(guī)劃速度最高提升48倍。
![]()
整體而言,LeWM為現(xiàn)有隱式世界模型方法提供了一種可擴(kuò)展的替代方案,具備原理清晰的訓(xùn)練動態(tài),以及可解釋、可涌現(xiàn)的表征特性,論文最后也指明了幾個重要研究方向:
1、目前基于隱式世界模型的規(guī)劃仍局限于較短時域,層次化世界建模是解決長時域推理與規(guī)劃的一個重要方向。
2、本方法仍依賴覆蓋度足夠的離線交互數(shù)據(jù)集,這類數(shù)據(jù)采集成本高、難度大,在大規(guī)模、多樣化的自然視頻數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,有望提供更強(qiáng)的表征先驗(yàn),并降低對領(lǐng)域?qū)贁?shù)據(jù)的依賴。
3、當(dāng)前端到端隱式世界模型依賴動作標(biāo)簽來預(yù)測未來狀態(tài),而動作標(biāo)注同樣獲取成本高昂,一個可行方向是通過逆動力學(xué)建模學(xué)習(xí)未來動作表征,從而減少對顯式動作標(biāo)注的依賴。
結(jié)語:具身智能的技術(shù)拐點(diǎn)
業(yè)內(nèi)人士分析認(rèn)為,站在具身智能與人形機(jī)器人產(chǎn)業(yè)化的視角看,F(xiàn)ast-WAM和LeWM并不是兩篇孤立的學(xué)術(shù)進(jìn)展,而是世界模型從“概念驗(yàn)證”走向“真機(jī)落地”的關(guān)鍵拐點(diǎn),世界模型驅(qū)動具身智能即將邁向新階段。
前者解決了世界動作模型跑不起來、時延太高的致命問題,后者解決了JEPA世界模型訓(xùn)不出來、成本太高的工程死穴,一方面讓W(xué)AM級別能力滿足了真機(jī)實(shí)時控制的要求,另一方面,未來機(jī)器人可能不必再走“大模型暴力堆砌”的路線,輕量化世界模型同樣可以具備出色的物理推理能力。
這些技術(shù)進(jìn)展貼合機(jī)器人規(guī)模化落地需求,未來1–2年,更好用的新一代機(jī)器人大腦正在呼之欲出 。
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
點(diǎn)「贊」的人都變好看了哦!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.