機(jī)器之心發(fā)布
最近業(yè)界的一系列動態(tài)勾勒出了一個清晰的趨勢:具身智能正在告別單純的「視覺模擬」,正式跨入「空間理解」的新階段。
近日,全球具身世界模型基準(zhǔn)評測 WorldArena 更新最新榜單。由中科第五紀(jì)研發(fā)的最新具身世界模型 FlowWAM,憑借其在物理與空間理解上的卓越表現(xiàn),成功登頂 WorldArena 榜單,展示了國產(chǎn)模型在處理動態(tài)交互時的驚人準(zhǔn)確度與真實(shí)性。
![]()
榜單地址:https://huggingface.co/spaces/WorldArena/WorldArena
此次霸榜再次驗(yàn)證了國產(chǎn)具身世界模型在該領(lǐng)域的快速崛起,并凸顯了當(dāng)前行業(yè)向真實(shí)世界理解的轉(zhuǎn)型趨勢。
01 核心戰(zhàn)績
兩大評測維度第一,強(qiáng)化空間認(rèn)知
與以往追求「畫面好看」的評測不同,WorldArena 的評價(jià)維度更為全面,包括了 6 個大維度及其包含的 16 個小維度。
FlowWAM 在其中 2 個大維度評測上展現(xiàn)了壓倒性的優(yōu)勢,標(biāo)志著其不只是視頻生成器,還能為機(jī)器人提供精準(zhǔn)的物理空間認(rèn)知能力。
- Physics Adherence(物理遵循)第一:拒絕「視覺欺騙」,復(fù)刻真實(shí)交互,緩解了生成式模型常見的「虛假交互」問題。在交互質(zhì)量(Interaction Quality)方面,它生成的機(jī)器人動作在接觸行為、力傳導(dǎo)等方面展現(xiàn)了很高的真實(shí)性;特別是在軌跡準(zhǔn)確度(Trajectory Accuracy)方面,它的時空對齊表現(xiàn)是所有模型中最強(qiáng)的。這意味著,它預(yù)判的不僅僅是畫面,更是符合物理規(guī)律的精確作業(yè)路徑。
- 3D Accuracy(3D 準(zhǔn)確度)第一:重建三維幾何,消除空間幻覺,生成超越圖像表象的真實(shí)空間結(jié)構(gòu)。特別是在深度準(zhǔn)確性(Depth Accuracy)方面,其生成的幾何一致性與真實(shí)場景非常吻合,緩解了單目視覺下的尺度歧義,是所有模型中最強(qiáng)的;在透視合理性(Perspectivity)方面,無論是隨深度變化的尺度縮放,還是復(fù)雜的光影遮擋關(guān)系,它都展現(xiàn)了極強(qiáng)的 3D 邏輯。
兩大維度雙雙第一,意味著 FlowWAM 能夠在涉及物理理解與空間重建的真實(shí)世界任務(wù)中表現(xiàn)更加精準(zhǔn)和可靠。
02 分析 FlowWAM
具身大腦的進(jìn)化之路
FlowWAM 是中科第五紀(jì)在具身智能領(lǐng)域的最新力作。回顧其技術(shù)路徑,可以清晰地看到團(tuán)隊(duì)在具身大模型研發(fā)上的主要思路:
- FAM-1(超少樣本具身操作模型):通過引入 3D 熱力圖進(jìn)行二次預(yù)訓(xùn)練,有效減少了模型在空間理解方面的信息損失,實(shí)現(xiàn)了在極少數(shù)據(jù)下的快速微調(diào),讓機(jī)器人具備了初步的少樣本泛化操作能力。
- BridgeV2W(第一代具身世界模型):通過把不同本體的機(jī)器人行為進(jìn)行空間像素化,有效緩解了「動作序列到視覺畫面」的表征鴻溝,實(shí)現(xiàn)了跨本體下的未來視頻準(zhǔn)確生成,讓機(jī)器人具備了初步的跨本體可靠操作能力。
- FlowWAM 階段:作為中科第五紀(jì)推出的最新一代具身世界模型,盡管具體架構(gòu)細(xì)節(jié)尚處于保密階段,但從其命名的「Flow」可以窺見,該模型大概率在物理空間的動態(tài)流動性與因果預(yù)測上實(shí)現(xiàn)了突破,最終在物理遵循和 3D 準(zhǔn)確度方面展現(xiàn)出明顯的優(yōu)勢。
03 國產(chǎn)具身世界模型的「破曉時刻」
在 WorldArena 榜單的前列,除了中科第五紀(jì)之外,我們看到了大量來自中國團(tuán)隊(duì)和科研機(jī)構(gòu)的身影。這反映了一個重要趨勢:在全球具身智能競爭的今天,中國團(tuán)隊(duì)正在具身世界模型這一核心戰(zhàn)場上異軍突起。
相比于海外巨頭在通用視頻生成(如 Sora、Gen-3)上的先發(fā)優(yōu)勢,國內(nèi)具身智能賽道正表現(xiàn)出更強(qiáng)的「垂直攻勢」:
- 從感知到認(rèn)知:不再滿足于「簡單看懂」,而是追求「深度理解」。
- 從仿真到落地:切實(shí)轉(zhuǎn)化為工業(yè)、物流、服務(wù)等場景的實(shí)際生產(chǎn)力。
隨著具身智能步入 2026 年這一關(guān)鍵應(yīng)用元年,國產(chǎn)具身世界模型已經(jīng)站在了具身智能領(lǐng)域技術(shù)發(fā)展的制高點(diǎn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.