網易首頁 > 網易號 > 正文申請入駐

智元機器人推出世界模型：機器人的“大腦”，還是市值翻十倍的“樣板間”？

2025-08-17 20:12:10　來源: 科工力量

上海舉報

分享至

8月14日，智元機器人把7月亮相過的世界模型GenieEnvisioner（GE）正式開源，并再次打出“行業首個面向雙臂真機的世界模型”的概念。

官方演示里，機器人連續完成做三明治、倒茶、擦桌、用微波爐、裝箱等長鏈條任務，看上去已頗具“人味兒”。

不過，這份“人味兒”能否在已經沸騰的二級市場上再來一次“空中加油”，還要看周一開盤。

此前的7月8日，智元機器人公告，正在通過“協議轉讓+要約收購”拿下材料供應商上緯新材63.62%的股權。而自公告以來，上緯新材一路走出11個漲停，市值從30億元最高沖到400多億元。

可以說，智元還沒把世界模型賣進工廠，就已經把自己市值的杠桿放大到了資本市場。

405x558 144kb

智元機器人官方網站

“機器人公司不做大模型將沒有未來。”此前，在智元機器人發布首個通用具身基座大模型智元啟元大模型之后，智元合伙人、具身業務部總裁姚卯青和智元具身研究中心常務主任任廣輝曾這樣表示過。

目前的大語言模型，仍普遍存在推理時間長，實時性差等問題。搭載大語言模型的機器人，控制在線決策至少需50毫秒，一般延遲為1至5秒，完全無法滿足工業場景3至10毫秒的需要。

而本次智元機器人推出的，就是基于目前大語言模型技術限制而生的世界模型，是以智能體身體與環境的實時感知和交互為基礎，構建的用于理解、預測和適應環境動態變化的模型。

具體來說，世界模型能夠讓智能體通過 “想象” 不同行動策略的未來狀態序列，提前規劃好步驟，選擇最佳方案來執行。

智元AgiBotWorld 視頻截圖

3000小時數據，其實可有可無？

從傳播的角度來看，智元機器人發布的開源世界模型，確實可以說是一次“秀肌肉”。不過如果深入到技術上，事情可能會有不同。

世界模型所需要的的訓練數據，遠超目前還未鋪開的具身智能機器人可以提供的能力。

在今年6月，Meta開源發布的V-JEPA 2世界模型就使用了超過100萬小時的互聯網視頻和圖像數據進行預訓練，不依賴語言監督；而谷歌旗下DeepMind的Genie3則采用了大量游戲引擎生成的數據集，也有消息稱Genie3的訓練數據或包含谷歌旗下的知名視頻網站YouTube的視頻及更多內容（盡管DeepMind稱對此“持謹慎態度”）。

與之相比，目前搭載具身智能的機器人普遍還處于探索階段，能產生的真機數據量級并不大，就以智元機器人本次訓練使用的3000小時數據來說，其實對于世界模型能力本身的訓練提升作用，微乎其微。

3000小時的真機數據對世界模型本身的能力增益，就像往長江里倒一桶純凈水——有比沒有好，但沒人靠它漲潮。

其實，關于具身智能機器人的數據需要，行業也存在爭論：另一部分觀點認為，世界模型的能力提升，與具身智能領域的數據多寡之間，并無強關聯。

此前，在2025世界機器人大會上，國內具身智能領域另一龍頭企業宇樹科技的創始人王興興曾表示：“目前全球范圍內，大家對于機器人數據問題的關注度，都有點太高了。現在最大的問題其實反而是模型。”

他認為，目前具身智能和機器人的模型架構不夠好，也不夠統一。

“在大語言模型領域，當有了足夠多的好數據時，就能把模型訓練得越來越好。但是在具身智能領域，會發現在很多情況下，數據采了卻用不起來。大家對模型的關注目前是相對有點少，反而對數據關注有點太高了。”

世界模型是“地基”，具身智能是“樓房”

相關從業人士對觀察者網表示，具身智能領域的“數據集不是越大越好”可能需要這樣解釋：世界模型本身的發展還需要依靠更多的互聯網圖像、視頻，乃至于目前正在發展的AI眼鏡等智能硬件產品提供的視覺信息。

而在具身智能領域進行的世界模型側研發，更多是基于機器人的訓練數據進行針對性的優化，對于模型本身的基礎性能并沒有太大的提升作用，因為具身智能機器人目前還沒有辦法提供能夠滿足模型訓練需求的數據量。

在這個過程中，世界模型的基礎能力是整個系統的 “認知地基”。地基越扎實，模型對真實世界的擬合精度與預測效能就越強，機器人的“大腦”做出正確決策的能力也就越強，其滿足實際落地場景所需要的實機訓練數據量就有可能減少。

所以，世界模型和具身智能今天雖然被頻繁地放在同一個句子里，但它們其實處在兩條不同的時間軸上。

世界模型的目標，首先是用來自整個互聯網的視頻與圖像信息去理解、預測乃至生成整個物理世界，它更像通用大模型的下一站：數據胃口以百萬小時計，技術階段上則更類似當年ChatGPT剛出現時的大語言模型，模型架構仍在快速迭代，尚未收斂。

而具身智能的核心訴求，則是讓機器人完成具體任務——倒水、裝配、擦桌子。現階段的技術成熟度大約相當于2016年的自動駕駛：硬件基本可用，算法的“大腦”仍需大量工程打磨。

換句話說，世界模型是“認知地基”，需要海量通用視覺數據來夯實；具身智能是“上層建筑”，依賴少量高成本的真機數據來精雕細琢。地基越深，未來樓房可以蓋得越高，但地基的混凝土并不來自樓房本身，二者互補卻并不同步，一邊向下深挖，一邊向上搭建。

“地基”夯實尚需時日，“樣板間”暴漲是否為時過早？

比技術進展更吸睛的，是另一層面的消息：

此前，有消息稱，智元機器人已通過“協議轉讓+要約收購”的方式拿下了材料供應商上緯新材63.62%股權。

從技術和供應鏈上來看，上緯新材的主打產品包括PEEK（聚醚醚酮）等輕量化復合材料，可讓機器人外殼和關節減重30%以上；智元控股后，既是鎖定關鍵材料供應，又能用機器人實測數據反向優化適配。

從資本視角看，在“具身智能”概念剛剛興起，領頭企業尚且稀缺的A股，智元在借殼上緯新材之后，如今似乎又開始給投資人一個“機器人大腦”來標的。

自7月8日公告以來，上緯新材股價從30億元市值最高沖到400多億元，走出11個“20cm”漲停，智元還沒把世界模型和具身只能真正落地到工廠，其市值杠桿卻被放大到了資本市場。

由此來看，世界模型能不能讓機器人“長腦子”尚且未有定論，但股民卻在這之前就已經被“點燃”。

數據飛輪、模型瓶頸、合成數據、仿真+真機混合、大模型互聯網、分層過渡，種種技術路線上還籠罩著揮之不去的迷霧，而資本卻硬生生在這個時候給具身智能領域打上了第三根坐標軸——能否證券化。

智元通過控股上緯新材，把“地基”和“樓房”打包成可交易資產包；其余五派仍停留在技術PPT階段。當技術路線尚未收斂、Benchmark尚未統一時，資本搶先定價，行業被提前拖入“市夢率”博弈。

現在的情況下，其實可以從對待世界模型的態度分出兩派：

?數據飛輪派（智元-姚卯青）：開源1000萬條真機軌跡，一起把飛輪轉起來。

?模型瓶頸派（宇樹-王興興）：硬件夠用、數據夠多也白搭，架構必須推倒重來。

二級市場用10倍漲幅給“飛輪”投了票，但技術層面，仍無人能具現王興興提出的“原生具身大模型”。

智元把GE開源，是一次漂亮的科普；控股上緯新材，是一次成功的資本運作。樣板間已搭好，地基仍在打樁，而參觀隊伍里，一半是工程師，一半是交易員。

世界模型2-5年才能跑出的Benchmark，資本市場2-5天就給出了估值。到底是世界模型成就了機器人，還是機器人概念成就了市值？

答案會寫在下一版Benchmark和下一季報里。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.