![]()
商湯科技聯合創始人、執行董事、大曉機器人董事長王曉剛
具身智能一直仰仗的VLA技術線路,在實際開發過程中正在面臨越來越多的挑戰。
所謂VLA模型,即視覺-語言-動作模型。它的技術邏輯可以簡單描述為,將人類指令和外界多模態信息(聲音、圖像、視頻)轉化為計算機語言,繼而控制機器人行為。
但在VLA模型的訓練中,互聯網上的靜態、非結構化文本和圖像數據,并不是訓練所需的核心數據。訓練VLA模型需要的具身智能數據,是連續的、動態的、三維甚至四維的時空軌跡流。而物理世界數據的稀缺與復雜性,成為了制約VLA模型能力躍升的主要瓶頸。
“具身智能的大腦,靠讀文章、看圖片永遠不可能理解真實的物理世界。”
商湯科技聯合創始人、執行董事、大曉機器人董事長王曉剛對筆者表示,AI的研究范式,要從以機器為中心轉變成以人為中心,通過采集人類的真實行為數據,學習真實的物理規律,去訓練具身智能的世界模型。
“以人為中心”的ACE范式
12月18日,基于“以人為中心”的研究路徑,大曉機器人推出了ACE具身研發范式。
具體來講,ACE范式就是以人類與物理世界的互動規律作為研究起點,以環境式數據采集為引擎,構建了一套從“環境式數據采集—開悟世界模型3.0—具身交互”的技術體系。
在環境式數據采集中,通過整合第一視角與第三視角視頻、力觸覺信息、運動軌跡、語音等多模態數據,構建基于物理基礎的3D資產庫。
在數據處理環節,通過時序一致性對齊、交互動態軌跡預測建模與物理正確性仿真校正,將采集到的“人—物—場”信息轉化為可直接用于模型訓練的動態場景數據。
![]()
同時,以環境式采集數據為基,大曉機器人發布了首個開源且商業化應用的世界模型——開悟世界模型3.0,形成跨本體的統一世界理解框架,融合物理規律、人類行為和真機動作,使機器不僅能“理解”物理世界因果規律,還能“生成”長時動靜態交互場景。
“在跟物理世界的交互過程中產生智能,這也是世界模型存在的價值。”
王曉剛對筆者表示,至于模型能否覆蓋更多的場景以及人類的更多的動作,這則是大曉機器人的目標。實現這一切核心的關鍵是,ACE范式能否實現更大范圍的快速擴展,讓更多的廠商和開發者使用這種方式采集數據,產生回流。
模型開源,行業共建
為了讓ACE范式實現更大范圍內的適用,大曉機器人宣布“開悟世界模型3.0”面向全行業開源。
據介紹,開悟具身智能世界模型產品平臺集成了多模態生成能力,內置支持11大類、54細類,累計328個標簽,覆蓋115個垂類具身場景,開發者只需輸入簡單指令,就能快速生成可視化的任務模擬內容,以此降低具身智能的開發門檻。
在具身本體領域,大曉機器人已攜手智元機器人、銀河通用、鈦虎機器人、國地中心等多家具身智能企業,打通ACE技術范式、世界模型與機器人硬件的適配鏈路,共同打造適用于不同場景的解決方案。
在算力側,開悟世界模型3.0則與沐曦、壁仞科技、中科曙光、輝曦智能、影微創新等多款國產廠商芯片完成適配。
硬件領域,大曉機器人與Insta360、臥龍電驅、帕西尼等深度綁定,依托硬件廠商的感知等各類硬件,強化世界模型、模組產品對多視角、動態場景的信息采集能力。
而在具身智能產品的落地節奏上,王曉剛則認為:
短期內,以具備自主導航能力的四足機器狗為主,在安防、巡檢等B端場景快速推廣;中期,機器人會聚焦前置倉、閃購倉等物流場景,解決人力密集型作業痛點;長期來看,機器人將探索家庭場景,但需解決安全性、責任界定等復雜問題。
“從明年開始,國內將出現大量前置倉與閃購倉,這類場景需要大量人力支持7×24小時服務,而機器人的加入不僅能提升生產效率,還具備較強的可復制性,能夠充分發揮其在這類環境中的優勢。”
王曉剛表示,“以人為中心”的ACE范式,大方向是正確的,特斯拉、Figure AI等企業,也在朝著這個方向轉變。“這個賽道還沒到收斂階段,仍在不斷涌現新的機會點,接下來的一到兩年會是非常關鍵的時期。”(作者 | 科技潛線,文 | 饒翔宇 編輯 | 鐘毅)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.