螞蟻集團旗下具身智能公司 —— 螞蟻靈波科技今日宣布全面開源 LingBot-VLA 具身大模型及后訓練代碼。目前,LingBot-VLA 已與星海圖、松靈、樂聚等機器人廠商完成適配,驗證了模型在不同構型機器人上的跨本體遷移能力。
![]()
與此同時,螞蟻靈波科技構建了一套后訓練工具鏈,在 8 卡 GPU 配置下實現了單卡每秒 261 個樣本的吞吐量,其訓練效率達到 StarVLA、OpenPI 等主流框架的 1.5~2.8 倍,實現了數據與算力成本的雙重降低。
![]()
基于在海量真實世界數據上的預訓練,螞蟻靈波科技第一次系統研究了 VLA 模型在真實機器人任務性能上隨著數據規模增長時的 Scaling Law。
![]()
項目發現隨著預訓練數據規模從 3,000 小時擴展到 6,000、13,000、18,000,最終至 20,000 小時,模型在下游任務的成功率獲得持續且顯著的提升。
![]()
值得注意的是,預訓練數據量達到 20,000 小時時,模型性能仍呈現上升趨勢,表明 VLA 的性能仍然能夠隨著數據量的增加而提升。
![]()
依此研究結果,螞蟻靈波科技構造了 20,000 小時的真實機器人訓練數據,涵蓋了 9 種主流的雙臂機器人構型(包括 AgileX Cobot Magic,Galaxea R1Pro、R1Lite 、AgiBot G1 等)。
![]()
在上海交通大學開源的具身評測基準 GM-100(包含 100 項真實操作任務)測試中,LingBot-VLA 在 3 個不同的真實機器人平臺上,跨本體泛化平均成功率相較于 Pi0.5 的 13.0% 提升至 15.7%(w/o Depth)。引入深度信息(w/ Depth)后,空間感知能力增強,平均成功率進一步攀升至 17.3%。
![]()
此外,螞蟻靈波科技 1 月 27 日開源了 LingBot-Depth 空間感知模型。LingBot-Depth 是一種面向真實場景的深度補全模型,依托奧比中光 Gemini 330 系列雙目 3D 相機進行 RGB-Depth 數據采集與效果驗證,并基于深度引擎芯片直出的深度數據進行訓練與優化,旨在將不完整且受噪聲干擾的深度傳感器數據轉化為高質量、具備真實尺度的三維測量結果,提升環境深度感知與三維空間理解能力,為機器人、自動駕駛汽車等智能終端賦予更精準、更可靠的三維視覺。
實驗結果表明,LingBot-Depth 模型在深度精度與像素覆蓋率兩項核心指標上均超越業界頂級工業級深度相機。在 NYUv2、ETH3D 等多個基準測試中,LingBot-Depth 在深度補全、單目深度估計及雙目匹配任務上均達到當前最優水平,并在無需顯式時序建模的情況下保持視頻級時間一致性。
LingBot-Depth 模型也已通過奧比中光深度視覺實驗室的專業認證,在精度、穩定性及復雜場景適應性方面均達到行業領先水平。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.