金磊 發自 杭州
量子位 | 公眾號 QbitAI
從3000小時到整整20000小時。
真實世界數據里的Scaling Law,直接喂出了個最強VLA(Vision-Language-Action)基座模型!
![]()
這就是螞蟻靈波今天開源的具身智能基座模型——LingBot-VLA。
為什么說它是目前最強?先看數據。
從“20000小時”這個量上來看,LingBot-VLA已經解鎖了迄今為止開源的最大規模真實機器人數據之一。
并且性能也是夠打,在權威評測中也全面超越了此前公認最強Physical Intelligence的π0.5,以及英偉達GR00T N1.6等一眾國際頂尖模型。
![]()
再看實際表現。
此前具身智能圈子一個很頭疼的問題,就是一旦環境發生變化,VLA就不太好使了:
換了個機器人,Fail;
換了個攝像頭,Fail;
換個桌子高度,Fail……
但在LingBot-VLA加持下的機器人,腦子一下子就變聰明了,學會了見招拆招。
例如面對復雜的收納操作——把桌面物體放進包里并拉上拉鏈,機器人雙手各司其職,動作一氣呵成:
![]()
視頻地址:https://mp.weixin.qq.com/s/5d_nTy6YnkHJqA0C0QIOdQ
更復雜一點的餐具清潔整理——配合多種工具完成餐具清洗并歸位,可以看到,機器人依舊是能精準拿捏各種各樣的物體。
即便是像透明玻璃杯這樣往往讓機器人看不清的物體,它也能輕松hold住:
![]()
視頻地址:https://mp.weixin.qq.com/s/5d_nTy6YnkHJqA0C0QIOdQ
并且同樣的任務,因為有了一個聰明的腦子,不論是放在AgileX、AgibotG1還是Galaxea三個不同的機器人身上,統統都能迎刃而解:
![]()
視頻地址:https://mp.weixin.qq.com/s/5d_nTy6YnkHJqA0C0QIOdQ
而縱觀整項研究,除了數據性能和實際表現之外,更關鍵的一點是,LingBot-VLA還指明了一條通用具身智能發展路徑:
從3000小時到20000小時,首次在真實世界場景中,系統性地驗證了VLA模型性能會隨著數據規模擴大而持續提升的Scaling Law。
并且是在20000小時之后,性能提升還沒有失效的那種。
正如網友總結的那般:
- 更多真實數據 → 更高成功率 → 還未達到飽和。
![]()
- 一個大腦,多個身體,這就是規模化之道。
![]()
那么LingBot-VLA具體又是如何實現的?我們繼續往下看。
主打一個真實
在談LingBot-VLA是怎么煉成的之前,我們還需要先了解一下機器人的困境。
之前像Physical Intelligence的π系列這樣的頂尖VLA模型,一個很大的問題就是,它們預訓練的數據大量依賴仿真環境。
仿真的好處是成本低、可并行,卻與真實物理世界的質感存在難以彌合的鴻溝。
打個比方,一個機器人在仿真環境里能絲滑地疊衣服,但到了真實世界里可能連個衣角都抓不穩。
因此,螞蟻靈波團隊的選擇是這樣的:仿真的不好使,那就全部采用真實世界的機器人操作數據。
從2023年開始,他們聯合星海圖、松靈機器人等展開合作,在一間間真實的實驗室里,通過遙控操作的方式,讓機器人完成成千上萬次抓取、放置、組裝等動作。
數據規模從最初的3000小時,一路擴展到20000小時,全部源自物理世界。
并且這些數據并非來自單一機器人。
研究團隊動用了9種不同品牌和構型的雙臂機器人,包括AgileX、Agibot G1、Galaxea R1Pro/R1Lite、Realman Rs-02、Leju Kuavo 4 Pro、青龍機器人、ARX Lift2以及Bimanual Franka。
![]()
這意味著,模型從“小時候”開始就見識了不同機械臂的運動方式、不同攝像頭的視角、不同夾爪的特性。
這種數據的異構性和豐富性,成了LingBot-VLA具有很強泛化能力的基礎。
為了將這些海量視頻數據轉化為模型可學習的教材,團隊還采用了一個巧妙的半自動標注流程:
- 人工將多視角視頻按原子動作拆分成片段;
- 利用強大的視覺語言模型,為每一段視頻生成精確的自然語言描述,例如“用左手夾爪靠近紅色積木”、“將水杯平穩地放入微波爐”。
最終,這20000小時、涵蓋無數原子動作的多模態數據,構成了LingBot-VLA的養料。
除了海量真實數據之外,模型架構上的創新,也是LingBot-VLA的關鍵所在。
![]()
它采用了一種名為專家混合Transformer的架構,可以將其理解為為機器人設計了一套大腦與小腦協同工作的系統:
- 大腦:一個已經過預訓練的強大視覺語言模型。它的職責是進行高層次的語義理解——觀察環境(多視角圖像),理解任務指令(自然語言),并思考出當前狀況和任務目標。
- 小腦:一個專門初始化的動作專家模塊。它的職責是接收來自大腦的語義信息,結合機器人當前的自身狀態,規劃并生成具體、連續、可執行的動作序列。
而且二者之間并非是各玩各的,它們通過一個共享的自注意力機制進行深度耦合,實現了在模型每一層的信息交互。
在動作生成技術上,LingBot-VLA還摒棄了傳統的離散預測,引入了先進的流匹配模型。
簡單來說,它不再預測“下一步關節應該轉多少度”這樣一個具體的點,而是學習整個動作變化的平滑流場。
這使得機器人產生的動作更加絲滑、連貫,更接近人類演示的自然度,對于需要精細控制的長序列任務至關重要。
除此之外,深度感知,是另一個技術上的點睛之筆。
為的就是讓機器人不僅看得見,還能感知距離——引入了自研的LingBot-Depth深度估計模型提供的深度信息。
也就是昨天螞蟻靈波開源的讓機器人能看清透明和反光物體的新技術。
這種方法通過一種可學習的查詢對齊技術,將深度信息蒸餾注入到VLA模型的視覺理解中。
相當于讓機器人獲得了對三維空間的直觀感知能力,使其在面對“將芯片插入狹小卡槽”、“避免抓取時碰撞杯壁”等需要精確空間關系的任務時,表現大幅提升。
然而,要將20000小時高維度的視頻和動作數據訓練成一個模型,對算力是恐怖的消耗。
螞蟻靈波團隊對此的回應是:對訓練基礎設施進行系統級優化,打造了一個高性能開源代碼庫。
他們在分布式策略、算子級別和數據處理管道上進行了全方位革新:
- 采用完全分片數據并行策略,極致優化GPU內存占用。
- 針對動作專家模塊設計特定的分片組,大幅降低通信開銷。
- 利用FlexAttention等技術對稀疏注意力計算進行加速。
效果是立竿見影的。
在8卡GPU的配置下,LingBot-VLA代碼庫實現了每秒每GPU 261個樣本的吞吐量;與社區主流的OpenPI、StarVLA等框架相比,訓練速度提升了1.5倍至2.8倍。
以往需要一個月完成的實驗,現在可能只需一到兩周就能搞定了。
![]()
這不僅大大降低了科研創新的周期和成本,更重要的是,它讓基于萬小時級真實數據迭代VLA模型,從此變得可行。效率的提升,是解鎖數據縮放定律的前提。
100個任務,22500次的全面測試
模型好不好,不能只在論文里說。
為此,螞蟻靈波團隊在權威的評測體系做了測試——GM-100基準。
這一測評集是由上海交通大學等機構聯合研發,旨在為衡量機器人大腦(智能模型)與身體(物理執行)的協同能力,提供一個更系統、開放且可復現的評估基準。
它包含100個從易到難的精細操作任務,從簡單的“抓取積木”,到復雜的“制作三明治”、“疊放衣服”。
評測在Agibot G1、AgileX和Galaxea R1Pro三種真實機器人平臺上進行。
每個模型在每個任務上都要進行多輪測試,總計產生了22500次真實機器人測試錄像。所有錄像均已開源,確保了評測的完全可復現和透明。
在這場同臺競技中,LingBot-VLA迎來了三位重量級對手:π0.5、英偉達的GR00T N1.6,以及WALL-OSS。
所有模型都在相同的數據、相同的超參數下進行后訓練,以確保公平比較。
在綜合了任務成功率和進度得分兩項核心指標后,LingBot-VLA(無深度版本)已在三項指標上全面領先WALL-OSS與GR00T N1.6。
而融合了深度信息的LingBot-VLA,則在三項指標上均顯著超越了目前公認的強基準——π0.5。
例如,在AgileX平臺上,LingBot-VLA(含深度)的平均任務成功率達到了18.93%,而π0.5為17.20%;在更具挑戰性的Galaxea R1Pro平臺上,優勢同樣明顯(20.98% vs 14.10%)。
![]()
在仿真基準RoboTwin 2.0上,優勢依舊明顯。
在物體位置、背景、燈光高度隨機化的復雜場景中,LingBot-VLA相比π0.5取得了近10個百分點的絕對成功率提升。
![]()
這證明其學到的能力是魯棒的、可泛化的,而非對特定環境的過擬合。
更重要的是,研究團隊通過控制預訓練數據量(從3000小時到20000小時)進行的實驗清晰表明:
隨著真實世界數據量的增加,模型在下游各項任務上的性能呈現持續、穩定的提升,且尚未看到飽和跡象。
![]()
不造機器人,但要搞個聰明大腦
最后,來談一談螞蟻靈波要做的事情。
與當前機器人行業存在的一個核心痛點息息相關,即場景碎片化與硬件非標化。
不同的機器人本體,關節構型、傳感器配置、驅動方式千差萬別。傳統的解決方式是為每個場景、每種硬件定制開發算法,成本高、周期長、難以復制。
LingBot-VLA提供的是一種通用智能基座思路,也就是不做機器人的本體,但求做一個通用大腦:通過在海量異構真實數據上預訓練,模型學會了跨越不同硬件平臺的、本質性的操作邏輯和物理理解。
就像一個學會了“抓握”本質概念的人,無論給他筷子、夾子還是機械爪,他都能通過簡單適應掌握使用方法。
LingBot-VLA展示的跨本體泛化能力正是如此。
模型在9種機器人數據上預訓練后,在3種未見過的機器人平臺上依然表現優異,證明了其能力并非綁定于特定硬件。
這為實現 “一次訓練,多端部署” 的規模化落地愿景提供了堅實的技術基礎。
為了降低行業的使用門檻,螞蟻靈波團隊不僅開源了模型和代碼,還貢獻了 “交鑰匙”式的評估基準和高效后訓練方案:
- 可復現的評估:GM-100基準與全部22500次測試錄像開源,樹立了行業評測新標準。
- 低成本后訓練:高效的代碼庫與數據高效性優勢(實驗顯示,僅用對手60%的數據量就能達到更好效果),讓企業能用更少的數據、更低的算力成本完成對特定場景的適配。
遙想2024年,π0的開源雖然引爆了全球VLA的研究熱潮,但它主要基于仿真數據,在真機落地上存在局限。
而LingBot-VLA的價值在于,它首次提供了一個基于萬小時級真機數據開源的全棧解決方案,推動行業從實驗室演示邁向可規模化落地的新階段。
如果說螞蟻靈波LingBot-VLA是一個單點,那么它所影射的是螞蟻集團在通往AGI探索的技術路徑與行業愿景:
- 螞蟻百靈:作為底層基礎大模型,提供通用的語言與邏輯能力基石。
- 螞蟻靈光:面向應用的通用AI助手,探索AI的交互與服務邊界。
- 螞蟻靈波:正是本文主角,專注攻克具身智能,旨在為物理世界中的智能體賦予大腦。
從基礎大模型到多模態,再到如今的具身智能,螞蟻的AGI拼圖正在一塊塊補全。
這條路,注定是漫長且需要生態協作的。但當行業領先者開始體系化布局,并主動拆掉圍墻,或許正如他們所期待的那樣——那個屬于通用人工智能的未來,會以更開放、更協作的方式,更早地到來。
或許在不久的將來,人們的生活就會變得像《連線》雜志所說的那樣:
你的第一個機器人同事,大概率是個“中國人”。
項目主頁:
https://technology.robbyant.com/lingbot-vla
GitHub:
https://github.com/robbyant/lingbot-vla
模型權重:
https://huggingface.co/robbyant/lingbot-vla
https://www.modelscope.cn/collections/Robbyant/LingBot-VLA
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.