![]()
作者:呂鑫燚
出品:具身研習社
人人都在談具身智能困局,但鮮少有人能說清困局的明路怎么走。
回溯2025年,具身智能最大的困局在“不落地”,這里的不落地并不是指商業轉化,而是技術難以“工程化”落地。這一點在具身模型上尤為尖銳,2025年具身模型處于“各自為戰”的無序競爭狀態,產業界對具身模型的認知,多依賴企業披露的Demo演示。
但彼時這些演示背后有個冷知識,具身模型最炙手可熱的攻克技術難關“長序列復雜任務處理”能力,尚未有明確界定的評判標準。多位業內技術人士對具身研習表示,“長序列”的任務步驟、“復雜”的維度均無統一認知。某學術界人物表示:“具身智能模型在長序列和復雜兩個指標上,尚未形成行業公認的能力評估框架。”
模型標準缺失并不是簡單的分不出來排名,而是衍生出對內對外兩方面的桎梏。
對內指的是對于企業自身發展,沒有評判標準企業難以對訓練模型的數據質量建立清晰認知。也無法簡單感知模型在多場景的適應能力。
對外從產業向來看,其一,模型真實能力難以橫向對比,下游應用企業選型困難,阻礙規模化落地;其二,技術迭代缺乏統一標尺,企業更多精力在“Demo內卷”,而非可量化的工程化成果。
這也直接導致外界對具身智能“泡沫”的質疑聲四起。
因此產業亟需的是“有序發展”,比起技術收斂更應該先來的是“評測收斂”,而這也是破解困局的最優解。近日,上海交通大學聯合多個單位發布了“用于評估具身智能機器人的100項細節導向型任務”,通過多個指標全方位評判模型標準,為具身模型可落地樹立起參考坐標系。
其中,螞蟻LingBot-VLA在統一真機評測基準下整體表現超越Pi0.5。在綜合基準測試中的系統性評估表明,LingBot-VLA實現了先進的性能和出色的泛化能力。
在一個客觀真實的評測中,當LingBot-VLA領先PI半個身位時,其不僅標志著具身智能模型的長效發展關鍵在于模型能力的持續探索,更在于產業內有一條規范化可落地的發展路線。由此可見,標準先行不僅能驅散具身智能“泡沫論”的陰霾,這條清晰路徑,更能引領行業走出困局,邁向高質量發展新階段。
![]()
為什么很長一段時間業內具身模型的評測是空白的?
其關鍵點在于評測的角色不只是“一套評測工具”,而是基于真實場景、真實操作任務所要求的能力倒推出來的benchmark。例如,現在大語言模型評測工具的價值并非單一的“模型打分”,而是貫穿大模型從研發到落地的全生命周期,為技術團隊、產業客戶、監管機構提供差異化的評價依據,是大模型產業從“野蠻生長”走向“規范發展”的重要支撐。
從這條邏輯來看,具身智能現有評測方案還相對局限,當前主流機器人學習數據集和任務設計,始終跳不出“抓取并持有”這類常見行為的舒適區,對復雜場景、長尾任務的覆蓋嚴重不足。更關鍵的是,現在尚未形成統一的評估標準,讓不同團隊的技術方案難以公平對比,模型在真實環境中的泛化能力也無從精準驗證,不僅制約了技術迭代效率,更成為機器人產業化落地的“隱形壁壘”。
為了解決現有局限性,GM-100的核心設計包含100項細節導向型任務,覆蓋廣泛人機交互和長尾行為,這些任務設計的出發點并非是主觀臆斷,而是以物理常識和底層操作知識為標準,結合人機交互、物體功能特性,通過Qwen3大語言模型自動生成候選任務,再經專家篩選優化。
![]()
這種任務設計的模式,能有效測試模型的泛化邊界,且每一項都精準命中場景對機器人“真實能力”的驗證需求。這正是產業界對評測基準的核心訴求:既要“能落地驗證”,又要“能區分優劣”。
從評測結果來看,不同于傳統評測僅看“任務成功與否”的單一維度,GM-100構建了成功率(SR)、部分成功率(PSR)、動作預測誤差(MSE/L1)的三維評估體系,恰好匹配了產業對機器人模型的多層級驗證需求:
- 成功率(SR)直觀反映模型完成完整任務的能力,對應產業場景中的“落地效果”;
- 部分成功率(PSR)針對復雜多步驟任務,拆解子目標完成情況,讓企業清晰看到模型的 “短板環節”,為迭代優化提供精準方向;
- 動作預測誤差則穿透表面效果,衡量模型對專家動作的理解與復現能力,是判斷模型底層穩定性的關鍵指標。
GM-100的另一大產業價值,在于其完全開放的生態布局,并搭建了社區驅動的開放評估平臺。依賴集體監督和開放證據共享,而非僵化的集中式測試。讓評測結果“有依據”,而非“值得推敲”。
更重要的是,GM-100是由上海交通大學主導、多方參與的第三方評測項目,雖然有其他單位主體參與支持,但GM-100完全脫離單一企業的利益綁定,其獨立客觀的屬性恰好填補了行業空白。
由此可見,GM-100這種中立評測能有效減少“自證自夸”的行業亂象,推動技術競爭回歸“實力比拼”的本質。
![]()
當GM-100為產業提供了客觀且真實的模型展示窗口時,該窗口也成為窺見模型能力的絕佳途徑。
在GM-100中,LingBot-VLA在統一真機評測基準下整體表現超越Pi0.5。無論是在復雜長序列任務的執行精度上、還是在面對新任務的適應能力上,一個泛化能力強能勝任精細化操作任務的LingBot-VLA都展現出了更勝一籌的智能水平,也詮釋了通用模型底座的模樣。
具體而言,LingBot-VLA在3種機器人平臺上進行評測,AgileX、Agibot G1和Galaxea R1Pro。均為雙臂配置,配備平行夾爪和多相機(2個腕部相機+1個頭部相機),捕捉第一人稱視角。LingBot-VLA在所有平臺上的成功率(SR)和進展分數(PS)均領先。LingBot-Depth和pi0.5相比平均SR提升4.28%,PS提升7.76%。
LingBot-VLA是一種實用的VLA基礎模型,其訓練數據來自9種機器人平臺約20,000小時真實世界操作數據。
從模型架構來看,LingBot-VLA采用混合Transformer(MoT)架構,融合預訓練VLM(Qwen2.5VL)與“動作專家”模塊,通過共享自注意力實現多模態統一建模。說人話就是,一個負責看懂多視角圖片、聽懂任務指令的“聰明大腦”;另一個是專門管“動”的“動作專家”,負責生成機器人的操作動作。
圖片和指令先讓“視覺-語言大腦”解讀,機器人自己的狀態(比如初始位置、之前做過的動作)交給“動作專家”,倆組件還能共享信息,避免各自為政出問題。再以“流匹配”的方法,讓機器人的動作不僵硬、更平滑,不管是復雜任務,還是換不同機器人,都能精準操作。
在訓練優化側,由于動作數據本質上是高頻數據,因此建立包含分布式訓練和算子優化的高效流水線至關重要。LingBot-VLA選擇采用FSDP分布式策略、混合精度訓練和算子融合技術,解決了訓練瓶頸并提高效率。
從LingBot-VLA的實際表現來看,該模型有非常明顯的標簽即“精準回應”,直擊行業“專用性強、泛化性弱、效率低”的三大難題。
首先,LingBot-VLA是一個通用模型底座,能打破“一機一腦”的硬件壁壘。這份“跨本體”的適應性不僅證明了模型能力的可擴展性、可復用性。更能以模型能力釋放研發內耗,研發團隊不必在多個本體之間重復完成高成本數據采集和訓練。
其次,LingBot-VLA突破單一任務限制。目前很多具身大模型的本質是“小模型”或者“專模型”,一個模型智能滿足部分技能,例如只能做簡單的抓取&放置,要想完成長序列需要單獨訓練一個模型。而LingBot-VLA則是面向多任務的“真通用”模型,能同時完成抓取、放置、疊衣服、擦拭桌面等任務。實現了從“單技能適配”到“多任務通用”的關鍵跨越。
最后,LingBot-VLA突破了數據與算力瓶頸,通過更少的數據量、更低的GPU算力消耗實現更優模型效果。依托于底層代碼的深度優化,模型訓練周期從原本的3個月大幅壓縮至1個月。這不僅直接降低了企業與開發者的算力投入成本,更顯著提升了模型的迭代敏捷性,助力其加快模型在真實業務場景的落地部署節奏,從而在白熱化的市場競爭中率先搶占發展先機。
在LingBot-VLA基礎之上,螞蟻還研發了面向真實場景的深度補全模型LingBot-Depth,依托奧比中光Gemini 330系列雙目3D相機進行RGB-Depth數據采集與效果驗證。基于深度引擎芯片直出的深度數據進行訓練與優化,能讓不完整且受噪聲干擾的深度傳感器數據轉化為高質量、具備真實尺度的三維測量結果,提升環境深度感知與三維空間理解能力。
從實際效果來看,在架構、硬件等一系列創新下,機器人能看到甚至是抓取反光的透明杯,為機器人、自動駕駛汽車等智能終端賦予更精準、更可靠的三維視覺,打開空間智能的新篇章。
一個無需造成數據、算力研發內耗,且能適配不同本體、支撐多任務執行的通用基礎模型,是具身智能機器人走向物理世界真實操作的核心基座。
LingBot-VLA為具身智能產業的通用化發展筑牢了這一技術根基。
![]()
LingBot-VLA更具有里程碑的意義在于,其不僅全方位領先pi0.5,還觸碰到了scaling law的大門。
基于在海量的真實世界數據上的預訓練數據規模從3,000小時擴展到6,000、13,000、18,000,最終至20,000小時,模型在下游任務的成功率獲得持續且顯著的提升。值得注意的是,預訓練數據量達到20,000小時時,模型性能仍呈現上升趨勢,表明VLA的性能仍然能夠隨著數據量的增加而提升。這些實驗結果證明了VLA模型在用真實數據預訓練時呈現了良好的可擴展性,為未來的VLA開發和大規模數據挖掘提供了重要啟示。
此外,LingBot-VLA直接全鏈路開源,包括模型權重、代碼、后訓練工具鏈。提供模型、后訓練工具鏈,確保開發者不僅“拿得到”,還能“用得好”,真正賦能產業落地。目前已經和星海圖、松靈等本體廠商完成真機驗證。
LingBot-VLA的實測表現及開源,不僅讓行業看到了通用具身大模型解決實際產業痛點的可行性,更從技術層面降低了具身智能的研發與落地門檻。
對于中小開發者而言,數據、算力成本的下降、跨本體適配能力的實現,讓其無需投入巨額資源開展底層模型研發,可直接基于通用底座進行場景化二次開發;對于頭部企業而言,通用模型底座的成型,能推動行業從“各立標準、重復研發”的分散階段,走向“底座通用、協同創新”的產業聚合階段。
從產業發展規律來看,具身智能模型開源已成為技術規模化落地的必然選擇。
開源生態是降低行業門檻、加速技術迭代的核心動力。LingBot-VLA的開源,恰好踩中了這一產業脈搏,以開源力量重構產業協同邏輯,打破具身智能領域“閉源內卷”的行業慣性,成為引領行業走出困局的關鍵引擎。
從產業生態的長遠發展來看,LingBot-VLA的開源只是起點,其更大的價值在于激活整個具身智能產業的協同創新活力。
隨著開源生態的持續完善,將吸引更多本體廠商、場景解決方案商、高校科研團隊加入其中,形成“模型迭代-場景驗證-反哺模型”的正向循環:開發者基于開源底座開發的場景化解決方案,將為模型帶來更多真實場景的訓練數據,推動LingBot-VLA持續優化迭代;本體廠商則可基于開源模型的核心能力,針對性升級硬件性能,打造更貼合通用模型的機器人產品;而各行業的場景方,也能快速找到適配自身需求的“模型+硬件”組合,加速具身智能機器人在各領域的規模化應用。
至此具身智能破局的明路已經清晰,通過客觀高含金量的評測“規束”能力,用更優異的模型帶動帶動落地可行性,再以開源擴大可復制性。
這是一條極具想象空間的落地之路,也是具身智能機器人生產力革新的前奏。
結語
LingBot-VLA于具身智能產業而言是一個“新物種”,但當我們把視角調回螞蟻集團本身,會發現該模型是螞蟻以開源姿態探索AGI的一塊拼圖。
從基礎大模型百靈,到通用AI助手靈光、具身智能機器人靈波再到今天的LingBot-VLA,以及涵蓋基礎模型、多模態、推理、新型架構及具身智能的完整技術體系與開源生態的開源社區“InclusionAI”。螞蟻集團“由內到外”的構建AGI時代的智能底座和毛細血管。
可以說,螞蟻集團并不是以競爭姿態入局,而是以開源為主基調,面向企業、高校等諸多主體提供了一個“新牌桌”。在這個牌桌上基礎設施更完善,玩家手里的籌碼也更多。
諸多主體的共同促動下,AGI不再是暢想,而是一條可落地的發展道路。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.