![]()
2025年年初,機(jī)器人在春晚舞臺(tái)顫顫巍巍,被網(wǎng)友調(diào)侃“像看到了我太奶”,等到年底,已能街舞唱跳、動(dòng)作流暢。2025年具身智能的能力表現(xiàn)與大眾關(guān)注度,都經(jīng)歷了一場(chǎng)飛躍。
但真正身處具身智能一線的從業(yè)者,卻清晰地看到,熱鬧之下,無形的斬殺線或?qū)⑻蕴舸罅客婕摇?/p>
美國(guó)明星具身智能公司Physical Intelligence的研究者曾公開表示,“它們?nèi)越?jīng)常失敗,目前狀態(tài)更像是‘演示就緒’而非‘部署就緒’”,并總結(jié)了落地難的具體難關(guān),包括復(fù)雜任務(wù)執(zhí)行能力、環(huán)境泛化能力與高可靠性性能。
在開發(fā)者社區(qū),類似的困境比比皆是。經(jīng)常見到工程師發(fā)帖求助:“我們的具身智能機(jī)器人在真實(shí)環(huán)境中總是撞墻,仿真里明明表現(xiàn)完美!”
解決起來卻十分困難,因?yàn)樘嵘煽啃裕馕吨笖?shù)級(jí)增長(zhǎng)的訓(xùn)練輪次和算力投入。這就像一場(chǎng)障礙賽,每一關(guān)都可能擋住開發(fā)者的腳步。
開發(fā)者迫切需要一個(gè)更高的起跳點(diǎn),一個(gè)能低成本啟動(dòng)、快速迭代、真實(shí)可落地的基座。
![]()
值得關(guān)注的是,近期一項(xiàng)來自中國(guó)團(tuán)隊(duì)的開源進(jìn)展,正在為這一困局提供切實(shí)可行的出口。由靈波科技發(fā)布的具身智能基座模型 LingBot-VLA,已在星海圖、松靈等多家國(guó)產(chǎn)本體廠商的真實(shí)機(jī)器人上完成端到端驗(yàn)證。在統(tǒng)一的真機(jī)評(píng)測(cè)基準(zhǔn)下,其整體任務(wù)成功率與泛化表現(xiàn)已超越Physical Intelligence的 Pi0.5,后者長(zhǎng)期被視為行業(yè)性能標(biāo)桿。
而LingBot-VLA 的泛化能力,部分源于其對(duì)高質(zhì)量三維空間信息的深度融合,這是LingBot-Depth 模型所提供的核心能力,也在1月27日同步開源。
不難看到,開源,正在成為改變行業(yè)的一股關(guān)鍵力量,如何幫助開發(fā)者更輕松地通關(guān)?
![]()
2025年被業(yè)內(nèi)人士稱為人形機(jī)器人的量產(chǎn)元年,但智源研究院院長(zhǎng)王仲遠(yuǎn)卻指出,具身智能距離真正的“ChatGPT時(shí)刻”尚有距離。
真正的“ChatGPT時(shí)刻”,需要全球上億臺(tái)機(jī)器人每天在真實(shí)環(huán)境中產(chǎn)生動(dòng)作、觸覺、決策等全模態(tài)數(shù)據(jù)。而當(dāng)前具身智能每個(gè)任務(wù)都要單獨(dú)訓(xùn)練,每臺(tái)機(jī)器人都是孤島,每次部署都從零開始,陷入專用性強(qiáng)、泛化性弱、效率低的死循環(huán)。這種模式難以規(guī)模化。
具體來說,行業(yè)正被三條斬殺線所圍困:
一、數(shù)據(jù)荒。王仲遠(yuǎn)院長(zhǎng)曾提過,即使是幾十萬小時(shí)的數(shù)據(jù),也稱不上海量,遠(yuǎn)遠(yuǎn)沒有達(dá)到引發(fā)智能涌現(xiàn)的量級(jí)。傳統(tǒng)仿真環(huán)境構(gòu)建成本高、效率低,而真實(shí)世界數(shù)據(jù)采集又極其困難。具身智能企業(yè)普遍將數(shù)據(jù)視為核心資產(chǎn),私有數(shù)據(jù)集高度封閉,而開源社區(qū)的數(shù)據(jù)集多局限于簡(jiǎn)單任務(wù),復(fù)雜場(chǎng)景數(shù)據(jù)稀缺且缺乏統(tǒng)一質(zhì)量標(biāo)準(zhǔn)。缺乏高質(zhì)量真機(jī)數(shù)據(jù),成為中小團(tuán)隊(duì)的第一道斬殺線。
二、效果差。由于數(shù)據(jù)有限,大量開源模型只在仿真環(huán)境中跑分,但仿真數(shù)據(jù)無法完全替代真實(shí)數(shù)據(jù)。一旦部署到真機(jī),性能斷崖式下跌。加上一些模型只開放權(quán)重,后訓(xùn)練代碼是閉源的,開發(fā)者拿得到也用不好。泛化性太差,導(dǎo)致機(jī)器人的性能表現(xiàn)和成功率不佳,產(chǎn)品競(jìng)爭(zhēng)力低下,構(gòu)成第二道斬殺線。
![]()
三、高成本。讓機(jī)器人在物理世界中“高效犯錯(cuò)”,需要海量試錯(cuò)。但每一次試錯(cuò),都是真金白銀。某具身智能創(chuàng)業(yè)公司曾測(cè)算,“訓(xùn)練一個(gè)倒水動(dòng)作,需要一臺(tái)超算運(yùn)算千萬億次……光是模擬人晃動(dòng)杯中的水這一個(gè)動(dòng)作,所涉及的計(jì)算量可能就需要一臺(tái)超級(jí)計(jì)算機(jī)算十分鐘”。高昂的試錯(cuò)成本與開發(fā)周期,會(huì)讓很多企業(yè)在成功之前就被斬殺。
不解決這些問題,機(jī)器人的規(guī)模量產(chǎn)與商業(yè)成功就十分遙遠(yuǎn)。下面我們就來聊聊,星海圖、松靈等多家本體廠商的解法。
![]()
從公開Demo視頻來看,星海圖、松靈等廠商基于開源基座LingBot-VLA,實(shí)現(xiàn)了幾個(gè)飛躍:
從“一機(jī)一腦”到“通用智能大腦”,顯著降低了數(shù)據(jù)門檻。傳統(tǒng)模式下,不同構(gòu)型機(jī)器人需要大量采集數(shù)據(jù)訓(xùn)練模型。LingBot-VLA實(shí)現(xiàn)了跨本體復(fù)用,同一模型經(jīng)過少量數(shù)據(jù)微調(diào)可控制不同構(gòu)型機(jī)器人,執(zhí)行剝檸檬、疊毛巾等上百種任務(wù),減輕中小團(tuán)隊(duì)的開發(fā)難度。
![]()
從“演示就緒”到“部署就緒”。
正如Physical Intelligence的研究者所說,機(jī)器人目前狀態(tài)更像是“演示就緒”而非“部署就緒”。傳統(tǒng)模型只能執(zhí)行單一指令,真實(shí)部署時(shí)性能大跌。LingBot-VLA具備快速適應(yīng)不同任務(wù)的能力,無論是抓取、放置,還是疊衣服、擦拭桌面,同一個(gè)模型全部應(yīng)對(duì),解決了專用性強(qiáng)、泛化性弱的問題。
LingBot-VLA在GM-100真機(jī)評(píng)測(cè)基準(zhǔn)(覆蓋3類主流雙臂機(jī)器人、100項(xiàng)復(fù)雜任務(wù)、每任務(wù)130次真機(jī)試錯(cuò))上,平均成功率(SR)達(dá)17.30%,超越Pi0.5的13.02%。比指標(biāo)更重要的,是多家本體廠商在真實(shí)硬件上完成了對(duì)LingBot-VLA的驗(yàn)證,這意味著行業(yè)終于有一個(gè)不吹牛、能落地的模型了。
![]()
從燒錢試錯(cuò)到低成本迭代。LingBot-VLA在8、16、32、128和256張GPU配置下,訓(xùn)練效率都超越了OpenPI和DexBotic。而且GPU數(shù)量越大,優(yōu)勢(shì)越突出。也就是說,基于LingBot-VLA可以大幅縮短訓(xùn)練周期,降低開發(fā)的綜合成本。省下的算力和時(shí)間都是錢,意味著企業(yè)和開發(fā)者可以反復(fù)迭代、快速試錯(cuò),在激烈的市場(chǎng)競(jìng)爭(zhēng)中搶占先機(jī)。
![]()
這是業(yè)內(nèi)首次出現(xiàn)一個(gè)真正面向通用操作、跨本體部署的通用智能底座,也是具身智能迎來ChatGPT時(shí)刻的先決條件。
不少原本觀望的開發(fā)者,在看到星海圖、松靈等廠商的真機(jī)驗(yàn)證之后,都紛紛表示要去GitHub/Hugging Face找代碼試試。
那么,LingBot-VLA到底是怎么做到的?
![]()
Physical Intelligence的Pi0.5一直是具身智能領(lǐng)域的性能標(biāo)桿,LingBot-VLA在性能與效率上顯著超越Pi0.5,標(biāo)志著開發(fā)者從此有了一個(gè)強(qiáng)大、高性能的開源武器。通過論文,我們來詳細(xì)拆解這把武器有哪些不同。
首先也最難的是跨本體,不同機(jī)器人在關(guān)節(jié)數(shù)量、自由度、末端執(zhí)行器、傳感器布局上天差地別,如何屏蔽多元且復(fù)雜的硬件差異?
LingBot-VLA 的解法是,接收到視覺圖像、自然語言指令、機(jī)器人當(dāng)前狀態(tài)等信息之后,不直接預(yù)測(cè)關(guān)節(jié)指令,把這些信號(hào)都映射到統(tǒng)一的操作空間(Unified Action Space),生成統(tǒng)一的動(dòng)作向量。
不同本體的關(guān)節(jié)指令,則由輕量級(jí)模塊或廠商驅(qū)動(dòng)層完成,主干模型無需知道硬件細(xì)節(jié)。
這就像人體,由大腦來統(tǒng)一處理信息,并生成倒水、開門等操作意圖,由神經(jīng)系統(tǒng)轉(zhuǎn)化為具體的肢體動(dòng)作,無論高矮胖瘦或人種差異,各種身體結(jié)構(gòu)都能執(zhí)行。LingBot-VLA就是這樣的通用大腦,只輸出通用操作指令,硬件差異由下游模塊處理。
LingBot-VLA這顆大腦的決策能力,建立在空間感知基礎(chǔ)之上。這就要提到最近開源的 LingBot-Depth模型。
不同于普通RGB輸入,LingBot-VLA在訓(xùn)練與推理中顯式融合了由LingBot-Depth生成的高質(zhì)量、度量準(zhǔn)確的深度圖。該深度模型采用創(chuàng)新的“掩碼深度建模”(MDM)技術(shù),能在透明、反光等挑戰(zhàn)性場(chǎng)景中補(bǔ)全缺失深度,并在NYUv2、ETH3D 等基準(zhǔn)上達(dá)到SOTA。更重要的是,它輸出的深度具備真實(shí)物理尺度,使機(jī)器人能進(jìn)行精確的距離判斷與操作規(guī)劃,讓LingBot-VLA更好地看清物理世界,并與之交互。
![]()
那跨任務(wù)的強(qiáng)大泛化能力,又是怎么實(shí)現(xiàn)的呢?
傳統(tǒng)VLA模型只能執(zhí)行訓(xùn)練時(shí)見過的指令組合,比如沒訓(xùn)練過擦桌子,即使包含抓抹布、移動(dòng)手臂等子動(dòng)作,模型也會(huì)失效。LingBot-VLA的突破在于,將語言指令動(dòng)態(tài)解析為結(jié)構(gòu)化動(dòng)作序列,并與視覺感知對(duì)齊。
這就像是人類的舉一反三。主干模型建立了“物體-指令-動(dòng)作”的關(guān)聯(lián),Action Expert負(fù)責(zé)預(yù)測(cè)動(dòng)作序列。當(dāng)接收到擦桌子的指令時(shí),哪怕以前沒有訓(xùn)練過,也可以復(fù)用抓起毛巾、移動(dòng)手臂等子技能,進(jìn)行重組和適配,遷移到其他任務(wù)上,讓任務(wù)泛化不再是零樣本猜測(cè)。
在跨本體、跨任務(wù)的基礎(chǔ)上,LingBot-VLA 在訓(xùn)練層面做了系統(tǒng)性優(yōu)化,引入課程學(xué)習(xí)和稀疏獎(jiǎng)勵(lì)蒸餾,數(shù)據(jù)效率大幅提高。研究者從大規(guī)模真實(shí)世界基準(zhǔn)測(cè)試集GM-100中選擇了8個(gè)具有代表性的任務(wù),在AgibotG1平臺(tái)上進(jìn)行了實(shí)驗(yàn)。
結(jié)果顯示,在有限預(yù)算下,LingBot-VLA的Progress Rate(進(jìn)度率)和 Success Rate(成功率)都優(yōu)于Pi0.5。
![]()
正是上述工作與創(chuàng)新,使得LingBot-VLA能在更低數(shù)據(jù)、更少算力的條件下,達(dá)到比Pi0.5更強(qiáng)的真機(jī)泛化能力,成為一個(gè)為真實(shí)世界部署而生的通用智能基座。而這,正是本體廠商跨越斬殺線的關(guān)鍵。
![]()
在智能產(chǎn)業(yè)中,開源開放是公認(rèn)的重要力量。
以AIGC為例,Stable Diffusion開源之前,高質(zhì)量圖像生成模型如DALL·E和Midjourney等閉源模型,使用受限,普通開發(fā)者無法本地部署或二次開發(fā)。SD開源后,催生了完整的生態(tài)體系,AIGC因此迎來爆發(fā)式增長(zhǎng)。
再反觀閉源公司,OpenAI不開源的做法,被大量開發(fā)者嘲諷為“closeAI”,而曾以閉源軟件帝國(guó)著稱的微軟,如今不僅深度擁抱開源,更戰(zhàn)略性收購(gòu)了開源社區(qū)GitHub。
為什么開源對(duì)AI乃至AGI如此重要,科技巨頭和開發(fā)者都十分重視?根本原因在于,AGI的復(fù)雜性遠(yuǎn)超單一企業(yè)或?qū)嶒?yàn)室的能力范圍,它需要全球開發(fā)者、研究者和產(chǎn)業(yè)伙伴,在數(shù)據(jù)、算法、工具和場(chǎng)景上的持續(xù)協(xié)同與迭代。
具體到具身智能領(lǐng)域,此前,宇樹科技、優(yōu)必選等廠商各自開發(fā)了不兼容的操作系統(tǒng),制約了產(chǎn)業(yè)生態(tài)的協(xié)同發(fā)展。這種背景下,行業(yè)迫切需要有能力的開源貢獻(xiàn)者,讓千千萬萬開發(fā)者不必重復(fù)造輪子,能站在巨人的肩膀上共同探索AGI的上限。
從能力層面看,LingBot-VLA作為螞蟻在AGI領(lǐng)域的又一成果,具備可復(fù)現(xiàn)、可落地、高性能等特點(diǎn),且經(jīng)過真機(jī)檢驗(yàn),能夠支持普通開發(fā)者,快速構(gòu)建自己的具身智能體,降低創(chuàng)新門檻,釋放集體創(chuàng)造力,為行業(yè)共建提供了基礎(chǔ)。
從戰(zhàn)略意愿看,自從LLM爆發(fā)以來,螞蟻一直是全球領(lǐng)先的大模型開源貢獻(xiàn)者,以開源開放模式探索AGI,為此打造InclusionAI 開源社區(qū),系統(tǒng)性地釋放了包括基礎(chǔ)大模型百靈、通用 AI 助手靈光、具身智能靈波在內(nèi)的核心技術(shù)。LingBot-VLA是螞蟻集團(tuán)開源的第一款具身智能基座模型,也是這一戰(zhàn)略在具身智能領(lǐng)域的關(guān)鍵實(shí)踐。
從持續(xù)貢獻(xiàn)的角度看,LingBot-VLA不僅開源了模型,還涵蓋了后訓(xùn)練工具鏈,使得開發(fā)者可以更方便地進(jìn)行微調(diào)和部署,可謂誠(chéng)意滿滿。LingBot-Depth緊隨其后開源,進(jìn)一步豐富了技術(shù)棧,這種連續(xù)性的開源動(dòng)作,也讓開發(fā)者更有信心加入技術(shù)路線,繁榮生態(tài)。
所以,螞蟻所做的,是搭建起一座連接前沿研究與產(chǎn)業(yè)落地的開源橋梁,而這正是具身智能產(chǎn)業(yè)從炫技到量產(chǎn),從“演示就緒”到“部署就緒”的關(guān)鍵基礎(chǔ)設(shè)施。
正如Stable Diffusion的開源徹底引爆了AIGC生態(tài),LingBot-VLA正為具身智能帶來類似的轉(zhuǎn)折,觸發(fā)具身智能的“Stable Diffusion時(shí)刻”。
對(duì)開發(fā)者來說,當(dāng)別人還在為數(shù)據(jù)匱乏、算力吃緊、泛化難而掙扎的時(shí)候,不妨以LingBot-VLA為起點(diǎn),完成向真實(shí)世界的飛身一躍。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.