嘻瘋 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
國產(chǎn)具身智能基座模型,再次突破!
RoboChallenge真機評測榜單上,來自自變量機器人的端到端具身智能基礎(chǔ)模型WALL-OSS,以總分54.69、成功率35.33%的成績,超越美國具身智能明星公司Physical Intelligence的pi0(π0),排名全球第二。
![]()
在疊洗碗巾、掛口杯、按按鈕、澆盆栽、移物入盒、開瓶器進抽屜等多個單任務(wù)中,WALL-OSS均拿下單項第一
![]()
要知道,這可不是一場普通的測試。
RoboChallenge由Dexmal原力靈機聯(lián)合Hugging Face發(fā)起,是首個在真實物理環(huán)境中,由真實機器人執(zhí)行操作的大規(guī)模、多任務(wù)基準測試。
與LLM測評不同,具身模型測評更像是一場“開卷考”,任務(wù)描述和場景環(huán)境都是提前公開的。
參賽方無需提交模型權(quán)重,只需提供可驅(qū)動機器人的算法;最終,平臺通過統(tǒng)一的真機執(zhí)行,以動作視頻和任務(wù)完成率作為評分依據(jù)。
格外關(guān)鍵的是,WALL-OSS是一個開源模型
相較于閉源模型的測評結(jié)果存在較大操作空間(其性能可能源于對第三方模型的微調(diào)、接口層的特殊適配,或者存在黑箱內(nèi)的未公開優(yōu)化),模型本身的原生能力不容易被外界驗證,開源模型的成績建立在完全透明的代碼與參數(shù)之上,其能力可被任何研究者復(fù)現(xiàn)、檢驗和深入研究
而且,WALL-OSS的開源程度也相當徹底:不僅開放了預(yù)訓(xùn)練模型權(quán)重、完整訓(xùn)練代碼和數(shù)據(jù)集接口,甚至還提供了詳盡的部署文檔。僅需RTX 4090級別的消費級顯卡,就可以完成從訓(xùn)練到推理部署的完整流程。
另外,當前榜單前三名,包括pi0、pi0.5,也都是來自開源體系
具身智能的前沿發(fā)展,正在由開源模型共同推動向前。
“機器人腦”物理世界大PK
下面先具體來看WALL-OSS在測試中的實際表現(xiàn)。
RoboChallenge首發(fā)的Table 30任務(wù)集,包含30個真實日常操作任務(wù),而在行業(yè)常見的真機評測中,任務(wù)數(shù)量通常只有3–5個。
該任務(wù)集從四個維度構(gòu)建評估體系:VLA方案難點、機器人類型、任務(wù)場景環(huán)境、目標物體屬性,覆蓋了具身模型在真實世界中可能遇到的多樣復(fù)雜情況。
以難度較高的“疊抹布”任務(wù)為例,WALL-OSS目前位列該單項第一。
在該任務(wù)中,WALL-OSS以41分的成績領(lǐng)先pi0。盡管其任務(wù)成功率仍只有10%,但已是當前所有參賽模型中的最優(yōu)表現(xiàn);相比之下,pi0在該任務(wù)中的成功率為0%,僅獲得部分步驟分。
![]()
RoboChallenge平臺集成了UR5、Franka Panda、Aloha、ARX-5等多款主流機器人,用于遠程真機評測。
并且,其公開了所有任務(wù)演示數(shù)據(jù)及測試中間結(jié)果,所有人都能看到機器人執(zhí)行任務(wù)的全過程監(jiān)控記錄。
打開任務(wù)執(zhí)行詳情,可以看到左側(cè)上方是多視角視頻畫面,展示了任務(wù)現(xiàn)場的實際場景,能直觀看到機器人的操作過程

右側(cè)上方的arm圖表,記錄了機械臂6個關(guān)節(jié)(joint1–joint6)的角度變化,曲線波動對應(yīng)關(guān)節(jié)運動;右側(cè)下方的arm_gripper圖表,則記錄了夾爪的開合狀態(tài)。
最右側(cè)信息欄則展示任務(wù)ID、執(zhí)行時長等基礎(chǔ)信息。
底部時間軸可以精準定位某一時刻,同步查看該時間點的視頻畫面與機械臂/夾爪狀態(tài),快速找到動作異常的環(huán)節(jié)。
從公開視頻中可以看到,WALL-OSS成功完成了抹布的一次抓取與對折操作:

在相對簡單一些的“連續(xù)按下三個按鈕”任務(wù)中,WALL-OSS的優(yōu)勢更加明顯,得分顯著領(lǐng)先其它模型。
![]()
實際操作be like(以下展示均為加速畫面):

在“將不同形狀雜物收納至筐中”的任務(wù)里,WALL-OSS同樣表現(xiàn)穩(wěn)定:

該任務(wù)中,無論是得分還是成功率,WALL-OSS都高于pi0。
![]()
在“拉開抽屜并放入雜物”等需要連續(xù)規(guī)劃與空間判斷的任務(wù)中,也能看到其完整完成操作流程:

值得一提的是,RoboChallenge的真機測試規(guī)則本身并未限制模型進行針對性優(yōu)化或微調(diào)。開發(fā)者可以使用官方提供的任務(wù)示范數(shù)據(jù)對模型進行訓(xùn)練。
模型訓(xùn)練完成后,需對接平臺標準化API。平臺提供統(tǒng)一的框架代碼,參賽方僅需補充自身邏輯,確保模型實現(xiàn)觀察-推理-停止的完整交互閉環(huán),并可通過模擬測試進行驗證。
評估請求進入人工調(diào)度隊列后,任務(wù)將在真實場景中執(zhí)行,最終結(jié)果由平臺自動發(fā)布。
也正是在這樣的規(guī)則下,開源模型的成績,含金量才顯得尤為突出。
目前,自變量團隊已表示,WALL-OSS提交的復(fù)現(xiàn)結(jié)果示例,微調(diào)代碼和模型權(quán)重也將在近期全部開源。除檢驗測試結(jié)果的真實性,開發(fā)者們也可以在平臺上根據(jù)源代碼和各個任務(wù)的微調(diào)代碼,結(jié)合自己的數(shù)據(jù)完成復(fù)現(xiàn)微調(diào)。
接下來問題來了,WALL-OSS是如何做到的?
拆解背后技術(shù)突破
在模型的具體實現(xiàn)層面,官方已發(fā)布技術(shù)報告,對WALL-OSS的設(shè)計思路與訓(xùn)練路徑進行了系統(tǒng)披露。
![]()
從視覺語言模型(VLM)走向視覺語言動作模型(VLA),并不是一次簡單的能力疊加。
在這一遷移過程中,行業(yè)普遍面臨兩大核心挑戰(zhàn):
其一是災(zāi)難性遺忘。VLM在向動作生成擴展時,往往會犧牲原有的語言理解與視覺推理能力,導(dǎo)致模型“會動了,卻不再真正理解任務(wù)”。
其二是模態(tài)解耦。不少模型雖然表面上同時具備視覺、語言與動作模塊,但各模態(tài)之間協(xié)同不足,推理、規(guī)劃與執(zhí)行往往割裂存在,難以形成真正端到端的決策閉環(huán)。
這也直接導(dǎo)致了一個現(xiàn)實困境:認知能力強的模型,動作精度往往不足;而動作控制表現(xiàn)穩(wěn)定的模型,又難以承擔復(fù)雜任務(wù)的理解與規(guī)劃。
如何在模態(tài)統(tǒng)一、動作精度和能力泛化之間達成平衡?是VLA模型設(shè)計中最具挑戰(zhàn)性的問題之一。
針對上述問題,WALL-OSS首先在模型架構(gòu)層面進行了重構(gòu)。
不同于傳統(tǒng)多模態(tài)模型常見的“模塊拼接”方案,WALL-OSS采用了共享注意力+專家分流(FFN)的架構(gòu)設(shè)計。語言、視覺與動作信息被嵌入到同一表示空間中,通過共享注意力機制實現(xiàn)深度跨模態(tài)交互;同時,再借助專家FFN對不同任務(wù)需求進行高效分流計算。
最終,模型得以在統(tǒng)一框架下同時承擔理解、規(guī)劃與動作生成任務(wù),形成緊耦合的認知—行動閉環(huán)。
![]()
在訓(xùn)練策略上,WALL-OSS設(shè)計了“啟發(fā)階段(Inspiration)→整合階段(Integration)”的階段式范式
啟發(fā)階段通過具身VQA、指令跟隨等任務(wù)強化空間推理,結(jié)合FAST tokenization離散動作訓(xùn)練,讓模型保留原有認知能力的同時,建立空間與動作基礎(chǔ)認知。
隨后,整合階段聚焦連續(xù)動作建模,先凍結(jié)VLM僅訓(xùn)練Action FFN下的流匹配(Flow Matching)頭,精修高頻動作生成。
最終,解凍VLM聯(lián)合優(yōu)化,將認知能力與動作執(zhí)行能力在同一模型中穩(wěn)定整合。
![]()
這種“先離散、后連續(xù)、再聯(lián)合”的訓(xùn)練路徑,讓VLM的語言視覺能力能夠無損地遷移并擴展到物理動作層面,避免了傳統(tǒng)端到端訓(xùn)練中常見的能力塌縮問題。
結(jié)果是,模型既保留了懂任務(wù)的認知深度,又具備了會執(zhí)行的動作精度。
在此基礎(chǔ)上,WALL-OSS進一步將思維鏈(Chain-of-Thought)能力內(nèi)化到具身決策過程中。
WALL-OSS構(gòu)建了一套統(tǒng)一的跨層級思維鏈框架:從指令理解,到中間推理,再到子任務(wù)拆解與規(guī)劃,最終映射為連續(xù)的物理動作執(zhí)行。
這一機制使模型能夠在高層語義決策與底層動作控制之間自由切換,在同一可微分框架內(nèi)完成跨抽象層級的推理與執(zhí)行。
因此,在面對未知環(huán)境或從未見過的任務(wù)組合時,WALL-OSS不再依賴預(yù)設(shè)流程,而是能夠自主拆解問題、逐步思考,并在執(zhí)行過程中動態(tài)調(diào)整策略,從而具備了承擔長程、復(fù)雜具身任務(wù)的能力。
實驗結(jié)果顯示,在Embodied VQA基準測試及6類機器人操作任務(wù)中,WALL-OSS均表現(xiàn)突出。
![]()
開源破壁,真正推動具身智能發(fā)展的路徑
最后再來介紹一下WALL-OSS背后的團隊——自變量機器人
這是一家成立時間不長、但在具身智能領(lǐng)域推進速度極快的明星公司。核心團隊長期深耕機器人與多模態(tài)智能方向,并明確將“通用具身智能基座”作為長期目標。
創(chuàng)始人兼CEO王潛,本碩畢業(yè)于清華大學(xué),后在美國南加州大學(xué)攻讀博士,從事Robotics Learning相關(guān)研究。他在神經(jīng)網(wǎng)絡(luò)注意力機制相關(guān)研究領(lǐng)域較早開展探索,是較早將Attention思想引入神經(jīng)網(wǎng)絡(luò)體系的研究者之一。
聯(lián)合創(chuàng)始人兼CTO王昊,為北京大學(xué)計算物理博士,曾任職于粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院(IDEA研究院),擔任大模型團隊負責人,曾帶領(lǐng)團隊發(fā)布過多個開源大模型,在基礎(chǔ)模型與系統(tǒng)工程層面具備深厚積累。
目前團隊已完成多輪融資。幾個月前,剛宣布了近10億元A+輪融資,阿里云、國科投資領(lǐng)投,國開金融、紅杉、渶策、美團、聯(lián)想之星、君聯(lián)資本均有參與。
相比單一場景或垂直應(yīng)用,自變量團隊更關(guān)注如何構(gòu)建一個可以被反復(fù)驗證、持續(xù)演化的“機器人通用大腦”
也正因為如此,WALL-OSS從一開始就被定位為面向真實物理世界、端到端統(tǒng)一的基座模型,而不是為某個Demo、某個任務(wù)定制優(yōu)化的解法。
如果僅從榜單成績來看,WALL-OSS已經(jīng)足夠亮眼。但真正值得被反復(fù)討論的,并不是名次本身,而是它選擇以開源的方式,參與真實物理世界的能力驗證
在RoboChallenge這樣的第三方測評中,WALL-OSS的表現(xiàn)很難被簡單歸因為調(diào)參、特化或運氣好。它更像一次赤裸而直接的證明:一個開源的、可復(fù)現(xiàn)的具身基礎(chǔ)模型,確實可以在真實世界任務(wù)中具備很強的競爭力
而把視角拉遠一步,長期以來,具身智能領(lǐng)域一直存在一個結(jié)構(gòu)性矛盾:
真正有想法、有算法能力的高校與中小團隊,往往缺算力、缺數(shù)據(jù)、缺機器人;而具備資源的大公司,又很難把底層能力完全開放出來,供行業(yè)共同驗證和改進。
在這樣的背景下,一個可以在消費級顯卡上完成訓(xùn)練、推理和部署的開源具身模型,在行業(yè)中的意義就不僅是共享成果,而是彌補了行業(yè)空白,實質(zhì)性地降低整個行業(yè)的創(chuàng)新門檻
研究者不必從零構(gòu)建,創(chuàng)業(yè)團隊不必重復(fù)造輪子,更多精力可以投入到真正有價值的問題上,比如:如何提升泛化能力?處理更長程、更復(fù)雜的任務(wù)?如何讓機器人在不可控環(huán)境中更可靠地工作?
這正是開源生態(tài)最理想的狀態(tài),不是把精力消耗在基礎(chǔ)設(shè)施的重復(fù)建設(shè)上,而是在同一個高起點上競爭真正的創(chuàng)新
正如自變量機器人聯(lián)合創(chuàng)始人&CTO王昊曾在硅谷101播客中所說:
我一直都覺得開源是非常重要的事情,開源意味著我們可以站在巨人的肩膀上繼續(xù)前進。我們可以基于已有成果做更多的改進,社區(qū)開發(fā)者的反饋也會幫助到開源的公司,開源公司可以從中吸取到經(jīng)驗,然后把這個技術(shù)路線思考得更加深入。
而對自變量自身而言,選擇開源同樣不是一筆短期收益最大化的生意。
在多次訪談中,自變量團隊反復(fù)強調(diào),他們并不把開源視為一次技術(shù)展示或品牌露出,而是將其視為一種“行業(yè)基礎(chǔ)設(shè)施”的長期投入
他們更關(guān)心的是,這個模型是否足夠先進,足夠稀缺,從而足夠有資格成為“基座”;或者模型又能否真的能被社區(qū)用起來,經(jīng)得起復(fù)現(xiàn)、質(zhì)疑和改造,在真實世界的任務(wù)中不斷暴露問題,最終通過生態(tài)的反向推動,從而完成自我迭代與進化。
在具身智能這樣一個高度依賴真實世界反饋的領(lǐng)域,沒有什么比開源社區(qū)的持續(xù)檢驗更殘酷、也更有效
社區(qū)會放大模型的優(yōu)點,也會毫不留情地揭示它的短板。而正是這種持續(xù)地被使用、被對抗、被改造,才有可能推動模型真正走向成熟。
從這個角度看,WALL-OSS的開源,本質(zhì)上是一種姿態(tài)——愿意把模型交給世界,用真實應(yīng)用來檢驗技術(shù)路線是否成立
具身智能的長期發(fā)展中,擁抱開源,或許不是理想主義,而是一條繞不開的現(xiàn)實路徑。
至少,WALL-OSS已經(jīng)用一次真實世界的大考,給出了一個有分量的示范答案。
最后話說回來,以后打榜是不是要給開源和閉源搞個分賽道?裸奔的,和穿著絨褲、棉褲、毛褲、秋褲、打底褲的相比,到底是不一樣。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.