![]()
作者:彭堃方
編輯:呂鑫燚
出品:具身研習社
近日,在全球首個大規模、多任務的,在真實物理環境中由真實機器人執行操作任務的基準測試RoboChallenge榜單新鮮出爐。總得分排行第一為Physcial Intelligence的開源模型pi0.5,第二為自變量的開源模型WALL-OSS,第三為PI的另一開源模型pi0。其中,WALL-OSS總分數為54.69,加上成功率35.33%。
![]()
這是一份非常有意思的榜單,首先自變量的表現說明具身智能大模型領域的“中美差距“正在像LLM(大語言模型)一樣,迅速填平差距。其次,所有評測模型皆為開源模型,從而讓所有模型在公眾的視野下接受評測,打開了具身智能神秘的黑盒。
可以說RoboChallenge為具身智能大模型找到了一條基準線,也為外界窺探具身智能大腦的真實能力進展打開了窗口。
以自變量為例,去年9月,自變量開源了其具身基礎模型WALL-OSS。對于生態來說,自變量選擇開源WALL-OSS,本質上是重塑了產業的協同邏輯,它將“重復造輪子”的內耗,轉化為“聚沙成塔”的合力。提供了一個高可靠性的通用底座,讓全球開發者可以在此基礎上貢獻長尾場景數據,共同喂養出一個真正理解物理法則的“超級大腦”。
對于產業來說,自變量此舉讓成百上千的中小機器人企業能夠基于WALL-OSS快速生長出垂直領域的應用,從而讓機器人用更聰明的大腦引爆整個產業的商業化臨界點。
值得注意的是,WALL-OSS開源是更為稀缺的“真開源”,和其他開源為“閹割代碼”不同,它開放一整套完整、可復現的具身大模型解決方案,包括預訓練模型權重、訓練代碼、數據集接口,甚至附上詳細部署文檔。讓開發者能更好微調或者復現能力。
可以說,在具身智能這片長坡厚雪的賽道上,開源不僅是在跑自己的馬拉松,更是在為整個行業鏟雪修路。因為只有當“大腦”不再成為稀缺品時,通用機器人的黃金時代才會真正到來。
![]()
RoboChallenge是由Dexmal原力靈機與Hugging Face共同發起的全球首個大規模、多任務的真機基準測試平臺。它旨在為VLA在視覺-語言-動作模型在機器人上的應用提供一個開放、公正、可復現的評估標準,以解決機器人行業長期缺乏統一評測基準的痛點,推動具身智能從實驗室研究走向現實世界應用。
其核心測試集Table30作為RoboChallenge平臺首發的桌面操作基準測試集,構建了一個涵蓋30項真實生活情境的“全科考場”。從擦桌子、折疊洗碗布等基礎家務,到插花、插網線等精細操作,再到打開水龍頭、制作三明治等復雜交互,細致全面的考察了模型的智能邊界。
雖然RoboChallenge一定程度上打破了具身模型的“自唱自說”,但其并不是完全的“一錘定音”。畢竟,具身模型與大語言模型的測評存在本質區別,具身模型采用提前公開任務的“類開卷”考試范式,核心評價指標為視頻化的實際動作執行效果,和大語言模型“裸考”有著本質區別。
在此背景下,具身模型測評的另一條信號在于,公開代碼的開源模型更具技術真實性與產業價值,不僅支持全流程復現,還能賦能行業生態。
以自變量的WALL-OSS表現為例,在put_opener_in_drawer(開瓶器入抽屜)、hang_toothbrush_cup(掛牙刷杯)、move_objects_into_box(移動目標物入箱)等高難度任務上,WALL-OSS單項得分位列前茅,甚至超過總分第一的pi0.5,展現了模型頂尖的執行效率和穩定性。
![]()
在“開瓶器入抽屜”的實戰中,模型需要從咖啡機、盆栽等干擾項中精準識別目標,然后依循執行邏輯,率先完成精確的“捏拉”動作打開抽屜,最后憑借對空間位置的深入理解,拿放開瓶器,實現閉環操作。
透過上述任務執行可見,WALL-OSS在復雜長指令任務中的穩定發揮,意味著其已經進化為一個具備出色邏輯推理與空間感知能力的“聰明大腦”。換句話說,WALL-OSS的出色表現,完全基于其對物理世界的本質理解與多模態指令的深度對齊,而非針對已知考題進行的特殊訓練。
此外,WALL-OSS作為一款完全開源的模型,代碼邏輯與模型參數均公開透明,其測評表現是真實且可復驗的。(開發者最快一周就能在自有機器人上完成適配)
可見,WALL-OSS的表現,不僅僅是一個具身大模型的成績,而是其開源后能實打實賦能開發者的真實底氣。
![]()
正如開文所述,RoboChallenge榜單前七名均為開源模型,其參賽主體分別為Pi0.5Pi0WALL-OSSpi05_generalistCogACTpi0_generalistopenvla-oft。(主要模型為Pi0.5Pi0WALL-OSSCogACTopenvla)。
其中,Pi0、pi0.5背后的公司Physical Intelligence主要團隊成員來自伯克利、斯坦福等高校和谷歌專家等。由?前Google DeepMind機器人科學家,斯坦福大學兼職教授Karol Hausman?擔任CEO。聯合創始人Sergey Levine?為加州大學伯克利分校(UC Berkeley)副教授,深度強化學習領域的奠基人之一,致力于通用機器人模型開發。
WALL-OSS背后的自變量機器人,創始人王潛為南加州大學博士學位,曾于美國頂級機器人實驗室從事機器人學習與人機交互研究,是全球最早在神經網絡中提出Attention機制的研究者之一,其成果與谷歌同期發表于國際會議。CTO王昊為北京大學計算物理博士,曾任職于粵港澳大灣區數字經濟研究院(IDEA研究院),主導開發國內首個多模態開源大模型“太乙”、百億級大語言模型“燃燈”及千億級模型“姜子牙”,累計下載量超百萬次。
?CogACT的研究團隊來自清華大學、微軟亞研院等機構;OpenVLA模型由斯坦福大學、加州大學伯克利分校、谷歌DeepMind等機構的研究團隊聯合開發。
開源模型齊聚榜單為具身大模型的未來發展釋放了一個清晰的信號,開源模型更具有含金量,也更能賦能行業成長。這一點從不同主體基于同一個開源模型調整參賽就能看出。
時至今日,沒有人會再爭議“開源”和“閉源”孰優孰劣,但一定會有人好奇:開源能帶來什么?
回答這個問題,可以從AI大模型找到答案。
開源不是因為“卷不過”,而是為了“贏下未來”。DeepSeek、Qwen的成功不在于它是否永遠霸榜,而在于它把大模型的價格打了下來,把技術門檻拆了下來,讓萬千開發者能用上“握在自己手里”的模型。 如果你還記得,你會想起年初各大國企接入DeepSeek,到了年末,甚至連美國企業反倒用起了中國的AI模型。
自變量開源WALL-OSS的意義如出一轍: 國內無數本體機器人公司和中小具身廠商,原本都在各自為戰、重復造輪子。
此前在《硅谷101》博客中,談及開源的初心時,自變量曾表示主要出于兩點考慮。其一,是技術成熟度,其二是行業需要的程度。從技術成熟度來講,類似于VLA的結構,經過了很長時間的論證,大家在訓練方法上有很多探索,相當于有一定的應用上的共識以及經驗。所以從技術成熟來講,此時具有這樣結構的模型對產業來講是個很需要的事情。
從需要程度來看,國內產業里(開源時間為2025年9月)沒有在一個框架下的國產自研統一模型,但行業迫切需要的強大的開放基座模型,來助推行業成長。
自變量把“大腦”開源,相當于為全行業提供了一個高性能的通用底座。只有底座開源,國內的具身智能應用才會像當初的AI應用一樣“百花齊放”,加速中國具身智能“聚沙成塔”的過程。
畢竟,真正的核心競爭力,不在于實驗室中的參數高低,而在于真實世界中的作業能力;真正的產業價值,不在于技術的孤芳自賞,而在于通過開源與協同,推動整個行業的升級與進步。
對于產業來說,具身智能是一場馬拉松,是“長坡厚雪”、“眾人拾柴”的賽道。自變量機器人的開源,本質上是一種利他主義的競爭策略。而且放眼整個具身智能的競爭,最終不是比誰的實驗室模型更漂亮,而是比誰能最快讓千萬臺機器人走入現實。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.