<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      RoboChallenge發布年度報告:評測標尺夠權威嗎?

      0
      分享至


      具身模型在榜單里卷起來了。

      作者丨劉欣

      編輯丨馬曉寧 高景輝

      當下的具身智能行業可謂陷入了“Demo”的怪圈,大家驚呼于視頻內機器人的流暢操作,但視頻中的機器人卻又在現實世界中頻繁失誤。

      這種虛假繁榮的背后,其實是行業長期缺乏真實場景驗證、評測標準模糊等問題。機器人從實驗室走到現實世界,始終被仿真到現實世界等難題所制約。

      模擬器的評估無法完美復現真實世界中的物理擾動、環境變異等關鍵因素,在此背景下,2025年10月原力靈機Dexmal與Hugging Face聯合推出了全球首個具身智能大規模評測平臺——RoboChallenge。

      緊隨其后,原力靈機又與Hugging Face聯合智源研究院、智元機器人、Qwen、星海圖、自變量、清華大學、西安交通大學及GOSIM等機構,于2025年11月20日正式成立RoboChallenge組委會。

      2026年1月11日,RoboChallenge榜單更新,前三名依次為Spirit v1.5、pi0.5、WALL-OSS。其中,Spirit v1.5是出自中國千尋智能自研的模型,而WALL-OSS則是自變量機器人的全自研開源操作大模型。

      這個榜單釋放出了一個重磅信號:中國自主研發的具身智能模型,已具備與國外頂級模型同臺對打的實力,甚至還打贏了。

      不過,作為推出還沒多久的新興評測平臺,尚處發展完善階段,網絡上的態度也充滿爭議,所以AI科技評論打算從技術和核心設計的角度,對RoboChallenge進行深度拆解與解讀。

      01
      RoboChallenge系統核心設計

      在具身智能領域,真機評測的標準化與公平性?期以來一直是制約技術橫向對比的關鍵瓶頸。而缺乏統一的評測標尺,更讓不同團隊的技術成果難以形成有效對比,嚴重影響了行業迭代效率。

      但提供機器人在線服務并非表面看上去那么簡單,首要問題是如何向提交算法的用戶開放機器人訪問權限。

      原力靈機最開始考慮了三種主要的模式,分別是模型級提交、系統級提交、模型API調用,但這三種模式最后都沒有采用,原因在于:

      ? 計算兼容性:提交模型并使其在其他環境中正確運行極為復雜。軟件棧和硬件配置難以匹配,除非提供完全訪問權限,否則幾乎無法調試。

      ? 靈活性:原力靈機不希望將用戶限制在以往系統中默認的 “觀測 - 動作” 映射所隱含的 “暫停 - 推理” 控制模式中。

      ? 可訪問性:并非所有人都擁有公網IP,尤其是在網絡地址轉換(NAT)主導的現代互聯網環境中。

      于是,原力靈機采用 “遠程機器人” 交互范式,摒棄傳統模型提交、Docker鏡像部署等方案,讓用戶無需上傳模型文件或推理代碼,通過標準化低層級API即可實現全異步交互。

      不同于仿真測試,RoboChallenge擁有UR5、Franka、ARX5、ALOHA等主流機型在內的20臺真機測試集群,對這些機器人的選擇上,還有幾條準則:耐用性、普及性、安全性以及性能良好。

      所有機器人均搭載Intel RealSense深度相機,包含俯視工作區域的主相機、機械臂末端的腕部相機及單臂設備專用的側面相機,為VLA模型提供多視角觀測數據。

      前期的準備完善后,RoboChallenge又發現測試中的各種因素會導致最后的結果巨大,難以成為客觀、公正的測評體系。因此,需要一套規范的方法來控制測試中的各種因素。

      首先,對于測試人員導致的差異,RoboChallenge對有經驗、無經驗、適應性的測試人員進行了測試,發現了一種 “最佳區域效應”(Sweet-spot Effect),如下圖所示,存在特定的物體位置組合,在這些位置上任務更有可能成功。根據這些經驗,RoboChallenge設計出了更完善的評估協議,特別是更穩定的物體重置方法。


      RoboChallenge還對環境中的各種因素進行了研究,比如光照條件,但進行的概念驗證實驗發現,背景或環境的變化不會對測試結果產生太大影響。


      02
      Table30基準測試集

      Table30基準測試集包含30項圍繞固定工作臺執行的任務,涵蓋家庭、廚房、辦公、校園等多元場景,任務類型包括物體整理、機械操作、分類分揀、軟體處理等,全面覆蓋了VLA模型的核心技術挑戰。

      這些任務衡量了通用機器人控制算法應具備的多種能力,乍看下來很簡單,但即使是最先進的基礎模型也無法達到較高的總體成功率。



      任務的選擇也不是毫無根據的,主要遵循難度覆蓋全面、算法挑戰覆蓋全面、貼近現實生活以及簡潔性這四個原則。



      RoboChallenge認為,基準測試集是衡量通用機器人技術方法的必要測試。并且,隨著評估數據的積累可以發現更多趨勢:

      首先是,模型的單任務與多任務模型的能力差距顯著。

      RoboChallenge的評測區分了單任務模型和多任務模型,單任務模型是對特定任務進行優化,多任務模型能夠使適配不同類型的任務,泛化能力較好。

      對比同一基座模型在單任務與多任務設定下的表現,pi0.5的多任務模型成功率相較于單任務模型下滑了25%。這一數據變相印證了模型需要提高多任務泛化能力。


      至于如何平衡“單項精準度”與“多任務適配性”,這或許將會成為通往通用具身智能的關鍵課題。

      其次,任務難度梯隊清晰,部分任務成行業共性難題

      Table30的每一個任務都是賦予了機型、構型、能力類型這三個維度,共15個標簽。


      通過對頭部模型成功率的分布,可以將30個標準化任務分為三個不同能力梯隊。

      第一梯隊是hello world級任務,這類人任務對于頭部模型而言沒有任何難度。第二梯隊是簡單的任務,對于頭部模型比較友好,難度較低。而第三梯隊則是特定模型的特長,此類任務呈現極端的兩級分化。

      更值得關注的是,有部分任務呈現“零突破”的困境——所有參測模型成功率均為0%,典型案例包括“做素三明治”“給盆栽澆水”等任務:


      復盤任務后發現,“做素三明治”任務的核心難點在于時序性,做三明治需要按照嚴格的順序來做,模型往往在第一步就容易出現數量錯誤和失敗,所以容錯率極低,一步錯步步錯。

      “給盆栽澆水”任務則暴露了模型的時序依賴缺失問題,長程任務要求模型維持對歷史狀態的記憶。一旦中間階段出現狀態丟失,模型就會陷入邏輯混亂,產生類似“幻覺”的隨機動作。


      此外,整理書籍、疊抹布、排列紙杯等任務,也成為參測模型的高頻失敗場景。

      除了Table30測試集中的30項任務,RoboChallenge指出,當前具身智能領域典型的“卡脖子”任務可以從靈巧性、泛化性、智能以及性能這四個維度梳理。靈巧性是指輸出不同的動作、駕馭不同的身體;泛化性是指即使測評對象不同也能成功;智能是面對沒做過的任務也能嘗試做成功;性能是指機器人的效率。

      總的來說,這些失敗案例共同指向一個核心結論:當前VLA模型仍未突破“感知-理解-決策-執行”的全閉環協同難題,距離真實場景的規模化應用仍有較大差距。

      可見,當下的VLA參測模型仍然存在一些本質上難以解決的因素,現有模型還有巨大的提升空間。

      03
      落地效果良好

      RoboChallenge的報告中指出,平臺用戶注冊數與評測提交量在過去三個月呈指數級增長。并且活躍用戶區域也不僅限于中國開發者,美國、新加坡等地的開發者正在逐漸涌入。


      平臺累計執行的真機測試總數甚至超過了4萬次,單日真機測試峰值達到834次,Table30測試集在Hugging Face平臺上的累計下載量已達17k次。

      從上述前期的準備和后期的效果上來看,RoboChallenge的確精準衡量了VLA模型在真實場景中的綜合能力,為市場提供了一個較為客觀的評測標尺。

      同時,也讓業內人士發現,VLA模型仍在攻克人類的本能級操作,參測模型雖具備較強的指令語義理解能力,但在精細操作任務中成功率不高。

      而這些尚未解決的技術難題,也正是模型未來的核心發展方向。而當當前的技術難題被模型完美解決后,平臺未來將設計出更有區分度的Benchmark,持續引領模型技術迭代。

      基于良好的發展基礎,RoboChallenge進一步釋放開放協作的信號,明確表示希望能吸引更多研究機構、科技企業、初創團隊及高校力量加入。

      RoboChallenge的早期發起人之一范浩強在回憶建立RoboChallenge的心路歷程時,也迫切地表示想弄出下一個Benchmark,涵蓋更多更難的任務,更長程的、更廣泛的任務,而打造有價值的真實任務、向真實場景靠攏,也是RoboChallenge 2026年的核心發展方向。他還真誠地向全社會喊話,希望大家加入他們的社區一起討論、一起分享。

      未來,隨著更多新鮮任務場景的注入、創新評估方法的融合及基準測試集的持續迭代,或許能揭示具身智能模型更多的特性和不足,推動具身智能模型向更通用、更實用的方向穩步發展。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      愛下廚的阿釃
      2026-02-06 17:10:03
      中國農業銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      中國農業銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      澎湃新聞
      2026-02-06 15:45:06
      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      鍵侃籃球
      2026-02-07 02:19:56
      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農

      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農

      忠于法紀
      2026-01-15 22:08:28
      成功了!中國向世界宣布重大科技成果

      成功了!中國向世界宣布重大科技成果

      元爸體育
      2026-02-04 16:44:45
      第一批獨生子女的扎心現實:父母去世后,成了舉目無親的“孤兒”

      第一批獨生子女的扎心現實:父母去世后,成了舉目無親的“孤兒”

      千秋文化
      2026-02-01 20:31:47
      第三次世界大戰導火索如果中國攔截了美國的

      第三次世界大戰導火索如果中國攔截了美國的

      林子說事
      2026-02-07 00:57:11
      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      我心縱橫天地間
      2026-02-05 19:14:54
      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      福建平子
      2026-01-28 10:52:25
      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      懂球帝
      2026-02-07 01:04:18
      11歲玥兒罕見穿黑衣現身,眼神哀傷克制:她其實什么都懂

      11歲玥兒罕見穿黑衣現身,眼神哀傷克制:她其實什么都懂

      橙星文娛
      2026-02-05 17:06:04
      逆行救出51人的劉海洋轉院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      逆行救出51人的劉海洋轉院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      瀟湘晨報
      2026-02-06 14:57:30
      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      午夜搭車a
      2026-02-07 02:23:47
      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協”

      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協”

      夜深愛雜談
      2026-02-06 17:37:17
      大反轉!向嫣然醫院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      大反轉!向嫣然醫院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      小娛樂悠悠
      2026-02-06 09:09:39
      樊振東球隊三天內三位實力隊友接連宣布離隊,冠軍陣容解體。

      樊振東球隊三天內三位實力隊友接連宣布離隊,冠軍陣容解體。

      章民解說體育
      2026-02-06 04:33:53
      正式復出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰萊巴金娜

      正式復出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰萊巴金娜

      大秦壁虎白話體育
      2026-02-06 20:51:54
      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當不成了?

      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當不成了?

      燦若銀爛
      2026-02-07 03:20:27
      中央定調,延遲退休實施后,每晚1年退休,養老金能增加6%嗎?

      中央定調,延遲退休實施后,每晚1年退休,養老金能增加6%嗎?

      另子維愛讀史
      2026-02-05 17:45:59
      戲子誤國!離春節不到20天,4位明星相繼塌房,一個比一個荒唐

      戲子誤國!離春節不到20天,4位明星相繼塌房,一個比一個荒唐

      往史過眼云煙
      2026-02-06 16:40:38
      2026-02-07 04:16:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7071文章數 20728關注度
      往期回顧 全部

      科技要聞

      獨角獸版圖巨變:SpaceX奔萬億 中美差在哪

      頭條要聞

      電動車行業"老三"沖刺上市 分股東2億克扣員工社保3億

      頭條要聞

      電動車行業"老三"沖刺上市 分股東2億克扣員工社保3億

      體育要聞

      西甲射手榜第2,身價不到姆巴佩1/40

      娛樂要聞

      微博之夜搶C風波 楊冪工作室9字討說法

      財經要聞

      愛爾眼科董事長旗下7家精神病院騙保

      汽車要聞

      寶馬"本命年"關鍵詞:20款新車與"新世代"耐力賽

      態度原創

      藝術
      家居
      游戲
      房產
      健康

      藝術要聞

      這顏色太美,不看太可惜!

      家居要聞

      現代輕奢 溫馨治愈系

      T2總裁回應GTA6爭議:給他愛新DLC力證老作熱度不減

      房產要聞

      新春三亞置業,看過這個熱盤再說!

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版