<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      RoboChallenge發(fā)布年度報(bào)告:評(píng)測(cè)標(biāo)尺夠權(quán)威嗎?

      0
      分享至


      具身模型在榜單里卷起來了。

      作者丨劉欣

      編輯丨馬曉寧 高景輝

      當(dāng)下的具身智能行業(yè)可謂陷入了“Demo”的怪圈,大家驚呼于視頻內(nèi)機(jī)器人的流暢操作,但視頻中的機(jī)器人卻又在現(xiàn)實(shí)世界中頻繁失誤。

      這種虛假繁榮的背后,其實(shí)是行業(yè)長期缺乏真實(shí)場(chǎng)景驗(yàn)證、評(píng)測(cè)標(biāo)準(zhǔn)模糊等問題。機(jī)器人從實(shí)驗(yàn)室走到現(xiàn)實(shí)世界,始終被仿真到現(xiàn)實(shí)世界等難題所制約。

      模擬器的評(píng)估無法完美復(fù)現(xiàn)真實(shí)世界中的物理擾動(dòng)、環(huán)境變異等關(guān)鍵因素,在此背景下,2025年10月原力靈機(jī)Dexmal與Hugging Face聯(lián)合推出了全球首個(gè)具身智能大規(guī)模評(píng)測(cè)平臺(tái)——RoboChallenge。

      緊隨其后,原力靈機(jī)又與Hugging Face聯(lián)合智源研究院、智元機(jī)器人、Qwen、星海圖、自變量、清華大學(xué)、西安交通大學(xué)及GOSIM等機(jī)構(gòu),于2025年11月20日正式成立RoboChallenge組委會(huì)。

      2026年1月11日,RoboChallenge榜單更新,前三名依次為Spirit v1.5、pi0.5、WALL-OSS。其中,Spirit v1.5是出自中國千尋智能自研的模型,而WALL-OSS則是自變量機(jī)器人的全自研開源操作大模型。

      這個(gè)榜單釋放出了一個(gè)重磅信號(hào):中國自主研發(fā)的具身智能模型,已具備與國外頂級(jí)模型同臺(tái)對(duì)打的實(shí)力,甚至還打贏了。

      不過,作為推出還沒多久的新興評(píng)測(cè)平臺(tái),尚處發(fā)展完善階段,網(wǎng)絡(luò)上的態(tài)度也充滿爭(zhēng)議,所以AI科技評(píng)論打算從技術(shù)和核心設(shè)計(jì)的角度,對(duì)RoboChallenge進(jìn)行深度拆解與解讀。

      01
      RoboChallenge系統(tǒng)核心設(shè)計(jì)

      在具身智能領(lǐng)域,真機(jī)評(píng)測(cè)的標(biāo)準(zhǔn)化與公平性?期以來一直是制約技術(shù)橫向?qū)Ρ鹊年P(guān)鍵瓶頸。而缺乏統(tǒng)一的評(píng)測(cè)標(biāo)尺,更讓不同團(tuán)隊(duì)的技術(shù)成果難以形成有效對(duì)比,嚴(yán)重影響了行業(yè)迭代效率。

      但提供機(jī)器人在線服務(wù)并非表面看上去那么簡(jiǎn)單,首要問題是如何向提交算法的用戶開放機(jī)器人訪問權(quán)限。

      原力靈機(jī)最開始考慮了三種主要的模式,分別是模型級(jí)提交、系統(tǒng)級(jí)提交、模型API調(diào)用,但這三種模式最后都沒有采用,原因在于:

      ? 計(jì)算兼容性:提交模型并使其在其他環(huán)境中正確運(yùn)行極為復(fù)雜。軟件棧和硬件配置難以匹配,除非提供完全訪問權(quán)限,否則幾乎無法調(diào)試。

      ? 靈活性:原力靈機(jī)不希望將用戶限制在以往系統(tǒng)中默認(rèn)的 “觀測(cè) - 動(dòng)作” 映射所隱含的 “暫停 - 推理” 控制模式中。

      ? 可訪問性:并非所有人都擁有公網(wǎng)IP,尤其是在網(wǎng)絡(luò)地址轉(zhuǎn)換(NAT)主導(dǎo)的現(xiàn)代互聯(lián)網(wǎng)環(huán)境中。

      于是,原力靈機(jī)采用 “遠(yuǎn)程機(jī)器人” 交互范式,摒棄傳統(tǒng)模型提交、Docker鏡像部署等方案,讓用戶無需上傳模型文件或推理代碼,通過標(biāo)準(zhǔn)化低層級(jí)API即可實(shí)現(xiàn)全異步交互。

      不同于仿真測(cè)試,RoboChallenge擁有UR5、Franka、ARX5、ALOHA等主流機(jī)型在內(nèi)的20臺(tái)真機(jī)測(cè)試集群,對(duì)這些機(jī)器人的選擇上,還有幾條準(zhǔn)則:耐用性、普及性、安全性以及性能良好。

      所有機(jī)器人均搭載Intel RealSense深度相機(jī),包含俯視工作區(qū)域的主相機(jī)、機(jī)械臂末端的腕部相機(jī)及單臂設(shè)備專用的側(cè)面相機(jī),為VLA模型提供多視角觀測(cè)數(shù)據(jù)。

      前期的準(zhǔn)備完善后,RoboChallenge又發(fā)現(xiàn)測(cè)試中的各種因素會(huì)導(dǎo)致最后的結(jié)果巨大,難以成為客觀、公正的測(cè)評(píng)體系。因此,需要一套規(guī)范的方法來控制測(cè)試中的各種因素。

      首先,對(duì)于測(cè)試人員導(dǎo)致的差異,RoboChallenge對(duì)有經(jīng)驗(yàn)、無經(jīng)驗(yàn)、適應(yīng)性的測(cè)試人員進(jìn)行了測(cè)試,發(fā)現(xiàn)了一種 “最佳區(qū)域效應(yīng)”(Sweet-spot Effect),如下圖所示,存在特定的物體位置組合,在這些位置上任務(wù)更有可能成功。根據(jù)這些經(jīng)驗(yàn),RoboChallenge設(shè)計(jì)出了更完善的評(píng)估協(xié)議,特別是更穩(wěn)定的物體重置方法。


      RoboChallenge還對(duì)環(huán)境中的各種因素進(jìn)行了研究,比如光照條件,但進(jìn)行的概念驗(yàn)證實(shí)驗(yàn)發(fā)現(xiàn),背景或環(huán)境的變化不會(huì)對(duì)測(cè)試結(jié)果產(chǎn)生太大影響。


      02
      Table30基準(zhǔn)測(cè)試集

      Table30基準(zhǔn)測(cè)試集包含30項(xiàng)圍繞固定工作臺(tái)執(zhí)行的任務(wù),涵蓋家庭、廚房、辦公、校園等多元場(chǎng)景,任務(wù)類型包括物體整理、機(jī)械操作、分類分揀、軟體處理等,全面覆蓋了VLA模型的核心技術(shù)挑戰(zhàn)。

      這些任務(wù)衡量了通用機(jī)器人控制算法應(yīng)具備的多種能力,乍看下來很簡(jiǎn)單,但即使是最先進(jìn)的基礎(chǔ)模型也無法達(dá)到較高的總體成功率。



      任務(wù)的選擇也不是毫無根據(jù)的,主要遵循難度覆蓋全面、算法挑戰(zhàn)覆蓋全面、貼近現(xiàn)實(shí)生活以及簡(jiǎn)潔性這四個(gè)原則。



      RoboChallenge認(rèn)為,基準(zhǔn)測(cè)試集是衡量通用機(jī)器人技術(shù)方法的必要測(cè)試。并且,隨著評(píng)估數(shù)據(jù)的積累可以發(fā)現(xiàn)更多趨勢(shì):

      首先是,模型的單任務(wù)與多任務(wù)模型的能力差距顯著。

      RoboChallenge的評(píng)測(cè)區(qū)分了單任務(wù)模型和多任務(wù)模型,單任務(wù)模型是對(duì)特定任務(wù)進(jìn)行優(yōu)化,多任務(wù)模型能夠使適配不同類型的任務(wù),泛化能力較好。

      對(duì)比同一基座模型在單任務(wù)與多任務(wù)設(shè)定下的表現(xiàn),pi0.5的多任務(wù)模型成功率相較于單任務(wù)模型下滑了25%。這一數(shù)據(jù)變相印證了模型需要提高多任務(wù)泛化能力。


      至于如何平衡“單項(xiàng)精準(zhǔn)度”與“多任務(wù)適配性”,這或許將會(huì)成為通往通用具身智能的關(guān)鍵課題。

      其次,任務(wù)難度梯隊(duì)清晰,部分任務(wù)成行業(yè)共性難題

      Table30的每一個(gè)任務(wù)都是賦予了機(jī)型、構(gòu)型、能力類型這三個(gè)維度,共15個(gè)標(biāo)簽。


      通過對(duì)頭部模型成功率的分布,可以將30個(gè)標(biāo)準(zhǔn)化任務(wù)分為三個(gè)不同能力梯隊(duì)。

      第一梯隊(duì)是hello world級(jí)任務(wù),這類人任務(wù)對(duì)于頭部模型而言沒有任何難度。第二梯隊(duì)是簡(jiǎn)單的任務(wù),對(duì)于頭部模型比較友好,難度較低。而第三梯隊(duì)則是特定模型的特長,此類任務(wù)呈現(xiàn)極端的兩級(jí)分化。

      更值得關(guān)注的是,有部分任務(wù)呈現(xiàn)“零突破”的困境——所有參測(cè)模型成功率均為0%,典型案例包括“做素三明治”“給盆栽澆水”等任務(wù):


      復(fù)盤任務(wù)后發(fā)現(xiàn),“做素三明治”任務(wù)的核心難點(diǎn)在于時(shí)序性,做三明治需要按照嚴(yán)格的順序來做,模型往往在第一步就容易出現(xiàn)數(shù)量錯(cuò)誤和失敗,所以容錯(cuò)率極低,一步錯(cuò)步步錯(cuò)。

      “給盆栽澆水”任務(wù)則暴露了模型的時(shí)序依賴缺失問題,長程任務(wù)要求模型維持對(duì)歷史狀態(tài)的記憶。一旦中間階段出現(xiàn)狀態(tài)丟失,模型就會(huì)陷入邏輯混亂,產(chǎn)生類似“幻覺”的隨機(jī)動(dòng)作。


      此外,整理書籍、疊抹布、排列紙杯等任務(wù),也成為參測(cè)模型的高頻失敗場(chǎng)景。

      除了Table30測(cè)試集中的30項(xiàng)任務(wù),RoboChallenge指出,當(dāng)前具身智能領(lǐng)域典型的“卡脖子”任務(wù)可以從靈巧性、泛化性、智能以及性能這四個(gè)維度梳理。靈巧性是指輸出不同的動(dòng)作、駕馭不同的身體;泛化性是指即使測(cè)評(píng)對(duì)象不同也能成功;智能是面對(duì)沒做過的任務(wù)也能嘗試做成功;性能是指機(jī)器人的效率。

      總的來說,這些失敗案例共同指向一個(gè)核心結(jié)論:當(dāng)前VLA模型仍未突破“感知-理解-決策-執(zhí)行”的全閉環(huán)協(xié)同難題,距離真實(shí)場(chǎng)景的規(guī)模化應(yīng)用仍有較大差距。

      可見,當(dāng)下的VLA參測(cè)模型仍然存在一些本質(zhì)上難以解決的因素,現(xiàn)有模型還有巨大的提升空間。

      03
      落地效果良好

      RoboChallenge的報(bào)告中指出,平臺(tái)用戶注冊(cè)數(shù)與評(píng)測(cè)提交量在過去三個(gè)月呈指數(shù)級(jí)增長。并且活躍用戶區(qū)域也不僅限于中國開發(fā)者,美國、新加坡等地的開發(fā)者正在逐漸涌入。


      平臺(tái)累計(jì)執(zhí)行的真機(jī)測(cè)試總數(shù)甚至超過了4萬次,單日真機(jī)測(cè)試峰值達(dá)到834次,Table30測(cè)試集在Hugging Face平臺(tái)上的累計(jì)下載量已達(dá)17k次。

      從上述前期的準(zhǔn)備和后期的效果上來看,RoboChallenge的確精準(zhǔn)衡量了VLA模型在真實(shí)場(chǎng)景中的綜合能力,為市場(chǎng)提供了一個(gè)較為客觀的評(píng)測(cè)標(biāo)尺。

      同時(shí),也讓業(yè)內(nèi)人士發(fā)現(xiàn),VLA模型仍在攻克人類的本能級(jí)操作,參測(cè)模型雖具備較強(qiáng)的指令語義理解能力,但在精細(xì)操作任務(wù)中成功率不高。

      而這些尚未解決的技術(shù)難題,也正是模型未來的核心發(fā)展方向。而當(dāng)當(dāng)前的技術(shù)難題被模型完美解決后,平臺(tái)未來將設(shè)計(jì)出更有區(qū)分度的Benchmark,持續(xù)引領(lǐng)模型技術(shù)迭代。

      基于良好的發(fā)展基礎(chǔ),RoboChallenge進(jìn)一步釋放開放協(xié)作的信號(hào),明確表示希望能吸引更多研究機(jī)構(gòu)、科技企業(yè)、初創(chuàng)團(tuán)隊(duì)及高校力量加入。

      RoboChallenge的早期發(fā)起人之一范浩強(qiáng)在回憶建立RoboChallenge的心路歷程時(shí),也迫切地表示想弄出下一個(gè)Benchmark,涵蓋更多更難的任務(wù),更長程的、更廣泛的任務(wù),而打造有價(jià)值的真實(shí)任務(wù)、向真實(shí)場(chǎng)景靠攏,也是RoboChallenge 2026年的核心發(fā)展方向。他還真誠地向全社會(huì)喊話,希望大家加入他們的社區(qū)一起討論、一起分享。

      未來,隨著更多新鮮任務(wù)場(chǎng)景的注入、創(chuàng)新評(píng)估方法的融合及基準(zhǔn)測(cè)試集的持續(xù)迭代,或許能揭示具身智能模型更多的特性和不足,推動(dòng)具身智能模型向更通用、更實(shí)用的方向穩(wěn)步發(fā)展。

      未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

      公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      王曼昱看到估計(jì)會(huì)難過!張雪峰曾言:我早晚請(qǐng)你做我們公司代言人

      王曼昱看到估計(jì)會(huì)難過!張雪峰曾言:我早晚請(qǐng)你做我們公司代言人

      觀察鑒娛
      2026-03-27 09:35:55
      69集諜戰(zhàn)劇來襲,才播3集,收視全國第一,全員高顏值演技派

      69集諜戰(zhàn)劇來襲,才播3集,收視全國第一,全員高顏值演技派

      樂楓電影
      2026-03-27 14:22:36
      勢(shì)不可擋!薩巴倫卡兩盤橫掃萊巴金娜,陽光雙賽背靠背晉級(jí)決賽

      勢(shì)不可擋!薩巴倫卡兩盤橫掃萊巴金娜,陽光雙賽背靠背晉級(jí)決賽

      全景體育V
      2026-03-27 10:03:58
      男性長期禁欲,精子只產(chǎn)不排,最后會(huì)怎樣?醫(yī)生:或有4大后果

      男性長期禁欲,精子只產(chǎn)不排,最后會(huì)怎樣?醫(yī)生:或有4大后果

      健康之光
      2026-03-06 13:11:59
      女性私處都有哪些形狀?關(guān)于女性生理結(jié)構(gòu)的這些秘密,你知道嗎?

      女性私處都有哪些形狀?關(guān)于女性生理結(jié)構(gòu)的這些秘密,你知道嗎?

      熊貓醫(yī)學(xué)社
      2026-03-27 14:07:44
      晚年大忌,別把這三個(gè)人當(dāng)親人,來往越多,晚年越凄涼

      晚年大忌,別把這三個(gè)人當(dāng)親人,來往越多,晚年越凄涼

      阿凱銷售場(chǎng)
      2026-03-06 01:00:19
      清明將至,俗話說:“墳頭三不動(dòng),一動(dòng)窮三代”今年應(yīng)如何祭祖?

      清明將至,俗話說:“墳頭三不動(dòng),一動(dòng)窮三代”今年應(yīng)如何祭祖?

      磊子講史
      2026-03-20 16:07:07
      3月全國充電樁服務(wù)費(fèi)集體暴漲:最高漲幅300%?

      3月全國充電樁服務(wù)費(fèi)集體暴漲:最高漲幅300%?

      侃故事的阿慶
      2026-03-26 13:54:23
      救護(hù)車側(cè)翻5人被困!過路小伙踹破車窗 救完人才發(fā)現(xiàn)手上都是血

      救護(hù)車側(cè)翻5人被困!過路小伙踹破車窗 救完人才發(fā)現(xiàn)手上都是血

      閃電新聞
      2026-03-26 16:31:53
      丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

      丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

      星星沒有你亮
      2026-03-22 08:48:35
      中國股市:如果接下來迎來牛市,堅(jiān)持只買一種股票,賺到懷疑人生

      中國股市:如果接下來迎來牛市,堅(jiān)持只買一種股票,賺到懷疑人生

      股經(jīng)縱橫談
      2026-03-27 11:24:21
      伊朗,曾經(jīng)是中東最發(fā)達(dá)的國家,如今為何淪落成“爛泥扶不上墻”

      伊朗,曾經(jīng)是中東最發(fā)達(dá)的國家,如今為何淪落成“爛泥扶不上墻”

      文史達(dá)觀
      2025-06-24 06:45:04
      泰國征兵海報(bào)用《逐玉》張凌赫畫面打廣告,“想像他一樣帥氣騎馬嗎?來當(dāng)騎兵”

      泰國征兵海報(bào)用《逐玉》張凌赫畫面打廣告,“想像他一樣帥氣騎馬嗎?來當(dāng)騎兵”

      都市快報(bào)橙柿互動(dòng)
      2026-03-27 16:52:39
      焦泊喬申請(qǐng)暫時(shí)離隊(duì),球迷:實(shí)在無法忍受,就跟徐昕學(xué),換支球隊(duì)

      焦泊喬申請(qǐng)暫時(shí)離隊(duì),球迷:實(shí)在無法忍受,就跟徐昕學(xué),換支球隊(duì)

      小樓侃體育
      2026-03-27 16:27:40
      涉嫌嚴(yán)重違紀(jì)違法!江油市交通運(yùn)輸局黨組成員、副局長王毅被查

      涉嫌嚴(yán)重違紀(jì)違法!江油市交通運(yùn)輸局黨組成員、副局長王毅被查

      瀟湘晨報(bào)
      2026-03-27 17:02:49
      美國最擔(dān)心的事發(fā)生了,伊朗亮出中國“底牌”,中國或成最大贏家

      美國最擔(dān)心的事發(fā)生了,伊朗亮出中國“底牌”,中國或成最大贏家

      徐云流浪中國
      2026-03-04 15:30:07
      張雪峰去世僅1天,辦公室內(nèi)景曝光,寫真照被指像遺照,擺設(shè)奇怪

      張雪峰去世僅1天,辦公室內(nèi)景曝光,寫真照被指像遺照,擺設(shè)奇怪

      180視角
      2026-03-26 08:43:01
      59歲黎明演唱會(huì)生圖翻車,頭禿腹凸臉腫,昔日男神被群嘲像酒保

      59歲黎明演唱會(huì)生圖翻車,頭禿腹凸臉腫,昔日男神被群嘲像酒保

      一娛三分地
      2026-03-24 18:14:53
      全世界沒料到,美國動(dòng)作真快,沒踩中東坑,反而一招洗空30萬億債

      全世界沒料到,美國動(dòng)作真快,沒踩中東坑,反而一招洗空30萬億債

      瀲滟晴方DAY
      2026-03-26 22:46:22
      見證歷史,中國讓Open AI絕望了!

      見證歷史,中國讓Open AI絕望了!

      君臨財(cái)富
      2026-03-25 23:36:26
      2026-03-27 19:00:49
      AI科技評(píng)論 incentive-icons
      AI科技評(píng)論
      點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
      7151文章數(shù) 20742關(guān)注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價(jià)

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應(yīng)

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應(yīng)

      體育要聞

      邵佳一:足球就像一場(chǎng)馬拉松

      娛樂要聞

      張雪峰靈堂內(nèi)景曝光,四周擺滿了鮮花

      財(cái)經(jīng)要聞

      我在小吃培訓(xùn)機(jī)構(gòu)學(xué)習(xí)“科技與狠活”

      汽車要聞

      與眾08,金標(biāo)大眾不能輸?shù)囊粦?zhàn)

      態(tài)度原創(chuàng)

      家居
      本地
      親子
      數(shù)碼
      公開課

      家居要聞

      曲線華爾茲 現(xiàn)代簡(jiǎn)約

      本地新聞

      在濰坊待了三天,沒遇到一個(gè)“濰坊人”

      親子要聞

      廣東榕城區(qū)教育局通報(bào)幼兒園老師不當(dāng)對(duì)待幼兒

      數(shù)碼要聞

      華碩ROG幻世神Cronox機(jī)箱開啟預(yù)約:配備9.2"副屏,2399元

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版