<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      自變量聯(lián)合中山大學、MUZUAI發(fā)布發(fā)布 ManipArena,為具身模型統(tǒng)一真機 benchmark

      0
      分享至


      作者 | 楊過

      過去一年,具身智能行業(yè)演示視頻幾乎以月為單位刷新認知:機械臂流暢倒水、雙臂整理桌面、復雜物體分類。從 VLA 到 World Model,技術(shù)路線百花齊放,似乎通用機器人走進家庭與工廠指日可待。

      然而,如果剝離掉精心調(diào)度的演示環(huán)境,將當前最強的具身模型置于同一臺機器人、同一套任務(wù)、同一套評分規(guī)則下,結(jié)果可能遠沒有視頻里那么樂觀。

      在自變量機器人聯(lián)合中山大學、MBZUAI 發(fā)布的真實機器人評測基準 ManipArena 中,研究團隊對 VLA 路線和 World Model 路線的代表模型進行了統(tǒng)一測評。

      結(jié)果顯示,目前榜單中總體表現(xiàn)最好的模型 π0.5-OneModel,在 15 個桌面任務(wù)中的總得分為 640.5/1500,折算下來僅為 42.7%。它在簡單語義任務(wù)中已經(jīng)可以達到 70%—80% 的成功率,但一旦進入復雜物理交互,能力邊界就迅速顯現(xiàn)。

      另一條被寄予厚望的 World Model 路線呈現(xiàn)出不同的能力輪廓。DreamZero 在粗粒度操作任務(wù)中表現(xiàn)突出,例如在抓物入籃任務(wù)中得分達到 97.8/100,并展現(xiàn)出較強的空間泛化能力:即使目標位置發(fā)生偏移,其性能下降也明顯小于多數(shù) VLA 模型。在部分分布外測試中,它對物體外觀變化的魯棒性甚至優(yōu)于當前主流 VLA 系統(tǒng)。

      但這種優(yōu)勢很快在精細操作中失效。在倒水、插線、排列杯子等高精度任務(wù)中,DreamZero 與多數(shù) VLA 模型一樣幾乎全部失分。分段評分顯示,它通常可以完成抓取與接近目標,卻在最后的對齊、插入或持續(xù)接觸階段失敗。更關(guān)鍵的是,DreamZero 當前單步推理耗時達到 7 至 8 秒,遠慢于主流 VLA 模型的亞秒級響應(yīng),這使它很難在真實接觸過程中完成足夠快的閉環(huán)調(diào)整。

      從任務(wù)分布看,失分最明顯、也最能暴露當前模型短板的,主要集中在兩類任務(wù)上:一類是對力量變化高度敏感的精細操作,另一類是具有明確程序約束的邏輯推理任務(wù)。倒水、插線、排列杯子、文具入盒這四項任務(wù),在所有測試模型——包括 VLA 模型和 World Model 模型——中的得分均低于 30/100。

      它們的共同特征在于:任務(wù)并不只是要求“看見目標”,而是要求模型在接觸發(fā)生之后繼續(xù)穩(wěn)定地調(diào)整動作。當前多數(shù)模型仍主要依賴視覺輸入,對電機電流、關(guān)節(jié)速度等能夠反映接觸狀態(tài)與力學變化的信號利用不足,因此一旦進入精細作業(yè)階段,性能就會明顯下滑。

      這意味著,即便是今天最先進的一批具身模型,一旦進入真實接觸環(huán)境,仍然會迅速暴露出控制層短板。視覺理解已經(jīng)足以支撐模型完成“看到目標、靠近目標”的前半程,但從接觸開始,動作穩(wěn)定性、力反饋處理和連續(xù)決策能力仍然明顯不足。

      這也解釋了為什么過去一年里,大多數(shù)公司公開展示的 demo 更偏向抓取放置、分類和簡單排列,而較少主動展示液體操作、柔性物體處理以及更長鏈條的連續(xù)任務(wù)。因為正是這些任務(wù),最容易暴露模型在控制和執(zhí)行層面的真實問題,而這一層能力,至少目前看來,并不能僅靠擴大視覺數(shù)據(jù)規(guī)模來解決。

      今天,許多公司已經(jīng)開始宣稱自己的模型具備進入柔性生產(chǎn)環(huán)境的能力。但這種判斷究竟能否成立,本質(zhì)上并不取決于一段視頻,而取決于真實場景的表現(xiàn)。同時,行業(yè)也需要公允的 benchmark 來衡量模型能力。

      也正因此,中山大學攜手自變量機器人、MBZUAI 等機構(gòu),在 CVPR 2026 的 Embodied AI Workshop 上正式推出了官方競賽:ManipArena。ManipArena希望建立一個類似于 GLUE 之于自然語言處理的具身智能評測基準。它試圖通過統(tǒng)一的“度量衡”,為具身模型提供標準化的真實機器人評估環(huán)境,從而更準確地診斷模型能力邊界,并推動通用機器人操作能力的真實進展。

      現(xiàn)在,ManipArena 向世界上的不同具身模型團隊,發(fā)起了 Challenge 邀約。

      1 具身模型需要“統(tǒng)一尺度”

      自然語言處理領(lǐng)域中,GLUE 讓算法能力有了統(tǒng)一判斷依據(jù),但具身智能至今仍缺少這樣的公共尺度。

      一是因為,過去幾年,機器人算法的大量訓練與驗證工作依賴模擬器展開,RLBench、LIBERO 等仿真平臺構(gòu)成了學術(shù)界的主流評估環(huán)境。但模擬器始終無法完整復刻真實世界中的噪聲、接觸動力學、硬件延遲和機械誤差。

      這意味著,一個在模擬器中成功率很高的模型,進入真實機器人之后往往會迅速失效。尤其是在插入、傾倒、接觸保持等任務(wù)中,仿真與現(xiàn)實之間的誤差會被持續(xù)放大。

      ManipArena 的核心出發(fā)點之一,就是通過統(tǒng)一的真實機器人環(huán)境,為模型提供比模擬器更接近部署條件的性能反饋。

      同時,ManipArena 通過統(tǒng)一硬件平臺(即基于自變量自研的雙臂系統(tǒng)和量子 1 號本體)以及標準化的綠幕實驗環(huán)境,將攝像頭位置、照明條件、任務(wù)布局和執(zhí)行流程全部固定下來,使同一模型在不同時間和不同團隊之間可以獲得可重復結(jié)果。

      在看現(xiàn)在的具身模型 benchmark 時,你還會發(fā)現(xiàn)大家對“能力”的定義仍然過于粗糙。

      在很多傳統(tǒng)任務(wù)中,模型只要記住一條動作軌跡,就有可能完成看似復雜的操作。這使得 benchmark 更像是在測試“軌跡復現(xiàn)”能力,而不是真正的推理和執(zhí)行能力。

      ManipArena 刻意強化了推理導向。它要求模型面對復雜空間約束、多階段雙臂協(xié)作以及顯式語義規(guī)則,不再只是完成“拾取—放置”,而是需要在執(zhí)行過程中持續(xù)判斷。例如,在倒水任務(wù)中,模型必須根據(jù)液體狀態(tài)和動作反饋控制傾斜角度與力度;在按視覺指令卡順序按按鈕的任務(wù)中,模型需要先理解語義邏輯,再決定動作順序。換句話說,這些任務(wù)不再允許模型單純依賴軌跡記憶,而要求它在感知、理解與執(zhí)行之間形成更完整的閉環(huán)。

      2 ManipArena 如何設(shè)計一套有效的真機 benchmark

      推理導向的任務(wù)設(shè)計、多元數(shù)據(jù)與泛化測試

      與大量以“拾取—放置”為核心的傳統(tǒng) benchmark 不同,ManipArena 更強調(diào)模型在執(zhí)行過程中的推理能力,而不僅僅是動作軌跡復現(xiàn)。

      任務(wù)設(shè)計中引入了復雜空間約束、多階段雙臂協(xié)作以及語義理解要求。例如,在倒水任務(wù)中,模型需要根據(jù)液體狀態(tài)持續(xù)調(diào)整動作幅度與力度;在按視覺指令卡順序按按鈕的任務(wù)中,模型必須先解析視覺指令中的語義規(guī)則,再決定動作順序。

      這類任務(wù)的意義在于,它能夠更清晰地區(qū)分模型失敗的來源:究竟是語義理解不足,還是動作控制不足。

      為了避免模型僅在有限任務(wù)配置中形成局部適配,ManipArena 在訓練數(shù)據(jù)構(gòu)建階段同時引入了三個層級的多樣性設(shè)計:物理屬性層面的外觀變化、空間配置層面的布局變化,以及任務(wù)層面的語義組合變化,從而盡可能擴大訓練分布。

      在此基礎(chǔ)上,ManipArena 進一步采用分層分布外(OOD)評估機制,對模型的泛化能力進行系統(tǒng)測試。

      每項任務(wù)設(shè)置 10 次難度遞增的測試:T1 至 T4 為域內(nèi)測試,T5 至 T8 引入視覺偏移,例如物體外觀變化;T9 至 T10 則進入語義 OOD,即模型需要面對未在訓練中出現(xiàn)過的物體組合或任務(wù)配置。

      相比只報告單一成功率,這種設(shè)計更接近真實部署條件下的問題:模型不僅要完成任務(wù),還必須在不斷偏離訓練經(jīng)驗的環(huán)境中保持穩(wěn)定表現(xiàn)。

      基于子任務(wù)的分段評分機制

      傳統(tǒng)機器人評測通常采用成功或失敗的二元結(jié)果,但這種方式無法解釋模型具體在哪一階段出現(xiàn)問題。

      ManipArena 將每個任務(wù)拆解為抓取、對齊、插入、傾倒、放回等有序子階段,并根據(jù)完成進度進行分段評分,每次嘗試按 0 至 10 分記錄。

      這種評分機制的價值在于,它使 benchmark 從“結(jié)果判斷”轉(zhuǎn)向“過程診斷”。研究者可以更明確地看到:一個模型是在目標識別階段偏差較大,還是已經(jīng)完成前半程,卻在精細接觸階段失分。

      多模態(tài)信號引入

      當前多數(shù)具身模型仍主要依賴視覺輸入,但在真實接觸任務(wù)中,僅靠視覺往往不足以完成穩(wěn)定控制。

      為支持對力覺相關(guān)策略的研究,ManipArena 在標準關(guān)節(jié)狀態(tài)之外,額外提供低級電機電流和關(guān)節(jié)速度數(shù)據(jù),其中電機電流可以作為關(guān)節(jié)力矩的代理信號。

      對于倒水、插線等任務(wù)而言,這類信號能夠幫助模型判斷液體重量變化或接觸是否發(fā)生,從而提高對真實接觸階段的控制能力。

      虛實同步與服務(wù)器端推理架構(gòu)

      除真實執(zhí)行外,ManipArena 還利用 3D 高斯點染構(gòu)建了與現(xiàn)實環(huán)境視覺和幾何高度一致的數(shù)字孿生環(huán)境。通過將真實執(zhí)行軌跡在模擬環(huán)境中回放,研究者可以獲得配對的虛實觀測序列,用于分析現(xiàn)實誤差來自視覺偏差、動力學差異還是控制延遲。

      在評測機制上,ManipArena 采用服務(wù)器端推理架構(gòu)。參與團隊無需購買硬件,只需提供一個接收觀測數(shù)據(jù)并返回動作指令的 HTTP 接口,由平臺統(tǒng)一完成機器人控制和數(shù)據(jù)采集。

      這種方式既降低了真實機器人 benchmark 的參與門檻,也避免模型權(quán)重和代碼的直接暴露。同時,平臺要求參賽者提交單一模型處理全部任務(wù),以防止針對單一任務(wù)進行過度優(yōu)化。

      3 Call for Challenge:加入真實世界的檢驗

      過去一年,具身智能行業(yè)最容易制造樂觀情緒的,正是那些被剪輯得極其流暢的演示視頻。但對一個真正面向現(xiàn)實部署的系統(tǒng)來說,最重要的從來不是某一次最佳表現(xiàn),而是在一組標準化任務(wù)中能否穩(wěn)定地完成大多數(shù)操作。

      ManipArena 提醒行業(yè)的是,視覺理解的確已經(jīng)取得了明顯進步,但真實接觸、力控反饋和連續(xù)推理,仍然是通用機器人能力中最薄弱、也最難被視頻充分呈現(xiàn)的一層。具身智能的下一階段競爭,可能不會再停留在論文里的仿真分數(shù)和 demo 里的高光時刻,而會越來越多地轉(zhuǎn)向真實場景中的任務(wù)完成率、泛化穩(wěn)定性,以及失敗時是否具備可診斷性。

      從這個意義上說,ManipArena 的價值不只是推出一個榜單,而是在嘗試為開發(fā)者提供一套診斷工具,為應(yīng)用方提供一把更可靠的選型尺子。對整個具身智能行業(yè)而言,真正的競爭,或許才剛剛從 demo 進入真實世界。

      目前,ManipArena 的評測體系也開始向外部研究團隊開放。

      目前競賽已進入報名與數(shù)據(jù)開放階段,參賽者可通過官方平臺 https://maniparena.x2robot.com (或者點擊“閱讀原文”)注冊并獲取訓練數(shù)據(jù),訓練統(tǒng)一模型后提交評測接口參與比賽。

      在ManipArena這座具身模型的斗獸場里,所有模型將在同一套真實環(huán)境與規(guī)則之下接受檢驗,能力的長板與短板都將得到直接現(xiàn)象。

      感興趣的團隊,歡迎進入這一 Arena,在統(tǒng)一尺度下驗證自己的系統(tǒng)表現(xiàn)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      賴清德宣布將重啟核電,王鴻薇痛批:民進黨應(yīng)為錯誤能源政策道歉

      賴清德宣布將重啟核電,王鴻薇痛批:民進黨應(yīng)為錯誤能源政策道歉

      海峽導報社
      2026-03-21 15:57:13
      后母與17歲繼子偷嘗禁果!相當有 c 度!

      后母與17歲繼子偷嘗禁果!相當有 c 度!

      電影分享會
      2026-03-21 11:14:18
      阿爾特塔下達死命令:決賽面對曼城,必須主動“掠奪”獎杯

      阿爾特塔下達死命令:決賽面對曼城,必須主動“掠奪”獎杯

      樂道足球
      2026-03-21 09:29:55
      新加坡媒體:中國外交發(fā)生變化,放棄了和平解決中美問題的想法

      新加坡媒體:中國外交發(fā)生變化,放棄了和平解決中美問題的想法

      李子櫥
      2026-03-18 14:10:37
      女子談釋永信,她們姐妹住少林寺3天,一個個都搶著要往他房間跑

      女子談釋永信,她們姐妹住少林寺3天,一個個都搶著要往他房間跑

      皮蛋兒電影
      2026-03-21 19:50:52
      韓國加入七國聯(lián)合聲明,譴責伊朗封鎖霍爾木茲海峽

      韓國加入七國聯(lián)合聲明,譴責伊朗封鎖霍爾木茲海峽

      界面新聞
      2026-03-20 23:21:55
      長春路虎別車案三大疑團待解:誰在施壓?誰在敲門?誰在包庇?

      長春路虎別車案三大疑團待解:誰在施壓?誰在敲門?誰在包庇?

      聽心堂
      2026-03-20 10:43:20
      俄軍七線突擊被打崩:500人機械化猛攻變成“送人頭

      俄軍七線突擊被打崩:500人機械化猛攻變成“送人頭

      桂系007
      2026-03-21 20:58:36
      泰山對云南半場總結(jié):不敢換人的教練加迷糊的球員,導致失誤連連

      泰山對云南半場總結(jié):不敢換人的教練加迷糊的球員,導致失誤連連

      新新自圓其說說體育
      2026-03-21 21:04:27
      伊朗正對霍爾木茲海峽采取“重大行動”,波斯灣內(nèi)還有近2900艘船舶

      伊朗正對霍爾木茲海峽采取“重大行動”,波斯灣內(nèi)還有近2900艘船舶

      界面新聞
      2026-03-21 20:39:02
      別再說哈登老了!加盟騎士16場比賽,數(shù)據(jù)告訴你他到底有多強?

      別再說哈登老了!加盟騎士16場比賽,數(shù)據(jù)告訴你他到底有多強?

      田先生籃球
      2026-03-21 11:21:32
      何超瓊不愧是豐腴美人,穿白色低胸連衣裙凹凸有致,老了更撩人!

      何超瓊不愧是豐腴美人,穿白色低胸連衣裙凹凸有致,老了更撩人!

      蓓小西
      2026-03-17 08:39:55
      墨西哥正考慮對中國投資進行“經(jīng)濟安全審查” 商務(wù)部回應(yīng)

      墨西哥正考慮對中國投資進行“經(jīng)濟安全審查” 商務(wù)部回應(yīng)

      新京報
      2026-03-20 19:24:09
      當年楊虎城已被李宗仁釋放,為何沒有逃脫?只因這個人背后捅刀子

      當年楊虎城已被李宗仁釋放,為何沒有逃脫?只因這個人背后捅刀子

      老范談史
      2026-03-16 17:56:19
      日本部署導彈瞄準中國沿海,不到24小時,中國取消所有中日航班

      日本部署導彈瞄準中國沿海,不到24小時,中國取消所有中日航班

      戰(zhàn)旗紅
      2026-03-17 12:18:55
      劉燁的基因太強大了,兒子太像他了,諾一是中法混血兒,很帥

      劉燁的基因太強大了,兒子太像他了,諾一是中法混血兒,很帥

      喜歡歷史的阿繁
      2026-03-21 14:29:01
      李漢俊被捕即遭處決,妻子攜三子深山避難二十年,子女皆成棟梁。

      李漢俊被捕即遭處決,妻子攜三子深山避難二十年,子女皆成棟梁。

      嘮叨說歷史
      2026-03-17 10:31:04
      沃爾沃突然官宣:15.98萬起,新車正式上市

      沃爾沃突然官宣:15.98萬起,新車正式上市

      高科技愛好者
      2026-03-20 23:09:47
      硬漢!方鏡淇手指錯位經(jīng)包扎后復位,復位后連做關(guān)鍵撲救

      硬漢!方鏡淇手指錯位經(jīng)包扎后復位,復位后連做關(guān)鍵撲救

      懂球帝
      2026-03-21 20:10:08
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      2026-03-21 21:48:49
      InfoQ incentive-icons
      InfoQ
      有內(nèi)容的技術(shù)社區(qū)媒體
      12188文章數(shù) 51814關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      軍事專家推演美軍奪取哈爾克島的三種可能:步步驚心

      頭條要聞

      軍事專家推演美軍奪取哈爾克島的三種可能:步步驚心

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩?qū)幗K于涼了?出軌風波影響惡劣

      財經(jīng)要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態(tài)度原創(chuàng)

      本地
      親子
      時尚
      數(shù)碼
      公開課

      本地新聞

      春色滿城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

      親子要聞

      懷二胎啦!家人們,猜一猜吧

      這個趨勢好適合亞洲人!不用花大錢也能跟

      數(shù)碼要聞

      存儲芯片短缺困境難以緩解,專家稱電腦手機或漲超20%

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版