<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      鵬城實驗室 X 中大hcp實驗室推出 RADAR : 具身智能評測的新標桿

      實驗室來了兩個爆笑蟲子

      0
      分享至


      面向真實世界的視覺-語言-動作泛化能力評測。

      01


      核心亮點

      RADAR(Real-world Autonomous Dynamics And Reasoning)是專為具身智能領域設計的全新一代評測基準,系統性地解決了現有評測體系的三大核心缺陷,為 VLA 模型提供真實可靠的泛化能力評估[1]。


      Figure 1: 視覺-語言-動作模型架構示意圖

      ▎為什么需要 RADAR?

      ? 當前具身智能評測面臨嚴峻的現實鴻溝問題:模型在傳統基準測試中表現優異,但在真實物理環境中卻表現不佳[1]。現有評測體系存在三大系統性缺陷:

      ? 忽視真實世界動態性:未考慮物體配置變化、機器人初始狀態、光照變化、傳感器噪聲等關鍵因素

      ? 缺乏空間-物理智能測試:簡化為重復性操作任務,無法探測幾何推理能力

      ? 評估方法不可擴展:依賴簡單 2D 指標或人工監督,成本高昂且存在偏差

      02


      RADAR 的三大核心創新

      1. 系統化的物理動態性建模

      RADAR 引入四維物理擾動軸,全面模擬真實世界的復雜性:


      Table 1: RADAR 物理動態性評測維度

      關鍵發現:在傳感器噪聲條件下,主流模型的 3D IoU 性能從 0.261 驟降至 0.068,揭示了嚴重的魯棒性不足[1]。


      Figure 2: 不同的擾動條件可視化

      2. 分級任務設計與空間理解任務

      為全面評估各模型的魯棒性與泛化能力,RADAR構建了包含四種場景復雜度遞增的任務分組的測試集。此外,不同于傳統的簡單抓取任務,RADAR 設計了專門測試空間理解能力的任務集,RADAR要求模型展現:

      ? 基本的具身操作能力

      ? 多目標長程任務能力

      ? 復雜場景下的決策能力

      ? 空間理解能力

      這些任務揭示了當前 VLA 模型在空間智能方面的顯著局限性[1]。


      Figure 3: 空間推理任務示例:需要理解物體間的相對位置關系

      3. 全自動化評估流程(基于 3D 指標)

      RADAR 的評估系統實現了完全自主化,具有以下優勢:

      ?精確空間視覺:采用雙視覺RGBD攝像頭定位三維空間指標,捕捉真實的空間結構

      ?零人工干預:全流程語義分割、3D重建自動化,消除人為偏差

      ?可大規模擴展:輕量化的分割重建模型支持批量測試,成本低廉

      ?結果可復現:多步驟可重試的標準化流程確保評測一致性


      Figure 4: 自主化 3D 評估系統

      03


      極簡易用:快速上手指南

      為什么選擇 RADAR?

      1.即插即用:標準化接口設計,與主流 VLA 框架無縫對接

      2.文檔完善:詳細的使用教程和示例代碼

      3.開箱即用:預配置的評測任務和環境

      4.靈活擴展:支持自定義任務和評估指標

      三步開始使用


      Table 2: RADAR 快速啟動流程

      代碼示例

      簡單使用SDK代碼評測

      from src.client import RADARClient

      session_id = client.get_worker()

      client.begin_eval({"task_id": "single_red"}) #開始評測

      status = client.get_status()#獲取場景狀態

      action = model(status)#運行模型

      client.send_action({"action_type": "test_action", "action_params": {}})#執行動作

      result = client.end_evaluation()#結束評測


      Figure 5: 遠程部署,在線測試:RADAR 評測流程

      04


      震撼發現:揭示模型真實能力

      通過對多個主流 VLA 模型的系統性審計,RADAR 發現了令人警醒的結果:

      ?脆弱性嚴重:在輕度物理擾動下,性能急劇下降

      ?空間推理不足:模型缺乏真正的幾何理解能力

      ?泛化能力有限:仿真基準的高分數掩蓋了在真實環境中的失效

      ?關鍵數據:傳感器噪聲導致 3D IoU 從 0.261 降至 0.068,下降幅度達 74%[1]。

      這些發現挑戰了"傳統基準高分 = 強具身智能"的假設,凸顯了 RADAR 作為可靠評測標準的必要性。

      05


      RADAR 的獨特價值

      對研究者

      ? 揭示模型在真實場景中的真實表現

      ? 識別具體的弱點和改進方向

      ? 公平比較不同方法的泛化能力

      ? 推動研究從"刷榜"轉向"真實魯棒性"

      對領域發展

      ? 建立具身智能評測的新標準

      ? 彌合仿真與真實世界的鴻溝

      ? 促進可復現、可擴展的研究范式

      ? 加速具身智能技術的實用化進程

      加入 RADAR 社區

      立即開始

      ? 論文:arXiv:2602.10980

      ? 代碼:即將開源(敬請關注)

      ? 文檔:完整使用指南和 API 文檔

      ? 支持:活躍的開發者社區

      適用場景

      無論您是在研究:

      ? 視覺-語言-動作模型(VLA)

      ? 具身智能代理

      ? 機器人操作與規劃

      ? 多模態學習系統

      RADAR 都是您不可或缺的評測工具!

      聯系我們

      我們期待與您一起推動具身智能評測標準的進步。歡迎:

      ? 使用 RADAR 評測您的模型

      ? 貢獻新的任務和評估指標

      ? 提供反饋和改進建議

      ? 參與社區討論和協作

      06


      結語

      RADAR 不僅是一個評測工具,更是推動具身智能邁向真實世界可靠性的重要一步。通過系統化的動態性建模、專門的空間推理任務和全自動化評估流程,RADAR 為領域提供了前所未有的洞察力。

      讓我們一起構建更魯棒、更可靠、更具泛化能力的具身智能系統!

      References

      [1] Chen, Y., Zhan, Z., Lin, X., Song, Z., Liu, H., Lyu, Q., Zu, Y., Chen, X., Liu, Z., Pu, T., Chen, T., Wang, K., Lin, L., & Wang, G. (2026). RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation. arXiv preprint arXiv:2602.10980. https://arxiv.org/abs/2602.10980

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中國平安高管回應股價:公司估值仍處低位

      中國平安高管回應股價:公司估值仍處低位

      新京報
      2026-03-27 14:18:07
      漸漸失去懸念!西部能進季后賽的大概率是以下8支,勇士基本出局

      漸漸失去懸念!西部能進季后賽的大概率是以下8支,勇士基本出局

      毒舌NBA
      2026-03-27 09:06:26
      雙色球2026033期中出一等獎15注籌集公益金1.43億元

      雙色球2026033期中出一等獎15注籌集公益金1.43億元

      齊魯壹點
      2026-03-27 17:02:16
      最快護士張水華辭職后,靠比賽拿名次、一年廣告費能拿200-400萬

      最快護士張水華辭職后,靠比賽拿名次、一年廣告費能拿200-400萬

      魔都姐姐雜談
      2026-03-24 20:50:19
      楊希國足首秀表現完美,幫助中國隊2比0戰勝庫拉索,贏得認可

      楊希國足首秀表現完美,幫助中國隊2比0戰勝庫拉索,贏得認可

      懂個球
      2026-03-27 17:18:09
      六位省級黨委常委,新職明確

      六位省級黨委常委,新職明確

      上觀新聞
      2026-03-27 11:34:14
      以色列要讓全世界禁聲?斬首俄羅斯記者,普京下令,撞槍口上了

      以色列要讓全世界禁聲?斬首俄羅斯記者,普京下令,撞槍口上了

      林子說事
      2026-03-24 00:50:49
      高市早苗:特朗普說過這個詞?我怎么不記得…

      高市早苗:特朗普說過這個詞?我怎么不記得…

      看看新聞Knews
      2026-03-27 18:05:09
      韓網友提問:在鐵證面前,中國人為什么還不承認漢字起源于韓國?

      韓網友提問:在鐵證面前,中國人為什么還不承認漢字起源于韓國?

      智慧生活筆記
      2026-03-27 12:57:32
      如今三大戰場同時開打,中國一個舉動,卻是讓西方悟了一個道理

      如今三大戰場同時開打,中國一個舉動,卻是讓西方悟了一個道理

      近史談
      2026-03-25 20:26:28
      臺海局勢再次升級!武統、和統都沒希望,我國即將走上第3條路

      臺海局勢再次升級!武統、和統都沒希望,我國即將走上第3條路

      深析古今
      2026-03-23 16:29:45
      木耳不要直接用水泡,相當于吃蟲卵,大廚教你正確做法,太實用了

      木耳不要直接用水泡,相當于吃蟲卵,大廚教你正確做法,太實用了

      妙招酷
      2026-02-19 23:55:20
      京粵大戰在即!趙睿首次以客隊身份回廣東戰舊主 焦泊喬請假離隊

      京粵大戰在即!趙睿首次以客隊身份回廣東戰舊主 焦泊喬請假離隊

      醉臥浮生
      2026-03-27 11:46:34
      中國小電驢海外殺瘋了,油價暴漲,東南亞一車難求,日本摩托看懵

      中國小電驢海外殺瘋了,油價暴漲,東南亞一車難求,日本摩托看懵

      有范又有料
      2026-03-27 16:54:24
      國安主力骨折!4月恐難復出,球隊昔日名將如云,如今已無人可用

      國安主力骨折!4月恐難復出,球隊昔日名將如云,如今已無人可用

      體壇鑒春秋
      2026-03-27 11:35:00
      最佳一陣四個名額名花有主第5個誰屬? 是布朗還是倫納德?

      最佳一陣四個名額名花有主第5個誰屬? 是布朗還是倫納德?

      仰臥撐FTUer
      2026-03-27 09:21:04
      《奔跑吧14》錄制:孟子義的腰比名牌還細,和李昀銳同框避嫌

      《奔跑吧14》錄制:孟子義的腰比名牌還細,和李昀銳同框避嫌

      椰黃娛樂
      2026-03-26 15:45:32
      加拿大宣布對伊朗實施新制裁

      加拿大宣布對伊朗實施新制裁

      每日經濟新聞
      2026-03-27 08:32:12
      玩火必自焚!以色列空襲伊朗化工,卻忘自家致命軟肋已被全球知曉

      玩火必自焚!以色列空襲伊朗化工,卻忘自家致命軟肋已被全球知曉

      創造精彩劇情
      2026-03-27 10:06:53
      老年人的性生活多久一次合理?要戴套嗎?答案顛覆認知

      老年人的性生活多久一次合理?要戴套嗎?答案顛覆認知

      賤議你讀史
      2026-03-06 23:28:50
      2026-03-27 18:52:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7151文章數 20742關注度
      往期回顧 全部

      科技要聞

      楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      頭條要聞

      美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

      體育要聞

      邵佳一:足球就像一場馬拉松

      娛樂要聞

      張雪峰靈堂內景曝光,四周擺滿了鮮花

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      本地
      手機
      數碼
      公開課
      軍事航空

      本地新聞

      在濰坊待了三天,沒遇到一個“濰坊人”

      手機要聞

      消息稱某廠新機測試2K+185Hz顯示屏,預計為榮耀

      數碼要聞

      華碩ROG幻世神Cronox機箱開啟預約:配備9.2"副屏,2399元

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:已組織超100萬人為地面戰斗做準備

      無障礙瀏覽 進入關懷版