網易首頁 > 網易號 > 正文申請入駐

鵬城實驗室 X 中大hcp實驗室推出 RADAR : 具身智能評測的新標桿

實驗室來了兩個爆笑蟲子

2026-03-26 18:38:40　來源: AI科技評論

廣東舉報

分享至

面向真實世界的視覺-語言-動作泛化能力評測。

核心亮點

RADAR（Real-world Autonomous Dynamics And Reasoning）是專為具身智能領域設計的全新一代評測基準，系統性地解決了現有評測體系的三大核心缺陷，為 VLA 模型提供真實可靠的泛化能力評估[1]。

Figure 1: 視覺-語言-動作模型架構示意圖

▎為什么需要 RADAR？

? 當前具身智能評測面臨嚴峻的現實鴻溝問題：模型在傳統基準測試中表現優異，但在真實物理環境中卻表現不佳[1]。現有評測體系存在三大系統性缺陷：

? 忽視真實世界動態性：未考慮物體配置變化、機器人初始狀態、光照變化、傳感器噪聲等關鍵因素

? 缺乏空間-物理智能測試：簡化為重復性操作任務，無法探測幾何推理能力

? 評估方法不可擴展：依賴簡單 2D 指標或人工監督，成本高昂且存在偏差

RADAR 的三大核心創新

1. 系統化的物理動態性建模

RADAR 引入四維物理擾動軸，全面模擬真實世界的復雜性：

Table 1: RADAR 物理動態性評測維度

關鍵發現：在傳感器噪聲條件下，主流模型的 3D IoU 性能從 0.261 驟降至 0.068，揭示了嚴重的魯棒性不足[1]。

Figure 2: 不同的擾動條件可視化

2. 分級任務設計與空間理解任務

為全面評估各模型的魯棒性與泛化能力，RADAR構建了包含四種場景復雜度遞增的任務分組的測試集。此外，不同于傳統的簡單抓取任務，RADAR 設計了專門測試空間理解能力的任務集，RADAR要求模型展現：

? 基本的具身操作能力

? 多目標長程任務能力

? 復雜場景下的決策能力

? 空間理解能力

這些任務揭示了當前 VLA 模型在空間智能方面的顯著局限性[1]。

Figure 3: 空間推理任務示例：需要理解物體間的相對位置關系

3. 全自動化評估流程（基于 3D 指標）

RADAR 的評估系統實現了完全自主化，具有以下優勢：

?精確空間視覺：采用雙視覺RGBD攝像頭定位三維空間指標，捕捉真實的空間結構

?零人工干預：全流程語義分割、3D重建自動化，消除人為偏差

?可大規模擴展：輕量化的分割重建模型支持批量測試，成本低廉

?結果可復現：多步驟可重試的標準化流程確保評測一致性

Figure 4: 自主化 3D 評估系統

極簡易用：快速上手指南

▎為什么選擇 RADAR？

1.即插即用：標準化接口設計，與主流 VLA 框架無縫對接

2.文檔完善：詳細的使用教程和示例代碼

3.開箱即用：預配置的評測任務和環境

4.靈活擴展：支持自定義任務和評估指標

▎三步開始使用

Table 2: RADAR 快速啟動流程

代碼示例

簡單使用SDK代碼評測

from src.client import RADARClient

session_id = client.get_worker()

client.begin_eval({"task_id": "single_red"}) #開始評測

status = client.get_status()#獲取場景狀態

action = model(status)#運行模型

client.send_action({"action_type": "test_action", "action_params": {}})#執行動作

result = client.end_evaluation()#結束評測

Figure 5: 遠程部署，在線測試：RADAR 評測流程

震撼發現：揭示模型真實能力

通過對多個主流 VLA 模型的系統性審計，RADAR 發現了令人警醒的結果：

?脆弱性嚴重：在輕度物理擾動下，性能急劇下降

?空間推理不足：模型缺乏真正的幾何理解能力

?泛化能力有限：仿真基準的高分數掩蓋了在真實環境中的失效

?關鍵數據：傳感器噪聲導致 3D IoU 從 0.261 降至 0.068，下降幅度達 74%[1]。

這些發現挑戰了"傳統基準高分 = 強具身智能"的假設，凸顯了 RADAR 作為可靠評測標準的必要性。

RADAR 的獨特價值

▎對研究者

? 揭示模型在真實場景中的真實表現

? 識別具體的弱點和改進方向

? 公平比較不同方法的泛化能力

? 推動研究從"刷榜"轉向"真實魯棒性"

▎對領域發展

? 建立具身智能評測的新標準

? 彌合仿真與真實世界的鴻溝

? 促進可復現、可擴展的研究范式

? 加速具身智能技術的實用化進程

▎加入 RADAR 社區

立即開始

? 論文：arXiv:2602.10980

? 代碼：即將開源（敬請關注）

? 文檔：完整使用指南和 API 文檔

? 支持：活躍的開發者社區

▎適用場景

無論您是在研究：

? 視覺-語言-動作模型（VLA）

? 具身智能代理

? 機器人操作與規劃

? 多模態學習系統

RADAR 都是您不可或缺的評測工具！

▎聯系我們

我們期待與您一起推動具身智能評測標準的進步。歡迎：

? 使用 RADAR 評測您的模型

? 貢獻新的任務和評估指標

? 提供反饋和改進建議

? 參與社區討論和協作

結語

RADAR 不僅是一個評測工具，更是推動具身智能邁向真實世界可靠性的重要一步。通過系統化的動態性建模、專門的空間推理任務和全自動化評估流程，RADAR 為領域提供了前所未有的洞察力。

讓我們一起構建更魯棒、更可靠、更具泛化能力的具身智能系統！

References

[1] Chen, Y., Zhan, Z., Lin, X., Song, Z., Liu, H., Lyu, Q., Zu, Y., Chen, X., Liu, Z., Pu, T., Chen, T., Wang, K., Lin, L., & Wang, G. (2026). RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation. arXiv preprint arXiv:2602.10980. https://arxiv.org/abs/2602.10980

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.