![]()
面向真實世界的視覺-語言-動作泛化能力評測。
01
核心亮點
RADAR(Real-world Autonomous Dynamics And Reasoning)是專為具身智能領域設計的全新一代評測基準,系統性地解決了現有評測體系的三大核心缺陷,為 VLA 模型提供真實可靠的泛化能力評估[1]。
![]()
Figure 1: 視覺-語言-動作模型架構示意圖
▎為什么需要 RADAR?
? 當前具身智能評測面臨嚴峻的現實鴻溝問題:模型在傳統基準測試中表現優異,但在真實物理環境中卻表現不佳[1]。現有評測體系存在三大系統性缺陷:
? 忽視真實世界動態性:未考慮物體配置變化、機器人初始狀態、光照變化、傳感器噪聲等關鍵因素
? 缺乏空間-物理智能測試:簡化為重復性操作任務,無法探測幾何推理能力
? 評估方法不可擴展:依賴簡單 2D 指標或人工監督,成本高昂且存在偏差
02
RADAR 的三大核心創新
1. 系統化的物理動態性建模
RADAR 引入四維物理擾動軸,全面模擬真實世界的復雜性:
![]()
Table 1: RADAR 物理動態性評測維度
關鍵發現:在傳感器噪聲條件下,主流模型的 3D IoU 性能從 0.261 驟降至 0.068,揭示了嚴重的魯棒性不足[1]。
![]()
Figure 2: 不同的擾動條件可視化
2. 分級任務設計與空間理解任務
為全面評估各模型的魯棒性與泛化能力,RADAR構建了包含四種場景復雜度遞增的任務分組的測試集。此外,不同于傳統的簡單抓取任務,RADAR 設計了專門測試空間理解能力的任務集,RADAR要求模型展現:
? 基本的具身操作能力
? 多目標長程任務能力
? 復雜場景下的決策能力
? 空間理解能力
這些任務揭示了當前 VLA 模型在空間智能方面的顯著局限性[1]。
![]()
Figure 3: 空間推理任務示例:需要理解物體間的相對位置關系
3. 全自動化評估流程(基于 3D 指標)
RADAR 的評估系統實現了完全自主化,具有以下優勢:
?精確空間視覺:采用雙視覺RGBD攝像頭定位三維空間指標,捕捉真實的空間結構
?零人工干預:全流程語義分割、3D重建自動化,消除人為偏差
?可大規模擴展:輕量化的分割重建模型支持批量測試,成本低廉
?結果可復現:多步驟可重試的標準化流程確保評測一致性
![]()
Figure 4: 自主化 3D 評估系統
03
極簡易用:快速上手指南
▎為什么選擇 RADAR?
1.即插即用:標準化接口設計,與主流 VLA 框架無縫對接
2.文檔完善:詳細的使用教程和示例代碼
3.開箱即用:預配置的評測任務和環境
4.靈活擴展:支持自定義任務和評估指標
▎三步開始使用
![]()
Table 2: RADAR 快速啟動流程
代碼示例
簡單使用SDK代碼評測
from src.client import RADARClient
session_id = client.get_worker()
client.begin_eval({"task_id": "single_red"}) #開始評測
status = client.get_status()#獲取場景狀態
action = model(status)#運行模型
client.send_action({"action_type": "test_action", "action_params": {}})#執行動作
result = client.end_evaluation()#結束評測
![]()
Figure 5: 遠程部署,在線測試:RADAR 評測流程
04
震撼發現:揭示模型真實能力
通過對多個主流 VLA 模型的系統性審計,RADAR 發現了令人警醒的結果:
?脆弱性嚴重:在輕度物理擾動下,性能急劇下降
?空間推理不足:模型缺乏真正的幾何理解能力
?泛化能力有限:仿真基準的高分數掩蓋了在真實環境中的失效
?關鍵數據:傳感器噪聲導致 3D IoU 從 0.261 降至 0.068,下降幅度達 74%[1]。
這些發現挑戰了"傳統基準高分 = 強具身智能"的假設,凸顯了 RADAR 作為可靠評測標準的必要性。
05
RADAR 的獨特價值
▎對研究者
? 揭示模型在真實場景中的真實表現
? 識別具體的弱點和改進方向
? 公平比較不同方法的泛化能力
? 推動研究從"刷榜"轉向"真實魯棒性"
▎對領域發展
? 建立具身智能評測的新標準
? 彌合仿真與真實世界的鴻溝
? 促進可復現、可擴展的研究范式
? 加速具身智能技術的實用化進程
▎加入 RADAR 社區
立即開始
? 論文:arXiv:2602.10980
? 代碼:即將開源(敬請關注)
? 文檔:完整使用指南和 API 文檔
? 支持:活躍的開發者社區
▎適用場景
無論您是在研究:
? 視覺-語言-動作模型(VLA)
? 具身智能代理
? 機器人操作與規劃
? 多模態學習系統
RADAR 都是您不可或缺的評測工具!
▎聯系我們
我們期待與您一起推動具身智能評測標準的進步。歡迎:
? 使用 RADAR 評測您的模型
? 貢獻新的任務和評估指標
? 提供反饋和改進建議
? 參與社區討論和協作
06
結語
RADAR 不僅是一個評測工具,更是推動具身智能邁向真實世界可靠性的重要一步。通過系統化的動態性建模、專門的空間推理任務和全自動化評估流程,RADAR 為領域提供了前所未有的洞察力。
讓我們一起構建更魯棒、更可靠、更具泛化能力的具身智能系統!
References
[1] Chen, Y., Zhan, Z., Lin, X., Song, Z., Liu, H., Lyu, Q., Zu, Y., Chen, X., Liu, Z., Pu, T., Chen, T., Wang, K., Lin, L., & Wang, G. (2026). RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation. arXiv preprint arXiv:2602.10980. https://arxiv.org/abs/2602.10980
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.