網易首頁 > 網易號 > 正文申請入駐

機器人連碗都洗不好？AI2新基準讓47%模型現了原形

2026-03-27 03:14:24　來源: 硬核玩家2哈

北京舉報

分享至

去年冬天，一位斯坦福研究員在實驗室里盯著屏幕，看著自家訓練的機器人把臟杯子放進洗碗機——然后反復開關門三次，就是不肯按開始鍵。問題不是機械故障，而是機器人"看不見"：它沒意識到洗碗機里已經塞滿了盤子，再塞杯子會卡住。

這種尷尬每天都在全球數百個具身智能實驗室上演。AI能識別物體、規劃路徑、抓取物品，卻在最簡單的"看情況調整"上栽跟頭。AI2（艾倫人工智能研究所）最新發布的AsgardBench基準測試，把這個問題量化了：當前主流視覺語言模型在動態調整任務計劃上的成功率，最高只有47%。

為什么老測試測不出真本事

具身智能的評測一直有個"作弊漏洞"。傳統基準把感知、導航、操控打包測試，環境又太聽話——杯子永遠放在固定位置，水槽永遠空著，機器人背下地圖就能通關。

這就好比考駕照只考直線加速，不考變道反應。研究者分不清模型是真懂環境，還是靠死記硬背過關。AI2團隊想拆穿這層窗戶紙：如果機器人發現杯子已經干凈了，它會不會換個任務？如果水槽被占用了，它能不能先挪東西？

AsgardBench的設計像一場"突然襲擊"。測試基于AI2-THOR仿真環境，但做了關鍵手腳：機器人開局就站在目標物體旁邊，不用找路；動作精簡到find（查找）、pickup（拾取）、put（放置）、clean（清潔）、toggle_on/off（開關）五種。導航和操控的復雜度被剝離，只剩一件事——根據看到的東西，實時改計劃。

每輪交互，機器人要提交完整任務計劃，但環境只執行第一步。然后給它新畫面和簡單反饋：成，或敗。它得重新看、重新想、重新報下一步。循環往復，直到任務完成或踩到步數上限。

杯子里的咖啡，計劃外的變量

測試場景全是家務瑣事，但埋了雷。同一道指令"洗杯子"，實際狀態可能有四種變體：杯子干凈、杯子臟、杯子有咖啡、水槽被占。機器人得在第一步"find"之后，從畫面里讀出這些差異，再決定是跳過清潔、先倒咖啡、還是清理水槽。

AI2團隊舉了個典型失敗案例。某模型接到"把臟杯子放進洗碗機"的指令，計劃寫得漂亮：find→pickup→put→toggle_on。它找到杯子，拾取成功，放進洗碗機——然后卡住。因為洗碗機里早有盤子，杯子塞不進去。模型沒在執行"put"前重新觀察洗碗機內部，而是按原計劃硬懟。

更隱蔽的失敗是"幻覺式堅持"。有的模型發現杯子已經干凈，卻堅持執行clean動作，因為訓練數據里"杯子+指令=清潔"的關聯太強。這就像服務員明明看見客人杯子里還有水，非要續杯，因為"看到杯子就倒"寫進了肌肉記憶。

測試還設置了"動作歷史"陷阱。機器人能記住自己做過什么，但這份記憶可能變成包袱——它可能基于過時的觀察堅持錯誤計劃，也可能被連續失敗搞懵，在"再試一次"和"換條路"之間搖擺。

47%背后的模型眾生相

AI2測試了多個視覺語言模型，結果形成鮮明對比。表現最好的模型在完整任務鏈上達到47%成功率，最差的不到15%。差距主要來自兩個能力：一是從單幀圖像提取狀態細節（杯子臟不臟、水槽滿不滿），二是把觀察轉化為計劃修正。

小模型往往在第一步就崩。它們能識別"這是個杯子"，但讀不出"杯壁有咖啡漬"或"洗碗機門開著"。大模型的問題更微妙：它們能描述畫面，卻把這種描述當終點，而不是決策輸入。一個模型在內部獨白里寫"我看到水槽里有盤子"，下一步計劃依然是"把杯子放進水槽"——觀察到了，但沒用起來。

團隊還發現一個反直覺現象：給模型更多"思考時間"（允許更長的推理鏈）不一定更好。某些模型在精簡模式下反應更快、錯誤更少，因為復雜推理容易陷入過度解讀，從畫面里"看出"不存在的問題。

反饋機制的設計也暴露短板。環境只告訴模型"動作成功/失敗"，不解釋為什么。模型得自己猜：是沒對準？被擋住了？還是物體狀態不對？這種"最小反饋"設定貼近真實機器人部署——家用機器人不會配備故障診斷專家跟在后面喊話。

從仿真到廚房：還有幾道坎

AsgardBench目前還是純仿真測試，但AI2團隊的設計選擇明顯指向真實場景。剝離導航和操控，是因為這些有成熟解決方案；聚焦"看-想-改"循環，是因為這是當前最痛的短板。

一位參與項目的研究員在論文附錄里寫道：「我們見過太多演示視頻，機器人流暢完成整套家務，但仔細看會發現環境是預置的，物體位置是標記好的，失敗鏡頭被剪掉了。」AsgardBench想做那個"不剪輯"的考官。

不過仿真與現實的鴻溝仍在。AI2-THOR的圖像渲染再逼真，也沒有真實相機的噪點、運動模糊和光照突變。模型在仿真里練出的"看"，遷移到真實機器人眼中有多少失真，還需要實體驗證。

另一個未解問題是"失敗恢復"的深度。當前測試里，計劃修正只涉及下一步動作選擇。但如果機器人連續三步都錯，它是能層層回溯找根源，還是只會原地打轉？這關系到更復雜的長期任務——比如做一頓飯，中間某個環節出錯后，能否重新規劃而非全盤放棄。

AI2把AsgardBench開源了，包括測試環境、任務集和評估腳本。團隊說希望這能成為"計劃適應性"的標準考場，就像ImageNet之于圖像識別。但他們也承認，47%的最高分說明這題還太難，可能需要新的訓練范式，而不是更大規模的舊方法。

那個在洗碗機前開關門三次的斯坦福機器人，后來怎么樣了？項目組沒公開后續。但AsgardBench的 leaderboard 上，新模型的分數每周都在跳動——有人正在教它，下一次開門前先探頭看一眼里面。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.