![]()
去年冬天,一位斯坦福研究員在實驗室里盯著屏幕,看著自家訓練的機器人把臟杯子放進洗碗機——然后反復開關門三次,就是不肯按開始鍵。問題不是機械故障,而是機器人"看不見":它沒意識到洗碗機里已經塞滿了盤子,再塞杯子會卡住。
這種尷尬每天都在全球數百個具身智能實驗室上演。AI能識別物體、規劃路徑、抓取物品,卻在最簡單的"看情況調整"上栽跟頭。AI2(艾倫人工智能研究所)最新發布的AsgardBench基準測試,把這個問題量化了:當前主流視覺語言模型在動態調整任務計劃上的成功率,最高只有47%。
為什么老測試測不出真本事
具身智能的評測一直有個"作弊漏洞"。傳統基準把感知、導航、操控打包測試,環境又太聽話——杯子永遠放在固定位置,水槽永遠空著,機器人背下地圖就能通關。
這就好比考駕照只考直線加速,不考變道反應。研究者分不清模型是真懂環境,還是靠死記硬背過關。AI2團隊想拆穿這層窗戶紙:如果機器人發現杯子已經干凈了,它會不會換個任務?如果水槽被占用了,它能不能先挪東西?
AsgardBench的設計像一場"突然襲擊"。測試基于AI2-THOR仿真環境,但做了關鍵手腳:機器人開局就站在目標物體旁邊,不用找路;動作精簡到find(查找)、pickup(拾取)、put(放置)、clean(清潔)、toggle_on/off(開關)五種。導航和操控的復雜度被剝離,只剩一件事——根據看到的東西,實時改計劃。
每輪交互,機器人要提交完整任務計劃,但環境只執行第一步。然后給它新畫面和簡單反饋:成,或敗。它得重新看、重新想、重新報下一步。循環往復,直到任務完成或踩到步數上限。
杯子里的咖啡,計劃外的變量
![]()
測試場景全是家務瑣事,但埋了雷。同一道指令"洗杯子",實際狀態可能有四種變體:杯子干凈、杯子臟、杯子有咖啡、水槽被占。機器人得在第一步"find"之后,從畫面里讀出這些差異,再決定是跳過清潔、先倒咖啡、還是清理水槽。
AI2團隊舉了個典型失敗案例。某模型接到"把臟杯子放進洗碗機"的指令,計劃寫得漂亮:find→pickup→put→toggle_on。它找到杯子,拾取成功,放進洗碗機——然后卡住。因為洗碗機里早有盤子,杯子塞不進去。模型沒在執行"put"前重新觀察洗碗機內部,而是按原計劃硬懟。
更隱蔽的失敗是"幻覺式堅持"。有的模型發現杯子已經干凈,卻堅持執行clean動作,因為訓練數據里"杯子+指令=清潔"的關聯太強。這就像服務員明明看見客人杯子里還有水,非要續杯,因為"看到杯子就倒"寫進了肌肉記憶。
測試還設置了"動作歷史"陷阱。機器人能記住自己做過什么,但這份記憶可能變成包袱——它可能基于過時的觀察堅持錯誤計劃,也可能被連續失敗搞懵,在"再試一次"和"換條路"之間搖擺。
47%背后的模型眾生相
AI2測試了多個視覺語言模型,結果形成鮮明對比。表現最好的模型在完整任務鏈上達到47%成功率,最差的不到15%。差距主要來自兩個能力:一是從單幀圖像提取狀態細節(杯子臟不臟、水槽滿不滿),二是把觀察轉化為計劃修正。
小模型往往在第一步就崩。它們能識別"這是個杯子",但讀不出"杯壁有咖啡漬"或"洗碗機門開著"。大模型的問題更微妙:它們能描述畫面,卻把這種描述當終點,而不是決策輸入。一個模型在內部獨白里寫"我看到水槽里有盤子",下一步計劃依然是"把杯子放進水槽"——觀察到了,但沒用起來。
團隊還發現一個反直覺現象:給模型更多"思考時間"(允許更長的推理鏈)不一定更好。某些模型在精簡模式下反應更快、錯誤更少,因為復雜推理容易陷入過度解讀,從畫面里"看出"不存在的問題。
![]()
反饋機制的設計也暴露短板。環境只告訴模型"動作成功/失敗",不解釋為什么。模型得自己猜:是沒對準?被擋住了?還是物體狀態不對?這種"最小反饋"設定貼近真實機器人部署——家用機器人不會配備故障診斷專家跟在后面喊話。
從仿真到廚房:還有幾道坎
AsgardBench目前還是純仿真測試,但AI2團隊的設計選擇明顯指向真實場景。剝離導航和操控,是因為這些有成熟解決方案;聚焦"看-想-改"循環,是因為這是當前最痛的短板。
一位參與項目的研究員在論文附錄里寫道:「我們見過太多演示視頻,機器人流暢完成整套家務,但仔細看會發現環境是預置的,物體位置是標記好的,失敗鏡頭被剪掉了。」AsgardBench想做那個"不剪輯"的考官。
不過仿真與現實的鴻溝仍在。AI2-THOR的圖像渲染再逼真,也沒有真實相機的噪點、運動模糊和光照突變。模型在仿真里練出的"看",遷移到真實機器人眼中有多少失真,還需要實體驗證。
另一個未解問題是"失敗恢復"的深度。當前測試里,計劃修正只涉及下一步動作選擇。但如果機器人連續三步都錯,它是能層層回溯找根源,還是只會原地打轉?這關系到更復雜的長期任務——比如做一頓飯,中間某個環節出錯后,能否重新規劃而非全盤放棄。
AI2把AsgardBench開源了,包括測試環境、任務集和評估腳本。團隊說希望這能成為"計劃適應性"的標準考場,就像ImageNet之于圖像識別。但他們也承認,47%的最高分說明這題還太難,可能需要新的訓練范式,而不是更大規模的舊方法。
那個在洗碗機前開關門三次的斯坦福機器人,后來怎么樣了?項目組沒公開后續。但AsgardBench的 leaderboard 上,新模型的分數每周都在跳動——有人正在教它,下一次開門前先探頭看一眼里面。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.