<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      機器人連碗都洗不好?AI2新基準讓47%模型現了原形

      0
      分享至


      去年冬天,一位斯坦福研究員在實驗室里盯著屏幕,看著自家訓練的機器人把臟杯子放進洗碗機——然后反復開關門三次,就是不肯按開始鍵。問題不是機械故障,而是機器人"看不見":它沒意識到洗碗機里已經塞滿了盤子,再塞杯子會卡住。

      這種尷尬每天都在全球數百個具身智能實驗室上演。AI能識別物體、規劃路徑、抓取物品,卻在最簡單的"看情況調整"上栽跟頭。AI2(艾倫人工智能研究所)最新發布的AsgardBench基準測試,把這個問題量化了:當前主流視覺語言模型在動態調整任務計劃上的成功率,最高只有47%

      為什么老測試測不出真本事

      具身智能的評測一直有個"作弊漏洞"。傳統基準把感知、導航、操控打包測試,環境又太聽話——杯子永遠放在固定位置,水槽永遠空著,機器人背下地圖就能通關。

      這就好比考駕照只考直線加速,不考變道反應。研究者分不清模型是真懂環境,還是靠死記硬背過關。AI2團隊想拆穿這層窗戶紙:如果機器人發現杯子已經干凈了,它會不會換個任務?如果水槽被占用了,它能不能先挪東西?

      AsgardBench的設計像一場"突然襲擊"。測試基于AI2-THOR仿真環境,但做了關鍵手腳:機器人開局就站在目標物體旁邊,不用找路;動作精簡到find(查找)、pickup(拾取)、put(放置)、clean(清潔)、toggle_on/off(開關)五種。導航和操控的復雜度被剝離,只剩一件事——根據看到的東西,實時改計劃

      每輪交互,機器人要提交完整任務計劃,但環境只執行第一步。然后給它新畫面和簡單反饋:成,或敗。它得重新看、重新想、重新報下一步。循環往復,直到任務完成或踩到步數上限。

      杯子里的咖啡,計劃外的變量


      測試場景全是家務瑣事,但埋了雷。同一道指令"洗杯子",實際狀態可能有四種變體:杯子干凈、杯子臟、杯子有咖啡、水槽被占。機器人得在第一步"find"之后,從畫面里讀出這些差異,再決定是跳過清潔、先倒咖啡、還是清理水槽。

      AI2團隊舉了個典型失敗案例。某模型接到"把臟杯子放進洗碗機"的指令,計劃寫得漂亮:find→pickup→put→toggle_on。它找到杯子,拾取成功,放進洗碗機——然后卡住。因為洗碗機里早有盤子,杯子塞不進去。模型沒在執行"put"前重新觀察洗碗機內部,而是按原計劃硬懟。

      更隱蔽的失敗是"幻覺式堅持"。有的模型發現杯子已經干凈,卻堅持執行clean動作,因為訓練數據里"杯子+指令=清潔"的關聯太強。這就像服務員明明看見客人杯子里還有水,非要續杯,因為"看到杯子就倒"寫進了肌肉記憶。

      測試還設置了"動作歷史"陷阱。機器人能記住自己做過什么,但這份記憶可能變成包袱——它可能基于過時的觀察堅持錯誤計劃,也可能被連續失敗搞懵,在"再試一次"和"換條路"之間搖擺。

      47%背后的模型眾生相

      AI2測試了多個視覺語言模型,結果形成鮮明對比。表現最好的模型在完整任務鏈上達到47%成功率,最差的不到15%。差距主要來自兩個能力:一是從單幀圖像提取狀態細節(杯子臟不臟、水槽滿不滿),二是把觀察轉化為計劃修正。

      小模型往往在第一步就崩。它們能識別"這是個杯子",但讀不出"杯壁有咖啡漬"或"洗碗機門開著"。大模型的問題更微妙:它們能描述畫面,卻把這種描述當終點,而不是決策輸入。一個模型在內部獨白里寫"我看到水槽里有盤子",下一步計劃依然是"把杯子放進水槽"——觀察到了,但沒用起來。

      團隊還發現一個反直覺現象:給模型更多"思考時間"(允許更長的推理鏈)不一定更好。某些模型在精簡模式下反應更快、錯誤更少,因為復雜推理容易陷入過度解讀,從畫面里"看出"不存在的問題。


      反饋機制的設計也暴露短板。環境只告訴模型"動作成功/失敗",不解釋為什么。模型得自己猜:是沒對準?被擋住了?還是物體狀態不對?這種"最小反饋"設定貼近真實機器人部署——家用機器人不會配備故障診斷專家跟在后面喊話。

      從仿真到廚房:還有幾道坎

      AsgardBench目前還是純仿真測試,但AI2團隊的設計選擇明顯指向真實場景。剝離導航和操控,是因為這些有成熟解決方案;聚焦"看-想-改"循環,是因為這是當前最痛的短板。

      一位參與項目的研究員在論文附錄里寫道:「我們見過太多演示視頻,機器人流暢完成整套家務,但仔細看會發現環境是預置的,物體位置是標記好的,失敗鏡頭被剪掉了。」AsgardBench想做那個"不剪輯"的考官。

      不過仿真與現實的鴻溝仍在。AI2-THOR的圖像渲染再逼真,也沒有真實相機的噪點、運動模糊和光照突變。模型在仿真里練出的"看",遷移到真實機器人眼中有多少失真,還需要實體驗證。

      另一個未解問題是"失敗恢復"的深度。當前測試里,計劃修正只涉及下一步動作選擇。但如果機器人連續三步都錯,它是能層層回溯找根源,還是只會原地打轉?這關系到更復雜的長期任務——比如做一頓飯,中間某個環節出錯后,能否重新規劃而非全盤放棄。

      AI2把AsgardBench開源了,包括測試環境、任務集和評估腳本。團隊說希望這能成為"計劃適應性"的標準考場,就像ImageNet之于圖像識別。但他們也承認,47%的最高分說明這題還太難,可能需要新的訓練范式,而不是更大規模的舊方法。

      那個在洗碗機前開關門三次的斯坦福機器人,后來怎么樣了?項目組沒公開后續。但AsgardBench的 leaderboard 上,新模型的分數每周都在跳動——有人正在教它,下一次開門前先探頭看一眼里面。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      樊振東空砍2分惜敗!德甲聯賽再轟2個3-0,隊友連輸3場全掉鏈子

      樊振東空砍2分惜敗!德甲聯賽再轟2個3-0,隊友連輸3場全掉鏈子

      全言作品
      2026-03-28 04:31:32
      搜狐馬拉松生圖太殘酷,阿Sa同框林志玲,42歲輸在滿臉疲態?

      搜狐馬拉松生圖太殘酷,阿Sa同框林志玲,42歲輸在滿臉疲態?

      娛樂領航家
      2026-03-27 19:00:03
      張雪峰女兒親自辟謠!父母恩愛沒離婚,回應3個問題,口才很意外

      張雪峰女兒親自辟謠!父母恩愛沒離婚,回應3個問題,口才很意外

      漫婷侃娛樂
      2026-03-28 07:12:08
      2011年“天上人間”段麗娟被執行死刑,臨刑前大喊:我不后悔

      2011年“天上人間”段麗娟被執行死刑,臨刑前大喊:我不后悔

      王嚾曉
      2026-03-12 16:33:39
      霍啟山激動:嫂子我喜歡這個!郭晶晶:等著,嫂子給你要微信去!

      霍啟山激動:嫂子我喜歡這個!郭晶晶:等著,嫂子給你要微信去!

      拳擊時空
      2026-03-28 07:07:19
      李某國(男,37歲)為博取關注、吸引流量,自導自演網約車糾紛罵乘客,已被行政處罰,并依法關停其相關網絡賬號

      李某國(男,37歲)為博取關注、吸引流量,自導自演網約車糾紛罵乘客,已被行政處罰,并依法關停其相關網絡賬號

      揚子晚報
      2026-03-28 07:37:58
      斷網之后,俄羅斯的普通人更快樂了!有人信嗎?

      斷網之后,俄羅斯的普通人更快樂了!有人信嗎?

      走讀新生
      2026-03-25 10:58:41
      貝森特一句話露怯,美國盟友徹底醒悟:跟著華盛頓混,遲早要完

      貝森特一句話露怯,美國盟友徹底醒悟:跟著華盛頓混,遲早要完

      可樂愛微笑
      2026-03-28 09:07:02
      隨著國足2-0庫拉索,產生3大不可思議和1個不爭事實,全場MVP誕生

      隨著國足2-0庫拉索,產生3大不可思議和1個不爭事實,全場MVP誕生

      侃球熊弟
      2026-03-27 15:01:03
      再年輕也沒用!山東27歲美女李曉云去世,死因曝光,丈夫發文感謝

      再年輕也沒用!山東27歲美女李曉云去世,死因曝光,丈夫發文感謝

      青梅侃史啊
      2026-03-27 17:01:27
      某航司波音787副駕駛QQ被卸,涉事航司被扒

      某航司波音787副駕駛QQ被卸,涉事航司被扒

      溫柔看世界
      2026-03-27 12:04:10
      1937年地主王學文救下女紅軍還收留了她的孩子,徹底改變三個家庭

      1937年地主王學文救下女紅軍還收留了她的孩子,徹底改變三個家庭

      磊子講史
      2026-01-14 16:09:59
      我娶了單位32歲前臺,結婚半個月后董事長:你知道你老婆是啥人不

      我娶了單位32歲前臺,結婚半個月后董事長:你知道你老婆是啥人不

      千秋歷史
      2026-03-12 19:18:12
      伊朗豁出去了硬剛美國:敢這么干就跟你同歸于盡

      伊朗豁出去了硬剛美國:敢這么干就跟你同歸于盡

      看看新聞Knews
      2026-03-23 15:01:05
      陳思誠新作《10間敢死隊》入圍北影節主競賽單元

      陳思誠新作《10間敢死隊》入圍北影節主競賽單元

      北青網-北京青年報
      2026-03-27 18:59:10
      伊朗表示如果美國發動地面戰,那伊朗就攻占巴林和阿聯酋海岸線!

      伊朗表示如果美國發動地面戰,那伊朗就攻占巴林和阿聯酋海岸線!

      達文西看世界
      2026-03-27 10:02:01
      圖赫爾的英格蘭“選秀之夜”慘淡收場,邊緣球員集體低迷浪費機會

      圖赫爾的英格蘭“選秀之夜”慘淡收場,邊緣球員集體低迷浪費機會

      夜白侃球
      2026-03-28 09:45:46
      以下克上!FIFA系列賽:國足2比0庫拉索 時隔16年擊敗世界杯參賽隊

      以下克上!FIFA系列賽:國足2比0庫拉索 時隔16年擊敗世界杯參賽隊

      新英體育
      2026-03-28 09:48:09
      萬科創始人被限制出境

      萬科創始人被限制出境

      地產微資訊
      2026-03-27 09:13:13
      今日!NBA湖人VS籃網,詹姆斯+東契奇主場力爭連勝,CCTV5無直播

      今日!NBA湖人VS籃網,詹姆斯+東契奇主場力爭連勝,CCTV5無直播

      晚池
      2026-03-28 00:39:20
      2026-03-28 10:12:49
      硬核玩家2哈
      硬核玩家2哈
      沉淀中,勿擾
      308文章數 2關注度
      往期回顧 全部

      科技要聞

      遭中國學界"拉黑"后,這家AI頂會低頭道歉

      頭條要聞

      現役軍官帶刀闖中使館日方僅表示"遺憾" 高市沒反應

      頭條要聞

      現役軍官帶刀闖中使館日方僅表示"遺憾" 高市沒反應

      體育要聞

      “我是全家最差勁的運動員”

      娛樂要聞

      范瑋琪加盟,官宣《浪姐7》遭全網抵制

      財經要聞

      我在小吃培訓機構學習“科技與狠活”

      汽車要聞

      與眾08,金標大眾不能輸的一戰

      態度原創

      時尚
      教育
      房產
      家居
      軍事航空

      推廣中獎名單-更新至2026年3月11日推廣

      教育要聞

      “考研6年,輸給一條黑褲襪”,女大學生啃老式考研,被嘲研王爺

      房產要聞

      6.8萬方!天河員村再征地,金融城西區開發全面提速

      家居要聞

      曲線華爾茲 現代簡約

      軍事要聞

      伊朗:已組織超100萬人為地面戰斗做準備

      無障礙瀏覽 進入關懷版