<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      北大新作EvoVLA:大幅降低機器人幻覺,長序列成功率暴漲10%

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】具身智能的「ChatGPT時刻」還沒到,機器人的「幻覺」卻先來了?在需要幾十步操作的長序列任務中,現有的VLA模型經常「假裝在干活」,誤以為任務完成。針對這一痛點,北京大學團隊提出自進化VLA框架EvoVLA。該模型利用Gemini生成「硬負樣本」進行對比學習,配合幾何探索與長程記憶,在復雜任務基準Discoverse-L上將成功率提升了10.2%,并將幻覺率從38.5%大幅降至14.8%。

      具身智能(Embodied AI)正處于爆發前夜。

      從谷歌的 RT-X 到開源社區的 OpenVLA,通才機器人策略(Generalist Robot Policies)展現出了驚人的零樣本泛化能力。然而,當我們將目光從簡單的「抓取-放置」轉向需要數十個步驟的長程操作任務(Long-horizon Manipulation)時,現有的 VLA 模型卻暴露出一個尷尬的致命弱點:

      它們學會了「作弊」。

      在長序列任務中,VLA模型經常會出現一種被稱為「階段性幻覺」(Stage Hallucination)的現象。

      簡單來說,就是機器人「明明沒做完,卻以為自己做完了」。

      例如,在搭建積木橋時,只要機械臂移動到了目標附近,即便方塊滑落、沒對齊或者根本沒夾住,基于視覺語言模型(VLM)的評估系統往往會因為視覺上的相似性("看起來像是在操作"),給出一個很高的預測分數。

      這種「高分低能」的現象,導致機器人自信地跳過當前步驟進入下一階段,最終導致整個任務的崩潰。這就好比一個學生只寫了「解:」字,就以為自己做完了整道大題。

      針對這一痛點,來自北京大學的研究團隊(第一作者:劉擇霆,楊子達,指導老師:唐浩,張澤宇)提出了一種全新的自監督VLA框架EvoVLA。


      論文鏈接: https://arxiv.org/abs/2511.16166v1

      項目主頁: https://aigeeksgroup.github.io/EvoVLA

      代碼倉庫: https://github.com/AIGeeksGroup/EvoVLA

      EvoVLA不僅在仿真環境中表現出色,更通過Sim2Real成功部署在真實機器人上,平均成功率達到54.6%,超越 OpenVLA-OFT 11.0個百分點。


      EvoVLA框架總覽與核心任務展示(Block Bridge, Stack, Cup Stacking)

      該項目由北京大學唐浩課題組完成,第一作者為劉擇霆,楊子達,張澤宇。

      EvoVLA:AI教AI

      讓模型在「自省」中進化

      為了治好機器人的「白日夢」,EvoVLA在OpenVLA-OFT的架構之上,引入了三個協同工作的核心模塊,實現了一種自監督強化學習(SSRL)的閉環。

      階段對齊獎勵(SAR):Gemini 老師的「錯題集」

      這是EvoVLA解決幻覺問題的殺手锏。

      傳統的獎勵函數往往很稀疏(只有成功/失敗),或者基于像素變化(容易被背景干擾)。

      EvoVLA創造性地設計了一套數據引擎,利用強大的Gemini 2.5 Pro對演示視頻進行語義理解和切分,生成了包含70+個階段的詳細描述。

      更絕的是,為了防止模型「走捷徑」,團隊引入了三元組對比學習,特別是構建了「硬負樣本」(Hard Negative)。

      • 正樣本(Positive), 任務完成的準確描述(如「夾爪閉合且穩定抓取方塊」)。

      • 負樣本(Negative), 明顯的失敗狀態。

      • 硬負樣本(Hard Negative): 這是關鍵! 描述那些「差一點就成功」的狀態(如「夾爪在目標附近但未接觸」,或「抓住了錯誤的物體」)。


      EvoVLA數據引擎,展示Gemini如何生成Positive, Negative和Hard Negative文本描述

      通過這種方式,Gemini化身為「嚴厲的老師」,專門出這種易混淆的「陷阱題」給VLA模型做。模型被迫去學習區分「真正完成」和「看起來像完成」,從而獲得密集的、語義一致的內在獎勵信號。

      基于姿態的物體探索(POE):告別像素干擾

      機器人不僅要會判斷對錯,還要有探索未知的好奇心(Curiosity)。

      傳統的內在好奇心獎勵通常基于像素預測誤差——即「如果我看到的畫面和預測的不一樣,我就很興奮」。

      但在復雜的機器人場景中,影子的移動、光照的變化甚至背景的噪點都會帶來巨大的預測誤差,導致機器人像個好奇寶寶一樣去探索無意義的視覺噪聲。

      EvoVLA提出了POE(Pose-Based Object Exploration),訓練了一個輕量級的世界模型,不再預測圖像像素,而是預測相對幾何姿態(Gripper-Object Pose)。

      這意味著機器人的好奇心被引導去探索「如何改變物體與夾爪的相對位置」(比如怎么旋轉、怎么靠近),而非「圖像像素變了多少」。

      這使得探索過程極其高效,專注于操作任務本身的幾何結構。

      長程記憶機制(Long-Horizon Memory)

      面對幾十步的操作,機器人很容易「撿了芝麻丟了西瓜」。簡單的平均或截斷歷史信息會導致災難性遺忘。

      EvoVLA并沒有簡單地壓縮歷史,而是采用了一種基于注意力的上下文選擇(Context Selection)機制。

      它從歷史庫中檢索Top-K最相關的Token,并通過門控機制融合到當前狀態和獎勵中。

      這就像人類在做復雜任務時,只回憶那些對當下決策有用的關鍵步驟(比如「剛才我已經拿到了A零件」),而不是事無巨細地回放整個人生錄像。

      Discoverse-L:長程操作的新基準

      為了驗證長程能力,團隊并沒有滿足于簡單的已有任務,而是提出了Discoverse-L基準測試,包含三個難度遞增的任務:

      1. Stack(堆疊): 18個階段,不僅要疊高,還要精確對齊。

      2. Jujube-Cup(紅棗入杯): 19個階段,涉及多物體交互。

      3. Block Bridge(搭橋): 74個階段! 需要放置兩個橋墩并填充中間,極其考驗長期規劃和穩定性。

      實驗結果:SOTA級的提升

      實驗在仿真環境和真機上雙線進行,結果令人振奮。

      仿真環境碾壓

      在Discoverse-L基準上,EvoVLA 擊敗了包括Octo、OpenVLA、在內的一眾強基準。

      成功率:平均達到69.2%(相比最強基準OpenVLA-OFT的59.0%提升了10.2%)。

      樣本效率:達到50%成功率所需的訓練步數減少了1.5倍。

      幻覺消除:階段幻覺率(HR)從38.5% 大幅降至14.8%。


      EvoVLA在三個任務上對比OpenVLA等基線的成功率提升

      Sim2Real真機泛化

      在AIRBOT-Play機器人上的部署更加令人印象深刻,EvoVLA展示了極強的Sim2Real泛化能力。


      特別是在一個從未見過的「堆疊+插入」(Stack with Insertion)任務中,通過少量的真機微調,EvoVLA達到了55.2%的成功率,比OpenVLA-OFT高出13.4%,甚至比最新的架構高出16.9%


      機器人實際操作Block Bridge或Stack的過程

      定性分析顯示,基準模型經常在接觸方塊前就過早張開夾爪(幻覺導致),而EvoVLA則能精準地等到接觸后才進行操作,動作極其穩定,仿佛真的「看懂」了任務。

      結語

      EvoVLA的出現,為解決VLA模型在長程任務中的可靠性問題提供了一個優雅的解法。

      它證明了:更好的獎勵設計(SAR)+ 更本質的探索機制(POE)+ 更聰明的記憶(Memory),可以讓大模型在具身智能領域走得更遠。

      這種利用大語言模型(Gemini)來生成「錯題集」從而反哺策略學習的「自我進化」范式,或許正是通往通用機器人自主學習的關鍵一步。

      作者信息

      劉擇霆是青島大學自動化學院控制工程在讀碩士,師從葛樹志院士(新加坡工程院院士)。研究方向聚焦于具身智能、RL4VLA、端側VLA模型。曾參與多項科研項目,致力于構建通用機器人操作基礎模型。

      楊子達是北京大學光華管理學院管理科學與信息系統系在讀博士,專注于推動"可解釋的跨模態和具身智能"前沿研究。研究方向聚焦于具身智能、RL4VLA、3D導航、VLA模型的結構化推理與多模態認知計算,致力于構建兼具高層語義理解與底層精細控制的通用智能體框架。研究成果已應用于真實四足機器人與多模態情感分析系統。期待與同行共同探索下一代智能體的認知架構與工程實踐。

      張澤宇是Richard Hartley教授和Ian Reid教授指導的本科研究員。他的研究興趣扎根于計算機視覺領域,專注于探索幾何生成建模與前沿基礎模型之間的潛在聯系。張澤宇在多個研究領域擁有豐富的經驗,積極探索人工智能基礎和應用領域的前沿進展。

      唐浩現任北京大學計算機學院助理教授 / 研究員、博士生導師、博雅和未名青年學者,入選國家級海外高水平人才計劃。曾獲國家優秀自費留學生獎學金,連續三年入選斯坦福大學全球前2%頂尖科學家榜單。他曾在美國卡耐基梅隆大學、蘇黎世聯邦理工學院、英國牛津大學和意大利特倫托大學工作和學習。長期致力于人工智能領域的研究,在國際頂級期刊與會議發表論文 100 余篇,相關成果被引用超過12000次。曾獲ACM Multimedia最佳論文提名獎,現任ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025領域主席及多個人工智能會議和期刊審稿人。更多信息參見個人主頁: https://ha0tang.github.io/

      參考資料:

      [1] Liu Z, Yang Z, Zhang Z, et al. EvoVLA: Self-Evolving Vision-Language-Action Model[J]. arXiv preprint arXiv:2511.16166, 2025.

      [2] Kim, M. J., et al. "OpenVLA: An open-source vision-language-action model". CoRL, 2025

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      皇馬3人染紅!裁判報告曝光,2人或被禁賽2場,遭卡瓦哈爾嘲諷

      皇馬3人染紅!裁判報告曝光,2人或被禁賽2場,遭卡瓦哈爾嘲諷

      奧拜爾
      2025-12-08 07:45:51
      7人上雙居然輸球!東部黑馬3連敗打回原形,布朗30+8+5帶隊逆襲

      7人上雙居然輸球!東部黑馬3連敗打回原形,布朗30+8+5帶隊逆襲

      體壇小李
      2025-12-08 07:45:56
      中超新軍痛失隊長?曝28歲日本功勛外援離隊 率隊問鼎中甲+獻19助

      中超新軍痛失隊長?曝28歲日本功勛外援離隊 率隊問鼎中甲+獻19助

      我愛英超
      2025-12-07 22:37:25
      周濤怒了!“行了可以了,跟你說了很多遍,差不多行了啊”

      周濤怒了!“行了可以了,跟你說了很多遍,差不多行了啊”

      都市快報橙柿互動
      2025-12-07 17:43:27
      2-1,25歲英格蘭國腳一劍封喉,率隊2連勝反超切爾西,逼近前三

      2-1,25歲英格蘭國腳一劍封喉,率隊2連勝反超切爾西,逼近前三

      凌空倒鉤
      2025-12-08 04:46:27
      世界杯賽程公布!中國球迷不用熬夜:看巴西阿根廷葡萄牙6場比賽

      世界杯賽程公布!中國球迷不用熬夜:看巴西阿根廷葡萄牙6場比賽

      球場沒跑道
      2025-12-07 11:04:59
      貝寧部分軍人闖進國家電視臺,發動政變

      貝寧部分軍人闖進國家電視臺,發動政變

      南方都市報
      2025-12-07 19:14:49
      浙經貿的三分鐘戰士大二弟弟火了

      浙經貿的三分鐘戰士大二弟弟火了

      杭城村叔
      2025-09-11 12:54:47
      油價一夜變天!今天12月8日國內油價調整,95、92號汽油價格下調

      油價一夜變天!今天12月8日國內油價調整,95、92號汽油價格下調

      有料財經
      2025-12-08 00:36:19
      公積金斷崖式下調:從12%到5%,鐵飯碗的體面,真就碎了?

      公積金斷崖式下調:從12%到5%,鐵飯碗的體面,真就碎了?

      復轉這些年
      2025-12-06 23:48:05
      12萬噸廣東艦核航母亮相,美日分析后確認:無法脅迫中國

      12萬噸廣東艦核航母亮相,美日分析后確認:無法脅迫中國

      我想把最好的一面展現給你
      2025-12-06 08:52:10
      還是來了!馬克龍剛走,德國外長明天訪華

      還是來了!馬克龍剛走,德國外長明天訪華

      上觀新聞
      2025-12-07 20:45:36
      跌破1499元,茅臺都賣不動了

      跌破1499元,茅臺都賣不動了

      豹變
      2025-12-08 08:03:25
      馬克龍夫婦吃北京烤鴨被熱情招待,鞏俐低調陪同

      馬克龍夫婦吃北京烤鴨被熱情招待,鞏俐低調陪同

      觀察鑒娛
      2025-12-07 11:16:28
      人民日報專訪,揭開32歲周深的真實處境,那英確實一個字都沒說錯

      人民日報專訪,揭開32歲周深的真實處境,那英確實一個字都沒說錯

      八斗小先生
      2025-11-01 08:46:54
      小米粥再次被關注,調查發現:高血糖患者喝小米粥,或有4大改善

      小米粥再次被關注,調查發現:高血糖患者喝小米粥,或有4大改善

      九哥聊軍事
      2025-12-07 10:00:20
      歐盟分裂!德國議會壓倒性否決沒收俄資產提案,馮德萊恩遭重挫

      歐盟分裂!德國議會壓倒性否決沒收俄資產提案,馮德萊恩遭重挫

      明天后天大后天
      2025-12-07 17:25:46
      老戲骨的“動臉后遺癥”,在央視《大生意人》現出了原形,可惜了

      老戲骨的“動臉后遺癥”,在央視《大生意人》現出了原形,可惜了

      陳述影視
      2025-12-06 23:59:24
      愛沙尼亞:中國,我最后警告你,我們的耐心快要耗盡了!

      愛沙尼亞:中國,我最后警告你,我們的耐心快要耗盡了!

      探源歷史
      2025-12-08 02:08:04
      每一口飲料都傷肝臟!哈佛大學最新:含糖、代糖都傷肝,每天多喝一罐,肝病死亡風險增加41%

      每一口飲料都傷肝臟!哈佛大學最新:含糖、代糖都傷肝,每天多喝一罐,肝病死亡風險增加41%

      醫諾維
      2025-12-06 14:56:07
      2025-12-08 08:48:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14044文章數 66349關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      美國安全戰略發生重大轉變 國安報告第19頁才提及中國

      頭條要聞

      美國安全戰略發生重大轉變 國安報告第19頁才提及中國

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      養牛場的秘密:每天開采數十車礦石倒賣

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      健康
      旅游
      家居
      時尚
      軍事航空

      甲狀腺結節"排雷"指南

      旅游要聞

      渝見好“村”光|城口龍盤村:感受純凈的雪域水墨畫,人間值得!

      家居要聞

      白味湯館 當代宴飲儀式

      遼京:當一個媽媽開始寫作

      軍事要聞

      日本稱中方雷達照射日戰機 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99久久机热/这里只有精品| 色婷婷影院| 亚洲中文字幕日产无码成人片 | 国产成人高清亚洲综合| 成人国内精品久久久久一区| 人妻综合第一页| 少妇50p| 免费看无码自慰一区二区| 无码视频一区二区三区| 少妇被爽到高潮喷水久久欧美精品| 国产成人无码性教育视频| 久久精品a| 镇宁| 怡春院av| 熟妇自搞| 熟妇导航| 夜夜添无码试看一区二区三区 | 泰州市| 上栗县| 亚洲国产成人精品无色码| 京山县| 娄烦县| 国产最新网址| 九九色综合| 阿勒泰市| 欧美亚洲国产成人精品播放| 衢州市| 天天成人综合网| 松溪县| 亚洲天堂中文字幕| 男人天堂网址| 精品无码老熟妇magnet| 自拍偷自拍亚洲精品偷一| 中文字幕日本六区小电影| 亚洲欧洲激情| 亚洲精品成人a?v久久| 91.色| 亚洲人妻av| 沅江市| 亚州Av无码| 亚洲色综合|