網易首頁 > 網易號 > 正文申請入駐

北大新作EvoVLA：大幅降低機器人幻覺，長序列成功率暴漲10%

2025-11-29 09:09:01　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】具身智能的「ChatGPT時刻」還沒到，機器人的「幻覺」卻先來了？在需要幾十步操作的長序列任務中，現有的VLA模型經常「假裝在干活」，誤以為任務完成。針對這一痛點，北京大學團隊提出自進化VLA框架EvoVLA。該模型利用Gemini生成「硬負樣本」進行對比學習，配合幾何探索與長程記憶，在復雜任務基準Discoverse-L上將成功率提升了10.2%，并將幻覺率從38.5%大幅降至14.8%。

具身智能（Embodied AI）正處于爆發前夜。

從谷歌的 RT-X 到開源社區的 OpenVLA，通才機器人策略（Generalist Robot Policies）展現出了驚人的零樣本泛化能力。然而，當我們將目光從簡單的「抓取-放置」轉向需要數十個步驟的長程操作任務（Long-horizon Manipulation）時，現有的 VLA 模型卻暴露出一個尷尬的致命弱點：

它們學會了「作弊」。

在長序列任務中，VLA模型經常會出現一種被稱為「階段性幻覺」（Stage Hallucination）的現象。

簡單來說，就是機器人「明明沒做完，卻以為自己做完了」。

例如，在搭建積木橋時，只要機械臂移動到了目標附近，即便方塊滑落、沒對齊或者根本沒夾住，基于視覺語言模型（VLM）的評估系統往往會因為視覺上的相似性（"看起來像是在操作"），給出一個很高的預測分數。

這種「高分低能」的現象，導致機器人自信地跳過當前步驟進入下一階段，最終導致整個任務的崩潰。這就好比一個學生只寫了「解：」字，就以為自己做完了整道大題。

針對這一痛點，來自北京大學的研究團隊（第一作者：劉擇霆，楊子達，指導老師：唐浩，張澤宇）提出了一種全新的自監督VLA框架EvoVLA。

論文鏈接： https://arxiv.org/abs/2511.16166v1

項目主頁： https://aigeeksgroup.github.io/EvoVLA

代碼倉庫： https://github.com/AIGeeksGroup/EvoVLA

EvoVLA不僅在仿真環境中表現出色，更通過Sim2Real成功部署在真實機器人上，平均成功率達到54.6%，超越 OpenVLA-OFT 11.0個百分點。

EvoVLA框架總覽與核心任務展示（Block Bridge, Stack, Cup Stacking）

該項目由北京大學唐浩課題組完成，第一作者為劉擇霆，楊子達，張澤宇。

EvoVLA：AI教AI

讓模型在「自省」中進化

為了治好機器人的「白日夢」，EvoVLA在OpenVLA-OFT的架構之上，引入了三個協同工作的核心模塊，實現了一種自監督強化學習（SSRL）的閉環。

階段對齊獎勵（SAR）：Gemini 老師的「錯題集」

這是EvoVLA解決幻覺問題的殺手锏。

傳統的獎勵函數往往很稀疏（只有成功/失敗），或者基于像素變化（容易被背景干擾）。

EvoVLA創造性地設計了一套數據引擎，利用強大的Gemini 2.5 Pro對演示視頻進行語義理解和切分，生成了包含70+個階段的詳細描述。

更絕的是，為了防止模型「走捷徑」，團隊引入了三元組對比學習，特別是構建了「硬負樣本」（Hard Negative）。

正樣本（Positive），任務完成的準確描述（如「夾爪閉合且穩定抓取方塊」）。
負樣本（Negative），明顯的失敗狀態。
硬負樣本（Hard Negative）：這是關鍵！描述那些「差一點就成功」的狀態（如「夾爪在目標附近但未接觸」，或「抓住了錯誤的物體」）。

EvoVLA數據引擎，展示Gemini如何生成Positive, Negative和Hard Negative文本描述

通過這種方式，Gemini化身為「嚴厲的老師」，專門出這種易混淆的「陷阱題」給VLA模型做。模型被迫去學習區分「真正完成」和「看起來像完成」，從而獲得密集的、語義一致的內在獎勵信號。

基于姿態的物體探索（POE）：告別像素干擾

機器人不僅要會判斷對錯，還要有探索未知的好奇心（Curiosity）。

傳統的內在好奇心獎勵通常基于像素預測誤差——即「如果我看到的畫面和預測的不一樣，我就很興奮」。

但在復雜的機器人場景中，影子的移動、光照的變化甚至背景的噪點都會帶來巨大的預測誤差，導致機器人像個好奇寶寶一樣去探索無意義的視覺噪聲。

EvoVLA提出了POE（Pose-Based Object Exploration），訓練了一個輕量級的世界模型，不再預測圖像像素，而是預測相對幾何姿態（Gripper-Object Pose）。

這意味著機器人的好奇心被引導去探索「如何改變物體與夾爪的相對位置」（比如怎么旋轉、怎么靠近），而非「圖像像素變了多少」。

這使得探索過程極其高效，專注于操作任務本身的幾何結構。

長程記憶機制（Long-Horizon Memory）

面對幾十步的操作，機器人很容易「撿了芝麻丟了西瓜」。簡單的平均或截斷歷史信息會導致災難性遺忘。

EvoVLA并沒有簡單地壓縮歷史，而是采用了一種基于注意力的上下文選擇（Context Selection）機制。

它從歷史庫中檢索Top-K最相關的Token，并通過門控機制融合到當前狀態和獎勵中。

這就像人類在做復雜任務時，只回憶那些對當下決策有用的關鍵步驟（比如「剛才我已經拿到了A零件」），而不是事無巨細地回放整個人生錄像。

Discoverse-L：長程操作的新基準

為了驗證長程能力，團隊并沒有滿足于簡單的已有任務，而是提出了Discoverse-L基準測試，包含三個難度遞增的任務：

1. Stack（堆疊）： 18個階段，不僅要疊高，還要精確對齊。

2. Jujube-Cup（紅棗入杯）： 19個階段，涉及多物體交互。

3. Block Bridge（搭橋）： 74個階段！需要放置兩個橋墩并填充中間，極其考驗長期規劃和穩定性。

實驗結果：SOTA級的提升

實驗在仿真環境和真機上雙線進行，結果令人振奮。

仿真環境碾壓

在Discoverse-L基準上，EvoVLA 擊敗了包括Octo、OpenVLA、在內的一眾強基準。

成功率：平均達到69.2%（相比最強基準OpenVLA-OFT的59.0%提升了10.2%）。

樣本效率：達到50%成功率所需的訓練步數減少了1.5倍。

幻覺消除：階段幻覺率（HR）從38.5% 大幅降至14.8%。

EvoVLA在三個任務上對比OpenVLA等基線的成功率提升

Sim2Real真機泛化

在AIRBOT-Play機器人上的部署更加令人印象深刻，EvoVLA展示了極強的Sim2Real泛化能力。

特別是在一個從未見過的「堆疊+插入」（Stack with Insertion）任務中，通過少量的真機微調，EvoVLA達到了55.2%的成功率，比OpenVLA-OFT高出13.4%，甚至比最新的架構高出16.9%

機器人實際操作Block Bridge或Stack的過程

定性分析顯示，基準模型經常在接觸方塊前就過早張開夾爪（幻覺導致），而EvoVLA則能精準地等到接觸后才進行操作，動作極其穩定，仿佛真的「看懂」了任務。

結語

EvoVLA的出現，為解決VLA模型在長程任務中的可靠性問題提供了一個優雅的解法。

它證明了：更好的獎勵設計（SAR）+ 更本質的探索機制（POE）+ 更聰明的記憶（Memory），可以讓大模型在具身智能領域走得更遠。

這種利用大語言模型（Gemini）來生成「錯題集」從而反哺策略學習的「自我進化」范式，或許正是通往通用機器人自主學習的關鍵一步。

作者信息

劉擇霆是青島大學自動化學院控制工程在讀碩士，師從葛樹志院士（新加坡工程院院士）。研究方向聚焦于具身智能、RL4VLA、端側VLA模型。曾參與多項科研項目，致力于構建通用機器人操作基礎模型。

楊子達是北京大學光華管理學院管理科學與信息系統系在讀博士，專注于推動"可解釋的跨模態和具身智能"前沿研究。研究方向聚焦于具身智能、RL4VLA、3D導航、VLA模型的結構化推理與多模態認知計算，致力于構建兼具高層語義理解與底層精細控制的通用智能體框架。研究成果已應用于真實四足機器人與多模態情感分析系統。期待與同行共同探索下一代智能體的認知架構與工程實踐。

張澤宇是Richard Hartley教授和Ian Reid教授指導的本科研究員。他的研究興趣扎根于計算機視覺領域，專注于探索幾何生成建模與前沿基礎模型之間的潛在聯系。張澤宇在多個研究領域擁有豐富的經驗，積極探索人工智能基礎和應用領域的前沿進展。

唐浩現任北京大學計算機學院助理教授 / 研究員、博士生導師、博雅和未名青年學者，入選國家級海外高水平人才計劃。曾獲國家優秀自費留學生獎學金，連續三年入選斯坦福大學全球前2%頂尖科學家榜單。他曾在美國卡耐基梅隆大學、蘇黎世聯邦理工學院、英國牛津大學和意大利特倫托大學工作和學習。長期致力于人工智能領域的研究，在國際頂級期刊與會議發表論文 100 余篇，相關成果被引用超過12000次。曾獲ACM Multimedia最佳論文提名獎，現任ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025領域主席及多個人工智能會議和期刊審稿人。更多信息參見個人主頁： https://ha0tang.github.io/

參考資料：

[1] Liu Z, Yang Z, Zhang Z, et al. EvoVLA: Self-Evolving Vision-Language-Action Model[J]. arXiv preprint arXiv:2511.16166, 2025.

[2] Kim, M. J., et al. "OpenVLA: An open-source vision-language-action model". CoRL, 2025

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.