![]()
新智元報道
編輯:LRST
【新智元導讀】具身智能的「ChatGPT時刻」還沒到,機器人的「幻覺」卻先來了?在需要幾十步操作的長序列任務中,現有的VLA模型經常「假裝在干活」,誤以為任務完成。針對這一痛點,北京大學團隊提出自進化VLA框架EvoVLA。該模型利用Gemini生成「硬負樣本」進行對比學習,配合幾何探索與長程記憶,在復雜任務基準Discoverse-L上將成功率提升了10.2%,并將幻覺率從38.5%大幅降至14.8%。
具身智能(Embodied AI)正處于爆發前夜。
從谷歌的 RT-X 到開源社區的 OpenVLA,通才機器人策略(Generalist Robot Policies)展現出了驚人的零樣本泛化能力。然而,當我們將目光從簡單的「抓取-放置」轉向需要數十個步驟的長程操作任務(Long-horizon Manipulation)時,現有的 VLA 模型卻暴露出一個尷尬的致命弱點:
它們學會了「作弊」。
在長序列任務中,VLA模型經常會出現一種被稱為「階段性幻覺」(Stage Hallucination)的現象。
簡單來說,就是機器人「明明沒做完,卻以為自己做完了」。
例如,在搭建積木橋時,只要機械臂移動到了目標附近,即便方塊滑落、沒對齊或者根本沒夾住,基于視覺語言模型(VLM)的評估系統往往會因為視覺上的相似性("看起來像是在操作"),給出一個很高的預測分數。
這種「高分低能」的現象,導致機器人自信地跳過當前步驟進入下一階段,最終導致整個任務的崩潰。這就好比一個學生只寫了「解:」字,就以為自己做完了整道大題。
針對這一痛點,來自北京大學的研究團隊(第一作者:劉擇霆,楊子達,指導老師:唐浩,張澤宇)提出了一種全新的自監督VLA框架EvoVLA。
![]()
論文鏈接: https://arxiv.org/abs/2511.16166v1
項目主頁: https://aigeeksgroup.github.io/EvoVLA
代碼倉庫: https://github.com/AIGeeksGroup/EvoVLA
EvoVLA不僅在仿真環境中表現出色,更通過Sim2Real成功部署在真實機器人上,平均成功率達到54.6%,超越 OpenVLA-OFT 11.0個百分點。
![]()
EvoVLA框架總覽與核心任務展示(Block Bridge, Stack, Cup Stacking)
該項目由北京大學唐浩課題組完成,第一作者為劉擇霆,楊子達,張澤宇。
EvoVLA:AI教AI
讓模型在「自省」中進化
為了治好機器人的「白日夢」,EvoVLA在OpenVLA-OFT的架構之上,引入了三個協同工作的核心模塊,實現了一種自監督強化學習(SSRL)的閉環。
階段對齊獎勵(SAR):Gemini 老師的「錯題集」
這是EvoVLA解決幻覺問題的殺手锏。
傳統的獎勵函數往往很稀疏(只有成功/失敗),或者基于像素變化(容易被背景干擾)。
EvoVLA創造性地設計了一套數據引擎,利用強大的Gemini 2.5 Pro對演示視頻進行語義理解和切分,生成了包含70+個階段的詳細描述。
更絕的是,為了防止模型「走捷徑」,團隊引入了三元組對比學習,特別是構建了「硬負樣本」(Hard Negative)。
正樣本(Positive), 任務完成的準確描述(如「夾爪閉合且穩定抓取方塊」)。
負樣本(Negative), 明顯的失敗狀態。
硬負樣本(Hard Negative): 這是關鍵! 描述那些「差一點就成功」的狀態(如「夾爪在目標附近但未接觸」,或「抓住了錯誤的物體」)。
![]()
EvoVLA數據引擎,展示Gemini如何生成Positive, Negative和Hard Negative文本描述
通過這種方式,Gemini化身為「嚴厲的老師」,專門出這種易混淆的「陷阱題」給VLA模型做。模型被迫去學習區分「真正完成」和「看起來像完成」,從而獲得密集的、語義一致的內在獎勵信號。
基于姿態的物體探索(POE):告別像素干擾
機器人不僅要會判斷對錯,還要有探索未知的好奇心(Curiosity)。
傳統的內在好奇心獎勵通常基于像素預測誤差——即「如果我看到的畫面和預測的不一樣,我就很興奮」。
但在復雜的機器人場景中,影子的移動、光照的變化甚至背景的噪點都會帶來巨大的預測誤差,導致機器人像個好奇寶寶一樣去探索無意義的視覺噪聲。
EvoVLA提出了POE(Pose-Based Object Exploration),訓練了一個輕量級的世界模型,不再預測圖像像素,而是預測相對幾何姿態(Gripper-Object Pose)。
這意味著機器人的好奇心被引導去探索「如何改變物體與夾爪的相對位置」(比如怎么旋轉、怎么靠近),而非「圖像像素變了多少」。
這使得探索過程極其高效,專注于操作任務本身的幾何結構。
長程記憶機制(Long-Horizon Memory)
面對幾十步的操作,機器人很容易「撿了芝麻丟了西瓜」。簡單的平均或截斷歷史信息會導致災難性遺忘。
EvoVLA并沒有簡單地壓縮歷史,而是采用了一種基于注意力的上下文選擇(Context Selection)機制。
它從歷史庫中檢索Top-K最相關的Token,并通過門控機制融合到當前狀態和獎勵中。
這就像人類在做復雜任務時,只回憶那些對當下決策有用的關鍵步驟(比如「剛才我已經拿到了A零件」),而不是事無巨細地回放整個人生錄像。
Discoverse-L:長程操作的新基準
為了驗證長程能力,團隊并沒有滿足于簡單的已有任務,而是提出了Discoverse-L基準測試,包含三個難度遞增的任務:
1. Stack(堆疊): 18個階段,不僅要疊高,還要精確對齊。
2. Jujube-Cup(紅棗入杯): 19個階段,涉及多物體交互。
3. Block Bridge(搭橋): 74個階段! 需要放置兩個橋墩并填充中間,極其考驗長期規劃和穩定性。
實驗結果:SOTA級的提升
實驗在仿真環境和真機上雙線進行,結果令人振奮。
仿真環境碾壓
在Discoverse-L基準上,EvoVLA 擊敗了包括Octo、OpenVLA、在內的一眾強基準。
成功率:平均達到69.2%(相比最強基準OpenVLA-OFT的59.0%提升了10.2%)。
樣本效率:達到50%成功率所需的訓練步數減少了1.5倍。
幻覺消除:階段幻覺率(HR)從38.5% 大幅降至14.8%。
![]()
EvoVLA在三個任務上對比OpenVLA等基線的成功率提升
Sim2Real真機泛化
在AIRBOT-Play機器人上的部署更加令人印象深刻,EvoVLA展示了極強的Sim2Real泛化能力。
![]()
特別是在一個從未見過的「堆疊+插入」(Stack with Insertion)任務中,通過少量的真機微調,EvoVLA達到了55.2%的成功率,比OpenVLA-OFT高出13.4%,甚至比最新的架構高出16.9%
![]()
機器人實際操作Block Bridge或Stack的過程
定性分析顯示,基準模型經常在接觸方塊前就過早張開夾爪(幻覺導致),而EvoVLA則能精準地等到接觸后才進行操作,動作極其穩定,仿佛真的「看懂」了任務。
結語
EvoVLA的出現,為解決VLA模型在長程任務中的可靠性問題提供了一個優雅的解法。
它證明了:更好的獎勵設計(SAR)+ 更本質的探索機制(POE)+ 更聰明的記憶(Memory),可以讓大模型在具身智能領域走得更遠。
這種利用大語言模型(Gemini)來生成「錯題集」從而反哺策略學習的「自我進化」范式,或許正是通往通用機器人自主學習的關鍵一步。
作者信息
劉擇霆是青島大學自動化學院控制工程在讀碩士,師從葛樹志院士(新加坡工程院院士)。研究方向聚焦于具身智能、RL4VLA、端側VLA模型。曾參與多項科研項目,致力于構建通用機器人操作基礎模型。
楊子達是北京大學光華管理學院管理科學與信息系統系在讀博士,專注于推動"可解釋的跨模態和具身智能"前沿研究。研究方向聚焦于具身智能、RL4VLA、3D導航、VLA模型的結構化推理與多模態認知計算,致力于構建兼具高層語義理解與底層精細控制的通用智能體框架。研究成果已應用于真實四足機器人與多模態情感分析系統。期待與同行共同探索下一代智能體的認知架構與工程實踐。
張澤宇是Richard Hartley教授和Ian Reid教授指導的本科研究員。他的研究興趣扎根于計算機視覺領域,專注于探索幾何生成建模與前沿基礎模型之間的潛在聯系。張澤宇在多個研究領域擁有豐富的經驗,積極探索人工智能基礎和應用領域的前沿進展。
唐浩現任北京大學計算機學院助理教授 / 研究員、博士生導師、博雅和未名青年學者,入選國家級海外高水平人才計劃。曾獲國家優秀自費留學生獎學金,連續三年入選斯坦福大學全球前2%頂尖科學家榜單。他曾在美國卡耐基梅隆大學、蘇黎世聯邦理工學院、英國牛津大學和意大利特倫托大學工作和學習。長期致力于人工智能領域的研究,在國際頂級期刊與會議發表論文 100 余篇,相關成果被引用超過12000次。曾獲ACM Multimedia最佳論文提名獎,現任ICLR 2026、ACL 2025、EMNLP 2025、ACM MM 2025領域主席及多個人工智能會議和期刊審稿人。更多信息參見個人主頁: https://ha0tang.github.io/
參考資料:
[1] Liu Z, Yang Z, Zhang Z, et al. EvoVLA: Self-Evolving Vision-Language-Action Model[J]. arXiv preprint arXiv:2511.16166, 2025.
[2] Kim, M. J., et al. "OpenVLA: An open-source vision-language-action model". CoRL, 2025
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.