![]()
本文共同第一作者為西安交通大學碩士生常建磊和博士生梅若風。柯煒為西安交通大學副教授。論文通訊作者為西安交通大學教授許翔宇,其研究方向涵蓋三維視覺、生成式 AI 與具身智能(個人主頁:https://xuxy09.github.io/)。
生成式模型正在成為機器人和具身智能領域的重要范式,它能夠從高維視覺觀測中直接生成復雜、靈活的動作策略,在操作、抓取等任務中表現亮眼。但在真實系統中,這類方法仍面臨兩大「硬傷」:一是訓練極度依賴大規模演示數據,二是推理階段需要大量迭代,動作生成太慢,難以實時控制。
針對這一核心瓶頸,西安交通大學研究團隊提出了全新的生成式策略學習方法EfficientFlow。該方法通過將等變建模與高效流匹配(Flow Matching)深度融合在顯著提升數據效率的同時,大幅壓縮推理所需的迭代步數,在多個機器人操作基準上實現了 SOTA 的性能,并將推理速度提升一個數量級以上。
相關論文《EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI》已被 AAAI 2026 接收,代碼已開源
![]()
- 論文地址:https://arxiv.org/pdf/2512.02020
- 項目主頁:https://efficientflow.github.io/
- GitHub:https://github.com/chang-jl/EfficientFlow
技術亮點:用物理直覺重塑生成式策略
1. 加速度正則化:讓生成軌跡更直、更快
傳統流匹配的一大痛點是學習到的流場曲率過大,導致推理時仍需多步迭代才能擬合。
怎么讓生成軌跡變直? EfficientFlow 的設計靈感源于物理直覺:現實中平滑的運動,往往加速度很小。 因此,EfficientFlow 在損失函數中引入了加速度正則項,鼓勵樣本從噪聲分布向數據分布演化的過程也是平滑且接近勻速的:
![]()
![]()
加速度正則項可以近似為:
![]()
![]()
![]()
![]()
![]()
2. 等變網絡:讓模型學會「舉一反三」
EfficientFlow 等變設計的核心邏輯非常直觀:如果輸入的視覺場景旋轉了一定角度,那么機器人輸出的動作自然也該跟隨旋轉相同的角度。這帶來了巨大的數據優勢,相當于一條數據就可以產生多條數據的效果。模型只需學習物體在一個角度下的操作,就能自動泛化到多個旋轉角度,真正實現了「舉一反三」。
![]()
![]()
![]()
![]()
![]()
![]()
3. 時間一致性策略:快,還要穩
![]()
![]()
為了保持模型探索多樣化行為的能力,模型引入了周期性重置:每 10 個預測周期,從批次中隨機選擇一條軌跡進行執行,而不是選擇最小化重疊距離的那一條。這種方法在保持多模態性的同時提高了時間一致性,并且由于并行化處理,批量化設計確保了推理時間的額外開銷極小。
實驗效果:少數據、少步數,也能打 SOTA
在 MimicGen 等多個機器人操作基準中,EfficientFlow 在有限數據條件下展現出媲美甚至超過現有 SOTA 方法的成功率。更關鍵的是推理效率:在 1 步推理下,EfficientFlow 就能接近 EquiDiff 100 步推理的平均性能,單步推理速度提升 56 倍,5 步推理也有近20 倍加速。消融實驗進一步表明,加速度正則化與等變建模缺一不可,共同構成了高效生成式策略的關鍵。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.