網易首頁 > 網易號 > 正文申請入駐

全面梳理 VLA 20大挑戰的深度綜述，方向清晰可見，每周更新，助力時刻掌握最新突破！

2025-12-25 09:19:11　來源: AI科技大本營

北京舉報

分享至

【編者按】Vision-Language-Action（VLA）正在把“看得懂、說得明白、做得出來”的機器人從演示推向真實系統。但模型、數據、范式爆發式增長的同時，也帶來一個現實困境：新入門者不知道從哪里學起，從業者也難以判斷該從哪些維度系統性提升能力。這篇由樹根科技、三一集團耘創新實驗室、倫敦國王學院、港理工、達姆施塔特工業大學，挪威阿哥德大學，帝國理工大學等單位聯合完成的最新綜述，給出了一張清晰的“問題全景圖”和學習路線，并提供一個持續更新的在線參考框架。

近期，具身智能（Embodied AI）已成為人工智能與機器人領域最活躍、同時也最具探索空間的前沿方向之一。從類 GPT 機器人助手的演示，到多模態大模型逐步走向真實機器人平臺，“讓機器看得見、聽得懂、會行動”正從概念驗證走向系統化探索。

然而，隨著模型規模迅速膨脹、數據集與方法不斷涌現，領域內部也愈發顯現出一種結構性的困惑：剛進入這一方向的研究者往往難以判斷應當從何入手；而已身處其中的從業者也常常面臨一個更具體的問題——究竟該從哪些維度、以什么順序系統性提升 VLA 的能力？在快速擴張與路徑分化并存的當下，單純羅列模型與方法已難以提供有效指引，更需要從核心挑戰出發，對問題結構與發展脈絡進行系統梳理。

實際研究與工程落地過程中，這種結構性的困惑并非停留在理論層面。作為一家致力于“賦萬物智能，助工業進步，創社會富足”的科技公司，樹根科技錨定工業智能，在真實工業場景中持續探索軟硬一體具身智能系統的落地實踐。團隊在真實工業場景的前沿探索中，直面穩定性、泛化性等關鍵挑戰。也正是在這樣的背景下逐漸意識到：除了單點能力的持續突破外，更需看到全局，從整體結構上厘清問題本身。

在這一背景下，一篇綜述論文《An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges》（《視覺-語言-動作模型剖析：從模塊到里程碑和挑戰》）發布，旨在為這一快速演進卻結構日益復雜的研究領域提供一個清晰、系統的參考框架。

論文鏈接：https://arxiv.org/abs/2512.11362
項目主頁：https://github.com/SuyuZ1/VLA-Survey-Anatomy
實時更新網站地址：https://suyuz1.github.io/VLA-Survey-Anatomy/

兩項核心貢獻：不再只是羅列工作，而是理清問題結構

這項工作不僅是一篇系統綜述，更是構建了一個持續演進、每周更新的 VLA 研究參照體系（https://suyuz1.github.io/Survery/），用于系統跟蹤 VLA 相關研究工作的最新進展、校準學術研究方向。具體更新的內容會按照本文的整體分類方法（模塊—里程碑—挑戰）進行整理與歸類；相關內容將每周一上午固定更新到項目網站。同時，我們也會在 GitHub 同步維護更新記錄與索引，歡迎大家一起補充、討論與提交 PR，共同把它維護成一個長期可用的開源社區。終極目標是長期服務于社區對 VLA 問題結構的共同理解。

在持續更新的基礎上，論文本身也希望解決兩類常見痛點：一是很多綜述把“挑戰”放在結尾，缺少系統拆解；二是章節組織偏碎，信息雖多，卻難以形成連貫、演進的問題脈絡，不利于讀者建立從基礎到前沿的整體認知。

貢獻一：把挑戰提升為全文主線。我們將 VLA 發展中反復出現卻尚未被系統梳理的關鍵瓶頸，作為全文的分析主線，并圍繞能力演進路徑歸納出五大核心挑戰（及其子問題），為理解現有工作與孕育新研究提供清晰的問題定位點。

貢獻二：按自然認知順序構建學習路線。我們在整體結構上貼合研究者理解新領域的自然順序，構建一條由基礎到前沿的清晰路線：先建立模塊級共同語言，再沿時間線理解關鍵里程碑，最后回到挑戰框架進行系統定位。

綜述使用方法：不同階段讀者的使用路線圖

這篇綜述并非只面向少數“圈內人”，而是被刻意設計成一份真正能用、且會長期發揮價值的工具型綜述。讀完之后，讀者將對 VLA 領域形成更清晰、更完整的整體認知框架：不僅能夠快速梳理出核心技術脈絡與關鍵問題，還可以高效定位當前 VLA 真正受限的能力環節，并對“下一步應當如何改進、從哪里入手”形成初步而可靠的判斷。

對新入門者：先建立整體認知，再逐步深入

如果你對 VLA 領域還不算熟悉，但希望系統入手，這篇論文可以作為一條清晰的切入路徑：

從基礎模塊入手，建立對完整 VLA 系統組成方式的整體把握，理解感知、表征、規劃與控制之間的功能分工及其常見設計取舍；
沿里程碑章節建立演進視角，把握關鍵能力是在何時、因何種問題需求而出現，區分長期核心問題與階段性技術解法；
以五大挑戰作為統一參照系，迅速了解前沿研究熱點&學術問題，將分散的模型與方法放回其所試圖解決的核心問題中，形成穩定的問題定位能力。

通過這一閱讀路徑，新入門的讀者可以在較短時間內系統補全 VLA 領域的核心知識脈絡，建立起對該領域整體結構與關鍵問題的清晰認知。

對從業者：以挑戰為錨點，精準定位能力提升空間

如果你已經在做 VLA 相關研究或工程實踐，這篇綜述更適合作為一張高效的能力定位與提升路線圖，幫助你在復雜方法空間中迅速找準真正值得投入的方向：幫助你在復雜方法空間中迅速找準學術研究中真正值得投入的方向，并在科研工作中可以更清晰地界定研究問題、明確創新落點，從而提升科研工作的聚焦度和效率。

從五大挑戰切入，直接對照當前系統在表征、執行、泛化、安全或數據與評測等層面的核心瓶頸，快速鎖定最具提升潛力的能力短板，而不必在零散方法比較中反復試錯；
圍繞已定位的挑戰回溯技術路徑，結合對應的模塊設計與里程碑工作，理解不同技術路線在解決同一類問題時的關鍵假設、能力邊界與實際代價；
借助持續更新的內容形成動態判斷，區分哪些方向正在快速成熟，哪些問題仍處于探索階段，從而更理性地分配時間與研究精力。

在這種用法下，這篇綜述的價值不在于“覆蓋多少工作”，而在于幫助從業者以更低的認知成本，持續、有效地定位和提升 VLA 系統的關鍵能力。

基礎模塊解析：先建立一套統一的技術共同語言

在結構設計上，文章首先在Basic Modules 章節中對 VLA 系統的基礎構成進行系統拆解：從感知、表征到決策與控制，以模塊為單位梳理不同方法在視覺編碼、語言理解、跨模態融合、規劃機制與動作生成等關鍵設計上的共性與差異。

這一部分的價值在于：當你面對大量論文與工程實現時，能夠先用一套穩定的“模塊級詞匯表”對齊討論對象，避免在不同論文的術語體系中反復迷路，也為后續的時間線回顧與挑戰分析奠定統一基準。

里程碑回顧：沿時間軸看清 VLA 的范式遷移

在建立模塊級認知基礎之后，論文沿時間軸系統回顧了 VLA 的關鍵演進階段，試圖回答一個核心問題：VLA 是如何一步步從早期概念驗證，發展到今天多路線并行、面向真實部署的通用框架的？

整體上，這一演進過程并非單一路線的線性推進，而是多條技術路徑不斷分化、交匯與重組的結果。論文所覆蓋的里程碑工作，基本囊括了當前 VLA 研究的主要技術譜系。

起點：具身問答與長時序任務：EmbodiedQA 明確了具身智能的閉環問題定義，ALFRED 將語言指令與長時序任務系統化，奠定了 VLA 的任務與評測基礎。
轉折：大模型統一建模：RT-1 / RT-2 實現視覺、語言到動作的端到端學習，PaLM-E 進一步統一多模態輸入空間，Diffusion Policy 則將生成式建模引入連續控制。
統一嘗試：語義× 控制：π0 / π0.5 與 OpenVLA 探索在單一框架中連接高層決策與低層動作，并推動開源實踐。
推理能力：鏈式與物理約束推理：Cosmos-Reason1 標準化物理落地推理流程，CoT-VLA 通過顯式視覺中間目標引入可訓練的鏈式推理。
當前方向：閉環學習與世界模型：VLA-RL、LUMOS 以及世界模型方法共同推動系統具備在線學習、反思糾錯與后果預測能力。

總體來看，這一時間線覆蓋了從對齊、大模型、開源框架，到強化學習與世界模型等多條核心技術路線，勾勒出 VLA 從“能跑 demo”走向“可持續、可擴展具身智能體”的范式遷移，也為后續圍繞核心挑戰的系統分析提供了清晰的發展脈絡定位。

五大挑戰：VLA 真正卡在哪里？

如果拋開模型規模和 benchmark 分數，VLA 目前真正的瓶頸究竟在哪里？這篇綜述的核心并不在于“又總結了多少模型”，而是試圖直面一個更現實的問題：為什么 VLA 看起來進展飛快，但距離穩定、可規模化落地，依然存在明顯鴻溝？

作者將當前紛繁復雜的技術難點系統收斂為五大挑戰，并將其作為全文主線，而非論文結尾的例行展望。這種組織方式本身傳達了一個判斷：當下 VLA 的瓶頸并不主要來自“模型不夠多”，而是來自對問題結構理解不夠清楚。

從整體上看，這五大挑戰覆蓋了一個 VLA 系統從“感知世界”到“真實部署”的完整路徑。無論你在做架構設計、數據采集、系統集成，還是評測與基準構建，都可以在這套挑戰框架中定位自己工作的落點。

挑戰 1：表征（Representation）

盡管多模態模型在語義對齊方面進展顯著，但在真實物理環境中，語言表達的抽象意圖依然難以被穩定、精確地映射為連續動作。視覺、語言與動作的統一并不僅是特征拼接或投影，而涉及空間結構、時間一致性與物理因果關系的長期建模。

這也是為什么世界模型、物理感知以及更原生的多模態表示被視為突破瓶頸的關鍵方向。

挑戰 2：執行（Execution）

大量工作已經表明，“理解指令”并不等價于“可靠執行”。在長時序、多約束任務中，系統需要在任務拆解、規劃決策與底層控制之間保持高度一致，同時應對環境擾動、執行誤差與不確定性。

這一挑戰決定了 VLA 是停留在 demo 層面，還是具備真正工程可用性。（對工業場景而言，往往不是“做不出來”，而是“做得不穩”。）

挑戰 3：泛化（Generalization）

現實世界的變化遠超訓練數據覆蓋：場景、物體、工具，甚至機器人本體都可能改變。綜述指出，許多方法仍高度依賴特定數據分布或固定硬件配置，在跨任務、跨場景乃至跨機器人時性能顯著下降。

因此，如何實現跨分布遷移、持續學習以及對新環境的快速適應，是 VLA 從專項能力走向通用能力必須跨越的門檻。

挑戰 4：安全（Safety）

當 VLA 面向真實應用，“做不出來”已不再是最嚴重的問題，更大的風險在于“做錯了卻無法被及時發現”。安全不僅意味著避免危險動作，還包括決策過程的可解釋性、對不確定性的感知能力，以及在高風險情況下主動暫停、澄清或請求人類介入的機制。

這些能力決定了 VLA 是否具備被信任與規模化部署的前提。（在高風險工況下，“可靠可控”常比“更聰明”更重要。）

挑戰 5：數據與評測（Dataset & Evaluation）

如果缺乏高質量、多樣化的數據來源，以及統一、細粒度的評測標準，領域很容易陷入“各刷各的分數”。成功率難以全面反映系統能力，過程質量、魯棒性、失敗恢復等維度同樣關鍵。

數據與評測不僅是基礎設施問題，也在很大程度上塑造了研究社區關注和優化的方向。

問題鏈路視角：五大挑戰并非孤立。表征決定執行上限，執行影響泛化能力，泛化與安全共同約束真實部署可行性，而數據與評測貫穿始終，決定這些能力能否被客觀衡量與持續改進。

面向未來的 VLA 愿景：從開環執行走向閉環自治

在總結現有研究的基礎上，綜述描繪了未來可能方向：例如“原生多模態架構”（從訓練伊始就統一模態表示）、融合物理與語義的因果世界模型（能預測后果、推演未來），以及具備“自我覺察”的智能體（理解自己為何行動，并能在閉環中反思與糾錯）。

這勾勒出下一代具身智能體的雛形：不僅會做事，還能在真實世界里做得穩、做得對、做得可控。

總體而言，這項工作不僅勾勒了 VLA 領域的全景結構，更試圖提供一套可長期復用的認知與判斷框架——讓讀者在一次系統閱讀后，真正看清這個領域在做什么、難點卡在哪里，以及未來該沿著哪些方向持續推進。在模型與范式快速更迭的背景下，它更像是一張可反復對照的“問題全景圖”，幫助研究者與從業者在不斷變化的技術浪潮中保持方向感與判斷力。（投稿或尋求報道：zhanghy@csdn.net ）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數碼

房產 / 家居

全面梳理 VLA 20大挑戰的深度綜述，方向清晰可見，每周更新，助力時刻掌握最新突破！