網易首頁 > 網易號 > 正文申請入駐

國內開源VLA最高star一作開講！具身VLA大模型技術研討會最終議程公布

2025-11-12 21:39:03　來源: 機器人前瞻

北京舉報

分享至

11月19日，由智一科技旗下智猩猩聯合智東西、機器人前瞻舉辦的2025中國具身智能機器人大會（EAIRCon 2025）將在深圳灣萬麗酒店舉辦。

這也是智一科技在大灣區舉辦的首屆機器人大會。今年以來，智一科技旗下智猩猩分別聯合智東西、芯東西已先后成功舉辦2025中國生成式AI大會、2025中國AI算力大會、2025全球AI芯片峰會等大型會議。

2025中國具身智能機器人大會（EAIRCon 2025）為期一天，由主論壇+專題論壇+研討會+展覽區組成，將以“具身啟智機器覺醒”為主題，邀請近40位嘉賓帶來致辭、報告、演講和對話，全方位解構具身智能掀起的新一輪機器人革命。

主論壇將于上午在主會場+分會場一拉開帷幕，將邀請知名學者、產業領袖、創業者、技術大咖和頂級投資人帶來分享，并將進行一場高端對話。

具身智能人形機器人專題論壇則將于下午在主會場進行，將聚焦人形機器人這一具身智能最佳載體及產業鏈層面的技術產品創新。

機器人模仿學習與強化學習研討會、具身世界模型技術研討會、具身VLA大模型技術研討會則會在分會場一、二進行，將邀請來自高校、工業界的研究人員和技術專家帶來主題報告和技術分享。其中，研討會主要面向持有閉門專享票、貴賓通票的觀眾開放。

今天，將為大家公布具身VLA大模型技術研討會的完整議程。已經迫不及待報名的朋友，可以先掃描下方二維碼添加小助手報名啦！

01.

議程發布：多維度解構VLA

共探最熱具身大模型技術范式

短短三年，從零星探索到主流浪潮，VLA已經成為連接大模型與具身智能的關鍵橋梁，不僅是當下最受關注的具身大模型技術范式，更被認為是最具潛力的機器人基礎大模型技術路線，有望開啟具身智能的GPT時刻。

在這一背景下，2025中國具身智能機器人大會同期的具身VLA大模型技術研討會將于下午的分會場二進行，由主題報告和圓桌Panel兩個環節組成。

上海交通大學長聘教軌助理教授穆堯，上海人工智能實驗室具身智能中心青年研究員曾嘉，美的AIRC具身基礎模型負責人文俊杰，北京大學計算機學院副研究員兼信息技術高等研究院視覺智能實驗室主任王釗，OpenHelix-Team負責人、VLA-Adapter一作丁鵬翔，Alluxio首席架構師傅正佳，清華大學在讀博士、SimpleVLA-RL一作李昊展等七位知名青年學者與技術專家出席并帶來報告。曾嘉博士也將主持本次研討會以及圓桌Panel。

在人工智能邁向真實世界應用的關鍵節點，具身智能領域正面臨數據稀缺與泛化能力不足的雙重困境。穆堯老師將以《人-數字人-機器人三元一體具身智能》為主題帶來報告，分享一項突破性解決方案——人-數字人-機器人三元一體具身智能架構，通過充分挖掘互聯網海量人類行為數據、利用先進仿真引擎大規模生成策略合成數據、并將虛擬學習成果遷移至物理機器人，實現從"專用機器人"到"通用智能體"的質的飛躍。

曾嘉博士是上海人工智能實驗室具身智能中心操作智能方向負責人，研究方向為機械臂操作、視覺-語言-動作大模型。本次報告的題目為《理解、想象、執行一體化的具身操作大模型》，將重點介紹最新推出的具身操作大模型InternVLA-A1。該模型在操作任務的成功率顯著超越π0、GR00T N1.5等模型，尤其在涉及傳送帶動態抓取、多機協作的高動態場景表現出很強的適應性。

文俊杰老師現擔任美的AIRC具身基礎模型負責人。他認為：讓機器人具備多模態大模型通用智能的關鍵難點在于語言與動作之間的“模態鴻溝”。本次研討會將重點探討VLA模型從“對齊”到“統一”的根本轉變，通過重構模型架構與訓練范式，使模型在同一表示/參數空間中同時學會理解與執行，進而將思維鏈式推理用于未知任務求解。

具身視覺導航大腦讓機器人擺脫遙控器與激光雷達建圖，僅使用視覺攝像頭讓機器人擁有眼睛一般看懂眼前世界，進行通行度理解和內容理解從而自主決策導航點，并結合時空域感知構建短期記憶地圖完善路徑規劃。曾任職于阿里巴巴達摩院的王釗老師將以《開放世界具身視覺導航大腦》為主題帶來報告。

丁鵬翔博士的研究主要專注于多構型本體的VLA模型基座模型設計。他以一作身份發表的VLA-Adapter目前GitHub Star已經達到1.6k，是國內開源VLA中最高的，也是業內第五個過千Star的工作。丁鵬翔博士致力于解決VLA模型的加速推理，數據利用效率以及推動VLA模型真正落地應用效果。本次報告將圍繞《多構型VLA如何破局》展開，將探討如何針對多種機器人形態（如機械臂、四足機器人、人形機器人）結合其結構特性，分別設計和設置不同的VLA基座模型。

Alluxio首席架構師傅正佳博士也將在此次研討會上帶來分享，主題為《構建面向具身智能數據閉環的高性能數據訪問平臺》。傅正佳博士加入Alluxio前，曾在新加坡科技公司Bigo Technology擔任機器學習研發總監。

目前，VLA模型的發展仍受限于數據稀缺與泛化能力不足等問題。本次報告李昊展博士將解讀以一作身份提出的專為VLA模型設計的高效強化學習框架SimpleVLA-RL。該框架基于veRL構建，引入了VLA專用軌跡采樣、可擴展并行化、多環境渲染及優化的損失計算方法。實驗表明，SimpleVLA-RL能緩解數據稀缺問題并大幅增強VLA的泛化能力，還能使VLA自主發現更高效的策略。這種 “突破人類演示數據模式” 的現象被定義為 “Pushcut”。

02.

嘉賓陣容：上交大穆堯與SimpleVLA-RL、

VLA-Adapter一作都來了

報告嘉賓：上海交通大學長聘教軌助理教授穆堯

報告主題：人-數字人-機器人三元一體具身智能

內容概要：在人工智能邁向真實世界應用的關鍵節點，具身智能領域正面臨數據稀缺與泛化能力不足的雙重困境。本次演講將分享一項突破性解決方案——人-數字人-機器人三元一體具身智能架構，通過充分挖掘互聯網海量人類行為數據、利用先進仿真引擎大規模生成策略合成數據、并將虛擬學習成果遷移至物理機器人，實現從"專用機器人"到"通用智能體"的質的飛躍。這一創新范式不僅將具身智能的數據獲取成本降低數個量級，更通過多源數據融合與虛實結合的遷移學習機制，讓AI真正具備跨模態、跨場景的泛化能力。演講將深入闡述三層協同架構的技術細節、數據驅動的泛化方法論，以及在快遞包裹處理、柔性分揀、自動化科學實驗等實際場景的驗證成果，探討具身智能從實驗室走向產業應用的可行路徑。

報告嘉賓：上海人工智能實驗室具身智能中心青年研究員曾嘉

報告主題：理解、想象、執行一體化的具身操作大模型

內容概要：本報告將介紹上海人工智能實驗室具身智能中心最新推出的具身操作大模型InternVLA-A1。該模型以InternVL3為基座，基于一個統一的Transformer架構，集場景理解、任務想象與精準執行能力于一體。其中，場景理解模塊以圖像和文本為輸入，用于解析任務指令并理解任務場景；基于場景理解的解析結果，任務想象模塊通過預測未來圖像的形式，想象執行任務的未來演變；最終，動作執行模塊在任務想象的指導下，通過Flow Matching過程輸出機器人控制指令。該模型融合了上海人工智能實驗室的虛實混合操作數據集InternData-A1、上海國地中心實訓場數據及互聯網多源異構數據進行聯合訓練，從多源異構機器人、多場景數據中獲取了廣泛、通用的操作知識。在物流、家居、商超等多場景的真機評測基準上，InternVLA-A1顯著優于pi0及gr00t n1.5，且模型已適配方舟無限、松靈、國地青龍人形機器人、智元Genie、Franka等多款機器人本體。

報告嘉賓：美的AIRC具身基礎模型負責人文俊杰

報告主題：從對齊到統一——VLA模型的發展與挑戰

內容概要：如何讓機器人具備多模態大模型的通用智能？關鍵難點在于語言與動作之間的“模態鴻溝”：傳統的表層對齊往往只在訓練分布內表現良好，一到開放世界便失靈。為此，我們推動從“對齊”到“統一”的根本轉變，通過重構模型架構與訓練范式，使模型在同一表示/參數空間中同時學會理解與執行，進而將思維鏈式推理用于未知任務求解。該研究為機器人走向真實應用場景提供了堅實技術支撐，使其在多變環境下更魯棒、更可靠。

報告嘉賓：北京大學計算機學院副研究員兼信息技術高等研究院視覺智能實驗室主任王釗

報告主題：開放世界具身視覺導航大腦

內容概要：開放世界具身視覺導航大腦面向人形機器人、機器狗、無人車、消費級移動設備等各類具身實體提供開放環境中純視覺自主導航方案。具身視覺導航大腦讓機器人擺脫遙控器與激光雷達建圖，僅使用視覺攝像頭讓機器人擁有眼睛一般看懂眼前世界，進行通行度理解和內容理解從而自主決策導航點，并結合時空域感知構建短期記憶地圖完善路徑規劃。技術亮點：1）純視覺導航、無需激光雷達；2）無需建圖、隨時隨地可用；3）適應動態開放世界，不論室內還是室外、小區、道路、野外等場景。技術應用場景有面向B端大區域的電子地圖導航，如巡邏、物流、清掃機器人和面向C端的主動式/跟隨式導航，如陪伴機器人。具身視覺導航大腦已應用在江蘇某清掃無人車、深圳某人型機器人、上海某消費級移動機器人等客戶場景，在公安場景的數字警犬示范應用被《人民日報》、《浙江日報》等媒體報道。

報告嘉賓：OpenHelix-Team負責人、VLA-Adapter一作丁鵬翔

報告主題：多構型VLA如何破局

內容概要：端到端視覺-語言-動作模型旨在實現將數字世界中的通用智能遷移到物理世界，從而全面提升具身體的智能水平。本報告將從多模態大模型在空間智能方面的不足切入，結合基礎視覺策略網絡的推理速度的瓶頸，探討如何針對多種機器人形態（如機械臂、四足機器人、人形機器人）結合其結構特性，分別設計和設置不同的VLA基座模型。該研究為實現新一代智能機器人、智能家居、智慧工廠等場景提供關鍵技術支撐，加速人機共融智能時代的到來，推動具身智能技術的創新與應用。

報告嘉賓：Alluxio首席架構師傅正佳

報告主題：從重建到生成，邁向通用具身智能的閉環仿真

內容概要：大語言模型（LLM）的飛速發展，為通用人工智能（AGI）的實現帶來了希望。然而，LLM 本身無法與物理世界進行真實交互，這一局限正是具身智能（Embodied AI）致力于研究與彌合的關鍵鴻溝。在具身智能領域，若想重現LLM“大數據 + 大模型”的成功路徑，一方面依賴海量交互數據作為VLA基礎預訓練，另一方面，需要克服在物理世界中的交互帶來的天然局限：效率低、風險高、難以復現。因此，構建一個可規模化擴展（Scalable）的世界模型作為具身智能模型的閉環交互環境，已成為該領域發展的關鍵路徑。本次分享將重點介紹地平線在該領域的最新研究進展，涵蓋以下核心模塊：可交互場景重建、前饋式3D重建、具身3D生成引擎以及具身視頻生成。

報告嘉賓：清華大學在讀博士、SimpleVLA-RL一作李昊展

報告主題：SimpleVLA-RL：簡單可拓展的VLA強化學習訓練

內容概要：VLA模型已成為使機器人在真實環境中解決各類復雜操作任務極具前景的新范式，其發展仍受限于數據稀缺與泛化能力不足等問題，而強化學習能緩解數據依賴并顯著提升模型性能與泛化性，正受到廣泛關注。本次報告將解讀所提出的專為VLA模型設計的高效強化學習框架SimpleVLA-RL，內容主要分為三部分：首先概述VLA訓練范式，并闡述引入強化學習的必要性；接著將詳解SimpleVLA-RL架構設計；最后，展望VLA強化學習領域的未來發展趨勢。

03.

報名方式

大會設置了四類電子門票，分別是論壇觀眾票、論壇VIP票、閉門專享票和貴賓通票。會場座位分布如下。

四類電子門票中，論壇觀眾票為免費票，申請后需經審核通過方可參會；論壇VIP票、閉門專享票和貴賓通票均需購買。各類門票的詳細權益可通過文末左下角「閱讀原文」，直達官網進行了解。

具身世界模型技術研討會將于11月19日在分會場二上午進行，主要向持有閉門專享票、貴賓通票的觀眾開放。

希望參加研討會的朋友，可以掃描下方二維碼，添加小助手“小鷗”進行報名，已添加過“小鷗”的老朋友，可以給“小鷗”私信，發送“EAIR 25”即可報名。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.