![]()
當前,具身智能正處在從實驗室演示邁向規模化商用的關鍵轉折點。
據不完全統計,僅2025年前7個月,我國具身智能領域就已發生投融資事件108起,公開融資規模超過271億元,數量和金額均超過2024年全年。人形機器人作為具身智能的重要載體,其產業規模被普遍認為有望超越新能源汽車。
然而,在資本與熱度背后,整個領域正面臨標準化缺失帶來的發展瓶頸:各大研究機構各自為戰,技術路線分散、實驗難以復現、工程效率低下,形成了一座座“技術巴別塔”。
學術界雖已涌現Pi0、OpenVLA、CogACT等代表性模型,產業界也在持續推動機器人實現“聽得懂、看得懂、做得對”,但不同團隊采用的框架、基座與接口各不相同,導致研究成果難以橫向對比,工業落地也缺乏統一的技術底座。
這樣的背景下,Dexmal原力靈機在2025年推出了一站式視覺-語言-動作(VLA)開源工具箱——Dexbotic。
它以“實驗為中心”為核心設計理念,結合跨模態預訓練模型DexboticVLM與配套開源硬件DOS-W1,構建出一個軟硬件協同的具身智能基礎設施。Dexbotic不只是一個模型框架,更像是具身智能領域的底層系統,為研究者和工程團隊提供了可復現、可擴展、可落地的統一底座,幫助行業擺脫重復造輪子的困境。
那么,現在的具身智能行業面臨著哪些挑戰?為什么一個像Dexbotic一樣的VLA模型工具箱如此不可或缺?
![]()
在過去幾年里,具身智正在成為人工智能領域最具潛力的研究方向。
從RT-2到OpenVLA,再到Pi0,越來越多的研究試圖讓機器人同時“看得懂”“聽得懂”“做得到”。
然而,隨著研究不斷深入,一個根本性挑戰浮出水面:VLA領域正陷入一場巴別塔困境,它的復雜度不僅在算法,更在實驗體系的割裂與工程鏈條的低效。就像神話故事中那座因語言混亂而永遠未能建成的高塔,當前VLA研究雖目標一致,卻因技術路線、開發框架和評估標準的割裂,導致整個領域難以形成合力、構建起統一的技術大廈。
盡管論文數量與模型規模迅速增長,VLA研究卻陷入了結構性割裂。每個團隊都有自己的模型結構、訓練管線和數據格式,有的用JAX,有的用TensorFlow,大部分轉向PyTorch。看似同一個任務,模型結構和接口等底層實現卻完全不兼容,復現一個實驗往往要從零搭建環境。
這種割裂直接拖慢了研究進程。進行算法對比評測時,研究人員需要為每一種不同的VLA策略配置多份獨立的實驗環境、適配不同的數據格式,并手動調整復雜的參數配置文件。大量時間被耗費在“配環境”和“跑通代碼”上,而非算法創新本身。結果就是,實驗難以復現、性能無法公平比較,模型迭代也遠遠落后于基礎大模型的進步節奏。
![]()
并且,大多數現有的VLA模型往往基于過時、不同時期的VLM核心進行構建。它們無法快速集成最新的、性能更強大的大型語言模型,導致VLA模型的感知和語言理解能力無法與前沿LLM發展保持同步,從而限制了機器人處理復雜、泛化任務的能力。
碎片化的巴別塔困境不僅讓具身智能研究陷入效率困境,也讓產業界望而卻步。機器人廠商想應用VLA,卻發現不同模型難以遷移;高校和研究機構想復現論文,卻要從頭搭建環境。整個領域像在并行造輪子,進展雖快,卻缺少一條能讓研究成果持續疊加的公共底座。
在這樣的背景下,學界與產業界逐漸認識到:具身智能的下一階段突破,將由開源體系所驅動。產業迫切需要一套統一、開放、可復現的框架,使VLA研究能像大語言模型一樣實現標準化與模塊化。
換言之,當前領域最迫切需要的不是又一個模型,而是一個能終結巴別塔困境的開源基礎設施——一個能讓實驗、代碼、數據與模型高效循環的開放體系,以此凝聚社區力量,引領具身智能的協同演進。
![]()
在這樣一個割裂的研究生態中,Dexbotic的出現顯得格外及時。
2025年,Dexmal原力靈機推出了Dexbotic,一整套基于PyTorch的開源VLA模型工具箱,試圖解決具身智能發展道路上的系統性瓶頸。
首先,一個強大統一的底座讓VLA領域的快速復現、公平比較成為可能。
Dexbotic的核心設計理念是統一。它將所有VLA方法重新抽象為兩大模塊:視覺語言模型(VLM)與動作專家(ActionExpert)。VLM由視覺編碼器、投影層和大語言模型組成,用于理解視覺與指令信息;ActionExpert則負責將這些信息轉化為具體動作,無論是DiffusionTransformer、MLP還是MoE,都可以在同一接口下實現。
![]()
這種架構實現了VLA在結構層面的標準化:不同團隊、不同算法、不同機器人不再割裂,而能在同一框架中被復現、比較和擴展。
并且,Dexbotic不僅提供框架,還自帶了強大的預訓練模型基座。團隊自研的DexboticVLM采用CLIP作為視覺編碼器,結合Qwen2.5語言模型,并通過跨模態對齊預訓練,讓模型在理解視覺信息與語言指令的關聯上更為精準。與以往基于LLaMA2的方案相比,它在感知和語言理解能力上都有顯著提升。以 SimplerEnv-Bridge基準測試為例,Dexbotic版本的CogACT(DB-CogACT)的平均成功率絕對值超越了官方CogACT 18.2% ,而DB-OFT的平均成功率則絕對提升了46.2% ,充分展示了Dexbotic預訓練模型的強大性能。
![]()
在系統設計上,Dexbotic的強大性能遠不止軟件層面。它支持多構型本體(multi-configuration embodiment),能夠在單臂、雙臂、移動操作平臺乃至全身控制任務間無縫切換。無論是humanoid機器人、倉儲機械臂,還是服務類機器人,都可以在同一架構下共享訓練邏輯與模型能力,使具身智能的研究從單一平臺走向多樣形態的協同發展。
其次,如果說統一架構解決了“能否運行”的問題,那么Dexbotic引入的“以實驗為中心”的開發范式,則進一步解決了“能否高效運行”的挑戰。
作為對LeRobot等機器人學習框架的升級,Dexbotic進一步優化了實驗定義流程。Dexbotic通過Python腳本定義實驗,用戶只需繼承基礎實驗模板(BaseExp),修改少量字段,即可構建新的實驗流程。這讓整個開發過程從調配置變成了寫邏輯,更貼近研究者的思維習慣,讓VLA研究回歸實驗本質。
架構上,Dexbotic分為三層:數據層、模型層與實驗層。
數據層負責整合和標準化多構型本體的數據,將來自不同機器人平臺的原始信息統一轉化為Dexdata格式。這一格式兼容UR5、Franka、ALOHA等多種真實機器人及多視角輸入,使得不同實驗之間的數據能夠無縫互通;模型層匯聚了包括Pi0、MemoryVLA在內的多種主流VLA算法,為研究者提供標準化的實現和統一的接口,方便在同一框架下進行復現、比較與擴展,而實驗層則是整個系統的中樞,承擔快速開發與部署的功能。它既支持在阿里云與火山引擎等云平臺上運行,也能在消費級顯卡上完成訓練與測試,確保模型能夠在各類主流仿真環境及真實機器人上穩定落地。
![]()
基于這一架構,Dexbotic將VLA的開發周期從月、周級別縮短至天級別。研究者不再需要重復搭建環境,僅需幾行腳本即可完成實驗驗證、模型微調與性能比對。
值得注意的是,Dexbotic在設計之初就為未來的“全身智能”接口預留了接口。它已經實現了操控與導航的統一,并為全身控制下拓展空間。這意味著,機器人未來不僅能伸手,還能走過去伸手;不僅能理解任務,還能自主規劃執行路徑。
為了讓這一具身智能的研究底座真正連接物理世界,Dexmal原力靈機也同步推出了首款開源硬件產品——Dexbotic Open Source - W1(DOS-W1)。
這款硬件采用全面開源的設計理念,計劃公開包括技術文檔、物料清單、結構圖紙、組裝指南及核心代碼在內的所有資料。模塊化的快拆結構與可替換部件大幅降低了實驗搭建與維護的門檻,符合人體工學的抗疲勞設計則提升了長時間操作與數據采集的舒適度與穩定性。
![]()
未來,Dexmal原力靈機將聯合更多產業伙伴,持續拓展Dexbotic Open Source系列產品,以開源硬件為載體,讓具身智能研究從仿真走向現實,加速機器人技術在實際場景中的落地與應用。
而這些設計不僅體現在工程實踐上,更在研究方法上帶來重要革新。
從學術角度看,Dexbotic的貢獻在于讓VLA研究第一次具備了結構化、可復現、可擴展的標準;從工程角度看,它提供了通用的底層模塊與實驗接口,打通了數據、模型、控制三者之間的壁壘;而從生態角度看,它為具身智能建立了一個真正開放的合作平臺,讓研究成果能夠以模塊化形式共享與演化。
可以說,Dexbotic正在為具身智能從局部控制邁向整體認知鋪路:它不只是一個框架,更接近于具身大腦的雛形。
![]()
Dexbotic的推出,正在推動具身智能研究進入加速發展階段。
它讓VLA從碎片走向統一,從實驗走向生態。
對于學術界而言,這意味著公平與復現。長期以來,具身智能研究面臨著算法復現困難、實驗標準不一的問題。不同團隊采用的數據集、訓練框架乃至評估指標各不相同,導致結果難以橫向比較,研究壁壘高筑。Dexbotic提供了統一的代碼庫與預訓練模型,打破了實驗復現的壁壘,讓不同算法能夠在同一基線上公平比較。研究者可以在同一平臺上對比Pi0、CogACT、OpenVLA等不同策略,真正隔離出算法差異;實驗可復現、結果可量化讓學術競爭回歸科學本質。
在工程與產業層面,Dexbotic降低了VLA落地的門檻。對于眾多企業,尤其是資源有限的中小團隊而言,從零開始構建并訓練一個成熟的VLA模型,意味著巨大的時間與資金成本。Dexbotic提供的“模塊即用”式解決方案,允許開發者直接在其預訓練模型基礎上,針對特定機器人平臺與應用場景進行高效微調。這種“模塊即用”的工程思路將大幅壓縮從實驗到產品的周期,使中小團隊也能快速驗證具身智能應用。
![]()
而從更宏觀的視角看,Dexbotic的開源或將推動具身智能走向標準化。它通過提供統一的代碼實現、模型接口與評估基準,將全球的研究與工程力量匯聚到同一個開放生態中,確保了不同技術路徑的可復現性與公平可比性。當越來越多的模型、算法和數據匯聚在同一個開放生態中,創新的速度將被成倍放大。
在現實測試中,Dexbotic已經展示出強勁的泛化能力。在UR5、Franka、ALOHA等多種機器人平臺上,它穩定完成復雜任務:擺盤成功率100%,堆疊碗具90%,搜索物體80%。而這正是具身智能的最終目標:從代碼走向動作,從模擬走向現實。
具身智能的持續發展,離不開像Dexbotic這樣的基礎設施支持。它讓研究和工程的邊界變得模糊,讓算法與機器人真正合為一個系統。它不僅加速了VLA研究的節奏,也讓具身智能的發展路徑變得更清晰。
![]()
Dexbotic為全球研究者提供了一套統一的評測基礎:通過統一的數據格式、工具鏈,并聯動RoboChallenge大規模真機評測標準,令不同機器人能夠在相同的基準與開放生態下公平競賽。可以說,Dexbotic奠定技術底層,RoboChallenge則點亮場景高光,二者共同勾勒出從實驗室到真實應用的完整閉環。
或許在不遠的將來,當我們談論機器人如何理解世界、與人協作時,Dexbotic這個名字,會像操作系統或編譯器一樣,成為這場變革背后看不見的基礎;而RoboChallenge這樣的標桿測試,則將持續為這個快速演進的領域樹立真實世界的衡量標準和創新燈塔。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.