至簡動力賈鵬：用「極簡」架構，讓機器人20分鐘即達100%成功率

2026-03-18 11:04:26　來源: RoboX

北京舉報

分享至

人物簡介

賈鵬|至簡動力創(chuàng)始人兼CEO，曾任理想汽車智駕技術研發(fā)負責人，主導多項關鍵技術研發(fā)。此前在英偉達、IBM任職，經(jīng)驗深厚。2025年他進入具身智能領域，創(chuàng)立至簡動力，提出創(chuàng)新架構，半年獲五輪20億融資。

在近日舉辦的GTC上，賈鵬以新身份首次深入剖析了具身智能通用能力與工業(yè)高要求之間的矛盾，并重點分享了至簡動力在基座模型上的突破性實踐——基于「大一統(tǒng)」的基座模型架構，其團隊已可實現(xiàn)在短短20分鐘內(nèi)，實現(xiàn)下游任務100%的成功率。

骨感現(xiàn)實中的巨大鴻溝

在具身智能實際的落地過程中，存在一個巨大的現(xiàn)實鴻溝：目前具身智能的整體泛化能力比較差，尤其在靈巧操作任務上，幾乎沒有任何泛化能力可言，大多數(shù)場景中都存在落地難題。

為了制作Demo，大家往往會針對單一任務大量采集數(shù)據(jù)。可即便如此，很多精細操作任務的成功率也難以提高。與此相對的是，在工廠等應用場景中，只有達到100%的成功率，才能真正形成生產(chǎn)力，對用戶產(chǎn)生價值。

“通用能力的不足與用戶的高要求之間存在著巨大鴻溝，這也是具身智能發(fā)展至今仍未大規(guī)模落地的真正原因。”

賈鵬介紹稱，至簡動力（Simplexity Robotics）希望以極簡架構破解復雜難題——通過打造簡單統(tǒng)一的底層框架，致力于讓通用基座模型兼具「高泛化性」與「100%任務成功率」，跨越落地鴻溝，形成真正的工業(yè)生產(chǎn)力。

要想達成這一目標，需要在四個方面努力：

1、構建高上限的基礎模型；2、更高效的數(shù)據(jù)采集方式；3、確保模型能快速達到100%的成功率；4、實現(xiàn)端側的實時推理和訓練

他尤其指出，很多工廠對節(jié)拍和延時有非常高的要求，系統(tǒng)必須具備實時的推理能力。同時，很多工廠因為保密原因不允許接入外網(wǎng)，因此具身模型必須部署在端側，這極具挑戰(zhàn)。

三大技術流派的利與弊

賈鵬介紹稱，目前具身智能模型的技術路線并不收斂，行業(yè)內(nèi)還存在路線之爭，主要分為以下三個流派：

1、雙系統(tǒng)范式：利用一個較大的VLM進行指令的理解和任務的拆解，再通過一個較小的、端到端的VLA模型做快速的執(zhí)行。

2、端到端的VLA模型：它將指令理解、任務拆解以及動作生成合為一個整體，端到端地去完成任務。

3、世界模型：這是最近比較熱門的路線，它不再以傳統(tǒng)的VLM作為基礎，而是基于視頻生成模型或者是高斯?jié)姙R生成模型，實現(xiàn)對世界的理解、預測以及動作的生成。

這三條路線都有各自的優(yōu)勢和不足。

1、雙系統(tǒng)基于VLM對任務的拆解和調(diào)度，其優(yōu)點是可以處理長程任務。但由于雙系統(tǒng)是由兩個不同的模型構成的，二者運行幀率不同，因此協(xié)同與聯(lián)合訓練都非常困難。

“事實上，我們團隊是全球最早提出并量產(chǎn)雙系統(tǒng)的團隊，因此踩過非常多的坑。”

2、端到端VLA模型普遍基于預訓練的VLM去做具身的指令微調(diào)。在此過程中，大家都發(fā)現(xiàn)災難性遺忘是不可避免的：第一是視覺能力的遺忘，第二是語言的思維鏈（CoT）能力的遺忘。

“行業(yè)已普遍認為視覺是具身智能中最重要的模態(tài)，那么一旦視覺識別能力下降，對靈巧操作的影響就非常大。因此，很多VLA模型訓練出來之后，泛化能力幾乎為零。”

3、世界模型相對于雙系統(tǒng)和端到端VLA，是一個巨大的范式變化——它從「以語言為中心」轉向「以視覺為中心」、從「以理解為主」轉向「以生成為主」。

不過，該方法同樣伴隨著語言中的幻覺問題。所以目前世界模型在靈巧操作上的性能并沒有超過VLA。同時它還有一個劣勢，就是對算力的要求非常高。

基座模型的「大一統(tǒng)」設計哲學

在此背景下，至簡動力認為，所有的模型設計都應追求結構簡單。隨著數(shù)據(jù)的增加，這種沒有太多人為先驗設計的結構，上限反而會更高。

首先賈鵬認為，具身基礎模型需要四種能力：

1、多模態(tài)理解與建構：它需要對語言指令、任務邏輯、3D空間及其時序變化以及本體自身的狀態(tài)進行統(tǒng)一的理解和建構，這意味著模型的輸入天生就是多模態(tài)的，而且多模態(tài)之間必須進行統(tǒng)一的建模和編碼，而非簡單的跨模態(tài)對齊。

2、閉環(huán)交互與多模態(tài)生成：模型在理解指令和任務的基礎之上，需要與世界進行交互，而這個交互一定是閉環(huán)的——動作會改變世界，同時世界的變化也會影響動作。這就意味著需要同時對世界的變化和動作進行聯(lián)合生成和預測，所以模型的輸出也是多模態(tài)的。

3、快慢思考：模型對實時性的要求非常高，所以其結構必須非常適合端側的推理。但僅僅是條件反射式的響應還是不夠的，它需要具備在關鍵時刻深入思考的能力，并且能根據(jù)工況自適應地調(diào)整思考的速度。

4、自我評估與調(diào)整：模型還需要具備對自身狀態(tài)作出評估的能力，并且根據(jù)評估的狀態(tài)調(diào)整動作的生成。

綜上所述，這樣的模型實際上綜合了雙系統(tǒng)、端到端VLA和世界模型的所有優(yōu)點。“所以，未來通用的具身基座模型，一定是一個大一統(tǒng)的模型。”所謂「大一統(tǒng)」，是四個方面的一體化：

?多模態(tài)理解的一體化、多模態(tài)生成的一體化、快慢思考的一體化，以及策略（Policy）和價值（Critic）的一體化。

“我們心目的大一統(tǒng)模型，是只使用單一的Transformer網(wǎng)絡，就能實現(xiàn)多模態(tài)的理解和生成。但是對于我們至簡這樣的初創(chuàng)團隊來說，從零訓練一個原生多模態(tài)的模型是非常困難的。”

在此背景下，至簡破局的方法是采用MoT (Mixture-of-Transformer)架構。這是一種在已有模型之上實現(xiàn)原生多模態(tài)能力的架構，其核心思想是，讓不同的模態(tài)通過共享的attention層層實現(xiàn)跨模態(tài)的信息交互。

“它的輸入被統(tǒng)一為Token序列，不同模態(tài)保留獨立的QKV和FFN網(wǎng)絡，但是通過共享的attention層進行聯(lián)合建模。”

相比于從零訓練原生多模態(tài)模型，MoT的優(yōu)勢在于它可以復用已有的單模態(tài)預訓練模型，成本非常低。此外，它可以靈活擴展新模態(tài)，便于靈巧操作的拓展。

同時，通過實踐，至簡團隊發(fā)現(xiàn)擴散模型在3D動作生成的效果上明顯優(yōu)于自回歸模型。而由于MoT的不同子網(wǎng)絡可采用不同的訓練目標，所以它天然兼容了自回歸和擴散兩種生成方式。

至簡基座模型LaST?

賈鵬介紹稱，至簡動力的具身基座模型LaST?，將理解和生成合一，引入了高效的時空多模態(tài)CoT，將VLA和世界模型的優(yōu)點結合在一起，在緊湊的隱空間中對物理世界進行建模和預測。

在隱空間（Latent space）中，LaST?會同時自回歸地預測二維圖像、三維點云以及本體的感知狀態(tài)，實現(xiàn)了多模態(tài)的思維鏈，獲得優(yōu)秀的空間推理能力。同時，多模態(tài)的時空CoT也被擴展到未來的關鍵幀上，實現(xiàn)了時序上的預測和生成。

經(jīng)過大規(guī)模的預訓練，MoT實現(xiàn)了在快慢系統(tǒng)的統(tǒng)一架構中自主切換，有效地實現(xiàn)了深度思考與快速響應之間的無縫交互，從而實現(xiàn)了更高的推理效率，并保證了高幀率、低延時的要求。

至簡團隊在仿真任務和真實場景上評估了LaST?的效率。結果顯示，在仿真和真實場景中，LaST?均實現(xiàn)了SOTA，大幅超越了之前的基座模型，同時比顯式的CoT方法實現(xiàn)了約14倍的加速。

在長程任務中，LaST?也具備很好的容錯能力，即使中間被故意打斷，它也能從錯誤中快速恢復。

「每個模態(tài)僅需一個Token」

“我們發(fā)現(xiàn)，2D視覺語義、3D空間結構以及機器人自身狀態(tài)都需納入考量——模態(tài)越豐富，精細操作成功率越高。由此，多模態(tài)建模產(chǎn)生的大量Token引發(fā)業(yè)界擔憂，因其或許會降低模型推理效率。”

但賈鵬指出，實際上，每個模態(tài)僅需一個Token，再增加Token也并不會顯著提高成功率。

“我們還發(fā)現(xiàn)，持續(xù)預測幀數(shù)越多，模型效果越好。不過，實際部署中，不同難度任務所需的預測時長不同。通過大規(guī)模預訓練，模型能自適應調(diào)整預測時長，以最佳推理速度完成任務，這實現(xiàn)了另一種形式的快慢系統(tǒng)。”

根據(jù)評估結果，LaST?在真實和仿真場景中均達SOTA水平，遠超之前基座模型，且比顯式CoT方法加速約14倍。長程任務中，LaST?容錯能力強，即便中間被打斷，也能快速從錯誤中恢復。

如何應對「災難性遺忘」？

在上文提到的「VLM具身微調(diào)的災難性遺忘」問題中，影響最大的是視覺能力的遺忘。可以發(fā)現(xiàn)，隨著VLM模型層數(shù)的加深，視覺特征會逐漸減弱甚至消失。

相比之下，MoT是個非常靈活的架構，可以將視覺特征注入到更深層的Transformer層中，大幅提升模型性能。

在評估實驗中，LaST?模型僅通過數(shù)十條數(shù)據(jù)就能實現(xiàn)煎雞蛋、盛爆米花，甚至使用筷子這樣復雜的操作。

其中一個案例展示是「3D樂高積木搭建」——先由人搭建積木，并故意遮擋攝像頭，不讓模型看到人是拼搭過程。之后模型會根據(jù)最終狀態(tài)和空白時的初始狀態(tài)，推理出整個搭建過程，并驅(qū)動機械臂復刻出相同的形狀。

“它有自己的思路，搭建過程可能跟人完全不同。我們通過語言的思維鏈描述搭建邏輯和過程，并最終通過動作生成實現(xiàn)積木拼搭。”

數(shù)據(jù)規(guī)模化的最佳方案

目前行業(yè)獲取數(shù)據(jù)有以下幾種方法：

1、合成數(shù)據(jù)：可以快速實現(xiàn)數(shù)據(jù)的規(guī)模化，但在柔性物體、可變形物體、透明物體和流體的模擬上存在不足，對觸覺、力覺的模擬上也有所欠缺，無法滿足落地的需求。

2、真機數(shù)據(jù)采集：真機采集和真實任務的Domain Gap是最小的，但是效率非常低下。

3、遙操作：這種半真機采集效率非常高，但其硬件往往需要末端執(zhí)行器和真機保持一致，大大地限制了使用范圍。

4、Ego-centric數(shù)據(jù)：基于人類第一視角的視頻，數(shù)據(jù)來源非常廣泛。但實踐下來，此類數(shù)據(jù)質(zhì)量并不高，在需要力、觸覺等精細操作的場景下，僅僅依靠視頻是不夠的。

至簡動力選擇的是便攜式手套進行數(shù)據(jù)采集。它既能保證數(shù)據(jù)采集的效率，也能保證數(shù)據(jù)的質(zhì)量，同時還能很方便地擴展到更多的模態(tài)，比如說觸覺、力覺等等。

“我們認為這是目前數(shù)據(jù)規(guī)模化的最佳方案。這些數(shù)據(jù)不僅可以適配到不同形態(tài)的靈巧手上，同時也能適配到二指和三指夾爪上。”

針對垂直領域任務，高質(zhì)量的SFT數(shù)據(jù)至關重要。在工廠落地場景中，傳統(tǒng)真機采集往往是不可行的。相比之下，便攜式數(shù)據(jù)手套不僅不影響正常作業(yè)，還能通過額外收益提升工人配合度。實踐證明，這種高精度的人手采集數(shù)據(jù)完全能滿足SFT對數(shù)據(jù)質(zhì)量的嚴苛要求，顯著提升了模型在下游任務中的抓取精度與成功率。

強化學習

從99%到100%的最后一公里

如何讓一個通用模型在單一任務上實現(xiàn)100%的成功率？強化學習（RL）已經(jīng)成為行業(yè)共識，但它也存在兩大問題：

1、效率極其低下：具身的強化學習監(jiān)督信號非常稀疏，往往只有動作完成和未完成兩種結果。為了增加過程監(jiān)督信號，大家往往通過人工干預提供稠密的Reward信號，但隨之而來的負面問題是效率極其低下。

2、容易過擬合：經(jīng)過強化學習之后，模型往往失去了泛化性，過擬合到了單一場景，甚至只是小幅度地挪動一下目標物體的位置，模型都會失效。

賈鵬團隊發(fā)現(xiàn)，強化學習，尤其是RLVR，并不會創(chuàng)造新的知識，它只是重新調(diào)整了模型輸出的概率分布，強化學習的能力上限仍然是由基座模型的能力決定的。

為解決RL問題，至簡動力采取了虛實結合的方法，提出了Twin-RL框架。

“我們通過3D GS（高斯?jié)姙R）把場景重建為虛擬的數(shù)字孿生。在虛擬環(huán)境中，訓練的并非具體操作，而是放大模型的探索空間，并且通過并行訓練大幅提升探索的效率。另一方面，我們可以鎖定模型更容易出錯的位置，來指導真機的強化學習，提升效率。”

同時，當前的強化學習大多數(shù)都是針對動作（Action）的強化，但是Action往往只有成功和失敗兩種狀態(tài)，監(jiān)督十分稀疏。而至簡動力的基座模型具備了稠密的時空特征，可以針對過程中的特征進行更加稠密和更加高效的強化訓練。

基于此，至簡也提出了DoubleRL強化學習框架，在特征生成和動作生成兩個層面進行雙重的強化學習，效果和效率進一步提升。

“在大多數(shù)下游任務中，我們都可以在20分鐘內(nèi)實現(xiàn)100%的成功率，而且這個成功率是具備泛化性的成功率，在任意位置都能達到100%。”

由此看來，至簡動力已經(jīng)形成了一套行之有效的方法論：更高上限的一體化模型、更高效的數(shù)據(jù)采集方式、更高效的強化學習框架、端側的推理引擎和訓練框架。通過這套方法論，至簡可以在保證模型泛化性的同時，在最短的時間內(nèi)實現(xiàn)單一任務的100%成功率。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.