![]()
新智元報道
編輯:犀牛
【新智元導讀】TwinRL用手機掃一遍場景構建數字孿生,讓機器人先在數字孿生里大膽探索、精準試錯,再回到真機20分鐘跑滿全桌面100%成功率——比現(xiàn)有方法快30%,人類干預減少一半以上。
讓機器人真正「走出演示數據」的那一刻,發(fā)生了什么?
你花了兩周時間,手把手遙操作教一個機械臂抓香蕉放盤子。桌子左半邊,它學得像模像樣,十拿九穩(wěn)。
然后你把香蕉往右邊挪了15厘米。
機械臂愣住了。
它不是「沒學好」,而是從來沒見過那個位置。
對它來說,桌子右半邊就是另一個宇宙。
這不是段子,這是2025年幾乎所有VLA模型在真實世界里的真實處境。
過去兩年,Vision-Language-Action(VLA)模型席卷機器人領域。
從「看圖+聽話+動手」,到多任務、多場景的泛化執(zhí)行,VLA讓機器人第一次看起來像「理解世界」的智能體。
論文里成功率動輒90%以上,演示視頻拍得漂亮極了。
但真正做過真機實驗的人都知道,這里面藏著一個所有人都心知肚明、卻很少有人正面回答的問題:
如果沒有人類不斷示范,機器人還能不能自己學?
答案是——幾乎不能。
現(xiàn)實的殘酷在于:
人類示范(Teleoperation)昂貴、低效、覆蓋有限——一個人手握操控桿操作一天,也就覆蓋桌面的一小片區(qū)域
在線強化學習(RL)在真實機器人上慢、危險、資源消耗大——機械臂一個探索失誤,可能直接撞壞傳感器
但這些都還不是最致命的。
最致命的是——
RL的探索空間,被SFT演示數據牢牢鎖死。
哪怕你給機器人再多獎勵,它也只會在「演示數據附近」打轉。
就像一個只在家門口遛過彎的人,你跟他說「去探索世界」,他轉一圈還是回到了自家樓下。
探索,根本沒有發(fā)生。
這個問題被回避得太久了。
直到TwinRL,第一次把它撕開,攤到臺面上。
近日,至簡動力、北京大學計算機學院多媒體信息處理國家重點實驗室、清華大學、香港科技大學,提出了一種面向真實世界機器人操作的數字孿生協(xié)同強化學習框架TwinRL(Digital Twin-DrivenReinforcement Learning),可直接在真實機器人上高效執(zhí)行在線強化學習并系統(tǒng)性擴展探索空間。
據行業(yè)知情人士透露,至簡動力目前估值已逼近獨角獸陣營。成立半年即獲得如此密集的頂級資本加持,在整個具身智能賽道中也極為罕見。
TwinRL的核心洞察:RL的問題,不是學不會,而是探索空間被限制。
通過系統(tǒng)性的真實機器人實驗,TwinRL團隊觀察到一個關鍵現(xiàn)象:
真實世界中,VLA的有效探索空間,幾乎完全由SFT數據分布決定。
這意味著什么?
RL更像是「重加權」,而不是「開新路」
Out-of-Distribution(OOD)區(qū)域,對SFT模型來說幾乎不可達
即便加入Human-in-the-Loop,也只是緩慢地「挪邊界」
問題不在算法,而在探索空間本身。
于是,一個大膽的想法出現(xiàn)了:
如果真實世界沒法并行探索,那就把「探索」這件事,提前搬到一個「可控、可擴展的世界」里。
這個世界,就是數字孿生(Digital Twin)。
TwinRL:不是「模擬器」
而是探索放大器和探索指引器
和傳統(tǒng)「仿真+real2sim」不同,Digital Twin不是用來替代真實世界的,而是用來「放大真實世界探索能力」的。
TwinRL構建了一個數字孿生–真實機器人協(xié)同強化學習框架,核心由三步組成:
一、探索空間擴展(Exploration Space Expansion)
使用手機拍攝真實場景
基于3D Gaussian Splatting高效重建高保真數字孿生
在孿生環(huán)境中生成遠超人類示范覆蓋范圍的合成軌跡
在SFT階段就顯式拓寬數據分布支持
不是「學得更好」,而是一開始就站在更大的世界里。
二、數字孿生中的并行在線RL
真實機器人無法并行試錯,但數字孿生可以。
TwinRL在部署前:
在數字孿生中高效并行執(zhí)行在線RL
生成RL風格的高質量探索軌跡,橋接offline→online
這一步極大緩解了真實世界RL的冷啟動和不穩(wěn)定問題。
三、Sim-to-Real引導的人在回路探索
數字孿生不僅「多」,而且「準」。
TwinRL會:
在孿生環(huán)境中自動識別失敗高發(fā)但信息密集的配置
精準引導人類只在「最有價值的位置「介入
大幅減少無效示范和重復操作
人類不再是苦力,而是策略級引導者。
數字孿生協(xié)
同強化學習框架TwinRL
與以往僅在單一初始配置上達到高成功率不同,TwinRL 實現(xiàn)的不是「一個點 100%」,而是在更廣的工作空間范圍內(包括分布外 OOD 區(qū)域)實現(xiàn) 100% 的成功率覆蓋。
在 4 項真實世界操作任務中,TwinRL 平均僅需約 20 分鐘即可完成在線強化學習收斂,相比現(xiàn)有真實機器人 RL 方法實現(xiàn)至少 30% 的加速,同時顯著降低了人類干預需求。
此外,即使在物體位置擾動與環(huán)境變化條件下,TwinRL 依然能夠保持穩(wěn)定表現(xiàn),展現(xiàn)出更強的空間泛化與探索能力。
真機測試視頻
![]()
論文鏈接: https://arxiv.org/abs/2602.09023
項目主頁: https://sites.google.com/view/twinrl/twinrl
1. 摘要
盡管視覺–語言–動作(Vision-Language-Action, VLA)模型在機器人操作任務中展現(xiàn)出良好的泛化能力,其在真實世界中的應用仍受到高成本人類示范數據和有限真實交互的制約。
在線強化學習(Reinforcement Learning, RL)為提升模型能力提供了基于環(huán)境反饋的有效途徑,但在真實機器人場景中,其探索效率與可擴展性仍然受到顯著限制。
通過系統(tǒng)性的真實機器人實驗,研究團隊發(fā)現(xiàn):在線強化學習在真實世界中的有效探索空間,與監(jiān)督微調(Supervised Fine-Tuning, SFT)階段所使用的數據分布高度相關。
在此背景下,本文提出了一種數字孿生–真實機器人協(xié)同強化學習框架TwinRL,旨在對 VLA 模型的探索過程進行系統(tǒng)性擴展與引導。
TwinRL 首先利用手機采集的真實場景數據高效重建高保真數字孿生環(huán)境,實現(xiàn)真實世界與仿真環(huán)境之間的雙向遷移。
在監(jiān)督微調階段,框架通過數字孿生引入探索空間擴展策略,以顯式拓寬軌跡數據分布的支持范圍。
在此基礎上,TwinRL 進一步提出了一種 sim-to-real 引導的探索機制,在部署前于數字孿生環(huán)境中執(zhí)行高效并行的在線強化學習,從而有效銜接離線訓練與真實世界在線學習過程。
此外,框架還利用數字孿生中的高效采樣識別失敗頻發(fā)但信息密集的關鍵配置,用于引導真實機器人上的定向人類在回路探索。
在多個真實世界機器人操作任務上的實驗結果表明,TwinRL 在示范數據覆蓋區(qū)域及分布外區(qū)域均取得了穩(wěn)定性能提升,在顯著減少人類干預的同時,將真實機器人在線強化學習的收斂時間縮短至約 20 分鐘,并相比現(xiàn)有方法實現(xiàn)了至少 30% 的效率提升。
![]()
圖 1:整體框架(a)我們提出了TwinRL,一種數字孿生–真實機器人協(xié)同的強化學習框架。該框架通過引入數字孿生環(huán)境,將探索空間從人類示范所覆蓋的分布內區(qū)域擴展至分布外區(qū)域,并在數字孿生中執(zhí)行高效、并行的在線強化學習,從而實現(xiàn) sim-to-real 引導的探索過程,顯著提升真實機器人在線強化學習的收斂速度。(b)在四個機器人操作任務上的實驗結果表明,TwinRL 在在線強化學習階段收斂速度更快,并在真實世界示范覆蓋區(qū)域及分布外區(qū)域均取得了接近 100% 的成功率,平均約 20 分鐘即可達到該性能水平。由于 HiL-SERL 方法未包含監(jiān)督微調階段,其性能僅在分布內區(qū)域進行報告。
2. 研究背景
視覺–語言–動作(Vision-Language-Action, VLA)模型近年來在機器人操作任務中展現(xiàn)出良好的泛化潛力,能夠將自然語言指令直接映射為連續(xù)控制行為。
然而,現(xiàn)有 VLA 方法在真實世界部署中仍高度依賴人工示范數據(teleoperation),其獲取成本高、覆蓋范圍有限,且難以支持長期自主學習。
強化學習(Reinforcement Learning, RL)被認為是突破示范數據瓶頸的重要手段,但在真實機器人系統(tǒng)中直接應用在線 RL 面臨效率低、風險高、難以并行等現(xiàn)實約束。
尤其是在復雜物理環(huán)境下,機器人探索空間受到初始監(jiān)督數據分布的強烈限制,導致在線學習難以有效擴展到未覆蓋區(qū)域。
3. 核心觀察與研究動機
![]()
圖 2:探索瓶頸。(a) 我們將工作空間劃分為分布內區(qū)域(A)與分布外區(qū)域(B)。每個區(qū)域由任務完成時被操作物體中心的位置進行定義。(b) 熱力圖可視化展示了不同策略在各區(qū)域中的性能表現(xiàn)。(c) 學習曲線展示了 A-only 策略在兩個區(qū)域中進行在線強化學習時的訓練動態(tài)變化。
盡管在線強化學習(online RL)為提升任務魯棒性提供了探索路徑,但其在真實物理硬件上的樣本效率仍然面臨挑戰(zhàn)。
受到通用領域研究的啟發(fā),我們觀察到,在真實世界的 VLA 強化學習中,探索過程實際上受到監(jiān)督微調(SFT)階段所誘導的軌跡分布空間支持的嚴格約束。
這一約束帶來了雙重瓶頸:(1)限制策略能夠可靠探索的狀態(tài)集合;(2)即便引入人類干預,也顯著降低在線 RL 的學習效率。
實驗設置.
如圖所示,我們在一個高精度積木插入任務上開展實驗,該任務對空間位置精度要求較高。所有策略均基于 Octo 模型構建。我們將工作空間劃分為分布內區(qū)域 A(由示范數據覆蓋)與分布外區(qū)域 B(在 SFT 階段未被觀察到)。
瓶頸一.我們通過改變 SFT 示范的空間覆蓋范圍,分析其對策略泛化能力與自主在線 RL 的影響。具體比較兩種訓練數據分布:A-only,僅使用區(qū)域 A 的 30 條示范;A+B,在此基礎上加入來自區(qū)域 B 的 30 條數字孿生示范。為衡量示范覆蓋如何塑造探索空間,我們將策略初始化為 A-only SFT 模型,并在未見過的區(qū)域 B 中執(zhí)行自主在線 RL。
發(fā)現(xiàn)一.如圖所示,在每個網格單元內執(zhí)行 10 次 rollout。在區(qū)域 B 中,A+B 策略成功率達到 62.5%,而 A-only 策略完全局限于區(qū)域 A(區(qū)域 B 成功率為 0%)。這表明標準 SFT 策略在空間未覆蓋區(qū)域上的外推能力極其有限。更重要的是,從 A-only 模型出發(fā)在區(qū)域 B 中進行自主在線 RL 時,會出現(xiàn)明顯的探索死鎖現(xiàn)象。在 OOD 初始配置下,即使經過 40K 訓練步(約兩小時),策略仍無法穩(wěn)定獲得正獎勵。這一現(xiàn)象與此前工作的觀察一致:replay buffer 被失敗軌跡主導,導致自主適應幾乎失效。結果說明,在線 RL 的有效探索空間與 SFT 數據的空間覆蓋范圍高度相關。
瓶頸二.為緩解探索死鎖,可以引入人類在回路(HiL)干預,引導機器人完成任務。然而,關鍵問題在于:在人類指導可用的情況下,是否能夠保證在 OOD 場景下實現(xiàn)高效在線適應?為此,我們比較兩種設置:分布內后訓練(在區(qū)域 A 中進行在線 RL)與分布外后訓練(在區(qū)域 B 中進行在線 RL)。所有模型均初始化自相同的 A-only SFT 策略。
發(fā)現(xiàn)二.盡管在人類干預下,兩種設置都能獲得成功的糾正示范,但樣本效率差異顯著。如圖所示,分布內后訓練適應迅速,在約 45 分鐘(約 14K 交互步)內成功率超過 90%;相比之下,分布外后訓練收斂更慢且更不穩(wěn)定,在相同交互預算下未能達到可比性能。這些結果表明,即便引入 HiL 機制,在未見過的區(qū)域 B 中學習仍然困難。這主要源于不利的獎勵景觀以及 replay buffer 中數據分布失衡,顯著降低了梯度效率。
結論。上述觀察表明,要突破兩個瓶頸,必須在真實世界交互前擴展探索覆蓋范圍,并在在線階段系統(tǒng)性引導人類干預以提升學習效率。基于此,我們提出TwinRL —— 一個數字孿生與真實機器人協(xié)同的強化學習框架,將數字孿生作為探索放大器與引導器,貫穿 SFT 與在線 RL 兩個階段。
4. TwinRL 框架概述
整個框架由三個緊密耦合的階段構成:探索空間擴展、數字孿生并行在線強化學習以及 sim-to-real 引導的真實世界探索。
探索空間擴展策略.首先,我們構建高保真的數字孿生環(huán)境。通過手機采集真實場景并基于 3D Gaussian Splatting 進行重建,實現(xiàn)真實環(huán)境與仿真環(huán)境之間的幾何與視覺一致性。基于該孿生環(huán)境,我們在監(jiān)督微調(SFT)warm-up 階段引入探索空間擴展策略,在保持任務語義一致的前提下生成覆蓋更廣狀態(tài)配置的軌跡數據,顯式拓寬訓練軌跡分布的支持范圍,從而增強策略在分布外區(qū)域的可達性。
孿生在線 RL 階段.盡管我們的方法在 SFT 階段擴展了 VLA 模型的探索支持范圍,但在真實機器人上直接啟動在線強化學習仍然面臨兩個關鍵瓶頸。第一,監(jiān)督示范數據與 RL 風格專家軌跡之間的分布不匹配,可能在離線到在線過渡過程中引發(fā)嚴重的性能退化以及 Q 值不穩(wěn)定問題。第二,即便采用人類在回路(HiL)引導的在線 RL,仍然存在較高的樣本復雜度,并高度依賴操作者經驗。為了解決這些問題,我們將數字孿生作為并行計算引擎,引入“孿生在線 RL 階段”以及一種“失敗感知的探索機制”,從而將真實世界中的探索轉化為更加有針對性且樣本效率更高的過程。如方法圖 Stage II 所示,為了彌合示范數據與 RL 風格交互數據之間的分布差距,我們首先在數字孿生中執(zhí)行并行在線 RL。在該階段,策略從 SFT 模型初始化,并在 N 個并行孿生環(huán)境中進行交互訓練。優(yōu)化目標為:
。其中,與 SFT 階段所使用的損失相同;為強化學習目標,鼓勵策略選擇具有更高 Q 估計值的動作,其形式為對狀態(tài) s 和策略動作 a 的期望負 Q 值。通過這一過程,孿生在線 RL 階段能夠高效收集多樣化軌跡,包括成功執(zhí)行、失敗行為以及恢復策略,并將其存儲在孿生 replay buffer 中。由于并行處理能力,我們可以在約 1 分鐘內生成一批 rollout(例如每個 episode 約 30 步)。由于示范數據與 RL 風格交互數據之間存在分布差距,早期在線學習往往表現(xiàn)出不穩(wěn)定性。因此,在數字孿生中完成高效在線學習后,我們將孿生 buffer 中的數據遷移至真實世界 replay buffer,用于初始化真實訓練過程。通過提供更加均衡的訓練信號,該初始化策略能夠減少離線 SFT 向真實在線學習過渡階段的訓練不穩(wěn)定性,并緩解性能退化。此外,在后續(xù)的定向 HiL 引導在線 RL 過程中,該策略也有助于防止在已有良好性能配置上出現(xiàn)災難性遺忘。
真實世界在線 RL.如方法圖 Stage III 所示,我們利用數字孿生識別狀態(tài)空間中容易失敗的區(qū)域,并據此引導真實世界在線 RL 的初始狀態(tài)分布。與以往依賴真實 rollouts 的課程學習或重置策略不同,數字孿生可以在不消耗物理交互預算的前提下,以低成本、系統(tǒng)化方式評估策略在大范圍初始配置下的表現(xiàn)。具體而言,我們在數字孿生中評估當前策略,并構建目標初始狀態(tài)集合:
,其中表示從初始狀態(tài)出發(fā)的經驗成功率,為熟練度閾值。在真實世界在線交互過程中,優(yōu)先從中采樣初始狀態(tài)進行 episode 重置,使有限的真實交互預算集中于更具挑戰(zhàn)性的狀態(tài)區(qū)域。為進一步降低在困難區(qū)域探索的成本與風險,我們在真實機器人訓練中引入 HiL 機制。干預生成的軌跡被存入 replay buffer,并用于后續(xù)策略更新。不同于現(xiàn)有 HiL 方法,我們提出了一種新的引導機制:由數字孿生決定在真實世界 RL 過程中“何時”以及“何處”觸發(fā) HiL 干預,從而實現(xiàn)更加精準和高效的協(xié)同學習。隨后,我們利用數字孿生中的高效采樣識別失敗頻發(fā)但信息密集的關鍵配置,并據此引導真實機器人上的 targeted human-in-the-loop 交互,使有限的人類干預集中于最具學習價值的區(qū)域。
我們的貢獻總結如下:
我們通過系統(tǒng)性的真實機器人實驗揭示了真實世界 VLA 在線強化學習中“有效探索空間受 SFT 數據分布顯著約束”的關鍵現(xiàn)象,并據此明確了探索結構設計在真實世界 RL 中的重要性。
我們提出TwinRL數字孿生–真實機器人協(xié)同強化學習框架,通過數字孿生重建與雙向遷移,將數字孿生從驗證工具提升為探索擴展與引導的核心組件,實現(xiàn)從分布內示范到分布外區(qū)域的探索空間擴展。
我們提出探索空間擴展的 SFT warm-up 策略,并結合數字孿生中的并行在線 RL 與 failure-driven 的 sim-to-real 引導人類在回路探索機制,有效橋接離線與在線階段并顯著加速真實世界 RL 收斂;在四項任務中實現(xiàn)接近 100% 成功率,平均約 20 分鐘收斂,并獲得至少 30% 的訓練加速。
![]()
圖 3:TwinRL 框架。階段 I:從人類遙操作示范出發(fā),我們引入一種探索空間擴展策略,通過合成多樣化的數字孿生示范數據來拓寬 SFT 的覆蓋范圍。階段 II:隨后,基于 SFT 初始化的策略在數字孿生環(huán)境中進行可擴展、并行的在線強化學習,生成具有強化學習特征的 rollout 軌跡;這些軌跡被遷移至真實世界以初始化 replay buffer,從而穩(wěn)定在線學習過程。階段 III:在真實世界在線強化學習過程中,數字孿生高效且持續(xù)地識別失敗頻發(fā)但信息密集的物體配置,并據此引導有針對性的 Human-in-the-Loop(HiL)rollout。
5. 實驗結果
定量與定性分析.我們在 4 個真實世界操作任務上系統(tǒng)評估 TwinRL,包括 Pick-and-Place、Insert-Hexagon-Block、Insert-Triple-Column-Block 以及 Erase-Whiteboard。
所有實驗均在 7-DoF Franka Emika FR3 平臺上進行,并采用雙相機感知系統(tǒng)(固定第三視角 + 腕部相機)進行觀測。
我們報告成功率(SR)隨真實世界訓練時間與交互步數變化的曲線,用于比較不同方法的收斂速度與最終性能。
在分布內(ID)區(qū)域,TwinRL 在在線強化學習初始階段即表現(xiàn)出顯著更高的成功率,這一優(yōu)勢源于探索空間擴展策略在 SFT 階段對軌跡分布支持的拓寬。
相比僅使用真實示范的基線方法,TwinRL 在 0-step(真實交互開始前)即具備更強的部署先驗。
隨著在線 RL 進行,TwinRL 在大多數任務中均在約 20 分鐘內在分布內(ID)與分布外(OOD)區(qū)域完成收斂,達到 100% 成功率,而對比方法(ConRFT 與 HiL-SERL)則收斂更慢,或在相同交互預算下未能達到相當性能。
在分布外(OOD)區(qū)域,性能差距更加顯著。TwinRL 在 OOD 區(qū)域同樣實現(xiàn)接近 100% 的成功率,并保持穩(wěn)定的收斂曲線,而僅依賴真實示范初始化的策略往往在 OOD 區(qū)域出現(xiàn)探索死鎖,難以獲得穩(wěn)定的正獎勵信號。相比現(xiàn)有真實世界 RL 方法,TwinRL 在整體收斂速度上實現(xiàn)了至少 30% 的加速,顯著減少了達到高成功率所需的真實交互時間。
從穩(wěn)定性角度來看,所有方法在從離線 SFT 過渡到在線 RL 階段時都會經歷性能波動。然而,TwinRL 在該過渡階段表現(xiàn)出更小的性能退化,并能夠更快恢復至高成功率水平。這一現(xiàn)象與我們將數字孿生中并行在線 RL 軌跡遷移至真實 replay buffer 的設計一致,該機制有效緩解了離線–在線分布切換所帶來的梯度不穩(wěn)定問題。
真機online強化學習過程
![]()
圖 4:真實世界實驗。我們報告了四項操作任務在分布內(ID)與分布外(OOD)設置下進行在線強化學習的成功率曲線。縱軸表示成功率,橫軸同時給出在線訓練時間以及模型訓練步數。
![]()
消融實驗.我們選取 Insert-Hexagon-Block 任務進行消融分析。如圖所示,每一行均執(zhí)行 10 次 rollout 試驗。
探索空間擴展的影響。我們分析孿生數據的規(guī)模與分布如何影響 warm-up 階段的性能。表中報告了在不同 ID/OOD 合成軌跡增強設置下的成功率。與基礎模型相比,在 ID 與 OOD 各加入 30 條孿生軌跡的平衡設置下,成功率達到 57.0%(提升 30%),表明我們的數字孿生管線即便在高精度任務中,也能夠在整個工作空間生成高質量軌跡。進一步增加孿生數據量可帶來額外性能提升:將 ID 數據加倍(60/30)獲得最大收益,在 ID 區(qū)域成功率峰值達到 80%;增加 OOD 數據(30/60)則將成功率提升至 70%。總體來看,這些結果驗證了探索空間擴展策略能夠有效拓寬 SFT 的覆蓋范圍。需要注意的是,雖然更多合成數據有助于提升性能,但也會增加 SFT 時間成本,形成準確率與效率之間的權衡。
表 I:探索空間擴展的消融實驗。我們在 SFT warm-up 階段改變加入的孿生生成軌跡數量,并測量相應的成功率(SR)。
![]()
Sim-to-Real 引導 HiL 的效率。我們評估數字孿生引導的 HiL 在真實世界在線 RL 中的作用。如圖所示,我們對比了是否啟用孿生引導機制的 TwinRL。該機制利用數字孿生 rollout 識別信息密集的初始物體配置,并在必要時觸發(fā) HiL 干預。結果表明,啟用孿生引導干預能夠顯著減少真實訓練步數,在保持更高成功率的同時實現(xiàn)更快收斂。相反,在相同的策略初始化與 replay buffer 條件下,移除該機制會導致適應速度變慢、樣本效率降低。這說明,在 TwinRL 中,數字孿生不僅在部署前擴展探索支持,還在在線階段通過將真實交互引導至具有挑戰(zhàn)性且信息密集的狀態(tài)區(qū)域中發(fā)揮關鍵作用。
![]()
圖 x:Sim-to-Real 引導 HiL 的消融實驗。引導機制顯著加速了強化學習過程,在約 4k 步(約 14 分鐘)時達到 100% 成功率;而未使用引導機制的訓練收斂更慢,且最終成功率更低。
魯棒性分析.我們在此前未見過的環(huán)境擾動條件下,對 SFT 策略與 TwinRL 引導的在線 RL 策略進行零樣本魯棒性評估。這些擾動包括背景雜物干擾和光照變化。如圖所示,我們設計了三種測試條件:背景擾動(加入與任務無關的物體以形成雜亂場景)、變暗光照(整體均勻照明變化)以及動態(tài)光照(動態(tài)彩色光源與移動光影效果)。
實驗結果表明,在觀測分布發(fā)生偏移的情況下,TwinRL 的性能僅出現(xiàn)輕微下降,而僅經過 SFT 訓練的模型則表現(xiàn)出明顯更大的性能退化。這些結果說明,通過真實世界交互進行 RL 微調,可以推動策略形成更加穩(wěn)定的控制行為和更具抗噪能力的決策邊界。進一步地,TwinRL 通過孿生引導的 HiL 機制,將真實交互集中于高信息密度的關鍵配置,從而進一步增強了策略的魯棒性。
![]()
圖 x:魯棒性分析。我們在此前未見過的環(huán)境擾動條件下,對 SFT 策略與 TwinRL 引導的在線 RL 策略進行對比;上排展示了擾動場景示例。
具身智能的技術閉環(huán)
至簡動力團隊通過一系列環(huán)環(huán)相扣的研究,他們正在構建起具身智能的「三部曲」:從強大的基座模型出發(fā),通過創(chuàng)新的推理范式,最終實現(xiàn) 100 分的在線進化與實際落地。
第一步:LaST?——構建隱式時空思維基座
一切進化的起點源于基座能力的突破。至簡動力近期發(fā)布的LaST?基座模型,首次將世界模型對物理世界的理解、預測及VLA的快慢思維融合。
技術核心:精細操作僅依靠語言是不夠的,更依賴對物理世界的充分理解和精準預測, LaST? 在latent space對語言邏輯、視覺語義、3D空間結構以及機器人狀態(tài)聯(lián)合建模及生成預測,在保證高頻動作執(zhí)行流暢的前提下,顯著提升了對物理世界動態(tài)的高效推理能力。
解決痛點:如果說傳統(tǒng)模型容易在復雜動態(tài)環(huán)境下容易失效、“反應遲鈍”, LaST? 則解決了機器人“怎么一邊想一邊快速動”的難題。
第二步:ManualVLA——打通“推理到執(zhí)行”的精細操作說明書
有了強大的基座,如何讓機器人真正理解復雜的的長程任務?針對推理到執(zhí)行的閉環(huán),至簡動力提出了 ManualVLA。
技術核心:它貫通了生成式推理與低層動作執(zhí)行,使模型能夠從目標狀態(tài)出發(fā),自動生成類似人類使用的多模態(tài)“操作說明書”,基于說明書實現(xiàn)精細長程操縱。
應用表現(xiàn):這使得機器人能完成細粒度的長程操縱。在樂高組裝等復雜任務上,其平均成功率比此前最優(yōu)方法高出 32%。它完美回答了機器人“怎么想清楚再動手”的問題。
第三步:TwinRL——借助數字孿生實現(xiàn)“100分”的在線進化
當模型具備了推理與執(zhí)行能力,最后的關鍵在于如何讓它在真實世界中持續(xù)進化,實現(xiàn)真正的VLA落地。基于上述統(tǒng)一的模型能力,至簡動力進一步提出 TwinRL。
技術核心:TwinRL 借助數字孿生擴展了真機強化學習的探索空間,極大提升了探索效率。
突破性指標:實驗驗證顯示,在多個任務上,機器人少于 20 分鐘即可在桌面區(qū)域達到 100% 的成功率,包括真機數據成功覆蓋了訓練分布內與分布外區(qū)域。
進化價值:TwinRL 真正解決了“怎么讓機器人在真實世界里自己變強”的終極挑戰(zhàn)。
結語:一體化 VLA 范式的落地元年
我們在這篇文章中,將至簡動力的三項核心技術——LaST?(基座與推理)、ManualVLA(指令與執(zhí)行)、TwinRL(進化與落地)有機串聯(lián),構建起一個從基礎研究到產業(yè)落地的完整故事閉環(huán)。
這三者共同構成了至簡動力「推理—執(zhí)行—進化」的 VLA 技術三角。
從「紙面論文」到 「 物理閉環(huán) 」 ,見證至簡動力如何重塑具身智能 VLA 范式。
這不僅是學術上的領先,更是一場真正一體化 VLA 基礎模型范式從論文走向真實產線和場景的躍遷。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.