<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      直面VLA的阿喀琉斯之踵:TeleAI用「反探索」提升具身推理穩(wěn)定性

      0
      分享至



      在機(jī)器人具身智能領(lǐng)域,視覺 - 語言 - 動作(Vision-Language-Action, VLA)模型正以驚人的速度發(fā)展。從 RT-1、Octo 到最新的 π0、GR00T N1,這些集成了大規(guī)模視覺語言模型與機(jī)器人控制的系統(tǒng)展現(xiàn)出前所未有的泛化能力。然而,一個被長期忽視的問題正阻礙著 VLA 模型從實驗室走向真實世界 ——推理階段的不穩(wěn)定性。

      中國電信集團(tuán) CTO、首席科學(xué)家、中國電信人工智能研究院(TeleAI)院長李學(xué)龍教授聯(lián)合清華大學(xué)、中國科學(xué)技術(shù)大學(xué)團(tuán)隊直面這一挑戰(zhàn),提出了名為TACO(Test-time Anti-exploration via pseudo-COunts)的創(chuàng)新框架。該研究為解決 VLA 推理的不穩(wěn)定性提供了扎實的理論根基和實踐方案,通過在模擬基準(zhǔn)和真實機(jī)器人平臺上的實驗驗證了方法的有效性。在

      真實機(jī)器人實驗中,TACO 將任務(wù)成功率平均提升了 16%,在長周期任務(wù)上提升高達(dá) 25%!



      • 論文地址:https://arxiv.org/abs/2512.02834
      • 項目地址: https://vla-anti-exploration.github.io/
      • 開源代碼: https://github.com/breez3young/TACO/

      VLA 模型的「阿喀琉斯之踵」:推理階段的不穩(wěn)定性

      VLA 模型通過 flow-matching 或 diffusion 等目標(biāo)在大規(guī)模多模態(tài)數(shù)據(jù)集上預(yù)訓(xùn)練,學(xué)習(xí)復(fù)雜行為。隨后,這些預(yù)訓(xùn)練模型通過監(jiān)督微調(diào)(SFT)適應(yīng)下游任務(wù)。這種范式在平均性能上表現(xiàn)出色,但研究團(tuán)隊發(fā)現(xiàn)了一個關(guān)鍵問題:即使經(jīng)過任務(wù)特定數(shù)據(jù)的微調(diào),VLA 模型在推理時對初始噪聲極其敏感。

      下圖展示了這一現(xiàn)象的嚴(yán)重性:對同一個經(jīng)過微調(diào)的 VLA 模型,僅改變初始噪聲向量,不同任務(wù)的成功率就會在 0% 至 80% 之間劇烈波動!這一發(fā)現(xiàn)揭示了當(dāng)前 VLA 研究中的盲點 —— 追求平均性能的同時,忽略了推理穩(wěn)定性這一對實際部署至關(guān)重要的指標(biāo)。



      「我們觀察到,在使用相同的微調(diào)后 VLA 模型時,僅僅因為采樣不同的初始噪聲,模型表現(xiàn)就會天差地別。」論文第一作者,清華大學(xué)在讀博士張揚(yáng)解釋道,「這就像讓一個機(jī)器人執(zhí)行同一任務(wù),只是隨機(jī)改變了它的 ' 思考方式 ',成功率就可能從完全失敗到完美執(zhí)行?!?/p>

      問題根源:分布偏移與冗余動作模式

      研究團(tuán)隊將這一不穩(wěn)定性歸因于兩個關(guān)鍵因素:

      首先,預(yù)訓(xùn)練階段 VLA 模型吸收了來自多樣化數(shù)據(jù)源的廣泛動作模式,使其難以快速將其輸出分布縮小到特定下游任務(wù)所需的狹窄成功行為集合。因此,微調(diào)后策略分布仍保留了與任務(wù)成功無關(guān)的多余模式。

      其次,微調(diào)數(shù)據(jù)集本身可能表現(xiàn)出多模態(tài)性,因為它們通常收集自多個人類遙操作員、腳本規(guī)劃器或變化的執(zhí)行風(fēng)格—— 其中一些編碼了次優(yōu)或不理想策略。這些冗余模式導(dǎo)致 VLA 策略與理想策略之間出現(xiàn)顯著的分布偏移,而理想策略應(yīng)對應(yīng)于下游任務(wù)數(shù)據(jù)集中的穩(wěn)定成功模式。

      「想象一個學(xué)習(xí)做飯的廚師,他在烹飪學(xué)校學(xué)了 100 種不同的菜系和技巧(預(yù)訓(xùn)練),然后被要求專門做一道特定菜肴(微調(diào))。即使經(jīng)過專門訓(xùn)練,當(dāng)面臨做這道菜的情境時,他的大腦中仍會浮現(xiàn)多種不同的烹飪方法,其中很多并不適合這道特定菜肴?!拐撐墓餐蛔?,中科大在讀博士楊思遠(yuǎn)形象地解釋。

      TACO:用「反探索」原理重塑 VLA 推理

      面對這一挑戰(zhàn),研究團(tuán)隊沒有選擇傳統(tǒng)的強(qiáng)化學(xué)習(xí)微調(diào)路線,而是另辟蹊徑,從離線強(qiáng)化學(xué)習(xí)中的「反探索」(anti-exploration) 原理獲得靈感。

      在離線強(qiáng)化學(xué)習(xí)中,「反探索」原則旨在防止策略訪問數(shù)據(jù)集支持之外的狀態(tài)或動作。類比到 VLA 推理,研究團(tuán)隊的目標(biāo)是約束生成的動作,使其保持在微調(diào)數(shù)據(jù)集中成功模式的支持范圍內(nèi),避免探索預(yù)訓(xùn)練或不完美微調(diào)數(shù)據(jù)保留的冗余或不相關(guān)動作模式。



      TACO 的核心創(chuàng)新在于將這一原則通過 Test-Time Scaling(TTS)來實現(xiàn),而非修改 VLA 模型本身的參數(shù)。TACO 框架包含三個關(guān)鍵組件:

      1. 耦合偽計數(shù)估計器:讓 VLA 自己成為最好的驗證器

      TACO 最精妙的設(shè)計在于耦合偽計數(shù)估計器(Coupled Pseudo-Count Estimator)的構(gòu)建。與傳統(tǒng)方法需要額外訓(xùn)練獨立編碼器不同,TACO 直接利用 VLA 模型自身的內(nèi)部表示能力,將輕量級 Coin-Flipping Network (CFN) 作為「頭」(head)附加到 VLA 的最后隱藏層上。

      為什么這種耦合設(shè)計如此重要?

      首先,VLA 模型經(jīng)過大規(guī)模預(yù)訓(xùn)練,其內(nèi)部特征空間已經(jīng)包含了豐富的視覺 - 語言 - 動作關(guān)聯(lián)知識。如果訓(xùn)練獨立的編碼器,不僅需要額外的計算資源,更會丟失 VLA 模型學(xué)到的寶貴先驗知識。CFN 頭僅是一個簡單的 MLP(多層感知機(jī)),參數(shù)量極小,卻能充分利用 VLA 的表征能力。

      關(guān)鍵突破:高保真特征搜索(High-Fidelity Feature Search)

      對于基于 flow-matching 或 diffusion 的 VLA 模型(如 π0、RDT),存在一個根本性挑戰(zhàn):這些模型在訓(xùn)練時只見過噪聲化的動作,從未接觸過干凈的真實動作數(shù)據(jù)。如果直接將微調(diào)數(shù)據(jù)集中的干凈動作輸入 VLA 提取特征,得到的表示可能完全不在 VLA 的特征分布范圍內(nèi),導(dǎo)致信息丟失。



      TACO 的解決方案極為巧妙 ——高保真特征搜索:對每個數(shù)據(jù)點,使用 N 個不同噪聲水平 {σi} 查詢 VLA N 次,得到 N 組預(yù)測動作和對應(yīng)內(nèi)部表示。然后選擇預(yù)測動作與原始動作最接近的那組內(nèi)部表示作為高保真特征。



      通過這種搜索機(jī)制,TACO 確保了提取的特征既符合 VLA 的分布(因為在噪聲輸入下生成),又能高保真地表示干凈動作(因為選擇最接近真實動作的預(yù)測)。



      上圖現(xiàn)象驗證了這一設(shè)計的有效性:CFN 估計的偽計數(shù)與預(yù)測動作和真實動作之間的 L2 距離呈現(xiàn)強(qiáng)負(fù)相關(guān)性。這意味著,選擇具有最高偽計數(shù)的動作幾乎總是會選擇最接近真實動作的動作,從而有效過濾掉次優(yōu)行為。

      2. 生成 - 驗證兩階段推理:理論與實踐的完美統(tǒng)一





      理論基礎(chǔ):離線強(qiáng)化學(xué)習(xí)的反探索原理

      這一兩階段架構(gòu)并非啟發(fā)式設(shè)計,而是有堅實的理論基礎(chǔ)。論文證明,TACO 的優(yōu)化目標(biāo)等價于離線強(qiáng)化學(xué)習(xí)中的反探索目標(biāo):



      其中 Q (s,a) 是動作價值函數(shù),b (s,a) 是反探索懲罰項。這最終簡化為尋找最大訪問計數(shù)的動作:



      計算優(yōu)化:KV 緩存的影響

      兩階段架構(gòu)面臨的最大挑戰(zhàn)是計算開銷。樸素實現(xiàn)下,生成 M 個候選動作需要 M 次完整的 VLA 前向傳播,計算成本呈 O (M) 增長。TACO 提出的共享觀察鍵值緩存(Shared Observation Key-Value Cache)技術(shù)解決了這一問題:VLA 的 Transformer 主干網(wǎng)絡(luò)的計算主要依賴于共享上下文 (觀察,指令),只需計算一次 KV 緩存,即可在所有 M 個并行動作生成過程中重復(fù)使用邊際成本幾乎為零,使得高數(shù)量候選采樣成為可能。

      實驗數(shù)據(jù)顯示,當(dāng)采樣 32 個動作時,KV 緩存優(yōu)化將推理時間減少了 73.2%!這一優(yōu)化使得 TACO 在真實機(jī)器人上也能高效運行,平均推理延遲僅增加 200ms,滿足實時控制需求。

      實驗證明:從模擬到真實機(jī)器人的卓越表現(xiàn)

      研究團(tuán)隊在四個模擬基準(zhǔn)(RoboTwin2.0、Robotwin、LIBERO、SimplerEnv)和一個雙臂機(jī)器人平臺上進(jìn)行了全面評估,覆蓋 64 個任務(wù)和 5 個真實世界任務(wù)。

      仿真環(huán)境結(jié)果

      在 RoboTwin 基準(zhǔn)上,TACO 將 π0 模型的平均成功率從 32.2% 提升至 41.3%,提升幅度達(dá) 9.1%。在最具挑戰(zhàn)性的 "掛衣架" 任務(wù)上,成功率從 7.0% 躍升至 12.0%。





      在 Simpler-WindowX 基準(zhǔn)上,TACO 使 π0 的平均成功率從 48.0% 提升至 55.5%。尤其在「勺子放在毛巾上」和「胡蘿卜放在盤子上」等精細(xì)操作任務(wù)上,提升分別達(dá)到 16% 和 10%。



      在 LIBERO-long 這一最具挑戰(zhàn)性的終生學(xué)習(xí)基準(zhǔn)上,盡管基礎(chǔ)模型 π0.5 已達(dá)到 94.8% 的高成功率,TACO 仍能進(jìn)一步提升 1.8%,特別是在「Moka 壺放在爐灶上」等復(fù)雜任務(wù)上,成功率從 68% 大幅提高到 86%。



      真實機(jī)器人實驗

      研究團(tuán)隊使用 RealMan75 雙臂機(jī)器人平臺進(jìn)行了 5 個真實世界任務(wù)的測試,包括「接收書籍」「收納充電器」「紙和筆整理」「筆記本電腦操作」和「同時拿起兩本書」。這些任務(wù)涵蓋了人機(jī)交互、雙臂協(xié)調(diào)和長周期任務(wù)執(zhí)行等多種技能。

      結(jié)果令人振奮:TACO 將平均成功率從 40% 提升至 56%,提升幅度達(dá) 16%。在「紙和筆整理」這一精細(xì)操作任務(wù)上,提升高達(dá) 25%;在「筆記本電腦操作」長周期任務(wù)上,提升 15%。

      「在真實機(jī)器人實驗中,我們觀察到基礎(chǔ)策略通常在兩種情況下失?。鹤ト∥恢貌痪_,以及遙操作數(shù)據(jù)質(zhì)量不完美導(dǎo)致的學(xué)習(xí)偏差?!拐撐墓餐ㄓ嵶髡?、中國電信人工智能研究院白辰甲研究員解釋道:「TACO 通過過濾掉次優(yōu)的去噪方向,有效解決了這些問題?!?/p>

      一個典型案例是「紙和筆整理」任務(wù)中的筆抓取階段。由于操作員抓取姿勢和時序的變化,專家數(shù)據(jù)集中抓取模式的觀察 - 動作分布變得稀疏,導(dǎo)致基礎(chǔ)策略表現(xiàn)出不穩(wěn)定行為,如抓取器無法正確閉合、抓取后重新打開,或在兩種抓取模式間振蕩。應(yīng)用 TACO 后,這些問題基本消除:抓取器始終正確閉合,機(jī)器人避免了次優(yōu)模式。

      技術(shù)剖析:為什么 TACO 如此有效?

      實驗揭示了 TACO 成功的核心機(jī)制:通過 100 次動作采樣,研究團(tuán)隊發(fā)現(xiàn) CFN 估計的偽計數(shù)與預(yù)測動作和真實動作之間的 L2 距離存在強(qiáng)相關(guān)性。換言之,選擇具有最高偽計數(shù)的動作幾乎總是會選擇最接近真實動作的動作,同時有效過濾掉過于激進(jìn)或不合理的動作。

      消融實驗進(jìn)一步驗證了設(shè)計選擇的重要性:移除 CFN 偽計數(shù)、不進(jìn)行特征縮放、或不使用內(nèi)部特征,都會導(dǎo)致性能顯著下降。特別是,直接擬合特征到動作誤差的映射會增加學(xué)習(xí)難度,因為模型必須捕獲最優(yōu)和次優(yōu)特征;使用獨立編碼器而非內(nèi)部特征會使特征高度相似,難以進(jìn)行準(zhǔn)確的偽計數(shù)估計。

      研究意義與未來展望

      TACO 的提出不僅解決了一個實際問題,更為 VLA 研究開辟了新視角。與現(xiàn)有方法相比,「我們的方法證明,輕量級的測試時縮放可以有效地實現(xiàn) ' 反探索 ',緩解動作預(yù)測中由分布偏移引起的不穩(wěn)定性和性能下降?!?/strong>論文共同通訊作者白辰甲研究員解釋道。

      展望未來,TACO 框架為 VLA 模型的實際部署提供了新思路。研究團(tuán)隊將繼續(xù)探索如何將這一方法擴(kuò)展到更復(fù)雜的多任務(wù)場景,以及如何與世界模型結(jié)合,進(jìn)一步提升機(jī)器人的長期規(guī)劃能力。

      作者簡介

      本文由中科大在讀楊思遠(yuǎn)和清華大學(xué)在讀博士張揚(yáng)作為共同一作主要完成,其他合作者包括香港科技大學(xué)何浩然博士、潘玲教授、清華大學(xué)李秀教授,本文通信作者是TeleAI 研究科學(xué)家白辰甲博士和 TeleAI 院長李學(xué)龍教授。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      金晨上海迪士尼被偶遇,側(cè)臉真的超級美,鼻子好挺!

      金晨上海迪士尼被偶遇,側(cè)臉真的超級美,鼻子好挺!

      草莓解說體育
      2025-12-26 15:26:34
      黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術(shù),兒子很像楊穎

      黃曉明帶兒子和媽媽包餃子,摘了假發(fā)套發(fā)量很藝術(shù),兒子很像楊穎

      笑飲孤鴻非
      2025-12-24 01:09:08
      為國爭光卻遭郎平棄用!轉(zhuǎn)身效力土耳其的王一梅,如今過得咋樣?

      為國爭光卻遭郎平棄用!轉(zhuǎn)身效力土耳其的王一梅,如今過得咋樣?

      豐譚筆錄
      2025-12-26 07:45:07
      金價,突然大反轉(zhuǎn)!

      金價,突然大反轉(zhuǎn)!

      臺州交通廣播
      2025-12-25 14:30:19
      太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

      太諷刺!龐家無償捐4700平米祖宅,院長雙謊被戳穿,省多部門介入

      好賢觀史記
      2025-12-23 18:14:27
      越南當(dāng)年為何敢和中國開戰(zhàn)?黎筍長子多年后說出了核心真相

      越南當(dāng)年為何敢和中國開戰(zhàn)?黎筍長子多年后說出了核心真相

      古書記史
      2025-12-22 19:21:12
      中日爭端大結(jié)局?高市連送中國兩份大禮,日本50年國運沒了!

      中日爭端大結(jié)局?高市連送中國兩份大禮,日本50年國運沒了!

      花花娛界
      2025-12-25 20:42:12
      范瑋琪曬一家合照,倆小孩都近視平板不離手,汪小菲的話有人信了

      范瑋琪曬一家合照,倆小孩都近視平板不離手,汪小菲的話有人信了

      小咪侃娛圈
      2025-12-26 10:28:38
      倪妮太豪!在北京家里過圣誕,意外曝光內(nèi)景,難怪她看不上馮紹峰

      倪妮太豪!在北京家里過圣誕,意外曝光內(nèi)景,難怪她看不上馮紹峰

      陳意小可愛
      2025-12-25 11:21:45
      演員陳學(xué)冬:兩年4次手術(shù)!多部作品被下架,如今生活無法自理

      演員陳學(xué)冬:兩年4次手術(shù)!多部作品被下架,如今生活無法自理

      粵語經(jīng)典歌單
      2025-12-04 08:51:35
      日本2025年出生人數(shù)再創(chuàng)新低,降至約66.5萬人

      日本2025年出生人數(shù)再創(chuàng)新低,降至約66.5萬人

      東京在線
      2025-12-25 21:26:07
      從普通人到惡魔,只有一步之遙

      從普通人到惡魔,只有一步之遙

      近距離
      2025-12-24 11:07:14
      關(guān)系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

      關(guān)系藏不住了!樊振東放著世界冠軍陳夢不選,原來他喜歡這樣的

      誮惜顏a
      2025-12-24 05:53:10
      視頻曝光!美國西雅圖發(fā)生“圣誕劫車案”:一男子將巡邏車上女警拽出并駕車逃離

      視頻曝光!美國西雅圖發(fā)生“圣誕劫車案”:一男子將巡邏車上女警拽出并駕車逃離

      環(huán)球網(wǎng)資訊
      2025-12-26 12:19:29
      乒超女團(tuán)半決賽:全國冠軍2分險勝!蒯曼先贏后輸,1-1被追平!

      乒超女團(tuán)半決賽:全國冠軍2分險勝!蒯曼先贏后輸,1-1被追平!

      劉姚堯的文字城堡
      2025-12-26 12:17:45
      俄方稱愿以書面形式確認(rèn)不進(jìn)攻北約

      俄方稱愿以書面形式確認(rèn)不進(jìn)攻北約

      參考消息
      2025-12-26 11:04:08
      1-0絕殺!恭喜中國隊!王鈺棟破門+熱身賽豪取2連勝,球迷歡呼

      1-0絕殺!恭喜中國隊!王鈺棟破門+熱身賽豪取2連勝,球迷歡呼

      籃球看比賽
      2025-12-26 10:48:11
      內(nèi)存條漲價已超1000元,但僅僅只是起步

      內(nèi)存條漲價已超1000元,但僅僅只是起步

      泡泡網(wǎng)
      2025-12-25 11:11:06
      新加坡人直言,比起海南封關(guān)帶來的威脅,更怕中國會幫泰國挖運河

      新加坡人直言,比起海南封關(guān)帶來的威脅,更怕中國會幫泰國挖運河

      鐵錘簡科
      2025-12-26 14:58:50
      微笑刺客:約基奇的傳球可能比魔術(shù)師還厲害,他有著控衛(wèi)的心

      微笑刺客:約基奇的傳球可能比魔術(shù)師還厲害,他有著控衛(wèi)的心

      懂球帝
      2025-12-26 15:38:23
      2025-12-26 16:11:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12000文章數(shù) 142520關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      日本領(lǐng)導(dǎo)人被指或參拜靖國神社 外交部回應(yīng)

      頭條要聞

      日本領(lǐng)導(dǎo)人被指或參拜靖國神社 外交部回應(yīng)

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天深夜道歉,只字未提五月天阿信

      財經(jīng)要聞

      資管江湖的人事“寒冬”

      汽車要聞

      速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

      態(tài)度原創(chuàng)

      手機(jī)
      數(shù)碼
      房產(chǎn)
      公開課
      軍事航空

      手機(jī)要聞

      TCL華星獨供小米17 Ultra系列手機(jī)屏幕,峰值亮度3500nits

      數(shù)碼要聞

      2026年TV市場趨勢預(yù)測:華為Mate TV將顛覆行業(yè)

      房產(chǎn)要聞

      太猛了!單月新增企業(yè)4.1萬家,又一波巨頭涌向海南!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      烏最新20點俄烏和平草案遞交莫斯科 俄方拒絕

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 激情综合五月网| wwwjizzjizzjizz| 人妻少妇白浆| 97人人模人人爽人人少妇| 色综合天天综合网国产| 免费激情网址| 亚洲老熟女@TubeumTV| 尼勒克县| 99久久99久久精品国产片| 精品人妻伦一二三区久久| 日本一区二区三区四区黄色| 久久国产亚洲AV无码日韩| 西城区| av无码av无码专区| 射死你天天日| 免费人成在线观看网站| 中国A片乱子伦| 激情亚洲一区国产精品| 肉大捧一进一出免费视频| 国产精品人妻在线观看| 精品va在线观看| 另类小说av| 国产精品538一区二区在线| 丰满少妇人妻hd高清大乳在线| 亚洲午夜精品国产电影在线观看| 第一福利在线导航| 精品久久久无码中文字幕| 丰满人妻熟妇乱又伦精品视| 最新午夜男女福利片视频| 欧洲AV在线| 久久国产精品萌白酱免费 | 国产一卡一卡| 精品国产免费一区二区三区香蕉| 久久青青草原亚洲AV无码麻豆| 日韩精品人妻中文字幕有| 亚洲黄站| 国产人妻久久精品一区二区三区| 亚洲最大的熟女水蜜桃av网站 | 性欧美丰满熟妇xxxx性久久久| 免费的特黄特色大片| 色二区|