傳統(tǒng)具身大模型雖然為機(jī)器人賦予了任務(wù)推理能力,卻始終存在一個(gè)致命短板,這些模型只能讓機(jī)器人進(jìn)行機(jī)械試錯(cuò),卻無法真正學(xué)會(huì)反思與總結(jié)。面對(duì)簡單的物品歸置任務(wù),機(jī)器人可能反復(fù)將大物件硬塞進(jìn)小盒子,卻始終無法從失敗中吸取教訓(xùn),每一次嘗試都像是從頭開始。
![]()
近日,斯坦福大學(xué)李飛飛、賈佳俊團(tuán)隊(duì)聯(lián)合西北大學(xué)研究者,提出了全新的 Reflective Test-Time Planning 框架,一舉打破這一困境。該框架讓具身智能體具備了類人的反思能力:行動(dòng)前可模擬預(yù)判,行動(dòng)后能復(fù)盤優(yōu)化,甚至通過追溯反思修正早期決策失誤,讓機(jī)器人在實(shí)際部署中真正實(shí)現(xiàn) “從錯(cuò)誤中學(xué)習(xí)”。相關(guān)成果已發(fā)布于 arXiv。
在團(tuán)隊(duì)全新設(shè)計(jì)的長時(shí)程家庭任務(wù)基準(zhǔn)與 MuJoCo 櫥柜適配基準(zhǔn)測試中,該框架性能大幅超越現(xiàn)有基線模型,平均成功率提升超 20 個(gè)百分點(diǎn);在真實(shí)機(jī)器人實(shí)驗(yàn)中,搭載該框架的機(jī)械臂能夠有效避免重復(fù)放置錯(cuò)誤,并根據(jù)后續(xù)結(jié)果修正早期不當(dāng)決策,展現(xiàn)出極強(qiáng)的實(shí)際落地價(jià)值。
01.
三重反思機(jī)制:讓機(jī)器人像人一樣思考、復(fù)盤、修正
斯坦福團(tuán)隊(duì)提出的Reflective Test-Time Planning框架的整體邏輯是將行動(dòng)中反思(reflection-in-action)和行動(dòng)后反思(reflection-on-action)融合,并加入追溯反思(retrospective reflection)機(jī)制,構(gòu)建起完整的閉環(huán)學(xué)習(xí)體系,讓具身智能體在測試部署階段實(shí)現(xiàn)持續(xù)的自我優(yōu)化。
![]()
整個(gè)框架由三個(gè)相互協(xié)作的具身LLM支撐,均通過少量監(jiān)督微調(diào)完成初始化,具備基礎(chǔ)的環(huán)境推理、動(dòng)作生成和反思能力:行動(dòng)生成模型負(fù)責(zé)產(chǎn)生候選動(dòng)作,內(nèi)部反思模型完成行動(dòng)前的評(píng)估打分,外部反思模型實(shí)現(xiàn)行動(dòng)后的結(jié)果分析和追溯重評(píng)。三個(gè)模型在部署過程中動(dòng)態(tài)交互,形成了一套完整的思考-執(zhí)行-復(fù)盤-優(yōu)化流程。
行動(dòng)中反思:先模擬預(yù)判,再選最優(yōu)行動(dòng)
不同于傳統(tǒng)模型貪心選擇第一個(gè)看似可行的動(dòng)作,該框架讓機(jī)器人在執(zhí)行前先完成內(nèi)部模擬。通過高溫采樣生成多個(gè)候選動(dòng)作,再由內(nèi)部反思模型為每個(gè)候選動(dòng)作生成自然語言評(píng)估,并給出0-100的數(shù)值評(píng)分,最終選擇評(píng)分最高的動(dòng)作執(zhí)行。
比如在整理玩具任務(wù)中,模型會(huì)同時(shí)生成把玩具車放進(jìn)綠色盒子放進(jìn)橙色盒子先收集所有玩具再分類等多個(gè)候選動(dòng)作,內(nèi)部反思模型會(huì)結(jié)合物體尺寸、盒子容量等因素分析每個(gè)動(dòng)作的合理性——比如判斷綠色盒子尺寸不足,為該動(dòng)作打0分,最終機(jī)器人會(huì)選擇評(píng)分最高的合理方案。
這一過程通過測試時(shí)縮放實(shí)現(xiàn),既避免了貪心決策的盲目性,又能提前過濾掉明顯的錯(cuò)誤動(dòng)作,減少無效的物理世界試錯(cuò)。
行動(dòng)后反思:以現(xiàn)實(shí)為依據(jù),更新決策認(rèn)知
行動(dòng)中反思的預(yù)判始終基于模型的內(nèi)部認(rèn)知,難免與現(xiàn)實(shí)存在偏差——比如內(nèi)部評(píng)估認(rèn)為可行的動(dòng)作,執(zhí)行后卻因未預(yù)見的物理約束失敗。而行動(dòng)后反思,正是讓模型的認(rèn)知落地現(xiàn)實(shí)的關(guān)鍵。
機(jī)器人執(zhí)行完選定動(dòng)作后,外部反思模型會(huì)結(jié)合執(zhí)行結(jié)果、動(dòng)作前后的環(huán)境觀測,生成自然語言的外部反思,不僅給出成功/失敗的判斷,還會(huì)分析具體原因,比如放置失敗,綠色盒子尺寸過小無法容納玩具車,同時(shí)給出對(duì)應(yīng)的評(píng)分。
這些即時(shí)的外部反思會(huì)被存入工作記憶緩沖區(qū),當(dāng)緩沖區(qū)達(dá)到指定容量,或遇到切換房間、重復(fù)失敗等關(guān)鍵節(jié)點(diǎn)時(shí),系統(tǒng)會(huì)啟動(dòng)測試訓(xùn)練,將反思轉(zhuǎn)化為自監(jiān)督訓(xùn)練信號(hào),更新模型參數(shù)。
追溯反思:用后見之明,修正早期決策
即時(shí)外部反思只能評(píng)估單步動(dòng)作的短期結(jié)果,無法解決長時(shí)序任務(wù)中的非局部失敗問題。而追溯反思機(jī)制,讓模型具備了 “后見之明”,能夠結(jié)合后續(xù)任務(wù)進(jìn)展,重新評(píng)估早期決策的合理性,完成長時(shí)程的信用分配。
觸發(fā)追溯反思后,外部反思模型會(huì)根據(jù)當(dāng)前環(huán)境狀態(tài)與完整工作記憶,對(duì)歷史動(dòng)作進(jìn)行重新評(píng)估,修正原有的評(píng)分與反思結(jié)論。例如,模型最初認(rèn)為 “將小物件放入大隔間” 是成功操作,但后續(xù)發(fā)現(xiàn)這一行為導(dǎo)致大物件無處安放,追溯反思便會(huì)為該動(dòng)作重新打上低分,并指出其阻礙后續(xù)任務(wù)的問題。
![]()
藍(lán)色文字表示用于候選動(dòng)作選擇的內(nèi)部反思,橙色文字表示執(zhí)行后的外部反思,紅色文字表示追溯反思。
這些經(jīng)后驗(yàn)修正的反思結(jié)果,會(huì)成為更精準(zhǔn)的訓(xùn)練信號(hào),分別通過監(jiān)督學(xué)習(xí)更新內(nèi)部反思模型、通過策略梯度更新行動(dòng)生成模型,前者讓模型的前置預(yù)判更貼合現(xiàn)實(shí),后者讓模型更傾向于選擇長期來看更優(yōu)的動(dòng)作,實(shí)現(xiàn)了阿吉里斯提出的雙環(huán)學(xué)習(xí):不僅優(yōu)化具體的行動(dòng)策略,更修正底層的推理邏輯。
02.
兩大基準(zhǔn)測試:全面驗(yàn)證,性能碾壓現(xiàn)有基線
為充分驗(yàn)證 Reflective Test-Time Planning 框架的有效性,團(tuán)隊(duì)設(shè)計(jì)了兩項(xiàng)針對(duì)性極強(qiáng)的基準(zhǔn)測試,分別面向長時(shí)程多約束任務(wù)與幾何放置約束任務(wù)。研究團(tuán)隊(duì)將該框架與語言反思、世界模型、強(qiáng)化學(xué)習(xí)等多個(gè)領(lǐng)域的主流基線模型進(jìn)行對(duì)比,并通過消融實(shí)驗(yàn)驗(yàn)證了各反思組件的必要性。
長時(shí)程家庭任務(wù):跨房間多步驟,考驗(yàn)失敗恢復(fù)能力
該基準(zhǔn)基于 BEHAVIOR-1K 環(huán)境構(gòu)建,包含四類貼近真實(shí)場景的家庭任務(wù),均需要跨房間執(zhí)行、多步驟推理,并重點(diǎn)考驗(yàn)?zāi)P偷氖』謴?fù)能力:
適配任務(wù)(物品裝箱,考驗(yàn)幾何與容量推理)
挑選任務(wù)(物品檢索,考驗(yàn)偏好判斷與探索策略)
準(zhǔn)備任務(wù)(物品組裝,考驗(yàn)順序約束與依賴推理)
混合任務(wù)(融合多重約束,考驗(yàn)綜合推理能力)
任務(wù)由 GPT-5 結(jié)合場景圖自動(dòng)生成,并提前嵌入多種典型失敗模式,例如適配任務(wù)中的尺寸不匹配、挑選任務(wù)中過早決策導(dǎo)致錯(cuò)過最優(yōu)解等,所有任務(wù)均在 BEHAVIOR 模擬器中完成物理驗(yàn)證,保證了任務(wù)的合理性與挑戰(zhàn)性。
![]()
實(shí)驗(yàn)結(jié)果顯示,Reflective Test-Time Planning 框架在所有任務(wù)類別上均大幅領(lǐng)先,平均成功率達(dá)到 33.65%,顯著超越所有基線模型。其中難度最高的適配任務(wù)中,該框架成功率達(dá)到 44.7%,而最強(qiáng)基線模型 3DLLM?Mem 僅為 10.6%,傳統(tǒng)強(qiáng)化學(xué)習(xí)方法 PPO 更是直接為 0。
櫥柜適配任務(wù):受控環(huán)境,精準(zhǔn)測試放置錯(cuò)誤學(xué)習(xí)能力
為了排除復(fù)雜環(huán)境干擾、精準(zhǔn)測試模型從幾何放置錯(cuò)誤中學(xué)習(xí)的能力,團(tuán)隊(duì)在 MuJoCo 中設(shè)計(jì)了一套櫥柜適配基準(zhǔn)。任務(wù)要求機(jī)器人將 6–10 個(gè)不同形狀、顏色的幾何物體,放入 6–8 個(gè)尺寸各異的櫥柜隔間中,物體需與隔間邊界完全貼合,且每個(gè)任務(wù)僅有一個(gè)最優(yōu)解。
![]()
該測試以適配率(成功放入任意隔間的物體比例)和正確率(放入目標(biāo)隔間的物體比例)為核心指標(biāo)。最終,該框架實(shí)現(xiàn)了 60.2% 的適配率與 25.3% 的正確率,大幅優(yōu)于各類基線模型。
03.
消融實(shí)驗(yàn):各組件缺一不可,協(xié)同作用是關(guān)鍵
消融實(shí)驗(yàn)結(jié)果進(jìn)一步印證了框架設(shè)計(jì)的合理性:行動(dòng)中反思與行動(dòng)后反思相互依賴、缺一不可,單獨(dú)移除任意一個(gè)模塊,都會(huì)造成性能大幅下降,甚至效果比同時(shí)移除兩者更差。
例如,移除行動(dòng)中反思后,準(zhǔn)備任務(wù)成功率從 31.7% 驟降至 3.17%。原因在于缺少高質(zhì)量候選動(dòng)作,后續(xù)的行動(dòng)后反思無法獲得有效學(xué)習(xí)樣本,只能在錯(cuò)誤動(dòng)作上反復(fù)優(yōu)化。而移除行動(dòng)后反思,則會(huì)讓行動(dòng)中反思的評(píng)分過度自信、與現(xiàn)實(shí)脫節(jié),模型會(huì)持續(xù)選擇看似最優(yōu)、實(shí)則錯(cuò)誤的動(dòng)作。
同時(shí),行動(dòng)生成模型與內(nèi)部反思模型的聯(lián)合更新也至關(guān)重要。單獨(dú)移除任意一個(gè)訓(xùn)練損失,都會(huì)導(dǎo)致模型性能下降。這表明,策略梯度更新與監(jiān)督反思訓(xùn)練,為模型的自適應(yīng)學(xué)習(xí)提供了互補(bǔ)且不可或缺的優(yōu)化信號(hào)。
從模擬到現(xiàn)實(shí):泛化能力優(yōu)異,計(jì)算開銷可控
該框架的價(jià)值不僅體現(xiàn)在模擬環(huán)境中,在真實(shí)機(jī)器人實(shí)驗(yàn)與跨環(huán)境泛化測試中同樣展現(xiàn)出極強(qiáng)的實(shí)用性,且計(jì)算開銷可控,為后續(xù)實(shí)際落地奠定了堅(jiān)實(shí)基礎(chǔ)。
在基于 Franka Panda 機(jī)械臂的真實(shí)櫥柜放置實(shí)驗(yàn)中,搭載該框架的機(jī)器人能夠從放置失敗中快速調(diào)整策略,避免重復(fù)犯錯(cuò);同時(shí)可通過追溯反思,識(shí)別早期放置行為對(duì)后續(xù)任務(wù)的影響并及時(shí)修正,最終順利完成多物體的合理歸置,驗(yàn)證了框架從仿真到現(xiàn)實(shí)的有效遷移能力。
在跨環(huán)境泛化測試中,團(tuán)隊(duì)將僅在 BEHAVIOR-1K 合成環(huán)境中訓(xùn)練的模型,直接部署至 Habitat-Matterport 3D 真實(shí)場景,框架仍取得了 19.5% 的成功率,而多數(shù)基線模型在此場景下成功率直接降至 0。這表明該框架學(xué)到的并非針對(duì)特定環(huán)境的固定策略,而是通用的反思與學(xué)習(xí)能力,能夠有效應(yīng)對(duì)環(huán)境分布偏移。
從計(jì)算開銷來看,框架單步推理時(shí)間相比傳統(tǒng)模型增加約 3 倍,主要消耗在候選動(dòng)作生成、內(nèi)部評(píng)估與測試訓(xùn)練環(huán)節(jié)。但這一開銷具備極高性價(jià)比:行動(dòng)中反思減少了無效物理試錯(cuò),行動(dòng)后反思避免了重復(fù)失誤,最終以更高質(zhì)量的執(zhí)行軌跡抵消了計(jì)算成本。
團(tuán)隊(duì)還設(shè)計(jì)了一組對(duì)照實(shí)驗(yàn):為傳統(tǒng)模型提供 3 倍行動(dòng)步數(shù),使其推理耗時(shí)與該框架相當(dāng),但傳統(tǒng)模型性能仍遠(yuǎn)低于框架,甚至出現(xiàn)下降。這說明單純?cè)黾釉囧e(cuò)次數(shù)無法替代高效的反思學(xué)習(xí),也印證了反思時(shí)間遠(yuǎn)比重復(fù)試錯(cuò)更有價(jià)值。
技術(shù)細(xì)節(jié):這些設(shè)計(jì),讓反思落地更高效
Reflective Test-Time Planning 框架能取得優(yōu)異表現(xiàn),離不開一系列精心設(shè)計(jì)的技術(shù)細(xì)節(jié),這些細(xì)節(jié)讓反思機(jī)制更高效,也更貼合具身智能的實(shí)際部署需求。
在行動(dòng)中反思環(huán)節(jié),候選動(dòng)作數(shù)量 N=6、采樣溫度 T=1.25–1.5 時(shí)性能達(dá)到最優(yōu)。N 過小會(huì)導(dǎo)致可選空間不足,N 過大會(huì)加重計(jì)算負(fù)擔(dān),同時(shí)引入大量低質(zhì)量候選動(dòng)作;溫度過低會(huì)讓候選動(dòng)作趨于同質(zhì)化,溫度過高則會(huì)生成無意義的無效動(dòng)作,使內(nèi)部評(píng)估失去實(shí)際意義。
測試時(shí)訓(xùn)練采用 LoRA 低秩適配技術(shù),在僅更新少量參數(shù)的前提下,就能達(dá)到接近全參數(shù)微調(diào)的性能,其中 rank=8、alpha=16 為最優(yōu)配置。參數(shù)配置過小會(huì)導(dǎo)致適配能力不足,難以捕捉精細(xì)的空間推理與反思邏輯;配置過大則容易出現(xiàn)模式崩潰,使模型喪失對(duì)不同場景的區(qū)分能力。
行動(dòng)預(yù)算的設(shè)置同樣關(guān)鍵,50 步為最優(yōu)選擇。30 步預(yù)算不足以支撐復(fù)雜任務(wù)的反思與調(diào)整,機(jī)器人常會(huì)因步數(shù)耗盡而無法完成任務(wù);100 步的寬松預(yù)算則會(huì)讓機(jī)器人陷入低效探索,反而積累更多錯(cuò)誤。適度的約束,能夠引導(dǎo)模型做出更聚焦、更具目標(biāo)性的決策。
此外,框架采用單步動(dòng)作生成,而非傳統(tǒng)的滾動(dòng)時(shí)域規(guī)劃,有效避免了對(duì)未來的無效預(yù)測。具身任務(wù)中的物理交互具有較強(qiáng)不可預(yù)測性,提前生成的動(dòng)作序列往往會(huì)因一步失敗而整體失效,造成大量計(jì)算浪費(fèi)。單步生成結(jié)合追溯反思,可讓模型在持續(xù)學(xué)習(xí)中實(shí)現(xiàn)隱式長時(shí)程規(guī)劃,在保證性能的同時(shí),節(jié)省約 5 倍計(jì)算成本。
04.
結(jié)語與未來:
可以說斯坦福團(tuán)隊(duì)Reflective Test-Time Planning 框架重新定義了機(jī)器學(xué)習(xí)范式,從機(jī)械重復(fù)的試錯(cuò),轉(zhuǎn)向具備思考、復(fù)盤與修正能力的主動(dòng)學(xué)習(xí)。
值得一提的是,目前,該框架的反思能力主要依托視覺觀測與自然語言實(shí)現(xiàn)。未來,團(tuán)隊(duì)計(jì)劃引入觸覺、力覺等更多感官模態(tài),在物體抓取、放置等任務(wù)中,借助更精細(xì)的物理交互信息,讓機(jī)器人的反思更貼近真實(shí)物理世界。同時(shí),研究還將進(jìn)一步提升反思力度,從動(dòng)作層面的反思,逐步深入到推理層面的反思,幫助機(jī)器人更精準(zhǔn)地定位錯(cuò)誤根源。、
論文地址:https://arxiv.org/pdf/2602.21198v1
項(xiàng)目地址:https://reflective-test-time-planning.github.io/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.