網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

斯坦福李飛飛團(tuán)隊(duì)全新框架讓機(jī)器人真正實(shí)現(xiàn) “從錯(cuò)誤中學(xué)習(xí)”！

2026-03-07 19:54:25　來源: 機(jī)器人大講堂

安徽舉報(bào)

分享至

傳統(tǒng)具身大模型雖然為機(jī)器人賦予了任務(wù)推理能力，卻始終存在一個(gè)致命短板，這些模型只能讓機(jī)器人進(jìn)行機(jī)械試錯(cuò)，卻無法真正學(xué)會(huì)反思與總結(jié)。面對(duì)簡單的物品歸置任務(wù)，機(jī)器人可能反復(fù)將大物件硬塞進(jìn)小盒子，卻始終無法從失敗中吸取教訓(xùn)，每一次嘗試都像是從頭開始。

近日，斯坦福大學(xué)李飛飛、賈佳俊團(tuán)隊(duì)聯(lián)合西北大學(xué)研究者，提出了全新的 Reflective Test-Time Planning 框架，一舉打破這一困境。該框架讓具身智能體具備了類人的反思能力：行動(dòng)前可模擬預(yù)判，行動(dòng)后能復(fù)盤優(yōu)化，甚至通過追溯反思修正早期決策失誤，讓機(jī)器人在實(shí)際部署中真正實(shí)現(xiàn) “從錯(cuò)誤中學(xué)習(xí)”。相關(guān)成果已發(fā)布于 arXiv。

在團(tuán)隊(duì)全新設(shè)計(jì)的長時(shí)程家庭任務(wù)基準(zhǔn)與 MuJoCo 櫥柜適配基準(zhǔn)測試中，該框架性能大幅超越現(xiàn)有基線模型，平均成功率提升超 20 個(gè)百分點(diǎn)；在真實(shí)機(jī)器人實(shí)驗(yàn)中，搭載該框架的機(jī)械臂能夠有效避免重復(fù)放置錯(cuò)誤，并根據(jù)后續(xù)結(jié)果修正早期不當(dāng)決策，展現(xiàn)出極強(qiáng)的實(shí)際落地價(jià)值。

01.

三重反思機(jī)制：讓機(jī)器人像人一樣思考、復(fù)盤、修正

斯坦福團(tuán)隊(duì)提出的Reflective Test-Time Planning框架的整體邏輯是將行動(dòng)中反思（reflection-in-action）和行動(dòng)后反思（reflection-on-action）融合，并加入追溯反思（retrospective reflection）機(jī)制，構(gòu)建起完整的閉環(huán)學(xué)習(xí)體系，讓具身智能體在測試部署階段實(shí)現(xiàn)持續(xù)的自我優(yōu)化。

整個(gè)框架由三個(gè)相互協(xié)作的具身LLM支撐，均通過少量監(jiān)督微調(diào)完成初始化，具備基礎(chǔ)的環(huán)境推理、動(dòng)作生成和反思能力：行動(dòng)生成模型負(fù)責(zé)產(chǎn)生候選動(dòng)作，內(nèi)部反思模型完成行動(dòng)前的評(píng)估打分，外部反思模型實(shí)現(xiàn)行動(dòng)后的結(jié)果分析和追溯重評(píng)。三個(gè)模型在部署過程中動(dòng)態(tài)交互，形成了一套完整的思考-執(zhí)行-復(fù)盤-優(yōu)化流程。

行動(dòng)中反思：先模擬預(yù)判，再選最優(yōu)行動(dòng)

不同于傳統(tǒng)模型貪心選擇第一個(gè)看似可行的動(dòng)作，該框架讓機(jī)器人在執(zhí)行前先完成內(nèi)部模擬。通過高溫采樣生成多個(gè)候選動(dòng)作，再由內(nèi)部反思模型為每個(gè)候選動(dòng)作生成自然語言評(píng)估，并給出0-100的數(shù)值評(píng)分，最終選擇評(píng)分最高的動(dòng)作執(zhí)行。

比如在整理玩具任務(wù)中，模型會(huì)同時(shí)生成把玩具車放進(jìn)綠色盒子放進(jìn)橙色盒子先收集所有玩具再分類等多個(gè)候選動(dòng)作，內(nèi)部反思模型會(huì)結(jié)合物體尺寸、盒子容量等因素分析每個(gè)動(dòng)作的合理性——比如判斷綠色盒子尺寸不足，為該動(dòng)作打0分，最終機(jī)器人會(huì)選擇評(píng)分最高的合理方案。

這一過程通過測試時(shí)縮放實(shí)現(xiàn)，既避免了貪心決策的盲目性，又能提前過濾掉明顯的錯(cuò)誤動(dòng)作，減少無效的物理世界試錯(cuò)。

行動(dòng)后反思：以現(xiàn)實(shí)為依據(jù)，更新決策認(rèn)知

行動(dòng)中反思的預(yù)判始終基于模型的內(nèi)部認(rèn)知，難免與現(xiàn)實(shí)存在偏差——比如內(nèi)部評(píng)估認(rèn)為可行的動(dòng)作，執(zhí)行后卻因未預(yù)見的物理約束失敗。而行動(dòng)后反思，正是讓模型的認(rèn)知落地現(xiàn)實(shí)的關(guān)鍵。

機(jī)器人執(zhí)行完選定動(dòng)作后，外部反思模型會(huì)結(jié)合執(zhí)行結(jié)果、動(dòng)作前后的環(huán)境觀測，生成自然語言的外部反思，不僅給出成功/失敗的判斷，還會(huì)分析具體原因，比如放置失敗，綠色盒子尺寸過小無法容納玩具車，同時(shí)給出對(duì)應(yīng)的評(píng)分。

這些即時(shí)的外部反思會(huì)被存入工作記憶緩沖區(qū)，當(dāng)緩沖區(qū)達(dá)到指定容量，或遇到切換房間、重復(fù)失敗等關(guān)鍵節(jié)點(diǎn)時(shí)，系統(tǒng)會(huì)啟動(dòng)測試訓(xùn)練，將反思轉(zhuǎn)化為自監(jiān)督訓(xùn)練信號(hào)，更新模型參數(shù)。

追溯反思：用后見之明，修正早期決策

即時(shí)外部反思只能評(píng)估單步動(dòng)作的短期結(jié)果，無法解決長時(shí)序任務(wù)中的非局部失敗問題。而追溯反思機(jī)制，讓模型具備了 “后見之明”，能夠結(jié)合后續(xù)任務(wù)進(jìn)展，重新評(píng)估早期決策的合理性，完成長時(shí)程的信用分配。

觸發(fā)追溯反思后，外部反思模型會(huì)根據(jù)當(dāng)前環(huán)境狀態(tài)與完整工作記憶，對(duì)歷史動(dòng)作進(jìn)行重新評(píng)估，修正原有的評(píng)分與反思結(jié)論。例如，模型最初認(rèn)為 “將小物件放入大隔間” 是成功操作，但后續(xù)發(fā)現(xiàn)這一行為導(dǎo)致大物件無處安放，追溯反思便會(huì)為該動(dòng)作重新打上低分，并指出其阻礙后續(xù)任務(wù)的問題。

藍(lán)色文字表示用于候選動(dòng)作選擇的內(nèi)部反思，橙色文字表示執(zhí)行后的外部反思，紅色文字表示追溯反思。

這些經(jīng)后驗(yàn)修正的反思結(jié)果，會(huì)成為更精準(zhǔn)的訓(xùn)練信號(hào)，分別通過監(jiān)督學(xué)習(xí)更新內(nèi)部反思模型、通過策略梯度更新行動(dòng)生成模型，前者讓模型的前置預(yù)判更貼合現(xiàn)實(shí)，后者讓模型更傾向于選擇長期來看更優(yōu)的動(dòng)作，實(shí)現(xiàn)了阿吉里斯提出的雙環(huán)學(xué)習(xí)：不僅優(yōu)化具體的行動(dòng)策略，更修正底層的推理邏輯。

02.

兩大基準(zhǔn)測試：全面驗(yàn)證，性能碾壓現(xiàn)有基線

為充分驗(yàn)證 Reflective Test-Time Planning 框架的有效性，團(tuán)隊(duì)設(shè)計(jì)了兩項(xiàng)針對(duì)性極強(qiáng)的基準(zhǔn)測試，分別面向長時(shí)程多約束任務(wù)與幾何放置約束任務(wù)。研究團(tuán)隊(duì)將該框架與語言反思、世界模型、強(qiáng)化學(xué)習(xí)等多個(gè)領(lǐng)域的主流基線模型進(jìn)行對(duì)比，并通過消融實(shí)驗(yàn)驗(yàn)證了各反思組件的必要性。

長時(shí)程家庭任務(wù)：跨房間多步驟，考驗(yàn)失敗恢復(fù)能力

該基準(zhǔn)基于 BEHAVIOR-1K 環(huán)境構(gòu)建，包含四類貼近真實(shí)場景的家庭任務(wù)，均需要跨房間執(zhí)行、多步驟推理，并重點(diǎn)考驗(yàn)?zāi)Ｐ偷氖』謴?fù)能力：

適配任務(wù)（物品裝箱，考驗(yàn)幾何與容量推理）

挑選任務(wù)（物品檢索，考驗(yàn)偏好判斷與探索策略）

準(zhǔn)備任務(wù)（物品組裝，考驗(yàn)順序約束與依賴推理）

混合任務(wù)（融合多重約束，考驗(yàn)綜合推理能力）

任務(wù)由 GPT-5 結(jié)合場景圖自動(dòng)生成，并提前嵌入多種典型失敗模式，例如適配任務(wù)中的尺寸不匹配、挑選任務(wù)中過早決策導(dǎo)致錯(cuò)過最優(yōu)解等，所有任務(wù)均在 BEHAVIOR 模擬器中完成物理驗(yàn)證，保證了任務(wù)的合理性與挑戰(zhàn)性。

實(shí)驗(yàn)結(jié)果顯示，Reflective Test-Time Planning 框架在所有任務(wù)類別上均大幅領(lǐng)先，平均成功率達(dá)到 33.65%，顯著超越所有基線模型。其中難度最高的適配任務(wù)中，該框架成功率達(dá)到 44.7%，而最強(qiáng)基線模型 3DLLM?Mem 僅為 10.6%，傳統(tǒng)強(qiáng)化學(xué)習(xí)方法 PPO 更是直接為 0。

櫥柜適配任務(wù)：受控環(huán)境，精準(zhǔn)測試放置錯(cuò)誤學(xué)習(xí)能力

為了排除復(fù)雜環(huán)境干擾、精準(zhǔn)測試模型從幾何放置錯(cuò)誤中學(xué)習(xí)的能力，團(tuán)隊(duì)在 MuJoCo 中設(shè)計(jì)了一套櫥柜適配基準(zhǔn)。任務(wù)要求機(jī)器人將 6–10 個(gè)不同形狀、顏色的幾何物體，放入 6–8 個(gè)尺寸各異的櫥柜隔間中，物體需與隔間邊界完全貼合，且每個(gè)任務(wù)僅有一個(gè)最優(yōu)解。

該測試以適配率（成功放入任意隔間的物體比例）和正確率（放入目標(biāo)隔間的物體比例）為核心指標(biāo)。最終，該框架實(shí)現(xiàn)了 60.2% 的適配率與 25.3% 的正確率，大幅優(yōu)于各類基線模型。

03.

消融實(shí)驗(yàn)：各組件缺一不可，協(xié)同作用是關(guān)鍵

消融實(shí)驗(yàn)結(jié)果進(jìn)一步印證了框架設(shè)計(jì)的合理性：行動(dòng)中反思與行動(dòng)后反思相互依賴、缺一不可，單獨(dú)移除任意一個(gè)模塊，都會(huì)造成性能大幅下降，甚至效果比同時(shí)移除兩者更差。

例如，移除行動(dòng)中反思后，準(zhǔn)備任務(wù)成功率從 31.7% 驟降至 3.17%。原因在于缺少高質(zhì)量候選動(dòng)作，后續(xù)的行動(dòng)后反思無法獲得有效學(xué)習(xí)樣本，只能在錯(cuò)誤動(dòng)作上反復(fù)優(yōu)化。而移除行動(dòng)后反思，則會(huì)讓行動(dòng)中反思的評(píng)分過度自信、與現(xiàn)實(shí)脫節(jié)，模型會(huì)持續(xù)選擇看似最優(yōu)、實(shí)則錯(cuò)誤的動(dòng)作。

同時(shí)，行動(dòng)生成模型與內(nèi)部反思模型的聯(lián)合更新也至關(guān)重要。單獨(dú)移除任意一個(gè)訓(xùn)練損失，都會(huì)導(dǎo)致模型性能下降。這表明，策略梯度更新與監(jiān)督反思訓(xùn)練，為模型的自適應(yīng)學(xué)習(xí)提供了互補(bǔ)且不可或缺的優(yōu)化信號(hào)。

從模擬到現(xiàn)實(shí)：泛化能力優(yōu)異，計(jì)算開銷可控

該框架的價(jià)值不僅體現(xiàn)在模擬環(huán)境中，在真實(shí)機(jī)器人實(shí)驗(yàn)與跨環(huán)境泛化測試中同樣展現(xiàn)出極強(qiáng)的實(shí)用性，且計(jì)算開銷可控，為后續(xù)實(shí)際落地奠定了堅(jiān)實(shí)基礎(chǔ)。

在基于 Franka Panda 機(jī)械臂的真實(shí)櫥柜放置實(shí)驗(yàn)中，搭載該框架的機(jī)器人能夠從放置失敗中快速調(diào)整策略，避免重復(fù)犯錯(cuò)；同時(shí)可通過追溯反思，識(shí)別早期放置行為對(duì)后續(xù)任務(wù)的影響并及時(shí)修正，最終順利完成多物體的合理歸置，驗(yàn)證了框架從仿真到現(xiàn)實(shí)的有效遷移能力。

在跨環(huán)境泛化測試中，團(tuán)隊(duì)將僅在 BEHAVIOR-1K 合成環(huán)境中訓(xùn)練的模型，直接部署至 Habitat-Matterport 3D 真實(shí)場景，框架仍取得了 19.5% 的成功率，而多數(shù)基線模型在此場景下成功率直接降至 0。這表明該框架學(xué)到的并非針對(duì)特定環(huán)境的固定策略，而是通用的反思與學(xué)習(xí)能力，能夠有效應(yīng)對(duì)環(huán)境分布偏移。

從計(jì)算開銷來看，框架單步推理時(shí)間相比傳統(tǒng)模型增加約 3 倍，主要消耗在候選動(dòng)作生成、內(nèi)部評(píng)估與測試訓(xùn)練環(huán)節(jié)。但這一開銷具備極高性價(jià)比：行動(dòng)中反思減少了無效物理試錯(cuò)，行動(dòng)后反思避免了重復(fù)失誤，最終以更高質(zhì)量的執(zhí)行軌跡抵消了計(jì)算成本。

團(tuán)隊(duì)還設(shè)計(jì)了一組對(duì)照實(shí)驗(yàn)：為傳統(tǒng)模型提供 3 倍行動(dòng)步數(shù)，使其推理耗時(shí)與該框架相當(dāng)，但傳統(tǒng)模型性能仍遠(yuǎn)低于框架，甚至出現(xiàn)下降。這說明單純?cè)黾釉囧e(cuò)次數(shù)無法替代高效的反思學(xué)習(xí)，也印證了反思時(shí)間遠(yuǎn)比重復(fù)試錯(cuò)更有價(jià)值。

技術(shù)細(xì)節(jié)：這些設(shè)計(jì)，讓反思落地更高效

Reflective Test-Time Planning 框架能取得優(yōu)異表現(xiàn)，離不開一系列精心設(shè)計(jì)的技術(shù)細(xì)節(jié)，這些細(xì)節(jié)讓反思機(jī)制更高效，也更貼合具身智能的實(shí)際部署需求。

在行動(dòng)中反思環(huán)節(jié)，候選動(dòng)作數(shù)量 N=6、采樣溫度 T=1.25–1.5 時(shí)性能達(dá)到最優(yōu)。N 過小會(huì)導(dǎo)致可選空間不足，N 過大會(huì)加重計(jì)算負(fù)擔(dān)，同時(shí)引入大量低質(zhì)量候選動(dòng)作；溫度過低會(huì)讓候選動(dòng)作趨于同質(zhì)化，溫度過高則會(huì)生成無意義的無效動(dòng)作，使內(nèi)部評(píng)估失去實(shí)際意義。

測試時(shí)訓(xùn)練采用 LoRA 低秩適配技術(shù)，在僅更新少量參數(shù)的前提下，就能達(dá)到接近全參數(shù)微調(diào)的性能，其中 rank=8、alpha=16 為最優(yōu)配置。參數(shù)配置過小會(huì)導(dǎo)致適配能力不足，難以捕捉精細(xì)的空間推理與反思邏輯；配置過大則容易出現(xiàn)模式崩潰，使模型喪失對(duì)不同場景的區(qū)分能力。

行動(dòng)預(yù)算的設(shè)置同樣關(guān)鍵，50 步為最優(yōu)選擇。30 步預(yù)算不足以支撐復(fù)雜任務(wù)的反思與調(diào)整，機(jī)器人常會(huì)因步數(shù)耗盡而無法完成任務(wù)；100 步的寬松預(yù)算則會(huì)讓機(jī)器人陷入低效探索，反而積累更多錯(cuò)誤。適度的約束，能夠引導(dǎo)模型做出更聚焦、更具目標(biāo)性的決策。

此外，框架采用單步動(dòng)作生成，而非傳統(tǒng)的滾動(dòng)時(shí)域規(guī)劃，有效避免了對(duì)未來的無效預(yù)測。具身任務(wù)中的物理交互具有較強(qiáng)不可預(yù)測性，提前生成的動(dòng)作序列往往會(huì)因一步失敗而整體失效，造成大量計(jì)算浪費(fèi)。單步生成結(jié)合追溯反思，可讓模型在持續(xù)學(xué)習(xí)中實(shí)現(xiàn)隱式長時(shí)程規(guī)劃，在保證性能的同時(shí)，節(jié)省約 5 倍計(jì)算成本。

04.

結(jié)語與未來：

可以說斯坦福團(tuán)隊(duì)Reflective Test-Time Planning 框架重新定義了機(jī)器學(xué)習(xí)范式，從機(jī)械重復(fù)的試錯(cuò)，轉(zhuǎn)向具備思考、復(fù)盤與修正能力的主動(dòng)學(xué)習(xí)。

值得一提的是，目前，該框架的反思能力主要依托視覺觀測與自然語言實(shí)現(xiàn)。未來，團(tuán)隊(duì)計(jì)劃引入觸覺、力覺等更多感官模態(tài)，在物體抓取、放置等任務(wù)中，借助更精細(xì)的物理交互信息，讓機(jī)器人的反思更貼近真實(shí)物理世界。同時(shí)，研究還將進(jìn)一步提升反思力度，從動(dòng)作層面的反思，逐步深入到推理層面的反思，幫助機(jī)器人更精準(zhǔn)地定位錯(cuò)誤根源。、

論文地址：https://arxiv.org/pdf/2602.21198v1

項(xiàng)目地址：https://reflective-test-time-planning.github.io/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.