網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

人類一離座AI就進化！伯克利開源MetaClaw，靜態(tài)Agent慌了

2026-03-30 21:27:11　來源: 新智元

北京舉報

分享至

新智元報道

編輯：元宇

【新智元導讀】你開會時，AI竟在偷偷升級？伯克利等四校開源MetaClaw，讓Agent趁你開會、離席、睡覺時持續(xù)進化，直接打破「上線即凍結(jié)」這條行業(yè)鐵律。

又到了每周例會時間。

你的電腦桌面日歷上寫著「周會14:00-15:30」，屏幕鎖定。

與此同時，一個后臺AI進程確認你暫時不會回來，便自動啟動了訓練窗口：

上午剛犯過的錯誤被拆解成規(guī)則注入系統(tǒng)提示詞，隨后云端LoRA微調(diào)開始接管。

90分鐘后，等你散會回到工位，面前的Agent已經(jīng)完成了一次自我迭代。

這就是開源MetaClaw框架所實現(xiàn)的功能：

讓一個已經(jīng)在線服務的Agent，在不中斷服務的前提下持續(xù)從失敗中進化。

這項研究打破了「上線即凍結(jié)」這條Agent行業(yè)默認規(guī)則。

MetaClaw框架由北卡羅來納大學教堂山分校、卡內(nèi)基梅隆大學、加州大學圣克魯茲分校與加州大學伯克利分校聯(lián)合推出。

https://arxiv.org/pdf/2603.17187

開源即登頂。

MetaClaw剛剛發(fā)布便霸榜HuggingFace，它所代表的「Agent持續(xù)進化」理念，已經(jīng)引起了全球AI研究者和開發(fā)者的高度關(guān)注。

最能體現(xiàn)其工具鏈成熟度的，是它極具破壞性的部署門檻。

官方倉庫展示的控制臺操作顯示，其龐大的「快慢雙循環(huán)」機制與OMLS調(diào)度器已經(jīng)被粗暴地簡化為了兩條命令。

開發(fā)者只需輸入「metaclaw setup」完成一次性配置，接著輸入「metaclaw start --daemon」，系統(tǒng)就會作為一個后臺守護進程靜默拉起。

這種開箱即用的封裝，徹底粉碎了學術(shù)模型與實際落地之間的壁壘。

打破Agent「上線即凍結(jié)」的結(jié)構(gòu)性困境

當前絕大多數(shù)Agent在能力迭代上面臨這樣一個殘酷現(xiàn)狀：訓練一次、部署上線、長期不變。

但現(xiàn)實世界卻是在不斷變化的：任務需求在漂移，工作流程在修改，工具鏈與組織規(guī)則也在不斷更新。

在OpenClaw這類平臺上，一個Agent可能需要同時連接20多個消息渠道。

任務分布每小時都在變化，但Agent的能力卻仍停留在出廠時刻。

表面上看，行業(yè)內(nèi)已有不少修補方案，例如記錄軌跡、構(gòu)建靜態(tài)技能庫或進行在線強化學習。

但這些方案往往只解決了部分問題：

只存儲原始軌跡而不提煉可遷移知識，會導致信息冗長且碎片化；

靜態(tài)技能庫與權(quán)重優(yōu)化彼此脫節(jié)；

重新訓練Agent通常意味著必須停機，導致在線服務與持續(xù)進化無法兼得。

這正是「靜態(tài)Agent」所面臨的現(xiàn)實矛盾：它必須24小時在線，但面對的世界卻在不斷變化。

無法適應新任務分布的Agent，哪怕初始能力再強，也容易在長期的實際應用中顯得刻板。

兩條腿走路

快適配與慢進化

為了打破「不停機與持續(xù)進化」之間的沖突，MetaClaw將更新機制拆分為兩條時間尺度完全不同的回路。

MetaClaw的系統(tǒng)架構(gòu)圖中展示了MetaClaw的「快慢雙循環(huán)」學習機制。左側(cè)顯示OMLS調(diào)度器如何監(jiān)控用戶的Google Calendar和鍵鼠閑置狀態(tài)，右側(cè)展示系統(tǒng)如何分離支持集與查詢集，進行技能提取（快適配）與LoRA權(quán)重微調(diào)（慢進化）。

第一條路徑，是技能驅(qū)動的快速適配（Skill-driven fast adaptation）。

當Agent在任務中失敗時，系統(tǒng)會將失敗軌跡交給另一個大模型進行分析，提煉出可復用的行為規(guī)則，并立刻將其注入系統(tǒng)提示詞。

這個過程不修改模型權(quán)重，不中斷服務，且能立即生效。

論文中列舉了典型的高頻規(guī)則：統(tǒng)一時間格式、執(zhí)行高風險文件操作前先備份、嚴格遵循命名規(guī)范。

更重要的是，這些規(guī)則并非綁定于單一任務的補丁，而是跨任務的可遷移知識。

一次關(guān)于時間格式的糾錯，能夠提升后續(xù)所有涉及時間處理任務的穩(wěn)定性。

第二條路徑，是機會式策略優(yōu)化（Opportunistic policy optimization）。

在用戶處于不活躍狀態(tài)時，系統(tǒng)會結(jié)合過程獎勵模型（PRM）和LoRA進行基于梯度的強化學習（RL）權(quán)重更新。

前者如同戰(zhàn)術(shù)上的快速止血，后者則是戰(zhàn)略上的能力固化。

為了將這兩者有機結(jié)合，MetaClaw引入了一個核心設(shè)計：支持集與查詢集分離，以及嚴格的技能版本控制。

如果某條失敗樣本已經(jīng)被新提取的規(guī)則修復，系統(tǒng)在強化學習階段繼續(xù)使用該樣本就會導致「陳舊獎勵污染」（stale reward contamination）：模型會為一個已經(jīng)解決的問題繼續(xù)受罰。

MetaClaw的做法是為軌跡打上技能版本號，技能庫升級后便清理舊版本的無效樣本，只保留新技能生效后的數(shù)據(jù)進入RL訓練。

這在本質(zhì)上實現(xiàn)了「記憶」與「進化」的真正統(tǒng)一。

利用碎片時間訓練

OMLS調(diào)度器

模型訓練需要時間與算力，那么MetaClaw如何做到讓用戶幾乎無感？

答案在于其設(shè)計的機會式元學習調(diào)度器（OMLS）。

OMLS專門監(jiān)控三類信號：預設(shè)的睡眠時段、系統(tǒng)層面的鍵盤鼠標閑置狀態(tài)、以及Google Calendar的日程占用情況。

只要觸發(fā)任何一個表明用戶暫時離開的信號，訓練窗口就會自動打開。

訓練器支持隨時暫停與繼續(xù)，這意味著即便是用戶離開幾分鐘的零碎時間，也能被轉(zhuǎn)化為AI持續(xù)訓練的時間窗口。

過去，AI的升級往往是一次集中式的工程，需要停服、重訓、切換版本再重新上線。

MetaClaw則將人類碎片化的空閑時間，變成了AI持續(xù)進化的微型車間。

此外，該框架采用代理架構(gòu)與云端訓練接口，不強制要求昂貴的本地GPU計算資源，可以直接對接現(xiàn)有的個人Agent和多種模型平臺，支持一鍵部署與持續(xù)元學習。

補齊過程性知識

弱模型的數(shù)據(jù)躍升

這套框架的實際效果在測試數(shù)據(jù)中得到了直接驗證。

論文團隊構(gòu)建了MetaClaw-Bench基準測試，包含934道題目，模擬了44個工作日的任務流，專門評估Agent在連續(xù)任務流中能否越用越強。

測試結(jié)果顯示，在僅進行行為規(guī)則注入的情況下，被評測模型的相對準確率最高提升可達32.2%。

在體現(xiàn)真實執(zhí)行力的端到端任務完成率上，被評測模型從2.0%提升至16.5%，實現(xiàn)了8.25倍的增長。

在另一項包含23個階段的AutoResearchClaw自主研究流水線（涵蓋文獻綜述、實驗設(shè)計、代碼生成、結(jié)果分析至論文寫作）中，即便不進行權(quán)重訓練而僅依賴技能注入，系統(tǒng)的綜合魯棒性也提升了18.3%，階段重試率下降24.8%，迭代優(yōu)化輪次減少了40%。

測試數(shù)據(jù)揭示了一個更關(guān)鍵的現(xiàn)象：MetaClaw首先是一個Agent持續(xù)進化框架，而且對弱底模驅(qū)動的Agent增益尤其明顯。

論文分析指出，較弱模型更缺少的是隱式的過程性知識：也就是那些具體的操作規(guī)則、執(zhí)行習慣和格式紀律，而技能庫恰恰把這些知識顯式寫了出來，因此僅靠skill注入，就能帶來更大的準確率提升。

相比之下，GPT-5.2由于起點更高，可提升空間更小，更容易出現(xiàn)天花板效應。

但論文也強調(diào)，skills注入主要提升的是規(guī)則遵循和部分執(zhí)行質(zhì)量，不足以穩(wěn)定解鎖高強度任務中的端到端完成率。

真正讓被評測模型實現(xiàn)了8.25倍增長的，是skills與權(quán)重級策略優(yōu)化結(jié)合后的完整MetaClaw框架。

Agent進化時代的范式轉(zhuǎn)移

當然，MetaClaw仍存在一定邊界。

論文團隊指出，目前的基準測試在模擬環(huán)境中進行，并不完全等同于復雜的生產(chǎn)環(huán)境；空閑窗口的檢測也依賴于特定的用戶系統(tǒng)配置。

但MetaClaw明確指向了一個范式轉(zhuǎn)移的方向：Agent的生命周期正在從「訓練完成后交付」向「交付之后繼續(xù)生長」演進。

其GitHub倉庫的持續(xù)更新（包括代理式接入、多客戶端支持、跨會話記憶等工程化進展）表明，這套理念正在向可用的工具鏈快速轉(zhuǎn)化。

把它放回行業(yè)坐標里看，意味就更大了。

對比近期普林斯頓團隊提出的OpenClaw-RL（傾向于將所有交互信號直接用于訓練），MetaClaw選擇了「快規(guī)則加慢權(quán)重」的分層策略。

前者追求立即糾偏，后者追求長期固化，兩者代表了對下一代Agent演進路徑的不同工程思考。

決定未來模型能力上限的，將不再僅僅是出廠時的參數(shù)規(guī)模，更是其在真實使用場景中持續(xù)轉(zhuǎn)化經(jīng)驗并自我迭代的閉環(huán)機制。

你的日歷、你的鍵鼠狀態(tài)、你的每一次離座，都有可能成為AI下一次能力升級的契機。

真正的智能演化，才剛剛在工作現(xiàn)場拉開序幕。

參考資料：

https://arxiv.org/abs/2603.17187

https://github.com/aiming-lab/MetaClaw

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.