拒絕微調(diào),告別死記硬背:MemRL如何讓大模型擁有“會思考的長期記憶”?
![]()
01
導(dǎo)語:跨越及格線
“人類最后一場考試”(Humanity's Last Exam, HLE)一直被視為AI推理能力的“終極考驗”。面對這場匯聚了多學(xué)科專家級難題的極限測試,此前的大模型往往折戟沉沙。即便是強大的 Gemini-3-Pro,在沒有任何輔助的情況下,準(zhǔn)確率也僅為35.7%;在允許AI訪問google search的情況下,準(zhǔn)確率也僅為45.8% 。
然而,一項最新的研究打破了這一僵局。上海交通大學(xué)、西安電子科技大學(xué)、上海創(chuàng)智學(xué)院與記憶張量(MemTensor)的聯(lián)合團隊提出了一種名為MemRL的新框架,在不微調(diào)模型參數(shù)的前提下,讓 AI 的成績一舉躍升至61.3%。AI 終于及格了,但它做對的不僅僅是“刷題”,而是學(xué)會了像人類一樣從過往經(jīng)驗中“提煉智慧”。
![]()
HLE 之所以被稱為“人類最后一場考試”,是因為它考驗的不再是單純的知識儲備,而是對人類資深專家級問題的深入理解和復(fù)雜推理能力。而這,恰恰擊中了當(dāng)前大模型技術(shù)棧的軟肋。
02
痛點:為什么傳統(tǒng)的“外掛大腦”不管用?
在通往通用人工智能(AGI)的路上,我們一直希望 Agent 能像人類一樣持續(xù)學(xué)習(xí)。作者們嘗試過兩條路,但都很難走:
1.微調(diào)(Fine-tuning):就像通過“做手術(shù)”來增加腦容量。成本高昂不說,還容易引發(fā)“災(zāi)難性遺忘”,學(xué)了新知識,忘了舊本領(lǐng) 。
2.RAG(檢索增強):就像給 AI 一本“參考書”。但傳統(tǒng)的 RAG 是盲目檢索,它只看關(guān)鍵詞匹不匹配(語義相似度),卻不管檢索回來的內(nèi)容對解決問題有沒有真正的幫助。
結(jié)果就是,Agent 往往檢索回來一堆看似相關(guān)實則無用的“噪聲”,導(dǎo)致推理失敗。
既然“改造大腦”(微調(diào))太危險,“盲目翻書”(RAG)又不靠譜,有沒有一種方法,既能保持大腦的穩(wěn)定性,又能像人類一樣靈活地積累經(jīng)驗?
03
破局:MemRL 的“認(rèn)知覺醒”
答案就藏在我們的生物本能中,MemRL的核心理念受到了人類認(rèn)知科學(xué)中構(gòu)建性情景模擬的深刻啟發(fā):將“穩(wěn)定的推理能力”與“動態(tài)的情景記憶”解耦。
![]()
這就好比一個聰明人(凍結(jié)的 LLM),他的智商是固定的,但他可以通過不斷優(yōu)化自己的“方法筆記”(進化的記憶)來解決新問題。MemRL 不再執(zhí)著于“我記得什么”,而是開始思考“過往的經(jīng)歷中哪些經(jīng)驗教訓(xùn)是值得借鑒的,如果參考過往的某種做法接下來會發(fā)生什么”,進而得到改進后的策略,并在新策略付諸實施后根據(jù)結(jié)果再更新對過往經(jīng)驗的評價 。
1.核心機制——記憶的三元組
傳統(tǒng)的 RAG(檢索增強生成)只看“長得像不像”(語義相似度),而 MemRL 引入了一個更像人類的機制:“Intent-Experience-Utility”(意圖-經(jīng)驗-效用)三元組。
簡單來說,每一次Memory不僅存儲了“我想做什么”(Intent)和“我做了什么”(Experience),更關(guān)鍵的是貼上了一個“這一招好不好用”的標(biāo)簽(Utility/Q值)。這就像我們在腦海里給過去的經(jīng)驗打分,下次遇到類似問題,不僅看誰相關(guān),更看誰的參考價值更大。
2.它是如何“思考”的?——引入“價值評估”過程
MemRL 拋棄了傳統(tǒng)的簡單存儲,它為每一條記憶打上了一個Q值(效用分?jǐn)?shù))。
· 在檢索時,它不僅看“這條經(jīng)驗和當(dāng)前問題像不像”(階段A:語義召回);
· 更會像一個嚴(yán)厲的批評家一樣審視:“歷史數(shù)據(jù)告訴我,用這條經(jīng)驗解決這類問題,預(yù)期的結(jié)果好嗎?”(階段B:價值感知選擇)。
通過加權(quán)語義相似度以及效用分?jǐn)?shù),MemRL 能夠精準(zhǔn)地從海量記憶中撈出那些真正能通向成功的“金鑰匙” 。
3.它是如何“進化”的?——無參數(shù)的自我修正
MemRL 的核心在于讓 Agent 在運行時“記住什么是有效的”。這一過程完全在記憶空間 (Memory Space) 內(nèi)完成,不需要任何梯度傳播。
具體的進化包含兩個并行過程:
1.Q 值更新 (Refining Utilities): 當(dāng) Agent 完成任務(wù)并獲得環(huán)境反饋(Reward, 如成功/失敗或分?jǐn)?shù))后,我們會對剛才使用過的記憶進行“蒙特卡洛式更新”(Monte Carlo style update)。
· 我們使用One-step MDP 形式,將當(dāng)前狀態(tài)視為終局,對記憶的Q值進行更新。
· 通過這一規(guī)則,記憶的 Q 值會被推向“經(jīng)驗期望回報” (Empirical Expected Return)。
· 簡單來說:如果某條記憶剛才幫了大忙,它的 Q 值會上升,預(yù)示著它在相似的場景下具備更高的“參考價值”;反之則會降低。
2.經(jīng)驗回寫 (Experience Expansion): 除了更新舊記憶,MemRL 還會將當(dāng)前的完整軌跡(Trajectory)通過 LLM 總結(jié)為新的經(jīng)驗,并且結(jié)合意圖(intent)以及初始化的效用(Q-init)成一個新的三元組 (Intent,Experience,Q-init),寫入記憶庫。這意味著記憶庫不僅在“修正”舊知,還在不斷“擴充”新知。
![]()
04
實驗核心:Runtime 進化與記憶的真正價值
1. Main Results: 驚人的 Runtime Learning 能力
![]()
作者們在四大 Benchmark 上進行了測試:BigCodeBench(代碼生成)、ALFWorld(具身決策)、Lifelong Agent Bench(操作系統(tǒng)/數(shù)據(jù)庫交互) 和HLE(復(fù)雜推理)。 對比基線包括Standard RAG、Self-RAG以及最先進的 Agent Memory 方法 (Mem0, MemP)。結(jié)論非常硬核(Table 1):MemRL 不需要任何參數(shù)更新 (Training-free),僅靠運行時積累經(jīng)驗,就能實現(xiàn)持續(xù)的性能攀升。
· 在ALFWorld中,MemRL 的最終準(zhǔn)確率達到69.7%,相比 MemP (45.6%) 提升了53%!
· 在HLE這種高難度基準(zhǔn)上,MemRL 同樣刷新了記錄:首次突破60%。 這證明了“非參數(shù)化強化學(xué)習(xí)”能讓 Agent 像人類一樣,通過 Trial-and-Error(試錯)在運行時持續(xù)學(xué)習(xí),越來越強。
2. Transfer Learning: 舉一反三的泛化能力
![]()
不僅是“熟能生巧”,MemRL 還學(xué)會了“觸類旁通”。 作者們測試了遷移學(xué)習(xí)場景 (Table 2):讓 Agent 先訓(xùn)練,然后凍結(jié)記憶庫,直接在30% 的未見任務(wù) (Held-out sets)上測試。 結(jié)果顯示: MemRL 在所有任務(wù)上都超越了 RAG 和 MemP。 這意味著 MemRL 存儲的不僅僅是具體的“答案”,更是抽象的“高價值策略”。它成功過濾掉了那些只能解決特定訓(xùn)練題的“過擬合記憶”,留下了真正能應(yīng)對未知環(huán)境的通用經(jīng)驗。
05
深入分析:不止羅列成果,
文章還提出了非常深入的分析與思考
1. 軌跡驗證器:長程任務(wù)更有提升空間 (Trajectory Verifier)
![]()
實驗數(shù)據(jù)(Table 3)揭示了一個關(guān)鍵現(xiàn)象:任務(wù)鏈路越長,MemRL 優(yōu)勢越大。
· 在單步任務(wù) (BigCodeBench) 上提升較小 (+2.5 pp);
· 但在多步順序任務(wù) (ALFWorld)上,提升高達+24.1 pp!原因揭秘:傳統(tǒng) RAG 容易檢索到“開頭很像但結(jié)局跑偏”的錯誤經(jīng)驗。而 MemRL 因為記錄了整條軌跡的 Q 值 (Utility),它實際上充當(dāng)了一個“軌跡驗證器” (Trajectory Verifier)。它能預(yù)判這條路走下去會不會“翻車”,從而在一開始就避開那些表面看似相關(guān)、實則會導(dǎo)致失敗的路徑。
2. 意外發(fā)現(xiàn):從“差一點”中學(xué)習(xí) (Near-misses)
![]()
這是一個反直覺但極具深意的發(fā)現(xiàn) (Figure 8b)。 作者們在高 Q 值 (High-Utility) 的記憶庫中,發(fā)現(xiàn)了約12% 的失敗案例。 深入分析發(fā)現(xiàn),其中存在一些“Near-misses” (差一點就成功)的案例。它們雖然最終報錯(例如輸出格式微小錯誤),但整體推理邏輯是正確的。MemRL 敏銳地識別出了這些案例的“戰(zhàn)略價值”,將它們作為“糾錯指南”保留下來。這證明系統(tǒng)具備了從部分失敗中提取正確邏輯的高級能力,也符合人類從失敗中學(xué)習(xí)的認(rèn)知原理。
3. 理論保證的穩(wěn)定性:告別災(zāi)難性遺忘 (Stability Guarantee)
![]()
持續(xù)學(xué)習(xí)最怕“撿了芝麻丟西瓜”。 在長期訓(xùn)練動態(tài) (Figure 9) 中,作者們揭示了一個殘酷的現(xiàn)象:啟發(fā)式方法(如 MemP)往往出現(xiàn)CSR(歷史最佳)與當(dāng)前準(zhǔn)確率的脫節(jié)。這意味著新的探索無意中“覆蓋”了舊的成功策略,導(dǎo)致了災(zāi)難性遺忘。
相比之下,MemRL 展現(xiàn)了更加一致的Synchronized Growth (同步增長)。這源于 MemRL 背后收斂穩(wěn)定性的理論保障,這也是MemRL與大多自進化智能體的核心區(qū)別:
· 蒙特卡洛式建模的收斂性 (Monte Carlo Style Modeling):基于原文 Eq. 8 的建模,作者們在原文Section 4.5中給出了相應(yīng)的理論分析,確保了算法的收斂穩(wěn)定性。
· 變分下界約束 (Variational Lower Bound):不同于啟發(fā)式排序可能出現(xiàn)的隨機漂移,MemRL會推動策略去攀登“期望獎勵的變分下界”。
結(jié)論:這從理論層面鎖定了性能的單調(diào)不減 (Non-decreasing),確保每一次更新都是在夯實地基,而非拆東墻補西墻。從這個實驗中我們也能得到一個有價值的啟發(fā):在這個Agent爆發(fā)的時代,很多時候并不需要理論保障,僅通過直覺搭個“Agentic Pipeline”也能觀察到顯著的性能提升(如圖中藍色線條),那我們?yōu)槭裁匆パ芯坷碚撃兀ㄟ^這張圖,或許能窺見一部份答案。
4. 數(shù)據(jù)洞察:從數(shù)據(jù)集的語義空間到記憶泛化
![]()
在實驗的最后,作者們通過Figure 11探討了一個根本性問題:“長得像”是否意味著“更有用”?作者們的核心發(fā)現(xiàn)是:數(shù)據(jù)集內(nèi)的相似度(Intra-dataset Similarity)與 Memory Gain(記憶帶來的性能提升)呈現(xiàn)出顯著的正相關(guān)性。
基于這一發(fā)現(xiàn),作者們進一步解析了 MemRL 的收益來源,將其歸納為兩種截然不同的模式:
1.Positive Transfer (正向遷移):在ALFWorld這類具有高相似度的任務(wù)中,MemRL 充分利用相似性快速復(fù)用歷史上的不同問題的最優(yōu)策略,從而獲得了最大的收益。
2.Runtime Memorization (運行時記憶):在HLE這類低相似度/跨學(xué)科的任務(wù)中,雖然題目之間互不相同,但 MemRL 依然獲得了+21.6%的顯著提升。這得益于其強大的“單題突破”能力——即通過“記住”特定難題的解法來應(yīng)對復(fù)雜場景。
結(jié)論:這解釋了 MemRL 為什么既能做“舉一反三”的通用推手(依靠 Transfer),也能做“博聞強記”的特定領(lǐng)域?qū)<遥ㄒ揽?Memorization)。
06
結(jié)語:邁向終身學(xué)習(xí)的 Agent
上海交大、西電、上海創(chuàng)智學(xué)院與記憶張量團隊的這項工作,為 AI 社區(qū)提供了一個優(yōu)雅的范式:我們不需要總是通過昂貴的訓(xùn)練來讓模型變強,也不需要針對問題場景去精雕細琢所謂的“agentic pipeline”。
MemRL 證明了,一個凍結(jié)的大腦,配合一個不斷自我進化的記憶系統(tǒng),就能實現(xiàn)持續(xù)的終身學(xué)習(xí)(Lifelong Learning)。這或許才是通往 AGI 更經(jīng)濟、更高效的未來之路。
論文信息
· 論文標(biāo)題:MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
· 聯(lián)合團隊:上海交通大學(xué)、西安電子科技大學(xué)、上海創(chuàng)智學(xué)院、記憶張量(MemTensor)等
· arXiv 鏈接:https://arxiv.org/abs/2601.03192
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.