61.3%！「人類最后一場考試」AI終于及格了，揭秘Agent自我進化新路徑

2026-01-08 17:31:27　來源: AI科技評論

廣東舉報

分享至

拒絕微調(diào)，告別死記硬背：MemRL如何讓大模型擁有“會思考的長期記憶”？

導(dǎo)語：跨越及格線

“人類最后一場考試”（Humanity's Last Exam, HLE）一直被視為AI推理能力的“終極考驗”。面對這場匯聚了多學(xué)科專家級難題的極限測試，此前的大模型往往折戟沉沙。即便是強大的 Gemini-3-Pro，在沒有任何輔助的情況下，準(zhǔn)確率也僅為35.7%；在允許AI訪問google search的情況下，準(zhǔn)確率也僅為45.8% 。

然而，一項最新的研究打破了這一僵局。上海交通大學(xué)、西安電子科技大學(xué)、上海創(chuàng)智學(xué)院與記憶張量（MemTensor）的聯(lián)合團隊提出了一種名為MemRL的新框架，在不微調(diào)模型參數(shù)的前提下，讓 AI 的成績一舉躍升至61.3%。AI 終于及格了，但它做對的不僅僅是“刷題”，而是學(xué)會了像人類一樣從過往經(jīng)驗中“提煉智慧”。

HLE 之所以被稱為“人類最后一場考試”，是因為它考驗的不再是單純的知識儲備，而是對人類資深專家級問題的深入理解和復(fù)雜推理能力。而這，恰恰擊中了當(dāng)前大模型技術(shù)棧的軟肋。

02
痛點：為什么傳統(tǒng)的“外掛大腦”不管用？

在通往通用人工智能（AGI）的路上，我們一直希望 Agent 能像人類一樣持續(xù)學(xué)習(xí)。作者們嘗試過兩條路，但都很難走：

1.微調(diào)（Fine-tuning）：就像通過“做手術(shù)”來增加腦容量。成本高昂不說，還容易引發(fā)“災(zāi)難性遺忘”，學(xué)了新知識，忘了舊本領(lǐng) 。

2.RAG（檢索增強）：就像給 AI 一本“參考書”。但傳統(tǒng)的 RAG 是盲目檢索，它只看關(guān)鍵詞匹不匹配（語義相似度），卻不管檢索回來的內(nèi)容對解決問題有沒有真正的幫助。

結(jié)果就是，Agent 往往檢索回來一堆看似相關(guān)實則無用的“噪聲”，導(dǎo)致推理失敗。

既然“改造大腦”（微調(diào)）太危險，“盲目翻書”（RAG）又不靠譜，有沒有一種方法，既能保持大腦的穩(wěn)定性，又能像人類一樣靈活地積累經(jīng)驗？

03
破局：MemRL 的“認(rèn)知覺醒”

答案就藏在我們的生物本能中，MemRL的核心理念受到了人類認(rèn)知科學(xué)中構(gòu)建性情景模擬的深刻啟發(fā)：將“穩(wěn)定的推理能力”與“動態(tài)的情景記憶”解耦。

這就好比一個聰明人（凍結(jié)的 LLM），他的智商是固定的，但他可以通過不斷優(yōu)化自己的“方法筆記”（進化的記憶）來解決新問題。MemRL 不再執(zhí)著于“我記得什么”，而是開始思考“過往的經(jīng)歷中哪些經(jīng)驗教訓(xùn)是值得借鑒的，如果參考過往的某種做法接下來會發(fā)生什么”，進而得到改進后的策略，并在新策略付諸實施后根據(jù)結(jié)果再更新對過往經(jīng)驗的評價。

1.核心機制——記憶的三元組

傳統(tǒng)的 RAG（檢索增強生成）只看“長得像不像”（語義相似度），而 MemRL 引入了一個更像人類的機制：“Intent-Experience-Utility”（意圖-經(jīng)驗-效用）三元組。

簡單來說，每一次Memory不僅存儲了“我想做什么”（Intent）和“我做了什么”（Experience），更關(guān)鍵的是貼上了一個“這一招好不好用”的標(biāo)簽（Utility/Q值）。這就像我們在腦海里給過去的經(jīng)驗打分，下次遇到類似問題，不僅看誰相關(guān)，更看誰的參考價值更大。

2.它是如何“思考”的？——引入“價值評估”過程

MemRL 拋棄了傳統(tǒng)的簡單存儲，它為每一條記憶打上了一個Q值（效用分?jǐn)?shù)）。

· 在檢索時，它不僅看“這條經(jīng)驗和當(dāng)前問題像不像”（階段A：語義召回）；

· 更會像一個嚴(yán)厲的批評家一樣審視：“歷史數(shù)據(jù)告訴我，用這條經(jīng)驗解決這類問題，預(yù)期的結(jié)果好嗎？”（階段B：價值感知選擇）。

通過加權(quán)語義相似度以及效用分?jǐn)?shù)，MemRL 能夠精準(zhǔn)地從海量記憶中撈出那些真正能通向成功的“金鑰匙” 。

3.它是如何“進化”的？——無參數(shù)的自我修正

MemRL 的核心在于讓 Agent 在運行時“記住什么是有效的”。這一過程完全在記憶空間 (Memory Space) 內(nèi)完成，不需要任何梯度傳播。

具體的進化包含兩個并行過程：

1.Q 值更新 (Refining Utilities)：當(dāng) Agent 完成任務(wù)并獲得環(huán)境反饋（Reward, 如成功/失敗或分?jǐn)?shù)）后，我們會對剛才使用過的記憶進行“蒙特卡洛式更新”(Monte Carlo style update)。

· 我們使用One-step MDP 形式，將當(dāng)前狀態(tài)視為終局，對記憶的Q值進行更新。

· 通過這一規(guī)則，記憶的 Q 值會被推向“經(jīng)驗期望回報” (Empirical Expected Return)。

· 簡單來說：如果某條記憶剛才幫了大忙，它的 Q 值會上升，預(yù)示著它在相似的場景下具備更高的“參考價值”；反之則會降低。

2.經(jīng)驗回寫 (Experience Expansion)：除了更新舊記憶，MemRL 還會將當(dāng)前的完整軌跡（Trajectory）通過 LLM 總結(jié)為新的經(jīng)驗，并且結(jié)合意圖（intent）以及初始化的效用（Q-init）成一個新的三元組 (Intent,Experience,Q-init)，寫入記憶庫。這意味著記憶庫不僅在“修正”舊知，還在不斷“擴充”新知。

04
實驗核心：Runtime 進化與記憶的真正價值

1. Main Results: 驚人的 Runtime Learning 能力

作者們在四大 Benchmark 上進行了測試：BigCodeBench(代碼生成)、ALFWorld(具身決策)、Lifelong Agent Bench(操作系統(tǒng)/數(shù)據(jù)庫交互) 和HLE(復(fù)雜推理)。對比基線包括Standard RAG、Self-RAG以及最先進的 Agent Memory 方法 (Mem0, MemP)。結(jié)論非常硬核（Table 1）：MemRL 不需要任何參數(shù)更新 (Training-free)，僅靠運行時積累經(jīng)驗，就能實現(xiàn)持續(xù)的性能攀升。

· 在ALFWorld中，MemRL 的最終準(zhǔn)確率達到69.7%，相比 MemP (45.6%) 提升了53%！

· 在HLE這種高難度基準(zhǔn)上，MemRL 同樣刷新了記錄：首次突破60%。這證明了“非參數(shù)化強化學(xué)習(xí)”能讓 Agent 像人類一樣，通過 Trial-and-Error（試錯）在運行時持續(xù)學(xué)習(xí)，越來越強。

2. Transfer Learning: 舉一反三的泛化能力

不僅是“熟能生巧”，MemRL 還學(xué)會了“觸類旁通”。作者們測試了遷移學(xué)習(xí)場景 (Table 2)：讓 Agent 先訓(xùn)練，然后凍結(jié)記憶庫，直接在30% 的未見任務(wù) (Held-out sets)上測試。結(jié)果顯示： MemRL 在所有任務(wù)上都超越了 RAG 和 MemP。這意味著 MemRL 存儲的不僅僅是具體的“答案”，更是抽象的“高價值策略”。它成功過濾掉了那些只能解決特定訓(xùn)練題的“過擬合記憶”，留下了真正能應(yīng)對未知環(huán)境的通用經(jīng)驗。

05
深入分析：不止羅列成果，

文章還提出了非常深入的分析與思考

1. 軌跡驗證器：長程任務(wù)更有提升空間 (Trajectory Verifier)

實驗數(shù)據(jù)（Table 3）揭示了一個關(guān)鍵現(xiàn)象：任務(wù)鏈路越長，MemRL 優(yōu)勢越大。

· 在單步任務(wù) (BigCodeBench) 上提升較小 (+2.5 pp)；

· 但在多步順序任務(wù) (ALFWorld)上，提升高達+24.1 pp！原因揭秘：傳統(tǒng) RAG 容易檢索到“開頭很像但結(jié)局跑偏”的錯誤經(jīng)驗。而 MemRL 因為記錄了整條軌跡的 Q 值 (Utility)，它實際上充當(dāng)了一個“軌跡驗證器” (Trajectory Verifier)。它能預(yù)判這條路走下去會不會“翻車”，從而在一開始就避開那些表面看似相關(guān)、實則會導(dǎo)致失敗的路徑。

2. 意外發(fā)現(xiàn)：從“差一點”中學(xué)習(xí) (Near-misses)

這是一個反直覺但極具深意的發(fā)現(xiàn) (Figure 8b)。作者們在高 Q 值 (High-Utility) 的記憶庫中，發(fā)現(xiàn)了約12% 的失敗案例。深入分析發(fā)現(xiàn)，其中存在一些“Near-misses” (差一點就成功)的案例。它們雖然最終報錯（例如輸出格式微小錯誤），但整體推理邏輯是正確的。MemRL 敏銳地識別出了這些案例的“戰(zhàn)略價值”，將它們作為“糾錯指南”保留下來。這證明系統(tǒng)具備了從部分失敗中提取正確邏輯的高級能力，也符合人類從失敗中學(xué)習(xí)的認(rèn)知原理。

3. 理論保證的穩(wěn)定性：告別災(zāi)難性遺忘 (Stability Guarantee)

持續(xù)學(xué)習(xí)最怕“撿了芝麻丟西瓜”。在長期訓(xùn)練動態(tài) (Figure 9) 中，作者們揭示了一個殘酷的現(xiàn)象：啟發(fā)式方法（如 MemP）往往出現(xiàn)CSR（歷史最佳）與當(dāng)前準(zhǔn)確率的脫節(jié)。這意味著新的探索無意中“覆蓋”了舊的成功策略，導(dǎo)致了災(zāi)難性遺忘。

相比之下，MemRL 展現(xiàn)了更加一致的Synchronized Growth (同步增長)。這源于 MemRL 背后收斂穩(wěn)定性的理論保障，這也是MemRL與大多自進化智能體的核心區(qū)別：

· 蒙特卡洛式建模的收斂性 (Monte Carlo Style Modeling)：基于原文 Eq. 8 的建模，作者們在原文Section 4.5中給出了相應(yīng)的理論分析，確保了算法的收斂穩(wěn)定性。

· 變分下界約束 (Variational Lower Bound)：不同于啟發(fā)式排序可能出現(xiàn)的隨機漂移，MemRL會推動策略去攀登“期望獎勵的變分下界”。

結(jié)論：這從理論層面鎖定了性能的單調(diào)不減 (Non-decreasing)，確保每一次更新都是在夯實地基，而非拆東墻補西墻。從這個實驗中我們也能得到一個有價值的啟發(fā)：在這個Agent爆發(fā)的時代，很多時候并不需要理論保障，僅通過直覺搭個“Agentic Pipeline”也能觀察到顯著的性能提升（如圖中藍色線條），那我們?yōu)槭裁匆パ芯坷碚撃兀ㄟ^這張圖，或許能窺見一部份答案。

4. 數(shù)據(jù)洞察：從數(shù)據(jù)集的語義空間到記憶泛化

在實驗的最后，作者們通過Figure 11探討了一個根本性問題：“長得像”是否意味著“更有用”？作者們的核心發(fā)現(xiàn)是：數(shù)據(jù)集內(nèi)的相似度（Intra-dataset Similarity）與 Memory Gain（記憶帶來的性能提升）呈現(xiàn)出顯著的正相關(guān)性。

基于這一發(fā)現(xiàn)，作者們進一步解析了 MemRL 的收益來源，將其歸納為兩種截然不同的模式：

1.Positive Transfer (正向遷移)：在ALFWorld這類具有高相似度的任務(wù)中，MemRL 充分利用相似性快速復(fù)用歷史上的不同問題的最優(yōu)策略，從而獲得了最大的收益。

2.Runtime Memorization (運行時記憶)：在HLE這類低相似度/跨學(xué)科的任務(wù)中，雖然題目之間互不相同，但 MemRL 依然獲得了+21.6%的顯著提升。這得益于其強大的“單題突破”能力——即通過“記住”特定難題的解法來應(yīng)對復(fù)雜場景。

結(jié)論：這解釋了 MemRL 為什么既能做“舉一反三”的通用推手（依靠 Transfer），也能做“博聞強記”的特定領(lǐng)域?qū)＜遥ㄒ揽?Memorization）。

06
結(jié)語：邁向終身學(xué)習(xí)的 Agent

上海交大、西電、上海創(chuàng)智學(xué)院與記憶張量團隊的這項工作，為 AI 社區(qū)提供了一個優(yōu)雅的范式：我們不需要總是通過昂貴的訓(xùn)練來讓模型變強，也不需要針對問題場景去精雕細琢所謂的“agentic pipeline”。

MemRL 證明了，一個凍結(jié)的大腦，配合一個不斷自我進化的記憶系統(tǒng)，就能實現(xiàn)持續(xù)的終身學(xué)習(xí)（Lifelong Learning）。這或許才是通往 AGI 更經(jīng)濟、更高效的未來之路。

論文信息

· 論文標(biāo)題：MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

· 聯(lián)合團隊：上海交通大學(xué)、西安電子科技大學(xué)、上海創(chuàng)智學(xué)院、記憶張量（MemTensor）等

· arXiv 鏈接：https://arxiv.org/abs/2601.03192

未經(jīng)「AI科技評論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.