新一代框架MIA：讓智能體告別「失憶式工作」，在持續(xù)進化中變強

2026-04-20 11:10:39　來源: 機器之心Pro

河北舉報

分享至

本文共同一作是上海創(chuàng)智學院博士生喬靜陽、孟煒程，通訊作者是華東師范大學張志忠副教授，項目主導(dǎo)人是國家優(yōu)青謝源教授。

Never memorize something that you can look up.
— Albert Einstein

如今的大多數(shù)智能體，仍然活在一種「失憶式工作」模式中：每一次檢索都是從零開始，每一條推理路徑都無法沉淀，每一次失敗也不會轉(zhuǎn)化為經(jīng)驗。它們雖能多輪交互，但很難在深度研究中持續(xù)變強。

為了解決這個問題，已有工作嘗試基于歷史方案生成執(zhí)行規(guī)劃，但受限于預(yù)訓練范式，許多智能體仍陷入新的困境：一個不擅長規(guī)劃的「決策器」，從臃腫的記憶中檢索出零散片段，再去驅(qū)動一個缺乏規(guī)劃執(zhí)行能力的「執(zhí)行器」。結(jié)果是：記憶在增長，智能卻沒有。

于是，浮現(xiàn)出一個關(guān)鍵問題：是否存在將經(jīng)驗轉(zhuǎn)化為能力的智能體記憶機制？

上海創(chuàng)智學院和華東師范大學聯(lián)合團隊最近提出的 Memory Intelligence Agent (MIA)，一個面向深度研究場景的新一代記憶智能體框架，給這一問題帶來了新的答案。

論文地址：https://arxiv.org/abs/2604.04503
代碼倉庫：https://github.com/ECNU-SII/MIA
龍蝦技能：
純凈版：https://clawhub.ai/jingyangqiao/mia
可信版：https://clawhub.ai/sii-yucheng2002/mia-trust

（高效版和可訓練版即將發(fā)布）

為了解決這一問題，MIA 構(gòu)建了一套基于「Planner–Executor–Manager」架構(gòu)的記憶系統(tǒng)。其中，Planner 是戰(zhàn)術(shù)大腦，不僅能夠針對當前問題制定研究計劃，還能通過測試時的持續(xù)學習實時調(diào)整其策略。Executor 是經(jīng)過訓練的執(zhí)行專家，能夠毫無阻礙地解讀并遵循復(fù)雜的研究藍圖。Manager 是終極管理員，優(yōu)化記憶存儲以消除冗余。

與現(xiàn)有方法相比，MIA 的核心亮點在于：

構(gòu)建雙記憶機制，非參數(shù)記憶負責沉淀經(jīng)驗，參數(shù)記憶負責吸收能力，二者相互轉(zhuǎn)化，形成持續(xù)進化的閉環(huán)；
提出 Manager–Planner–Executor 多智能體結(jié)構(gòu)，將記憶管理、策略規(guī)劃與任務(wù)執(zhí)行解耦，并通過交替強化學習驅(qū)動 Planner 與 Executor 的協(xié)同進化，將「會規(guī)劃」和「會執(zhí)行」對齊；
引入面向開放世界的自進化機制，結(jié)合反思與無監(jiān)督學習，讓智能體在開放世界的推理過程中持續(xù)修正策略、動態(tài)更新記憶，實現(xiàn)邊做邊學的在線進化。

在 X 平臺上，該論文已被 DAIR.AI 的創(chuàng)始人，擁有 30 萬粉絲的 AI 論文分享博主 Elvis Saravia 所轉(zhuǎn)發(fā)，并收獲了高度評價與大量關(guān)注。與此同時，該論文也入選了 Hugging Face Daily Papers 榜單。

從「逐次推理」到「可積累的研究閉環(huán)」

作為一個持續(xù)運行的 Planning–Execution–Memory 閉環(huán)系統(tǒng)，MIA 在每一次研究任務(wù)中，都會經(jīng)歷：經(jīng)驗調(diào)用 → 協(xié)同推理 → 經(jīng)驗沉淀，并不斷反哺后續(xù)決策。

在經(jīng)驗調(diào)用中，MIA 通過三維檢索機制調(diào)用歷史經(jīng)驗，分別是保證相關(guān)性的語義相似度，高質(zhì)量經(jīng)驗偏好的價值獎勵和激活長尾知識的頻率獎勵。

此外，作者還引入失敗軌跡作為約束，使記憶既能提供參考，又能避免重復(fù)錯誤。在協(xié)同推理中，MIA 將推理解耦為兩個智能體的協(xié)作過程，Planner 負責拆解任務(wù)、生成步驟，而 Executor 負責按照步驟執(zhí)行。二者通過 Reflect–Replan 形成反饋閉環(huán)，當執(zhí)行受阻時自動重規(guī)劃，讓智能體具備持續(xù)試錯與調(diào)整能力。

在經(jīng)驗沉淀中，MIA 將對兩種記憶同時更新。首先對軌跡進行壓縮與提取，形成結(jié)構(gòu)化非參數(shù)記憶。其次在線更新 Planner 參數(shù)，將經(jīng)驗轉(zhuǎn)化為參數(shù)記憶。最后實現(xiàn)從經(jīng)驗存儲到能力內(nèi)化的躍遷。

讓「會規(guī)劃」和「會執(zhí)行」學會配合

在傳統(tǒng)記憶系統(tǒng)中，Planner 和 Executor 往往只是拼在一起，并沒有真正學會協(xié)作。為此，MIA 提出了一套兩階段交替強化學習和測試時持續(xù)學習的進化機制，讓兩個模塊逐步對齊，并在真實任務(wù)中不斷變強。首先在兩階段交替強化學習中，MIA 將訓練過程拆分為：

階段一：固定 Planner，讓 Executor 學會理解并嚴格執(zhí)行規(guī)劃；
階段二：固定 Executor，讓 Planner 學習如何利用記憶生成更優(yōu)計劃與計劃執(zhí)行失敗時的反思與重規(guī)劃能力。

這種「先對齊執(zhí)行，再優(yōu)化決策」的方式，解決了「規(guī)劃很好，但執(zhí)行跟不上」的問題。

其次不同于傳統(tǒng)方法「訓練完即凍結(jié)」，MIA 在推理階段引入測試時學習，賦能智能體持續(xù)進化。其過程包括：執(zhí)行推理任務(wù)同時生成多條候選路徑。從成功與失敗路徑中提取非參數(shù)化記憶，基于成功路徑在線更新參數(shù)化記憶。推理與訓練幾乎同步完成，形成真正的在線學習閉環(huán)。

讓智能體在開放世界中穩(wěn)定進化

為了將 MIA 能夠真正用在開放環(huán)境的深度研究中，作者提出了一套無監(jiān)督的自進化評估機制，讓智能體在沒有外部反饋的條件下，也能持續(xù)優(yōu)化自身能力。

其核心思路是：用「過程質(zhì)量」替代「結(jié)果標簽」，只要推理嚴謹、證據(jù)可靠、結(jié)論合理，即使沒有標準答案，也可以作為有效學習信號。

因此，受學術(shù)評審的啟發(fā)，作者將對結(jié)果的判斷拆成多個「專家視角」，包括：

邏輯評審員：檢查推理鏈條是否自洽
事實評審員：驗證信息來源以及是否存在幻覺
結(jié)果評審員：評估任務(wù)是否真正完成

最終由一個「領(lǐng)域主席」進行綜合決策并給出整體判斷，為 MIA 提供穩(wěn)定的優(yōu)化信號，進而助力實時進化。

實驗結(jié)論

在多項文本與多模態(tài)深度研究任務(wù)中，MIA 顯著提升了智能體的穩(wěn)定性與效率：

SOTA 性能再突破 (a & b)：在 LiveVQA (多模態(tài)在線搜索) 與 HotpotQA (純文本沙盒搜索) 的對比實驗中，MIA 顯著提升了現(xiàn)有最先進 LLMs（GPT-5.4, Gemini-3-Flash, claude-sonnet-4.6）在調(diào)用搜索工具下的表現(xiàn)；
實現(xiàn)小尺寸模型的跨級超越 (c)：基于 Qwen-2.5-VL-7B 執(zhí)行器的 MIA 模型在 7 個核心數(shù)據(jù)集上表現(xiàn)卓越，超越了在不調(diào)用工具下的 GPT-5.4，GPT-4o 和 Gemini-2.5-Pro，逼近了 Gemini-3-Flash；
記憶方法的新標桿 (d)：在與當前先進智能體記憶方法的橫向評測中，MIA 在 7 個數(shù)據(jù)集上均取得最佳性能表現(xiàn)。

總結(jié)

智能體記憶不應(yīng)該只是讓智能體記住了「結(jié)果是什么」，而是應(yīng)該讓它學會「該怎么做」。MIA 的出現(xiàn)，傳遞了一個清晰的信號：決定一個智能體上限的，不再僅僅是它接入了多少外部工具，而是它能否在每一次與世界的交互中，將繁雜的「過程信息」壓縮為精煉的「執(zhí)行本能」。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.