AI下半場的戰(zhàn)場，從Agent記憶體正式打響

2026-03-12 17:57:27　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

最近，一個叫OpenClaw(小龍蝦)的開源項(xiàng)目突然爆火，甚至出現(xiàn)線下排隊(duì)安裝的場面。很多人第一次直觀地看到，AI不只是chatbot，而是可以真正“動手”操作電腦、完成復(fù)雜任務(wù)和個性化工作流的智能體。這意味著AI正在進(jìn)入下半場，開始走向真實(shí)應(yīng)用，并逐漸進(jìn)入普通人的日常生活。

如果說上半場的 AI 是在拼模型參數(shù)和 benchmark 分?jǐn)?shù)，那下半場真正要解決的，是一個更現(xiàn)實(shí)的問題：

AI 能不能在真實(shí)世界里，持續(xù)地干活。

過去幾年，大家卷的是 scale、架構(gòu)、訓(xùn)練 recipe，把 MMLU、數(shù)學(xué)題、代碼題刷到 90%+。但大部分的數(shù)據(jù)集幾乎都是短上下文、一次性任務(wù)。現(xiàn)實(shí)世界完全不是這樣：白領(lǐng)工作、個性化助手、醫(yī)療診斷、深度研究，全部都是長時(shí)間、多輪次、以任務(wù)為導(dǎo)向或者以用戶為核心的交互的場景。

Agent 能力已經(jīng)從最初的嘗試function calling，進(jìn)化到開始真正影響各類白領(lǐng)行業(yè)；Anthropic 開放各個行業(yè)級插件生態(tài)，也讓一批 SaaS 公司股價(jià)劇烈波動；年初 openclaw 小龍蝦項(xiàng)目的爆火，GitHub star 增長速度甚至超過 Linux。

但在這些現(xiàn)象背后，真正的核心便是Memory。

近日一篇關(guān)于 Agent Memory 的系統(tǒng)性綜述，聯(lián)合了 20 + 所高校與工業(yè)界研究單位，包括伊利諾伊、加州等全球多所研究高校，以及 Meta、Google、Salesforce 等工業(yè)界團(tuán)隊(duì)，一起梳理了 Agent memory 這條正在爆炸式發(fā)展的賽道。

論文標(biāo)題：Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey
論文鏈接：https://arxiv.org/pdf/2602.06052
論文資源：https://github.com/AgentMemoryWorld/Awesome-Agent-Memory

我們會持續(xù)更新最新foundation memory的文章，歡迎關(guān)注收藏。

這篇 Agent Memory 綜述的核心是：當(dāng) Agent 從短對話走向長周期任務(wù)，真正爆炸的需求的不是僅僅模型的智能，而是去處理復(fù)雜 context、environment 的系統(tǒng)級 memory 能力。

單純擴(kuò)大 context window，并不能真正解決這個問題。現(xiàn)實(shí)環(huán)境中的信息會持續(xù)累積，復(fù)雜度遠(yuǎn)不止 token 數(shù)量的增長。

用戶的歷史行為、多任務(wù)記錄、工具調(diào)用結(jié)果、外部文檔、環(huán)境狀態(tài)變化、模型自身的推理軌跡都會持續(xù)積累。隨著時(shí)間推移，這些信息相互交織。如果只是簡單拼接到 prompt 中，推理成本會迅速上升，注意力機(jī)制會被噪聲淹沒，關(guān)鍵線索反而更難被捕捉。

更重要的是，真實(shí)任務(wù)具有時(shí)間跨度。一個科研助手不能在每次對話時(shí)都 “忘記” 過去的討論；一個個性化助理不能每一輪都重新學(xué)習(xí)你的偏好。

因此，問題不再是 “能讀多少 token”，而是：

Agent 是否具備真正的 memory 機(jī)制，能夠存儲、抽象、壓縮、更新甚至遺忘信息，并在長期過程中持續(xù)演化。這也是近兩年 memory 相關(guān)論文數(shù)量急劇增長的根本原因。

Memory 不只是 RAG

很多人把 memory 簡化為 “RAG + 向量庫”。這種理解只觸及了表層。

這篇綜述從系統(tǒng)設(shè)計(jì)視角重新組織了 Agent Memory，將其拆解為多個相互作用的維度，而不是一個孤立模塊。

1.首先是 memory 存儲的位置。它可以存在于模型內(nèi)部，例如通過參數(shù)更新、latent 表示或擴(kuò)展的 KV cache；也可以存在于模型外部，例如結(jié)構(gòu)化數(shù)據(jù)庫、知識圖譜或事件日志。內(nèi)部 memory 緊密但難以控制，外部 memory 可解釋性更強(qiáng)但需要調(diào)度策略。未來的 Agent 很可能是多層 memory 協(xié)同的混合結(jié)構(gòu)。

2.其次是 memory 在認(rèn)知層面的功能。借鑒認(rèn)知科學(xué)的劃分，memory 可以承擔(dān)不同 function。有些負(fù)責(zé)短期感知，有些支撐當(dāng)前任務(wù)，有些記錄具體事件，有些沉淀抽象知識，還有一些用于形成技能和策略。

3.最后是 memory 的主體。記憶可以服務(wù)于用戶，用于個性化；可以服務(wù)于任務(wù)領(lǐng)域，用于形成專業(yè)能力；也可以服務(wù)于 Agent 自身，用于自我改進(jìn)。三者的優(yōu)化目標(biāo)和更新策略并不相同。

當(dāng)這三條軸展開之后，我們看到的已經(jīng)不是簡單的 “存儲系統(tǒng)”，而是一個系統(tǒng)級記憶體結(jié)構(gòu)框架。未來 Agent 的在真實(shí)應(yīng)用場景的能力上限，很可能不再完全取決于模型參數(shù)規(guī)模，而是依賴于 memory 如何與工具、環(huán)境和用戶交互。

當(dāng)環(huán)境變得真實(shí)，

數(shù)據(jù)集評估變得尤為重要

在真實(shí)部署中，Agent 面對的不再是靜態(tài) prompt，而是動態(tài)環(huán)境。網(wǎng)頁狀態(tài)在變，文件系統(tǒng)在更新，工具輸出不斷疊加，權(quán)限與約束持續(xù)變化。context 的增長不只是對話歷史延長，而是跨時(shí)間、跨系統(tǒng)、跨任務(wù)的狀態(tài)積累。

因此，memory 的核心挑戰(zhàn)不再是 “能存多少”，而是 “如何管理環(huán)境狀態(tài)”。

隨著交互時(shí)間變長、環(huán)境復(fù)雜度提升、工具數(shù)量增加，context 會沿多個維度擴(kuò)張。單純擴(kuò)大窗口無法解決結(jié)構(gòu)混亂、信息污染和因果斷裂的問題。Agent 必須能夠結(jié)構(gòu)化存儲環(huán)境狀態(tài)，維護(hù)可更新、可回溯的內(nèi)部表示，而不是簡單拼接 token。

未來的關(guān)鍵方向是讓 memory 策略本身可學(xué)習(xí)。系統(tǒng)需要學(xué)會在長期回報(bào)下判斷哪些信息值得保留、哪些應(yīng)被壓縮、哪些可以遺忘。這意味著 memory controller 將從規(guī)則工程演化為優(yōu)化目標(biāo)的一部分。

評測體系也會隨之轉(zhuǎn)向。未來 benchmark 的核心不再只是回答是否正確，而是任務(wù)是否真正完成、環(huán)境狀態(tài)是否被正確維護(hù)、決策是否可追溯。真實(shí)世界環(huán)境的構(gòu)建，將成為區(qū)分實(shí)驗(yàn)室模型與可部署 Agent 的分水嶺。

也許幾年后我們回頭看，會發(fā)現(xiàn)：

上半場解決的是模型是否會智能對話。

下半場真正要解決的是：

Agent 能不能幫你把事情做完。

從單輪智能到長期協(xié)作，從一次性回答到跨環(huán)境執(zhí)行，AI 的重心正在悄然轉(zhuǎn)移。

決定系統(tǒng)價(jià)值上限的，或許不再只是參數(shù)規(guī)模，而是 memory 的系統(tǒng)級設(shè)計(jì)能力。

AI 的下半場，這場無硝煙的戰(zhàn)場，

已經(jīng)從系統(tǒng)級記憶體正式打響！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.