日前,Google在其發布的論文《Nested Learning: The Illusion of Deep Learning Architectures》中,提出了一個名為 HOPE 的新框架試圖解決大模型長期記憶的問題。
這一架構備受關注,因為長期記憶一直困擾著大模型的發展,甚至影響著AI落地到智能體的廣度與深度。
今天讓 AI 寫一段漂亮的回答不難,難的是隔了一周、換了工作任務,它還記得你之前某次對話的關鍵細節,不斷更新對你的個性化記憶。也只有在這一刻,大模型才真正開始接近「持續工作的智能體」,而不是一次性消耗品。
可以說,大模型的「短期能力」決定了它能不能把一句話說通,但長期記憶真正決定的,其實是它有沒有資格被稱為「助手」。
也正是因為這一點,去年最后一天谷歌研究團隊提出的 Titans 架構,在 2025 年被反復翻出來討論,并不意外。這篇論文試圖回答的,并不是「上下文還能拉多長」這種老問題,而是一個更本質的命題:
當注意力只是短期記憶,大模型到底該如何擁有真正的長期記憶。
![]()
圖片來源:谷歌
在 Titans 里,Transformer 的 self-attention(自注意力機制)被明確界定為「短期系統」,而一個獨立的神經長期記憶模塊,負責跨越上下文窗口、選擇性地存儲和調用關鍵信息。這套思路,幾乎重新定義了大模型的「大腦結構」。
現在回頭這一年,從谷歌 Titans 到字節 MemAgent,再到谷歌 Hope 架構,大模型的長期記憶真正有了突破。
過去一年,不論是谷歌在此基礎上延展出的多時間尺度記憶體系,還是行業里圍繞超長上下文、智能體(Agent)記憶、外部記憶中臺展開的密集探索,都指向同一個趨勢:長期記憶,正在從工程補丁,變成大模型能力的核心坐標軸。
模型不再只比誰的窗口更長、參數更多,而是開始比誰記得更有選擇、更穩定、也更「像人」。大模型的長期記憶不再只是論文里的性能指標,而是決定「能不能長期被用、敢不敢被信任」的關鍵能力。
從 Titans 到 Hope,長期記憶在為智能體「打基礎」
今年 8 月中旬,谷歌為 Gemini 推出了兩項重大更新,分別是基于聊天上下文的「自動記憶」功能和保護隱私的「臨時聊天」模式。
顧名思義,「自動記憶」是指 Gemini 會通過學習用戶過去的聊天記錄,記憶對話中的關鍵細節、用戶偏好、長期項目背景、反復出現的需求等,并在后續回答中實現主動的個性化回答。
類似的變化并不只發生在 Gemini 身上。過去一年,從 ChatGPT、豆包到 11 月推出的訊飛星火 X1.5,幾乎所有頭部 AI 助手都在通過引入「長期記憶模塊」,努力讓大模型在跨會話、跨場景中保持連續性,讓 AI 能夠更新并記憶用戶畫像、歷史任務狀態和關鍵決策信息。
![]()
圖片來源:科大訊飛
不過繼續向上追溯,這一波產品層的變化,并不是孤立發生的,而是 2025 年大模型底層技術演進的直接結果。
首先被重新確認的一點是,長上下文不是大模型記憶的終點。
超長上下文仍然重要,但它越來越被視為一種「放大的短期記憶」——成本高、也無法判斷哪些信息值得被長期保留。而 Titans 的意義,并不在于把窗口再拉長,而在于明確區分:注意力只是短期系統,長期記憶必須是一個可持續更新的組件。
11 月,谷歌更是提出將模型訓練過程也視為一層記憶(Nested Learning),并給出了升級版的 Hope 架構,開始把「記憶」理解為多時間尺度的連續體,短期上下文、中期狀態、長期經驗不再是割裂的模塊,而是按更新頻率和穩定性分布在同一套學習系統中。
![]()
Hope 與 Titans、Transformer 架構對比困惑度(左)和常識推理(右),圖片來源:谷歌
與此同時,長期記憶的重心從「記住文本」轉向「記住經驗」。過去常見的做法是用向量數據庫或知識庫做 RAG,把它當成模型的「外部硬盤」。但現在這種做法正在被重新審視,長期記憶不只是檢索答案,而是需要參與推理過程,影響模型的決策和行為。
還是在 11 月,谷歌提出 Evo-Memory benchmark 和 ReMem 框架,明確將長期記憶放入智能體的工作流中考察:模型是否能在連續任務中提煉經驗、復盤策略,并在后續任務中真正用上。長期記憶不再只是為對話服務,而是直接決定智能體是否具備持續進化能力。
事實上,字節跳動與清華聯合提出的 MemAgent,則通過強化學習訓練模型在超長上下文中「學會取舍」,讓模型主動形成長期記憶習慣,而不是被動堆疊文本。這些工作雖然路徑不同,但都指明了長期記憶必須逐步內化為模型能力,而不只是工程外掛。
長期記憶的中國路線:MiniMax/豆包/DeepSeek有何不同思路?
今年年初,MiniMax 宣布了首個線性注意力架構大模型開源,官方就指出現有智能體的「長期記憶」大多只是外掛 RAG 工具,這嚴格意義上不算記憶。
事實的確如此。在早期實踐中,向量數據庫加 RAG 幾乎是默認方案:需要記住什么,就檢索什么。但隨著智能體逐漸承擔多步驟任務,這種「查完就走」的記憶方式開始顯得吃力。
最近豆包手機引爆了業界關于AI手機的討論,其實豆包在 Agent 體系中關于長記憶的探索也具有很強的代表性,其長期記憶被拆分進整個工作流,用來保存用戶畫像、任務狀態、階段性結論,甚至失敗經驗。
![]()
MemAgent 的基本結構,圖片來源:字節跳動
MemAgent 這一類方案,本質上并不是在擴展上下文長度,而是在訓練模型理解哪些信息會影響下一步決策。簡言之,記憶不再是查資料,而是參與判斷。
從這個角度看,字節與清華聯合提出的 MemAgent 并不是一篇孤立的學術工作。它關注的,并不是如何壓縮文本或擴展容量,而是通過強化學習,讓模型在超長上下文和連續任務中逐漸學會「取舍」。模型需要理解哪些信息值得保留,哪些只適合短期使用,甚至哪些應該被主動遺忘。
背后也體現了一種非常明確的判斷,即長期記憶如果不能改變模型的行動策略,本質上仍然只是工程緩存。
正如前文所提,不論是行業的實踐,還是圍繞智能體展開的多種系統設計,都在強調對「過程信息」的保留。這也解釋了為什么強化學習開始被用于「記憶行為」的訓練,而不是簡單地擴大知識庫。
與之不同的是,MiniMax 在今年初就通過線性注意力等架構創新,把模型可處理的上下文推至百萬乃至數百萬 token 級別。
這并不是單純為了刷新指標,而是試圖用容量換取系統簡化。當模型本身一次可以穩定「看見」更多內容時,部分原本需要頻繁調度、反復檢索的外部記憶,就可以暫時被收進上下文視野之中。
但 MiniMax 的實踐并沒有停留在「超長上下文窗口」。
![]()
圖片來源:MiniMax
相反,他們在此基礎上繼續引入獨立的記憶層,用于管理長期知識與經驗。先解決「裝不裝得下」,再討論「該不該留下來」。在這種框架下,長期記憶不再完全依賴于頻繁的 RAG 調用,而是通過更大的模型內視野與更少的系統切換,降低整體復雜度。
而 DeepSeek 的策略,則構成了一個有意義的對照。DeepSeek 并沒有在模型側押注復雜的長期記憶機制,而是將其明確外置,通過 RAG、向量庫或各類記憶組件完成。倒不是在回避問題,而是基于一個更克制的判斷:
長期記憶高度依賴具體場景,不同應用需要的記憶形態差異巨大,與其在模型里「一刀切」,不如提供一個高質量的推理核心,讓開發者自行組合記憶方案。
寫在最后
2025 年,大模型長期記憶真正發生變化的,并不是某一項指標被刷新,而是它的角色定位被徹底改寫了。從早期依賴 RAG 的「外接硬盤」,到今天逐步進入模型結構與智能體工作流,長期記憶開始成為影響決策、塑造行為的一部分,而不只是被動存儲信息的容器。
或許可以這么說,未來大模型之間真正的差異,不再只體現在模型規模或推理速度上,還在于一套成熟、可控、可持續演化的記憶機制。因為只有當一個模型真正記得住、也管得住,它才有可能被長期使用、反復依賴,甚至被交付更大的決策權。
CES2026開幕在即!(1月6日-1月9日)
作為中國報道科技展會最悠久、最深入、最專業的新媒體,雷科技CES2026報道團正在進行緊張的前期籌備。屆時雷科技將派出史上最大規模的CES報道團,并由雷科技創始人兼總編輯羅超帶隊,對CES2026進行一線、專業和立體報道,敬請期待!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.