![]()
每一次對話重啟,大語言模型就會失去“短期記憶”——這種數字時代的“失憶癥”正困擾著當前所有AI系統。
前一天,你告訴DeepSeek,說你喜歡橘子;可第二天換了個對話進程,Ta便全忘光了——就像《土撥鼠之日》中永遠被困在昨天的菲爾,時間一到,之前的經歷便被清空。
如今人類與AI的深度協同正在重塑智能的邊界,而這種“反復失憶”卻成為了共同進化的桎梏。沒有持續的記憶積累,AI系統始終無法真正參與到人類的認知進程中,也就無法成為人類智能的有機延伸。本文將深入探討大模型在情景記憶方面的技術挑戰,分析現有解決方案的優劣,以及探索未來的發展方向。
![]()
為何大模型需要情景記憶
情景記憶(Episodic Memory),首先由Endel Tulving提出[1],是對特定經驗和事件進行編碼、存儲和檢索,例如去年春節看的電影,去某地游玩時發生的趣事。情景記憶使我們能夠進行心理時間旅行,重溫過去經歷,或將自己投射到假設的未來場景中。情景記憶不僅僅是記錄機制;它的出現從根本上塑造了我們從過去經驗中學習、做出明智決策和在新型情況下調整行為的能力。
當前大模型學到的都是陳述式記憶而非情景記憶,它們能夠獲取百科全書中的詞條知識,卻無法像人類一樣構建與知識相關的情境體驗。那么,大模型擁有情境記憶后會有何不同呢? 圖1對比了缺少情景記憶的當前大模型(左)與包含情景記憶的大模型(右)。可以看到,加入情景記憶后,大模型會拒絕回答不存在歷史人物的問題(減少幻覺),具有一致的個性,能夠根據過去的信息進行推理。這些改進對于提升陪伴類機器人的用戶體驗是必不可少的。
![]()
?圖1. 對比包含和包含情景記憶的大模型的表現。 圖源:[2]
為何大模型缺少像人類那樣的情景記憶,會帶來如此明顯的差距呢?
首先是大模型會將上下文窗口內的所有信息視在時間上具有同等的重要性。而缺乏時間定位導致語言生成和理解問題。模型可能無意中將歷史事實與當前事件混合,或在講故事時無法維持連貫的時間線。
其次,人類的認知深深植根于自傳式記憶,這允許人維持一致的個性并根據過去積累的經驗調整行為。大模型缺乏持續的自我認知,導致在互動中表現出不一致的個性特征,并且無法隨著時間的推移與用戶建立和維持關系。這嚴重阻礙了大模型與人類建立起深度、有意義的關系,并阻止大模型進行真正的內省或自我反思。
而且,由于情景記憶的缺失,大模型還難以通過交互進行實時學習或知識積累。與人類不同,人類可以從單一的重大事件中快速學習,而大模型無法根據交互過程中提供的反饋或糾正真正改進或細化其響應,根據提示詞的案例進行的少嘗試學習同樣缺少時間軸。缺乏基于經驗的學習還阻礙了大模型參與創造性問題解決或產生真正新穎想法的能力。人類可以將不同的經驗結合起來形成新的見解,而大模型只能在其訓練數據中重新組合現有信息,無法以有意義、持久的方式將新經驗或外部輸入納入其知識庫。
此外,雖然大模型幻覺出現的原因不僅僅是缺少情景記憶,但由于因為沒有“親身經歷”作為錨點,模型容易把編的故事當成事實,無法區分訓練數據中的信息是新聞報道還是小說,在需要精確信息的醫療、法律的應用場景,這會帶來隱患。
![]()
當前大模型的外部記憶
和人類的情景記憶有何不同
大模型中包含了人類所擁有的大部分知識,但這些知識的存儲方式,和人類的情境記憶有著顯著的差異,明確這些大模型記憶和情境記憶的區別,能夠更好地理解為何只依賴當前大模型的機制難以復現情景記憶。
![]()
?圖2. 上下文窗口中的自注意力。 圖源:[3]
大模型中最常用的記憶機制是自注意力機制,即通過在上下文窗口(context window)內計算查詢(query)與鍵(key)的匹配,動態整合信息。當上下文窗口較短時(如幾百個token),這種機制可類比于人類工作記憶對近期信息的靈活操作。但當上下文窗口被擴展至數萬甚至數十萬token(如GPT-4的128K),窗口長度遠超人類工作記憶容量(約4–7個組塊),此時自注意力被迫同時承擔其無法承擔的長期存儲與信息檢索的功能。
自注意力通常對所有上下文中的鍵進行加權組合,相當于同時激活多個記憶片段,這容易導致干擾和混淆,尤其在記憶內容相似時。但人類情景記憶檢索是競爭性的,檢索時被提取的記憶片段可能不止一個,但最終只有最匹配的一個記憶片段被進入意識。
自注意力還缺少能識別“一個事件在什么時候結束、另一個從何開始”的機制,也無法自然產生跨時間點的一連串記憶,其全連接的結構,也會在長上下文中帶來巨大計算開銷。因此,只是基于自注意力是無法再現情景記憶的。
那么,若給大模型加上了外部記憶,又能否做重現情景記憶的特征?
當前大模型標配的RAG(檢索增強生成)以及動態的知識圖譜,是大模型常見的記憶補全模塊,除此之外,還包括離線的retrain以及小數據集的提示詞工程,可視為為大模型更新記憶的方式。
![]()
?圖3. 大模型常見的記憶更新方式。 圖源:[2]
用RAG為代表,大模型的外部記憶和人類的情景記憶存在本質的不同。RAG中的文本,會被切割成固定長度的片段(uniform-length chunks);不考慮事件結構或語義邊界;切割后的片段一旦存儲,通常不再更新(遺忘,加強或修正);而在檢索時,RAG是會返回相似度最高的n個片段;最關鍵的差異是,由于缺乏與語義記憶的雙向互動:外部記憶主要用于輔助生成,無法用于更新模型內部的語義知識(即缺乏“記憶鞏固”機制)。
與之相對,人類的情景記憶存儲在突觸間的權重中,記憶可被強化、削弱、修改甚至遺忘。通過記憶重放(replay),情景記憶中的結構信息可被整合進陳述式記憶。連續經驗會被自動劃分為有意義的事件單元,事件邊界是編碼和檢索的關鍵節點。在檢索時,并非所有信息都被賦予同等權重;檢索通常發生在理解出現“缺口”或不確定性高的時刻(如事件邊界),通常只有最匹配的一個記憶片段被有意識地提取,從而避免混淆。
![]()
?圖4. 大模型的RAG與語義記憶區別. 圖源:[3]
上述差異限制了RAG作為大模型情景記憶的局限,也暗示了未來改進方向——例如引入事件分割、選擇性檢索、記憶更新和競爭機制等人類記憶的關鍵特性。這些改進不僅能提升模型的認知真實性,也可能增強其在現實任務中的性能。
![]()
增加情景記憶的大模型需要的基準任務
由于人類天生具有情景記憶,因此難以想象失去情景記憶是什么狀態,這導致量化地評估硅基智能體在多大程度上具備情景記憶變得有挑戰。我們無法借鑒像評估一個人是否患上老年癡呆一樣,簡單地評估智能體是否具有情景記憶。然而在機器學習領域,很多進步的源頭,是由于存在一個基準任務,例如視覺領域ImageNet的圖像分類。而圖5對應的,正是這樣一個可以評估情景記憶增強大語言模型(MA-LLM)的基準任務[3]。
![]()
?圖5. 考察大模型是否具有情景記憶的基準任務. 圖源:[3]
該任務要求模型在編碼階段一次性學習大量新電視劇本(沒有出現在訓練數據集中),將這些劇本存儲在外部的情景記憶數據庫中。隨后在任務階段逐句接收某劇集的摘要,并在每句后自主決定是繼續查看劇情摘要(“continue”)還是認為已經有了足夠的背景信息,可以接管并用自己的話續復現對應劇集的劇情(“take over”)。
例如,當模型看到摘要“6個月后,艾爾德派恩戰役結束……”“一個可怕的超自然威脅出現……”時,它必須判斷:這些線索是否足以唯一指向外部記憶庫中的劇集?是否存在混淆風險(因記憶庫中存有大量情節相似的劇本)?是否應等待更多信息以避免錯誤回憶?評分機制是準確回憶未在摘要中出現的細節加分,回憶錯誤的細節減分,若大模型不接管續寫則無分。
這一設計迫使系統發展出選擇性檢索策略——只在線索足夠明確、存在相關記憶且收益大于風險時才調用情景記憶。該任務凸顯了人類記憶的關鍵特性:連續輸入下的自主決策、在存在不確定性(不完全信息無法定位對應的劇集)時進行判斷、只看一遍即可學習,以及高干擾環境下的精準檢索。當前多數RAG在標準問答的基準任務中無需應對這些挑戰,而要考察MA-LLMs能否真正模擬人類情景記憶,必須在任務層面還原現實世界的不確定性、連續性和高風險性。在上述基準任務下,可比較普通的RAG系統和MA-LLMs的得分差異,用來評估新加入的改進,是否真的讓大模型具有了情景記憶。
![]()
?圖6. MA-LLM用于預測記憶編碼時和人腦活動的相似性。 圖源:[3]
除此之外,還有另一種評估方法,即考察MA-LLMs能否解釋人類大腦在處理自然語言時的神經活動模式(圖6)。該方法首先讓MA-LLM處理一段連續的自然語言敘事,在其處理過程中提取模型每一時刻的內部表征(即隱藏層嵌入);然后訓練一個線性映射模型,將這些嵌入與人類被試在相同敘事下記錄的fMRI腦活動(如海馬體或默認模式網絡的體素Voxels響應)關聯起來;最后,用該映射預測未見過的腦數據,并比較MA-LLM與普通LLM(無外部記憶)的預測準確性。若MA-LLM在涉及記憶檢索的關鍵時刻(如事件邊界或回憶觸發點)能顯著更好地預測海馬或皮層活動,則說明其記憶機制在功能上更接近人類。
上述評價方法,建立在大模型和人類在處理語言上具有相似性。然而人類的情景記憶,是一個涉及多個腦區(海馬體,大腦皮層,杏仁核等)的復雜過程。圖6描述的只是考察fMRI得到的粗粒度,或來自少數神經元的稀疏數據,即使MA-LLM的預測更準確,也難以支持MA-LLM能預測大腦在參與情景記憶時的特征這一過于泛化的結論。
![]()
有哪些給大模型加上情景記憶的嘗試
在分析了大模型的情景記憶缺失問題以及相應的評估基準任務后,下面我們來關注解決方案的具體探索。在深入具體案例之前,我們先來看一個理想的情景記憶框架設計。
![]()
?圖7. 在大模型中加入情景記憶的方案框架. 圖源:[2]
圖7中描述的方法構建了一套獨立于自注意力的外部記憶系統(如基于事件分割、競爭檢索、可更新存儲的架構)以及交互接口,以更真實地模擬人類情景記憶。
圖中左側是傳統的大模型,負責語言生成、理解上下文、執行推理等核心任務。它擁有一個有限的上下文窗口,用于處理當前對話或任務的即時信息。
圖中右側是獨立的情景記憶模塊,它的設計體現了三個核心特征。
首先,每段切分后的記憶片段不僅僅包括對話文本,還包含豐富的元數據:時間標記記錄事件發生的時間點或順序;情感標記記錄該次互動情感色彩(積極/消極),可影響后續的回憶優先級;以及語境信息如用戶身份、對話主題、環境設定等。
其次,為了高效存儲,多個相關的情景痕跡,會通過一個動態壓縮算法(Dynamic Compression Algorithm),進行抽象和整合,形成層級化的抽象表征。
最后,該模塊采用智能化的記憶管理機制——并非所有記憶都值得永久保留。該模塊會根據時效性、情感強度和訪問頻率等因素,動態調整記憶的保留期限,從而避免記憶庫無限膨脹。
基于上述設計,當模型接收到一個新的查詢時,模型和記憶接口會主動從記憶模塊中搜索相關的過往經驗。例如,用戶問:“你上次推薦的甜點怎么樣?”接口會立刻檢索出最近一次關于甜點的對話。而當模型在生成回復的過程中遇到不確定或需要背景信息時,接口還會被動觸發檢索。例如,模型在回答一個法律問題時,可能會觸發接口去查找之前學習過的相關案例。
為確保檢索的質量和可靠性,該系統還包含兩個關鍵組件。首先是元學習組件,它通過持續學習來優化存取效率。具體而言,該組件會根據任務的表現和用戶的反饋,動態調整記憶編碼(如何存儲新經驗)和檢索(如何找到最相關經驗)的策略。其次是來源跟蹤機制,它會給每一條從記憶模塊中檢索出來的信息打上“標簽”,標明其來源是“親身經歷”還是“書本知識”。這樣,在生成回復時,模型就能區分哪些是事實,哪些是基于自身經驗的推斷,從而大幅降低編造虛假信息的可能性。
目前上述框架仍停留在理論設計階段,但研究者們已在不同方面展開了具體實踐。目前已有三個代表性案例,它們分別從動態事件分割、對話時序建模和在線知識更新這三個不同角度,探索如何為大模型添加情景記憶的特征。
(1)EM-LLM的事件驅動記憶機制
![]()
?圖8. EM-LLM將靜態的、固定長度的上下文窗口轉變為動態的、基于事件的記憶系統。 圖源:[4]
EM-LLM提出了一套創新的記憶形成與檢索機制[4],如圖8所示。其核心特點體現在兩個方面:首先,在記憶形成階段,輸入序列是基于“意外度”(surprise)進行事件分割,而非像RAG那樣進行固定長度的切分;其次,在檢索階段,系統會通過K-NN選擇與當前查詢最相似的事件,同時加入被檢索事件的前后鄰近事件,從而構成包含上下文的完整事件片段,確保時序連貫性。
作為一種即插即用的架構,EM-LLM可以在任何大模型中使用,可提升模型在信息檢索任務上的表現,還可實現了對實際無限長度上下文的高效處理,同時保持計算效率。該方法除了根據意外度之外,還包含由相鄰事件構建圖,通過在構建的圖中最大化模塊度(Modularity)進一步優化事件邊界,使事件內部的token更相似、事件之間更分離,這使得EM-LLM更接近人腦的連續事件分割。
(2)MADGF的多智能體數據生成框架
與EM-LLM主要聚焦事件對動態分割不同,多智能體數據生成框架Multi-Agent Data Generation Framework, MADGF)著重于構建訓練數據[5]。該框架通過模擬人類角色與AI助手之間的多輪對話場景,生成富含情景記憶內容的訓練數據集(EM-Train)。這些對話包括了完整的上下文信息,如對話角色的職業、年齡、對話事件的真實性以及對話發生的時間先后順序等。
基于EM-Train數據集的微調,使大模型能夠將實時時間信息整合到用戶輸入中,增強了時間感知能力。雖然該方法致力于解決大模型在對話中缺乏時序推理的問題,但這僅涵蓋了情景記憶的部分特征,且需要模型微調,無法做到即插即用。
(3)AriGraph的圖譜化記憶方案
![]()
?圖9. AriGraph中的情景記憶生成和構建。 圖源:[6]
AriGraph采用類知識圖譜的方式構建情景記憶,將記憶建模為情景頂點和情景邊緣的組合[6]。當智能體與環境交互并接收到新的觀察后,將當前的完整觀察作為一個新的情景頂點添加到情景記憶中,之后使用大模型從觀察中解析并提取相關的語義三元組(對象1, 關系, 對象2),用以創建新的情景邊緣。這一步驟將具體的事件(觀察)與其所包含的抽象知識(語義三元組)關聯起來。而大模型決策過程中,當需要回憶特定細節時,檢索模塊首先進行語義搜索找到相關的語義三元組,然后利用情景邊反向追溯,找到與這些三元組相關聯的所有情景頂點。
相比其他方案,AriGraph的獨特之處在于注重情景記憶與語義記憶之間的交互。系統通過將新發生的事件構建為知識圖譜,在推理時情景記憶可提供豐富的上下文和細節,不僅用于補充和驗證語義記憶,還支持智能體從結構化的語義知識回溯到具體的原始事件,這種雙向映射機制顯著增強了系統在復雜推理、規劃和探索任務中的表現。
然而該方法也存在局限性——雖然能夠有效提取上下文相關信息,但沒有考慮情景記憶中時序關聯特性。無論是上述的三種具體實現,都只是模仿了人腦情景記憶中多個特征中的一部分,目前還沒有一種能夠完全模仿人腦情景記憶的,如圖7所示的那樣完整解決方案。
![]()
小結
缺少情景記憶,讓大模型即使知識豐富,只要超過了上下文長度,就如同患上阿爾茨海默。單純追求模型規模和數據量,始終無法解決這些問題,造成了大模型在陪伴,教學等場景的應用上限。人腦能夠擁有情景記憶,其源頭可歸因于智能的具身性,正是由于個人有身體,才得以活在時間里”、擁有“個人歷史”。而當下讓大模型擁有情景記憶的嘗試,還都有著各自的不足。情景記憶作為解決大模型無法持續學習,幻覺,缺少個性等痛點的關鍵一環,文中圖7給出的方案,只是一家之言,或許可借助神經科學中對記憶機制,用更加整合的機制來讓大模型擁有情景記憶。
![]()
[1] Renoult, L., & Rugg, M. D. (2020). An historical perspective on Endel Tulving’s episodic-semantic distinction. Neuropsychologia, 139(107366), 107366. https://doi.org/10.1016/j.neuropsychologia.2020.107366
[2] Large Language Models need Episodic Memory https://inria.hal.science/hal-05202747/file/Large_Language_Models_need_Episodic_Memory.pdf
[3] Dong, C. V., Lu, Q., Norman, K. A., & Michelmann, S. (2025). Towards large language models with human-like episodic memory. Trends in Cognitive Sciences. https://doi.org/10.1016/j.tics.2025.06.016
[4] Fountas, Z., Benfeghoul, M. A., Oomerjee, A., Christopoulou, F., Lampouras, G., Bou-Ammar, H., & Wang, J. (2024). Human-like Episodic Memory for Infinite Context LLMs. ArXiv.org. https://arxiv.org/abs/2407.09450
[5] Liu, W., Zhang, R., Zhou, A., Gao, F., & Liu, J. (2025). Echo: A Large Language Model with Temporal Episodic Memory. ArXiv.org. https://arxiv.org/abs/2502.16090
[6] Anokhin, P., Semenov, N., Sorokin, A., Evseev, D., Kravchenko, A., Burtsev, M., & Burnaev, E. (2024). AriGraph: Learning Knowledge Graph World Models with Episodic Memory for LLM Agents. ArXiv.org. https://arxiv.org/abs/2407.04363
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
關于追問nextquestion
天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究AI與人類智能相互融合與促進,不斷探索科學的邊界。歡迎評論區留言,或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問,我們將基于追問知識庫為你做出智能回復哦~
關于天橋腦科學研究院
天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。
Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、AI與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經科學研究院。
Chen Institute建成了支持腦科學和AI領域研究的生態系統,項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫生獎勵計劃、、、大圓鏡科普等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.