今年剛 25 歲的 00 后浙大碩士生方繼展,如果只聽他的聲音和表達(dá)內(nèi)容,很容易讓人以為這起碼是一位博士生。他有著清晰的表達(dá)能力,更樂(lè)意針對(duì) AI 主動(dòng)發(fā)表原創(chuàng)見(jiàn)解。他也善于抓住時(shí)代趨勢(shì),在天津大學(xué)電氣工程專業(yè)獲得學(xué)士學(xué)位之后,考入了浙江大學(xué)人工智能專業(yè),目前課余正在阿里集團(tuán)淘天部門實(shí)習(xí)。
![]()
圖 | 方繼展(來(lái)源:方繼展)
走上了堪稱是“最佳 AI 轉(zhuǎn)型路徑”之后,他也在讀研期間和合作者針對(duì) AI 記憶開展了一項(xiàng)研究,借此發(fā)明出一種名為 LightMem(輕量記憶)的技術(shù)。
在 LongMemEval 和 LoCoMo 這兩個(gè)專門用于考察 AI 長(zhǎng)期記憶能力的基準(zhǔn)測(cè)試上,LightMem 回答問(wèn)題的準(zhǔn)確率全面超越之前的冠軍模型,最高提升了 7% 以上,在某些數(shù)據(jù)集上甚至提升了將近 30%。在構(gòu)建和更新記憶時(shí)所消耗的 tokens 數(shù)量來(lái)說(shuō),最低只有其他系統(tǒng)的一百分之一。
方繼展告訴 DeepTech:“以我這樣的 AI 研究生為例,當(dāng)把我在同一個(gè)大模型上的月度聊天記錄全部交由其它主流的 AI 記憶系統(tǒng)來(lái)存儲(chǔ)和管理以前需要 1,000 美元,現(xiàn)在有了 LightMem 在同等條件之下只需要 10-30 美元。”同時(shí),它所需要調(diào)用昂貴大型 AI 模型的次數(shù),最多可以降至只有以前的 300 分之一,能讓運(yùn)營(yíng)成本得到大幅下降,整體運(yùn)行速度也能加快數(shù)倍到十余倍。
假如給大模型裝上 LightMem,大模型將可以更好地理解長(zhǎng)對(duì)話的上下文,給出更一致、更個(gè)性化的回答。如果在對(duì)話過(guò)程中只考慮用戶能夠直接感受到的在線延遲,LightMem 的優(yōu)勢(shì)將會(huì)更加恐怖,其所節(jié)省的計(jì)算量和請(qǐng)求次數(shù)還要更低。
![]()
(來(lái)源:https://arxiv.org/pdf/2510.18866)
在學(xué)術(shù)層面,LightMem 是一個(gè)系統(tǒng)性研究并優(yōu)化現(xiàn)有記憶系統(tǒng)效率問(wèn)題的工作。此前的工作大多關(guān)注如何讓記憶更有效,而方繼展深入分析了這些系統(tǒng)帶來(lái)的巨大開銷和時(shí)延,并以提升效率為核心目標(biāo)進(jìn)行設(shè)計(jì)。
在工程層面,LightMem 在記憶系統(tǒng)中大規(guī)模應(yīng)用“顯式的 Token 壓縮”技術(shù)。方繼展發(fā)現(xiàn),在自然語(yǔ)言交互中,信息冗余度極高,很多時(shí)候只需保留關(guān)鍵信息(關(guān)鍵詞),大模型就足以理解完整語(yǔ)義。研究中,他使用了先進(jìn)的文本壓縮技術(shù),顯著減少了需要處理的數(shù)據(jù)量。
LightMem 還將記憶的“構(gòu)建”與“更新”這兩個(gè)階段解耦。方繼展把其中最耗時(shí)的記憶更新過(guò)程,從與用戶的實(shí)時(shí)交互鏈路中剝離出來(lái)。用戶無(wú)需等待更新完成,從而極大提升了交互的即時(shí)響應(yīng)速度。
目前,方繼展已經(jīng)將 LightMem 代碼完全開源。當(dāng)前正在做的是讓它兼容市面上所有主流模型(無(wú)論是 OpenAI、Google 的閉源模型,還是 Qwen、DeepSeek 等開源模型),做到真正的“即插即用”。
未來(lái),你所經(jīng)常使用的大模型真的有可能成為你的 AI 助理,它會(huì)記得你愛(ài)吃的口味和過(guò)敏的藥物,真正能夠成為你的數(shù)字知己。在醫(yī)療、法律和金融等領(lǐng)域,大模型將能記住歷次的案例,提供連續(xù)性的分析。
方繼展告訴 DeepTech,他更希望 LightMem 可被用于具身智能領(lǐng)域,因?yàn)榫呱韴?chǎng)景對(duì)于 AI 記憶的需求更大更迫切,以家庭機(jī)器人為例:未來(lái)的家庭機(jī)器人不僅能夠記住各種物品的擺放位置等事實(shí)層面的信息,還能記住每個(gè)家庭成員的習(xí)慣、偏好、觀念等抽象層面的信息。
![]()
(來(lái)源:https://arxiv.org/pdf/2510.18866)
以人類記憶的三層結(jié)構(gòu)為靈感
眾所周知,當(dāng)前大模型的上下文窗口是有限的,就像電腦內(nèi)存條一旦滿了,舊有信息就會(huì)被擠出去。這導(dǎo)致大模型在開展長(zhǎng)對(duì)話或處理復(fù)雜任務(wù)的時(shí)候,常常表現(xiàn)得不盡如人意。
LightMem 的核心思想來(lái)源于一個(gè)著名的人類記憶模型——阿特金森-希弗林模型。科學(xué)家發(fā)現(xiàn),我們的大腦在處理信息的時(shí)候并不是一股腦全部塞進(jìn)去,而是遵循一套精妙的流水線。
首先是感覺(jué)記憶,眼睛看到和耳朵聽到的信息,會(huì)在這里短暫停留,就像照相機(jī)的咔嚓一閃一樣,大腦會(huì)迅速過(guò)濾掉無(wú)關(guān)緊要的噪音。其次是短時(shí)記憶,經(jīng)過(guò)篩選的信息進(jìn)入這里會(huì)被我們注意到,就像我們默念一個(gè)剛聽到的抖音號(hào) ID,它只能在我們的大腦中保持十幾秒到一分鐘,必須進(jìn)行反復(fù)背誦才能記住。
再次是長(zhǎng)時(shí)記憶,一些重要的信息經(jīng)過(guò)整理和鞏固,最終會(huì)被存入大腦形成持久的記憶。睡眠則在其中扮演重要角色,當(dāng)我們睡著的時(shí)候,大腦會(huì)像圖書管理員一樣,默默地將我們白天的經(jīng)歷像整理圖書一樣進(jìn)行分類、歸檔,甚至能夠把相關(guān)的知識(shí)連接起來(lái)。
但是,當(dāng)前的 AI 記憶系統(tǒng)在這方面顯得有些笨拙。它們會(huì)把所有對(duì)話內(nèi)容包括大量的重復(fù)信息和無(wú)關(guān)信息都直接進(jìn)行一股腦的處理,這就像使用最高性能的游戲電腦去處理一張簡(jiǎn)單的照片一樣,不僅浪費(fèi)資源而且延遲較高,并且會(huì)因?yàn)樾畔⑻嗵s而記不住、記不準(zhǔn)確。這就導(dǎo)致這些 AI 記憶系統(tǒng)在對(duì)話進(jìn)行中必須實(shí)時(shí)更新記憶庫(kù),而這則會(huì)拖慢整個(gè)聊天的速度。
方繼展表示:“我做這個(gè)研究,主要是關(guān)注到了大模型傳統(tǒng)訓(xùn)練范式中的兩個(gè)關(guān)鍵瓶頸:訓(xùn)練成本和災(zāi)難性遺忘。”一方面,大模型訓(xùn)練需要巨大的算力,成本高昂。另一方面,當(dāng)你想給模型注入新知識(shí)或新技能時(shí),通過(guò)傳統(tǒng)的微調(diào)改變其參數(shù),往往會(huì)導(dǎo)致一個(gè)嚴(yán)重問(wèn)題——模型會(huì)忘記之前學(xué)過(guò)的知識(shí),這就是災(zāi)難性遺忘。因此,他關(guān)注到了大模型記憶這個(gè)方向,并開展了本次研究。
![]()
(來(lái)源:https://arxiv.org/pdf/2510.18866)
LightMem:通過(guò)模仿人腦來(lái)提高效率
LightMem 通過(guò)模仿人類記憶的三層結(jié)構(gòu),打造了三個(gè)可以互相配合的輕量模塊。
第一個(gè)輕量模塊是感覺(jué)記憶過(guò)濾器(Light1)。在長(zhǎng)對(duì)話中,有許多信息都是重復(fù)和無(wú)關(guān)緊要的,比如“你好”“謝謝”或者一些語(yǔ)氣詞等。面對(duì)這一問(wèn)題,LightMem 使用一個(gè)名為 LLMLingua-2 的壓縮模型來(lái)讓大模型快速地掃描每輪對(duì)話。
LLMLingua-2 能夠識(shí)別哪些是關(guān)鍵詞、哪些是口水話,從而能夠根據(jù)設(shè)定的壓縮比例(如保留 60%),動(dòng)態(tài)保留相應(yīng)比例的最重要的詞語(yǔ),來(lái)將一大段話精簡(jiǎn)為一小段精華摘要。這就相當(dāng)于在信息進(jìn)入 AI 處理流水線之前,率先進(jìn)行了一次高效的去噪和提純,能夠極大減少后續(xù)處理的工作量。
第二個(gè)輕量模塊是短時(shí)記憶話題管家(Light2)。大模型里的對(duì)話往往是圍繞不同話題展開的,因此光有壓縮還遠(yuǎn)遠(yuǎn)不夠。如果一股腦地把多個(gè)主題的內(nèi)容混合在一起讓 AI 總結(jié),它很有可能會(huì)搞混。
而這里短時(shí)記憶話題管家(Light2)會(huì)針對(duì)壓縮后的對(duì)話精華進(jìn)行分析,利用注意力機(jī)制和語(yǔ)義相似度計(jì)算,來(lái)判斷出話題切換的邊界。比如,當(dāng)你和 AI 的對(duì)話從“討論周末吃什么”過(guò)渡到“推薦一部好電影”時(shí),短時(shí)記憶話題管家(Light2)就會(huì)在這里劃出一條分界線。
接著,屬于同一個(gè)話題的多輪對(duì)話比如關(guān)于熱門電影《瘋狂動(dòng)物城 2》的幾個(gè)問(wèn)題和幾個(gè)回答,會(huì)被打包成為一個(gè)話題記憶包。只有當(dāng)這個(gè)記憶包積累到一定大小時(shí),才會(huì)調(diào)用一次大模型來(lái)為記憶包生成一個(gè)總的概述。以前每輪對(duì)話都要調(diào)用一次大模型,而使用本次方法將調(diào)用次數(shù)降低到只有原來(lái)的十分之一甚至百分之一。
第三個(gè)輕量模塊是長(zhǎng)時(shí)記憶與睡眠時(shí)間更新器,這也是 LightMem 最巧妙的創(chuàng)新。在進(jìn)行對(duì)話的時(shí)候,新生成的話題記憶包會(huì)帶著時(shí)間戳,直接存入長(zhǎng)時(shí)記憶庫(kù)之中,其好處在于只需做簡(jiǎn)單的添加,不需要做復(fù)雜的整理,因此能夠保證聊天的實(shí)時(shí)性,并且沒(méi)有任何卡頓。
對(duì)于大模型來(lái)說(shuō),記憶庫(kù)的整理、去重、知識(shí)連接都是“重活”。而 LightMem 為大模型設(shè)置了睡眠時(shí)間也就是離線時(shí)間,讓大模型專門在睡覺(jué)的時(shí)候干這些重活。這時(shí),系統(tǒng)會(huì)悄悄地啟動(dòng),就像人腦在睡眠時(shí)針對(duì)記憶庫(kù)進(jìn)行整理一樣。
大模型會(huì)找出內(nèi)容相似、但是存在新信息的記憶條目進(jìn)行合并,在此期間還會(huì)針對(duì)重復(fù)內(nèi)容進(jìn)行刪除,并能建立不同知識(shí)之間的連接。而且,由于各個(gè)記憶條目的更新任務(wù)是彼此獨(dú)立的,因此系統(tǒng)可以同時(shí)處理多個(gè)任務(wù),就像一家圖書館安排多位管理員整理不同書架一樣,效率自然相對(duì)較高。
當(dāng)然,賦予大模型以長(zhǎng)期記憶也伴隨著隱私、安全和倫理等挑戰(zhàn)。方繼展也在論文中表示,對(duì)于未來(lái)的應(yīng)用必須建立嚴(yán)格的隱私保護(hù)措施和糾偏機(jī)制,確保 LightMem 能夠產(chǎn)生善意和可信的用途。
下一步,方繼展將從大模型推理的底層硬件原理上進(jìn)行優(yōu)化,例如對(duì)注意力計(jì)算中的 KV Cache 進(jìn)行預(yù)計(jì)算和壓縮,實(shí)現(xiàn)更極致的加速。同時(shí),他還計(jì)劃將這一設(shè)計(jì)范式拓展到更多行業(yè)和模態(tài),例如代碼生成、保險(xiǎn)、以及圖像、視頻等多模態(tài)場(chǎng)景的壓縮與記憶。還包括“具身智能”場(chǎng)景(如家庭機(jī)器人),讓機(jī)器人能長(zhǎng)期記住用戶的習(xí)慣和偏好,避免在錯(cuò)誤中循環(huán)。
方繼展補(bǔ)充稱,“AI 發(fā)展一直從人類智能中汲取靈感。我在研究記憶系統(tǒng)時(shí),也深入學(xué)習(xí)了人類記憶的認(rèn)知科學(xué)理論。我認(rèn)為,人類的記憶不僅僅是記住事實(shí)(Facts),它至少包含三層:知識(shí)的抽象與積累、技能的習(xí)得、對(duì)世界底層規(guī)則的建立。”
知識(shí)的抽象與積累,是指將具體經(jīng)驗(yàn)提煉成可遷移的知識(shí);技能的習(xí)得,是指通過(guò)練習(xí)將操作內(nèi)化為本能;對(duì)世界底層規(guī)則的建立,是指形成認(rèn)知框架。反觀當(dāng)前的大模型記憶系統(tǒng),大多還停留在最表層的事實(shí)記憶階段(即記住我們說(shuō)了什么和做了什么)。
方繼展認(rèn)為,未來(lái)的記憶系統(tǒng),應(yīng)該向人類學(xué)習(xí),不僅要記“事”,更要能抽象出“知識(shí)”,并能將解決問(wèn)題的“過(guò)程”轉(zhuǎn)化為可復(fù)用的“技能”。人類的記憶之所以高效,正在于它是一種輕量的、抽象的系統(tǒng),并非事無(wú)巨細(xì)地存儲(chǔ)一切,而這正是大模型記憶系統(tǒng)應(yīng)該借鑒的核心理念。
參考資料:
相關(guān)論文 https://arxiv.org/pdf/2510.18866
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.