<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      M+框架來了,增加LLM隱空間記憶,不再受上下文窗口限制

      0
      分享至



      本文的第一作者Yu Wang來自加州大學圣地亞哥分校,主要研究方向為Memory for LLMs and Memory for LLM Agents. 該論文于2024年在MIT-IBM Waston Lab實習過程中完成,通訊作者Zexue He也畢業于加州大學圣地亞哥分校。

      M+是在 MemoryLLM 之上提出的長期隱空間記憶擴展框架:通過把「過期」隱藏向量寫入CPU - 側長期記憶池,再用協同檢索器拉回最相關記憶,它將 8 B 級模型的有效記憶跨度從原本不到 20 k tokens 提升到 160 k tokens 以上,同時顯存占用保持不變。



      • 論文標題:M+: Extending MemoryLLM with Scalable Long-Term Memory
      • 論文鏈接:https://arxiv.org/abs/2502.00592
      • 代碼倉庫:https://github.com/wangyu-ustc/MemoryLLM
      • 開源模型:https://huggingface.co/YuWangX/mplus-8b

      背景:上下文 ≠ 記憶 & 現有記憶模型的缺陷

      上下文窗口并不能直接等價于記憶。GPT-4.1 之類的模型即便支持 100 萬 token,也會隨窗口線性升高顯存與延遲,難以落地本地部署。

      業界主流做法是 “Token-Level Memory”:把歷史內容或三元組存在數據庫 / 向量庫,檢索后再拼接回 prompt;MemGPT等系統即屬此類。該類做法不需要重復訓練,直接結合 GPT-4 這樣的大模型便可以獲得很不錯的性能,但是,它也會有一些隨之而來的問題:(1)冗余:原始文本并非最緊湊表達,重復率高。(2)沖突難解:遇到相互矛盾或不斷更新的信息時,文本級沖突消解復雜。(3)多模態能力弱:由于數據庫格式為文本,處理音頻或者圖片,視頻數據將相對困難。

      因此,我們希望探索隱空間 (Latent-Space) 的 Memory -- 既壓縮又可端到端訓練,更接近人類在神經激活中存儲信息的方式。

      M + 的關鍵改進:Long-Term Memory

      在 MemoryLLM 中,我們為 8B 的 Llama3 模型引入了約 1.67B 的 Memory。Llama3-8B 的 Transformer 共包含 32 層。當第一層接收到詞輸入后,會通過 Embedding 層將詞轉化為一系列 4096 維的向量。基于這一特點,我們設計了 MemoryLLM,在每一層都加入 N 個 Memory Tokens(實驗中 N=12800)。在生成過程中,這些 Memory Tokens 會作為每一層的 Prefix,通過 Cross-Attention 將信息注入后續層,使模型能 “看到” 保存在 Memory Pool 中的歷史信息。



      在更新階段,我們會將每層 Memory Token 中最后 K 個(實驗中 K=256)與需要寫入的信息一同送入 Transformer,再次經過 Cross-Attention,將信息壓入新的 Memory Tokens 中(如下圖所示)。與此同時,我們在原有 Memory 中隨機丟棄 K 個舊 Token,并將新生成的 K 個 Token 放到 Memory 尾部,完成更新。



      基于這樣的設計,借助每層 12800 個 Memory Vectors,我們在 50k tokens 內都能保持良好的信息留存(最早 MemoryLLM-7B 版本只做到 20k,后續在 GitHub 提供的新版模型 https://github.com/wangyu-ustc/MemoryLLM 可達 50k)。然而,這樣的記憶容量仍無法滿足我們對更長序列的期待。要進一步擴展 Memory,單靠原有的 1.67B 容量已遠遠不夠,因此我們提出了Long-Term Memory。

      如何高效實現 Long-Term Memory?考慮到 MemoryLLM 中每一個 Memory Token 本質上都來自 Hidden States,我們將那些在更新過程中被 “丟棄” 的 Memory Token 并非直接舍棄,而是將其保存在長期記憶池中(如下圖)。



      僅僅保存是不夠的,我們還需要具備強大的提取能力。最初我們嘗試用 Attention 來從長期記憶中檢索 Hidden States,但實驗表明 Attention 在提取 Hidden States 時效果有限(在論文的消融實驗中做了詳盡對比)。因此我們提出協同提取器(Co-trained Retriever),并與全模型進行聯合訓練(如下圖)。



      通過這一結構,我們將模型的有效記憶跨度從 50k 一舉提升到 160k,且由于 Memory 主要駐留在 CPU,不會顯著增加 GPU 負擔。

      M + 的實驗結果

      顯著性能提升及更少的 GPU 使用:在 Longbook-QA 和 Longbook-Event-QA 兩個數據集上,我們都在更少 GPU 的使用下(單卡 18GB 左右)獲得了更強大的性能。





      更強的信息留存能力:在 SQuAD 數據集上表現出遠超 MemoryLLM-7B 以及相關 ablation baseline 的信息留存能力,可以達到 160k 依舊不完全遺忘過去的信息。





      結語

      M+ 展示了我們在探索隱空間長期記憶領域的重要進展,也為下一代具備持續記憶能力的語言模型提供了堅實的技術支撐。未來,我們將繼續研究更高效的存儲機制、更智能的檢索策略,以及與多模態輸入更自然融合的隱空間記憶架構。在此方向上,M+ 不僅是對 MemoryLLM 的一次擴展,也是我們對 “讓模型擁有接近人類記憶能力” 這一愿景的又一次有力實踐。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      官方再回應“采購項目名單照搬人名大全”:核查中,正反思

      官方再回應“采購項目名單照搬人名大全”:核查中,正反思

      南方都市報
      2025-12-08 16:42:21
      原國務委員王丙乾逝世 享年100歲

      原國務委員王丙乾逝世 享年100歲

      新京報
      2025-12-08 15:55:03
      經濟賠償231.86萬!網傳廣東一61人公司倒閉,員工稱老板血本無歸

      經濟賠償231.86萬!網傳廣東一61人公司倒閉,員工稱老板血本無歸

      火山詩話
      2025-12-08 16:09:18
      網友俄中餐館用餐遭到歧視,對方還表示中國游客來得越少越好

      網友俄中餐館用餐遭到歧視,對方還表示中國游客來得越少越好

      映射生活的身影
      2025-12-08 13:28:54
      浙江大學驚現26歲博導!

      浙江大學驚現26歲博導!

      封面新聞
      2025-12-08 18:01:04
      臺灣GDP增速大幅上調,創十多年來新高

      臺灣GDP增速大幅上調,創十多年來新高

      小院之觀
      2025-12-08 06:05:07
      強冷空氣要來了!強勢回暖之后,浙江將迎大風降溫!風寒+濕冷,最低-4℃

      強冷空氣要來了!強勢回暖之后,浙江將迎大風降溫!風寒+濕冷,最低-4℃

      魯中晨報
      2025-12-08 17:23:15
      30歲的賀子珍在蘇聯莫斯科的真實容貌 并非演員扮演 貨真價實的照片

      30歲的賀子珍在蘇聯莫斯科的真實容貌 并非演員扮演 貨真價實的照片

      動物奇奇怪怪
      2025-12-08 13:26:50
      歐盟推出B計劃,將烏克蘭軍工納入歐洲,美國軍售勒索將成為歷史

      歐盟推出B計劃,將烏克蘭軍工納入歐洲,美國軍售勒索將成為歷史

      史政先鋒
      2025-12-07 16:11:07
      亞馬遜云科技最強 AI Agent 陣容發布,設計火箭也不在話下

      亞馬遜云科技最強 AI Agent 陣容發布,設計火箭也不在話下

      愛范兒
      2025-12-05 16:29:19
      山東跑友張素梅車禍去世,月跑量300多公里,開奔馳,顏值身材好

      山東跑友張素梅車禍去世,月跑量300多公里,開奔馳,顏值身材好

      180視角
      2025-12-08 12:09:15
      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      被拐30年兒子認親14小時就走,全程冷臉,網友:窮家標簽太刺眼

      老特有話說
      2025-12-06 17:31:27
      國家稅務總局山東省稅務局原副局長薛建英被查

      國家稅務總局山東省稅務局原副局長薛建英被查

      新京報
      2025-12-08 10:02:21
      男子因玩手機摔下懸崖,后自發朋友圈稱“福大命大”,景區:涉事地點禁止攀爬

      男子因玩手機摔下懸崖,后自發朋友圈稱“福大命大”,景區:涉事地點禁止攀爬

      極目新聞
      2025-12-08 12:33:39
      揭秘:中國參與對前蘇聯科技人才爭奪戰的背后故事!

      揭秘:中國參與對前蘇聯科技人才爭奪戰的背后故事!

      華山穹劍
      2025-12-06 18:19:39
      國內多趟飛倫敦航班現100元低價票,在武漢中轉還能免費住一晚,系不含稅機票

      國內多趟飛倫敦航班現100元低價票,在武漢中轉還能免費住一晚,系不含稅機票

      極目新聞
      2025-12-08 13:06:02
      父親為“方便兒子花錢”,委托公司將工資打孩子賬戶上,誤致兒子喪失應屆生身份無法考公,法官:可證偽勞動關系

      父親為“方便兒子花錢”,委托公司將工資打孩子賬戶上,誤致兒子喪失應屆生身份無法考公,法官:可證偽勞動關系

      大象新聞
      2025-12-08 00:18:38
      12月8日俄烏最新:俄羅斯人終于不忍了

      12月8日俄烏最新:俄羅斯人終于不忍了

      西樓飲月
      2025-12-08 18:05:08
      今后3天河南晴朗持續!11日起大風雨雪強降溫“組團”上線

      今后3天河南晴朗持續!11日起大風雨雪強降溫“組團”上線

      大象新聞
      2025-12-08 13:30:12
      郭德綱被舉報約談,文旅局表示已嚴肅批評,網友:說到國營痛處了

      郭德綱被舉報約談,文旅局表示已嚴肅批評,網友:說到國營痛處了

      社會醬
      2025-12-08 17:47:19
      2025-12-08 19:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11873文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      親子
      家居
      房產
      藝術
      軍事航空

      親子要聞

      這屆家長,花5000元讓孩子“離8米遠看書”,有用嗎?

      家居要聞

      有限無界 打破慣有思維

      房產要聞

      碧桂園,開始甩賣海口家底!

      藝術要聞

      一棵樹的力量

      軍事要聞

      柬泰沖突細節披露 洪森要求部隊“克制”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 热无码| 俺也来俺也去俺也射| 未满十八18禁止免费无码网站 | 无码人妻精品一区二区三区夜夜嗨 | 国产69xxx| 乱人伦人妻中文字幕无码| 野花社区www高清视频| 日韩亚洲欧美中文高清| 日逼AV| jizz亚洲人| 国产v亚洲v天堂a无码99| 中文字幕亚洲综合久久菠萝蜜| 四虎成人在线观看免费| 色色五月婷婷| 精品无码人妻| 国产精品a无线| 欧美老少配性行为| 91视频在线观看网站| 亚洲性av网站| 成人免费一区二区三区视频| 欧洲熟妇色xxxx欧美老妇软件| 美女胸18大禁视频网站| 蜜桃av一卡二卡三卡| 定州市| 色婷婷AV一区二区三区软件| 亚洲专区久久| 亚洲日产韩国一二三四区| 亚洲日本中文字幕天天更新| 色资源av中文无码先锋| 国产精品久久久久久福利| 汾阳市| AV不卡在线| 国内精品熟女亚洲精品熟女| 国产色a在线观看| 超碰色偷偷男人的天堂| 少妇把腿扒开让我爽爽视频| 性欧美丰满熟妇xxxx性| 欧美人与性动交α欧美精品| 东京热A?V无码| 人妻中文系列| 四川省|