網易首頁 > 網易號 > 正文申請入駐

突破AI記憶瓶頸，耶魯博士新成果破解閱讀失憶難題

2025-12-03 21:37:30　來源: DeepTech深科技

北京舉報

分享至

當你閱讀《紅樓夢》《哈利·波特》《百年孤獨》等長篇小說時，讀著讀著可能就忘記前面講了什么，有時還會搞混人物關系。AI 在閱讀長文章的時候也存在類似問題，當文章太長時它也會卡主，要么讀得特別慢，要么記不住前面的內容。

為此，美國耶魯大學博士生劉棟和合作者打造出一款名為 HSGM（Hierarchical Segment-Graph Memory）框架，它能快速、準確地理解超長文章。

圖 | 劉棟（來源：劉棟）

在多個任務上的測試結果顯示，HSGM 處理長文章的速度比傳統方法快了 2 到 4 倍，原本需要 1 分鐘的文章，現在只需 15-30 秒就能分析完。HSGM 需要的記憶空間更小，內存可以節省 60% 以上。

雖然 HSGM 使用了各種簡化方法，但是它的準確率幾乎沒有下降，仍然能夠達到最先進方法的 95% 以上。特別值得一提的是，當文章特別長比如有 2 萬個詞語時，HSGM 的優勢反而更加明顯，比傳統方法快了 59 倍。

（來源：https://arxiv.org/html/2509.18168v1）

據了解，AI 在閱讀的時候是把文字轉換為它能夠理解的數字代碼，這個過程叫做編碼。編碼之后，AI 會嘗試找出詞語之間的關系，比如在 AI 閱讀貓捉老鼠這個故事時，貓是捉的發起者，老鼠是被捉的對象。

這種理解方式叫做語義分析。計算機會把句子變成一張關系圖，圖中的點代表詞語，線代表它們之間的關系。當文章很長時，這張圖就會變得超級復雜，就像你把整本書的人物關系圖畫在一張紙上，密密麻麻的根本看不清楚。

HSGM 的聰明之處在于，不是像人類那樣一口氣讀完整個長文，而是把整個文章切成幾個段落塊，每個塊大約包含 256 個詞語。這樣，AI 就可以先集中精力理解一個小段落，而不用一下子面對整篇文章。

對于每個小段落，HSGM 都會畫一張語義地圖，記錄這個詞和那個詞有什么關系，比如在“小明去公園散步”這個句子里，它會畫出“小明-去-公園”和“去-散步”這樣的關系。HSGM 不會記住每個段落的全部細節，而是為每個段落提取一個摘要節點，就像給每個章節寫一段內容提要。

然后，它把這些摘要節點連接起來，形成一張全書概要圖。這張圖雖然簡單，但是包含了整篇文章的精華。當有新內容加入的時候，HSGM 會為新內容畫一張“小地圖”，然后提取新內容的摘要，再將新摘要加入原來的全書概要圖中。

這個過程叫做增量更新，讓 HSGM 能夠高效處理不斷增長的內容，比如聊天記錄和新聞推送等。

當你針對某一篇長文章向 HSGM 提問時，它不會在整篇文章中盲目地尋找答案，而是會首先進行快速定位，在全書概要圖中尋找與問題最相關的幾個摘要節點，就像人類通過圖書目錄找到相關章節一樣。

找到相關段落之后，HSGM 會調出這些段落的詳細小地圖，在里面仔細尋找確切的答案。這種方法又快又準，就像有一個圖書管理員，先幫你找到可能包含答案的書架，再從書中找出確切段落。

（來源：https://arxiv.org/html/2509.18168v1）

HSGM 的應用場景非常多：其一，可被用于智能問答系統。假如你想問 AI《紅樓夢》中賈寶玉和林黛玉有多少次對話，它能快速找到答案；其二，可被用于長對話理解。

在客服系統中，HSGM 可以理解長時間的對話記錄，根據歷史問題準確把握客戶的需求；其三，可被用于多跳推理。有些問題需要聯系文章的不同部分才能回答。

比如“小明最初在哪里上學？后來轉學到了哪里”，HSGM 的層次化記憶讓其能夠進行這種多跳推理；其四，可被用于生成自動摘要。

它可以在閱讀長篇文章之后，自動生成簡潔的摘要，幫助你快速了解文章大意；其五，可被用于法律文件分析。律師需要閱讀大量的法律文書，HSGM 可以幫助他們快速找到相關案例和條款。

（來源：https://arxiv.org/html/2509.18168v1）

總之，HSGM 把記憶這件事明確拆解成短期上下文、中期工作記憶與長期語義摘要，并將它們對應地存放在 GPU 的高速顯存、主機內存到 NVMe 這條層級鏈路上，按照重要性和時序動態遷移。這樣一來，模型不只是“記得多”，而是“記得對、取得快、忘得巧”。

而在學術之外的產業實踐方面，劉棟也是 FastLM.ai 的創始人。公司專注于大模型推理的高效基礎設施，圍繞緩存智能化、層次記憶管理與注意力加速構建產品線，其目前已經把這些思路做成了可交付的能力，正在推動“記憶感知”能力在規模化生產環境中的落地，來達成關于“更快、更省、更聰明”的 idea，把長序列推理從工程痛點變成可靠底座。

在未來，劉棟相信這些組件具備成為推理基礎設施新的機器系統的潛力，其希望把長序列從“堆卡與碰運氣”的問題，變成“可控、可解釋、可擴展”的工程問題。

最后劉棟想補充兩點。第一，長序列不是“更大的短序列”，長序列處理有幾個主要的問題：注意力的距離衰減、語義的結構重復、信息的選擇性保留與遺忘，這些規律決定了其需要做“記憶工程”，而不是簡單通過短窗口把上下文無限放大（否則造成存儲爆照）。

第二，Diffusion 的崛起讓長視頻與超高分辨率生成成為下一階段的常態，沒有記憶與注意力的重構，僅靠堆顯存與堆帶寬不可持續。其愿望是把計算“跑得快”變成“快且省、質量穩定且可解釋”。

因此，他希望能夠形成一套可落地、可復用、可演化的工程方法論，其目標是把 Memory?Aware AI Infrastructure 繼續打磨到可工業化的水準，提高機器學習系統的長序列處理效率和記憶能力。

參考資料：

https://arxiv.org/html/2509.18168v1

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.