當你閱讀《紅樓夢》《哈利·波特》《百年孤獨》等長篇小說時,讀著讀著可能就忘記前面講了什么,有時還會搞混人物關系。AI 在閱讀長文章的時候也存在類似問題,當文章太長時它也會卡主,要么讀得特別慢,要么記不住前面的內容。
為此,美國耶魯大學博士生劉棟和合作者打造出一款名為 HSGM(Hierarchical Segment-Graph Memory)框架,它能快速、準確地理解超長文章。
![]()
圖 | 劉棟(來源:劉棟)
在多個任務上的測試結果顯示,HSGM 處理長文章的速度比傳統方法快了 2 到 4 倍,原本需要 1 分鐘的文章,現在只需 15-30 秒就能分析完。HSGM 需要的記憶空間更小,內存可以節省 60% 以上。
雖然 HSGM 使用了各種簡化方法,但是它的準確率幾乎沒有下降,仍然能夠達到最先進方法的 95% 以上。特別值得一提的是,當文章特別長比如有 2 萬個詞語時,HSGM 的優勢反而更加明顯,比傳統方法快了 59 倍。
![]()
(來源:https://arxiv.org/html/2509.18168v1)
據了解,AI 在閱讀的時候是把文字轉換為它能夠理解的數字代碼,這個過程叫做編碼。編碼之后,AI 會嘗試找出詞語之間的關系,比如在 AI 閱讀貓捉老鼠這個故事時,貓是捉的發起者,老鼠是被捉的對象。
這種理解方式叫做語義分析。計算機會把句子變成一張關系圖,圖中的點代表詞語,線代表它們之間的關系。當文章很長時,這張圖就會變得超級復雜,就像你把整本書的人物關系圖畫在一張紙上,密密麻麻的根本看不清楚。
HSGM 的聰明之處在于,不是像人類那樣一口氣讀完整個長文,而是把整個文章切成幾個段落塊,每個塊大約包含 256 個詞語。這樣,AI 就可以先集中精力理解一個小段落,而不用一下子面對整篇文章。
對于每個小段落,HSGM 都會畫一張語義地圖,記錄這個詞和那個詞有什么關系,比如在“小明去公園散步”這個句子里,它會畫出“小明-去-公園”和“去-散步”這樣的關系。HSGM 不會記住每個段落的全部細節,而是為每個段落提取一個摘要節點,就像給每個章節寫一段內容提要。
然后,它把這些摘要節點連接起來,形成一張全書概要圖。這張圖雖然簡單,但是包含了整篇文章的精華。當有新內容加入的時候,HSGM 會為新內容畫一張“小地圖”,然后提取新內容的摘要,再將新摘要加入原來的全書概要圖中。
這個過程叫做增量更新,讓 HSGM 能夠高效處理不斷增長的內容,比如聊天記錄和新聞推送等。
當你針對某一篇長文章向 HSGM 提問時,它不會在整篇文章中盲目地尋找答案,而是會首先進行快速定位,在全書概要圖中尋找與問題最相關的幾個摘要節點,就像人類通過圖書目錄找到相關章節一樣。
找到相關段落之后,HSGM 會調出這些段落的詳細小地圖,在里面仔細尋找確切的答案。這種方法又快又準,就像有一個圖書管理員,先幫你找到可能包含答案的書架,再從書中找出確切段落。
![]()
(來源:https://arxiv.org/html/2509.18168v1)
HSGM 的應用場景非常多:其一,可被用于智能問答系統。假如你想問 AI《紅樓夢》中賈寶玉和林黛玉有多少次對話,它能快速找到答案;其二,可被用于長對話理解。
在客服系統中,HSGM 可以理解長時間的對話記錄,根據歷史問題準確把握客戶的需求;其三,可被用于多跳推理。有些問題需要聯系文章的不同部分才能回答。
比如“小明最初在哪里上學?后來轉學到了哪里”,HSGM 的層次化記憶讓其能夠進行這種多跳推理;其四,可被用于生成自動摘要。
它可以在閱讀長篇文章之后,自動生成簡潔的摘要,幫助你快速了解文章大意;其五,可被用于法律文件分析。律師需要閱讀大量的法律文書,HSGM 可以幫助他們快速找到相關案例和條款。
![]()
(來源:https://arxiv.org/html/2509.18168v1)
總之,HSGM 把記憶這件事明確拆解成短期上下文、中期工作記憶與長期語義摘要,并將它們對應地存放在 GPU 的高速顯存、主機內存到 NVMe 這條層級鏈路上,按照重要性和時序動態遷移。這樣一來,模型不只是“記得多”,而是“記得對、取得快、忘得巧”。
而在學術之外的產業實踐方面,劉棟也是 FastLM.ai 的創始人。公司專注于大模型推理的高效基礎設施,圍繞緩存智能化、層次記憶管理與注意力加速構建產品線,其目前已經把這些思路做成了可交付的能力,正在推動“記憶感知”能力在規模化生產環境中的落地,來達成關于“更快、更省、更聰明”的 idea,把長序列推理從工程痛點變成可靠底座。
在未來,劉棟相信這些組件具備成為推理基礎設施新的機器系統的潛力,其希望把長序列從“堆卡與碰運氣”的問題,變成“可控、可解釋、可擴展”的工程問題。
最后劉棟想補充兩點。第一,長序列不是“更大的短序列”,長序列處理有幾個主要的問題:注意力的距離衰減、語義的結構重復、信息的選擇性保留與遺忘,這些規律決定了其需要做“記憶工程”,而不是簡單通過短窗口把上下文無限放大(否則造成存儲爆照)。
第二,Diffusion 的崛起讓長視頻與超高分辨率生成成為下一階段的常態,沒有記憶與注意力的重構,僅靠堆顯存與堆帶寬不可持續。其愿望是把計算“跑得快”變成“快且省、質量穩定且可解釋”。
因此,他希望能夠形成一套可落地、可復用、可演化的工程方法論,其目標是把 Memory?Aware AI Infrastructure 繼續打磨到可工業化的水準,提高機器學習系統的長序列處理效率和記憶能力。
參考資料:
https://arxiv.org/html/2509.18168v1
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.