![]()
InfLLM-V2:通過最小結構擾動,實現大模型從短上下文到長上下文的平滑升級。
作者丨鄭佳美
編輯丨岑峰
![]()
在大語言模型快速邁向更強推理能力與更復雜應用場景的過程中,“上下文長度”已經從一個模型配置參數,演變為制約系統能力上限的關鍵瓶頸。
一方面,長文檔理解、跨輪對話記憶、復雜規劃與長鏈式推理等任務,對模型提出了遠超傳統 4k 或 8k 序列長度的需求;另一方面,主流 Transformer 架構中基于全注意力機制的計算模式,在序列長度增長時不可避免地帶來平方級的時間與顯存開銷,使得“支持更長上下文”在現實工程中迅速轉化為難以承受的成本問題。
圍繞這一矛盾,稀疏注意力幾乎成為學術界與工業界的共識方向,但隨之而來的,并不是問題的徹底解決,而是一系列新的結構性張力。
過去數年中,大量工作嘗試通過引入新的注意力結構、路由機制或可訓練稀疏模塊來緩解計算壓力。這些方法在理論復雜度或特定評測上往往表現出色,但在真實模型訓練與部署流程中,卻逐漸暴露出一個被長期低估的問題:當前大語言模型幾乎無一例外遵循“短序列預訓練、長序列微調”的訓練范式,而一些修改模型架構的稀疏注意力方案例如NSA,在結構、參數或輸出形式上與標準 dense attention 存在顯著不對齊。
正是在這一背景下,清華大學劉知遠團隊提出了《InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation》。與以往強調“引入新結構”或“增加可訓練模塊”的路徑不同,這項研究將關注點前移至一個更基礎的問題:稀疏注意力是否必須以改變模型結構為代價,才能獲得長上下文效率?
為此研究團隊提出了一種 dense–sparse 可切換的注意力框架,試圖在以原有 dense attention 參數作為起始點,保持輸出形式不變,做到長短文本可同時訓練,且能高效地實現從短上下文到長上下文的平滑過渡。
值得一提的是,這項工作并未將重點放在單一指標的提升上,而是系統性地從性能保持、訓練穩定性以及端到端推理效率三個層面,對這一設計思路進行了驗證,從而為長上下文大語言模型的研究與工程實踐提供了一條不同于以往的技術路線。
![]()
論文地址:https://arxiv.org/pdf/2509.24663
01
一次「是否真可用」的實驗回答
整體來看,研究的實驗設計并非簡單地驗證“InfLLM-V2 是否有效”,而是圍繞三個逐層遞進的核心問題展開:第一,在長上下文任務中,該方法的性能是否能夠逼近甚至匹配全注意力機制;第二,在“短序列預訓練 → 長序列微調”的真實訓練范式下,該方法是否會破壞模型原有能力;第三,在完整推理流程中,稀疏注意力帶來的計算加速是否能夠轉化為端到端的實際收益。
圍繞第一個問題,研究團隊重點評測了多種長輸入理解任務。在 32k 長度的 RULER 基準上,InfLLM-V2(Sparse)在絕大多數子任務中的表現幾乎與 Full Attention 重合,而訓練后稀疏方法(如 InfLLM、MInference)在部分任務上出現明顯性能斷崖,可訓練稀疏注意力方法 NSA 在短序列到長序列遷移的設定下也顯著落后。
這一結果表明,InfLLM-V2 的稀疏策略并未破壞跨塊的長距離依賴建模能力,而其他方法要么在 block 選擇階段失效,要么對原有注意力分布造成了顯著擾動。
![]()
在更貼近真實應用場景的 LongBench 基準上,這一趨勢表現得更加明顯。由于 LongBench 覆蓋問答、摘要、推理以及多語言等多種真實任務,其整體難度高于合成數據集,但 InfLLM-V2(Sparse)的整體得分依然達到甚至略微超過 Full Attention。
相比之下,NSA 的性能明顯低于全注意力,而僅依賴長度外推的 SHORT+YaRN 方法則出現了大幅性能退化。研究人員進一步觀察到,InfLLM-V2 的 dense / sparse 可切換機制在部分任務中反而降低了注意力噪聲,從而使模型輸出更加穩定。
![]()
在 LongPPL 這一用于衡量長序列語言建模能力的困惑度評測中,InfLLM-V2 的表現與 Full Attention 基本一致,而 NSA 的困惑度顯著更高。這一結果說明,NSA 在短到長遷移訓練后并未真正學會建模長程語言分布,其較低的訓練 loss 并未轉化為有效的長序列建模能力。
![]()
圍繞第二個問題,研究團隊還系統評估了長鏈式推理任務,包括 MATH-500、AIME 以及 LiveCodeBench。這類任務的共同特點在于輸出序列較長,且中間推理步驟高度依賴早期上下文信息。
實驗結果顯示,InfLLM-V2(Sparse)在這些任務上的表現與 Full Attention 幾乎持平,而 NSA 在所有相關任務中均出現了明顯的性能下降。這直接表明,InfLLM-V2 所采用的稀疏注意力機制不會破壞鏈式思維推理過程中所需的“思維連續性”。
![]()
此外,研究人員還驗證了一個在工程實踐中尤為關鍵但常被忽視的問題:在完成長上下文微調之后,模型是否仍能夠勝任常規短序列任務。在 MMLU、CEval、HumanEval 等評測中,InfLLM-V2 切回 dense 模式后依然保持了與 Full Attention 相當的性能,而 NSA 則出現了明顯退化。這一結果從工程角度表明,InfLLM-V2 不會在適配長上下文能力的過程中破壞模型原有的通用能力。
![]()
最后,針對第三個問題,研究團隊不僅評估了 attention kernel 層面的理論加速效果,還在完整推理流程中測量了 prefilling(TTFT)和 decoding(TPOT)的端到端效率。
在可見 token 數為 6k(|I|=96)的設置下,InfLLM-V2 實現了約 2.1× 的 prefilling 加速和 2.3× 的 decoding 加速,而且這一結果是在前饋網絡(FFN)部分完全未進行優化的前提下獲得的,進一步說明該稀疏注意力設計在真實推理場景中具有切實可落地的加速價值。
02
從結構選擇到系統優化
結果之外,這項研究的實驗實際上回答了一個更根本的問題:為什么 InfLLM-V2 的實驗結果并非“偶然跑出來的”,而是其設計邏輯在完整訓練流程中被系統性驗證的必然結果。
研究團隊首先指出,現實世界中幾乎所有大語言模型都遵循“短序列預訓練、長序列微調”的通行范式,因此,任何稀疏注意力方案如果在這一過程中大幅改變參數結構、調整 attention 的輸出形式,都會直接損傷模型在短序列階段已經學到的表示能力。
基于這一現實約束,研究人員明確設定了 InfLLM-V2 的核心實驗前提:在從 dense attention 過渡到 sparse attention 的過程中,必須保證已有 dense attention 的表達能力不被破壞。
在具體訓練流程上,研究團隊首先采用完全標準的 Transformer 架構對模型進行短序列預訓練,模型規模為 8B 參數,使用 GQA 結構,序列長度為 4k。這一階段未引入任何 InfLLM-V2 相關的稀疏機制,確保模型能力完全建立在傳統全注意力的基礎之上。
隨后,在進入長上下文訓練階段時,模型內部僅發生了三項關鍵變化:當序列長度超過預設閾值時,attention mask 由稠密形式切換為稀疏形式;Key 與 Value 的投影參數被完整復用,不引入新的參數分支;attention 的輸出形式始終保持為 single-output 結構,不使用 gating,也不存在多路 attention 輸出的聚合。
正是這種“最小結構擾動”的切換方式,使 InfLLM-V2 能夠在適配長上下文的同時,最大限度保留原有模型能力,這也構成了其與 NSA 等可訓練稀疏注意力方法的本質差異。
相關實驗進一步驗證了一個具有反直覺意味的結論:可訓練的稀疏 attention 并不必然更適合短到長的遷移訓練。研究人員的分析表明,NSA 在該設定下的性能問題并非源自稀疏機制本身,而是由于其引入了三套 Key–Value 投影、多路 attention 輸出以及基于 gating 的結果聚合結構。
![]()
這些額外模塊在短序列階段不僅帶來冗余計算開銷,還會顯著改變注意力分布形態,從而對模型已學到的表示造成干擾。在實驗結果中,這一問題具體表現為訓練 loss 曲線出現明顯震蕩、長序列困惑度(LongPPL)顯著升高,以及長鏈式推理任務性能的系統性下降。
在工程實現層面,研究團隊還通過進一步的消融分析定位了 InfLLM-V2 的主要性能瓶頸,發現其集中在 block selection 階段,尤其是 compression attention 的計算以及 attention score 的顯式物化過程。針對這一問題,研究人員在實驗中引入了 head-group fusion 和 LSE Approximation 等優化策略。
實驗結果表明,這些改進在幾乎不影響模型性能的前提下,可以將 block selection 的計算時間降低約 20–30%,從而為后續端到端推理加速實驗中觀察到的顯著性能提升奠定了關鍵基礎。
![]()
03
可「熱升級」的長上下文方案
從研究意義的角度來看,這項研究對“長上下文大語言模型”這一方向給出了具有方法論價值的啟示。
研究團隊明確指出,稀疏注意力機制未來的發展重點并不在于設計全新的注意力結構,而在于如何在不破壞既有 dense attention 結構的前提下實現高效的稀疏化,這一觀點在一定程度上改變了此前以“結構創新”為主導的研究范式。
在工程實踐層面,InfLLM-V2 所具備的一系列特性恰好契合真實工業部署的核心需求,包括無需調整模型參數規模、無需維護多套模型版本、不會犧牲短序列任務性能,且不依賴重新進行大規模預訓練。這意味著,一個已經部署或訓練完成的現有大語言模型,可以在最小代價下被“熱升級”為具備長上下文處理能力的模型。
在此基礎上,研究人員也為后續工作隱含地劃定了若干重要約束:首先,應避免引入額外的 attention 分支,以免破壞原有結構的一致性;其次,不應采用與 dense attention 輸出形式不兼容的設計,否則將導致短到長遷移過程中的能力損失;最后,稀疏注意力的設計必須充分考慮底層計算實現與 kernel 特性,而不僅停留在概念層面的結構優雅性。
正是由于該研究將訓練范式、模型結構設計以及 CUDA 級實現細節進行了統一考量,并系統性地解釋了以往稀疏注意力方法在真實訓練與推理流程中失敗的原因,才使其不僅停留在方法層面的提出,而能夠進一步支撐實際模型的訓練與落地應用,這也是研究團隊能夠基于該框架直接產出 MiniCPM-4.1 等模型的重要原因。
04
InfLLM-V2 主要作者
趙威霖,他是清華大學計算機科學與技術系自然語言處理實驗室(THUNLP)的博士研究生,研究方向聚焦于高效大語言模型。
他的研究主要圍繞模型推理與訓練加速展開,關注點并非單純引入新的模型結構,而是如何在不破壞標準 Transformer 表達能力與既有模型性能的前提下,實現對各類場景的有效適配與工程級加速。
除學術研究外,他還長期參與 OpenBMB、MiniCPM 等開源項目,在高性能 attention kernel、推理優化與系統實現方面承擔關鍵工程工作,其研究成果發表于 ICLR、ACL、EMNLP 等國際主流會議。
![]()
參考鏈接:https://weilin-zhao.com
劉知遠,他是清華大學計算機科學與技術系教授、博士生導師,兼任中國中文信息學會理事、社會媒體處理專委會副主任等學術職務。
劉知遠分別于 2006 年、 2011 年于清華大學計算機科學與技術系獲得學士、博士學位,并在清華大學開展博士后研究,后留校任教。其主要研究方向包括大模型技術、自然語言處理、知識圖譜與語義計算以及社會計算等核心領域。
劉知遠在國際主流學術會議和期刊(如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI)上發表了 200 余篇論文,其 Google Scholar 引用量超過7萬次,反映出廣泛的學術影響力。
他在多項國家級科研項目中擔任負責人或主要參與者,曾獲教育部自然科學一等獎、中國中文信息學會錢偉長中文信息處理科學技術獎一等獎、世界互聯網領先科技成果獎、北京市青年教學名師獎等多項科研獎勵,并入選包括國家青年人才計劃、Elsevier 中國高被引學者、《麻省理工科技評論》中國區“35 歲以下科技創新 35 人榜單”及中國科協青年人才托舉工程等人才項目。
![]()
參考地址:https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html
韓旭,他是清華大學計算機科學與技術系助理研究員,也是大模型開源社區 OpenBMB 的核心發起人與長期負責人之一。
韓旭長期從事大模型技術、自然語言處理、知識工程等方面的研究,部分研究也涉及并行計算、異構系統優化等方向,在國際頂級學術會議及期刊發表論文數十篇,Google Scholar 他引 1.6 萬余次,曾獲教育部自然科學一等獎、世界互聯網大會領先科技獎,并入選中國計算機學會(CCF)優博激勵計劃、清華優秀博士后、《麻省理工科技評論》中國區“35 歲以下科技創新 35 人榜單”、及博士后創新人才支持計劃。
![]()
參考鏈接:https://www.cs.tsinghua.edu.cn/info/1114/6422.htm
肖朝軍,他是清華大學計算機系博士后,主要研究方向為高效大模型架構,在Nature Machine Intelligence、ICML、NeurIPS、ICLR、ACL等國際頂級會議及期刊發表論文多篇,曾獲錢偉長中文信息處理科學技術獎一等獎,博士后創新人才支持計劃,清華大學水木學者,清華大學優秀博士論文等榮譽。
![]()
參考鏈接:https://xcjthu.github.io/
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.