<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      LCA:DeepSeek 長文本加速神器90% KV 緩存縮減 + 2.5 倍推理提速

      0
      分享至



      近日,琶洲實驗室、華南理工大學(xué)、蔻町(AIGCode)等單位科研團隊聯(lián)合提出潛在空間壓縮注意力(Latent-Condensed Attention,LCA),研究成果入選 ACL 2026。

      作為面向大語言模型長上下文場景的通用高效推理技術(shù),LCA 突破傳統(tǒng)注意力機制效率瓶頸,以輕量化、無侵入、高性能的架構(gòu)設(shè)計,為長文本大模型工業(yè)化部署提供通用解決方案。在 128K 超長上下文場景下,LCA 實現(xiàn)2.5 倍預(yù)填充加速、90% KV 緩存縮減、1.8 倍解碼延遲降低,同時保持原有性能。

      該技術(shù)可通用適配 MiniCPM、Qwen 等不同規(guī)模、不同注意力架構(gòu)的大模型,具備極強的擴展性與落地性,能夠顯著降低長上下文大模型的硬件門檻、推理成本與部署難度,全面提升推理效率與用戶體驗。

      目前,LCA 論文與代碼已開源,歡迎學(xué)術(shù)界與產(chǎn)業(yè)界共同推進(jìn)技術(shù)迭代與落地應(yīng)用。



      • 論文標(biāo)題:Latent-Condensed Transformer for Efficient Long Context Modeling
      • 論文鏈接:https://arxiv.org/abs/2604.12452
      • 代碼開源:https://github.com/bolixinyu/LCA
      • 作者:Zeng You, Yaofo Chen, Qiuwu Chen, Ying Sun, Shuhai Zhang, Yingjian Li, Yaowei Wang, Mingkui Tan
      • 機構(gòu):琶洲實驗室、華南理工大學(xué)、蔻町(AIGCode)等單位

      一、當(dāng)大模型遇到長文本:兩大痛點待解決

      在使用 DeepSeek、Qwen 等大語言模型處理長文檔、進(jìn)行深度對話時,我們常常遇到兩個令人頭疼的問題:

      • 痛點一:顯存占用太多。模型處理長文本時,需要存儲大量中間信息(KV 緩存,相當(dāng)于 AI 的「記憶」),導(dǎo)致顯存占用隨文本長度線性增加。處理一篇萬字文檔?可能需要數(shù) GB 顯存!這不僅對硬件要求高,也讓成本直線上升。
      • 痛點二:速度跑不起來。傳統(tǒng)的注意力機制計算量隨文本長度呈平方增長,就像讓一個人同時記住整本書再進(jìn)行思考:不僅大腦負(fù)擔(dān)重(顯存占用大),思考速度也會明顯下降(計算復(fù)雜度高)。長文本處理變成「耐心測試」。

      二、現(xiàn)有方案為何「治標(biāo)不治本」?

      為了應(yīng)對這些挑戰(zhàn),先前的研究提出了兩條技術(shù)路線:

      • 多頭潛在注意力(MLA):DeepSeek 采用的技術(shù),其將 token 投影到低維潛在空間,顯著減少每個 token 的 KV 緩存大小。
      • 稀疏注意力:通過跳過部分 Attention 計算塊來降低計算復(fù)雜度。

      然而,現(xiàn)有方案往往「顧此失彼」。MLA 成功省下了顯存,卻未能擺脫計算量隨上下文平方級增長的困境;稀疏注意力雖能跳過冗余計算,卻依賴完整的 Q/K/V 矩陣。如果強行將兩者拼湊,就必須先把 MLA 壓縮的數(shù)據(jù)「解壓」還原,無異于「先壓縮再解壓」,白白浪費了 MLA 輕量化設(shè)計的紅利。

      在長上下文高效注意力領(lǐng)域,近期業(yè)界也提出了多項優(yōu)秀方案,如 DeepSeek 發(fā)布的稀疏注意力(DSA)和 Kimi 提出的 KDA。但與這些方法相比,LCA 在技術(shù)設(shè)計上具有三個關(guān)鍵差異點:



      三、LCA:智能壓縮的新思路



      圖 1. LCA 架構(gòu)示意圖

      為了解決上述問題,本文提出潛在空間壓縮注意力(Latent-Condensed Attention,LCA),如圖 1 所示。LCA 的核心思想是:直接在 MLA 的「壓縮空間」中進(jìn)行信息精簡,而不是先解壓再篩選。

      1. 關(guān)鍵信息壓縮三步走

      • 第一步:智能分組

      將長文本分成多個小組,每個小組 16 個 token。最近 1024 個 token 會完整保留,確保最新信息不丟失細(xì)節(jié)。

      • 第二步:語義壓縮

      采用「智能加權(quán)」方法:根據(jù)當(dāng)前查詢的重要性,對組內(nèi)信息進(jìn)行加權(quán)合并,突出最相關(guān)的內(nèi)容。就像根據(jù)考試重點做筆記,重點內(nèi)容更詳細(xì)。具體而言,對于每個分組內(nèi)的語義潛在向量,LCA 采用加權(quán)池化的方式生成一個代表性向量:





      • 第三步:位置錨定(像在書中貼索引標(biāo)簽)

      對于位置鍵向量,選擇每個組中注意力得分最高的 token 作為「位置錨點」:





      2. 保留細(xì)粒度局部上下文

      除了長距離上下文的壓縮外,LCA 還保留一個局部窗口(默認(rèn) 1024 個 token)的完整潛在向量,確保最近的關(guān)鍵信息不被壓縮,維持模型對局部細(xì)節(jié)的敏感性。

      3. 理論保證:長度無關(guān)的誤差上界

      本文從理論上證明了 LCA 的近似誤差具有與上下文長度無關(guān)的均勻上界:





      四、實驗效果

      1. 效率提升



      圖 2. Triton 內(nèi)核加速效果對比

      作者通過 Triton 進(jìn)行了硬件友好的高效實現(xiàn),相比 PyTorch 實現(xiàn),在 64K 上下文能夠?qū)崿F(xiàn) 24.4 倍加速。



      圖 3. 不同上下文長度下的效率表現(xiàn)

      在 128K 上下文長度下,高效 LCA 相比原始 MLA 實現(xiàn)了 2.5 倍預(yù)填充加速,減少了 90% KV 緩存,每 token 解碼延遲降低 1.8 倍。

      2. 長上下文性能保持



      長上下文基準(zhǔn)測試性能對比

      在 LongBench-E、RULER 等長上下文基準(zhǔn)測試中,LCA 在獲得顯著效率提升的同時,保持了與原始 MLA 相當(dāng)?shù)男阅堋F渲?LongBench-E 性能與標(biāo)準(zhǔn) MLA 幾乎持平,RULER 128K 結(jié)果上甚至略有提升。

      3. 短上下文任務(wù)無損



      短上下文標(biāo)準(zhǔn)任務(wù)性能對比

      在 MMLU、GSM8K、MBPP 等短上下文標(biāo)準(zhǔn)測試中,LCA 的性能與原始 MLA 幾乎相同,表明其壓縮機制不會損害模型的基礎(chǔ)能力。

      4. 兼容不同模型規(guī)模



      MiniCPM3-4B 模型擴展性驗證

      LCA 在 MiniCPM3-4B 模型上同樣有效,實現(xiàn) 2.2 倍預(yù)填充加速和 93% KV 緩存減少,驗證了其在不同規(guī)模模型上的通用性。

      5. 適配其他注意力變體



      GQA 架構(gòu)適配驗證

      LCA 的設(shè)計不依賴于 MLA,可推廣到其他注意力機制。實驗表明,將其適配到分組查詢注意力(GQA)后,在 DeepSeek-R1-Distill-Qwen-7B 模型上仍能實現(xiàn) 3.25 倍推理加速和 93% 緩存減少。

      五、實際意義

      LCA 為長上下文 LLM 的實際部署提供了重要支持:

      • 減少部署成本:無需增加任何額外參數(shù)和模塊,即插即用替換現(xiàn)有模型中的 MLA/GQA 模塊。
      • 降低硬件門檻:減少 90% 的 KV 緩存意味著在相同顯存下可處理數(shù)倍長的上下文。
      • 提升響應(yīng)速度:2.5 倍的預(yù)填充加速顯著改善用戶體驗,特別是在需要實時交互的應(yīng)用中。
      • 保持模型能力:在獲得效率提升的同時,不犧牲模型在各類任務(wù)上的性能。

      六、總結(jié)

      LCA 通過直接在潛在空間進(jìn)行上下文壓縮,巧妙地將 KV 緩存減少與計算復(fù)雜度降低統(tǒng)一到一個框架中。其解耦的語義-位置處理策略、理論保證的近似誤差界,以及廣泛的實驗驗證,使其成為長上下文高效建模的一個有力解決方案。這項工作已被 ACL 2026 接收,期待更多研究者與開發(fā)者在此基礎(chǔ)上進(jìn)一步推動長上下文技術(shù)的發(fā)展。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

      丹麥男友去世后,東北姑娘仍為他生下遺腹子,還為了公婆定居丹麥

      星星沒有你亮
      2026-03-22 08:48:35
      DeepSeek升級,氣到了黃仁勛

      DeepSeek升級,氣到了黃仁勛

      金錯刀
      2026-04-27 15:18:59
      1950年,志愿軍師長進(jìn)隧道休息,突感異常,對面山坡竟有大片帳篷

      1950年,志愿軍師長進(jìn)隧道休息,突感異常,對面山坡竟有大片帳篷

      浩渺青史
      2026-04-19 15:54:31
      炸裂!家長因孩子考差懟班主任,納稅人請你教孩子,考不好要道歉

      炸裂!家長因孩子考差懟班主任,納稅人請你教孩子,考不好要道歉

      火山詩話
      2026-04-27 11:14:53
      重大讓步!伊朗直接交出海峽控制權(quán),就換美國解封停戰(zhàn)!

      重大讓步!伊朗直接交出海峽控制權(quán),就換美國解封停戰(zhàn)!

      短發(fā)過這夏
      2026-04-29 05:49:01
      大局已定!上海未來發(fā)展布局清晰,這4大區(qū)域被列為優(yōu)先重點發(fā)展對象!

      大局已定!上海未來發(fā)展布局清晰,這4大區(qū)域被列為優(yōu)先重點發(fā)展對象!

      次元君情感
      2026-04-29 07:31:02
      主場輸廣州!杜鋒“哼哈二將”合砍0分,球迷:你倆想做掉書記?

      主場輸廣州!杜鋒“哼哈二將”合砍0分,球迷:你倆想做掉書記?

      弄月公子
      2026-04-28 22:02:39
      他讓我把內(nèi)褲脫了,女子針灸被要求脫內(nèi)褲,還說她結(jié)過婚不要拘謹(jǐn)

      他讓我把內(nèi)褲脫了,女子針灸被要求脫內(nèi)褲,還說她結(jié)過婚不要拘謹(jǐn)

      江山揮筆
      2026-04-28 17:10:17
      格力集團原董事長周樂偉主動投案,涉嫌嚴(yán)重違紀(jì)違法被查

      格力集團原董事長周樂偉主動投案,涉嫌嚴(yán)重違紀(jì)違法被查

      界面新聞
      2026-04-29 12:55:05
      青春艙成北上廣企業(yè)標(biāo)配?一臺高達(dá)40萬,業(yè)內(nèi):多被老板們買走

      青春艙成北上廣企業(yè)標(biāo)配?一臺高達(dá)40萬,業(yè)內(nèi):多被老板們買走

      胖福的小木屋
      2026-04-28 14:19:43
      德國總理默茨罕見開炮:美國被伊朗“羞辱”,烏克蘭入盟夢該醒了

      德國總理默茨罕見開炮:美國被伊朗“羞辱”,烏克蘭入盟夢該醒了

      墜入二次元的海洋
      2026-04-28 14:05:15
      亨利:整賽季阿森納都沒踢攻勢足球,你指望戰(zhàn)馬競能踢出來?

      亨利:整賽季阿森納都沒踢攻勢足球,你指望戰(zhàn)馬競能踢出來?

      懂球帝
      2026-04-29 07:55:07
      對轟9球 歐冠史詩級1戰(zhàn)遭名嘴嘲諷:防線如篩子 決賽會被槍手拖垮

      對轟9球 歐冠史詩級1戰(zhàn)遭名嘴嘲諷:防線如篩子 決賽會被槍手拖垮

      我愛英超
      2026-04-29 06:56:23
      湖北再迎中雨大雨,“五一”最新天氣預(yù)報來了!

      湖北再迎中雨大雨,“五一”最新天氣預(yù)報來了!

      湖北e家庭
      2026-04-29 12:04:11
      張柱任農(nóng)業(yè)農(nóng)村部黨組書記

      張柱任農(nóng)業(yè)農(nóng)村部黨組書記

      界面新聞
      2026-04-28 20:57:23
      “望月鱔劇毒,誤食必死”,望月鱔比毒蛇還要毒?什么是望月鱔?你們有遇到過嗎?

      “望月鱔劇毒,誤食必死”,望月鱔比毒蛇還要毒?什么是望月鱔?你們有遇到過嗎?

      農(nóng)夫也瘋狂
      2026-04-26 11:01:20
      當(dāng)著日本航母的面,055射了一枚導(dǎo)彈,美國反導(dǎo)體系沉默了

      當(dāng)著日本航母的面,055射了一枚導(dǎo)彈,美國反導(dǎo)體系沉默了

      看過人間的月色
      2026-04-27 08:33:11
      4比1!馬刺淘汰開拓者!再見了,楊瀚森

      4比1!馬刺淘汰開拓者!再見了,楊瀚森

      籃球教學(xué)論壇
      2026-04-29 12:59:58
      55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

      55歲"紙片人"魯豫,與小19歲男友同居后變樣,如今她令人大跌眼鏡

      觀察鑒娛
      2026-04-17 09:43:01
      你遇到過哪些驚為天人的人物?網(wǎng)友:啟動一小時休眠一整天

      你遇到過哪些驚為天人的人物?網(wǎng)友:啟動一小時休眠一整天

      夜深愛雜談
      2026-03-20 19:32:42
      2026-04-29 13:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12887文章數(shù) 142639關(guān)注度
      往期回顧 全部

      科技要聞

      夭折的造富神話,逼著中國AI回去賺"慢錢"

      頭條要聞

      競拍者叫價6003萬搶高端別墅悔拍 758萬保證金打水漂

      頭條要聞

      競拍者叫價6003萬搶高端別墅悔拍 758萬保證金打水漂

      體育要聞

      巴黎5-4拜仁夜:身價1.55億的“足壇笑話”,成了最硬的底牌

      娛樂要聞

      單依純演唱會再唱“區(qū)區(qū)三萬天”宣戰(zhàn)

      財經(jīng)要聞

      多地藥店違規(guī)串換商品套刷醫(yī)保揭秘

      汽車要聞

      配32寸升降屏 新款別克世紀(jì)CENTURY上市53.99萬起

      態(tài)度原創(chuàng)

      教育
      房產(chǎn)
      本地
      親子
      手機

      教育要聞

      高三英語保持130分,分?jǐn)?shù)逆襲沒有捷徑

      房產(chǎn)要聞

      80億投資!浙商總部基地+海口北站,金沙灣這是要起飛啊!

      本地新聞

      用青花瓷的方式,打開西溪濕地

      親子要聞

      雙胞胎小宇宙,記錄真實生活

      手機要聞

      谷歌Pixel 11系列手機Tensor G6芯片爆料:7核CPU

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品VA尤物在线观看| 久久福利电影| 日韩美女乱淫试看视频多人| 亚洲欧洲日产国码无码久久99| 屄视频| 亚洲自拍成人| 日本高清在线播放一区二区三区 | 亚洲熟妇夜夜一区二区三区| 国产无套精品一区二区三区| 多p在线观看| 欧美成人综合色| 亚洲av无码牛牛影视在线二区| 视频一区视频二区在线视频| 久久96热在精品国产高清| 国产免费的野战视频| 夜夜春夜夜爽| 内丘县| 日本强伦片中文字幕免费看| 91久久精品视频| 亚洲一区二区三区播放| av女人的天堂| 中国不卡一区| 99久久机热/这里只有精品| 精品午夜福利1000在线观看| 国产av无码专区亚洲aⅴ| 成人免费午夜无码视频| 超碰色偷偷男人的天堂| 国产亚洲精品VA片在线播放| 亚洲日韩国产中文其他| 龙陵县| 波多野结衣在线播放| 国产亚洲视频在线观看| 国产麻花豆剧传媒精品mv在线| 在线观看日韩av| 亚洲黄色精品| 久久熟女| a级免费视频| 亚洲人成人网站色www| 奇骏影院在线观看免费版| 欧美熟妇| 伊人久久久大香线蕉综合直播|