<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      32倍壓縮率下性能反超25個點!破解長文本壓縮「翻車」難題

      0
      分享至

      COMI團隊 投稿
      量子位 | 公眾號 QbitAI

      為什么現有上下文壓縮方法在高壓縮率下集體“翻車”?當模型把32K長文本壓到1K,為何性能斷崖式下跌?

      長文本壓縮中容易保留大量“高度相似卻重復”的內容,陷入“信息內卷”:看似保留了相關片段,實則堆砌了語義雷同的冗余token,反而誤導模型生成錯誤答案。



      來自阿里巴巴未來生活實驗室的研究團隊發現,這背后是壓縮目標的根本錯位:現有方法只關注“相關性”,卻忽略了“多樣性”。當多個高度相似的token同時被保留,它們非但不能疊加信息量,反而會相互干擾(相關不等于正確),讓模型在高度相似的冗余信息中迷失方向。

      為破解這一困局,研究團隊提出一個顛覆性觀點:高質量的壓縮,需要同時優化“與查詢的相關性”和“信息單元間的多樣性”。基于此,他們推出創新框架COMI(COarse-to-fine context compression via Marginal Information Gain),通過“邊際信息增益”指標與粗到細壓縮策略,在32倍高壓縮率下仍能精準保留多樣化的關鍵證據鏈,論文已中稿ICLR 2026。

      壓縮的“智能標尺”:邊際信息增益(MIG)

      研究團隊發現,現有壓縮方法存在盲區:過度依賴相關性導致冗余堆積,而忽略了token間語義相似性引發“信息內卷”。為此,他們使用邊際信息增益(MIG)指標,將壓縮決策從“單維度相關性”升級為“相關性-冗余性”雙維度權衡:

      MIG = 本單元與查詢的相關性 - 與其他單元的最大相似度

      這一指標如同為每個token配備“信息價值計分卡”:既獎勵與問題高度相關的片段,又懲罰與已選內容高度重復的片段。

      粗到細自適應壓縮,讓每比特都“物有所值”



      有了智能標尺,如何實現精準壓縮?COMI采用兩階段策略,像經驗豐富的編輯一樣“先謀篇布局,再精雕細琢”

      第一階段:粗粒度組重分配——動態調配“壓縮預算”

      將長文本劃分為等長片段后,COMI不再“一刀切”地均勻壓縮,而是基于組間MIG動態調整各段壓縮率:信息密度高、冗余度低的片段(如包含關鍵證據的段落)獲得更寬松的壓縮率;而信息稀疏或高度重復的區域則被大幅壓縮。這種自適應分配確保有限的壓縮預算精準投向“高價值信息區”

      第二階段:細粒度token融合——加權融合避免“信息稀釋”

      在每個片段內部,COMI根據token級MIG進行加權融合:高MIG token(相關且獨特)在融合中占主導權重,低MIG token(冗余重復)被自然稀釋。這一機制有效避免了傳統平均池化導致的“關鍵細節被平滑掉”的問題,使壓縮后的表示既緊湊又富含多樣化信息



      整個框架在NaturalQuestions、HotpotQA等5個數據集上僅需單次訓練,即可執行問答、摘要等多種長上下文任務。

      實踐出真知:高壓縮率下的優越性能與深刻洞察

      下游任務表現卓越

      在32倍壓縮約束下,COMI以Qwen2-7B為基座,在NaturalQuestions上實現49.15的Exact Match(EM)分數,比次優基線高出近25個點。即使面對32K超長文本(NarrativeQA),COMI仍能穩定保留推理鏈關鍵節點,證明其在極端壓縮場景下的魯棒性。



      壓縮不是“刪減”,而是“提純”

      COMI甚至能提升原生支持256K上下文的Qwen3-4B性能。在NaturalQuestions上,32倍壓縮后的COMI達到28.89的F1分數,遠超直接輸入完整上下文的16.90。這證明高質量壓縮不僅是“減負”,更是通過消除冗余干擾實現“信息提純”,讓模型更聚焦于核心證據。



      效率與效果兼得

      在32倍壓縮下,COMI實現端到端推理速度2倍以上提升,且壓縮階段僅引入輕量級開銷(NarrativeQA任務中壓縮耗時2.76秒,生成僅0.50秒),為工業級部署鋪平道路。



      總結

      COMI工作為長上下文高效推理提供了新范式:

      它通過邊際信息增益這一簡潔而深刻的指標,將壓縮目標從“保留相關片段”升級為“保留相關且多樣化的信息”,從根本上破解了高壓縮率下的性能瓶頸。粗到細的自適應策略則確保了壓縮過程既符合全局信息分布,又保留局部語義細節。

      這項研究證明,真正的高質量壓縮不是簡單的“刪減”——讓每一比特都承載多樣化的信息價值,為大模型走向輕量化、實用化邁出關鍵一步。

      論文標題:
      COMI: Coarse-to-fine Context Compression via Marginal Information Gain
      論文鏈接:
      https://arxiv.org/abs/2602.01719
      代碼鏈接:
      https://github.com/Twilightaaa/COMI

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      郭士強選焦泊喬,拋棄徐昕!為何?分析有三個方面的原因

      郭士強選焦泊喬,拋棄徐昕!為何?分析有三個方面的原因

      體育哲人
      2026-02-23 13:27:03
      超越巴西,阿根廷隊成為世界上品牌價值最強的國家隊

      超越巴西,阿根廷隊成為世界上品牌價值最強的國家隊

      懂球帝
      2026-02-23 16:40:23
      正月初六高速堵瘋!7100萬輛車齊上路,電車車主直接崩潰

      正月初六高速堵瘋!7100萬輛車齊上路,電車車主直接崩潰

      傾聽風語
      2026-02-23 22:51:58
      最強天然大身材的她還是個球迷!

      最強天然大身材的她還是個球迷!

      碧波萬覽
      2026-02-13 03:40:07
      別眨眼!上海2550億大動作啟動,影響每一個人

      別眨眼!上海2550億大動作啟動,影響每一個人

      匹夫來搞笑
      2026-02-23 19:33:12
      俞敏洪:當你的孩子不尊重你、不理你時,不必翻臉,只需“烏鴉定律”就夠了,這樣處理才是有水平……

      俞敏洪:當你的孩子不尊重你、不理你時,不必翻臉,只需“烏鴉定律”就夠了,這樣處理才是有水平……

      喬話
      2026-02-20 19:34:42
      中國創造5000公里絕殺航母奇跡,美俄望塵莫及

      中國創造5000公里絕殺航母奇跡,美俄望塵莫及

      聚焦熱點內幕
      2026-02-22 09:14:03
      美國專家稱:崛起的中國并不可怕,真正可怕的是他們從來不會提及自身血統

      美國專家稱:崛起的中國并不可怕,真正可怕的是他們從來不會提及自身血統

      文史明鑒
      2026-01-29 20:01:08
      田震再次掛牌悉尼豪宅, 指導價$1550萬! 10年前$1165萬購入, 內部曝光, 曾降價$400萬

      田震再次掛牌悉尼豪宅, 指導價$1550萬! 10年前$1165萬購入, 內部曝光, 曾降價$400萬

      澳微Daily
      2026-02-23 14:46:03
      一個中年女人的心里話:出軌女人怕的不是離婚,而是下面三件事

      一個中年女人的心里話:出軌女人怕的不是離婚,而是下面三件事

      葉飛飛情感屋
      2026-02-17 20:04:38
      我國歷史上唯一一次大規模發放槍支,幾千萬支步槍配發給老百姓

      我國歷史上唯一一次大規模發放槍支,幾千萬支步槍配發給老百姓

      優趣紀史記
      2026-02-02 22:17:45
      《驚蟄無聲》朱一龍的性暗示,被張藝謀處理過,但看懂了后背發涼

      《驚蟄無聲》朱一龍的性暗示,被張藝謀處理過,但看懂了后背發涼

      觀察鑒娛
      2026-02-21 10:43:43
      別驚訝,你穿的運動大牌,也許就出自這個遼寧小鎮

      別驚訝,你穿的運動大牌,也許就出自這個遼寧小鎮

      遼寧衛視
      2026-02-23 09:34:24
      女子申請五筆網貸,400元要分36期,被“迷你貸”壓垮,停止還款逾期1000天

      女子申請五筆網貸,400元要分36期,被“迷你貸”壓垮,停止還款逾期1000天

      大風新聞
      2026-02-22 16:38:04
      42歲小尼新疆家宴曝光!8道菜不見一片綠葉菜太真實!

      42歲小尼新疆家宴曝光!8道菜不見一片綠葉菜太真實!

      東方不敗然多多
      2026-02-22 15:32:45
      谷愛凌奪金,美國政客酸了,童年照直接打臉:她本來就屬于中國

      谷愛凌奪金,美國政客酸了,童年照直接打臉:她本來就屬于中國

      科學發掘
      2026-02-23 22:14:16
      神仙打架!不止胖東來,河南商超五虎+豫超四小龍,撐起中原商超半邊天!

      神仙打架!不止胖東來,河南商超五虎+豫超四小龍,撐起中原商超半邊天!

      中國零售信息
      2026-02-23 21:00:13
      《鏢人2》主角換人!去年已備案,啥時候拍?吳京終于說了大實話

      《鏢人2》主角換人!去年已備案,啥時候拍?吳京終于說了大實話

      手工制作阿殲
      2026-02-23 08:43:41
      56歲王菲香港中環被偶遇!素顏啃冰激凌超清爽,無濾鏡狀態絕了

      56歲王菲香港中環被偶遇!素顏啃冰激凌超清爽,無濾鏡狀態絕了

      老吳教育課堂
      2026-02-22 09:34:44
      Coco說她很懷念在香港的日子,很懷念和謝賢在一起的12年

      Coco說她很懷念在香港的日子,很懷念和謝賢在一起的12年

      西樓知趣雜談
      2026-02-19 21:09:49
      2026-02-24 00:56:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12192文章數 176390關注度
      往期回顧 全部

      科技要聞

      智譜、MiniMax合計蒸發近千億市值,為何?

      頭條要聞

      特朗普2年遭4次刺殺威脅 持槍闖海湖莊園男子身份確認

      頭條要聞

      特朗普2年遭4次刺殺威脅 持槍闖海湖莊園男子身份確認

      體育要聞

      哈登版騎士首敗:雷霆的冠軍課

      娛樂要聞

      那藝娜賬號被禁止關注,視頻已清空!

      財經要聞

      美國海關將停止征收被裁定違法的關稅

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      旅游
      時尚
      教育
      親子
      健康

      旅游要聞

      文化中國行|在祖國最北的地方 過溫暖團圓年

      今年春天一定要擁有的針織,這樣穿減齡又好看!

      教育要聞

      現在的家長只敢舉報老師,學校違規辦學他們屁都不敢吭一聲!

      親子要聞

      孩子長得慢長得矮,查查這四項

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版