<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      32倍壓縮率下性能反超25個點!破解長文本壓縮「翻車」難題

      0
      分享至

      COMI團隊 投稿
      量子位 | 公眾號 QbitAI

      為什么現有上下文壓縮方法在高壓縮率下集體“翻車”?當模型把32K長文本壓到1K,為何性能斷崖式下跌?

      長文本壓縮中容易保留大量“高度相似卻重復”的內容,陷入“信息內卷”:看似保留了相關片段,實則堆砌了語義雷同的冗余token,反而誤導模型生成錯誤答案。



      來自阿里巴巴未來生活實驗室的研究團隊發現,這背后是壓縮目標的根本錯位:現有方法只關注“相關性”,卻忽略了“多樣性”。當多個高度相似的token同時被保留,它們非但不能疊加信息量,反而會相互干擾(相關不等于正確),讓模型在高度相似的冗余信息中迷失方向。

      為破解這一困局,研究團隊提出一個顛覆性觀點:高質量的壓縮,需要同時優化“與查詢的相關性”和“信息單元間的多樣性”。基于此,他們推出創新框架COMI(COarse-to-fine context compression via Marginal Information Gain),通過“邊際信息增益”指標與粗到細壓縮策略,在32倍高壓縮率下仍能精準保留多樣化的關鍵證據鏈,論文已中稿ICLR 2026。

      壓縮的“智能標尺”:邊際信息增益(MIG)

      研究團隊發現,現有壓縮方法存在盲區:過度依賴相關性導致冗余堆積,而忽略了token間語義相似性引發“信息內卷”。為此,他們使用邊際信息增益(MIG)指標,將壓縮決策從“單維度相關性”升級為“相關性-冗余性”雙維度權衡:

      MIG = 本單元與查詢的相關性 - 與其他單元的最大相似度

      這一指標如同為每個token配備“信息價值計分卡”:既獎勵與問題高度相關的片段,又懲罰與已選內容高度重復的片段。

      粗到細自適應壓縮,讓每比特都“物有所值”



      有了智能標尺,如何實現精準壓縮?COMI采用兩階段策略,像經驗豐富的編輯一樣“先謀篇布局,再精雕細琢”

      第一階段:粗粒度組重分配——動態調配“壓縮預算”

      將長文本劃分為等長片段后,COMI不再“一刀切”地均勻壓縮,而是基于組間MIG動態調整各段壓縮率:信息密度高、冗余度低的片段(如包含關鍵證據的段落)獲得更寬松的壓縮率;而信息稀疏或高度重復的區域則被大幅壓縮。這種自適應分配確保有限的壓縮預算精準投向“高價值信息區”

      第二階段:細粒度token融合——加權融合避免“信息稀釋”

      在每個片段內部,COMI根據token級MIG進行加權融合:高MIG token(相關且獨特)在融合中占主導權重,低MIG token(冗余重復)被自然稀釋。這一機制有效避免了傳統平均池化導致的“關鍵細節被平滑掉”的問題,使壓縮后的表示既緊湊又富含多樣化信息



      整個框架在NaturalQuestions、HotpotQA等5個數據集上僅需單次訓練,即可執行問答、摘要等多種長上下文任務。

      實踐出真知:高壓縮率下的優越性能與深刻洞察

      下游任務表現卓越

      在32倍壓縮約束下,COMI以Qwen2-7B為基座,在NaturalQuestions上實現49.15的Exact Match(EM)分數,比次優基線高出近25個點。即使面對32K超長文本(NarrativeQA),COMI仍能穩定保留推理鏈關鍵節點,證明其在極端壓縮場景下的魯棒性。



      壓縮不是“刪減”,而是“提純”

      COMI甚至能提升原生支持256K上下文的Qwen3-4B性能。在NaturalQuestions上,32倍壓縮后的COMI達到28.89的F1分數,遠超直接輸入完整上下文的16.90。這證明高質量壓縮不僅是“減負”,更是通過消除冗余干擾實現“信息提純”,讓模型更聚焦于核心證據。



      效率與效果兼得

      在32倍壓縮下,COMI實現端到端推理速度2倍以上提升,且壓縮階段僅引入輕量級開銷(NarrativeQA任務中壓縮耗時2.76秒,生成僅0.50秒),為工業級部署鋪平道路。



      總結

      COMI工作為長上下文高效推理提供了新范式:

      它通過邊際信息增益這一簡潔而深刻的指標,將壓縮目標從“保留相關片段”升級為“保留相關且多樣化的信息”,從根本上破解了高壓縮率下的性能瓶頸。粗到細的自適應策略則確保了壓縮過程既符合全局信息分布,又保留局部語義細節。

      這項研究證明,真正的高質量壓縮不是簡單的“刪減”——讓每一比特都承載多樣化的信息價值,為大模型走向輕量化、實用化邁出關鍵一步。

      論文標題:
      COMI: Coarse-to-fine Context Compression via Marginal Information Gain
      論文鏈接:
      https://arxiv.org/abs/2602.01719
      代碼鏈接:
      https://github.com/Twilightaaa/COMI

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “沒屋頂才是有錢人標配”,大小姐跳舞視頻火了,普通人看清現實

      “沒屋頂才是有錢人標配”,大小姐跳舞視頻火了,普通人看清現實

      妍妍教育日記
      2026-03-09 17:40:44
      蘭州:吃了一碗廉價牛肉面,我看到西方酒店業的末日

      蘭州:吃了一碗廉價牛肉面,我看到西方酒店業的末日

      茶狐看世界本尊
      2026-03-09 18:53:34
      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      美媒感慨:若不是中國還在反抗特朗普,幾乎全世界都向他投降了

      薦史
      2026-03-09 22:48:36
      釋放壓力!張琳艷賽后落淚令人動容:下一場大概率對陣中國臺北

      釋放壓力!張琳艷賽后落淚令人動容:下一場大概率對陣中國臺北

      邱澤云
      2026-03-09 19:51:38
      農業農村部部長喊話全國人:少吃點油!你家吃對了嗎?

      農業農村部部長喊話全國人:少吃點油!你家吃對了嗎?

      達文西看世界
      2026-03-09 21:09:29
      最高法:依法懲處唐仁健、羅保銘等57名原中管干部

      最高法:依法懲處唐仁健、羅保銘等57名原中管干部

      極目新聞
      2026-03-09 10:15:54
      小時候挨過的打沒有一頓是白挨的!網友:俺不中了,笑的肚子疼

      小時候挨過的打沒有一頓是白挨的!網友:俺不中了,笑的肚子疼

      帶你感受人間冷暖
      2026-03-07 22:36:06
      潑螺螄粉湯女子全網社死!處罰結果曝光,身份被扒,家人也遭連累

      潑螺螄粉湯女子全網社死!處罰結果曝光,身份被扒,家人也遭連累

      米師傅安裝
      2026-03-09 11:38:48
      今日油價突變:國內油價大幅上調695元/噸!3月10日柴油汽油價格

      今日油價突變:國內油價大幅上調695元/噸!3月10日柴油汽油價格

      有料財經
      2026-03-10 00:26:12
      爭議!前國乒名將分手后遭女友痛斥:太狠心太絕情 不想跟著你縫縫補補

      爭議!前國乒名將分手后遭女友痛斥:太狠心太絕情 不想跟著你縫縫補補

      陳意小可愛
      2026-03-09 17:20:04
      消息稱前阿里副總裁任庚將創業,搭檔前理想智駕一號位郎咸朋

      消息稱前阿里副總裁任庚將創業,搭檔前理想智駕一號位郎咸朋

      IT之家
      2026-03-09 17:36:07
      實控人夫婦廣東梅州出身,去年曾套現超3億元,兆威機電創始人李海周:堅持全球布局

      實控人夫婦廣東梅州出身,去年曾套現超3億元,兆威機電創始人李海周:堅持全球布局

      每日經濟新聞
      2026-03-09 15:07:11
      恐怖14-0,亞足聯認證!中國女足逆轉僅1天,1/4決賽對手幾乎確定

      恐怖14-0,亞足聯認證!中國女足逆轉僅1天,1/4決賽對手幾乎確定

      郝小小看體育
      2026-03-10 04:50:15
      富商馬清鏗67歲生日,情婦高調慶生,兩人5年生4子女,原配很沉默

      富商馬清鏗67歲生日,情婦高調慶生,兩人5年生4子女,原配很沉默

      嫹筆牂牂
      2026-03-03 07:10:52
      法國財長稱G7尚未就釋放石油儲備達成共識 WTI原油期貨短線拉升漲超14%

      法國財長稱G7尚未就釋放石油儲備達成共識 WTI原油期貨短線拉升漲超14%

      財聯社
      2026-03-09 22:12:07
      以軍說對伊朗發動新一輪大范圍打擊

      以軍說對伊朗發動新一輪大范圍打擊

      財聯社
      2026-03-09 19:40:48
      蘇聯“人猿雜交”實驗:5名女孩與11只猩猩參與,結局如何?

      蘇聯“人猿雜交”實驗:5名女孩與11只猩猩參與,結局如何?

      談史論天地
      2026-02-28 13:35:18
      特朗普現在最恨誰?不是哈梅內伊,不是佩澤希齊揚,而是一個女人

      特朗普現在最恨誰?不是哈梅內伊,不是佩澤希齊揚,而是一個女人

      南權先生
      2026-03-09 15:45:16
      兒子問我“伊朗為什么總在打仗?”我給他看了這個9歲女孩的故事

      兒子問我“伊朗為什么總在打仗?”我給他看了這個9歲女孩的故事

      媽咪OK
      2026-03-09 10:48:52
      38:51!歐爾班斷崖式落后,匈牙利要巨變,澤連斯基迎來興奮時刻

      38:51!歐爾班斷崖式落后,匈牙利要巨變,澤連斯基迎來興奮時刻

      健身狂人
      2026-03-09 16:50:02
      2026-03-10 06:39:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12253文章數 176412關注度
      往期回顧 全部

      科技要聞

      OpenClaw更新,"養蝦"再也不會犯健忘癥了

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      體育要聞

      36連勝終結!大魔王也是可以戰勝的

      娛樂要聞

      薛之謙老婆懷二胎,現身產檢心情愉快

      財經要聞

      油價破100美元年內漲80% 全球市場劇震

      汽車要聞

      對標奔馳小號G級 路虎小型衛士最新消息曝光

      態度原創

      游戲
      手機
      教育
      家居
      健康

      《怪物獵人物語3:命運雙龍》深度評測:“決絕”的JRPG單人體驗

      手機要聞

      消息稱某廠母系旗艦在評估1.5K+165Hz超高刷,預計為OPPO

      教育要聞

      大家評論區聊一聊情感共鳴家庭教育情感困惑

      家居要聞

      獨棟獨院 精致親子墅

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版