網易首頁 > 網易號 > 正文申請入駐

百萬 Token 也能無損壓縮？C3 模型用“級聯壓縮”重新定義長上下文挑戰

2025-11-28 14:35:20　來源: AI科技大本營

北京舉報

分享至

【編者按】百萬級別 Token 的輸入，正在成為大型語言模型（LLMs）長上下文任務中的計算與內存“噩夢”。DeepSeekOCR 憑借“上下文光學壓縮”技術實現了 10 倍 Token 壓縮率，引發全網熱議。但透過現象看本質，高壓縮率的秘密，真的在于“圖像化”嗎？

作者 |劉帆帆

出品丨作者投稿

DeepSeekOCR 的成功讓許多人誤以為“視覺編碼”是壓縮的關鍵。然而，研究團隊經過深入分析發現，高壓縮率的核心其實源自 Latent Tokens（潛在 Token）本身——這是一種比離散文本 Token 更高效、密度更高的信息載體。

基于這一洞察，作者所在的研究團隊提出了一種直擊本質的全新路徑：Context Cascade Compression (C3，上下文級聯壓縮)。

將兩種路徑進行對比：

DeepSeek OCR 路徑：文本 → 圖像 → 視覺 Token → 語言模型（引入了布局、噪點、視覺編碼器等無關干擾）
C3 路徑：文本 → 文本 Latent Tokens → 語言模型（純粹、無損、直接）

具體來說，一個小型 LLM 作為第一級，通過將長上下文壓縮成一組潛在 token（例如，長度為 32 或 64），實現高比例的文本 token 到潛在 token 的壓縮。一個大型 LLM 作為第二級，然后對這個壓縮的上下文執行解碼任務。

這一設計也驗證了近期熱門論文《LANGUAGE MODELS ARE INJECTIVE AND HENCE INVERTIBLE》中關于「LLM 本質是無損壓縮」的論斷。

實驗表明，在 20 倍壓縮比（文本 token 數量是潛在 token 數量的 20 倍）下，C3 實現了 98% 的解碼準確率，而 DeepSeek OCR 大約為60%。當我們進一步將壓縮比增加到 40 倍時，準確率仍保持在約 93%。這表明在上下文壓縮領域，C3 壓縮比光學字符壓縮展示了更優越的性能和可行性。

目前模型與代碼現已開源：

原文：https://arxiv.org/pdf/2511.15244
代碼：https://github.com/liufanfanlff/C3-Context-Cascade-Compression
模型：https://huggingface.co/liufanfanlff/C3-Context-Cascade-Compression

架構

在介紹 C3 之前，先帶大家來了解一下 DeepSeek-OCR 的工作原理。DeepSeek-OCR 采用了一種創新的"視覺壓縮"思路，這種方法的優勢在于利用了視覺編碼器強大的特征提取能力，但也面臨著圖像布局復雜性、低分辨率下的模糊等固有限制。C3 提出了一個更直接的壓縮思路：跳過視覺中介，沒有中間商賺差價，直接在文本域進行壓縮。其核心架構包括：

1.雙 LLM 級聯設計

小型 LLM（算力消耗低）作為壓縮編碼器，壓縮上下文信息。
大型 LLM（推理生成能力強）作為解碼器執行下游任務。

2.壓縮機制

引入可學習的"上下文查詢"（Context Query）嵌入
將長文本壓縮為固定長度的潛在token（如32或64個）。
完全保留預訓練 LLM 的語言壓縮能力

性能表現

在 Fox 基準測試中，C3 展現出顯著優勢：

在約 20 倍壓縮時，C3 保持 98.4% 精度，而D eepSeek-OCR 降至59.1%
即使在極限的 40 倍壓縮率下（32 個潛在 token），C3 仍能維持 93% 以上的重建精度

獨特的"遺忘模式"：更接近人類記憶

研究還發現了 C3 的一個有趣特性：當壓縮率過高導致信息損失時，錯誤往往集中在文本末尾，呈現序列性信息衰減。這與光學壓縮方法的"全局模糊"不同，反而更類似人類記憶的漸進式遺忘過程。

這種特性使得 C3 在實際應用中更具可預測性——重要信息可以優先放置在文本前部，確保關鍵內容的完整保留。

測試

無論是在長英文文本還是中文古文上均做到了近乎完美的壓縮還原

甚至對于 LLM 一直難以處理的亂序文本也能精準還原

應用前景

1. 超長上下文處理：C3 可作為現有 LLM 的"前端壓縮器"，將百萬級 token 的輸入（如整本書籍、大型代碼庫）壓縮到可處理范圍，降低計算成本。

2. 多模態：級連輕量級 VLM 和 LLM，輕量級 VLM 作為視覺 encoder 進行信息壓縮，處理視覺信息豐富的長文檔等。

3. 下一代模型的基礎組件：C3 的編碼-解碼架構可直接應用于擴散語言模型和潛在自回歸模型，將可變長度文本轉換為固定長度潛在表示。

這是一個在有限的人力、算力與數據背景下誕生的“小而美”項目。

目前 C3 的代碼與權重開源，希望開源社區的研究者們能接過這一棒，激發出C3 的巨大潛能。

【活動推薦】2025 年是 C++ 正式發布以來的 40 周年，也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次，C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」北京現場，與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。

本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題，共同構建了一個全面而立體的知識體系，確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師，還是技術管理者——都能在這里找到自己的坐標，收獲深刻的洞見與啟發。詳情參考官網：https://cpp-summit.org/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.