
![]()
“將 Key 跟 Value Cache 按照不同的方法壓縮,可以讓模型不掉點。”
作者丨張進
編輯丨林覺民
目前,不同大模型廠商發布的大語言模型在處理超長上下文方面已經有顯著突破,最高的已能支持數百萬 Token 的輸入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百萬Token(1M)級別的超長上下文處理能力。
但是這場有關提升大模型上下文長度的“軍備賽”依然不會停止,這是一項巨大的工程與效率之戰。因為超長下文為模型智能提供了最廣闊的發揮空間——在處理如金融、法律、醫療等領域的長語境任務時表現更好。所以誰能率先突破更長上下文處理能力,便有機會創造出更大的商業與技術價值。
胡俠團隊便針對這一目標提出了一項最新研究方案——“通過有損計算(Lossy Computation)來提高大語言模型的推理效率”。這項研究的基本思路是,利用大語言模型對來自低精度計算等“有損”操作產生的噪聲具有極強魯棒性這一特點,主動引入可控的、不損害性能的信息損失,以換取顯著的效率提升。
大模型中的“有損計算”是通過有選擇地犧牲一部分精度來大幅降低計算或者存儲成本,從而提升推理效率,主要圍繞模型參數量化、KV Cache 壓縮、模型剪枝與知識蒸餾等核心路徑展開。
胡俠認為,大語言模型雖已實現類人對話能力,但在處理醫療領域長篇文獻信息提取等長語境任務時,面臨著“預訓練長度限制”與“推理內存需求激增”的雙重挑戰。
針對這兩項挑戰,團隊提出的“通過有損計算(Lossy Computation)來提高大語言模型的推理效率”方案,實現了兩項關鍵技術突破:一是在算法層面,通過粗化遠距離標記的位置信息,成功將大語言模型的語境長度擴展至原有水平的 8 倍;二是在系統層面,將過往標記的中間狀態(KV Cache)量化為 2 比特數字,實現了 8 倍內存效率的提升和 3.5 倍時鐘時間加速的重大進展。
胡俠是人工智能領域的國際知名學者,長期從事數據挖掘、機器學習和人工智能研究,目前是上海人工智能實驗室主任助理、領軍科學家,曾擔任美國萊斯大學正教授、數據科學中心主任,亦是AIPOW公司聯合創始人兼首席科學家。其主導開發的開源系統 AutoKeras 成為最常用的自動機器學習框架之一(超過 8000 次 star 及 1000 次 fork),開發的 NCF 算法及系統(單篇論文被引用超 8000 余次)成為主流人工智能框架 TensorFlow 的官方推薦系統,主導開發的異常檢測系統在通用、Trane、蘋果等公司的產品中得到廣泛應用。
![]()
胡俠
關于這兩項關鍵技術的相關細節以及應用前景,近日我們跟胡俠教授聊了聊,以下內容經過不改變原意的編輯、整理:
01
從模糊的上下文位置信息以及
模糊的 KV Cache 兩點入手做“有損計算”
雷峰網:請您先簡單介紹下"通過有損計算實現高效大語言模型推理"的具體思路?
胡俠:我們根據大語言模型對來自低精度計算等"有損操作"產生的噪聲具有極強魯棒性這一特點,主動引入可控的、不損害性能的信息損失,能夠極高地提供推理效率,實際上是用精度換取效率的思路。
我們的"有損計算"主要實施方式是兩種,一是在算法層面,不要用上下文精確的相對距離來進行計算,而是通過粗化遠距離標記的位置信息,成功將大語言模型的語境長度擴展至原來水平的 8 倍;二是在系統層面,將過去令牌的中間狀態(KV Cache)做相應的量化,量化為 2 比特數字,可以實現 8 倍內存效率提升和 3.5 倍實際速度加速,且不影響模型性能。
雷峰網:“有損計算”的靈感是否部分源于對大模型本身作為一種“有損世界壓縮器”的理論認知?
胡俠:整個方案的靈感來源于深度學習,深度學習中有兩個重要的發現。一個是模型的參數量實際上比模型的精度更重要,我們做了很多實驗,其中一堆實驗都表明相對大的模型比相對精確的模型,它的推理無論是效率還是準確度來講都更好。
第二個重要發現是在深度模型中,當我們把很多參數刪掉以后,模型的準確率損失非常小。
于是我們就想到了怎樣從模糊的上下文信息以及模糊的 KV Cache 這兩點入手做有損計算。具體舉個例子,比如我們讀書時,當我們試圖記憶上下文,比如想知道上一章出現了一個什么故事,但我們不需要知道這個故事發生在第 265 個字之前還是第 257 個字之前,我只需要知道大概兩三百個字之前出現了這么一個故事就行了。
雷峰網:您的"有損計算"方案主要通過兩種方案,其中通過粗化位置信息來擴展上下文,這種粗化策略是靜態,還是根據文本內容動態調整的?
胡俠:都不是,它實際上是根據當時上下文的需要進行動態調整的。
雷峰網:第二種方法是將 KV Cache 壓縮到 2 比特,這是一項非常激進的優化,在這個過程中您以及您團隊遇到最大的挑戰是什么?
胡俠:整個研究最大的挑戰就是壓縮到 2 比特以后,在這種低精度表示的情況下是否還能夠讓模型保持相應的準確率,所以必須通過大量實驗來解決。
雖然我們在實驗環境下壓縮到 2 比特是可行的,但在現實應用中很少有人這么做,工業界主流的優化手段例如 DeepSeek 是壓縮到 8 比特,在實際應用中壓縮到 4 比特已經非常激進了,2 比特現在更多還是一個實驗室的結果。
壓縮能夠提高模型的工作效率,這已經形成了廣泛共識,壓縮方法是最大的挑戰,所以我們的工作最大的貢獻就是對 Key Cache 和 Value Cache 的壓縮方式是不一樣的。
雷峰網:壓縮 KV Cache 后,能實現什么價值?
胡俠:KV Cache 是大模型訓練和推理中最重要的一個中間存儲狀態,KV Cache 直接跟 GPU 的內存相關,例如A100 80GB,其中的 80GB 就是它的內存,而 80GB 當中可能有 90% 以上的用途都是用來存 KV Cache,它是計算中一個最重要的中間存儲計算工具。
如果從 16 比特壓到 2 比特,就相當于壓縮了近 10 倍,就相當于能夠讓 80GB A100 的 GPU 增加了 10 倍的存儲量,這就非常有價值了,因為一塊普通的 GPU 就是兩三萬美金,如果能增加 10 倍存儲量的話,粗算下來相當于把 2 萬美金的 GPU 直接增值到 20 萬美金。
雷峰網:這兩個方法主要在哪些模型上實驗過?
胡俠:我們主要的結果是在 llama 上做的。兩篇文章都是 2024 年發的。
雷峰網:您團隊開發的 AutoKeras 等開源項目已被廣泛采用。對于這項有損計算技術,您是否也計劃通過類似的路徑來推動其工業界采納?
胡俠:已經有很多主流的開源軟件包都在使用了,像 hugging face 的 transformer,llama.cpp 都在使用這兩個方法。
雷峰網:您的方案跟當前其他一些推理方法,比如混合專家模型 MoE,模擬計算等,在哲學和技術路徑有和根本不同?
胡俠:哲學上是差不多的,有句話叫 no free lunch,我們得到的是它的效率,損失的是精度,就看損失的精度會不會影響模型的準確性。但是我們追求的并不是模型的精度,而是最后的準確率。所以哲學上都是通過一些方法來讓模型效率更快,在快的同時還不掉點,即準確率還不會下降。
技術上就完全不一樣了,MoE 是通過 sparsity(稀疏性)來解決問題。舉個例子,比如你讀篇文章,sparsity 意味著有些詞就完全不讀,刪掉,而我們的粗化位置信息方法則是都要讀完,但是讀的非常快,不用去記準確的位置,我只知道它可能在 1~10 之間,20~30 之間,但不需要去記位置是 5 還是 16。
02
“有損計算”在模型處理不同任務的準確率不同
雷峰網:如果模型在生成過程中突然需要回顧一個之前被判定為“不重要”并丟棄的信息,您的算法如何應對這種“大海撈針(Needle- in-a-Haystack)”的失敗風險?
胡俠:模型不用非要去看之前的絕對位置,所有的模型的目標都是在最后生成正確的答案即可。
雷峰網:該“有損計算”方案對于模型處理不同任務的影響是相同的嗎?
胡俠:現在我們的方案更多是針對語言大模型,但對于多模態大模型或者其他智能體的效果是不同的,其他的我們也沒有實驗去支撐,所以很難講效果會好還是不好。但從機理上來講,我們大概的思路就是用精度換效率,但這個損失的精度并沒有損害到模型的準確率。所以從大的邏輯上來講對很多任務應該沒有太多影響,但具體任務也要具體分析。
雷峰網:從柯氏復雜度和最小描述長度的角度看,訓練大模型是尋找數據背后的最短程序,那么您認為在推理階段進行有損計算,是否可以理解為在特定任務和上下文約束下進一步尋找“最短的運行時程序”?
胡俠:我覺得可以這么講,這個講法對我來說還挺新穎。
雷峰網:如何評估并確保這些“有損操作”沒有過度?
胡俠:這是個很好的問題。我們更多是用大量實驗來看是否過度,比如說現在常見的是 16 比特,究竟要壓縮到 8 比特、還是 4 比特、還是 2 比特,這就要根據實際需求來判斷,因為模型準確率的下降曲線在不同的任務上也是不同的。當實驗時模型的準確率已經開始大幅下降了,就壓過頭了,就不能再壓了。
雷峰網:您提到壓縮時,模型準確率的下降曲線在不同任務上不同,是否可以舉例在哪些任務上出現明顯不同?
胡俠:我們實驗比較多的任務,包括多模態的任務、classification 的任務,主要是回答問題,即 chatbot 的準確率在壓縮到 2 比特的時候不會掉點,但是可能用來做生成程序比較困難。我們的有損方法對生成程序這種對精度要求非常高的任務可能會影響其準確性,我們沒做相應的實驗,但我感覺可能比較困難。
雷峰網:經歷了多少次實驗才發現將 KV Cache 壓縮到 2 比特的時候掉點很少?
胡俠:很難講,因為這個項目也不是憑空從頭開始做的,也是基于我們之前很多其他工作積累出來的。我們在通過不同方式跑通大模型的過程中不斷做各種實驗,然后發現了這個現象,但我們也不是第一個做壓縮的人,做壓縮的人很多。但我們主要貢獻了一種新的壓縮方法,就是 Key 跟 Value 這兩種 Cache,所以叫它 KV Cache,之前大家都用同一種方法來壓縮這兩種 Cache,但我們比較創新地將 Key 跟 Value 按照不同的壓縮方法壓縮,可以讓它在 2 比特的時候掉點非常少或者幾乎不掉點,這是最大的一個貢獻。
雷峰網:那有沒有實驗證明壓縮到 1 比特的時候,開始出現大的掉點?
胡俠:不可能 1 比特,1 比特就相當于只用 0 和 1 來表示,整個矩陣就是 0、1,信息量太少了。
03
該“有損方案”應用的潛力如何
雷峰網:在法律、醫療這種對準確性要求極高的場景,您的有損計算方案是否完全不能應用到這些場景?
胡俠:實際上,法律跟醫療沒有大家想象的對準確性要求那么高,因為它還是基于大量統計信息,比如要判斷某個人是否患有某種疾病,信息來源非常多,這就是為啥中醫、西醫都可以判斷有沒有病,做血檢也可以。所以不需要那么多的信息就可以做出非常精準的判斷了。
這跟大家想象的可能不太一樣,反而需要精確地控制的比如說做一道數學題,寫一個程序,而判斷一個人有沒有什么疾病,在多數情況下數據好的話是一個比較簡單的任務。
雷峰網:您的有損計算方案可以應用到哪些場景?
胡俠:現在主要是 chatbot,我們在醫療健康領域應用的是一個基于罕見病的問診系統,如果一個人出現一些癥狀,他是否可能有某種罕見病就可以問這個系統,效果還是非常好的。醫療領域現有的系統、有關罕見病的數據創建得特別少,因為一個醫生沒辦法囊括幾千種罕見病,但是大模型可以,而且具有了長上下文能力的大模型能夠做得更好。
雷峰網:您的研究成果是否考慮了與特定硬件(如內存計算、低精度AI芯片)的協同設計?要發揮最大潛力,是否需要硬件層面的相應變革?
胡俠:現在還沒有考慮硬件。但 KV Cache 存在于 GPU 上,實際上是專用于 GPU 的一種方法,這個層面是考慮了硬件的。
雷峰網:如果推理階段我們可以丟棄 80% 的信息而不影響效果,這是否反向說明,目前的模型架構在預訓練階段就存在巨大的效率浪費,未來的架構是否應該直接把這種稀疏性設計在預訓練階段,而不是留給推理階段來補救?
胡俠:這倒是一個好問題,你可以這么講,可能有一個新的架構會更好地利用這些信息讓預訓練變得更高效,而不光是推理階段。
雷峰網:您的這個研究是否對于大模型部署到手機上或者筆記本電腦等端側的意義更大?
胡俠:很難講,實際上現在不管用 DeepSeek 還是其他大語言模型,不知道你注意到沒,點了發送鍵后,還是要等好一會兒才會出結果,原因就是它推理太慢了,所以在 server 端還沒解決推理慢的問題,還沒到研究是否到端側更有用的地步。
雷峰網:您認為有損計算的下一個前沿會是什么?
胡俠:我認為更多的是比如 2 比特能不能真的應用到實際中,什么情況下能用,什么情況下不能用,現在還不是特別清楚。還有就是理論研究得跟上,現在更多是實驗型的研究。從哲學上來講有太多可以有損的地方,但具體一個系統的實現,從設計出來到最后落地哪些地方可以有損,哪些不能有損,這其中還有蠻多可以做的事情。
雷峰網:您的高效推理方案是“即插即用”的還是要針對特定的模型甚至特定的垂直領域數據進行額外的微調呢?
胡俠:它好就好在是“即插即用”的,而且實現的原理非常簡單大家都能理解,因為這些因素現在用戶很多。
本文作者關注AI相關的一切。歡迎+作者vx:IFLOW2025 交流。
第八屆 GAIR 全球人工智能與機器人大會
12月12日-13日,在深圳博林天瑞喜來登酒店三樓宴會廳,第八屆GAIR全球人工智能與機器人大會,也將匯聚上百位嘉賓和數千位專家,開設四個主題論壇與兩個閉門會議,聚焦大模型、AI算力、世界模型、數據&一腦多形、AI硬件等多個議題,共同探討AI最前沿實踐,折射產學研共建的智能未來。
本次大會由GAIR研究院與雷峰網聯合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。會議為期兩天,以下為大會嘉賓。
![]()

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.