<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      上海AI Lab胡俠:KV Cache壓縮之后,可讓價格2萬美金的GPU發揮出20萬美金的價值丨GAIR 2025

      0
      分享至



      將 Key 跟 Value Cache 按照不同的方法壓縮,可以讓模型不掉點。

      作者丨張進

      編輯丨林覺民

      目前,不同大模型廠商發布的大語言模型在處理超長上下文方面已經有顯著突破,最高的已能支持數百萬 Token 的輸入,例如 MiniMax-M1、Qwen2.5-1M 系列模型,均支持百萬Token(1M)級別的超長上下文處理能力。

      但是這場有關提升大模型上下文長度的“軍備賽”依然不會停止,這是一項巨大的工程與效率之戰。因為超長下文為模型智能提供了最廣闊的發揮空間——在處理如金融、法律、醫療等領域的長語境任務時表現更好。所以誰能率先突破更長上下文處理能力,便有機會創造出更大的商業與技術價值。

      胡俠團隊便針對這一目標提出了一項最新研究方案——“通過有損計算(Lossy Computation)來提高大語言模型的推理效率”。這項研究的基本思路是,利用大語言模型對來自低精度計算等“有損”操作產生的噪聲具有極強魯棒性這一特點,主動引入可控的、不損害性能的信息損失,以換取顯著的效率提升。

      大模型中的“有損計算”是通過有選擇地犧牲一部分精度來大幅降低計算或者存儲成本,從而提升推理效率,主要圍繞模型參數量化、KV Cache 壓縮、模型剪枝與知識蒸餾等核心路徑展開。

      胡俠認為,大語言模型雖已實現類人對話能力,但在處理醫療領域長篇文獻信息提取等長語境任務時,面臨著“預訓練長度限制”與“推理內存需求激增”的雙重挑戰。

      針對這兩項挑戰,團隊提出的“通過有損計算(Lossy Computation)來提高大語言模型的推理效率”方案,實現了兩項關鍵技術突破:一是在算法層面,通過粗化遠距離標記的位置信息,成功將大語言模型的語境長度擴展至原有水平的 8 倍;二是在系統層面,將過往標記的中間狀態(KV Cache)量化為 2 比特數字,實現了 8 倍內存效率的提升和 3.5 倍時鐘時間加速的重大進展。

      胡俠是人工智能領域的國際知名學者,長期從事數據挖掘、機器學習和人工智能研究,目前是上海人工智能實驗室主任助理、領軍科學家,曾擔任美國萊斯大學正教授、數據科學中心主任,亦是AIPOW公司聯合創始人兼首席科學家。其主導開發的開源系統 AutoKeras 成為最常用的自動機器學習框架之一(超過 8000 次 star 及 1000 次 fork),開發的 NCF 算法及系統(單篇論文被引用超 8000 余次)成為主流人工智能框架 TensorFlow 的官方推薦系統,主導開發的異常檢測系統在通用、Trane、蘋果等公司的產品中得到廣泛應用。


      胡俠

      關于這兩項關鍵技術的相關細節以及應用前景,近日我們跟胡俠教授聊了聊,以下內容經過不改變原意的編輯、整理:

      01

      從模糊的上下文位置信息以及

      模糊的 KV Cache 兩點入手做“有損計算”

      雷峰網:請您先簡單介紹下"通過有損計算實現高效大語言模型推理"的具體思路?

      胡俠:我們根據大語言模型對來自低精度計算等"有損操作"產生的噪聲具有極強魯棒性這一特點,主動引入可控的、不損害性能的信息損失,能夠極高地提供推理效率,實際上是用精度換取效率的思路。

      我們的"有損計算"主要實施方式是兩種,一是在算法層面,不要用上下文精確的相對距離來進行計算,而是通過粗化遠距離標記的位置信息,成功將大語言模型的語境長度擴展至原來水平的 8 倍;二是在系統層面,將過去令牌的中間狀態(KV Cache)做相應的量化,量化為 2 比特數字,可以實現 8 倍內存效率提升和 3.5 倍實際速度加速,且不影響模型性能。

      雷峰網:“有損計算”的靈感是否部分源于對大模型本身作為一種“有損世界壓縮器”的理論認知?

      胡俠:整個方案的靈感來源于深度學習,深度學習中有兩個重要的發現。一個是模型的參數量實際上比模型的精度更重要,我們做了很多實驗,其中一堆實驗都表明相對大的模型比相對精確的模型,它的推理無論是效率還是準確度來講都更好。

      第二個重要發現是在深度模型中,當我們把很多參數刪掉以后,模型的準確率損失非常小。

      于是我們就想到了怎樣從模糊的上下文信息以及模糊的 KV Cache 這兩點入手做有損計算。具體舉個例子,比如我們讀書時,當我們試圖記憶上下文,比如想知道上一章出現了一個什么故事,但我們不需要知道這個故事發生在第 265 個字之前還是第 257 個字之前,我只需要知道大概兩三百個字之前出現了這么一個故事就行了。

      雷峰網:您的"有損計算"方案主要通過兩種方案,其中通過粗化位置信息來擴展上下文,這種粗化策略是靜態,還是根據文本內容動態調整的?

      胡俠:都不是,它實際上是根據當時上下文的需要進行動態調整的。

      雷峰網:第二種方法是將 KV Cache 壓縮到 2 比特,這是一項非常激進的優化,在這個過程中您以及您團隊遇到最大的挑戰是什么?

      胡俠:整個研究最大的挑戰就是壓縮到 2 比特以后,在這種低精度表示的情況下是否還能夠讓模型保持相應的準確率,所以必須通過大量實驗來解決。

      雖然我們在實驗環境下壓縮到 2 比特是可行的,但在現實應用中很少有人這么做,工業界主流的優化手段例如 DeepSeek 是壓縮到 8 比特,在實際應用中壓縮到 4 比特已經非常激進了,2 比特現在更多還是一個實驗室的結果。

      壓縮能夠提高模型的工作效率,這已經形成了廣泛共識,壓縮方法是最大的挑戰,所以我們的工作最大的貢獻就是對 Key Cache 和 Value Cache 的壓縮方式是不一樣的

      雷峰網:壓縮 KV Cache 后,能實現什么價值?

      胡俠:KV Cache 是大模型訓練和推理中最重要的一個中間存儲狀態,KV Cache 直接跟 GPU 的內存相關,例如A100 80GB,其中的 80GB 就是它的內存,而 80GB 當中可能有 90% 以上的用途都是用來存 KV Cache,它是計算中一個最重要的中間存儲計算工具。

      如果從 16 比特壓到 2 比特,就相當于壓縮了近 10 倍,就相當于能夠讓 80GB A100 的 GPU 增加了 10 倍的存儲量,這就非常有價值了,因為一塊普通的 GPU 就是兩三萬美金,如果能增加 10 倍存儲量的話,粗算下來相當于把 2 萬美金的 GPU 直接增值到 20 萬美金。

      雷峰網:這兩個方法主要在哪些模型上實驗過?

      胡俠:我們主要的結果是在 llama 上做的。兩篇文章都是 2024 年發的。

      雷峰網:您團隊開發的 AutoKeras 等開源項目已被廣泛采用。對于這項有損計算技術,您是否也計劃通過類似的路徑來推動其工業界采納?

      胡俠:已經有很多主流的開源軟件包都在使用了,像 hugging face 的 transformer,llama.cpp 都在使用這兩個方法。

      雷峰網:您的方案跟當前其他一些推理方法,比如混合專家模型 MoE,模擬計算等,在哲學和技術路徑有和根本不同?

      胡俠:哲學上是差不多的,有句話叫 no free lunch,我們得到的是它的效率,損失的是精度,就看損失的精度會不會影響模型的準確性。但是我們追求的并不是模型的精度,而是最后的準確率。所以哲學上都是通過一些方法來讓模型效率更快,在快的同時還不掉點,即準確率還不會下降。

      技術上就完全不一樣了,MoE 是通過 sparsity(稀疏性)來解決問題。舉個例子,比如你讀篇文章,sparsity 意味著有些詞就完全不讀,刪掉,而我們的粗化位置信息方法則是都要讀完,但是讀的非常快,不用去記準確的位置,我只知道它可能在 1~10 之間,20~30 之間,但不需要去記位置是 5 還是 16。

      02

      “有損計算”在模型處理不同任務的準確率不同

      雷峰網:如果模型在生成過程中突然需要回顧一個之前被判定為“不重要”并丟棄的信息,您的算法如何應對這種“大海撈針(Needle- in-a-Haystack)”的失敗風險?

      胡俠:模型不用非要去看之前的絕對位置,所有的模型的目標都是在最后生成正確的答案即可。

      雷峰網:該“有損計算”方案對于模型處理不同任務的影響是相同的嗎?

      胡俠:現在我們的方案更多是針對語言大模型,但對于多模態大模型或者其他智能體的效果是不同的,其他的我們也沒有實驗去支撐,所以很難講效果會好還是不好。但從機理上來講,我們大概的思路就是用精度換效率,但這個損失的精度并沒有損害到模型的準確率。所以從大的邏輯上來講對很多任務應該沒有太多影響,但具體任務也要具體分析。

      雷峰網:從柯氏復雜度和最小描述長度的角度看,訓練大模型是尋找數據背后的最短程序,那么您認為在推理階段進行有損計算,是否可以理解為在特定任務和上下文約束下進一步尋找“最短的運行時程序”?

      胡俠:我覺得可以這么講,這個講法對我來說還挺新穎。

      雷峰網:如何評估并確保這些“有損操作”沒有過度?

      胡俠:這是個很好的問題。我們更多是用大量實驗來看是否過度,比如說現在常見的是 16 比特,究竟要壓縮到 8 比特、還是 4 比特、還是 2 比特,這就要根據實際需求來判斷,因為模型準確率的下降曲線在不同的任務上也是不同的。當實驗時模型的準確率已經開始大幅下降了,就壓過頭了,就不能再壓了。

      雷峰網:您提到壓縮時,模型準確率的下降曲線在不同任務上不同,是否可以舉例在哪些任務上出現明顯不同?

      胡俠:我們實驗比較多的任務,包括多模態的任務、classification 的任務,主要是回答問題,即 chatbot 的準確率在壓縮到 2 比特的時候不會掉點,但是可能用來做生成程序比較困難。我們的有損方法對生成程序這種對精度要求非常高的任務可能會影響其準確性,我們沒做相應的實驗,但我感覺可能比較困難。

      雷峰網:經歷了多少次實驗才發現將 KV Cache 壓縮到 2 比特的時候掉點很少?

      胡俠:很難講,因為這個項目也不是憑空從頭開始做的,也是基于我們之前很多其他工作積累出來的。我們在通過不同方式跑通大模型的過程中不斷做各種實驗,然后發現了這個現象,但我們也不是第一個做壓縮的人,做壓縮的人很多。但我們主要貢獻了一種新的壓縮方法,就是 Key 跟 Value 這兩種 Cache,所以叫它 KV Cache,之前大家都用同一種方法來壓縮這兩種 Cache,但我們比較創新地將 Key 跟 Value 按照不同的壓縮方法壓縮,可以讓它在 2 比特的時候掉點非常少或者幾乎不掉點,這是最大的一個貢獻。

      雷峰網:那有沒有實驗證明壓縮到 1 比特的時候,開始出現大的掉點?

      胡俠:不可能 1 比特,1 比特就相當于只用 0 和 1 來表示,整個矩陣就是 0、1,信息量太少了。

      03

      該“有損方案”應用的潛力如何

      雷峰網:在法律、醫療這種對準確性要求極高的場景,您的有損計算方案是否完全不能應用到這些場景?

      胡俠:實際上,法律跟醫療沒有大家想象的對準確性要求那么高,因為它還是基于大量統計信息,比如要判斷某個人是否患有某種疾病,信息來源非常多,這就是為啥中醫、西醫都可以判斷有沒有病,做血檢也可以。所以不需要那么多的信息就可以做出非常精準的判斷了。

      這跟大家想象的可能不太一樣,反而需要精確地控制的比如說做一道數學題,寫一個程序,而判斷一個人有沒有什么疾病,在多數情況下數據好的話是一個比較簡單的任務。

      雷峰網:您的有損計算方案可以應用到哪些場景?

      胡俠:現在主要是 chatbot,我們在醫療健康領域應用的是一個基于罕見病的問診系統,如果一個人出現一些癥狀,他是否可能有某種罕見病就可以問這個系統,效果還是非常好的。醫療領域現有的系統、有關罕見病的數據創建得特別少,因為一個醫生沒辦法囊括幾千種罕見病,但是大模型可以,而且具有了長上下文能力的大模型能夠做得更好。

      雷峰網:您的研究成果是否考慮了與特定硬件(如內存計算、低精度AI芯片)的協同設計?要發揮最大潛力,是否需要硬件層面的相應變革?

      胡俠:現在還沒有考慮硬件。但 KV Cache 存在于 GPU 上,實際上是專用于 GPU 的一種方法,這個層面是考慮了硬件的。

      雷峰網:如果推理階段我們可以丟棄 80% 的信息而不影響效果,這是否反向說明,目前的模型架構在預訓練階段就存在巨大的效率浪費,未來的架構是否應該直接把這種稀疏性設計在預訓練階段,而不是留給推理階段來補救?

      胡俠:這倒是一個好問題,你可以這么講,可能有一個新的架構會更好地利用這些信息讓預訓練變得更高效,而不光是推理階段。

      雷峰網:您的這個研究是否對于大模型部署到手機上或者筆記本電腦等端側的意義更大?

      胡俠:很難講,實際上現在不管用 DeepSeek 還是其他大語言模型,不知道你注意到沒,點了發送鍵后,還是要等好一會兒才會出結果,原因就是它推理太慢了,所以在 server 端還沒解決推理慢的問題,還沒到研究是否到端側更有用的地步。

      雷峰網:您認為有損計算的下一個前沿會是什么?

      胡俠:我認為更多的是比如 2 比特能不能真的應用到實際中,什么情況下能用,什么情況下不能用,現在還不是特別清楚。還有就是理論研究得跟上,現在更多是實驗型的研究。從哲學上來講有太多可以有損的地方,但具體一個系統的實現,從設計出來到最后落地哪些地方可以有損,哪些不能有損,這其中還有蠻多可以做的事情。

      雷峰網:您的高效推理方案是“即插即用”的還是要針對特定的模型甚至特定的垂直領域數據進行額外的微調呢?

      胡俠:它好就好在是“即插即用”的,而且實現的原理非常簡單大家都能理解,因為這些因素現在用戶很多。

      本文作者關注AI相關的一切。歡迎+作者vx:IFLOW2025 交流。

      第八屆 GAIR 全球人工智能與機器人大會

      12月12日-13日,在深圳博林天瑞喜來登酒店三樓宴會廳,第八屆GAIR全球人工智能與機器人大會,也將匯聚上百位嘉賓和數千位專家,開設四個主題論壇與兩個閉門會議,聚焦大模型、AI算力、世界模型、數據&一腦多形、AI硬件等多個議題,共同探討AI最前沿實踐,折射產學研共建的智能未來。

      本次大會由GAIR研究院與雷峰網聯合主辦,高文院士任指導委員會主席,楊強院士與朱曉蕊教授任大會主席。會議為期兩天,以下為大會嘉賓。



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      九天一出,美媒的天塌了

      九天一出,美媒的天塌了

      書中自有顏如玉
      2025-12-14 01:42:02
      美女打屁股大賽,火了

      美女打屁股大賽,火了

      微微熱評
      2025-10-08 22:10:24
      電動車80%死亡事故因為被汽車撞、闖紅燈,新新國標藥不對癥

      電動車80%死亡事故因為被汽車撞、闖紅燈,新新國標藥不對癥

      小小河
      2025-12-13 00:04:17
      努比亞開啟“清倉模式”,從4999元跌至3312元,6150mAh+衛星通話

      努比亞開啟“清倉模式”,從4999元跌至3312元,6150mAh+衛星通話

      小愚測評
      2025-12-14 07:15:08
      “那咋了”,正在毀掉我們這一代人嗎?

      “那咋了”,正在毀掉我們這一代人嗎?

      知著網
      2025-12-12 22:41:04
      中國游客慘死! 度假天堂旅社爆發集體中毒 旅客嘔血躺滿走廊!

      中國游客慘死! 度假天堂旅社爆發集體中毒 旅客嘔血躺滿走廊!

      北國向錫安
      2025-11-24 10:18:21
      誰沒有瘋狂過呢,朱珠舊照海外瘋傳,國內形象反差驚人,驚呆了!

      誰沒有瘋狂過呢,朱珠舊照海外瘋傳,國內形象反差驚人,驚呆了!

      情感大頭說說
      2025-12-03 07:52:54
      美的、海爾、小米等聯手:推動“鋁代銅”標準落地、禁止互相惡意攻擊

      美的、海爾、小米等聯手:推動“鋁代銅”標準落地、禁止互相惡意攻擊

      第一財經資訊
      2025-12-11 15:32:10
      廚子外室挺孕肚逼宮

      廚子外室挺孕肚逼宮

      毒舌扒姨太
      2025-12-13 22:21:23
      意外!武漢三鎮中場核心官宣離開俱樂部,曾為俱樂部保級立下奇功

      意外!武漢三鎮中場核心官宣離開俱樂部,曾為俱樂部保級立下奇功

      懂個球
      2025-12-13 23:59:17
      87歲范曾“老來得子”被群嘲,醫生一語道破真相,評論區笑瘋了

      87歲范曾“老來得子”被群嘲,醫生一語道破真相,評論區笑瘋了

      吃瓜局
      2025-12-13 14:50:36
      難怪鬼子不開戰!日本議員:中國只要用導彈打東京,日本就會完蛋

      難怪鬼子不開戰!日本議員:中國只要用導彈打東京,日本就會完蛋

      文史旺旺旺
      2025-12-12 20:32:07
      空姐:云端客棧的守夜人

      空姐:云端客棧的守夜人

      疾跑的小蝸牛
      2025-12-13 23:17:03
      上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

      上海交大:每次起床后大量喝水的人,用不了多久,身體或有7變化

      讀懂世界歷史
      2025-11-23 11:18:04
      賴清德邀茶敘被韓國瑜拒絕,鄭麗文諷:我送一面鏡子給你好了

      賴清德邀茶敘被韓國瑜拒絕,鄭麗文諷:我送一面鏡子給你好了

      海峽導報社
      2025-12-13 15:32:03
      佳能走了,為何全網都在給它點贊?這大概就是“體面”最好的樣子

      佳能走了,為何全網都在給它點贊?這大概就是“體面”最好的樣子

      魔都姐姐雜談
      2025-12-13 14:00:30
      CCTV5直播!男單半決賽:林詩棟對決張本智和 王楚欽VS莫雷加德

      CCTV5直播!男單半決賽:林詩棟對決張本智和 王楚欽VS莫雷加德

      好乒乓
      2025-12-14 07:09:05
      沒想到他已離職5年了,曾是廣東最紅主持之一,如今在大阪開餐廳

      沒想到他已離職5年了,曾是廣東最紅主持之一,如今在大阪開餐廳

      一娛三分地
      2025-12-11 18:48:28
      科學家掃描了25萬個大腦發現:決定孩子一生的,不是智商,而是父母的這三件事

      科學家掃描了25萬個大腦發現:決定孩子一生的,不是智商,而是父母的這三件事

      閱讀第一
      2025-12-13 08:34:34
      墻倒眾人推?禁言不到24小時,陳震被扒底朝天,偷稅只是冰山一角

      墻倒眾人推?禁言不到24小時,陳震被扒底朝天,偷稅只是冰山一角

      睿鑒歷史
      2025-12-13 18:55:03
      2025-12-14 08:40:49
      雷峰網 incentive-icons
      雷峰網
      關注智能與未來!
      68063文章數 656001關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      牛彈琴:印度人對梅西發飆了 比賽場變成"殺戮場"

      頭條要聞

      牛彈琴:印度人對梅西發飆了 比賽場變成"殺戮場"

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動實現口碑逆轉

      財經要聞

      重大違法強制退市!10人被判刑

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      時尚
      房產
      親子
      本地
      手機

      奔四奔五的女人,冬日掌握了這些穿搭寶典,才能優雅不凍人

      房產要聞

      中糧好房子體系盛大亮相三亞,禮獻海南自貿港封關

      親子要聞

      芭蕾舞團卡布奇諾

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      手機要聞

      三星三折疊對比華為Mate XTs丨Galaxy Z TriFold新形態有何亮點

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产二区精品久久| 国产乱子影视频上线免费观看| 欧美亚洲一区二区三区| 美女秘密91| 无遮挡很爽很污很黄的网站| 国产黄在线观看| 国产乱人伦| 亚洲不卡视频| 樱桃视频影院在线播放| 青青草原亚洲| www.youjizz.com国产| 国产在线网址| 永久免费无码av网站在线观看| 这里只有精品视频| 激情综合色五月六月婷婷| 日韩精品av一区二区三区| 壶关县| 亚洲精品无码你懂的网站| 91福利区| 在线观看美女网站大全免费 | 姜堰市| japanese无码中文字幕| 国产品无码一区二区三区在线| 十八禁黄网站| 亚洲国产精品成人av网| 伊人精品成人久久综合| 手机看片1024人妻| jizz国产| 日韩人妻无码一区二区三区| 大肉大捧一进一出好爽视色大师 | 尤物福利导航| 久久99九九精品久久久久蜜桃 | 亚洲~V| 亚洲国产中文字幕在线视频综合| 亚洲av无码精品色午夜| 大香蕉久久综合| 成在线人午夜剧场免费无码| 国产熟妇久久777777| 99色色网| 亚洲va中文字幕| 亚洲自偷自拍熟女另类|