<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      阿里大招震驚老外:將英偉達顯卡用量降了 82%!

      0
      分享至


      當你在深夜打開豆包或ChatGPT,問一句“雙十一買什么好?”,可能沒想到——這一問,背后跑起來的是一整張價值十幾萬元的A100顯卡。

      但除了偶爾這樣回答問題,它的 95% 的時間卻在“發呆”。這聽起來有點奢侈,但這就是當前大模型市場的現實。

      最近,阿里和北大聯合團隊在頂級計算機系統會議上發表了一篇論文《Aegaeon:面向市場并發大語言模型推理的高效 GPU 共享系統》,講的就是怎么讓這些“摸魚”的 GPU 忙起來。

      他們進行了三個多月的測試,效果非常震驚:從原本服務幾十個模型需要的 1192 張英偉達 H20 顯卡,降到只要 213 張。

      直接降了 82%!

      他們是怎么做到的?

      01| 問題:模型太多,GPU 太閑

      現在的大模型市場(比如 Hugging Face)上,動輒上百萬個模型。有的紅的發紫(比如 DeepSeek、Qwen、Llama),有的卻長期在冷宮——一個月都沒幾個人調用。

      但問題來了:

      熱門模型 :請求突然暴增,GPU 不夠用,用戶排隊等回復,我們都體驗過 DeepSeek 排隊的時候。

      冷門模型 :常年沒人用,但為了“隨時能響應”,還得給它獨占一張 GPU——結果這張卡一年 99% 的時間在吃灰。

      阿里云內部數據顯示:17.7% 的 GPU 只處理了 1.35% 的請求。這就像你花 幾十萬 租了一棟別墅,結果只用來放一個快遞柜,一年大部分時間還鎖著門。


      擅長降本的中國工程師們,這怎么能忍?

      02| 舊方案為啥不行?

      這么嚴重的一個問題,當然有人想過要去優化,之前有兩種主流的做法:

      “拼車”式多模型共存 (Multiplexing):把兩三個模型塞進同一張 GPU,輪流跑。問題是大模型動輒幾十 GB,一張 80G 的卡最多塞倆,再多就爆了。省不了多少。

      “隨用隨開”自動擴縮容 (Auto-scaling):不用的時候把模型“關掉”,用的時候再從內存或硬盤“拉起來”。

      這聽起來很美,但實際很慢——加載一個 13B 模型要好幾秒,用戶早就跑了。

      更糟的是,這些系統都是按“整個請求”來調度的。

      就像餐廳點菜,哪怕你只需要一個勺子,也必須等到前面客人的一桌菜全上完,你才能點。這種“慢的等所有人”的模式,就是典型的效率卡頓(頭阻塞)。

      03| Aegaeon 的妙招


      【溫馨提示:這部分非技術人員跳過也無妨】

      Aegaeon 的核心思想很反直覺:

      別等一個請求跑完,而是“邊跑邊換”,像流水線一樣切碎任務。

      它把大模型推理拆成兩個階段:Prefill(備料階段):讀你輸入的問題,生成第一個字;Decoding(吐字階段):一個字一個字往后吐。

      Aegaeon 干了兩件關鍵事:

      1. 按“token”(字)級別做調度

      不再等一個請求跑完才切模型;而是每生成幾個字,就看看有沒有更緊急的任務,有就立刻切換。

      這樣,一張 GPU 可以同時服務 7 個甚至更多模型,而不是 2~3 個。

      2. 把“切換成本”壓到極致

      傳統切換要 10 秒以上,Aegaeon 通過三大優化,把開銷砍掉 97%:

      • 組件復用:推理引擎只初始化一次,模型權重單獨換;

      • 顯存自管:自己管內存分配,避免碎片,不用反復“垃圾回收”;

      • KV Cache 精細同步:KV Cache 相當于模型在吐字時記下的“關鍵筆記”,用于加速后續生成。

      Aegaeon 優化了數據搬運和計算流程,讓它們可以同時進行,互不干擾,實現了亞秒級切換。


      聽到這是不是有點懵,又有點似曾相似?

      沒錯,實際上 Aegaeon 這種“隨時中斷,切換緊急任務”的邏輯,跟我們到電腦操作系統里面的 CPU 調度(即“搶占式調度”)原理很像。

      CPU 也是把程序執行切成時間片來輪換,以至于我們會認為它在并發處理多個任務。

      但 CPU 切換任務的開銷很小,大模型可不一樣,它涉及到數 GB 數據的搬運。所以,阿里牛逼的地方是能把這種昂貴的切換開銷壓到最低,做到秒級切換。

      04|效果有多猛?

      有效吞吐量提示 1.5~9 倍:同樣硬件,能服務更多用戶;

      支持請求速率提高 2~2.5 倍:高峰期也不卡;

      生產環境實測:原本需要 1192 張 H20 GPU;用 Aegaeon 后,只需 213 張;省下 82% 的 GPU 資源,相當于省下幾千萬的硬件和電費!

      而且,用戶完全無感,沒人覺得“變慢了”。

      05|為什么這事很重要?


      現在的大模型競爭,焦點往往是誰的參數更大、誰擁有的 GPU 數量更多。

      但現實是:真正的競爭優勢在于極致的工程效率,在于能否將每一分算力榨干,實現成本結構的根本性優化。

      像阿里云、 DeepSeek 這樣的中國團隊已經證明,要打出大廠級別的效果,靠的不是資源堆砌,而是對算力的最優利用以及在算法層面的突破。

      有海外網友一針見血地評論:“中國團隊正努力讓 AI 變得更高效、更便宜,而美國卻被‘必須買更多 GPU’的迷思困住了。”

      另一位網友感慨:“DeepSeek 把 API 價格砍半,這不是營銷,是成本革命。”

      當潮水退去,真正能走進千行百業、實現大規模普及的 AI,從來不是最“大”或最“貴”的那個,而是品質可靠、性價比最高的那個。

      附:關鍵詞解釋

      論文地址:https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf

      如果你覺得這篇文章有用,歡迎轉發給那個總在抱怨“GPU 不夠用”的朋友

      本文由「AI 范兒」出品

      感謝你看到這里,如果覺得不錯,那就請幫忙點個贊、愛心、轉發三連吧,這對我們非常有幫助。如果想第一時間收到推送,也可以給我們加個星標?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      被李瑋鋒批有點飄!王鈺棟:亞洲杯上我們主要是防守,進攻機會少

      被李瑋鋒批有點飄!王鈺棟:亞洲杯上我們主要是防守,進攻機會少

      風過鄉
      2026-01-27 06:50:29
      曹忠平任湖南省民政廳廳長

      曹忠平任湖南省民政廳廳長

      三湘都市報
      2026-01-26 19:41:47
      美國華人直言:中國手機掃碼支付是最不智能的發明!

      美國華人直言:中國手機掃碼支付是最不智能的發明!

      阿傖說事
      2026-01-20 12:53:01
      2026年廣東省政府工作報告:房地產,以后就這么干!

      2026年廣東省政府工作報告:房地產,以后就這么干!

      地產大蘇
      2026-01-26 15:25:51
      商務部:2026年將擴大市場準入和開放領域 有序擴大電信、醫療、教育等領域自主開放

      商務部:2026年將擴大市場準入和開放領域 有序擴大電信、醫療、教育等領域自主開放

      財聯社
      2026-01-26 15:30:07
      深夜利好!央行放大招,明天的市場穩了!

      深夜利好!央行放大招,明天的市場穩了!

      風風順
      2026-01-27 06:30:51
      為啥有人稱斑馬是素食動物中的惡霸?它遍布非洲,為何沒人騎斑馬

      為啥有人稱斑馬是素食動物中的惡霸?它遍布非洲,為何沒人騎斑馬

      向航說
      2026-01-27 00:35:03
      牢A是本世紀最大預言家!什么臟貨都跳出來了!

      牢A是本世紀最大預言家!什么臟貨都跳出來了!

      紅色少女主播
      2026-01-22 20:16:29
      NBA官宣周最佳:東契奇當選奎克利生涯首獲殊榮 杜蘭特哈登獲提名

      NBA官宣周最佳:東契奇當選奎克利生涯首獲殊榮 杜蘭特哈登獲提名

      羅說NBA
      2026-01-27 05:51:37
      《鴨王》女主內地登臺封啵觀眾變冷淡,主動握手冇人理換支棒?

      《鴨王》女主內地登臺封啵觀眾變冷淡,主動握手冇人理換支棒?

      粵睇先生
      2026-01-26 00:44:34
      斯諾克再添5席32強!中國2將迎勁敵,3場冠軍PK,NO.14或一輪游?

      斯諾克再添5席32強!中國2將迎勁敵,3場冠軍PK,NO.14或一輪游?

      劉姚堯的文字城堡
      2026-01-27 06:28:51
      A股:人民日報權威發文,傳遞一個清晰信號,周二將迎來新的變化

      A股:人民日報權威發文,傳遞一個清晰信號,周二將迎來新的變化

      云鵬敘事
      2026-01-27 00:00:03
      超美女子在商場給男子下跪,疑似出軌求和引熱議:這顏值值得擁有

      超美女子在商場給男子下跪,疑似出軌求和引熱議:這顏值值得擁有

      吾觀専欗
      2025-12-03 22:01:13
      你從哪一刻認識到天賦的可怕?網友破防:那天我被秒的渣都不剩

      你從哪一刻認識到天賦的可怕?網友破防:那天我被秒的渣都不剩

      特約前排觀眾
      2025-08-06 06:49:56
      正式成立!金華成為全國地級市首個!

      正式成立!金華成為全國地級市首個!

      浙中在線
      2026-01-26 20:38:07
      太原酒廠董事長涉嫌毆打他人并被行拘?官方通報

      太原酒廠董事長涉嫌毆打他人并被行拘?官方通報

      財聯社
      2026-01-27 07:57:31
      不裝了!馮鞏本周南京商演,16人演出賣50張門票,打五折都沒人買

      不裝了!馮鞏本周南京商演,16人演出賣50張門票,打五折都沒人買

      好賢觀史記
      2026-01-26 14:29:30
      牢A回國后,“大瓜”一個比一個勁爆,他火下去是好是壞?

      牢A回國后,“大瓜”一個比一個勁爆,他火下去是好是壞?

      文字里拾光
      2026-01-26 19:36:46
      靖國神社前的石獅掠自中國,罪證確鑿,中國的文物,日本該歸還了!

      靖國神社前的石獅掠自中國,罪證確鑿,中國的文物,日本該歸還了!

      瀟湘晨報
      2026-01-26 17:21:13
      歐洲人終于發現了:俄烏鬧了4年,合著是華強北在打代理人戰爭?

      歐洲人終于發現了:俄烏鬧了4年,合著是華強北在打代理人戰爭?

      壹知眠羊
      2026-01-25 19:32:42
      2026-01-27 08:23:00
      AI范兒 incentive-icons
      AI范兒
      AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
      649文章數 424關注度
      往期回顧 全部

      數碼要聞

      為適配AirTag 2,蘋果同步大規模更新iOS 12~26系統

      頭條要聞

      上海一女子嫌風水不好 屢次掰歪小區兩塊反光鏡

      頭條要聞

      上海一女子嫌風水不好 屢次掰歪小區兩塊反光鏡

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被抵制成功!遼視春晚已將她除名

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      科技要聞

      理想開始關店“過冬”,否認“百家”規模

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      親子
      教育
      本地
      手機
      健康

      親子要聞

      網友:這階段屬于純陽之體

      教育要聞

      舟山嵊泗縣取消

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      手機要聞

      蘋果更改iOS 27內部代號,距離亮相僅剩五個月!

      耳石脫落為何讓人天旋地轉+惡心?

      無障礙瀏覽 進入關懷版