<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      阿里大招震驚老外:將英偉達(dá)顯卡用量降了 82%!

      0
      分享至


      當(dāng)你在深夜打開(kāi)豆包或ChatGPT,問(wèn)一句“雙十一買什么好?”,可能沒(méi)想到——這一問(wèn),背后跑起來(lái)的是一整張價(jià)值十幾萬(wàn)元的A100顯卡。

      但除了偶爾這樣回答問(wèn)題,它的 95% 的時(shí)間卻在“發(fā)呆”。這聽(tīng)起來(lái)有點(diǎn)奢侈,但這就是當(dāng)前大模型市場(chǎng)的現(xiàn)實(shí)。

      最近,阿里和北大聯(lián)合團(tuán)隊(duì)在頂級(jí)計(jì)算機(jī)系統(tǒng)會(huì)議上發(fā)表了一篇論文《Aegaeon:面向市場(chǎng)并發(fā)大語(yǔ)言模型推理的高效 GPU 共享系統(tǒng)》,講的就是怎么讓這些“摸魚(yú)”的 GPU 忙起來(lái)。

      他們進(jìn)行了三個(gè)多月的測(cè)試,效果非常震驚:從原本服務(wù)幾十個(gè)模型需要的 1192 張英偉達(dá) H20 顯卡,降到只要 213 張。

      直接降了 82%!

      他們是怎么做到的?

      01| 問(wèn)題:模型太多,GPU 太閑

      現(xiàn)在的大模型市場(chǎng)(比如 Hugging Face)上,動(dòng)輒上百萬(wàn)個(gè)模型。有的紅的發(fā)紫(比如 DeepSeek、Qwen、Llama),有的卻長(zhǎng)期在冷宮——一個(gè)月都沒(méi)幾個(gè)人調(diào)用。

      但問(wèn)題來(lái)了:

      熱門模型 :請(qǐng)求突然暴增,GPU 不夠用,用戶排隊(duì)等回復(fù),我們都體驗(yàn)過(guò) DeepSeek 排隊(duì)的時(shí)候。

      冷門模型 :常年沒(méi)人用,但為了“隨時(shí)能響應(yīng)”,還得給它獨(dú)占一張 GPU——結(jié)果這張卡一年 99% 的時(shí)間在吃灰。

      阿里云內(nèi)部數(shù)據(jù)顯示:17.7% 的 GPU 只處理了 1.35% 的請(qǐng)求。這就像你花 幾十萬(wàn) 租了一棟別墅,結(jié)果只用來(lái)放一個(gè)快遞柜,一年大部分時(shí)間還鎖著門。


      擅長(zhǎng)降本的中國(guó)工程師們,這怎么能忍?

      02| 舊方案為啥不行?

      這么嚴(yán)重的一個(gè)問(wèn)題,當(dāng)然有人想過(guò)要去優(yōu)化,之前有兩種主流的做法:

      “拼車”式多模型共存 (Multiplexing):把兩三個(gè)模型塞進(jìn)同一張 GPU,輪流跑。問(wèn)題是大模型動(dòng)輒幾十 GB,一張 80G 的卡最多塞倆,再多就爆了。省不了多少。

      “隨用隨開(kāi)”自動(dòng)擴(kuò)縮容 (Auto-scaling):不用的時(shí)候把模型“關(guān)掉”,用的時(shí)候再?gòu)膬?nèi)存或硬盤(pán)“拉起來(lái)”。

      這聽(tīng)起來(lái)很美,但實(shí)際很慢——加載一個(gè) 13B 模型要好幾秒,用戶早就跑了。

      更糟的是,這些系統(tǒng)都是按“整個(gè)請(qǐng)求”來(lái)調(diào)度的。

      就像餐廳點(diǎn)菜,哪怕你只需要一個(gè)勺子,也必須等到前面客人的一桌菜全上完,你才能點(diǎn)。這種“慢的等所有人”的模式,就是典型的效率卡頓(頭阻塞)。

      03| Aegaeon 的妙招


      【溫馨提示:這部分非技術(shù)人員跳過(guò)也無(wú)妨】

      Aegaeon 的核心思想很反直覺(jué):

      別等一個(gè)請(qǐng)求跑完,而是“邊跑邊換”,像流水線一樣切碎任務(wù)。

      它把大模型推理拆成兩個(gè)階段:Prefill(備料階段):讀你輸入的問(wèn)題,生成第一個(gè)字;Decoding(吐字階段):一個(gè)字一個(gè)字往后吐。

      Aegaeon 干了兩件關(guān)鍵事:

      1. 按“token”(字)級(jí)別做調(diào)度

      不再等一個(gè)請(qǐng)求跑完才切模型;而是每生成幾個(gè)字,就看看有沒(méi)有更緊急的任務(wù),有就立刻切換。

      這樣,一張 GPU 可以同時(shí)服務(wù) 7 個(gè)甚至更多模型,而不是 2~3 個(gè)。

      2. 把“切換成本”壓到極致

      傳統(tǒng)切換要 10 秒以上,Aegaeon 通過(guò)三大優(yōu)化,把開(kāi)銷砍掉 97%:

      • 組件復(fù)用:推理引擎只初始化一次,模型權(quán)重單獨(dú)換;

      • 顯存自管:自己管內(nèi)存分配,避免碎片,不用反復(fù)“垃圾回收”;

      • KV Cache 精細(xì)同步:KV Cache 相當(dāng)于模型在吐字時(shí)記下的“關(guān)鍵筆記”,用于加速后續(xù)生成。

      Aegaeon 優(yōu)化了數(shù)據(jù)搬運(yùn)和計(jì)算流程,讓它們可以同時(shí)進(jìn)行,互不干擾,實(shí)現(xiàn)了亞秒級(jí)切換。


      聽(tīng)到這是不是有點(diǎn)懵,又有點(diǎn)似曾相似?

      沒(méi)錯(cuò),實(shí)際上 Aegaeon 這種“隨時(shí)中斷,切換緊急任務(wù)”的邏輯,跟我們到電腦操作系統(tǒng)里面的 CPU 調(diào)度(即“搶占式調(diào)度”)原理很像。

      CPU 也是把程序執(zhí)行切成時(shí)間片來(lái)輪換,以至于我們會(huì)認(rèn)為它在并發(fā)處理多個(gè)任務(wù)。

      但 CPU 切換任務(wù)的開(kāi)銷很小,大模型可不一樣,它涉及到數(shù) GB 數(shù)據(jù)的搬運(yùn)。所以,阿里牛逼的地方是能把這種昂貴的切換開(kāi)銷壓到最低,做到秒級(jí)切換。

      04|效果有多猛?

      有效吞吐量提示 1.5~9 倍:同樣硬件,能服務(wù)更多用戶;

      支持請(qǐng)求速率提高 2~2.5 倍:高峰期也不卡;

      生產(chǎn)環(huán)境實(shí)測(cè):原本需要 1192 張 H20 GPU;用 Aegaeon 后,只需 213 張;省下 82% 的 GPU 資源,相當(dāng)于省下幾千萬(wàn)的硬件和電費(fèi)!

      而且,用戶完全無(wú)感,沒(méi)人覺(jué)得“變慢了”。

      05|為什么這事很重要?


      現(xiàn)在的大模型競(jìng)爭(zhēng),焦點(diǎn)往往是誰(shuí)的參數(shù)更大、誰(shuí)擁有的 GPU 數(shù)量更多。

      但現(xiàn)實(shí)是:真正的競(jìng)爭(zhēng)優(yōu)勢(shì)在于極致的工程效率,在于能否將每一分算力榨干,實(shí)現(xiàn)成本結(jié)構(gòu)的根本性優(yōu)化。

      像阿里云、 DeepSeek 這樣的中國(guó)團(tuán)隊(duì)已經(jīng)證明,要打出大廠級(jí)別的效果,靠的不是資源堆砌,而是對(duì)算力的最優(yōu)利用以及在算法層面的突破。

      有海外網(wǎng)友一針見(jiàn)血地評(píng)論:“中國(guó)團(tuán)隊(duì)正努力讓 AI 變得更高效、更便宜,而美國(guó)卻被‘必須買更多 GPU’的迷思困住了?!?/p>

      另一位網(wǎng)友感慨:“DeepSeek 把 API 價(jià)格砍半,這不是營(yíng)銷,是成本革命?!?/p>

      當(dāng)潮水退去,真正能走進(jìn)千行百業(yè)、實(shí)現(xiàn)大規(guī)模普及的 AI,從來(lái)不是最“大”或最“貴”的那個(gè),而是品質(zhì)可靠、性價(jià)比最高的那個(gè)。

      附:關(guān)鍵詞解釋

      論文地址:https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf

      如果你覺(jué)得這篇文章有用,歡迎轉(zhuǎn)發(fā)給那個(gè)總在抱怨“GPU 不夠用”的朋友

      本文由「AI 范兒」出品

      感謝你看到這里,如果覺(jué)得不錯(cuò),那就請(qǐng)幫忙點(diǎn)個(gè)贊、愛(ài)心、轉(zhuǎn)發(fā)三連吧,這對(duì)我們非常有幫助。如果想第一時(shí)間收到推送,也可以給我們加個(gè)星標(biāo)?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      父親術(shù)后46天離世,交大碩士怒扒60萬(wàn)賬單:34次會(huì)陰清洗,撕開(kāi)醫(yī)院醫(yī)保黑洞

      父親術(shù)后46天離世,交大碩士怒扒60萬(wàn)賬單:34次會(huì)陰清洗,撕開(kāi)醫(yī)院醫(yī)保黑洞

      犀利辣椒
      2025-12-08 06:23:07
      汪小菲又回臺(tái)灣省陪孩子!小玥兒長(zhǎng)高了,和后媽喝下午茶像名媛

      汪小菲又回臺(tái)灣省陪孩子!小玥兒長(zhǎng)高了,和后媽喝下午茶像名媛

      娛樂(lè)圈圈圓
      2025-12-07 22:14:02
      山西婚鬧致死案:新郎被4個(gè)伴郎暴打致死,婚禮結(jié)束直接辦喪事

      山西婚鬧致死案:新郎被4個(gè)伴郎暴打致死,婚禮結(jié)束直接辦喪事

      明智家庭教育
      2025-12-02 11:20:34
      海昌海洋公園:祥源控股及公司實(shí)控人正就逾期兌付事項(xiàng)溝通處理,公司不承擔(dān)兌付及擔(dān)保義務(wù)

      海昌海洋公園:祥源控股及公司實(shí)控人正就逾期兌付事項(xiàng)溝通處理,公司不承擔(dān)兌付及擔(dān)保義務(wù)

      界面新聞
      2025-12-08 07:35:01
      兩腿一蹬,一切成空!湖南富豪瓷磚大佬猝然離世,年僅44歲!

      兩腿一蹬,一切成空!湖南富豪瓷磚大佬猝然離世,年僅44歲!

      今朝牛馬
      2025-12-06 12:14:51
      唐山殺警案,9年沒(méi)破案,原來(lái)兇手就在專案組

      唐山殺警案,9年沒(méi)破案,原來(lái)兇手就在專案組

      史記趣聞
      2025-12-04 20:55:06
      日本電磁炮妄圖擊沉中國(guó)航母?軍事專家:送“小火柴棍”下海底;日頻繁制造地區(qū)緊張局勢(shì),軍事專家:日本搞小動(dòng)作解放軍盡在掌握

      日本電磁炮妄圖擊沉中國(guó)航母?軍事專家:送“小火柴棍”下海底;日頻繁制造地區(qū)緊張局勢(shì),軍事專家:日本搞小動(dòng)作解放軍盡在掌握

      每日經(jīng)濟(jì)新聞
      2025-12-08 01:02:16
      孫穎莎靠邊站,不和王楚欽同框!劉國(guó)梁沒(méi)和日本握手,原因很明顯

      孫穎莎靠邊站,不和王楚欽同框!劉國(guó)梁沒(méi)和日本握手,原因很明顯

      三十年萊斯特城球迷
      2025-12-07 22:46:39
      美媒預(yù)測(cè)字母下家概率:湖人僅8%,馬刺15%排第三,兩隊(duì)希望最大

      美媒預(yù)測(cè)字母下家概率:湖人僅8%,馬刺15%排第三,兩隊(duì)希望最大

      你的籃球頻道
      2025-12-07 14:47:01
      網(wǎng)傳甘肅臨夏在冬日里“禁用土炕取暖”!事件起因曝出,網(wǎng)友爆評(píng)

      網(wǎng)傳甘肅臨夏在冬日里“禁用土炕取暖”!事件起因曝出,網(wǎng)友爆評(píng)

      胡侃社會(huì)百態(tài)
      2025-12-07 15:45:57
      新加坡“媚日”史:早在二戰(zhàn)時(shí),李光耀就給日本人當(dāng)過(guò)間諜?

      新加坡“媚日”史:早在二戰(zhàn)時(shí),李光耀就給日本人當(dāng)過(guò)間諜?

      阿胡
      2025-12-05 11:32:10
      日本預(yù)測(cè):最壞情況將致1.8萬(wàn)人遇難

      日本預(yù)測(cè):最壞情況將致1.8萬(wàn)人遇難

      極目新聞
      2025-12-07 11:25:22
      中國(guó)跨境匯款新規(guī):1000美元以上需身份核驗(yàn),拆單匯款風(fēng)險(xiǎn)升級(jí)

      中國(guó)跨境匯款新規(guī):1000美元以上需身份核驗(yàn),拆單匯款風(fēng)險(xiǎn)升級(jí)

      東京在線
      2025-12-07 22:17:59
      “劍后”江旻憓當(dāng)選香港特區(qū)立法會(huì)議員

      “劍后”江旻憓當(dāng)選香港特區(qū)立法會(huì)議員

      觀察者網(wǎng)
      2025-12-08 08:29:05
      iPhone18炸裂亮相:新外觀很突然??!

      iPhone18炸裂亮相:新外觀很突然啊!

      搞機(jī)小帝
      2025-12-08 00:05:54
      長(zhǎng)城魏牌回應(yīng)“藍(lán)山車型儀表裝飾板出現(xiàn)局部裂紋”

      長(zhǎng)城魏牌回應(yīng)“藍(lán)山車型儀表裝飾板出現(xiàn)局部裂紋”

      IT之家
      2025-12-07 16:38:27
      大廠禁用Cursor,程序員回歸“手搓時(shí)代”?

      大廠禁用Cursor,程序員回歸“手搓時(shí)代”?

      鈦媒體APP
      2025-12-08 09:19:13
      回鄉(xiāng)探親帶了10個(gè)保鏢,進(jìn)村看到養(yǎng)父被鎖狗籠,村霸:你算老幾!

      回鄉(xiāng)探親帶了10個(gè)保鏢,進(jìn)村看到養(yǎng)父被鎖狗籠,村霸:你算老幾!

      卡西莫多的故事
      2025-12-05 09:26:38
      福建泉州一佳人好漂亮, 身高167cm,體重45kg 美的讓人移不開(kāi)眼

      福建泉州一佳人好漂亮, 身高167cm,體重45kg 美的讓人移不開(kāi)眼

      情感大頭說(shuō)說(shuō)
      2025-12-06 14:55:49
      12月8日24時(shí)油價(jià)下跌,下半年油價(jià)大跌超6毛/升,今年第11次下跌

      12月8日24時(shí)油價(jià)下跌,下半年油價(jià)大跌超6毛/升,今年第11次下跌

      油價(jià)早知道
      2025-12-08 08:50:40
      2025-12-08 11:19:00
      AI范兒 incentive-icons
      AI范兒
      AI范兒是一個(gè)專注于人工智能領(lǐng)域的資訊和學(xué)習(xí)平臺(tái),提供最新的人工智能資訊
      601文章數(shù) 316關(guān)注度
      往期回顧 全部

      數(shù)碼要聞

      狼途推出T87系列燈箱三模機(jī)械鍵盤(pán):12000mAh電池,可選8kHz

      頭條要聞

      牛彈琴:對(duì)日斗爭(zhēng)突發(fā)新情況 中國(guó)軍方回應(yīng)火力全開(kāi)

      頭條要聞

      牛彈琴:對(duì)日斗爭(zhēng)突發(fā)新情況 中國(guó)軍方回應(yīng)火力全開(kāi)

      體育要聞

      厲害的后衛(wèi)何其多 想想還少了哪一個(gè)

      娛樂(lè)要聞

      郭麒麟也救不了的德云社了?

      財(cái)經(jīng)要聞

      養(yǎng)牛場(chǎng)未見(jiàn)一頭牛 每天開(kāi)采礦石倒賣

      科技要聞

      蘋(píng)果核心人才"出逃"內(nèi)幕,庫(kù)克為何攔不住

      汽車要聞

      挑戰(zhàn)深圳地獄級(jí)路況 魏牌藍(lán)山VLA上車會(huì)思考聽(tīng)得懂人話

      態(tài)度原創(chuàng)

      本地
      游戲
      藝術(shù)
      家居
      旅游

      本地新聞

      云游安徽|七千年敘事,第一章寫(xiě)在蚌埠

      史上最硬核幸存者?超復(fù)雜代碼編程爽游!

      藝術(shù)要聞

      從3萬(wàn)人的“小香港”到十室九空!江西深山被廢棄的煤礦小鎮(zhèn)

      家居要聞

      有限無(wú)界 打破慣有思維

      旅游要聞

      冬天到了,又到了去太倉(cāng)吃羊肉的時(shí)候了

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久久久免费看黄a片app| 青青草国产成人99久久| 晋城| 超碰人人干| 熟妇人妻av中文字幕老熟妇 | 久久综合网色| 欧美成人精品高清在线播放| 开心五月色婷婷综合开心网| 大陆一区视频观看| 五月婷女| 久久精品午夜视频| 亚洲中文字幕无码一区| 欧美成人免费全部| 国产99免费视频| 日韩福利在线视频| 国产精品自在自线免费观看| 风流少妇又紧又爽又丰满| 午夜羞羞影院男女爽爽爽| 久久一日本道色综合久久| 亚洲综合无码精品| 亚洲色诱| 无码一区二区三区久久精品| 久久99精品久久久久久不卡| 人妻人人摸| 午夜精品久久久久久久久久老司机| 国产精品性爱视频| 国产亚洲精品久久久久5区| 海伦市| 制服丝袜亚洲无码| 亚洲av午夜福利精品一区二区| 国产线播放免费人成视频播放| 天天做天天爱夜夜爽| 清涧县| 亚洲夂夂婷婷色拍WW47| 国产稚嫩高中生呻吟激情在线视频| 免费观看全黄做爰的视频| 久久久综合九色合综| 人妻精品久久久久中文字幕19| 久久窝| 国产熟女一区二区三区五月婷| 欧美日韩视频综合一区无弹窗|