IT之家 2 月 4 日消息,據(jù)“華為計算”今日消息,隨著大語言模型迅猛發(fā)展,參數(shù)量已邁入千億甚至萬億級別,MoE(IT之家注:混合專家)稀疏架構(gòu)憑借兼顧模型容量與計算效率的優(yōu)勢,成為 AI 領(lǐng)域核心研究方向。
在此背景下,南京大學(xué)李猛博士團(tuán)隊,依托南京大學(xué)鯤鵬昇騰科教創(chuàng)新孵化中心的算力支持,基于華為昇騰,開展專家等價性驅(qū)動的 MoE 無損顯存高效優(yōu)化研究,成功攻克系列技術(shù)瓶頸,實現(xiàn)顯存消耗降低 50% 以上、推理延遲顯著提升的重要突破。
![]()
項目聚焦 MoE 模型部署的核心痛點:大參數(shù)量模型部署時,高顯存占用導(dǎo)致僅能駐留少量熱專家,大量參數(shù)需頻繁在內(nèi)存與顯存間切換,引發(fā)嚴(yán)重推理延遲;同時,自主化硬件適配需求日益迫切。
團(tuán)隊基于對 MoE 專家冗余性與等價性的創(chuàng)新觀察,提出軟硬件協(xié)同優(yōu)化方案,通過四項核心技術(shù)構(gòu)建異構(gòu)推理混合部署框架,實現(xiàn)全鏈路效率提升。
- 首先,團(tuán)隊創(chuàng)新設(shè)計三級流水線并行架構(gòu),將參數(shù)加載、CPU 串行計算與 GPU 并行推理深度重疊,大幅減輕數(shù)據(jù)傳輸壓力,讓計算與參數(shù)傳輸高度并行;
- 其二,突破傳統(tǒng)路由機制,基于專家等價性將專家劃分為高分、中分、可替代低分三類,優(yōu)先緩存核心專家,利用等價專家靈活替代未加載的低分專家,顯著減少冗余傳輸與顯存占用;
- 其三,首創(chuàng)共享專家引導(dǎo)的在線預(yù)取機制,無需離線訓(xùn)練即可精準(zhǔn)預(yù)測后續(xù)所需專家,提前完成參數(shù)加載,有效隱藏預(yù)取延遲;
- 最后,設(shè)計雙指針動態(tài)負(fù)載均衡算法,根據(jù)任務(wù)規(guī)模智能分配 CPU 與 GPU 算力,充分發(fā)揮異構(gòu)計算優(yōu)勢,規(guī)避小批量任務(wù)的加載延遲問題。
依托昇騰的硬件特性與 CANN 軟件棧,團(tuán)隊針對性研發(fā)異構(gòu)推理加速引擎 MoE-Ascend,涵蓋動態(tài)專家路由管理、專家預(yù)測預(yù)取、算子適配等核心功能模塊,實現(xiàn)昇騰平臺的深度適配與優(yōu)化。
該引擎可支持昇騰等多硬件環(huán)境,在保持模型精度無損的前提下,不僅將顯存消耗降至原方案的一半,推理速度也較同類方法提升 2 倍以上,提升顯存緩存命中率到 70% 以上,破解 MoE 模型對國外高端硬件的依賴。
該項目構(gòu)建的推理優(yōu)化工具鏈計劃開源至?xí)N騰社區(qū)、DeepModeling 社區(qū)及 GitHub,供科研與工程開發(fā)者復(fù)用擴(kuò)展。
未來,項目成果將應(yīng)用于 AI 推理平臺、智能客服、語音生成等多個場景,尤其適配昇騰等自主 NPU 部署環(huán)境,為邊緣側(cè)智能服務(wù)提供支撐。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.