![]()
智東西
作者 云鵬
編輯 心緣
智東西11月21日報道,剛剛,華為正式發布了Flex:ai,一項能夠將智算資源利用率提升30%的AI容器技術。值得一提的是,這項技術并無生態限制,英偉達的GPU和華為昇騰NPU等算力卡都可以用。
![]()
具體來看,Flex:ai是基于Kubernetes容器編排平臺構建的XPU池化與調度軟件,通過對GPU、NPU等智能算力資源的精細化管理與智能調度,實現AI工作負載與算力資源的“精準匹配”,進而提升算力資源利用率。
以軟件補硬件提升AI訓推效率、通過開放兼容降低軟件開發難度,是其主要特點。
此前,英偉達于2024年4月以7億美元(約合人民幣49.7億元)收購了以色列AI基礎設施公司Run:ai,這家公司核心技術和產品就是提升GPU利用率,能夠補充英偉達在AI計算資源管理領域的軟件能力。
華為的Flex:ai有其“對標”的意味在,填補國內這一領域的空白,但同時開源的更加全面,相比Run:ai的解決方案,在虛擬化、智能調度方面有其獨特技術優勢。
Flex:ai將在發布后開源在魔擎社區中,與華為此前開源的Nexent智能體框架、AppEngine應用編排、DataMate數據工程、UCM推理記憶數據管理器等AI工具共同組成了完整的ModelEngine開源生態。
華為特別提到,這項技術“從第一天起”就是高校一起合作開發的。在華為看來,開源是非常重要的,算力資源利用率的提升絕非“一概而論”,需要根據實際業務場景來分析,形成一系列算法。因此華為希望更多客戶利用開源生態,將技術拿到自身實際業務場景中,共同探索、解決問題。
華為公司副總裁、數據存儲產品線總裁周躍峰特別提到,華為更關注的是AI真正的行業化應用,關注tokens實現的價值而非總量。他們希望讓更多企業真正用好AI,讓AI進入生產流程中,實現增值,進而推動AI的平民化。
魔擎社區地址:
https://modelengine-ai.net
一、拆解Flex:ai三個關鍵能力:一張卡變N張卡、負載算力精準匹配、通算和智算融合
具體來看,Flex:ai主要有三個方面的關鍵能力:
1、算力資源切分,一卡變N卡服務多個AI工作負載
通過算力切分技術,將單張GPU/NPU算力卡切分為多份虛擬算力單元,切分粒度精準至10%。此技術實現了單卡同時承載多個AI工作負載,在無法充分利用整卡算力的AI工作負載場景下,算力資源平均利用率可提升30%。
![]()
2、多級智能調度,實現AI工作負載與算力資源的“精準匹配”
通過全局智能調度器Hi Scheduler,自動感知集群負載與資源狀態,結合AI工作負載的優先級、算力需求等多維參數,對本地及遠端的虛擬化GPU、NPU資源進行全局最優調度,實現AI工作負載分時復用資源。即便在負載頻繁波動的場景下,也能保障任務平穩運行。
![]()
3、跨節點算力資源聚合,實現通用算力與智能算力資源融合
聚合集群內各節點的空閑XPU算力聚合形成“共享算力池”,通用服務器通過高速網絡將AI工作負載轉發至池內GPU/NPU卡執行,實現通用算力與智能算力資源融合。
![]()
二、AI大模型時代,AI容器技術升級勢在必行
為什么要發布并開源Flex:ai AI容器技術?在華為看來,大模型時代,容器與AI是天然搭檔。
容器技術作為一種輕量級虛擬化技術,可以將模型代碼、運行環境等打包成一個獨立的、輕量級的鏡像,實現跨平臺無縫遷移,解決模型部署“環境配置不一致”的痛點。容器還可以按需掛載GPU、NPU算力資源,按需分配和回收“資源”,提升集群整體資源利用率。
Gartner的分析師表示,目前AI負載大多都已容器化部署和運行,據預測,到2027年,75%以上的AI工作負載將采用容器技術進行部署和運行。
華為提到,當前傳統容器技術已無法完全滿足AI工作負載需求,AI時代需要AI容器。
![]()
大型語言模型(LLM)的容器鏡像輕松突破10GB,多模態模型鏡像甚至可達TB級別,傳統容器無法支持超大鏡像的快速拉起,環境構建時間往往長達數小時。
傳統容器主要針對CPU、內存等通用計算資源進行管理與調度,而AI大模型訓練與推理還需大幅依賴GPU、NPU等智能算力資源,傳統容器無法對異構智算資源做到算力細粒度切分與智能調度,導致即使很小的AI工作負載也獨占整張算力卡,且無法進行遠程調用。
傳統容器的資源調度以固定分配、通用調度為主,而AI工作負載的資源調度需要以保障任務完成效率為目標,對不同任務的SLO特性進行感知,實現動態彈性的資源分配。
三、對標英偉達Run:ai,虛擬化和智能調度是關鍵優勢
AI容器領域業界已經有多家企業推出了不同產品,與英偉達今年年初收購的Run:ai公司的核心產品相比,華為Flex:ai主要在虛擬化和智能調度方面有一定優勢。
具體來看,在本地虛擬化技術中,Flex:ai支持把單個物理GPU/NPU算力卡切割為數個虛擬算力單元,并通過彈性靈活的資源隔離技術,可實現算力單元的按需切分。
同時,Flex:ai獨有的“拉遠虛擬化”技術,可以在不做復雜的分布式任務設置情況下,將集群內各節點的空閑XPU算力聚合形成“共享算力池”,此時不具備智能計算能力的通用服務器通過高速網絡,可將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行,實現通用算力與智能算力資源融合。
智能調度方面,Flex:ai智能資源和任務調度技術,可自動感知集群負載與資源狀態,結合AI工作負載的優先級、算力需求等多維參數,對本地及遠端的虛擬化GPU、NPU資源進行全局最優調度,滿足不同AI工作負載對資源的需求。
比如高優先級AI工作負載可以獲得更高性能算力資源支持,在出現算力資源已被全部占滿的情況下,能直接搶占其他任務資源,確保最重要的任務能夠完成。而優先級較低的AI工作負載,則可以在算力閑時如夜間執行,實現分時調度;針對增量訓練場景,Flex:ai還可智能感知集群中增量數據的變化,達到一定閾值后,觸發數據飛輪。
結語:AI容器技術升級,AI平民化提速
現如今,不同行業、不同場景的AI工作負載差異較大,Flex:ai的開源,可提供提升算力資源利用率的基礎能力和部分實踐案例,隨著更多產業玩家的加入,業界必將完成更多基于這一技術結合場景的落地探索。
與此同時,開源的Flex:ai可以在產學研各界開發者的參與下,共同推動異構算力虛擬化與AI應用平臺對接的標準構建,形成算力高效利用的標準化解決方案,進一步加速AI的平民化。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.