網易首頁 > 網易號 > 正文申請入駐

剛剛，華為AI突破性技術公布！英偉達花50億才買到“同款”

2025-11-21 18:31:24　來源: 智東西

北京舉報

分享至

智東西
作者云鵬
編輯心緣

智東西11月21日報道，剛剛，華為正式發布了Flex:ai，一項能夠將智算資源利用率提升30%的AI容器技術。值得一提的是，這項技術并無生態限制，英偉達的GPU和華為昇騰NPU等算力卡都可以用。

具體來看，Flex:ai是基于Kubernetes容器編排平臺構建的XPU池化與調度軟件，通過對GPU、NPU等智能算力資源的精細化管理與智能調度，實現AI工作負載與算力資源的“精準匹配”，進而提升算力資源利用率。

以軟件補硬件提升AI訓推效率、通過開放兼容降低軟件開發難度，是其主要特點。

此前，英偉達于2024年4月以7億美元（約合人民幣49.7億元）收購了以色列AI基礎設施公司Run:ai，這家公司核心技術和產品就是提升GPU利用率，能夠補充英偉達在AI計算資源管理領域的軟件能力。

華為的Flex:ai有其“對標”的意味在，填補國內這一領域的空白，但同時開源的更加全面，相比Run:ai的解決方案，在虛擬化、智能調度方面有其獨特技術優勢。

Flex:ai將在發布后開源在魔擎社區中，與華為此前開源的Nexent智能體框架、AppEngine應用編排、DataMate數據工程、UCM推理記憶數據管理器等AI工具共同組成了完整的ModelEngine開源生態。

華為特別提到，這項技術“從第一天起”就是高校一起合作開發的。在華為看來，開源是非常重要的，算力資源利用率的提升絕非“一概而論”，需要根據實際業務場景來分析，形成一系列算法。因此華為希望更多客戶利用開源生態，將技術拿到自身實際業務場景中，共同探索、解決問題。

華為公司副總裁、數據存儲產品線總裁周躍峰特別提到，華為更關注的是AI真正的行業化應用，關注tokens實現的價值而非總量。他們希望讓更多企業真正用好AI，讓AI進入生產流程中，實現增值，進而推動AI的平民化。

魔擎社區地址：
https://modelengine-ai.net

一、拆解Flex:ai三個關鍵能力：一張卡變N張卡、負載算力精準匹配、通算和智算融合

具體來看，Flex:ai主要有三個方面的關鍵能力：

1、算力資源切分，一卡變N卡服務多個AI工作負載

通過算力切分技術，將單張GPU/NPU算力卡切分為多份虛擬算力單元，切分粒度精準至10%。此技術實現了單卡同時承載多個AI工作負載，在無法充分利用整卡算力的AI工作負載場景下，算力資源平均利用率可提升30%。

2、多級智能調度，實現AI工作負載與算力資源的“精準匹配”

通過全局智能調度器Hi Scheduler，自動感知集群負載與資源狀態，結合AI工作負載的優先級、算力需求等多維參數，對本地及遠端的虛擬化GPU、NPU資源進行全局最優調度，實現AI工作負載分時復用資源。即便在負載頻繁波動的場景下，也能保障任務平穩運行。

3、跨節點算力資源聚合，實現通用算力與智能算力資源融合

聚合集群內各節點的空閑XPU算力聚合形成“共享算力池”，通用服務器通過高速網絡將AI工作負載轉發至池內GPU/NPU卡執行，實現通用算力與智能算力資源融合。

二、AI大模型時代，AI容器技術升級勢在必行

為什么要發布并開源Flex:ai AI容器技術？在華為看來，大模型時代，容器與AI是天然搭檔。

容器技術作為一種輕量級虛擬化技術，可以將模型代碼、運行環境等打包成一個獨立的、輕量級的鏡像，實現跨平臺無縫遷移，解決模型部署“環境配置不一致”的痛點。容器還可以按需掛載GPU、NPU算力資源，按需分配和回收“資源”，提升集群整體資源利用率。

Gartner的分析師表示，目前AI負載大多都已容器化部署和運行，據預測，到2027年，75%以上的AI工作負載將采用容器技術進行部署和運行。

華為提到，當前傳統容器技術已無法完全滿足AI工作負載需求，AI時代需要AI容器。

大型語言模型（LLM）的容器鏡像輕松突破10GB，多模態模型鏡像甚至可達TB級別，傳統容器無法支持超大鏡像的快速拉起，環境構建時間往往長達數小時。

傳統容器主要針對CPU、內存等通用計算資源進行管理與調度，而AI大模型訓練與推理還需大幅依賴GPU、NPU等智能算力資源，傳統容器無法對異構智算資源做到算力細粒度切分與智能調度，導致即使很小的AI工作負載也獨占整張算力卡，且無法進行遠程調用。

傳統容器的資源調度以固定分配、通用調度為主，而AI工作負載的資源調度需要以保障任務完成效率為目標，對不同任務的SLO特性進行感知，實現動態彈性的資源分配。

三、對標英偉達Run:ai，虛擬化和智能調度是關鍵優勢

AI容器領域業界已經有多家企業推出了不同產品，與英偉達今年年初收購的Run:ai公司的核心產品相比，華為Flex:ai主要在虛擬化和智能調度方面有一定優勢。

具體來看，在本地虛擬化技術中，Flex:ai支持把單個物理GPU/NPU算力卡切割為數個虛擬算力單元，并通過彈性靈活的資源隔離技術，可實現算力單元的按需切分。

同時，Flex:ai獨有的“拉遠虛擬化”技術，可以在不做復雜的分布式任務設置情況下，將集群內各節點的空閑XPU算力聚合形成“共享算力池”，此時不具備智能計算能力的通用服務器通過高速網絡，可將AI工作負載轉發到遠端“資源池”中的GPU/NPU算力卡中執行，實現通用算力與智能算力資源融合。

智能調度方面，Flex:ai智能資源和任務調度技術，可自動感知集群負載與資源狀態，結合AI工作負載的優先級、算力需求等多維參數，對本地及遠端的虛擬化GPU、NPU資源進行全局最優調度，滿足不同AI工作負載對資源的需求。

比如高優先級AI工作負載可以獲得更高性能算力資源支持，在出現算力資源已被全部占滿的情況下，能直接搶占其他任務資源，確保最重要的任務能夠完成。而優先級較低的AI工作負載，則可以在算力閑時如夜間執行，實現分時調度；針對增量訓練場景，Flex:ai還可智能感知集群中增量數據的變化，達到一定閾值后，觸發數據飛輪。

結語：AI容器技術升級，AI平民化提速

現如今，不同行業、不同場景的AI工作負載差異較大，Flex:ai的開源，可提供提升算力資源利用率的基礎能力和部分實踐案例，隨著更多產業玩家的加入，業界必將完成更多基于這一技術結合場景的落地探索。

與此同時，開源的Flex:ai可以在產學研各界開發者的參與下，共同推動異構算力虛擬化與AI應用平臺對接的標準構建，形成算力高效利用的標準化解決方案，進一步加速AI的平民化。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.