2025年以來,AI領(lǐng)域迎來了一場關(guān)鍵轉(zhuǎn)折——AI智能體正式“破圈”,從實驗室的精密算法走向千行百業(yè)的生產(chǎn)一線,今年也因此被業(yè)界公認(rèn)為“AI智能體元年”。伴隨著AI應(yīng)用的井噴式增長,算力需求的底層邏輯正在悄然改變:如果說過去的算力焦點是模型訓(xùn)練的“厚積”,那么現(xiàn)在,AI推理的“薄發(fā)”正成為驅(qū)動算力增長的核心引擎。
對于企業(yè)而言,AI大模型的價值不再停留在“能做什么”,而是“能做好什么、能低成本做好什么”。如何在推理環(huán)節(jié)實現(xiàn)“降本、提質(zhì)、增效”的三重突破,打通商業(yè)落地的“最后一公里”,成為所有從業(yè)者共同的考題。就在這個關(guān)鍵節(jié)點,華為全聯(lián)接大會2025期間的昇騰AI人工智能產(chǎn)業(yè)峰會上,一則重磅消息為行業(yè)帶來了新答案。
會上,昇騰聯(lián)合數(shù)十家行業(yè)伙伴集體亮相,將大規(guī)模專家并行(大EP)的六大行業(yè)實踐成果推向臺前。從運營商的AItoC業(yè)務(wù)拓展到政務(wù)的高效便民服務(wù),從教育的個性化學(xué)習(xí)推薦到金融的風(fēng)險實時預(yù)警……這一技術(shù)方案已深度滲透50余家客戶的核心場景,用實打?qū)嵉膽?yīng)用效果展現(xiàn)著推理系統(tǒng)突破帶來的“極致體驗”。
![]()
這場集體發(fā)布的意義遠(yuǎn)超技術(shù)展示本身,它標(biāo)志著中國主流行業(yè)的頭部客戶,正借助昇騰率先打造的大EP方案,在“推理體驗”與“算力成本”的天平上找到精準(zhǔn)平衡點。當(dāng)AI大模型不再是實驗室里的“展品”,而是能穩(wěn)定、高效、經(jīng)濟地服務(wù)于生產(chǎn)場景時,中國AI產(chǎn)業(yè)已然找到AI規(guī)模化落地、可持續(xù)發(fā)展的新范式。
AI大模型落地難,大EP適配MoE推理帶來“最優(yōu)解”
在全球AI大模型產(chǎn)業(yè)化進程中,推理環(huán)節(jié)作為技術(shù)價值轉(zhuǎn)化的核心,直接決定著AI紅利能否真正落地。如果說模型訓(xùn)練是“練兵千日”,那推理就是“用兵一時”。尤其在DeepSeek推動MoE模型成為主流后,這一環(huán)節(jié)的重要性愈發(fā)凸顯,同時也暴露出傳統(tǒng)部署模式與新技術(shù)路線的適配矛盾。
比如在單機部署時,專家權(quán)重的高占用率讓內(nèi)存不堪重負(fù),直接限制了并發(fā)處理能力;采用PD混合部署,又容易出現(xiàn)資源分配失衡,不僅造成算力浪費,還會導(dǎo)致整體性能衰減;更關(guān)鍵的是,MoE模型的動態(tài)路由機制常引發(fā)“專家熱點不均”,部分專家承擔(dān)過量任務(wù)陷入瓶頸,其余專家卻處于閑置狀態(tài),形成算力資源的結(jié)構(gòu)性浪費。
這些架構(gòu)層面的問題,最終轉(zhuǎn)化為企業(yè)可感知的實操痛點,集中表現(xiàn)為“推不動、推得慢、推得貴”。不少企業(yè)即便采購大量算力芯片堆疊,仍難以應(yīng)對長文本處理、多輪對話等復(fù)雜推理需求,硬件資源無法形成有效支撐;輸出結(jié)果的首Token時延居高不下,嚴(yán)重影響用戶交互體驗;單位時間內(nèi)有效處理的Token數(shù)量不足,導(dǎo)致每Token成本高企——直接削弱了企業(yè)在“Token經(jīng)濟時代”下的商業(yè)競爭力。
面對MoE模型帶來的推理瓶頸,昇騰在業(yè)界率先探索出以大EP架構(gòu)創(chuàng)新為核心,結(jié)合超節(jié)點硬件及昇騰基礎(chǔ)加速軟件的“一體化破局”方案,成為適配MoE推理的“最優(yōu)解”。
大EP架構(gòu)的核心邏輯,是將MoE模型的多個路由專家分散部署于多卡環(huán)境,通過動態(tài)調(diào)度實現(xiàn)算力資源的精準(zhǔn)匹配。這既保留了MoE模型“專業(yè)分工”的優(yōu)勢,又解決了“協(xié)同混亂”的問題,讓每卡算力得到充分利用,進而提升系統(tǒng)吞吐率,并降低時延。
而大EP架構(gòu)的高效運轉(zhuǎn),離不開多機多卡的超節(jié)點的支撐,因為大EP的分布式特性對設(shè)備間通信要求極高,需要大帶寬、低時延的互聯(lián)能力保障專家間的數(shù)據(jù)傳輸效率。以昇騰384超節(jié)點為例,其依托華為自研的靈衢互聯(lián)協(xié)議,將通信帶寬提升15倍,單跳通信時延降至200納秒以內(nèi),為專家協(xié)同搭建起“通信高速公路”。
在實際部署中,大EP+昇騰384超節(jié)點可實現(xiàn)DeepSeek模型“1卡1專家”的配置,容納256個路由專家、32 個共享專家及96個冗余專家,既保障了系統(tǒng)穩(wěn)定性,又實現(xiàn)了算力資源的高效利用。
六大行業(yè)優(yōu)秀實踐齊發(fā),推動昇騰大EP成為“事實標(biāo)準(zhǔn)”
從此次發(fā)布的運營商、政務(wù)、教育、金融、大模型、電力六大行業(yè)優(yōu)秀實踐中也可以看到,依托強大垂直整合能力的昇騰大EP方案,從先行先試到規(guī)模落地,已成為MoE模型推理部署的“事實標(biāo)準(zhǔn)”,正為各行各業(yè)企業(yè)帶來顯著的“降本、提質(zhì)、增效”價值。
在電信行業(yè),隨著智能客服、通話助手、5G消息智能體等AItoC應(yīng)用的規(guī)模化普及,運營商面臨著用戶請求量激增帶來的推理性能瓶頸,同時高昂的調(diào)用成本也制約著業(yè)務(wù)的持續(xù)擴張。如何在保證低時延服務(wù)體驗的前提下,提升吞吐能力并控制成本,成為行業(yè)核心挑戰(zhàn)。
對此,三大運營商基于自研AI或大模型平臺部署昇騰大EP方案,構(gòu)建高性能推理API服務(wù)。方案落地后,不僅實現(xiàn)吞吐提升4倍、時延降低50%,更將相關(guān)調(diào)用成本降低超50%,有力支撐了移動AI時代新興業(yè)務(wù)的高速發(fā)展,推動用戶體驗革新升級。
在教育領(lǐng)域,高校在服務(wù)海量師生的AI助教、科研輔助等場景中,常面臨長文本輸入輸出的處理需求,傳統(tǒng)推理方案存在吞吐性能不足的問題,難以高效支撐全校范圍內(nèi)AI教學(xué)、論文速讀、編程輔助等全流程應(yīng)用,影響師生科研與學(xué)習(xí)效率。
國內(nèi)某頂尖985高校引入昇騰大EP方案賦能教學(xué)科研AI場景,將2k長文本輸入輸出場景的吞吐性能提升3倍以上,成功滿足了全校數(shù)萬師生多樣化的AI需求,讓全校師生及科研人員得以"以AI的方式打開AI時代",加速教學(xué)科研創(chuàng)新進程。
金融行業(yè)作為數(shù)字化、智能化的先行者,在銀行業(yè)信貸審批、風(fēng)險管理、證券業(yè)財報點評、智能投顧等眾多場景中,對AI推理的實時性、準(zhǔn)確性和規(guī)模化能力要求極高。然而,傳統(tǒng)方案難以在多場景下同時實現(xiàn)推理性能的質(zhì)變,制約了效率提升與服務(wù)面擴大。
本次發(fā)布中,多家金融機構(gòu)在此次發(fā)布中集中展示了昇騰大EP方案的應(yīng)用成果。以中國郵政儲蓄銀行為例,其在攜手昇騰構(gòu)建千卡訓(xùn)推算力集群、打造“郵智”大模型并開展230個AI場景創(chuàng)新應(yīng)用后,進一步部署昇騰大EP方案,實現(xiàn)3倍吞吐性能提升。這一突破加速了“郵智”大模型的規(guī)模化應(yīng)用,深度賦能智能客服、審貸助手、后訓(xùn)練數(shù)據(jù)合成等業(yè)務(wù)場景,全面推進郵儲銀行面向AI時代的數(shù)智化轉(zhuǎn)型。
數(shù)據(jù)顯示,截至目前,昇騰大EP方案已深入上述六大行業(yè)的50余家客戶核心場景,以“一份投入,多份產(chǎn)出”的高效模式最大化成本效益,助力企業(yè)AI大模型從實驗室穩(wěn)步走向生產(chǎn)場景,攀登新一輪數(shù)智化發(fā)展高地。
技術(shù)垂直整合+行業(yè)場景深耕,“中國方案”加速AI落地
從以上昇騰大EP的行業(yè)實踐與發(fā)展邏輯中,可清晰看到中國AI產(chǎn)業(yè)的差異化發(fā)展路徑,即在單卡算力與全球頂尖水平存在差距、企業(yè)AI投資預(yù)算相對有限的約束下,中國產(chǎn)業(yè)界通過“技術(shù)垂直整合+行業(yè)場景深耕”的組合策略,走出了一條適配自身需求的AI落地之路。
從技術(shù)層面看,當(dāng)國際巨頭更多聚焦于“提升單卡算力”以解決推理難題時,中國企業(yè)選擇從“系統(tǒng)層面優(yōu)化資源效率”切入,通過大EP+超節(jié)點創(chuàng)新,將現(xiàn)有軟硬件資源的協(xié)同效能最大化,以“群體優(yōu)勢”彌補“個體差距”,與中國算力產(chǎn)業(yè)發(fā)展特點實現(xiàn)了“同頻共振”。
從產(chǎn)業(yè)層面看,中國AI產(chǎn)業(yè)的核心需求是“千行百業(yè)的規(guī)模化落地”,而非局限于特定場景的“AGI夢”。這意味著技術(shù)方案必須兼顧“性能”與“成本”,既要滿足復(fù)雜場景的推理需求,又要控制企業(yè)的投入門檻。昇騰大EP方案通過“一份投入,多份產(chǎn)出”,實現(xiàn)了“低成本高性能”的目標(biāo),有力支撐了“人工智能+”的蓬勃發(fā)展。
而面向未來發(fā)展,這種差異化路徑的價值將進一步凸顯。隨著MoE模型向“更大規(guī)模、更多模態(tài)”迭代,單卡算力的提升將面臨物理極限與成本瓶頸,而垂直整合、系統(tǒng)創(chuàng)新的思路將具備更長期的生命力,持續(xù)樹立中國AI產(chǎn)業(yè)在全球競爭中的重要差異化優(yōu)勢。
一言以蔽之,昇騰大EP行業(yè)應(yīng)用的規(guī)模爆發(fā),不僅解決了AI推理的“最后一公里”難題,更印證了中國AI產(chǎn)業(yè)“在約束中創(chuàng)新”的發(fā)展邏輯——不依賴單一硬件的性能突破,而是通過系統(tǒng)層面的整合與優(yōu)化,將技術(shù)創(chuàng)新與產(chǎn)業(yè)需求深度綁定,最終實現(xiàn)AI在千行百業(yè)的落地生根。這種路徑不僅為中國AI產(chǎn)業(yè)的規(guī)模化發(fā)展提供了堅實支撐,也為全球AI產(chǎn)業(yè)的多元化發(fā)展提供了“中國方案”!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.