![]()
![]()
![]()
把端側AI生態,向前推進一小步。
作者|劉楊楠
編輯|栗子
“你們有信心嗎!”
11月13日,安謀科技Arm China“周易”X3 NPU IP發布會臨近尾聲,安謀科技Arm China CEO陳鋒低調現身會場后方,作為現場Q&A環節的最后一位“提問者”,向臺上的三位演講者發問。這場精心安排的互動彩蛋,也將整場發布會的情緒推至高潮。
陳鋒自今年2月出任CEO以來,便帶領公司開啟“All in AI”的產品戰略,推動公司在AI領域全面投入。其中,端側AI是安謀科技AI Arm China戰略的重要方向。此次發布會主角“周易”X3便是專為端側AI打造的NPU IP。
![]()
可陳鋒的問題,或許不只是向臺上的同僚提問,更是向整個端側AI芯片設計市場提問。
當前的端側AI市場火熱之余仍面臨巨大的不確定性。算法的快速迭代、市場需求的碎片化、客戶對成本與性能的雙重苛求,都讓芯片廠商如履薄冰。
安謀科技Arm China產品研發副總裁劉浩在發布會上坦言,端側AI正面臨著前所未有的挑戰。“首先是大模型的需求,它算力巨大,參數眾多,對算力、帶寬、存儲都提出了極具挑戰性的要求,形成了所謂的‘算力墻’‘面積墻’‘功耗墻’。其次是多模態的需求,輸入不再只是文字,可能是圖像、視頻、點云、語音,這要求NPU支持更多異構算子。第三是混合專家系統(MoE)的需求,動態路由、動態任務分配,這些都需要架構具備靈活的算力調度和高帶寬互聯能力。”劉浩說。
![]()
安謀科技Arm China產品研發副總裁劉浩
更令人捉摸不透的,是模型迭代速度。劉浩舉了一個生動的例子:“客戶在芯片流片成功進入量產之際,他的模型和算法仍然需要兩周一次的迭代。這就要求芯片硬件必須有足夠的通用性,無論新的算子還是模型出現,硬件都能靈活支持。”
于是,端側AI芯片IP的設計陷入了兩難境地——過于專用化的架構雖然面效比、能效比高,但無法適應快速變化的算法;而過于通用化的架構雖然靈活,但能效比低下,難以滿足端側設備的嚴格約束。
而安謀科技Arm China在其中找到了一條四兩撥千斤的生存法則,他們在進攻與防守之間找到了一個平衡點,并以此為基礎,展開了一場“中庸”的突圍。
1.DSP+DSA的融合與平衡
在NPU IP的設計哲學中,“靈活性”與“效率”幾乎是一對永恒的矛盾 。
為了追求極致的效率,業界一度推崇DSA(Domain-Specific Architecture,專用領域架構)。這是一種為特定任務(如早期的CNN)量身定制的硬件加速器。
在處理CNN網絡時,它可以實現極高的能效比,但其缺陷也同樣致命,它高效但“脆弱” 。當算法范式從CNN迭代到Transformer時,那些為CNN硬化的DSA可能會幾乎瞬間死機。
而與之相對的DSP(Digital Signal Processor,數字信號處理器),則是一種更通用的計算單元。它靈活,能夠處理各種算法,但如果用它來硬磕Transformer所需的高密度的矩陣運算,又會顯得能效比低下。
因此,“周易”X3在二者間找到了融合共存的平衡,采用了先進的DSP+DSA 融合架構。安謀科技Arm China NPU產品線負責人兼首席架構師舒浩博士將其類比為汽車的“混合動力引擎”。
![]()
安謀科技Arm China NPU產品線負責人兼首席架構師舒浩博士
在這個架構中,有兩個核心計算單元。
其一是被喻為“武”的AIFF(AI Fixed-Function)引擎 ,它就是DSA的化身,具備專用向量加速能力,負責架構的效率,高效處理那些高頻、重度、相對固定的計算任務,例如Transformer中必不可少的矩陣乘法和LayerNorm操作 。其二是被喻為“文”的TEC處理器(Task Execution Cell),它扮演DSP的角色,具備通用向量計算能力,負責整套架構的靈活性。
在當前大模型范式下,盡管Tensor(張量)計算占據了模型約70%的計算量,但剩下的30% Vector(向量)計算其實更為復雜其計算類型的數量約達Tensor計算的四倍以上。
Vector計算的關鍵在于“靈活性”而非“算力”。如果硬件無法原生支持,就不得不求助于CPU/GPU等異構方案。然而,跨設備的數據傳輸與同步會帶來巨大成本,最終,這20%-30%的Vector工作量很可能成為制約整體性能的瓶頸。
因此,這種融合架構的好處就是兼具靈活性和高效率。對于占比高(約70%)但類型相對固定的計算任務,如矩陣運算、卷積操作等,由AIFF加速器負責,確保高效能;對于占比低(約30%)但種類繁多的計算需求,如激活函數、動態控制流等,由TEC處理器處理,保證靈活性。
同時,安謀科技Arm China提供了圖靈完備的指令集,并專門為AI模型設計了約1200條向量指令,以確保功能的完備性,徹底消除此類瓶頸。
這種“文武雙全”的協同設計,帶來了驚人的性能飛躍。以Transformer模型中極為關鍵的Softmax算子為例,通過DSP和DSA的深度協同優化,“周易”X3實現了10倍的性能提升 。
更重要的是,這種架構平衡還解決了一個系統級的效率難題——降低不必要的CPU負載。
傳統NPU在執行任務時,需要CPU的頻繁介入和調度。而“周易”X3集成了專用的硬化調度器。所謂“硬化”,就是將原本需要軟件在CPU上執行的調度任務,直接用硬件電路在NPU內部實現。這帶來了一個革命性的成果:NPU在并行處理多項AI任務時,對主CPU的資源占用降低至0.5% 。
這使得NPU幾乎可以“自給自足”,將寶貴的CPU資源釋放給其他應用,真正實現了高效的異構計算。
雖然“DSP+DSA”的混合架構解決了計算靈活性的問題,平衡了專用計算的高效率與通用計算的靈活性。但在真實端側AI場景中,模型完成一個任務往往需要經過多次推理,如何在高效、靈活度同時,保持足夠的準確性,是影響模型在端側應用效果的關鍵,這就需要在數據精度上做文章。
2.從定點到混合浮點,讓模型更聰明
我們先來厘清兩個概念:TOPS(Tera Operations Per Second)和TFLOPS(Tera Floating Point Operations Per Second)。
TOPS通常指的是每秒萬億次定點運算,這是一種低精度、高效率的計算方式,但容易在復雜運算中損失精度;而TFLOPS指的是每秒萬億次浮點運算,浮點計算能夠保留小數,精度更高,更適合AI大模型復雜的推理過程。
傳統的端側NPU大多采用INT8定點計算,這種方式雖然能效比高,但在處理復雜大模型時精度損失嚴重。
因此,“周易”X3大膽地轉向了浮點計算,并創新性地采用了W4A8/W4A16的混合精度模式,即模型權重(Weight)采用4位整數,激活值(Activation)采用8位或16位浮點。
安謀科技Arm China產品總監鮑敏祺解釋了這一選擇的背后邏輯:“大模型90%的帶寬消耗來自權重,這意味著,要想模型流暢運行,就要想盡一切辦法降低模型權重的比特數,所以我們采用W4低比特來解決存儲和帶寬問題;而激活值是模型精度的生命線,如果精度太低,經過幾次推理后結果就會完全失真,采用浮點計算可以保證模型的‘智能’和準確性,避免出現‘胡說八道’的情況。”
![]()
安謀科技Arm China產品總監鮑敏祺
此外,從定點轉向浮點,還能讓客戶省去復雜且耗時的量化過程。“量化”是指將模型從高精度的浮點格式(如FP32)壓縮到低精度的定點格式(如INT8)的過程,這個過程費時費力,且常常伴隨精度受損的風險 。
然而,純浮點計算也并非完美方案,其對端側設備的帶寬和功耗而言是難以承受的。
因此,“周易”X3采用了W4A8 / W4A16的低精度混合計算方案。“W4”代表將模型權重壓縮至4比特,極大地壓縮了模型的體積,同時也降低了數據搬運量;“A8/A16”意味著計算過程中的中間數據被保留在8比特或16比特的浮點格式。
W4A8/A16的混合精度方案,是“周易”X3在模型精度與系統帶寬限制之間找到的最佳平衡點 。它在有效降低模型體積和帶寬占用的同時,最大限度地保留了LLM的推理精度。
“周易”X3還支持int4 / int8 / int16 / int32 / fp4 / fp8 / fp16 / bf16 / fp32多精度融合計算,強浮點計算,可靈活適配智能手機邊緣部署、AI PC推理、智能汽車等從傳統CNN到前沿大模型的數據類型需求,平衡性能與能效。
不過,W4A8/W4A16的混合精度固然是一個精妙的取舍,能在有限的硬件資源下實現大模型的高效推理,但對于大模型而言,權重參數動輒數十億,即使采用低比特壓縮,仍需要巨大的內存帶寬來支撐數據吞吐。
3.如何打通內存墻,提升有效帶寬?
在芯片設計中,算力的提升相對容易,但帶寬的增長卻受限于物理封裝工藝、功耗和成本等因素。
這就導致了一個普遍的尷尬局面:NPU的計算單元,如X3的AIFF引擎快如閃電,但它們大部分時間都在空轉,被動地等待數據從緩慢的主內存(DDR)中搬運過來。此時,芯片上再高的紙面算力都只是擺設。
“周易”X3的策略則是不盲目堆砌紙面算力,聚焦于提升有效帶寬,榨干硬件的每一分潛力 。
首先,X3在硬件基礎上做了扎實的提升。其單Core帶寬高達256GB/s,這相較于傳統CNN加速器常見的64GB/s,提升整整4倍。但這只是第一步。
真正的“殺手锏”是兩項軟硬協同的創新。
第一項是安謀科技Arm China自研的硬件解壓單元WDC(Weight Decompression Engine,權重解壓縮引擎)。它與W4量化協同工作,模型權重(W4)在存入內存時,會先通過軟件進行一次無損壓縮;當計算單元需要這些數據時,WDC硬件會實時將其解壓出來再送去計算。
這能夠在不增加物理帶寬的情況下,額外獲得約15%的等效帶寬提升 。正是憑借這項技術,經實測結果顯示,在Llama2 7B模型上,“周易”X3的Prefill階段算力利用率達到72%,Decode階段在開啟WDC的情況下有效帶寬利用率超過100%。
第二項創新是動態Shape(Dynamic Shape)支持。
所謂動態 Shape,是指在AI推理過程中,每一次輸入的數據量與任務規模都可能不同。傳統 NPU 由于缺乏足夠的通用性與靈活性,無法在運行時動態調整計算流程,通常采用“對齊”方式,將不同尺寸的輸入統一處理成固定格式。這種做法不可避免會引入無效計算,浪費算力,降低整體效率。
而“周易”X3 NPU憑借其內部靈活的架構與通用處理能力,能夠實現僅對有效數據執行計算,從而在動態場景下實現更高效率。經實際比對,動態Shape相較于靜態定點方式,最高可帶來4倍性能提升與近3倍的功耗降低。
通過WDC和動態Shape的軟硬協同,X3巧妙化解了內存墻對效率的影響,將紙面算力高效轉化為了用戶能真實感受到的有效性能。
4.從“好用”到“用好”的關鍵在于軟件
然而,強大的硬件特性,必須依賴高效、開放的軟件工具鏈才能最終轉化為客戶價值。
在端側AI應用碎片化的時代,一個封閉的工具鏈是致命的。它不僅難以快速適配海量涌現的新模型,更無法滿足客戶保護自身核心算法、實現差異化競爭的訴求。
“周易”X3的Compass AI軟件平臺則在易用性和定制化之間,構建了一種動態平衡。
![]()
在易用性上,Compass平臺讓X3變得“好用”。其核心的AIPULLM工具鏈可以支持開發者從Hugging Face上下載模型,并完成一站式轉化和部署,極大降低了開發門檻 。同時,平臺還支持GPTQ等大模型主流量化方案 ,讓模型的快速適配成為可能。
在定制化上,Compass平臺讓用戶真正“用好”X3。安謀科技Arm China深知,對于客戶而言,最高效的算法往往是他們差異化的護城河。為了賦能客戶,同時保護他們的知識產權,Compass平臺采取了深度的開放策略。
首先是開放核心組件。平臺將Parser(模型解析器)、Optimizer(優化器)、Linux Driver(驅動)等核心組件相繼開放 。這使得開發者可以進行白盒調試,清晰地看到工具鏈的每一步操作,而不是面對一個無法理解的黑盒。
其次是支持自定義算子。平臺提供了一種DSL(Domain-Specific Language,領域特定語言) 。通過這種專用的編程語言,客戶可以在深度開發模式下,編寫自己的自定義算子。這項功能至關重要,它意味著客戶可以將自己最核心、最機密的算法IP,直接編譯到底層硬件上運行,既能享受NPU的加速,又無需將算法細節暴露給任何人 。
![]()
“周易”NPU Compass AI軟件平臺
更有趣的是,安謀科技Arm China還提供了一個與硬件比特級精確的仿真器。這個“硅前”(pre-silicon)開發工具,允許客戶在拿到物理芯片之前的數個月甚至一年,就開始進行軟件開發、算法驗證和性能調優 ,從而極大地縮短上市周期。
至此,安謀科技Arm China這場“中庸”的突圍完成了嚴密的邏輯閉環。從應對不確定性的混合計算架構 ,到平衡精度與帶寬效率的混合精度設計 ,再到榨干物理極限的帶寬優化 ,最后用一套開放的軟件生態將其全部賦能給客戶。
回看“周易”系列NPU的研發歷程,就會發現X3的發布并非一日之功,而是安謀科技Arm China NPU團隊長期主義的必然兌現,整套戰略背后有一個核心支點,就是安謀科技Arm China對當前市場需求和應用場景的清醒認知。
5.難而正確的“中庸之道”
回顧安謀科技Arm China的NPU布局,可以清晰地看到“周易”系列如何逐步從感知AI時代向認知智能過渡。
![]()
早期的Z1/Z2聚焦于TOPS級的“感知”能力,主要應用于AIoT的基礎識別功能(如人臉識別) ;隨后的中期(X1/X2)開始支持更復雜的應用,如高級汽車輔助駕駛(ADAS)和AI PC上的AIGC輕量級應用 ;而當前的X3則全面適配Transformer架構的模型需求。
可以看到,“周易”系列的產品迭代一直在圍繞市場需求變化推進。“周易”X3的更新同樣如此。
只是,就目前端側AI市場來說,很多端側用戶其實并沒有很清晰的算力選型策略。鮑敏祺透露,公司現有客戶中可能有30%需求相對明確,而70%的客戶仍在觀望。這種情況下,芯片IP的架構設計必須“中庸”,不能過于激進。“萬一你提前押注某個方向,但有一天忽然發現走不下去了,那基本上你就把客戶一起帶到溝里去了。”他說。
因此,“中庸”并非平庸。要做到真正的“靈活適配”,不僅考驗安謀科技Arm China研發團隊的綜合實力——包括對前沿算法變化的敏銳判斷,以及整個IP設計的工程化思考和執行力,更考驗企業決策者的戰略定力。這是一條真正困難但正確的路。
“周易”X3的核心價值,就在于它通過層層技術創新,在當前極其碎片化的端側用戶需求中找到了數個平衡點。
![]()
在架構的平衡上,它采用DSP+DSA融合架構,平衡了專用計算的效率與通用算法的靈活,確保硬件能適應未來不可知的算法迭代;在精度的平衡上,通過W4A8/W4A16混合浮點計算,平衡了LLM推理所需的精度與端側的內存帶寬限制。
這緊密關聯到帶寬的平衡,即通過WDC解壓硬件和動態Shape支持,平衡了峰值算力與系統有效效率,解決了困擾端側大模型的內存瓶頸 。最后,這一切又通過生態的平衡得以閉環。憑借開放的Compass AI軟件平臺,平衡了IP的易用性與客戶的差異化定制需求,同時還保護了客戶的核心知識產權。
目前,新一代“周易”X3 NPU IP將端側智能的邊界拓展至更廣闊的應用場景,面向基礎設施、智能汽車、移動終端、智能物聯網四大領域,精準匹配當前爆發的端側AI需求,可廣泛應用于加速卡、智能座艙、ADAS、具身智能、AI PC、AI手機、智能網關、智能IPC等AI設備。
從高性能的智能駕駛到低功耗的物聯網設備,每個領域對性能、功耗和成本的訴求都大相徑庭,而“周易”X3的架構則給用戶提供了一個“進可攻,退可守”的選擇。
正如“周易”NPU的命名出處《易經》中所言:“天地交而萬物通,上下交而其志同。” “周易”X3使得位于產業鏈不同環節、不同行業領域的合作伙伴,都能在一個統一的平臺上進行開發。當更多生態玩家都能嘗試在自己的場景下先邁出一步,高效部署端側AI的有效路徑,或許就會在眾人的實踐中迅速厘清。
(封面圖以及文中配圖來源:安謀科技Arm China)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.