網易首頁 > 網易號 > 正文申請入駐

安謀科技發布“周易”X3，一場“中庸”的突圍 | 甲子光年

2025-11-17 17:01:10　來源: 甲子光年

北京舉報

分享至

把端側AI生態，向前推進一小步。

作者｜劉楊楠

編輯｜栗子

“你們有信心嗎！”

11月13日，安謀科技Arm China“周易”X3 NPU IP發布會臨近尾聲，安謀科技Arm China CEO陳鋒低調現身會場后方，作為現場Q&A環節的最后一位“提問者”，向臺上的三位演講者發問。這場精心安排的互動彩蛋，也將整場發布會的情緒推至高潮。

陳鋒自今年2月出任CEO以來，便帶領公司開啟“All in AI”的產品戰略，推動公司在AI領域全面投入。其中，端側AI是安謀科技AI Arm China戰略的重要方向。此次發布會主角“周易”X3便是專為端側AI打造的NPU IP。

可陳鋒的問題，或許不只是向臺上的同僚提問，更是向整個端側AI芯片設計市場提問。

當前的端側AI市場火熱之余仍面臨巨大的不確定性。算法的快速迭代、市場需求的碎片化、客戶對成本與性能的雙重苛求，都讓芯片廠商如履薄冰。

安謀科技Arm China產品研發副總裁劉浩在發布會上坦言，端側AI正面臨著前所未有的挑戰。“首先是大模型的需求，它算力巨大，參數眾多，對算力、帶寬、存儲都提出了極具挑戰性的要求，形成了所謂的‘算力墻’‘面積墻’‘功耗墻’。其次是多模態的需求，輸入不再只是文字，可能是圖像、視頻、點云、語音，這要求NPU支持更多異構算子。第三是混合專家系統(MoE)的需求，動態路由、動態任務分配，這些都需要架構具備靈活的算力調度和高帶寬互聯能力。”劉浩說。

安謀科技Arm China產品研發副總裁劉浩

更令人捉摸不透的，是模型迭代速度。劉浩舉了一個生動的例子：“客戶在芯片流片成功進入量產之際，他的模型和算法仍然需要兩周一次的迭代。這就要求芯片硬件必須有足夠的通用性，無論新的算子還是模型出現，硬件都能靈活支持。”

于是，端側AI芯片IP的設計陷入了兩難境地——過于專用化的架構雖然面效比、能效比高，但無法適應快速變化的算法；而過于通用化的架構雖然靈活，但能效比低下，難以滿足端側設備的嚴格約束。

而安謀科技Arm China在其中找到了一條四兩撥千斤的生存法則，他們在進攻與防守之間找到了一個平衡點，并以此為基礎，展開了一場“中庸”的突圍。

1.DSP+DSA的融合與平衡

在NPU IP的設計哲學中，“靈活性”與“效率”幾乎是一對永恒的矛盾。

為了追求極致的效率，業界一度推崇DSA（Domain-Specific Architecture，專用領域架構）。這是一種為特定任務（如早期的CNN）量身定制的硬件加速器。

在處理CNN網絡時，它可以實現極高的能效比，但其缺陷也同樣致命，它高效但“脆弱” 。當算法范式從CNN迭代到Transformer時，那些為CNN硬化的DSA可能會幾乎瞬間死機。

而與之相對的DSP（Digital Signal Processor，數字信號處理器），則是一種更通用的計算單元。它靈活，能夠處理各種算法，但如果用它來硬磕Transformer所需的高密度的矩陣運算，又會顯得能效比低下。

因此，“周易”X3在二者間找到了融合共存的平衡，采用了先進的DSP+DSA 融合架構。安謀科技Arm China NPU產品線負責人兼首席架構師舒浩博士將其類比為汽車的“混合動力引擎”。

安謀科技Arm China NPU產品線負責人兼首席架構師舒浩博士

在這個架構中，有兩個核心計算單元。

其一是被喻為“武”的AIFF（AI Fixed-Function）引擎，它就是DSA的化身，具備專用向量加速能力，負責架構的效率，高效處理那些高頻、重度、相對固定的計算任務，例如Transformer中必不可少的矩陣乘法和LayerNorm操作。其二是被喻為“文”的TEC處理器（Task Execution Cell），它扮演DSP的角色，具備通用向量計算能力，負責整套架構的靈活性。

在當前大模型范式下，盡管Tensor（張量）計算占據了模型約70%的計算量，但剩下的30% Vector（向量）計算其實更為復雜其計算類型的數量約達Tensor計算的四倍以上。

Vector計算的關鍵在于“靈活性”而非“算力”。如果硬件無法原生支持，就不得不求助于CPU/GPU等異構方案。然而，跨設備的數據傳輸與同步會帶來巨大成本，最終，這20%-30%的Vector工作量很可能成為制約整體性能的瓶頸。

因此，這種融合架構的好處就是兼具靈活性和高效率。對于占比高(約70%)但類型相對固定的計算任務，如矩陣運算、卷積操作等，由AIFF加速器負責，確保高效能；對于占比低(約30%)但種類繁多的計算需求，如激活函數、動態控制流等，由TEC處理器處理，保證靈活性。

同時，安謀科技Arm China提供了圖靈完備的指令集，并專門為AI模型設計了約1200條向量指令，以確保功能的完備性，徹底消除此類瓶頸。

這種“文武雙全”的協同設計，帶來了驚人的性能飛躍。以Transformer模型中極為關鍵的Softmax算子為例，通過DSP和DSA的深度協同優化，“周易”X3實現了10倍的性能提升。

更重要的是，這種架構平衡還解決了一個系統級的效率難題——降低不必要的CPU負載。

傳統NPU在執行任務時，需要CPU的頻繁介入和調度。而“周易”X3集成了專用的硬化調度器。所謂“硬化”，就是將原本需要軟件在CPU上執行的調度任務，直接用硬件電路在NPU內部實現。這帶來了一個革命性的成果：NPU在并行處理多項AI任務時，對主CPU的資源占用降低至0.5% 。

這使得NPU幾乎可以“自給自足”，將寶貴的CPU資源釋放給其他應用，真正實現了高效的異構計算。

雖然“DSP+DSA”的混合架構解決了計算靈活性的問題，平衡了專用計算的高效率與通用計算的靈活性。但在真實端側AI場景中，模型完成一個任務往往需要經過多次推理，如何在高效、靈活度同時，保持足夠的準確性，是影響模型在端側應用效果的關鍵，這就需要在數據精度上做文章。

2.從定點到混合浮點，讓模型更聰明

我們先來厘清兩個概念：TOPS（Tera Operations Per Second）和TFLOPS（Tera Floating Point Operations Per Second）。

TOPS通常指的是每秒萬億次定點運算，這是一種低精度、高效率的計算方式，但容易在復雜運算中損失精度；而TFLOPS指的是每秒萬億次浮點運算，浮點計算能夠保留小數，精度更高，更適合AI大模型復雜的推理過程。

傳統的端側NPU大多采用INT8定點計算，這種方式雖然能效比高，但在處理復雜大模型時精度損失嚴重。

因此，“周易”X3大膽地轉向了浮點計算，并創新性地采用了W4A8/W4A16的混合精度模式，即模型權重(Weight)采用4位整數，激活值(Activation)采用8位或16位浮點。

安謀科技Arm China產品總監鮑敏祺解釋了這一選擇的背后邏輯：“大模型90%的帶寬消耗來自權重，這意味著，要想模型流暢運行，就要想盡一切辦法降低模型權重的比特數，所以我們采用W4低比特來解決存儲和帶寬問題；而激活值是模型精度的生命線，如果精度太低，經過幾次推理后結果就會完全失真，采用浮點計算可以保證模型的‘智能’和準確性，避免出現‘胡說八道’的情況。”

安謀科技Arm China產品總監鮑敏祺

此外，從定點轉向浮點，還能讓客戶省去復雜且耗時的量化過程。“量化”是指將模型從高精度的浮點格式（如FP32）壓縮到低精度的定點格式（如INT8）的過程，這個過程費時費力，且常常伴隨精度受損的風險。

然而，純浮點計算也并非完美方案，其對端側設備的帶寬和功耗而言是難以承受的。

因此，“周易”X3采用了W4A8 / W4A16的低精度混合計算方案。“W4”代表將模型權重壓縮至4比特，極大地壓縮了模型的體積，同時也降低了數據搬運量；“A8/A16”意味著計算過程中的中間數據被保留在8比特或16比特的浮點格式。

W4A8/A16的混合精度方案，是“周易”X3在模型精度與系統帶寬限制之間找到的最佳平衡點。它在有效降低模型體積和帶寬占用的同時，最大限度地保留了LLM的推理精度。

“周易”X3還支持int4 / int8 / int16 / int32 / fp4 / fp8 / fp16 / bf16 / fp32多精度融合計算，強浮點計算，可靈活適配智能手機邊緣部署、AI PC推理、智能汽車等從傳統CNN到前沿大模型的數據類型需求，平衡性能與能效。

不過，W4A8/W4A16的混合精度固然是一個精妙的取舍，能在有限的硬件資源下實現大模型的高效推理，但對于大模型而言，權重參數動輒數十億，即使采用低比特壓縮，仍需要巨大的內存帶寬來支撐數據吞吐。

3.如何打通內存墻，提升有效帶寬？

在芯片設計中，算力的提升相對容易，但帶寬的增長卻受限于物理封裝工藝、功耗和成本等因素。

這就導致了一個普遍的尷尬局面：NPU的計算單元，如X3的AIFF引擎快如閃電，但它們大部分時間都在空轉，被動地等待數據從緩慢的主內存（DDR）中搬運過來。此時，芯片上再高的紙面算力都只是擺設。

“周易”X3的策略則是不盲目堆砌紙面算力，聚焦于提升有效帶寬，榨干硬件的每一分潛力。

首先，X3在硬件基礎上做了扎實的提升。其單Core帶寬高達256GB/s，這相較于傳統CNN加速器常見的64GB/s，提升整整4倍。但這只是第一步。

真正的“殺手锏”是兩項軟硬協同的創新。

第一項是安謀科技Arm China自研的硬件解壓單元WDC（Weight Decompression Engine，權重解壓縮引擎）。它與W4量化協同工作，模型權重（W4）在存入內存時，會先通過軟件進行一次無損壓縮；當計算單元需要這些數據時，WDC硬件會實時將其解壓出來再送去計算。

這能夠在不增加物理帶寬的情況下，額外獲得約15%的等效帶寬提升。正是憑借這項技術，經實測結果顯示，在Llama2 7B模型上，“周易”X3的Prefill階段算力利用率達到72%，Decode階段在開啟WDC的情況下有效帶寬利用率超過100%。

第二項創新是動態Shape（Dynamic Shape）支持。

所謂動態 Shape，是指在AI推理過程中，每一次輸入的數據量與任務規模都可能不同。傳統 NPU 由于缺乏足夠的通用性與靈活性，無法在運行時動態調整計算流程，通常采用“對齊”方式，將不同尺寸的輸入統一處理成固定格式。這種做法不可避免會引入無效計算，浪費算力，降低整體效率。

而“周易”X3 NPU憑借其內部靈活的架構與通用處理能力，能夠實現僅對有效數據執行計算，從而在動態場景下實現更高效率。經實際比對，動態Shape相較于靜態定點方式，最高可帶來4倍性能提升與近3倍的功耗降低。

通過WDC和動態Shape的軟硬協同，X3巧妙化解了內存墻對效率的影響，將紙面算力高效轉化為了用戶能真實感受到的有效性能。

4.從“好用”到“用好”的關鍵在于軟件

然而，強大的硬件特性，必須依賴高效、開放的軟件工具鏈才能最終轉化為客戶價值。

在端側AI應用碎片化的時代，一個封閉的工具鏈是致命的。它不僅難以快速適配海量涌現的新模型，更無法滿足客戶保護自身核心算法、實現差異化競爭的訴求。

“周易”X3的Compass AI軟件平臺則在易用性和定制化之間，構建了一種動態平衡。

在易用性上，Compass平臺讓X3變得“好用”。其核心的AIPULLM工具鏈可以支持開發者從Hugging Face上下載模型，并完成一站式轉化和部署，極大降低了開發門檻。同時，平臺還支持GPTQ等大模型主流量化方案，讓模型的快速適配成為可能。

在定制化上，Compass平臺讓用戶真正“用好”X3。安謀科技Arm China深知，對于客戶而言，最高效的算法往往是他們差異化的護城河。為了賦能客戶，同時保護他們的知識產權，Compass平臺采取了深度的開放策略。

首先是開放核心組件。平臺將Parser（模型解析器）、Optimizer（優化器）、Linux Driver（驅動）等核心組件相繼開放。這使得開發者可以進行白盒調試，清晰地看到工具鏈的每一步操作，而不是面對一個無法理解的黑盒。

其次是支持自定義算子。平臺提供了一種DSL（Domain-Specific Language，領域特定語言）。通過這種專用的編程語言，客戶可以在深度開發模式下，編寫自己的自定義算子。這項功能至關重要，它意味著客戶可以將自己最核心、最機密的算法IP，直接編譯到底層硬件上運行，既能享受NPU的加速，又無需將算法細節暴露給任何人。

“周易”NPU Compass AI軟件平臺

更有趣的是，安謀科技Arm China還提供了一個與硬件比特級精確的仿真器。這個“硅前”（pre-silicon）開發工具，允許客戶在拿到物理芯片之前的數個月甚至一年，就開始進行軟件開發、算法驗證和性能調優，從而極大地縮短上市周期。

至此，安謀科技Arm China這場“中庸”的突圍完成了嚴密的邏輯閉環。從應對不確定性的混合計算架構，到平衡精度與帶寬效率的混合精度設計，再到榨干物理極限的帶寬優化，最后用一套開放的軟件生態將其全部賦能給客戶。

回看“周易”系列NPU的研發歷程，就會發現X3的發布并非一日之功，而是安謀科技Arm China NPU團隊長期主義的必然兌現，整套戰略背后有一個核心支點，就是安謀科技Arm China對當前市場需求和應用場景的清醒認知。

5.難而正確的“中庸之道”

回顧安謀科技Arm China的NPU布局，可以清晰地看到“周易”系列如何逐步從感知AI時代向認知智能過渡。

早期的Z1/Z2聚焦于TOPS級的“感知”能力，主要應用于AIoT的基礎識別功能（如人臉識別）；隨后的中期（X1/X2）開始支持更復雜的應用，如高級汽車輔助駕駛（ADAS）和AI PC上的AIGC輕量級應用；而當前的X3則全面適配Transformer架構的模型需求。

可以看到，“周易”系列的產品迭代一直在圍繞市場需求變化推進。“周易”X3的更新同樣如此。

只是，就目前端側AI市場來說，很多端側用戶其實并沒有很清晰的算力選型策略。鮑敏祺透露，公司現有客戶中可能有30%需求相對明確，而70%的客戶仍在觀望。這種情況下，芯片IP的架構設計必須“中庸”，不能過于激進。“萬一你提前押注某個方向，但有一天忽然發現走不下去了，那基本上你就把客戶一起帶到溝里去了。”他說。

因此，“中庸”并非平庸。要做到真正的“靈活適配”，不僅考驗安謀科技Arm China研發團隊的綜合實力——包括對前沿算法變化的敏銳判斷，以及整個IP設計的工程化思考和執行力，更考驗企業決策者的戰略定力。這是一條真正困難但正確的路。

“周易”X3的核心價值，就在于它通過層層技術創新，在當前極其碎片化的端側用戶需求中找到了數個平衡點。

在架構的平衡上，它采用DSP+DSA融合架構，平衡了專用計算的效率與通用算法的靈活，確保硬件能適應未來不可知的算法迭代；在精度的平衡上，通過W4A8/W4A16混合浮點計算，平衡了LLM推理所需的精度與端側的內存帶寬限制。

這緊密關聯到帶寬的平衡，即通過WDC解壓硬件和動態Shape支持，平衡了峰值算力與系統有效效率，解決了困擾端側大模型的內存瓶頸。最后，這一切又通過生態的平衡得以閉環。憑借開放的Compass AI軟件平臺，平衡了IP的易用性與客戶的差異化定制需求，同時還保護了客戶的核心知識產權。

目前，新一代“周易”X3 NPU IP將端側智能的邊界拓展至更廣闊的應用場景，面向基礎設施、智能汽車、移動終端、智能物聯網四大領域，精準匹配當前爆發的端側AI需求，可廣泛應用于加速卡、智能座艙、ADAS、具身智能、AI PC、AI手機、智能網關、智能IPC等AI設備。

從高性能的智能駕駛到低功耗的物聯網設備，每個領域對性能、功耗和成本的訴求都大相徑庭，而“周易”X3的架構則給用戶提供了一個“進可攻，退可守”的選擇。

正如“周易”NPU的命名出處《易經》中所言：“天地交而萬物通，上下交而其志同。” “周易”X3使得位于產業鏈不同環節、不同行業領域的合作伙伴，都能在一個統一的平臺上進行開發。當更多生態玩家都能嘗試在自己的場景下先邁出一步，高效部署端側AI的有效路徑，或許就會在眾人的實踐中迅速厘清。

（封面圖以及文中配圖來源：安謀科技Arm China）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.