2025年11月,安謀科技Arm China發布了一款可能改變端側AI游戲規則的產品“周易”X3 NPU IP。這場發布會并不張揚,但技術細節中透露出扎實的革新:8-80 FP8 TFLOPS浮點算力、256GB/s單核帶寬、72%的Prefill算力利用率……這些數字背后,是安謀科技對端側AI困境的深度思考。
從架構革新到生態布局:NPU IP的“破局之道”
端側AI的悖論在于:既要應對大模型的計算復雜度,又必須滿足功耗與成本的嚴苛限制。安謀科技的解法是“回歸第一性原理”,即根據端側AI應用的具體需求來重新設計底層架構。
與傳統NPU不同,“周易”X3專為大模型而生的DSP+DSA混合架構像一套“組合工具”:DSP處理通用計算,DSA針對大模型的矩陣運算、注意力機制(Transformer架構)等任務硬化加速。這種設計在Llama2 7B實測中展現出驚人效率:Decode階段帶寬利用率超100%,相當于用1份硬件資源完成了1.2份任務。
![]()
更值得玩味的是WDC解壓硬件的設計思路。安謀科技沒有簡單追求制程工藝升級,而是通過“算法-硬件協同優化”,讓軟件層完成模型權重的無損壓縮,硬件層實時解壓。
這種“以時間換空間”的策略,為帶寬受限的端側設備爭取到額外15%-20%的等效性能提升。如今,端側芯片的競爭已從純算力轉向效率密度,X3的出現正當其時。
軟硬協同:開發者生態的“破冰之旅”
如果說硬件是骨架,軟件生態才是血肉。安謀科技此次將Compass AI平臺的Parser、Optimizer等核心組件開源,看似是技術決策,實則是生態戰略。
![]()
這種開放性與安謀科技的定位密切相關。作為IP供應商,其商業模式依賴于降低客戶的使用門檻。例如Compass平臺對Hugging Face模型的“一鍵部署”支持,本質是縮短從算法驗證到芯片落地的路徑。而動態Shape優化、多精度融合計算等特性,則反映出對行業碎片化需求的回應——從智能座艙的實時性要求到AI手機的能效約束,X3試圖用同一套架構應對差異化場景。
端側AI的未來:從“功能實現”到“體驗重構”
回顧“周易”產品線演進(Z1至X3),可清晰看到安謀科技對技術趨勢的預判:Z1時代聚焦人臉識別等輕量任務,X2支持Stable Diffusion意味著端側AI開始處理創作型任務,而X3對多模態模型的支持,則指向更本質的變化,即端側設備正從工具演變為“智能體”。
![]()
在現場Demo區,X3運行DeepSeek模型進行文生文對話時,響應延遲已接近人類對話節奏。這種流暢度不僅來自算力提升,更得益于AIFF硬件引擎將調度延遲壓降至微秒級。
![]()
值得注意的是,安謀科技在發布中反復強調“未來5年布局”。這種長周期視角在快節奏的芯片行業頗為罕見。或許正如其戰略定位:NPU IP的本質是提供“計算基座”,而非追逐短期熱點。當行業仍在爭論“端側大模型是否偽命題”時,X3已用實測數據證明,端側設備足以承載7B乃至更大規模參數模型的實時推理。
尾聲:無形IP與有形未來
安謀科技的發展在某種程度上是芯片行業的縮影,如同芯片是終端產品的靈魂一樣,IP廠商就像舞臺劇的編劇和舞美,雖不直接亮相臺前,卻決定著整場演出的水準。在AI算力需求爆炸式增長的今天,“周易”X3的價值或許不僅在于技術參數,更在于提供一種范式:通過架構創新與生態開放,讓端側AI從“可能”走向“可行”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.