<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      安謀科技發布“周易”X3,一場“中庸”的突圍 | 甲子光年

      0
      分享至




      把端側AI生態,向前推進一小步。

      作者|劉楊楠

      編輯|栗子

      “你們有信心嗎!”

      11月13日,安謀科技Arm China“周易”X3 NPU IP發布會臨近尾聲,安謀科技Arm China CEO陳鋒低調現身會場后方,作為現場Q&A環節的最后一位“提問者”,向臺上的三位演講者發問。這場精心安排的互動彩蛋,也將整場發布會的情緒推至高潮。

      陳鋒自今年2月出任CEO以來,便帶領公司開啟“All in AI”的產品戰略,推動公司在AI領域全面投入。其中,端側AI是安謀科技AI Arm China戰略的重要方向。此次發布會主角“周易”X3便是專為端側AI打造的NPU IP。


      可陳鋒的問題,或許不只是向臺上的同僚提問,更是向整個端側AI芯片設計市場提問。

      當前的端側AI市場火熱之余仍面臨巨大的不確定性。算法的快速迭代、市場需求的碎片化、客戶對成本與性能的雙重苛求,都讓芯片廠商如履薄冰。

      安謀科技Arm China產品研發副總裁劉浩在發布會上坦言,端側AI正面臨著前所未有的挑戰。“首先是大模型的需求,它算力巨大,參數眾多,對算力、帶寬、存儲都提出了極具挑戰性的要求,形成了所謂的‘算力墻’‘面積墻’‘功耗墻’。其次是多模態的需求,輸入不再只是文字,可能是圖像、視頻、點云、語音,這要求NPU支持更多異構算子。第三是混合專家系統(MoE)的需求,動態路由、動態任務分配,這些都需要架構具備靈活的算力調度和高帶寬互聯能力。”劉浩說。


      安謀科技Arm China產品研發副總裁劉浩

      更令人捉摸不透的,是模型迭代速度。劉浩舉了一個生動的例子:“客戶在芯片流片成功進入量產之際,他的模型和算法仍然需要兩周一次的迭代。這就要求芯片硬件必須有足夠的通用性,無論新的算子還是模型出現,硬件都能靈活支持。”

      于是,端側AI芯片IP的設計陷入了兩難境地——過于專用化的架構雖然面效比、能效比高,但無法適應快速變化的算法;而過于通用化的架構雖然靈活,但能效比低下,難以滿足端側設備的嚴格約束。

      而安謀科技Arm China在其中找到了一條四兩撥千斤的生存法則,他們在進攻與防守之間找到了一個平衡點,并以此為基礎,展開了一場“中庸”的突圍。

      1.DSP+DSA的融合與平衡

      在NPU IP的設計哲學中,“靈活性”與“效率”幾乎是一對永恒的矛盾 。

      為了追求極致的效率,業界一度推崇DSA(Domain-Specific Architecture,專用領域架構)。這是一種為特定任務(如早期的CNN)量身定制的硬件加速器。

      在處理CNN網絡時,它可以實現極高的能效比,但其缺陷也同樣致命,它高效但“脆弱” 。當算法范式從CNN迭代到Transformer時,那些為CNN硬化的DSA可能會幾乎瞬間死機。

      而與之相對的DSP(Digital Signal Processor,數字信號處理器),則是一種更通用的計算單元。它靈活,能夠處理各種算法,但如果用它來硬磕Transformer所需的高密度的矩陣運算,又會顯得能效比低下。

      因此,“周易”X3在二者間找到了融合共存的平衡,采用了先進的DSP+DSA 融合架構。安謀科技Arm China NPU產品線負責人兼首席架構師舒浩博士將其類比為汽車的“混合動力引擎”。


      安謀科技Arm China NPU產品線負責人兼首席架構師舒浩博士

      在這個架構中,有兩個核心計算單元。

      其一是被喻為“武”的AIFF(AI Fixed-Function)引擎 ,它就是DSA的化身,具備專用向量加速能力,負責架構的效率,高效處理那些高頻、重度、相對固定的計算任務,例如Transformer中必不可少的矩陣乘法和LayerNorm操作 。其二是被喻為“文”的TEC處理器(Task Execution Cell),它扮演DSP的角色,具備通用向量計算能力,負責整套架構的靈活性。

      在當前大模型范式下,盡管Tensor(張量)計算占據了模型約70%的計算量,但剩下的30% Vector(向量)計算其實更為復雜其計算類型的數量約達Tensor計算的四倍以上。

      Vector計算的關鍵在于“靈活性”而非“算力”。如果硬件無法原生支持,就不得不求助于CPU/GPU等異構方案。然而,跨設備的數據傳輸與同步會帶來巨大成本,最終,這20%-30%的Vector工作量很可能成為制約整體性能的瓶頸。

      因此,這種融合架構的好處就是兼具靈活性和高效率。對于占比高(約70%)但類型相對固定的計算任務,如矩陣運算、卷積操作等,由AIFF加速器負責,確保高效能;對于占比低(約30%)但種類繁多的計算需求,如激活函數、動態控制流等,由TEC處理器處理,保證靈活性。

      同時,安謀科技Arm China提供了圖靈完備的指令集,并專門為AI模型設計了約1200條向量指令,以確保功能的完備性,徹底消除此類瓶頸。

      這種“文武雙全”的協同設計,帶來了驚人的性能飛躍。以Transformer模型中極為關鍵的Softmax算子為例,通過DSP和DSA的深度協同優化,“周易”X3實現了10倍的性能提升 。

      更重要的是,這種架構平衡還解決了一個系統級的效率難題——降低不必要的CPU負載。

      傳統NPU在執行任務時,需要CPU的頻繁介入和調度。而“周易”X3集成了專用的硬化調度器。所謂“硬化”,就是將原本需要軟件在CPU上執行的調度任務,直接用硬件電路在NPU內部實現。這帶來了一個革命性的成果:NPU在并行處理多項AI任務時,對主CPU的資源占用降低至0.5% 。

      這使得NPU幾乎可以“自給自足”,將寶貴的CPU資源釋放給其他應用,真正實現了高效的異構計算。

      雖然“DSP+DSA”的混合架構解決了計算靈活性的問題,平衡了專用計算的高效率與通用計算的靈活性。但在真實端側AI場景中,模型完成一個任務往往需要經過多次推理,如何在高效、靈活度同時,保持足夠的準確性,是影響模型在端側應用效果的關鍵,這就需要在數據精度上做文章。

      2.從定點到混合浮點,讓模型更聰明

      我們先來厘清兩個概念:TOPS(Tera Operations Per Second)和TFLOPS(Tera Floating Point Operations Per Second)。

      TOPS通常指的是每秒萬億次定點運算,這是一種低精度、高效率的計算方式,但容易在復雜運算中損失精度;而TFLOPS指的是每秒萬億次浮點運算,浮點計算能夠保留小數,精度更高,更適合AI大模型復雜的推理過程。

      傳統的端側NPU大多采用INT8定點計算,這種方式雖然能效比高,但在處理復雜大模型時精度損失嚴重。

      因此,“周易”X3大膽地轉向了浮點計算,并創新性地采用了W4A8/W4A16的混合精度模式,即模型權重(Weight)采用4位整數,激活值(Activation)采用8位或16位浮點。

      安謀科技Arm China產品總監鮑敏祺解釋了這一選擇的背后邏輯:“大模型90%的帶寬消耗來自權重,這意味著,要想模型流暢運行,就要想盡一切辦法降低模型權重的比特數,所以我們采用W4低比特來解決存儲和帶寬問題;而激活值是模型精度的生命線,如果精度太低,經過幾次推理后結果就會完全失真,采用浮點計算可以保證模型的‘智能’和準確性,避免出現‘胡說八道’的情況。”


      安謀科技Arm China產品總監鮑敏祺

      此外,從定點轉向浮點,還能讓客戶省去復雜且耗時的量化過程。“量化”是指將模型從高精度的浮點格式(如FP32)壓縮到低精度的定點格式(如INT8)的過程,這個過程費時費力,且常常伴隨精度受損的風險 。

      然而,純浮點計算也并非完美方案,其對端側設備的帶寬和功耗而言是難以承受的。

      因此,“周易”X3采用了W4A8 / W4A16的低精度混合計算方案。“W4”代表將模型權重壓縮至4比特,極大地壓縮了模型的體積,同時也降低了數據搬運量;“A8/A16”意味著計算過程中的中間數據被保留在8比特或16比特的浮點格式。

      W4A8/A16的混合精度方案,是“周易”X3在模型精度與系統帶寬限制之間找到的最佳平衡點 。它在有效降低模型體積和帶寬占用的同時,最大限度地保留了LLM的推理精度。


      “周易”X3還支持int4 / int8 / int16 / int32 / fp4 / fp8 / fp16 / bf16 / fp32多精度融合計算,強浮點計算,可靈活適配智能手機邊緣部署、AI PC推理、智能汽車等從傳統CNN到前沿大模型的數據類型需求,平衡性能與能效。

      不過,W4A8/W4A16的混合精度固然是一個精妙的取舍,能在有限的硬件資源下實現大模型的高效推理,但對于大模型而言,權重參數動輒數十億,即使采用低比特壓縮,仍需要巨大的內存帶寬來支撐數據吞吐。

      3.如何打通內存墻,提升有效帶寬?

      在芯片設計中,算力的提升相對容易,但帶寬的增長卻受限于物理封裝工藝、功耗和成本等因素。

      這就導致了一個普遍的尷尬局面:NPU的計算單元,如X3的AIFF引擎快如閃電,但它們大部分時間都在空轉,被動地等待數據從緩慢的主內存(DDR)中搬運過來。此時,芯片上再高的紙面算力都只是擺設。

      “周易”X3的策略則是不盲目堆砌紙面算力,聚焦于提升有效帶寬,榨干硬件的每一分潛力 。

      首先,X3在硬件基礎上做了扎實的提升。其單Core帶寬高達256GB/s,這相較于傳統CNN加速器常見的64GB/s,提升整整4倍。但這只是第一步。

      真正的“殺手锏”是兩項軟硬協同的創新。

      第一項是安謀科技Arm China自研的硬件解壓單元WDC(Weight Decompression Engine,權重解壓縮引擎)。它與W4量化協同工作,模型權重(W4)在存入內存時,會先通過軟件進行一次無損壓縮;當計算單元需要這些數據時,WDC硬件會實時將其解壓出來再送去計算。

      這能夠在不增加物理帶寬的情況下,額外獲得約15%的等效帶寬提升 。正是憑借這項技術,經實測結果顯示,在Llama2 7B模型上,“周易”X3的Prefill階段算力利用率達到72%,Decode階段在開啟WDC的情況下有效帶寬利用率超過100%。

      第二項創新是動態Shape(Dynamic Shape)支持。

      所謂動態 Shape,是指在AI推理過程中,每一次輸入的數據量與任務規模都可能不同。傳統 NPU 由于缺乏足夠的通用性與靈活性,無法在運行時動態調整計算流程,通常采用“對齊”方式,將不同尺寸的輸入統一處理成固定格式。這種做法不可避免會引入無效計算,浪費算力,降低整體效率。

      而“周易”X3 NPU憑借其內部靈活的架構與通用處理能力,能夠實現僅對有效數據執行計算,從而在動態場景下實現更高效率。經實際比對,動態Shape相較于靜態定點方式,最高可帶來4倍性能提升與近3倍的功耗降低。

      通過WDC和動態Shape的軟硬協同,X3巧妙化解了內存墻對效率的影響,將紙面算力高效轉化為了用戶能真實感受到的有效性能。

      4.從好用用好的關鍵在于軟件

      然而,強大的硬件特性,必須依賴高效、開放的軟件工具鏈才能最終轉化為客戶價值。

      在端側AI應用碎片化的時代,一個封閉的工具鏈是致命的。它不僅難以快速適配海量涌現的新模型,更無法滿足客戶保護自身核心算法、實現差異化競爭的訴求。

      “周易”X3的Compass AI軟件平臺則在易用性和定制化之間,構建了一種動態平衡。


      在易用性上,Compass平臺讓X3變得“好用”。其核心的AIPULLM工具鏈可以支持開發者從Hugging Face上下載模型,并完成一站式轉化和部署,極大降低了開發門檻 。同時,平臺還支持GPTQ等大模型主流量化方案 ,讓模型的快速適配成為可能。

      在定制化上,Compass平臺讓用戶真正“用好”X3。安謀科技Arm China深知,對于客戶而言,最高效的算法往往是他們差異化的護城河。為了賦能客戶,同時保護他們的知識產權,Compass平臺采取了深度的開放策略。

      首先是開放核心組件。平臺將Parser(模型解析器)、Optimizer(優化器)、Linux Driver(驅動)等核心組件相繼開放 。這使得開發者可以進行白盒調試,清晰地看到工具鏈的每一步操作,而不是面對一個無法理解的黑盒。

      其次是支持自定義算子。平臺提供了一種DSL(Domain-Specific Language,領域特定語言) 。通過這種專用的編程語言,客戶可以在深度開發模式下,編寫自己的自定義算子。這項功能至關重要,它意味著客戶可以將自己最核心、最機密的算法IP,直接編譯到底層硬件上運行,既能享受NPU的加速,又無需將算法細節暴露給任何人 。


      “周易”NPU Compass AI軟件平臺

      更有趣的是,安謀科技Arm China還提供了一個與硬件比特級精確的仿真器。這個“硅前”(pre-silicon)開發工具,允許客戶在拿到物理芯片之前的數個月甚至一年,就開始進行軟件開發、算法驗證和性能調優 ,從而極大地縮短上市周期。

      至此,安謀科技Arm China這場“中庸”的突圍完成了嚴密的邏輯閉環。從應對不確定性的混合計算架構 ,到平衡精度與帶寬效率的混合精度設計 ,再到榨干物理極限的帶寬優化 ,最后用一套開放的軟件生態將其全部賦能給客戶。

      回看“周易”系列NPU的研發歷程,就會發現X3的發布并非一日之功,而是安謀科技Arm China NPU團隊長期主義的必然兌現,整套戰略背后有一個核心支點,就是安謀科技Arm China對當前市場需求和應用場景的清醒認知。

      5.難而正確的中庸之道

      回顧安謀科技Arm China的NPU布局,可以清晰地看到“周易”系列如何逐步從感知AI時代向認知智能過渡。


      早期的Z1/Z2聚焦于TOPS級的“感知”能力,主要應用于AIoT的基礎識別功能(如人臉識別) ;隨后的中期(X1/X2)開始支持更復雜的應用,如高級汽車輔助駕駛(ADAS)和AI PC上的AIGC輕量級應用 ;而當前的X3則全面適配Transformer架構的模型需求。

      可以看到,“周易”系列的產品迭代一直在圍繞市場需求變化推進。“周易”X3的更新同樣如此。

      只是,就目前端側AI市場來說,很多端側用戶其實并沒有很清晰的算力選型策略。鮑敏祺透露,公司現有客戶中可能有30%需求相對明確,而70%的客戶仍在觀望。這種情況下,芯片IP的架構設計必須“中庸”,不能過于激進。“萬一你提前押注某個方向,但有一天忽然發現走不下去了,那基本上你就把客戶一起帶到溝里去了。”他說。

      因此,“中庸”并非平庸。要做到真正的“靈活適配”,不僅考驗安謀科技Arm China研發團隊的綜合實力——包括對前沿算法變化的敏銳判斷,以及整個IP設計的工程化思考和執行力,更考驗企業決策者的戰略定力。這是一條真正困難但正確的路。

      “周易”X3的核心價值,就在于它通過層層技術創新,在當前極其碎片化的端側用戶需求中找到了數個平衡點。


      在架構的平衡上,它采用DSP+DSA融合架構,平衡了專用計算的效率與通用算法的靈活,確保硬件能適應未來不可知的算法迭代;在精度的平衡上,通過W4A8/W4A16混合浮點計算,平衡了LLM推理所需的精度與端側的內存帶寬限制。

      這緊密關聯到帶寬的平衡,即通過WDC解壓硬件和動態Shape支持,平衡了峰值算力與系統有效效率,解決了困擾端側大模型的內存瓶頸 。最后,這一切又通過生態的平衡得以閉環。憑借開放的Compass AI軟件平臺,平衡了IP的易用性與客戶的差異化定制需求,同時還保護了客戶的核心知識產權。

      目前,新一代“周易”X3 NPU IP將端側智能的邊界拓展至更廣闊的應用場景,面向基礎設施、智能汽車、移動終端、智能物聯網四大領域,精準匹配當前爆發的端側AI需求,可廣泛應用于加速卡、智能座艙、ADAS、具身智能、AI PC、AI手機、智能網關、智能IPC等AI設備。

      從高性能的智能駕駛到低功耗的物聯網設備,每個領域對性能、功耗和成本的訴求都大相徑庭,而“周易”X3的架構則給用戶提供了一個“進可攻,退可守”的選擇。

      正如“周易”NPU的命名出處《易經》中所言:“天地交而萬物通,上下交而其志同。” “周易”X3使得位于產業鏈不同環節、不同行業領域的合作伙伴,都能在一個統一的平臺上進行開發。當更多生態玩家都能嘗試在自己的場景下先邁出一步,高效部署端側AI的有效路徑,或許就會在眾人的實踐中迅速厘清。

      (封面圖以及文中配圖來源:安謀科技Arm China)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一看王楚然的腿就是練過的 健康美啊

      一看王楚然的腿就是練過的 健康美啊

      陳意小可愛
      2026-02-12 00:05:12
      春節期間將向消費者發放20.5億元

      春節期間將向消費者發放20.5億元

      每日經濟新聞
      2026-02-11 13:49:48
      國臺辦:春節是中華民族最重要的傳統節日 民進黨當局如果膽敢在祥和的節日里無端挑起事端 必須承擔由此引發的一切惡果

      國臺辦:春節是中華民族最重要的傳統節日 民進黨當局如果膽敢在祥和的節日里無端挑起事端 必須承擔由此引發的一切惡果

      閃電新聞
      2026-02-11 15:49:24
      硬剛!烏克蘭旗手無視禁令佩戴特殊頭盔,紀念俄烏沖突喪生運動員

      硬剛!烏克蘭旗手無視禁令佩戴特殊頭盔,紀念俄烏沖突喪生運動員

      全景體育V
      2026-02-11 20:38:12
      中國唯一沒有副部長的部委,沒有機關編制,連固定辦公地點都沒有

      中國唯一沒有副部長的部委,沒有機關編制,連固定辦公地點都沒有

      混沌錄
      2026-02-11 23:05:23
      復出后首敗 鄭欽文遭逆轉1-2惜敗新科澳網冠軍 無緣多哈1000賽8強

      復出后首敗 鄭欽文遭逆轉1-2惜敗新科澳網冠軍 無緣多哈1000賽8強

      我愛英超
      2026-02-12 03:49:07
      2026年的春運,長途大巴結結實實給了“智能時代”一記耳光

      2026年的春運,長途大巴結結實實給了“智能時代”一記耳光

      老特有話說
      2026-02-09 23:34:10
      4599 元!新iPhone 價格再次下調!

      4599 元!新iPhone 價格再次下調!

      科技堡壘
      2026-02-11 11:52:55
      河南一企業春節放假21天,“禁止加班、禁止打擾同事”,老板回應:員工放假,自己家人守廠,去年獎勵多名員工高考子女手機及現金

      河南一企業春節放假21天,“禁止加班、禁止打擾同事”,老板回應:員工放假,自己家人守廠,去年獎勵多名員工高考子女手機及現金

      極目新聞
      2026-02-11 21:45:38
      為什么領導很少生病請假,總是精力充沛?主要有這4點

      為什么領導很少生病請假,總是精力充沛?主要有這4點

      細說職場
      2026-02-11 17:27:08
      浙江一老板為女兒辦婚宴,拒付252桌酒席錢,法院判了

      浙江一老板為女兒辦婚宴,拒付252桌酒席錢,法院判了

      環球網資訊
      2026-02-11 19:25:14
      謝賢前女友爆猛料!和謝賢還有聯系,稱謝霆鋒娶張柏芝是因為王菲

      謝賢前女友爆猛料!和謝賢還有聯系,稱謝霆鋒娶張柏芝是因為王菲

      離離言幾許
      2026-02-12 00:03:14
      U17國足三連勝!4天兩勝印尼,張伯霖壓哨絕殺,趙松源連場破門

      U17國足三連勝!4天兩勝印尼,張伯霖壓哨絕殺,趙松源連場破門

      奧拜爾
      2026-02-11 21:27:48
      加拿大突發槍擊事件,已致10人死亡

      加拿大突發槍擊事件,已致10人死亡

      環球時報國際
      2026-02-11 10:49:24
      CBA杯:山東末節轟36-15大勝廣廈獲季軍 王博末節全華班引爭議

      CBA杯:山東末節轟36-15大勝廣廈獲季軍 王博末節全華班引爭議

      醉臥浮生
      2026-02-11 21:06:06
      憨豆先生震撼官宣!捐出1.6億美元全部收益,一句話戳中無數人

      憨豆先生震撼官宣!捐出1.6億美元全部收益,一句話戳中無數人

      老馬拉車莫少裝
      2026-02-12 00:01:07
      惡毒!網傳廣東一婚車被橫幅攔截,“新郎不是我,但新娘愛過我”

      惡毒!網傳廣東一婚車被橫幅攔截,“新郎不是我,但新娘愛過我”

      火山詩話
      2026-02-11 15:59:03
      特朗普下達最后通牒,要求臺當局立即付款,否則將取消對臺軍售

      特朗普下達最后通牒,要求臺當局立即付款,否則將取消對臺軍售

      東極妙嚴
      2026-02-11 12:54:31
      史詩級暴擊!印尼這一刀,砍碎舊秩序,全球鎳價要飛上天?

      史詩級暴擊!印尼這一刀,砍碎舊秩序,全球鎳價要飛上天?

      販財局
      2026-02-11 18:29:20
      這跟不穿有啥區別?格萊美紅毯女星穿衣大膽,連美國網友都無語了

      這跟不穿有啥區別?格萊美紅毯女星穿衣大膽,連美國網友都無語了

      夢醉為紅顏一笑
      2026-02-10 14:52:10
      2026-02-12 04:19:00
      甲子光年
      甲子光年
      中國科技產業化前沿智庫
      3343文章數 9256關注度
      往期回顧 全部

      科技要聞

      V4來了?DeepSeek 灰度測試新版本

      頭條要聞

      遭特朗普威脅 卡尼一個電話打過去:47億美元我們付的

      頭條要聞

      遭特朗普威脅 卡尼一個電話打過去:47億美元我們付的

      體育要聞

      搞垮一個冬奧選手,只需要一首歌?

      娛樂要聞

      大孤山風波愈演愈烈 超50位明星扎堆

      財經要聞

      廣州前首富被判無期 200億集資窟窿何償

      汽車要聞

      比亞迪最美B級SUV? 宋Ultra這腰線美翻了

      態度原創

      手機
      本地
      旅游
      時尚
      公開課

      手機要聞

      REDMI K90至尊版曝光,天璣9500性能機

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      旅游要聞

      賞花玩雪享園趣 觀燈看展迎馬年

      3種美翻天的穿搭,換個方式過春天

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版