網易首頁 > 網易號 > 正文申請入駐

中國算力芯片的“新十年”

2025-10-30 09:51:53　來源: 硅星人

北京舉報

分享至

文章轉載于騰訊科技

過去40年，處理器芯片呈現出“否定之否定”的螺旋式發展道路：自研-放棄自研-自研。

最近5年，越來越多的整機和平臺廠商，重新加入自研的“芯片戰爭”，并且顯現出一個新趨勢——以CPU為中心的同構計算系統，轉變成CPU聯合xPU的異構計算。

“芯片戰爭”中的選手要直面幾個問題：其xPU架構創新有多少，持續創新空間有多大、應用規模能否攤薄硬件、生態的創新成本。

剛剛公布的“十五五”規劃建議稿也提到，加快科技高水平自立自強，全面增強自主創新能力，大力實施“卡脖子”迭代攻關，聚焦半導體等關鍵技術環節。那么，接下來的五年、十年，對于國產“算力芯片”來說，突破口在哪里？

我們認為是指令系統結構（指令集架構）的統一。

系統結構的一致性，更能推動架構層面的創新，比如把RISC-V作為統一指令系統，所有CPU/GPU/xPU都基于RISC-V及其擴展來開發，在擴大規模效應的同時，高效利用研發資源。

指令集相當于軟硬件“連接器”，按標準編寫軟件，即可向硬件發出計算指令。

經濟規模與生態成本決定架構的“生與死”

計算機差不多經歷了八十多年的歷史，早期特點是集中式處理，少數專業人員通過終端設備才能訪問到昂貴的計算資源。

20世紀80年代后以微處理器為基礎的PC和計算機網絡出現，計算模式從集中式轉化為分布式。后來又有了智能手機和云計算系統，計算模式進化為集中式的云中心和“泛在分布”的智能終端構成的復雜體系，且云中心本身又是一個巨大的分布式系統。

計算進化到今天，最為核心的CPU，以兩種主導式的指令集為代表：PC和服務器領域是x86架構，智能手機領域是ARM架構。

x86等架構及相應特征

x86和ARM占主導，是市場洗牌的結果。

時間往回倒退，過去40年業內出現了許多有特色的架構和產品，但大部分都逐漸凋零了。例如：英特爾開發的RISC架構i860/i960、摩托羅推出的68000以及跟IBM、Apple聯合開發的PowerPC架構等等。

指令集架構，從幾十款到幾款，快速收斂的原因各有不同。

x86戰勝RISC，靠的是不斷向高端RISC“抄作業”，同時根據新應用需求不斷增加指令子集，拓展新功能；PC與服務器的CPU同為x86架構，芯片出貨量大，分攤了服務器CPU的研發成本，也是x86從競爭中脫穎而出的客觀條件。

RISC CPU的失意，表面上是巨額的軟硬件投入成本，根源則是無法顛覆已有軟硬件生態系統——大量已存在的標準或事實標準的接口，如指令架構系統，這種生態的統治力，英特爾、惠普曾這類聯合體也無法撼動。

回想起1990年代超算領域，如nCUBE，KSR、Thinking Machine等創業公司，既自研CPU，又開發MPP超算系統，在系統架構上提出了很多引人入勝的新方案。尤其是KSR，提出了名為Allcache的純緩存存儲架構（COMA），實現了第一個基于純緩存的并行超算系統，其CPU只跑20MHz，功耗、散熱等效率遠遠高于同期的英特爾486，后者主頻達到了50MHz。

最終，各種創新性的架構都“輸給了”x86。

不是說這些架構沒有創新性，根本上在于架構創新敵不過經濟規律。所以，在文章開頭，我們就呼吁，未來五年、十年，中國的算力芯片應該統一指令集架構。

架構創新難，生態構建更難：壁壘在軟件與協同

英特爾于2000年左右推出Pentium 4處理器，時鐘頻率已達到4GHz。25年后的今天，很多產品時鐘頻率還停留在這個水平。這是因為進入納米工藝后，摩爾定律逐漸失效，晶體管開關速度放緩。

現在，業界依賴晶體管數量的累積來提升性能，其基本的思路是并行，如增加數據位寬、增加功能部件、增加處理器核的數量等等。但增加了這么多的部件，如何控制與管理？就要看計算機體系結構。

計算機體系結構既是硬件與軟件的接口界面，也決定了硬件與軟件的分工，根據硬件與軟件分工的不同邏輯，大致可分為三種類型：

激進的結構（完全動態優化）：類似上文提到的純緩存存儲架構，強調軟件在動態分析和優化方面能力有限，因此在硬件上做盡可能多的動態優化, 但這樣往往導致硬件過分復雜、功耗過高；
保守的結構（靜態優化）：硬件僅提供必需的設施, 如大量的寄存器或SRAM，依賴軟件來實現高性能，這種方案的好處是硬件簡化了，缺點是編程不便、性能沒有保障；
折中的結構（動靜態相結合的優化）：硬件做一些動態的優化, 如高速緩存，軟件也仍有優化的余地，通過軟硬件協同解決性能和編程問題。

由于需要運行操作系統、編譯器及各種復雜控制應用，涉及的串行因素比較多，高端CPU經常采用激進的結構，但由于結構異常復雜，導致正確性難以驗證，研發工作量極大。隨著熔斷、幽靈等硬件漏洞的出現，這類結構也易受瞬態執行攻擊的問題也暴露出來。

目前業界更傾向于基于這種結構——增加處理器核的數量，來提升性能，比如代表算力的xPU芯片，就是典型的眾核（Many Core）結構。這種架構可以匹配圖像處理、神經網絡等天然依賴并行計算的特點，只要硬件提供足夠的運算部件、存儲單元、互連機制，并由軟件程序把并行性表達出來，就可以在并行硬件上高速地執行。

英偉達PASCAL和TURING架構GPU，擁有大量CUDA計算核心

英特爾Xeon Phi，Google TPU等，都是專門設計的眾核加速器，而更流行的GPGPU則陰差陽錯的成為眾核加速器——一開始只用于圖形渲染，非專門為AI設計。

不管是TPU還是GPGPU，眾核結構xPU的“算力芯片”大規模應用，首先要解決的還是生態系統問題——在處理器上運行的各類軟件的總和，包括各種應用軟件，及支撐應用軟件開發運行的系統軟件、中間件、庫函數等。在這方面，用戶之所以喜歡使用英偉達的產品，就是因為CUDA擁有成熟的并行軟件生態。

前面提到英特爾和惠普的合作項目。雙方于1994年，聯合開發了不與x86兼容的EPIC架構的IA-64安騰處理器，前后花了十余年時間，耗資巨大，終究未能成功。關鍵就在于經過40多年演進的x86架構，形成了任何處理器架構都無法比擬和復制的產業生態環境。

英特爾、惠普的新架構、新產品，解決不了新的生態問題。

這里面還有一個洞察——Gartner分析了從2009到2018年的企業軟件市場，十年間，x86軟件的市場份額持續上升，到2018年，全球投入在x86軟件（含企業應用軟件、基礎設施軟件、垂直專用軟件）開發上的費用高達600億美元，IDC 2019年同期的數據表明，全球服務器硬件的總收入也就800億美元。

也就是說，軟件開發的費用遠遠高于硬件，新搞一個處理器架構已經很費錢了，基本不會有人給更多投資去開發配套的軟件。

基于這一點，可以預判，未來很長一段時間，服務器市場上x86 CPU仍居主導地位。

有人也許要問，ARM-64的機會在哪里？它的核心看點在于打破英特爾在x86服務器市場一家獨大的格局，因為英特爾的CPU毛利太高了，誰都想去分一杯羹，正如AI芯片廠商想去分英偉達的蛋糕一樣。

最終，ARM服務器未來能夠取得成功，幾個原因可能是決定性的：

一是掌控了全棧技術（應用）的大廠放棄x86，如蘋果、亞馬遜，它們的生態遷移完全可控，產量或毛利率也是可控的
二是端云融合，ARM在終端的優勢彌漫到云端，如Android Cloud，ARM服務器更適合支持Android Apps，應用可在云和端間隨便遷移。還有云游戲在云端也不需要依賴虛擬機。

x86的故事仍在繼續，ARM攻勢迅猛，開源的RISC-V則還需要努力。

關于RISC-V，業內有很多討論，既有ARM“價格貴”的問題，也有開放性、可研究性的問題，但主要還是商業化的困境。

近年來，RISC-V應用較多且相對成功的，都是軟件比較簡單的場景，即以微控制器(MCU)為代表的嵌入式領域，如希捷、西數等企業的存儲類產品。而以物聯網為代表的嵌入式場景，其需求非常碎片化，RISC-V雖然可以針對應用特點自定義對指令集的擴展，但這樣分門別類地定制芯片，就失去了集成電路產業的規模效應。

軟件、應用之外，RISC-V的硬件生態也還不成熟——有競爭優勢的高性價比處理器核的種類少，也缺乏支持多核互連的高性能片上網絡（NOC），尤其是片上網絡，業內都還在用ARM方案，不過ARM不會單獨向RISC-V項目授權片上網絡IP，而要搭售ARM CPU核心，成本又被拉上來了。

一些觀點認為，隨著JAVA、Python等跨平臺的語言/工具越來越流行，通過虛擬機技術實現應用的跨平臺遷移，還可以用仿真的方法用一種指令集模擬另一種指令集，寄希望于指令集架構重要性變低，進而重構x86、ARM的“壟斷”格局。

不過，這也存在另一些相反的事實，例如英特爾一直在持續地擴展其指令集，增加新指令（子集），如近年看到的SGX、AVX512、AI擴展指令集等，說明硬件指令的直接支持對性能、能效比至關重要。

又如，由于業界的各類基礎軟件和應用軟件，主要都是針對英特爾CPU優化的，即使同樣是x86的AMD CPU，能流暢支持的軟件配置種類就少得多。所以，阿里的公有云平臺只用英特爾的CPU產品，它們可以自如地支持各種老舊的OS類型、版本、配置。

從這個角度來看，RISC-V進入以計算機為代表的通用平臺，還有一段曠日持久的路程要走。

統一指令集：中國算力芯片規模化的關鍵路徑

近年來，系統和平臺廠商又開始研發計算芯片了：美國有蘋果公司、谷歌、亞馬遜、微軟，中國公司也很多。

所有自研的場景當中，云廠自研芯片的模式是行得通的，因為企業盈利的基礎在于增值服務，不在硬件。云廠商由于掌控全棧軟硬件，生態移植的困難也較小，且因為自身規模大，可以負擔芯片研發的費用。

不過，現階段多數企業自研還是用于內部，因此外部客戶仍然需要獨立的芯片供應商。

眾多自研芯片的系統廠商當中，蘋果公司是一個非常成功的案例，基本實現了核心產品線處理器的全線自研——手機為A系列、平板和PC為M系列、手表為W系列、耳機為H系列。

蘋果自研芯片矩陣，數據更新至2025年9月

“產品定價高”可以作為評判蘋果自研成功與否的一個表面指標。

和公版的ARM CPU核相比，蘋果公司自研的CPU性能高、成本也高，但配合自研的系統軟件，整體達到優化的用戶體驗，同時加上營銷體系的助力，形成“高大上”的形象，就可以賣出高價錢。

只不過，很多失敗的項目，只看到了蘋果公司“自研芯片”的表面指標，“自研芯片”，如果只是為了“使用芯片”，或者只是聚焦在紙面參數上，而忽略掉軟件的差異化、生態能力提升，進而共同推動用戶體驗的優化，未必有價值。

軟件定義一切，也包括“成敗”。

無論CPU還是GPGPU，都需要在軟件生態上，與現有成熟產品形成差異化，實現附加值提升，但這不等于一切都需要重構和創新，比如指令系統——指令系統越多，軟件生態方面就需要投入越多，“統一”起來困難重重。

前面提過，軟件方面的投入比硬件研發的投入還要大，而軟件掉隊的負面現象，目前大量出現在當前的領域專用架構（DSA）和其它xPU研發領域。比如很多國產智算中心，投資規模很大，但受配套軟件不全等問題限制，實際利用率并不高，這其實就是軟件跟不上硬件“步伐”帶來的后遺癥。

回想架構之爭的年代，諸神混戰，最后也只有少數幾個架構活了下來。

實際上，體系結構創新，未必一定要新架構，也可以在現有的指令系統框架內實現，RISC-V恰好在這方面具備很好的支撐。

例如，國外Tenstorrent等企業基于RISC-V指令集，擴展支持AI的子指令集，進而開發了基于RISC-V的AI加速計算方案。又如，國內外不少大學和科研機構都在RISC-V上擴展了密碼學相關的子指令集，并在此基礎上實現了對后量子密碼的支持等等。

所以，我們呼吁：把RISC-V作為統一指令系統，所有CPU/GPU/xPU都基于RISC-V及其擴展來開發，避免重復勞動和研發資源的無謂浪費。

文丨唐志敏深圳理工大學算力微電子學院院長、象帝先董事長

編輯丨蘇揚

關于作者

唐志敏是我國處理器芯片領域核心研究者，現任高性能GPU芯片研發國家高新技術企業象帝先計算技術（重慶）有限公司董事長、深圳理工大學算力微電子學院院長、中國科學院計算技術研究所主任研究員。唐志敏長期深耕高性能計算與處理器架構，對中國自主芯片的技術演進與產業趨勢有深刻洞察。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.