![]()
文章轉載于騰訊科技
過去40年,處理器芯片呈現出“否定之否定”的螺旋式發展道路:自研-放棄自研-自研。
最近5年,越來越多的整機和平臺廠商,重新加入自研的“芯片戰爭”,并且顯現出一個新趨勢——以CPU為中心的同構計算系統,轉變成CPU聯合xPU的異構計算。
“芯片戰爭”中的選手要直面幾個問題:其xPU架構創新有多少,持續創新空間有多大、應用規模能否攤薄硬件、生態的創新成本。
剛剛公布的“十五五”規劃建議稿也提到,加快科技高水平自立自強,全面增強自主創新能力,大力實施“卡脖子”迭代攻關,聚焦半導體等關鍵技術環節。那么,接下來的五年、十年,對于國產“算力芯片”來說,突破口在哪里?
我們認為是指令系統結構(指令集架構)的統一。
系統結構的一致性,更能推動架構層面的創新,比如把RISC-V作為統一指令系統,所有CPU/GPU/xPU都基于RISC-V及其擴展來開發,在擴大規模效應的同時,高效利用研發資源。
![]()
指令集相當于軟硬件“連接器”,按標準編寫軟件,即可向硬件發出計算指令。
1
經濟規模與生態成本決定架構的“生與死”
計算機差不多經歷了八十多年的歷史,早期特點是集中式處理,少數專業人員通過終端設備才能訪問到昂貴的計算資源。
20世紀80年代后以微處理器為基礎的PC和計算機網絡出現,計算模式從集中式轉化為分布式。后來又有了智能手機和云計算系統,計算模式進化為集中式的云中心和“泛在分布”的智能終端構成的復雜體系,且云中心本身又是一個巨大的分布式系統。
計算進化到今天,最為核心的CPU,以兩種主導式的指令集為代表:PC和服務器領域是x86架構,智能手機領域是ARM架構。
![]()
x86等架構及相應特征
x86和ARM占主導,是市場洗牌的結果。
時間往回倒退,過去40年業內出現了許多有特色的架構和產品,但大部分都逐漸凋零了。例如:英特爾開發的RISC架構i860/i960、摩托羅推出的68000以及跟IBM、Apple聯合開發的PowerPC架構等等。
指令集架構,從幾十款到幾款,快速收斂的原因各有不同。
x86戰勝RISC,靠的是不斷向高端RISC“抄作業”,同時根據新應用需求不斷增加指令子集,拓展新功能;PC與服務器的CPU同為x86架構,芯片出貨量大,分攤了服務器CPU的研發成本,也是x86從競爭中脫穎而出的客觀條件。
RISC CPU的失意,表面上是巨額的軟硬件投入成本,根源則是無法顛覆已有軟硬件生態系統——大量已存在的標準或事實標準的接口,如指令架構系統,這種生態的統治力,英特爾、惠普曾這類聯合體也無法撼動。
回想起1990年代超算領域,如nCUBE,KSR、Thinking Machine等創業公司,既自研CPU,又開發MPP超算系統,在系統架構上提出了很多引人入勝的新方案。尤其是KSR,提出了名為Allcache的純緩存存儲架構(COMA),實現了第一個基于純緩存的并行超算系統,其CPU只跑20MHz,功耗、散熱等效率遠遠高于同期的英特爾486,后者主頻達到了50MHz。
最終,各種創新性的架構都“輸給了”x86。
不是說這些架構沒有創新性,根本上在于架構創新敵不過經濟規律。所以,在文章開頭,我們就呼吁,未來五年、十年,中國的算力芯片應該統一指令集架構。
1
架構創新難,生態構建更難:壁壘在軟件與協同
英特爾于2000年左右推出Pentium 4處理器,時鐘頻率已達到4GHz。25年后的今天,很多產品時鐘頻率還停留在這個水平。這是因為進入納米工藝后,摩爾定律逐漸失效,晶體管開關速度放緩。
現在,業界依賴晶體管數量的累積來提升性能,其基本的思路是并行,如增加數據位寬、增加功能部件、增加處理器核的數量等等。但增加了這么多的部件,如何控制與管理?就要看計算機體系結構。
計算機體系結構既是硬件與軟件的接口界面,也決定了硬件與軟件的分工,根據硬件與軟件分工的不同邏輯,大致可分為三種類型:
激進的結構(完全動態優化):類似上文提到的純緩存存儲架構,強調軟件在動態分析和優化方面能力有限,因此在硬件上做盡可能多的動態優化, 但這樣往往導致硬件過分復雜、功耗過高;
保守的結構(靜態優化):硬件僅提供必需的設施, 如大量的寄存器或SRAM,依賴軟件來實現高性能,這種方案的好處是硬件簡化了,缺點是編程不便、性能沒有保障;
折中的結構(動靜態相結合的優化):硬件做一些動態的優化, 如高速緩存,軟件也仍有優化的余地,通過軟硬件協同解決性能和編程問題。
由于需要運行操作系統、編譯器及各種復雜控制應用,涉及的串行因素比較多,高端CPU經常采用激進的結構,但由于結構異常復雜,導致正確性難以驗證,研發工作量極大。隨著熔斷、幽靈等硬件漏洞的出現,這類結構也易受瞬態執行攻擊的問題也暴露出來。
目前業界更傾向于基于這種結構——增加處理器核的數量,來提升性能,比如代表算力的xPU芯片,就是典型的眾核(Many Core)結構。這種架構可以匹配圖像處理、神經網絡等天然依賴并行計算的特點,只要硬件提供足夠的運算部件、存儲單元、互連機制,并由軟件程序把并行性表達出來,就可以在并行硬件上高速地執行。
![]()
英偉達PASCAL和TURING架構GPU,擁有大量CUDA計算核心
英特爾Xeon Phi,Google TPU等,都是專門設計的眾核加速器,而更流行的GPGPU則陰差陽錯的成為眾核加速器——一開始只用于圖形渲染,非專門為AI設計。
不管是TPU還是GPGPU,眾核結構xPU的“算力芯片”大規模應用,首先要解決的還是生態系統問題——在處理器上運行的各類軟件的總和,包括各種應用軟件,及支撐應用軟件開發運行的系統軟件、中間件、庫函數等。在這方面,用戶之所以喜歡使用英偉達的產品,就是因為CUDA擁有成熟的并行軟件生態。
前面提到英特爾和惠普的合作項目。雙方于1994年,聯合開發了不與x86兼容的EPIC架構的IA-64安騰處理器,前后花了十余年時間,耗資巨大,終究未能成功。關鍵就在于經過40多年演進的x86架構,形成了任何處理器架構都無法比擬和復制的產業生態環境。
英特爾、惠普的新架構、新產品,解決不了新的生態問題。
這里面還有一個洞察——Gartner分析了從2009到2018年的企業軟件市場,十年間,x86軟件的市場份額持續上升,到2018年,全球投入在x86軟件(含企業應用軟件、基礎設施軟件、垂直專用軟件)開發上的費用高達600億美元,IDC 2019年同期的數據表明,全球服務器硬件的總收入也就800億美元。
也就是說,軟件開發的費用遠遠高于硬件,新搞一個處理器架構已經很費錢了,基本不會有人給更多投資去開發配套的軟件。
基于這一點,可以預判,未來很長一段時間,服務器市場上x86 CPU仍居主導地位。
有人也許要問,ARM-64的機會在哪里?它的核心看點在于打破英特爾在x86服務器市場一家獨大的格局,因為英特爾的CPU毛利太高了,誰都想去分一杯羹,正如AI芯片廠商想去分英偉達的蛋糕一樣。
最終,ARM服務器未來能夠取得成功,幾個原因可能是決定性的:
一是掌控了全棧技術(應用)的大廠放棄x86,如蘋果、亞馬遜,它們的生態遷移完全可控,產量或毛利率也是可控的
二是端云融合,ARM在終端的優勢彌漫到云端,如Android Cloud,ARM服務器更適合支持Android Apps,應用可在云和端間隨便遷移。還有云游戲在云端也不需要依賴虛擬機。
x86的故事仍在繼續,ARM攻勢迅猛,開源的RISC-V則還需要努力。
關于RISC-V,業內有很多討論,既有ARM“價格貴”的問題,也有開放性、可研究性的問題,但主要還是商業化的困境。
近年來,RISC-V應用較多且相對成功的,都是軟件比較簡單的場景,即以微控制器(MCU)為代表的嵌入式領域,如希捷、西數等企業的存儲類產品。而以物聯網為代表的嵌入式場景,其需求非常碎片化,RISC-V雖然可以針對應用特點自定義對指令集的擴展,但這樣分門別類地定制芯片,就失去了集成電路產業的規模效應。
軟件、應用之外,RISC-V的硬件生態也還不成熟——有競爭優勢的高性價比處理器核的種類少,也缺乏支持多核互連的高性能片上網絡(NOC),尤其是片上網絡,業內都還在用ARM方案,不過ARM不會單獨向RISC-V項目授權片上網絡IP,而要搭售ARM CPU核心,成本又被拉上來了。
一些觀點認為,隨著JAVA、Python等跨平臺的語言/工具越來越流行,通過虛擬機技術實現應用的跨平臺遷移,還可以用仿真的方法用一種指令集模擬另一種指令集,寄希望于指令集架構重要性變低,進而重構x86、ARM的“壟斷”格局。
不過,這也存在另一些相反的事實,例如英特爾一直在持續地擴展其指令集,增加新指令(子集),如近年看到的SGX、AVX512、AI擴展指令集等,說明硬件指令的直接支持對性能、能效比至關重要。
又如,由于業界的各類基礎軟件和應用軟件,主要都是針對英特爾CPU優化的,即使同樣是x86的AMD CPU,能流暢支持的軟件配置種類就少得多。所以,阿里的公有云平臺只用英特爾的CPU產品,它們可以自如地支持各種老舊的OS類型、版本、配置。
從這個角度來看,RISC-V進入以計算機為代表的通用平臺,還有一段曠日持久的路程要走。
1
統一指令集:中國算力芯片規模化的關鍵路徑
近年來,系統和平臺廠商又開始研發計算芯片了:美國有蘋果公司、谷歌、亞馬遜、微軟,中國公司也很多。
所有自研的場景當中,云廠自研芯片的模式是行得通的,因為企業盈利的基礎在于增值服務,不在硬件。云廠商由于掌控全棧軟硬件,生態移植的困難也較小,且因為自身規模大,可以負擔芯片研發的費用。
不過,現階段多數企業自研還是用于內部,因此外部客戶仍然需要獨立的芯片供應商。
眾多自研芯片的系統廠商當中,蘋果公司是一個非常成功的案例,基本實現了核心產品線處理器的全線自研——手機為A系列、平板和PC為M系列、手表為W系列、耳機為H系列。
![]()
蘋果自研芯片矩陣,數據更新至2025年9月
“產品定價高”可以作為評判蘋果自研成功與否的一個表面指標。
和公版的ARM CPU核相比,蘋果公司自研的CPU性能高、成本也高,但配合自研的系統軟件,整體達到優化的用戶體驗,同時加上營銷體系的助力,形成“高大上”的形象,就可以賣出高價錢。
只不過,很多失敗的項目,只看到了蘋果公司“自研芯片”的表面指標,“自研芯片”,如果只是為了“使用芯片”,或者只是聚焦在紙面參數上,而忽略掉軟件的差異化、生態能力提升,進而共同推動用戶體驗的優化,未必有價值。
軟件定義一切,也包括“成敗”。
無論CPU還是GPGPU,都需要在軟件生態上,與現有成熟產品形成差異化,實現附加值提升,但這不等于一切都需要重構和創新,比如指令系統——指令系統越多,軟件生態方面就需要投入越多,“統一”起來困難重重。
前面提過,軟件方面的投入比硬件研發的投入還要大,而軟件掉隊的負面現象,目前大量出現在當前的領域專用架構(DSA)和其它xPU研發領域。比如很多國產智算中心,投資規模很大,但受配套軟件不全等問題限制,實際利用率并不高,這其實就是軟件跟不上硬件“步伐”帶來的后遺癥。
回想架構之爭的年代,諸神混戰,最后也只有少數幾個架構活了下來。
實際上,體系結構創新,未必一定要新架構,也可以在現有的指令系統框架內實現,RISC-V恰好在這方面具備很好的支撐。
例如,國外Tenstorrent等企業基于RISC-V指令集,擴展支持AI的子指令集,進而開發了基于RISC-V的AI加速計算方案。又如,國內外不少大學和科研機構都在RISC-V上擴展了密碼學相關的子指令集,并在此基礎上實現了對后量子密碼的支持等等。
所以,我們呼吁:把RISC-V作為統一指令系統,所有CPU/GPU/xPU都基于RISC-V及其擴展來開發,避免重復勞動和研發資源的無謂浪費。
文丨唐志敏 深圳理工大學算力微電子學院院長、象帝先董事長
編輯丨蘇揚
關于作者
唐志敏是我國處理器芯片領域核心研究者,現任高性能GPU芯片研發國家高新技術企業象帝先計算技術(重慶)有限公司董事長、深圳理工大學算力微電子學院院長、中國科學院計算技術研究所主任研究員。唐志敏長期深耕高性能計算與處理器架構,對中國自主芯片的技術演進與產業趨勢有深刻洞察。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.