在AI算力賽道,英偉達憑借Hopper、Blackwell、Rubin等架構GPU,早已在AI訓練領域建立起了難以撼動的技術壁壘與行業地位。但隨著即時AI場景需求爆發,傳統GPU在面對低批處理、高頻交互推理任務中的延遲短板愈發凸顯。
為破解這一痛點,英偉達重磅出擊,斥資200億美元收購Groq核心技術,搶跑AI推理市場。
這一金額不僅創下英偉達歷史最大手筆交易、刷新了推理芯片領域的估值紀錄,更鮮明地昭示著英偉達從“算力霸主”向“推理之王”轉型的意志。
緊隨這一動作,據技術博主AGF消息進一步披露,英偉達計劃在2028年推出新一代Feynman架構GPU——采用臺積電A16先進制程與SoIC 3D堆疊技術,核心目的正是為了在GPU內部深度集成Groq那套專為推理加速而生的LPU(語言處理單元),相當于給GPU加裝了一個專門處理語言類推理任務的專屬引擎,直指AI推理性能中長期存在的“帶寬墻”與“延遲瓶頸”。
![]()
這些動作表明:AI行業的競爭正從單純的算力比拼,轉向對單位面積帶寬的極致追求——這與英偉達此前“大模型推理90%的延遲源于數據搬運,導致算力利用率常低于30%”的結論不謀而合。
無獨有偶,AMD通過3D V-Cache持續驗證存儲靠近計算的效能邏輯;d-Matrix、SambaNova等明星AI推理芯片公司,更是聚焦流式執行與片上帶寬構建核心競爭力,用實際行動印證這一行業共識。
帶寬戰爭打響,誰是“中國版Groq”?
回看中國市場,AI浪潮推動下,國產大模型多點突破、強勢崛起,本土AI芯片企業集體爆發并密集沖擊IPO,資本熱度居高不下。
然而,當英偉達選擇通過Feynman架構來補齊推理短板時,就意味著誰能率先解決“帶寬墻”問題,誰就握住了下一輪周期的入場券。
在這一背景下,國內賽道涌現出前瞻性布局者。
近日,半導體行業觀察注意到,一家源于北京大學物理學院的AI芯片公司——寒序科技(ICY Technology),宣布完成數千萬元人民幣新一輪融資。這家企業以“超高帶寬推理芯片”為核心產品,被業內視為中國大陸少有的在技術路線層面正面對標Groq的前沿技術團隊。
“中國版Groq”的名號,初見端倪。
實際上,寒序科技的技術披露并非偶然,而是源于在內部保密原則下的長期的低調深耕。
早在2024年9月與2025年11月,寒序科技就已聯合北京大學物理學院、計算機學院、集成電路學院,以及澳門大學模擬與混合信號集成電路全國重點實驗室,先后承擔、主持兩項北京市科技計劃項目。他們前瞻性地鎖定0.1TB/mm2/s超大帶寬流式推理芯片研發,在省部級重大研發任務中,在北京市科學技術委員會的指導下,在任務書中全面對標Groq的技術路線與帶寬指標。
這意味著,當Groq因LPU爆紅被視為“推理新范式”時,中國科研與產業團隊已在國內同步推進一條差異化的實現路徑。
據了解,寒序科技采用“雙線布局”構建核心競爭力:一方面,已發布SpinPU-M系列磁概率計算芯片,推出1024比特全連接伊辛退火求解硬件,覆蓋組合優化與量子啟發式計算市場;另一方面,本輪融資的核心看點——SpinPU-E磁邏輯計算芯片系列,直指大模型推理解碼(Decode)階段加速,以片上MRAM(磁性隨機存儲器)為核心介質,構建超高帶寬磁性流式處理架構。
![]()
能看到,寒序科技并未跟隨主流GPU的片外DRAM/HBM或Groq的存算一體SRAM方案,而是選擇了片上MRAM這條更底層、更物理本征、更具長期想象力的技術路線。
眾所周知,當前主流的AI計算范式面臨多重困境:采用HBM的GPU方案,帶寬受限于昂貴的2.5D/3D先進封裝,核心存儲器件HBM產能被海外巨頭壟斷且面臨出口管制;采用SRAM的Groq方案,則因SRAM單元面積大、成本高,單芯片存儲容量有限,難以規模部署千億參數大模型。
面對這些行業普遍的困局,寒序科技源自北大物理學院,從凝聚態物理的角度,從第一性原理進行思考,利用本征功耗更低、速度更快的“電子自旋翻轉”,代替“電子電荷運動”來進行存儲與計算。
而這種底層邏輯的革新,正是源于MRAM技術帶來的核心優勢。它兼具SRAM的高速、DRAM的高密度與閃存的非易失性等優勢,其直立結構的磁性隧道結,通過垂直微型化和CMOS工藝兼容性,能夠大幅降低對復雜封裝的依賴,在成本、功耗和可靠性上具有顯著優勢。
![]()
與SRAM方案相比,MRAM技術的差異化優勢十分突出:
存儲密度領先:主流AI推理架構深度依賴片上SRAM以換取高速,但SRAM正面臨嚴峻的微縮困境。傳統SRAM每個存儲單元由6個晶體管(6T)組成,存儲密度低,存儲容量小,存儲典型的DeepSeek-R1-671B大語言模型可能需要數千片Groq LPU芯片,且5nm以下節點尺寸幾乎停止縮減;而MRAM天然采用1T1M(1個晶體管+1個磁隧道結)結構,單個MTJ可以執行SRAM 6個晶體管的存儲功能,同等芯片面積和工藝節點下,存儲密度是SRAM的5-6倍。
工藝成本更低:MRAM的物理結構優勢,使其在國產工藝制程即便落后一代的情況下,性能指標也能對標甚至超越采用先進制程的SRAM方案。這意味著MRAM無需追逐極先進制程,大幅降低流片與量產成本(單片成本可降至原來的十分之一以下),同時保障了供應鏈自主可控。
非易失性與高能效:MRAM斷電后數據不丟失,無需像SRAM/DRAM那樣持續刷新,待機功耗接近零,具備快速啟動、低待機功耗、高耐用性等優勢;同時避免了SRAM的漏電流損耗,為邊緣端和云端的大規模部署提供極佳能效優勢,大幅降低運行成本。
通過自研的磁性存算一體流式架構,寒序科技將MRAM的器件優勢轉化為芯片級系統性能。據悉,SpinPU-E芯片架構的目標是將訪存帶寬密度提升至0.1-0.3TB/mm2·s,不僅能比肩以“快”成名的Groq LPU(0.11 TB/mm2·s),更是英偉達H100(0.002-0.003 TB/mm2·s)的數十倍。
![]()
據了解,英偉達GPU的架構最初面向大規模訓練與圖形渲染場景設計,強調峰值算力與吞吐能力,并通過多級緩存、動態調度和共享存儲來適配高度并行但相對粗粒度的工作負載。在大模型推理的Decode階段,GPU性能瓶頸主要來自對外部存儲(HBM)和復雜內存層級的高度依賴。該計算過程呈現出強序列性、小批量和帶寬主導等特征,與GPU設計初衷明顯錯配。在實際執行中,GPU仍需要通過多級緩存和共享存儲來訪問,數據到達計算單元的時間并不固定,不同計算單元之間也需要反復等待和協調。這使得訪存延遲和執行順序經常波動,矩陣加乘單元很難按照固定節拍持續運行,算力難以穩定發揮。
而寒序科技采用確定性的“磁性流式處理(MSA)架構”,將大規模MRAM Banks緊鄰矩陣加乘單元部署,并圍繞推理數據流構建多級流水執行路徑,使權重和中間激活在局部高帶寬范圍內按固定順序流動。通過在硬件層面同時約束存儲位置、訪存帶寬、通信路徑與執行節拍,該架構在Decode階段顯著降低了延遲抖動與外部存儲訪問依賴,實現更高的帶寬與更快、更穩定的推理性能。
值得關注的是,MSA架構并非簡單的存內計算概念,而是圍繞推理場景,對數據流組織、存儲-計算耦合方式以及執行節拍進行重新設計,在保證超高帶寬的同時,顯著降低對先進制程與復雜封裝的依賴。
有業內人士指出,這一路線與NVIDIA在Feynman架構中所釋放的信號高度一致:未來推理性能的競爭核心,不再是算力規模,而是單位面積帶寬與執行范式。
走出北大實驗室的秘密武器——
“天時地利人和”
SpinPU-E展現出的性能優勢,并非偶然的技術選擇,而是核心團隊跨學科積淀、全鏈條技術把控與前瞻性路線布局的成果。
據報道,寒序科技是國內首個有能力跑通從物理、材料、器件到異質集成、芯片設計、算法的交叉團隊,核心成員源自北京大學物理學院應用磁學中心——國內磁學研究的頂尖高地,擁有近70年的磁學積淀,核心成員橫跨凝聚態物理、電子科學、計算機技術、人工智能等多領域:首席執行官朱欣岳兼具凝聚態物理、人工智能算法與集成電路的交叉背景,曾主導多模態AI算法開發、多顆高性能專用芯片研發,帶領團隊完成四輪市場化財務融資與產品化;首席科學家羅昭初作為MIT TR35入選者,曾于清華大學、蘇黎世聯邦理工學院完成自旋電子學、磁性計算的科研工作,深耕微納磁電子學與磁存儲/計算,擁有深厚的學術積累與Nature、Science正刊成果,團隊歷經多次流片驗證,既保有前沿技術探索的銳氣,又具備工程化落地的能力。
相比純粹的架構創新,寒序科技這種“材料-器件-芯片-系統-算法”的全鏈條視野和全棧攻關能力,讓MRAM技術得以從底層原理到上層系統實現協同優化與突破,而非僅停留在邏輯和架構層面的修補。
這也是寒序科技被視為精準踩中2030年行業時間軸的前瞻性下注的核心原因。這種對行業趨勢的精準踩點,不僅體現在技術路線的選擇上,或許也蘊含在對商業化路徑的思考中。
回溯Groq的成長軌跡來看,其業務從核心的GroqChip LPU推理芯片起步,逐步延伸至加速卡、服務器系統、數據中心集群,最終構建了云服務平臺,形成了“芯片-硬件-系統-云服務”的全棧布局。
沿著Groq被驗證的商業邏輯向前推演,寒序科技大概也會沿著相似的路徑開展自己的業務版圖——以SpinPU-E磁邏輯芯片為起點,向上構建硬件產品矩陣,最終通過云服務觸達更廣泛市場的全棧路徑,以構建更強的技術壁壘和產業競爭力。
更關鍵的是,這條路徑并非簡單的模式復刻,而是基于本土產業現狀的創新破局——當行業苦于HBM成本高企、SRAM微縮放緩之時,寒序科技沒有陷入“算力堆砌”的內卷,而是利用MRAM磁性計算新范式,在中國本土成熟供應鏈基礎上,筑起了一座對標全球頂尖推理性能的帶寬高地。
這種從底層物理原理出發的差異化競爭策略,或許正是其作為“中國版Groq”浮出水面的核心底氣。
MRAM開啟新型存儲“黃金時代”
破局“帶寬封鎖”
寒序科技對MRAM技術的探索并非孤例,背后是一場從“備選”走向“必選”的新型存儲技術浪潮。尤其是在全球半導體產業的演進與地緣政治激蕩背景下,為MRAM在內的新型存儲鋪就了一條通往AI算力核心舞臺的“黃金賽道”。
2024年12月,美國商務部工業與安全局(BIS)發布新出口管制規則,明確限制向中國出口內存帶寬密度超過2GB/s/mm2的尖端存儲器。
這一封鎖點,直指AI推理芯片的命門——帶寬。
目前,英偉達、AMD等巨頭極度依賴HBM,而HBM產能幾乎被SK海力士、三星、美光等海外存儲原廠壟斷,且受限于復雜的2.5D/3D先進封裝。同時,Groq所代表的SRAM路線價格極高(Groq 230MB片上SRAM內存的單卡售價2萬美金),在先進制程微縮上也已近極限。
在此背景下,MRAM路線的戰略價值陡增。它不僅在物理特性上具備跨代超越SRAM的潛力,更重要的是,它能基于國產28nm/22nm等成熟制程實現超高帶寬,徹底規避對尖端工藝和海外HBM供應鏈的依賴。這不僅是技術路線的“備選”,更是中國半導體產業在算力領域破除卡脖子困境、實現差異化突圍的“必選”。
有業內專家表示,這一戰略意義迫切需要國家有關部門給予更高重視與政策傾斜。MRAM不僅是單一存儲技術的革新,更能帶動磁性材料、磁電子器件、存算一體架構等全產業鏈突破,有望徹底改變國內在HBM領域的落后局面和SRAM對先進制程的依賴,為AI算力產業打造自主可控的“第二曲線”。
全球共振,商業化拐點已至?
當前,產業界正在用實際行動表明,MRAM不再只是實驗室里的美好構想,而是憑借獨特優勢正成為全球半導體產業布局的重點。
其中,晶圓代工龍頭與芯片大廠均在積極布局:臺積電、三星、英特爾、SK海力士、IMEC等憑借其先進的技術研發和大規模生產制造能力,已明確將嵌入式MRAM推進到22nm、16nm甚至更先進節點,持續提升MRAM的性能和集成度。
恩智浦與臺積電合作推出16nm FinFET車規級eMRAM,應用于其S32系列高端MCU,實現寫入速度比傳統閃存快10-15倍、耐久性超百萬次;瑞薩電子也推出了基于22nm工藝的STT-MRAM技術,瞄準汽車MCU市場;GlobalFoundries、Everspin在12nm和22nm工藝上緊密合作,將MRAM納入工業級和車規級量產方案;Avalanche與聯電攜手合作推出22nm STT-MRAM,在工業級和航天級市場擁有深厚積淀。
據LexisNexis數據統計,2004-2013年間,MRAM市場的專利申請量保持穩定,每年約有300至400項專利申請。需要注意的是,圖表末尾的下降并不代表興趣的下降,而是專利申請和公開之間的時間存在滯后。
![]()
這些頭部廠商的集體行動,清晰印證著MRAM正從“備選技術”升級為“主流方案”,在汽車電子、邊緣AI、高端計算等領域的商業化落地進入爆發前夜。
回看國內市場,本土半導體廠商同樣敏銳捕捉到了新型存儲技術的發展機遇,積極布局相關領域。
RRAM領域涌現出昕原半導體、銘芯啟睿、燕芯微等玩家;MRAM賽道,寒序科技、致真存儲、馳拓科技、凌存科技、亙存科技等紛紛嶄露頭角,為國內MRAM的發展奠定了產業基礎。相對于RRAM基于電子電荷遷移,是一種統計物理范疇下的阻變器件;MRAM的存取機理是基于自旋的確定性兩態翻轉,更加可控、精準,大規模制造下器件一致性、器件壽命極限都更有優勢與潛力。兩者均被臺積電等半導體巨頭作為下一代面向AI的存儲技術重點押注。
具體來看,本土MRAM廠商各有側重,多數主要集中于存儲、加密、嵌入式控制等傳統領域,例如:致真存儲專注于磁性隧道結(MTJ)的核心器件研發與制造工藝,掌握從材料研發到器件制造的全鏈路技術,擁有國內唯一的8英寸磁存儲芯片專用后道微納加工工藝中試線。近期與北京航空航天大學聯合攻關,研制出全球首顆8Mb容量自旋軌道力矩磁隨機存儲器芯片(SOT-MRAM),實現SOT-MRAM容量規模化突破。
馳拓科技專注于MRAM存儲芯片的技術研發與生產制造,建有12英寸MRAM量產中試線,是國內首家實現MRAM量產的企業。近期成功突破垂直磁化體系技術瓶頸,存儲器件TMR關鍵指標比肩國際頭部代工廠量產的STT-MRAM。
凌存科技專注于存儲模塊開發,致力于將MRAM技術從核心器件層面推向終端應用,成功開發了世界首款高速、高密度、低功耗的存儲器MeRAM原型機及基于MeRAM的真隨機數發生器芯片,產品廣泛應用于車載電子、高性能運算、安全等領域。
寒序科技則獨辟蹊徑,與多數國內MRAM企業不同,其以MRAM為核心介質構建計算芯片,將MRAM的物理優勢轉化為算力與帶寬優勢,開辟了“磁性計算”這一全新賽道,致力于從計算層面引領國內MRAM技術從利基低毛利領域向高端市場跨越,成為國內MRAM技術從存儲替代向計算革新跨越的關鍵力量,舉起大旗與國內磁學領域全面擁抱合作,力爭一同搶占全球“磁計算”的戰略高地。
綜合來看,從器件、設備、制造到系統應用,國內產業鏈的前期布局已具備支撐本土MRAM技術產業化與生態發展的基礎。尤其是寒序科技的差異化定位,進一步填補了國內MRAM從存儲到計算的關鍵空白,為后續誕生更多行業廠商提供了土壤和必然性。
生態共建:國產MRAM的“磁計算”革命
根據市場研究機構Precedence Research數據顯示,2024年全球MRAM市場規模估計為42.2億美元,預計從2025年的57.6億美元增長到2034年的約847.7億美元,復合年增長率高達34.99%。
![]()
雖然前景廣闊,但MRAM的大規模爆發和商業化落地仍需產業合力,需要產業鏈上下游凝聚共識,共同構建生態。結合國際經驗和國內產業的發展現狀來看,更深度的產業合作與資源傾斜或許是推動MRAM技術發展的有力舉措。
例如,國家有關部門可以給予MRAM技術更多重視,加大資金與政策支持,積極推動MRAM這一有希望在帶寬領域實現“變道超車”的關鍵技術。
同時,借鑒臺積電、三星、GlobalFoundries等頭部廠商對MRAM的關注與投入力度,國內代工廠或許也應加強對MRAM的工藝研發與資源投入,積極與國內廠商共同開展技術研發與工藝優化,爭取盡早打通“設計-制造-封測”的本土化鏈路,形成協同創新的合力,降低MRAM芯片的流片成本與量產門檻。
還有一點不可忽視。英偉達收購 Groq核心技術,計劃在Feynman架構中整合LPU單元的案例,充分證明了“通用算力+專用引擎”的協同優勢和行業趨勢。
這一案例極具啟示價值。筆者認為,在未來提升AI推理效率的行業共識下,國內AI芯片廠商應抓住這一變革機遇,加強與在新型介質與架構上具備底層創新能力的團隊的合作力度,打造兼具通用算力與專用推理性能的新技術路徑,快速補強技術短板,構建差異化競爭力。
產業界正釋放清晰信號:以MRAM為代表的新型存儲,已成為后摩爾時代的核心焦點。地緣政治的戰略訴求、國際大廠的技術押注、國內產業鏈的長期積淀,再加上寒序科技的差異化突破,多重力量共振之下,MRAM正逐漸邁入產業化的“黃金時代”,有望成為中國AI芯片產業實現換道超車的關鍵抓手。
五年后,誰將主導下一代推理芯片?
當摩爾線程、沐曦、天數、壁仞等國產AI芯片公司接連叩響資本市場的大門,一個時代的答卷已然清晰。它們的密集上市,標志著中國在基于傳統GPU架構的算力競賽中,完成了從無到有的突圍,進入了國產替代的收獲期。
如果說上一代AI芯片的競爭是“算力競賽”,那么下一代的分水嶺將是“誰能率先跨過帶寬墻”。
在這個關鍵轉折點上,兩條路徑清晰呈現:一條是Groq選擇的極致SRAM片上集成路徑,用極高成本將帶寬推向極限,并因此獲得了行業霸主英偉達以數百億美元估值的戰略整合;另一條,則是以MRAM為代表的新型存儲介質路線,為突破帶寬瓶頸提供了一種更具根本性,也更符合長期成本與供應鏈安全需求的方案。
數年后,當AI推理進入“帶寬決勝”的新時代,芯片市場或許不再僅有算力的巨獸,主導市場的佼佼者還將屬于那些能夠率先在“帶寬戰爭”中沉淀出護城河的先行者。
正如Groq在硅谷用SRAM驚艷了世界,行業演進的邏輯暗示:“中國版Groq”的出現也將不再是懸念。
在這個征程中,中國半導體產業各方也都在積極擁抱AI,拓展產品品類,謀劃新的增長曲線。而寒序科技正依托MRAM磁性計算的新范式,給出“中國版”的實現路徑——并且,這條路,他們早在多年前,就已開始默默鋪設。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4288期內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.