![]()
新智元報道
編輯:桃子 好困
【新智元導讀】英偉達200億美元「招安」Groq,推理芯片賽道一夜變天。但在大洋彼岸,一家北大系創業公司剛剛交出了自己的流片答卷。
NVIDIA GTC 2026前夕,AI推理賽道大雨欲來。
國內死磕「超大帶寬流式推理」路線的北大系黑馬——寒序科技,今日宣布完成數千萬元融資。
蟄伏兩年,寒序直接亮出硬貨:
首顆樣片回片測試全面跑通,單位面積帶寬飆至100 GB/s/mm2;
下一代「MRAM+SRAM」混合架構直指2000 Tokens/s極限。
這場破除「內存墻」的國產算力突圍戰,正從紙面躍向流片。
GTC 2026前夜的「路線倒戈」
大模型硬件的下半場,正迎來一場底層路線的劇烈「倒戈」。
下周,NVIDIA GTC 2026即將開幕。
作為全球AI算力的風向標,業內普遍預測:隨著Agent(智能體)與具身智能的大規模落地,算力焦點的天平已徹底向「推理(Inference)」傾斜。
而在此前,業界盛傳英偉達已通過約200億美元的驚人估值級別,以技術授權與核心團隊吸納的方式,實質性綁定了北美明星推理芯片公司Groq。巨頭為何對一家初創公司擲出天價?
![]()
核心邏輯在于:傳統GPU在應對流式大模型推理時,正撞上難以逾越的「內存墻(Memory Wall)」與動態調度延遲。在實時生成的戰場上,原本為并行計算而生的GPU,正顯得有些「尾大不掉」。
就在英偉達試圖在北美完成技術壟斷、構筑推理算力護城河的當下,新智元獨家獲悉:國內專注超快流式推理芯片的創業黑馬——「寒序科技」今日正式宣布完成數千萬元融資。本輪投資方為啟高資本、賽意產業基金,源合資本擔任獨家財務顧問。
在蟄伏兩年后,這家源自北大的硬核團隊直接交出了流片答卷,向業界證明:在「確定性流式處理」這條非共識的道路上,中國團隊不僅跟得上,而且打得通。
GPU的「原罪」與推理時代的「陽謀」
要理解寒序科技的技術護城河,必須先拆解為何連英偉達都要焦慮。
現代GPU(如H100/Blackwell)是為并行計算而生的藝術品。為了兼容通用計算,它支持復雜的軟件生態和多類型算子,內部包含極其復雜的動態調度、亂序執行、多級Cache層級以及Warp調度機制。
在「訓練階段(Training)」,這種吞吐量優先的架構通過大規模數據并行,展現了統治級的實力。
但在「推理階段(Inference)」,風向變了。
大模型生成Token的過程是串行的、流式的。每生成一個Token,本質上都需要執行一次矩陣向量乘(GEMV):
y = Wx
其中W為權重矩陣(Weight Matrix),x為激活向量(Activation Vector)。
這意味著推理階段并不是「算力受限」問題,而是典型的「帶寬受限計算(Bandwidth-bound Computing)」。在Decode(生成)階段,GPU龐大的浮點運算單元(ALU)大部分時間都在空轉,苦苦等待從顯存中搬運權重的指令。這種「高射炮打蚊子」的錯配,導致了極大的算力閑置與延遲波動。
英偉達的「陽謀」昭然若揭:既然GPU架構在小Batch推理上存在天生缺陷,那就通過資本手段「收編」像Groq這樣走LPU(Language Processing Unit)路線的公司,從而在黑盒內部完成對推理架構的補完。
叫板Groq
寒序科技的「極致斷舍離」
寒序科技(SpinPU-E Series)走的是一條與GPU截然不同、卻與Groq核心理念高度共鳴的道路:片上存儲權重的流式高帶寬架構徹底摒棄硬件調度,采用片上存儲權重的流式高帶寬架構。
參照張量流式處理器(TSP)的底層原則,寒序科技在產品定義上實現了極致的重構。這種架構在內部被形象地稱為「生產線模式」,而非GPU的「計件工廠模式」。
1. 算法指導的流式「確定性」
傳統處理器依賴多級緩存和復雜的調度邏輯來處理不規則任務,這在大模型看來是多余的負擔。寒序通過神經網絡前向傳播算法指導的Decode專用性、確定性數據流動規劃,實現了超高吞吐的精確調度與處理。
這意味著,數據在芯片內部每一納秒的位置都是預先確定的,消除了任何因動態爭搶資源帶來的延遲抖動。
2. 面向算子的數據通路
寒序將芯片內部空間劃分為針對Transformer模型優化的特定功能塊:片上權重存儲、GEMV計算單元、向量運算單元。這種設計讓權重讀取與計算形成完美流水線,真正做到了「數據到達即計算」。
3. 帶寬即生命線
在大模型推理中,決定吞吐量的不是FLOPS,而是帶寬利用率。公式如下:
![]()
寒序科技的核心競爭力,就在于將這個公式的分子(帶寬)推向了物理極限。
100 GB/s/mm2
跨越「死亡之谷」的硬核指標
對于芯片初創公司而言,從PPT架構圖到硅片回片,中間橫亙著被稱為「死亡之谷」的流片驗證期。
知情人士向新智元透露,寒序科技首顆芯片樣片的「回片測試」結果遠超預期,核心功能與技術邏輯被全面驗證。其中最關鍵的一項硬指標:其「單位面積帶寬」達到了100 GB/s/mm2。
這是一個足以讓業界側目的數字。在流式推理架構中,這一指標幾乎可以直接映射為推理速度。
對比傳統架構:即使是頂級的HBM3e顯存方案,其單位面積能提供的有效讀取帶寬也受限于顯存控制器和物理封裝。
對比Groq:寒序在單位面積上提供了更高密度的權重存取能力,這意味著同樣的芯片尺寸下,寒序能以更短的時間處理更多的權重參數。
在「得帶寬者得天下」的推理賽道,這不僅是一個數據,更是一道分水嶺。它使得大模型在高吞吐流式輸出時,能夠真正滿足未來AI Agent對低延遲的苛刻要求。
終極殺招
「MRAM+SRAM」混合架構
Groq雖然快,但它有一個致命的弱點:存不下。
Groq采用純SRAM方案,雖然速度極致,但SRAM的密度極低。要運行一個70B規模的模型,往往需要數百張卡集群,其成本和功耗讓許多中小企業望而卻步。
寒序科技的野心不止于復刻Groq,而是要進化它。
據悉,寒序科技在即將流片的下一代芯片中,首創了「片上MRAM + SRAM」的混合存儲架構。
SRAM(靜態隨機存儲器):負責最高速的緩存與中間變量計算,保持極低延遲。
MRAM(磁性隨機存儲器):這種新型非易失性存儲器擁有接近SRAM的速度,但密度卻遠高于SRAM,且功耗極低
這種「北大系」擅長的底層技術融合,讓寒序在保持「確定性流式架構」優勢的同時,大幅提升了單片的模型容量存儲密度。其目標性能直指2000 Tokens/s的極限。
這是什么概念?
目前市面上最快的對話模型推理速度通常在30-50 Tokens/s。如果寒序的2000 Tokens/s方案量產,意味著:
具身智能:機器人可以在毫秒級完成視覺輸入到動作指令的推理閉環。
實時同傳:翻譯將不再有「滯后感」,實現真正意義上的同步。
多智能體(小龍蝦):復雜的智能體規劃任務可以在瞬間完成多次自我博弈與修正。
北大基因與國產算力的新變量
資料顯示,寒序科技成立于2023年8月,核心創始團隊源自「北京大學磁學中心」。
這是一個典型的「科學家+工程師」組合。他們在底層新型存儲器(MRAM)與存算架構融合領域,擁有深厚的學術積累和工程落地經驗。這解釋了為什么他們能駕馭這種極其考驗硬件底層控制邏輯的異構設計。
有接近本輪融資的投資人對新智元表示:「我們看好寒序,是因為他們沒有在GPU的舊地圖上尋找新大陸,而是直接重構了推理時代的『底層指令集』。」
寒序選擇在GTC 2026前夕釋放融資與技術進展信息,顯然有著更深層的考量。在算力霸權日益集中的今天,國內需要一種不依賴海外高端HBM供應、能夠通過架構創新實現性能彎道超車的方案。
算力霸權的終局之戰
回看GTC的歷史,每一代架構都在定義一個時代:
2017年,Volta GPU標志著訓練時代的全面爆發;
2022年,Hopper H100引入Transformer Engine,定鼎LLM基石;
2026年,這場關于「推理」的戰爭,將決定AI能否真正走進各行各業。
英偉達雖然強大,但沒有任何一個王朝能通過一種架構統治所有場景。在大模型從「博學」走向「行動(Agentic AI)」的過程中,對速度、能效比和實時性的要求,正在為像寒序科技這樣的垂直創新者留出巨大的窗口。
寒序科技的這筆融資,只是一個開始。隨著Agent系統、多模態模型和具身智能的爆發,AI不再只是單輪對話,而是需要持續的規劃與環境反饋。
推理,才是AGI的「最后一公里」。
寒序科技已經在這一硬核戰場上落下了關鍵的一子。
下周的圣何塞,老黃或許會拿出更強的Blackwell變體,但在大洋彼岸,國產算力的黑馬們,正在用全新的架構邏輯,截擊巨頭的陽謀。
您認為在推理芯片賽道,國內企業通過「非通用架構」能否實現對NVIDIA的突圍?歡迎在評論區留下您的洞見。
關于寒序科技:成立于2023年,致力于開發超大帶寬、確定性流式大模型推理芯片,目前已完成四輪融資。其核心技術路徑旨在解決大模型推理中的「內存墻」難題,為實時AI應用提供顛覆性基礎設施。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.