網易首頁 > 網易號 > 正文申請入駐

截擊英偉達！OpenClaw狂吞Token，北大系芯片黑馬劍指2000 Tokens/s

2026-03-10 13:04:09　來源: 新智元

北京舉報

分享至

新智元報道

編輯：桃子好困

【新智元導讀】英偉達200億美元「招安」Groq，推理芯片賽道一夜變天。但在大洋彼岸，一家北大系創業公司剛剛交出了自己的流片答卷。

NVIDIA GTC 2026前夕，AI推理賽道大雨欲來。

國內死磕「超大帶寬流式推理」路線的北大系黑馬——寒序科技，今日宣布完成數千萬元融資。

蟄伏兩年，寒序直接亮出硬貨：

首顆樣片回片測試全面跑通，單位面積帶寬飆至100 GB/s/mm2；
下一代「MRAM+SRAM」混合架構直指2000 Tokens/s極限。

這場破除「內存墻」的國產算力突圍戰，正從紙面躍向流片。

GTC 2026前夜的「路線倒戈」

大模型硬件的下半場，正迎來一場底層路線的劇烈「倒戈」。

下周，NVIDIA GTC 2026即將開幕。

作為全球AI算力的風向標，業內普遍預測：隨著Agent（智能體）與具身智能的大規模落地，算力焦點的天平已徹底向「推理（Inference）」傾斜。

而在此前，業界盛傳英偉達已通過約200億美元的驚人估值級別，以技術授權與核心團隊吸納的方式，實質性綁定了北美明星推理芯片公司Groq。巨頭為何對一家初創公司擲出天價？

核心邏輯在于：傳統GPU在應對流式大模型推理時，正撞上難以逾越的「內存墻（Memory Wall）」與動態調度延遲。在實時生成的戰場上，原本為并行計算而生的GPU，正顯得有些「尾大不掉」。

就在英偉達試圖在北美完成技術壟斷、構筑推理算力護城河的當下，新智元獨家獲悉：國內專注超快流式推理芯片的創業黑馬——「寒序科技」今日正式宣布完成數千萬元融資。本輪投資方為啟高資本、賽意產業基金，源合資本擔任獨家財務顧問。

在蟄伏兩年后，這家源自北大的硬核團隊直接交出了流片答卷，向業界證明：在「確定性流式處理」這條非共識的道路上，中國團隊不僅跟得上，而且打得通。

GPU的「原罪」與推理時代的「陽謀」

要理解寒序科技的技術護城河，必須先拆解為何連英偉達都要焦慮。

現代GPU（如H100/Blackwell）是為并行計算而生的藝術品。為了兼容通用計算，它支持復雜的軟件生態和多類型算子，內部包含極其復雜的動態調度、亂序執行、多級Cache層級以及Warp調度機制。

在「訓練階段（Training）」，這種吞吐量優先的架構通過大規模數據并行，展現了統治級的實力。

但在「推理階段（Inference）」，風向變了。

大模型生成Token的過程是串行的、流式的。每生成一個Token，本質上都需要執行一次矩陣向量乘（GEMV）：

y = Wx

其中W為權重矩陣（Weight Matrix），x為激活向量（Activation Vector）。

這意味著推理階段并不是「算力受限」問題，而是典型的「帶寬受限計算（Bandwidth-bound Computing）」。在Decode（生成）階段，GPU龐大的浮點運算單元（ALU）大部分時間都在空轉，苦苦等待從顯存中搬運權重的指令。這種「高射炮打蚊子」的錯配，導致了極大的算力閑置與延遲波動。

英偉達的「陽謀」昭然若揭：既然GPU架構在小Batch推理上存在天生缺陷，那就通過資本手段「收編」像Groq這樣走LPU（Language Processing Unit）路線的公司，從而在黑盒內部完成對推理架構的補完。

叫板Groq

寒序科技的「極致斷舍離」

寒序科技（SpinPU-E Series）走的是一條與GPU截然不同、卻與Groq核心理念高度共鳴的道路：片上存儲權重的流式高帶寬架構徹底摒棄硬件調度，采用片上存儲權重的流式高帶寬架構。

參照張量流式處理器（TSP）的底層原則，寒序科技在產品定義上實現了極致的重構。這種架構在內部被形象地稱為「生產線模式」，而非GPU的「計件工廠模式」。

1. 算法指導的流式「確定性」

傳統處理器依賴多級緩存和復雜的調度邏輯來處理不規則任務，這在大模型看來是多余的負擔。寒序通過神經網絡前向傳播算法指導的Decode專用性、確定性數據流動規劃，實現了超高吞吐的精確調度與處理。

這意味著，數據在芯片內部每一納秒的位置都是預先確定的，消除了任何因動態爭搶資源帶來的延遲抖動。

2. 面向算子的數據通路

寒序將芯片內部空間劃分為針對Transformer模型優化的特定功能塊：片上權重存儲、GEMV計算單元、向量運算單元。這種設計讓權重讀取與計算形成完美流水線，真正做到了「數據到達即計算」。

3. 帶寬即生命線

在大模型推理中，決定吞吐量的不是FLOPS，而是帶寬利用率。公式如下：

寒序科技的核心競爭力，就在于將這個公式的分子（帶寬）推向了物理極限。

100 GB/s/mm2

跨越「死亡之谷」的硬核指標

對于芯片初創公司而言，從PPT架構圖到硅片回片，中間橫亙著被稱為「死亡之谷」的流片驗證期。

知情人士向新智元透露，寒序科技首顆芯片樣片的「回片測試」結果遠超預期，核心功能與技術邏輯被全面驗證。其中最關鍵的一項硬指標：其「單位面積帶寬」達到了100 GB/s/mm2。

這是一個足以讓業界側目的數字。在流式推理架構中，這一指標幾乎可以直接映射為推理速度。

對比傳統架構：即使是頂級的HBM3e顯存方案，其單位面積能提供的有效讀取帶寬也受限于顯存控制器和物理封裝。
對比Groq：寒序在單位面積上提供了更高密度的權重存取能力，這意味著同樣的芯片尺寸下，寒序能以更短的時間處理更多的權重參數。

在「得帶寬者得天下」的推理賽道，這不僅是一個數據，更是一道分水嶺。它使得大模型在高吞吐流式輸出時，能夠真正滿足未來AI Agent對低延遲的苛刻要求。

終極殺招

「MRAM+SRAM」混合架構

Groq雖然快，但它有一個致命的弱點：存不下。

Groq采用純SRAM方案，雖然速度極致，但SRAM的密度極低。要運行一個70B規模的模型，往往需要數百張卡集群，其成本和功耗讓許多中小企業望而卻步。

寒序科技的野心不止于復刻Groq，而是要進化它。

據悉，寒序科技在即將流片的下一代芯片中，首創了「片上MRAM + SRAM」的混合存儲架構。

SRAM（靜態隨機存儲器）：負責最高速的緩存與中間變量計算，保持極低延遲。
MRAM（磁性隨機存儲器）：這種新型非易失性存儲器擁有接近SRAM的速度，但密度卻遠高于SRAM，且功耗極低

這種「北大系」擅長的底層技術融合，讓寒序在保持「確定性流式架構」優勢的同時，大幅提升了單片的模型容量存儲密度。其目標性能直指2000 Tokens/s的極限。

這是什么概念？

目前市面上最快的對話模型推理速度通常在30-50 Tokens/s。如果寒序的2000 Tokens/s方案量產，意味著：

具身智能：機器人可以在毫秒級完成視覺輸入到動作指令的推理閉環。
實時同傳：翻譯將不再有「滯后感」，實現真正意義上的同步。
多智能體（小龍蝦）：復雜的智能體規劃任務可以在瞬間完成多次自我博弈與修正。

北大基因與國產算力的新變量

資料顯示，寒序科技成立于2023年8月，核心創始團隊源自「北京大學磁學中心」。

這是一個典型的「科學家+工程師」組合。他們在底層新型存儲器（MRAM）與存算架構融合領域，擁有深厚的學術積累和工程落地經驗。這解釋了為什么他們能駕馭這種極其考驗硬件底層控制邏輯的異構設計。

有接近本輪融資的投資人對新智元表示：「我們看好寒序，是因為他們沒有在GPU的舊地圖上尋找新大陸，而是直接重構了推理時代的『底層指令集』。」

寒序選擇在GTC 2026前夕釋放融資與技術進展信息，顯然有著更深層的考量。在算力霸權日益集中的今天，國內需要一種不依賴海外高端HBM供應、能夠通過架構創新實現性能彎道超車的方案。

算力霸權的終局之戰

回看GTC的歷史，每一代架構都在定義一個時代：

2017年，Volta GPU標志著訓練時代的全面爆發；
2022年，Hopper H100引入Transformer Engine，定鼎LLM基石；
2026年，這場關于「推理」的戰爭，將決定AI能否真正走進各行各業。

英偉達雖然強大，但沒有任何一個王朝能通過一種架構統治所有場景。在大模型從「博學」走向「行動（Agentic AI）」的過程中，對速度、能效比和實時性的要求，正在為像寒序科技這樣的垂直創新者留出巨大的窗口。

寒序科技的這筆融資，只是一個開始。隨著Agent系統、多模態模型和具身智能的爆發，AI不再只是單輪對話，而是需要持續的規劃與環境反饋。

推理，才是AGI的「最后一公里」。

寒序科技已經在這一硬核戰場上落下了關鍵的一子。

下周的圣何塞，老黃或許會拿出更強的Blackwell變體，但在大洋彼岸，國產算力的黑馬們，正在用全新的架構邏輯，截擊巨頭的陽謀。

您認為在推理芯片賽道，國內企業通過「非通用架構」能否實現對NVIDIA的突圍？歡迎在評論區留下您的洞見。

關于寒序科技：成立于2023年，致力于開發超大帶寬、確定性流式大模型推理芯片，目前已完成四輪融資。其核心技術路徑旨在解決大模型推理中的「內存墻」難題，為實時AI應用提供顛覆性基礎設施。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

韓國芯片，徹底爆了！

華商韜略 2026-03-10 10:42:39
1 跟貼 1
AMD蘇姿豐 CES2026主題演講完整版（中文字幕）

智東西 2026-01-06 17:32:10
0 跟貼 0

超節點三大特點打破通信墻，具備大帶寬、低時延、內存統一編址

量子位 2026-02-05 16:43:10
0 跟貼 0

不上云、不租卡，如何優雅地在本地微調Qwen-VL-30B？

機器之心Pro 2026-01-13 12:57:27
32 跟貼 32
1000 倍效率神話，Taalas如何用 “模型即芯片” 暴打英偉達

鈦媒體APP 2026-02-24 15:35:10
0 跟貼 0

微軟和英偉達聯手丟“王炸”！所有游戲玩家都能用上光追了？

雷科技 2026-03-08 13:42:27
4 跟貼 4

美股最強50 | 博通：繼英偉達之后，下一個AI算力“王者”

財聯社 2026-03-10 13:32:15
0 跟貼 0
同樣是高考狀元卻走出了截然不同的路

臧老師 2026-03-09 17:46:39
5 跟貼 5

獨家對話研極微創始人：80人做到近100億營收后，要把AI攝像頭插到田間地頭

36氪 2026-01-21 09:10:59
41 跟貼 41
這事你們怎么看？

老閆大實話 2026-03-07 17:37:35
1 跟貼 1
GTC+OFC下周來臨光互聯將成市場重大題材？美銀看好這些股票

財聯社 2026-03-10 14:20:45
0 跟貼 0
英偉達CEO黃仁勛：封鎖英偉達是錯誤的決定！

知了3C 2026-03-08 01:59:16
0 跟貼 0
實測 5 萬元的蘋果 AIPC，比我們想象的還要出色｜M5 Max MacBook Pro 評測

愛范兒 2026-03-10 13:57:21
0 跟貼 0
她從童星到北大才女，撒貝寧苦戀20年，如今44歲活成這樣！

二妹扯娛 2026-03-10 11:01:44
1 跟貼 1
黃仁勛全世界穿皮衣，唯獨在中國換上了大花襖

雷科技 2026-01-27 17:19:30
0 跟貼 0
日本部署遠程導彈射程在1000公里左右

參考消息 2026-03-09 14:33:40
30967 跟貼 30967
“重返青春是考清華還是北大呢！”

鳴雨短劇 2026-03-08 11:23:52
76 跟貼 76
獨家丨理想汽車芯片部門Soc 負責人秦東離職

雷峰網 2026-03-09 16:56:35
2 跟貼 2
英偉達擬推出NemoClaw開源平臺，科創人工智能ETF華夏（589010）午后持續走強

每日經濟新聞 2026-03-10 14:18:05
0 跟貼 0
MacBook Neo帶頭、華為谷歌跟進：手機芯片終于要「吞并」PC了

雷科技 2026-03-10 12:11:00
0 跟貼 0
撒貝寧自曝被迫北漂：北大保送背后的辛酸路

答嘉瑞 2026-03-09 07:14:59
2 跟貼 2
存儲芯片概念午后活躍華海誠科漲超12%

每日經濟新聞 2026-03-10 13:36:28
0 跟貼 0
男孩放羊時遇到河流，趴在羊背上讓羊馱著他過河

南陽日報 2026-03-09 15:31:35
738 跟貼 738
龍蝦硬件能讓電池更健康，支持智能充電器

愛范兒 2026-03-10 04:18:42
10 跟貼 10
大風315 | 游客稱飛3000公里在西雙版納一景區游玩，因明星錄制綜藝節目被清場；景區：具體情況需由游客回應

大風新聞 2026-03-09 17:06:09
6459 跟貼 6459
V社正式確認:SteamMachine等三款硬件26年鐵定發售

游民星空 2026-03-07 17:05:13
2 跟貼 2
自動研究是未來！Karpathy放大招，將自我迭代智能體放進單個GPU

機器之心Pro 2026-03-09 11:39:03
0 跟貼 0
NBA最新排名：騎士僅第四，綠凱黑馬第二，老鷹第九，籃網墊底

籃球看比賽 2026-03-10 11:16:55
8 跟貼 8
北大食堂響起熟悉旋律，眾人紛紛駐足欣賞，當初那位是否仍在

歡樂舍長 2026-03-09 11:02:49
1 跟貼 1
Token出海！科創芯片設計ETF天弘（589070）近5日凈流入超5000萬元

每日經濟新聞 2026-03-10 09:23:02
0 跟貼 0
《逐玉》熱度狂飆破29000，2026古裝劇黑馬竟然長這樣！

調侃國際觀點 2026-03-10 12:45:49
1 跟貼 1
缸中之腦現代版：20萬人腦神經元一周學會打Doom

量子位 2026-03-06 17:34:11
0 跟貼 0
縣里公安局的架構，竟然有這么龐大，不是說精簡機構嗎！

搞笑的小寧 2026-03-09 09:29:04
1 跟貼 1
全世界最貴的車！買了它是黃仁勛唯一的遺憾

雷科技 2026-02-06 23:52:44
0 跟貼 0
內存價格飆升沖擊全球手機市場，2026年減產10%

快科技 2026-03-10 14:14:24
0 跟貼 0
黃仁勛談“唯一的遺憾”：在英偉達市值3億美元時出售股票，給父母買了一輛奔馳車

財聯社 2026-01-23 14:47:34
3 跟貼 3
北大食堂偶遇“韋神”，網友稱幸運見證數學天才，贊其為一代神人

熱點推送 2026-03-10 10:44:59
1 跟貼 1
女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
1447 跟貼 1447
AI印鈔機還是碎鈔機？以Token計價的“小龍蝦”，你可能養不起！

華爾街見聞官方 2026-03-10 13:13:42
0 跟貼 0
男子在火車遇到北大教授韋東奕，手里啃著雞腿。眼睛貼著手機

嗨拍日記 2026-03-10 11:36:19
1 跟貼 1

新智元

AI產業主平臺領航智能+時代

14685文章數 66674關注度

往期回顧全部

G7稱暫不釋放油儲但"隨時準備"采取必要措施

汽車要聞

蔚來換電和理想5C，誰能硬剛，比亞迪兆瓦閃充？

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

健康

親子

教育

軍事航空

手機 / 數碼

房產 / 家居

截擊英偉達！OpenClaw狂吞Token，北大系芯片黑馬劍指2000 Tokens/s

“龍蝦”狂歡 賣“飼料”先掙錢了?

牛彈琴：特朗普放風要停戰 伊朗稱正為美國準備"驚喜"

牛彈琴：特朗普放風要停戰 伊朗稱正為美國準備"驚喜"

韓國女足羨慕的奢侈品，為何選擇中國女足

肖戰首奪SMG視帝，孫儷四封視后創歷史

全民"養龍蝦"背后 第一批受害者浮現

蔚來換電和理想5C，誰能硬剛，比亞迪兆瓦閃充？

態度原創

iPhone 17等用戶反饋蘋果iOS 26.3.1更新BUG：斷網、變慢等

轉頭就暈的耳石癥，能開車上班嗎？

孩子過敏不過敏，這7個預警信號家長要記牢

養一個有主見的孩子，請經常這樣對他說

剛說完戰爭很快結束 特朗普改口

“龍蝦”狂歡賣“飼料”先掙錢了?

牛彈琴：特朗普放風要停戰伊朗稱正為美國準備"驚喜"

牛彈琴：特朗普放風要停戰伊朗稱正為美國準備"驚喜"

全民"養龍蝦"背后第一批受害者浮現

剛說完戰爭很快結束特朗普改口