21世紀什么最貴?大多數公司始料未及,最貴的原來是算力,是數萬美元也“一芯難求”的GPU。
OpenAI創始人Sam Altman曾經預言,算力將成為一種新的貨幣。去年,Gartner預測2026年的全球AI支出預計將達到2.52萬億美元,其中光是基礎設施就需要增加4010億美元的投入,相當于英偉達三年多的營收。
算力的花費可以分為兩部分,訓練曾經是最昂貴的支出。但隨著大模型嵌進搜索、廣告、推薦、客服、游戲等高頻場景,推理逐漸取代訓練,占據更大的成本。IDC預計,2026年,推理算力的消耗占比將會提升到62.2%,訓練算力則降低到37.8%。
AI需要商業化,企業便需要更高性價比的算力,否則辛苦開拓的商業模式,最后全喂飽了英偉達。然而,GPU遵循的傳統架構在執行運算時有不小的數據搬運成本,在大規模實時生成任務中會產生更多花費,并且制造成本也在不斷上升。
![]()
于是,挑戰者不斷出現,并拋出新的想法:如果,我們不用GPU的架構呢?
一、尋找GPU之外的可能性
GPU誕生于圖形渲染年代,并行運算能力突出,通用能力強。但這種多功能性用來支持AI,就成了歷史包袱,難以滿足Token邊際成本持續降低的需求。
這是索羅斯“反身性”理論在算力領域的兌現:GPU“意外”適應了AI的需求,早期AI依賴GPU并助推后者市場擴大乃至絕對占有,然而當算力需求發展到一定階段,GPU架構又限制了AI效率的提高。早期的選擇也許只是那個時代的認知偏差,但它又造成了后來的因果循環,直到有新的架構能打破這種怪圈。
相比之下,非GPU路線能更好地針對AI需求做定制化,ASIC(專用集成電路)因此崛起。這條路上的知名企業數不勝數,華為、谷歌、博通、百度、寒武紀……無論采取何種架構、打造何種產品,都是為了AI的降本增效。
![]()
2025年11月,谷歌發布Gemini 3,性能跑贏了OpenAI被市場寄予厚望的GPT 5.1。Gemini 3基于谷歌自研芯片TPU訓練,高盛推算其單位token推理成本下降約70%,在后發條件下追平了英偉達GB200 NVL72的成本。
去年,Anthropic便宣布要采用最多100萬張TPU,11月又有消息稱Meta考慮將部分AI基礎設施遷移至谷歌TPU。就連英偉達股價,也因此受到影響。
但ASIC有一個天然短板:既然是定制,那么就難以匹配還在持續更新的AI算法和架構需求,而設計一個架構需要很長的周期,一旦算法變更,芯片就有可能過時。“芯模協同”,對于AI生態的構建意義重大。
去年的上海世界人工智能大會上,就有不少國產芯片廠商格外強調這一點。DeepSeek作為開源之光,也得到了國產芯片廠商的大力適配。其V4版本發布在即,很快又要接近適配節點。
既要高性能,又要強適配,有沒有一種辦法,能讓芯片和數據算法更好地協同,高效適應模型的進化?
不僅有,而且還得到了英偉達的變相認可。
去年末,英偉達意外斥資約200億美元,獲得Groq知識產權的非獨家授權,并將其主要人物一舉收入囊中。
![]()
Groq由谷歌TPU早期團隊成員創立,他們基于可重構數據流方法打造了LPU(Language Processing Unit,語言處理單元)產品,適配開源模型后展現的推理成本遠低于GPU。
而幾乎同一時間,“北京四大明星芯片公司”之一的清微智能,也基于可重構芯片(RPU)優勢拿下超20億元C輪融資,國家大基金二期、京能集團、京國瑞等多層級國資密集入場。我們從行業了解到,清微智能過去一年估值翻了三倍有余,接近190億元,目前正在籌備Pre-IPO輪融資,為最終上市做準備。
![]()
“可重構數據流”為什么這么獨特,能在大洋兩岸同時受到超級資本們的認可甚至追捧?答案是架構——它不再以上下指令的通用處理器為中心,而是先看要處理的數據流長什么樣,再讓硬件圍繞數據流去重構自己的電路拓撲。簡單來說,軟件定義硬件:
傳統GPU存在“內存墻、效率墻、互聯墻”問題,因為指揮數據的“旗手”和搬運數據的“員工”要不斷地交流信息,徒增成本。ASIC方案把搬運流程變成了固定流水線,效率提高了,不過每次需求一改就要重新定制流水線。而RPU方案是根據數據算法的需求定義流水線,想要什么傳送方式,便可以朝那個方向重構。
用清微智能創始人王博的比喻,這是在芯片里搭了一張充滿“電子道岔”的鐵路網。傳統芯片是一條單線鐵路,火車只能沿既定軌道跑;可重構數據流芯片則在每個節點都埋了道岔,今天把這些“小計算器”連成卷積流水線,明天又重連成注意力模塊專用路徑,執行完一段網絡就擦除配置,十幾納秒內切成另一種拓撲。
本質上,它把程序驅動硬件變成數據驅動硬件,讓數據在芯片內部節點之間直接流動,盡量少繞回顯存排隊。這對參數海量、訪問模式高度規則的大模型尤其友好——每少繞一次路,背后都是成本曲線被向下拉了一段。
于是,算力產業擁有了一個具備差異化特征的“第二陣營”,嘗試在蠻力堆砌GPU之外找出路。以清微智能為代表的創業公司,正在給大模型算力問題寫出“第二解”。
二、太平洋兩岸的可重構競賽:清微智能領銜中國式創新
可重構的概念并不新鮮,重要的是它有了產業化的能力。Groq把語言推理抽象成LPU,適配開源模型后的推理效率一鳴驚人,SambaNova也在用RDU與整機方案做企業市場。
在這股潮流中,清微智能作為稀缺的新架構算力芯片企業,自然而然扮演了一個新角色:中國并非只能在GPU主線上做追隨者,在剛剛打開的第二條算力支流上,我們擁有一支能拿得出手的本土隊伍。它脫胎于清華大學微電子學院研究成果,如今正在為中國的芯模協同貢獻力量。
在端側,清微早期用TX5系列產品驗證了這條路并非紙上談兵。一顆工作功耗不到2毫瓦的語音芯片,讓門鎖、音箱、手機保持常年待機聆聽狀態;多款視覺與語音終端芯片被裝進攝像頭、手機、IoT設備里,累計出貨超三千萬顆。這些看似不起眼的產品,在較長的鏈路中完成了可重構架構的可靠性和工具鏈壓力測試。
而真正讓清微智能具備“爆棚”潛力的,是面向云端市場的TX8高算力芯片。它把“數據流+可重構”直接做到大面積裸片上,并配上一種不同于GPU的互聯方式——C2C算力網格。
傳統GPU集群的路徑是“PCIe—網卡—交換機—網卡—PCIe”,每加一層節點就多一層延遲和擁塞。清微選擇在芯片之間直接織網,讓多卡互聯更接近板上直連。這樣一來,在千卡規模內可以削減大量昂貴交換機投資,同時把大模型訓練/推理中最容易觸頂的“互聯墻”壓薄一層。
搭載TX81的REX1032訓推一體服務器,在同等功耗下可以承載萬億參數模型部署,單機跑DeepSeekR1/V3級別模型無需“縮水版”;整機方案測算下來,比同類GPU產品綜合成本低約一半,能效比提升約三倍。
![]()
IDC統計顯示,2025年上半年,清微在國產非GPU(含可重構、ASIC)加速卡銷量中位列第六,進入本土算力第一梯隊。
![]()
目前,清微智能已經為多地智算中心打造了“實戰裝備”。黑龍江、浙江、安徽、北京等地陸續上線千卡規模集群,新疆雙河的中樹云智算中心則在首期工程中直接采用可重構架構,成為“東數西算”和算力出海的重要節點之一。
在軟件與生態上,清微一方面在眾智FlagOS上做到卓越適配,與寒武紀、昆侖芯、摩爾線程、昇騰、中科海光并列為領域內的“六脈神劍”;另一方面采用“三層兼容”策略——上層CUDA API級兼容,中層深度押注OpenAI主推的Triton編譯器并與智源共建生態,底層用RISC?V替代PTX,為開發者預留足夠“壓榨性能”的空間。
這些看似瑣碎的工程選擇,針對的是新架構影響的客戶遷移成本、交付與支持可靠性等問題。太多AI芯片創業公司倒在這一關,而清微智能在可重構數據流這條支流上,率先完成了從可用到可規模部署的躍遷,為中國算力產業探得了一方獨立、有潛力的天地。
三、從“補課生”到“解題人”:高階國產替代的第二條路
王博曾經表示,“相比短平快的仿制路線,選擇新架構實現‘換道超車’才是真正的高階國產替代。”清微智能押注未來3到5年的算力革命,實施“研發一代、儲備一代、釋放一代”的技術戰略。
在這個過程中,清微智能扭轉了算力問題的維度:不做英偉達的“補課生”,而是在另一條技術主線上,成為“解題人”。
這條路的難度一點不低,它意味著幾件事要同時發生:
第一,要接受長時間的生態劣勢,只能靠性能、能效、成本上的顯著優勢來抵消遷移成本。王博給客戶的下一階段承諾是“5倍性價比”:把采購、運維和性能整體算進來,讓不轉平臺顯得更虧。這會提高對架構、互聯、存儲、系統設計每一層的要求,但也會提高中國算力發展的天花板。
第二,要在非GPU賽道上盡快走完從“單點突破”到“系統方案”的閉環。可重構不是一顆孤立芯片,它要和3D存儲、Chiplet、晶圓級架構等前沿方向咬合,形成一棵有延展性的技術樹。清微規劃中的TX83,就嘗試把可重構算力網格與晶圓級芯片結合,為“后GPU時代”的大規模集群預留試驗場。
第三,要承認算力問題已從芯片問題升級為系統問題。在大規模推理場景下,算力產業需要可長期演進的整體,支撐應用。此時,如果基座完全由海外產品來搭建,我們的應用將進一步形成依賴。而清微智能則在押一條未來十年中國算力不再完全鎖死在GPU帝國里的技術路線。
這條路當然不保證成功,GPU也不會被“第二陣營”顛覆。但從產業角度,它至少已留下兩個里程碑:
一是把中國在新一代算力架構上的時間點,第一次對齊到全球同一批玩家。
王博曾經總結過,芯片技術發展有一個“類摩爾定律”:20年,架構更新一次。過去在CPU、GPU、存儲、接口標準上,我們幾乎總是在別人定完方向后才開始追;這一次,在TPU、LPU剛剛從論文走向產品的時間窗口,RPU也由中國工程師以同樣節奏做成了可出貨的工業品。
![]()
二是讓國家層面在算力上多了一條真正可選之路。當GPU供應出現風險、單一生態的議價能力高得離譜時,已經被初步跑通的新架構,會成為“火種”。
把視角再拉遠一點,如果未來十年AI真能避開上一輪“寒冬”的命運,很可能不是因為模型的聰明顛覆了人類想象,而是低成本大規模應用改變了人類的生產方式。在如此宏大的時代旋律中,站在中國產業的支流上,機會也是無限的。清微智能被時代賦予的稀缺性,最終將以算力紅利的形式,反哺于中國產業。
來源:松果財經
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.