文 | 電廠,作者 | 董溫淑,編輯 | 高宇雷
在AI大模型的市場里,兩年的時間足以重寫一套共識。
2024年初,壁仞科技聯合創始人徐凌杰離開GPU市場,轉身創辦了魔形智能(Magik Compute),要做“AI Token Factory”。彼時這對大眾還是一個陌生的說法。
但當時間邁進2026年,伴隨OpenClaw、Seedance等應用走向大眾,“Token經濟學”在極短時間內完成了行業內外的迅速破圈。
剛剛過去的3月,中國Token日均調用量突破了140萬億。同月,黃仁勛在英偉達年度盛會GTC 2026上預言“未來的數據中心會變成一個生產Token 的工廠”——與魔形的愿景不謀而合。
3月底,我們在上海見到了徐凌杰,聊了聊魔形智能的目標愿景與業務模式;也試圖借助他“局內人”的視角,一窺Token工廠、Token經濟學,以及電力出海等衍生概念的背后真相。
從超節點與DeepSeek V2講起,Token如何走入視野中央
2024年1月18日,徐凌杰最后一次以壁仞科技總裁的身份發出內部信,宣布自己即將離職。信中談及未來,他簡單而神秘地寫道:
“AGI is calling,江湖再見。”
徐凌杰曾任職于英偉達、AMD、三星北美研究院從事GPU研發、管理工作,并曾擔任阿里巴巴阿里云智能事業群總監。
在2019年壁仞科技成立后,徐凌杰作為聯合創始人之一,主要負責產品規劃和市場拓展業務。
2024年,正是壁仞多款拳頭產品進入規模化量產、營收快速攀升的時間點;同年9月,壁仞還啟動了上市輔導,即將開啟國產GPGPU第一股的沖刺。
外界難免好奇,徐凌杰為什么會在這個“收獲時節”選擇轉身。
3月底,在上海漕河涇開發區的一棟共享辦公空間里,我們見到了徐凌杰。從地圖上看,魔形智能與位于浦江的壁仞科技大樓相距不到半小時的車程,但兩家公司的使命已經不同。
對于創業的時間選擇,他簡單講道:“我和我的聯合創始人金琛看到的趨勢是,在AI大模型和芯片之間,會有許多的工作需要做。而2024年我40歲。人生的黃金年齡就這么幾年,既然我們認為Token的大潮馬上要來了,那就要抓住自己精力最好的這幾年,敢于縱身。”
再具體一些,讓他看清這個趨勢的有兩件事:
- 第一件是2024年的GTC大會上,英偉達發布了GB200 NVL72。這是一個集成了36個Grace CPU、72 個Blackwell GPU、合計擁有60萬個零件、重達3000磅的“超節點(SuperPod)”機架系統。
NVL72也是英偉達“超節點”產品路線的代表之作。“超節點”顧名思義,是指通過高速互聯技術將多臺服務器、數十乃至上百塊GPU緊密集成的高性能計算單元,堪稱“算力巨獸”。
- 第二件事,則是在2024年的5月,開源模型DeepSeek V2發布,憑借MoE(混合專家模型)、MLA(多頭潛注意力)等技術,一舉將模型推理成本降至行業最低。
數據的直觀對比尤為驚人,DeepSeek V2的每百萬Token成本相比同年發布的GPT-5降低了約96%。
一端是算力以“超節點”的形式被極致堆疊,另一端是模型通過結構創新不斷壓縮單位Token成本——供給與效率,同時發生了躍遷。
Token迎來了可以被工業化生產、精細化定價的可能性。這成了徐凌杰自己的aha moment:“當時我們覺得,V2這樣的開源模型模型和超節點將是市場的絕配啊。”
做軟硬結合的AI Infra,已完成新一輪融資
在寫給壁仞同事的離職信中,徐凌杰還寫道:“雖然造芯之路告一段落,但還將堅守在智能算力的大賽道上”。
在2024年,這種表述難免讓外界感到困惑。
“AI的三要素是算力、算法和數據”。很長一段時間內,這句話都是大眾理解一家AI公司市場定位的坐標系。
如同“CV四小龍”曾是算法的代名詞,無論國際巨頭英偉達還是壁仞等國產GPU玩家,都被等同于“算力”的代名詞。
以數據中心、智算中心形式落地的算力租賃生意,只是這個鏈條中偏重資產、運維的一環。
如果芯片本身占據著算力價值鏈的頂端,一個新玩家在智能算力市場還能做些什么?
徐凌杰將其表述為“軟硬件協同的AI Infra”。在對魔形智能最初的媒體報道中,有人將其描述為一家“做算力優化”“服務器集群”的公司。在他看來,這并不貼切:
“算力優化只是我們的能力,但不是我們的mission statement。我們是一家生產高質量Token的公司。”
他進一步解釋道,單純說算力優化,更接近傳統軟件行業的發展邏輯:相對芯片公司、數據中心、模型廠商而言,算力優化方是乙方,每付出一次優化服務、賣出一個License授權,獲得一次性付費。
而魔形“不想成為上一代的軟件公司”,而是直接租用服務器等硬件算力資源,進行模型部署、調優等系列工作后,直接向客戶輸出Token。
這種業務模式聚焦于“廣義的AI Infra”,也就是將能源(電力)、芯片(算力)、Infra(推理和訓練框架等技術底座)、大模型封裝在一起,直接對外輸出Token。
“小龍蝦或是任何一個Agent的用戶,不再需要在意服務器是哪里來的,只要在應用層去調用這個服務就可以了。”他解釋道。
4月發布的東吳證券研報提供了類似的預判:算力租賃廠商業務模式正從單純的裸算力出租升級為模型服務或Token分成模式,商業模式有望從“賣算力”轉向“賣Token”。
研報同時寫道,這種商業模式將面對三大壁壘:穩定的拿卡能力;強力的交付、上線和后續運營能力;資金周轉能力。
徐凌杰講道,在過往能源、芯片、Infra、大模型各自分立的行業結構里,人才是分層的,想要形成軟硬結合Infra的商業閉環就需要跨層次的人才,而“魔形的團隊恰好有這樣的人”。
據了解,相較于徐凌杰過往深耕芯片硬件的從業經歷,其合伙人金琛曾任Graphcore中國工程副總裁和算法科學家,擁有豐富的模型優化經驗。
而在資金方面,「電廠」獲悉,魔形智能剛剛于4月完成新一輪融資。
以下是與徐凌杰的對談:
從“Token納入薪酬體系”說起,當大模型開始產生經濟效益
Q:魔形是國內比較早說要做AI Token Factory的公司。在3月落幕的英偉達GTC 2026上,老黃也講道,未來的數據中心會變成一個生產 Token 的工廠。
你們語境中的“Token工廠”的概念,跟數據中心、智算中心有什么差別?
A:我們還是借用黃仁勛提出的五層蛋糕理論來看。根據這個理論來分析市場格局的話,Token其實就是把下面四層的能源、芯片、infra、大模型給封裝在一起了。你作為一個小龍蝦或是任何一個Agent的用戶,不再需要在意服務器是哪里來的,只要在應用層去調用這個服務就可以了。
所以另一個角度,如果談論Token工廠和數據中心有什么不一樣的話。前者的概念是更貼近于生活的。因為可能很多人都不知道AI 芯片、服務器長什么樣子,但Token作為購買智力的一個單元,許多消費者已經有所感知。
![]()
黃仁勛提出了AI的“五層蛋糕”理論,圖/英偉達
Q:行業的敘事模式出現了變化?因為之前我們講的數據中心、服務器,是以英偉達這樣的芯片設計玩家為中心的,Token工廠的講法更強調系統工程層面的變革、容納了更多環節?
A:不僅是敘事上的變化,而是整個行業在發展。
之前我們更多關注到的行業進展,是某地落成算力中心、打造了千卡/萬卡集群。這主要還是因為那時產業正處在模型訓練的階段,也就是說模型還沒有達到被老百姓廣泛使用的階段。
這種現狀得到改變的一個標志性事件——至少對中國來講的話,是2025年DeepSeek V3的爆發,讓大家突然發現“哎,模型能用了”。在那之后我們又看到了許多應用的爆發,比如今年春節爆火的OpenClaw小龍蝦。
今天來看,推理inference相比訓練training 來講,未來的成長性會高很多。
所以說這不只是敘事模式的改變,更是經濟效益的再分配過程。
可以舉個例子來看,現在很多公司已經在給工程師進行Token的配額,比較常見的是一個月一兩千元價值的Token,所以說模型已經在生產中真正地被用起來了。
Q:在這個過程里,魔形智能的位置是?
A:大家對于更快、智力更高、更大規模生產的Token有需求的。而這需要更大的集群。
今天在中國,包括DeepSeek在內,存在大量的優質開源模型。當模型統一面向所有人開源時,在未來一段時間內,大家要關注的就是怎么把硬件組織得更好、讓模型跑得更好,這就是Infra要做的事情。
![]()
2026年元旦之后,全球頭部模型Token調用量大幅上升,數據/OpenRouter,圖/東吳證券
Q:您之前在交大的一個采訪里提到,魔形智能對標的是Nebius,但走得更深、全棧自研。該怎么理解這種底層自研?
(Nebius:美股上市的垂直整合云服務提供商,獲英偉達投資,截至2025年Q2估值為約160億美元)
A:Nebius和其他很多Infra企業不同的是,它有一部分服務器是自研的。它們把采購來的服務器做了改配、進行統一化的配置,讓服務更穩定。
這樣帶來的好處是什么呢?按照之前Meta訓練Llama 3的數據,服務器可能每隔一段時間就會面臨故障中斷,為此訓練團隊頻繁地進行Checkpoint 保存訓練數據、等待服務器恢復、再重新reload數據。
(注:在Llama 3.1訓練的54天里,Meta的1.6萬塊H100集群總共遇到了419次意外中斷,相當于平均每3小時發生一次。)
但假設用Nebius的服務器來訓練,即便它的單價更高,但是因為穩定性更好、故障中斷率更低,模型也能更快訓練出來。
今天我們講對標Nebius,更多地是想要強調軟硬件都需要做,而不只是像上一代公司一樣只聚焦軟件、只聚焦芯片資源。但今天從全世界范圍來看,絕大部分Infra企業還都是以軟件的方式去做。
我們有一個對標的思維慣式。但其實很多選擇并沒有前路可循,再往后走,需要我們去進行第一性原理的判斷,而不是跟隨誰。
“用多少電,產生多少Token”成為新的坐標系
Q:之前衡量一個數據中心的性能,我們會講它是萬卡還是千卡、單卡的flops是多少;現在當面對一個Token工廠時,我們應該用什么樣的指標去衡量它?
A:用多少電,產生了多少Token。
Q:這可以等同于黃仁勛說的“誰的每瓦Token吞吐量最高,誰的生產成本就最低”?
A:今天當我們看到一個數據中心,第一個問題往往會去問“你是多少兆瓦的?”。而這個電力決定了你的裝機量上限,進而再去談每天生產了多少Token。
黃仁勛這句話可以用來評價效率。畢竟不同品牌、卡與卡之間的性能并不均等——英偉達卡和AMD卡即便同樣標稱1萬PFLOPS,也是不能完全等同的,生產效率也并不同。但是電力是能夠直觀去做比較的、最好量化的。
當然,模型能力不同,產生的Token智力也會非常不一致。大體來講,參數量越大的模型的Token越聰明。同樣的數據中心用來生產7B、13B模型的Token,和用來生產Deepseek 671B模型的Token,生產效率也會非常不同。
Q:按照現在比較優質的智算工廠,Token的單位電力吞吐量應該在多少?
黃仁勛說“Vera Rubin在同一座1GW數據中心里,讓將Token的生成速率從2200萬提升到了7億”。這是行業的最佳成績嗎?
A:具體的數字啊我們可以先放一放。單論產生多少Token的絕對數字,這是和一些限制條件有關系的,比如模型參數量、比如所謂的離線模式和在線模式——在線模式就是延時要很低,問題過來要在一兩秒內回復;離線模式可能30分鐘之后才有結果。
大廠在發布新的解決方案的時候,也會小字標注發揮最佳性能的各種前提條件。
總之我覺得我們可以先忽略絕對數字,來看和Token生產效率相關的變量條件。可以關注的點包括芯片本身的性能,比如從Grace Blackwell到Vera Rubin是一個升級;第二個是超節點的升級,從NVL72變成了NVL144;第三個是Format(格式)的不同,關注數據中心是用8bits還是用4bits去做計算。
Q:在Token工廠的范疇里,英偉達它還是一個天花板的存在嗎?
A:當然,我在英偉達工作過。所有人到了那里之后,學會的第一個詞叫 speed of light(光速)。
speed of light代表著極限,考察你的工作是否做得足夠好,就是用speed of light作為一個指標,公司的文化是推動每個人往100% speed of light去走。
毫無疑問,目前英偉達還是技術極限的追求者和定義者。
當前市場比拼的一個是絕對性能,第二個就是單位的性價比。我覺得對今天的中國公司來講,更重要的是追求單位的性價比。
電力出海是偽命題,但Token市場大有可為
Q:魔形智能的公眾號里有幾篇文章,拆解過建立Token工廠的要素,分別是高壓直流輸電、液冷、高速互聯、超節點架構下的推理優化和軟硬協同。要形成這種高度系統化的解決方案,需要魔形做哪些準備和努力?
A:長期來看是要往超節點的路去走,它是一個系統化的工程,當前我們肯定還在路上,但在路上也可以“沿途下蛋”。比如目前可以去努力優化運營成本,在能夠獲取到的硬件的基礎上進行優化。
在現階段,在硬件方面去下功夫是非常有必要的。今天來看Token的成本結構,里面有約80%是和服務器的采購成本相關的。所以一定要搞定硬件、掌握供應鏈的關鍵環節,才有可能達到理想的成本。
今天在中國市場的每秒鐘產生的Token(TPS,Tokens Per Second)大概是在30到60個,在美國這個數字可能是達到100、200。這都是因為我們還受限于算力的供給。
Q:魔形智能會考慮自研芯片嗎?
A:這個相對還比較遙遠,不在我們的現在的roadmap里面。
魔形一定是面向提供Token出發,服務器、集群會是這個模式的副產品。
Q:當前國內還有硅基智能、清程極智這些公司,也在AI Infra的賽道里,那魔形智能的獨特性體現在哪里?
A:今天的市場還沒有到互相競爭的階段。
就像當初的芯片市場,假如一家芯片公司在2020年融完資后,就覺得市場的錢都被吸完了、窗口期關閉了,那就錯了;事實證明,2021年又成立了好多芯片公司,很多也成長得不錯。
AI Infra的市場盤子會比芯片更大,但今天整個賽道的資本投入還遠未達到芯片賽道的程度。大家在這個賽道里,面對的都是百倍千倍的成長機會。
三年之后,這個賽道里面肯定能跑出千億級別人民幣以上的公司,而且可能不止一家。如果我們今天只從競爭的角度來看市場,格局就小了。
Q:查資料可以看到,目前AI Infra比較常見的商業模式有兩種,一種是和 IDC 運營商、GPU云服務商、國產芯片廠商共同對外提供Token服務,另一種是為已有自建 GPU 集群算力消納、優化服務。還有別的可能嗎
A:這兩種都是潛在的方向,我們現在做的更接近于是第一種,就是和算力中心合作。我們是甲方,他們是乙方,用他們的機器來生產Token。
這也涉及到一個選擇問題。既然我們認為自己的產品是Token本身,生產高質量的Token、把這件事做到商業閉環就是我們最首要的任務。
第二種的算力消納模式,可能會是未來我們擴大自己資源的一種方式。
Q:最近“token出海”“電力出海”的概念很火,強調的是國產能源優勢的系統變現,這在商業模式上可行嗎?
A:今天講token出海的人,不知道是不是故意忽略了一個點。他只算了電力成本,但電力成本在Token成本里占不到10%,算力成本才是最核心的。但中國的算力現在有優勢嗎?沒優勢。我們自己算力都不夠用。
未來隨著我們國家的芯片水平提高,這種愿景可能會實現,但顯然不是當下的命題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.