從DeepSeek的訓練方法論到Kimi的核心網絡突破,中國AI正從開源路線的跟隨者變為引領者,在GTC舞臺上與黃仁勛共議Token經濟學——這場由效率和創新驅動的新紀元,中國已穩穩確立航標。
———— / BEGIN / ————
“Token是新的大宗商品。”
這是黃仁勛在GTC 2026年度開發者大會上的判斷。
趨勢已經形成:無形的海量Token順著網線,賣到了全球各地,就像有形的大宗商品通過輪船、路網賣到全球各地一樣。
其中,中國的Token,最近在海外賣瘋了。
全球最大的AI模型API聚合平臺OpenRouter數據顯示,2月16日-2月22日一周時間里,中國模型的周調用量高達5.16萬億Token,而同期美國模型調用量只有2.7萬億Token。
平臺調用量排名前五的大模型,四款是中國的,分別為MiniMax的M2.5、月之暗面的Kimi K2.5、智譜的GLM5以及DeepSeek的V3.2。
外國人正在用真金白銀選擇中國AI大模型。
跨越性價比,邁入底層創新
早期,海外市場對中國模型的青睞或許始于“物美價廉”的Token。
但今年以來,中國團隊已經開始在最基礎的架構上,改寫AI 研發的底層邏輯。
最近,月之暗面團隊發布的論文《Attention Residuals》就是這一趨勢的代表,直接動搖了Transformer架構中沿用近十年的基石——殘差連接。
自2015年何愷明提出ResNet以來,殘差連接以其“將輸入直接加到輸出上”的樸素邏輯,成為幾乎所有深度神經網絡的標配。
然而,這種固定權重、均勻累加的機制,像一臺沒有篩選功能的信息攪拌機。早期層計算出的寶貴特征,在向深層傳遞時,其相對貢獻度隨深度衰減,最終被淹沒在后續層輸出的“噪聲”中。
《Attention Residuals》打破了這個十年未動的默認配置。它為每一層配備一個可學習的查詢向量(query),讓該層根據當前處理的內容,動態決定最需要參考哪些前序層的結果。
就像是給每一層加了一部手機,遇到具體需求時,能隨時精準查詢上面任何一層自己所需的數據。
這種回歸第一性原理的改進,相比傳統殘差連接,節省了約 20%的計算量,但其意義顯然更為深遠。
這也是為何向來推崇“打破常規”的馬斯克會對其公開點贊,前Open AI 聯合創始人Karpathy 也在看完研究后,發出需要“重新理解架構”的感慨。
這說明,大模型的架構優化和技術創新已經從 Attention、MoE 這些上層模塊,深入到了最底層的殘差連接。
而在大模型最硬核的技術深水區里,中國AI正在穩穩確立自己的新航標。
![]()
堅持開源,貢獻中國突破
在過去一年,中國大模型已經不是偶發的“單點突破”,而是集群發力。
全球業界已經清晰地意識到,創新的發源地正在東移。
![]()
海外科技評論人Tuki發文稱,去年1月,Deepseek靠極致的推理成本和R1震撼了硅谷。緊接著,Kimi帶著更優的運行成本來了。
這背后其實隱藏著一條更宏大的主線:當下全球 AI 的競爭,本質上已經不僅是地域之間的角力,更是“開源”與“閉源”路線的交鋒。
作為全球開源模型的代表,DeepSeek帶來了訓練方法論的創新,Kimi則從核心網絡架構突破。
正是這種扎根底層的開源創新,賦予了中國團隊在全球頂級科技舞臺上的話語權。比如,Kimi創始人楊植麟成為本屆 GTC唯一受邀現場演講的獨立大模型公司創始人。
在GTC的主舞臺上,他圍繞Token效率、長文本、Agent集群,全面披露了開源模型K2.5的技術路線。
這向全球傳遞了一個非常明確的信號:中國的AI創新者不僅在跟隨,更在引領創新。
在大模型的訓練方法、模型架構等方面,中國AI不僅能夠取得原創性的創新成果,而且愿意以開源的方式回饋全球開發者。
價值重估,現金飛輪轉不停
全球對中國AI創新能力的認可,最直觀的映射在資本市場。簡單來說,技術愿景最終需要真金白銀的投票。反映到資本市場上,就是估值提高。
二級市場上,今年剛上市的智譜、Minimax股價屢創新高。
一級市場上,Kimi在不到3個月,先后完成3輪融資,估值翻4倍,達到180億美元(約1200億人民幣)。
這一融資節奏和體量,在當下愈發慎重的資本市場環境中,堪稱奇跡。
不過,如果僅僅將其歸結為資本對某一家公司“技術護城河”的盲目追捧,顯然是天真的。
資本真正在押注的,是中國AI產業跑通的一條與硅谷截然不同的道路。
硅谷巨頭習慣了“大力出奇跡”,用天價的算力和數據去暴力喂養模型,這本質上是一種粗放的“高耗電”模式。一旦進入深水區,極易被高昂的推理成本拖垮。
而以DeepSeek、Kimi為代表的中國團隊,走的是另一條路——在算法優化和模型架構上做到極致的精打細算。
無論是R1的訓練方法,還是《Attention Residuals》對十年舊架構的重構,本質上都是發明了一種極低能耗、極高效率的“用電方式”。用更少的Token,榨取出了更高的模型智能。
在這個邏輯下,市場的投票也無比迅速。當全球開發者和企業發現,在這樣性價比的基座上運行復雜任務,不僅邏輯更穩,而且調用成本極低時,流量與訂單便會激增。
這也解釋了,為什么Kimi在今年1月發布K2.5模型后,短短20天內的商業收入,就超過了2025年的全年收入。
這種將技術突破轉化為開源基礎設施,同時又跑通商業飛輪的能力,才是支撐起中國大模型千億估值、并持續運轉的原因。
黃仁勛在GTC上斷言,Token是新時代的大宗商品。
而歷史告訴我們,在大宗商品的全球貿易網絡中,最終掌握定價權和主導權的,往往不是擁有最多原始粗礦的玩家,而是擁有高效提煉與轉化技術的人。
當5.16萬億個中國Token順著網線流向全球,一個清晰的事實已經浮出水面:
在這個由Token驅動的新紀元里,中國AI正在以令人驚嘆的效率和創新,重構全球智能算力的貿易版圖。
參考資料
[2603.15031] Attention Residuals https://arxiv.org/abs/2603.15031
Kimi楊植麟:很多普遍使用的技術標準正成為Scaling的瓶頸 https://m.thepaper.cn/newsDetail_forward_32787861
馬斯克驚嘆!DeepSeek和Kimi先后出手,捅破了Transformer的「潛規則」! https://mp.weixin.qq.com/s/BQNhy8vo1bMn5uNHyamYlQ
將注意力旋轉 90 度!今天,Kimi 的「注意力殘差」火了 https://mp.weixin.qq.com/s/rrWCapCip7PtYDHxMm73GA?scene=1
Kimi新架構讓馬斯克嘆服!17歲高中生作者一戰成名 https://mp.weixin.qq.com/s/grWJ9EH_4RdeLymRetAT4w Attention
轉個方向,Transformer動到了骨髓 https://mp.weixin.qq.com/s/gUk77lcu0wKk0Y-f1pH2Jg
估值1200億,Kimi融資破紀錄了 https://mp.weixin.qq.com/s/Yu3pGfrEBrL4yZk41o8cug
哥飛銳評 kimi、MiniMax、Manus、Cursor - 小紅書 https://www.xiaohongshu.com/explore/69aaa0b60000000022032e7a?source=webshare&xhsshare=pc_web&xsec_token=ABrgGSSTkpeUbLZJmgcefNg8VQAZ5h1DF905Jb9Y6vFR0=&xsec_source=pc_share
深度丨2年,30倍,100億美元估值,一場比字節還快的極速增長 https://mp.weixin.qq.com/s/lMpNBzbSpu8bgQ2-_uFAdQ
月之暗面創始人楊植麟:中國技術不僅要好用還要參與制定規則,未來大模型要推出到K100 https://mp.weixin.qq.com/s/0QJhrwCbkL3nGXX8e5qjpA
黃仁勛GTC 2026演講全文:直指推理性能、“token經濟學”、OpenClaw智能體革命…… https://mp.weixin.qq.com/s/Ta4jY8KfItjIVb82cW08aQ
20天收入超2025全年,龍蝦爆火的受益者Kimi能否彎道超車? https://mp.weixin.qq.com/s/mKkNhbKE4af6HWc-CMZWww?scene=1&click_id=8
本文來自公眾號:非凡油條 作者:豆腐乳兒
想要第一時間了解行業動態、面試技巧、商業知識等等等?加入產品經理進化營,跟優秀的產品人一起交流成長!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.