這是蒼何的第 511 篇原創!
Token,正在成為 AI 時代的水和電。
誰能用更少的算力壓出更多的 token 效率,誰就能在這場軍備競賽里活得更久。
這也是為什么今年英偉達 GTC 大會的焦點,開始從"誰的卡更多"轉向"誰用得更聰明"。
![]()
圖片來自中國藍新聞
這就不得不提剛在GTC上演講的楊植麟了,因為他演講的一個重要主題就是 Token 效率。
這可能也是老黃請他的原因。
楊植麟這次演講的主題是《How We Scaled Kimi K2.5》,首次完整披露了 Kimi 下一代模型的技術路線圖。他把 Kimi 的進化邏輯概括為三個維度:
Token 效率:用 MuonClip 優化器替代用了 11 年的 Adam,token 效率翻倍
長上下文:Kimi Linear 架構在 128K-1M 上下文范圍內,解碼速度提升 5-6 倍
智能體集群:引入 Orchestrator 編排器,讓多個 Agent 并行協作
![]()
但真正讓我注意到的,是他在演講里提到的第三項底層創新:「Attention Residuals」。
![]()
因為就在 GTC 前兩天,我看到 Kimi 剛發了這篇論文。而馬斯克轉發后直接說了句:「Impressive work from Kimi」。
![]()
Karpathy 看完也半開玩笑地說:我們是不是沒把「Attention is All You Need」這句話理解透。
![]()
一篇改殘差連接的論文,怎么就讓這幫人集體激動了?我去讀了下。
![]()
論文我也下載下來了,私信回復暗號即可獲取:Attention_Residuals
主角我居然還挺熟——殘差連接。
簡單說下殘差連接是什么。
2015 年 ResNet 提出了一個極其簡單的操作:每一層的輸出 = 上一層傳下來的東西 + 這一層自己算出來的東西。就是一個加法。
這個加法讓深層網絡成為可能,也讓后來的 Transformer 站穩了腳跟。從 2015 年到現在,幾乎所有大模型都在用它,權重恒定為 1,所有層一視同仁。
![]()
問題在哪?
打個比方:一個學生上了 40 節課,期末復習的時候把所有筆記等量堆在一起看——不管哪門課跟考試相關,每門課都占同樣的復習時間。
結果就是:
早期學到的重要內容,傳到深層已經被稀釋得差不多了
后面的層想產生影響,得"喊"得比前面所有層加起來還大聲
研究甚至發現,很多大模型里相當一部分層可以直接刪掉,性能幾乎不受影響
![]()
用了十年沒人動,不是因為它完美,是因為"夠用"讓人失去了追問的動力。
DeepSeek 去年底發了篇論文(mHC),核心思路是:既然固定權重太死板,那就讓權重變成可學習的,讓模型自己決定怎么混合各層的信號。
DeepSeek 在殘差連接基礎上改進的 mHC(流形約束超連接) 架構,解決了 Hyper-Connections 的訓練不穩定問題,同時保持表達能力,并在 3B/9B/27B 規模模型上驗證了效果。
![]()
這個方向是對的,但有一個局限:權重訓練完就固定了,不管輸入是什么,每一層拿到的混合方式都一樣。
Kimi 團隊這篇論文問了一個更往下的問題:就算權重可以學,每一層拿到的依然是"混合過的狀態"。它沒有辦法說"我要單獨看第 3 層的輸出"。
信息一旦被攪進累積狀態,就找不回來了。
Kimi 的解法,來自一個很漂亮的類比。
把 Attention 旋轉 90 度
Transformer 處理文本的時候,用注意力機制讓每個詞可以"回頭看"前面所有的詞,根據內容動態決定關注哪里。這是橫向的——在序列維度上。
Kimi 團隊在思考:那層與層之間,為什么不能做同樣的事?
把注意力機制"旋轉 90 度"——從序列維度轉向深度維度。
改完之后,每一層擁有一個可學習的查詢向量(query),用它對所有前序層的輸出做 attention。哪些層對當前計算更重要,權重就更高;不相關的層,權重自動降低。
![]()
回到復習的比喻:現在這個學生有了一套智能系統:做每道題之前,系統根據題目內容自動從 40 節課的筆記里挑出最相關的幾份重點看。
![]()
最關鍵的一點:這個權重是動態的。同一個模型,處理不同的輸入,每一層對前序層的關注程度完全不同——實時決定,而非訓練完就固定。
Ilya 說過,LSTM 旋轉 90 度就是 ResNet。現在 Kimi 證明,Attention 也可以旋轉 90 度。
![]()
效果:等效白賺 25% 算力
工程上,Kimi 把模型分成約 8 個 block,塊內用傳統殘差,塊間做 attention。推理延遲增加不到 2%,幾乎免費。
在自家 48B 參數模型(Kimi Linear,3B 激活參數)上驗證:
GPQA-Diamond(科學推理):+7.5 分
Math(數學):+3.6 分
HumanEval(代碼):+3.1 分
同等算力下性能更好;反過來說,達到同等性能需要的訓練預算減少約 20%。相當于不加機器、不加數據,只改信息流結構,白賺 25% 的算力效果。
![]()
這幾年大模型的競爭,表面上是參數量、數據量、卡的數量在比拼。
但 GTC 的風向已經變了.
黃仁勛自己也清楚,光靠堆算力的時代正在見頂。
他需要在臺上展示的,是"聰明地用算力"的人。
楊植麟帶來的三項底層創新: MuonClip、Kimi Linear、Attention Residuals。
恰好都在回答同一個問題:
怎么用更少的資源做出更好的模型。
Adam 用了 11 年,Attention 用了 8 年,殘差連接用了 10 年。
這些東西不是不能動,是大部分人默認了"不需要動"。
當所有人都在想怎么買更多的卡,有人在想怎么讓每張卡的每個 token 都更值錢。
這才是黃仁勛真正想讓世界看到的。
過去兩年,從 DeepSeek 到 Kimi,中國大模型團隊動手的位置越來越深。
從訓練方法論到核心網絡架構,再到最底層的信號傳遞結構。
大力出奇跡的故事講了太久了。接下來的競爭,屬于那些敢拆「地基」的人。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.