網易首頁 > 網易號 > 正文申請入駐

馬斯克親自點贊，Kimi動了十一年沒人敢碰的東西

2026-03-17 10:52:53　來源: 字母榜

北京舉報

分享至

科技博主Avi Chawla在X上發了一條長帖，詳細拆解了月之暗面Kimi團隊剛剛發布的一篇技術報告。

帖子發出后不久，馬斯克本人在下面回復了一句：“月之暗面做出了令人印象深刻的結果”（Impressive work from Kimi.）

馬斯克在AI領域的表態向來以挑剔著稱，沒少罵過Anthropic和OpenAI，甚至曾直言說Anthropic的圖標像是某種人體器官。

他自己的xAI最近還在經歷大規模重組，多位華人聯合創始人離職，Grok的表現也不盡如人意。

可就在這個節骨眼上，他主動對一家中國AI公司的技術論文表示認可，多少有些出人意料。

說回被馬斯克點贊的這個東西，其實是有點抽象的，因為它壓根不是一個模型。

Kimi團隊提出了一種新的方式，試圖替換掉Transformer架構里一個自2015年以來就幾乎沒人動過的基礎組件。

這是一篇純粹的架構層面的技術論文。

雖然說這篇論文的影響，未必會被普通用戶感知到，可實際上，它觸碰的是整個深度學習的基石。

月之暗面到底改了什么

要理解這篇論文在做什么，得先搞清楚一個背景。現代大語言模型，無論是GPT、Claude，還是國內的豆包、DeepSeek，哪怕是Kimi自己的K2.5，其底層架構都是Transformer。

Transformer之所以能訓練到幾十層甚至上百層而不崩潰，都是因為一個叫“殘差連接（Residual Connection）”的機制在起作用。

殘差連接的原理其實很簡單。

每一層網絡在做完自己的計算之后，把自己的輸出和輸入加在一起，然后傳到下一層去再做計算。這樣做的好處是，梯度在反向傳播時可以沿著一條“高速公路”直達底層，不會因為層數太深而消失。

這個設計來自何愷明在2015年參與的ResNet論文，后來被Transformer原封不動地繼承了下來。

但這時候就有一個不大不小的問題，這種“加法”是完全平等的。

第一層的輸出和第四十層的輸出，在最終的隱藏狀態里享有同等的權重，都是1。沒有任何機制去判斷哪一層的信息更重要、哪一層的貢獻可以被忽略。隨著層數增加，隱藏狀態的數值會線性增長，早期層的信息逐漸被稀釋，后面的層想要產生影響就必須輸出更大的數值，這反過來又加劇了不穩定性。

就像咱們所有人拉個微信群，一起討論晚上吃什么，每個人的發言權重完全一樣，不管誰說的有道理誰在瞎扯，最后群主只能把所有消息從頭到尾讀一遍，這就導致他越往后翻越記不住前面說了啥。

這個現象在學術上被稱為“PreNorm稀釋”。

Kimi團隊注意到，這個問題和早年RNN面臨的困境有一種結構上的對稱性。

RNN是在時間維度上做固定權重的累加，每個時間步的信息被等權地壓縮進同一個隱藏狀態，導致長距離依賴難以捕捉。后來Transformer用注意力機制替代了RNN的這種線性累加，讓模型可以根據內容動態地決定該關注序列中的哪些位置，這才有了后來的一切。

兩者的區別在于，RNN就像上課，老師講到哪你就聽到哪，只能從頭聽到尾，沒記住的要么看筆記，要么再次從頭來。Transformer則是錄播網課，可以隨時翻回去看之前最重要的部分。

但在深度維度上，同樣的問題一直存在，卻沒有人用同樣的思路去解決。每一層的輸出仍然是被等權相加的，模型沒有能力根據當前輸入去選擇性地從某些層提取信息、忽略另一些層。

Kimi團隊表示，標準殘差連接本質上是“深度維度上的線性注意力”，他們要做的，是把它升級為“深度維度上的softmax注意力”。

于是他們提出了一個“理想版”的方案，叫做全注意力殘差（Full Attention Residuals）。

具體做法是給每一層賦予一個可學習的查詢向量，這個向量會對之前所有層的輸出做一次注意力計算，產生一組歸一化的權重。

然后當前層的輸入不再是之前所有層輸出的簡單求和，而是按照這組權重的加權組合。權重是輸入相關的，也就是說，不同的token在經過同一層時，可能會從不同的歷史層中提取不同的信息。

那我們還是用前面微信群的例子。現在群主不用從頭到尾翻聊天記錄了，有個助手幫他標出“這幾條最值得看”，不同的話題還會標出不同的重點消息。

理想豐滿現實骨感，全注意力殘差這個方案其實“不靠譜”。

大規模訓練時，模型通常會使用流水線并行和激活重計算來節省顯存，這意味著之前層的輸出不會被保留在內存里。

如果要做全注意力，就需要把所有層的輸出都存下來并在流水線的不同階段之間傳遞，內存和通信開銷都會變得不可接受。

為了解決這個問題，Kimi團隊又提出了塊注意力殘差（Block Attention Residuals）。

思路是把所有層分成若干個塊，每個塊內部仍然使用傳統的殘差連接做求和，但塊與塊之間使用注意力機制來做選擇性聚合。這樣需要存儲和傳輸的不再是每一層的輸出，而是每個塊的匯總表示，內存占用從 O(Ld）降到了 O(Nd)，其中 N 是塊的數量，通常只有8個左右。

這就相當于是把剛才那個微信群分成了八個小組，每組先內部討論出一個結論，群主只需要看八條小組總結就行。

在此基礎上，他們還做了一系列工程優化。

比如跨階段緩存消除了流水線并行中的冗余傳輸，兩階段推理策略通過在線softmax把跨塊注意力的計算分攤到各個塊的處理過程中。最終的結果是，注意力殘差作為標準殘差連接的替代品，訓練時的額外開銷很小，推理時的延遲增加不到2%。

Kimi團隊又做了兩個實驗。

一是scaling law實驗，驗證這個改進在不同模型規模下是否一致有效。結果顯示，注意力在所有計算預算下都優于基線，其效果相當于用1.25倍的計算量訓練出的基線模型。

二是Kimi拿自己的大模型上做了實戰驗證。模型參數量為480億，用超過一萬億個詞的數據做了完整的預訓練。然后在科學問答、數學推理、代碼生成、綜合知識等一系列主流測試中，加了塊注意力殘差的版本全面超過了沒加的版本。

從訓練動態的分析來看，塊注意力殘差確實緩解了PreNorm稀釋問題。各層輸出的幅度不再隨深度線性增長，而是保持在一個相對穩定的范圍內；梯度的分布也更加均勻，也不再會出現淺層梯度過大、深層梯度過小的失衡現象。

除此以外，論文中還做了一個統一的結構化矩陣分析，證明了標準殘差連接和之前的各種變體（比如 Highway Networks、DeepNet 的 scaled residuals 等）本質上都是深度維度上的線性注意力的特例。

簡單來說就是，自2015年ResNet以來，在殘差連接這個板塊，沒有任何實質性的變化。而Kimi的這篇論文，是第一個既有理論依據，又能大規模實際部署且低成本的方案。

馬斯克也正是因為這個結論，才親自下場點贊Kimi。

融資、爭議和馬斯克的那個贊

月之暗面正處在一個微妙的時間節點上，那就是上市。

2025年12月底，月之暗面完成了5億美元的C輪融資。投后估值43億美元。兩個月后，月之暗面完成超7億美元的C+輪融資，由阿里、騰訊、五源資本等老股東聯合領投，投后估值突破100億美元。

到了3月中，月之暗面最新投前估值已上升至180億美元，新一輪10億美元融資正在推進中，3個月內估值實現超4倍增長。

實際上月之暗面最近的收入增長得很快，Kimi K2.5模型發布不到一個月，累計收入就超過了2025年全年總收入。

根據全球支付平臺Stripe的數據，Kimi個人訂閱用戶的支付訂單數在1月環比增長了 8280%，2月又環比增長了123.8%，已經進入Stripe全球榜單前十。

但融資順利并不意味著沒有爭議。

就在幾天前，OpenClaw創始人彼得·斯坦伯格公開對月之暗面的Kimi Claw產品提出了質疑。事

情的起因是，月之暗面此前推出了OpenClaw的云端一鍵部署服務Kimi Claw，它的邏輯有悖于OpenClaw的設計理念。

有用戶在X上詢問這個產品是否值得嘗試并 @了斯坦伯格，斯坦伯格的回應很直接：他們有沒有把安全文檔作為必讀項展示給用戶？

斯坦伯格的核心關切在于，OpenClaw的邏輯是“本地優先”。agent運行在用戶自己的設備上，但可能因為過高的本地權限，引發了安全風險，因此工信部也建議“優先考慮在容器或虛擬機中隔離運行，形成獨立的權限區域。”

但KimiClaw的做法正是如此，它把OpenClaw搬到了云端的虛擬機。在安全和隱私層面，這兩種模式的風險等級完全不同。

對于正在高速融資的月之暗面來說，來自OpenClaw創始人的公開批評，多少會在海外技術社區中制造一些負面情緒。

然后馬斯克的那條回復出現了。

雖然這兩件事是風馬牛不相及的，但在輿論場上，它們會不可避免地被放在一起解讀。

一邊是OpenClaw創始人對月之暗面產品的安全質疑，另一邊是馬斯克對月之暗面研究論文的公開認可。

對于正在進行新一輪融資的月之暗面來說，后者的時機幾乎不能更好。在資本市場的敘事邏輯里，這種來自頂級人物的認可，往往比任何分析報告都更有說服力。

當然了，不應該過度去解讀馬斯克的一條推文。他在X上的互動頻率極高，對各種技術話題都會隨手點評，一句“impressive”并不意味著他會投資月之暗面或者在xAI中采用月之暗面的方法。

但不管怎么說，馬斯克那條回復發出去之后，很多原本不關注架構研究的人，也開始去翻這篇論文了。一個十一年沒人碰過的組件被重新打開，接下來會發生什么，誰也不知道。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

馬斯克：人工智能將在3年后超過所有人類智能

財聯社 2026-03-29 05:45:46
0 跟貼 0
馬斯克：3年內機器人超越頂尖醫生

財聯社 2026-01-09 15:31:35
2 跟貼 2

馬斯克坦言智能密度被低估100倍

機器之心Pro 2026-01-07 18:40:30
15 跟貼 15

DeepMind之父驚人自白：我造的AI可能滅絕人類，但已無人能停下

新智元 2026-03-30 21:26:17
0 跟貼 0
智元這回跑在了馬斯克前面

華爾街見聞官方 2026-03-30 18:45:38
0 跟貼 0

人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0

黃仁勛GTC直言：現在是OpenClaw的時代，SaaS都將變AgaaS

機器之心Pro 2026-03-17 17:22:21
0 跟貼 0
Kimi新架構讓馬斯克嘆服！17歲高中生作者一戰成名

量子位 2026-03-17 14:47:09
139 跟貼 139

清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0
谷歌創始人布林：當年發完Transformer論文，我們太不當回事了

機器之心Pro 2025-12-15 10:18:00
0 跟貼 0
早于DeepSeek Engram！用「查表」重置Transformer記憶 | ICLR

新智元 2026-03-30 21:26:03
0 跟貼 0
基于ASPP-Swin Transformer模型的加密流量識別方法

通信世界 2025-10-28 11:31:02
0 跟貼 0
全球OCR新王來自中國開源！GitHub狂攬73300+Star

量子位 2026-03-30 22:11:02
0 跟貼 0
人類一離座AI就進化！伯克利開源MetaClaw，靜態Agent慌了

新智元 2026-03-30 21:27:11
0 跟貼 0
“物理AI第一股”五一視界董事長李熠：商業模式將從仿真軟件銷售轉型為“物理AI工廠”

每日經濟新聞 2026-03-30 21:53:05
0 跟貼 0
對話騰訊健康用戶平臺總經理吳志剛：商業化非首要，不對標友商，定位醫療AI的“連接者”

每日經濟新聞 2026-03-30 21:36:05
0 跟貼 0
馬斯克拿1萬億工資，為什么大家都覺得超值

雷科技 2025-11-08 14:17:34
5 跟貼 5
張雪：我以前挺喜歡雷軍，挖孔機蓋事件我會給消費者兩個選擇

金融界 2026-03-30 17:38:20
46 跟貼 46
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
9 跟貼 9
馬斯克母親曬游覽長城視頻：“實在令人驚嘆”

環球網資訊 2026-03-28 20:26:31
0 跟貼 0
馬斯克的小目標：星艦10000發/年，太空AI算力1太瓦/年

量子位 2026-02-08 23:37:12
10 跟貼 10
這家中國公司要用“碳纖維”硬剛SpaceX

鈦媒體APP 2026-03-30 16:02:22
148 跟貼 148
貝佐斯創業，馬斯克嘲笑，兩人的恩怨糾葛20年

量子位 2025-11-22 12:44:22
0 跟貼 0
在四五年內，在太空運行大規模AI將比地面更劃算

每日經濟新聞 2026-01-22 12:48:26
0 跟貼 0
同樣遠離親媽，三個孩子境遇為何大不同

明星八卦一線 2026-03-27 15:32:56
3 跟貼 3
馬斯克私生子眾籌，赴美認親，這張臉就是最好的權威

檸檬瞰趣事 2026-03-26 14:06:44
19 跟貼 19
全球最有錢的狗，坐擁24.73億元財產，仆人無數豪車接送！

沙雕劇場 2026-03-28 17:11:21
0 跟貼 0
馬斯克4秒掙的錢相當于普通人一年的收入

每日經濟新聞 2026-01-21 00:05:31
1 跟貼 1
你知道特斯拉最清閑，最沒用的部門，是哪個部門嗎

柯比時尚說 2026-03-28 09:45:08
7 跟貼 7
特斯拉憋大招！馬斯克透露下款新車，比MPV還要酷

極果酷玩 2026-03-28 03:50:04
3 跟貼 3
火星究竟有多像地球？為什么馬斯克要死磕這顆星球？

峰峰動物 2026-03-30 17:18:11
1 跟貼 1
被月之暗面投訴，AI圈連真話都不讓說了？

新芒X 2026-03-29 04:48:13
0 跟貼 0
CVT變速箱，一個視頻明白原理，和80年代的嘉陵摩托車無差別

鵬腹搞笑 2026-03-28 15:24:41
1 跟貼 1
內存條價格出現斷崖式下跌，16G內存條1天跌了上百元，專家：未來將持續降價

極目新聞 2026-03-29 22:53:03
4754 跟貼 4754
視覺模型既懂語義，又能還原細節，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
特斯拉新電池技術揭秘：馬斯克分享7大功能亮點

素玉姑娘 2026-03-29 04:38:51
0 跟貼 0
被稱“摩托車圈雷軍”，冠軍張雪的飛馳人生｜獨家

中國企業家雜志 2026-03-30 18:06:43
0 跟貼 0
馬斯克盛贊中國：人口更多更努力，美國靠機器人才能贏

量子位 2026-02-12 03:27:32
0 跟貼 0
科技圈3大肝帝！最后一個連睡覺都在干活

雷科技 2026-02-03 20:54:35
0 跟貼 0
F-35全球最貴“紙老虎”？馬斯克怒批：早該停產！

韓丑丑 2026-03-29 12:59:43
1 跟貼 1

字母榜

讓未來不止于大。

2329文章數 8055關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

親子

健康

本地

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

馬斯克親自點贊，Kimi動了十一年沒人敢碰的東西

一句謊言引發的硅谷血案

開發商承諾有學校3年后交房沒建 業主起訴被當地駁回

開發商承諾有學校3年后交房沒建 業主起訴被當地駁回

想進世界杯，意大利還要過他這一關

單依純凌晨發長文道歉！李榮浩再回應

本輪地緣沖突，A股憑什么走出獨立行情

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

媽媽不要怕，有我在，你的兒子女兒會平安快樂長大！

孩子眼睛出現這些現象，一定要警惕！

干細胞抗衰4大誤區,90%的人都中招

用Color Walk的方式解鎖城市春日

開發商承諾有學校3年后交房沒建業主起訴被當地駁回

開發商承諾有學校3年后交房沒建業主起訴被當地駁回

限時12.58萬起銀河星耀8遠航家系列上市