<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      馬斯克親自點贊,Kimi動了十一年沒人敢碰的東西

      0
      分享至



      科技博主Avi Chawla在X上發了一條長帖,詳細拆解了月之暗面Kimi團隊剛剛發布的一篇技術報告。

      帖子發出后不久,馬斯克本人在下面回復了一句:“月之暗面做出了令人印象深刻的結果”(Impressive work from Kimi.)



      馬斯克在AI領域的表態向來以挑剔著稱,沒少罵過Anthropic和OpenAI,甚至曾直言說Anthropic的圖標像是某種人體器官。

      他自己的xAI最近還在經歷大規模重組,多位華人聯合創始人離職,Grok的表現也不盡如人意。

      可就在這個節骨眼上,他主動對一家中國AI公司的技術論文表示認可,多少有些出人意料。

      說回被馬斯克點贊的這個東西,其實是有點抽象的,因為它壓根不是一個模型。

      Kimi團隊提出了一種新的方式,試圖替換掉Transformer架構里一個自2015年以來就幾乎沒人動過的基礎組件。

      這是一篇純粹的架構層面的技術論文。

      雖然說這篇論文的影響,未必會被普通用戶感知到,可實際上,它觸碰的是整個深度學習的基石。

      01

      月之暗面到底改了什么

      要理解這篇論文在做什么,得先搞清楚一個背景。現代大語言模型,無論是GPT、Claude,還是國內的豆包、DeepSeek,哪怕是Kimi自己的K2.5,其底層架構都是Transformer。

      Transformer之所以能訓練到幾十層甚至上百層而不崩潰,都是因為一個叫“殘差連接(Residual Connection)”的機制在起作用。

      殘差連接的原理其實很簡單。

      每一層網絡在做完自己的計算之后,把自己的輸出和輸入加在一起,然后傳到下一層去再做計算。這樣做的好處是,梯度在反向傳播時可以沿著一條“高速公路”直達底層,不會因為層數太深而消失。

      這個設計來自何愷明在2015年參與的ResNet論文,后來被Transformer原封不動地繼承了下來。

      但這時候就有一個不大不小的問題,這種“加法”是完全平等的。

      第一層的輸出和第四十層的輸出,在最終的隱藏狀態里享有同等的權重,都是1。沒有任何機制去判斷哪一層的信息更重要、哪一層的貢獻可以被忽略。隨著層數增加,隱藏狀態的數值會線性增長,早期層的信息逐漸被稀釋,后面的層想要產生影響就必須輸出更大的數值,這反過來又加劇了不穩定性。

      就像咱們所有人拉個微信群,一起討論晚上吃什么,每個人的發言權重完全一樣,不管誰說的有道理誰在瞎扯,最后群主只能把所有消息從頭到尾讀一遍,這就導致他越往后翻越記不住前面說了啥。

      這個現象在學術上被稱為“PreNorm稀釋”。

      Kimi團隊注意到,這個問題和早年RNN面臨的困境有一種結構上的對稱性。

      RNN是在時間維度上做固定權重的累加,每個時間步的信息被等權地壓縮進同一個隱藏狀態,導致長距離依賴難以捕捉。后來Transformer用注意力機制替代了RNN的這種線性累加,讓模型可以根據內容動態地決定該關注序列中的哪些位置,這才有了后來的一切。

      兩者的區別在于,RNN就像上課,老師講到哪你就聽到哪,只能從頭聽到尾,沒記住的要么看筆記,要么再次從頭來。Transformer則是錄播網課,可以隨時翻回去看之前最重要的部分。

      但在深度維度上,同樣的問題一直存在,卻沒有人用同樣的思路去解決。每一層的輸出仍然是被等權相加的,模型沒有能力根據當前輸入去選擇性地從某些層提取信息、忽略另一些層。

      Kimi團隊表示,標準殘差連接本質上是“深度維度上的線性注意力”,他們要做的,是把它升級為“深度維度上的softmax注意力”。

      于是他們提出了一個“理想版”的方案,叫做全注意力殘差(Full Attention Residuals)。



      具體做法是給每一層賦予一個可學習的查詢向量,這個向量會對之前所有層的輸出做一次注意力計算,產生一組歸一化的權重。

      然后當前層的輸入不再是之前所有層輸出的簡單求和,而是按照這組權重的加權組合。權重是輸入相關的,也就是說,不同的token在經過同一層時,可能會從不同的歷史層中提取不同的信息。

      那我們還是用前面微信群的例子。現在群主不用從頭到尾翻聊天記錄了,有個助手幫他標出“這幾條最值得看”,不同的話題還會標出不同的重點消息。

      理想豐滿現實骨感,全注意力殘差這個方案其實“不靠譜”。

      大規模訓練時,模型通常會使用流水線并行和激活重計算來節省顯存,這意味著之前層的輸出不會被保留在內存里。

      如果要做全注意力,就需要把所有層的輸出都存下來并在流水線的不同階段之間傳遞,內存和通信開銷都會變得不可接受。

      為了解決這個問題,Kimi團隊又提出了塊注意力殘差(Block Attention Residuals)。



      思路是把所有層分成若干個塊,每個塊內部仍然使用傳統的殘差連接做求和,但塊與塊之間使用注意力機制來做選擇性聚合。這樣需要存儲和傳輸的不再是每一層的輸出,而是每個塊的匯總表示,內存占用從 O(Ld)降到了 O(Nd),其中 N 是塊的數量,通常只有8個左右。

      這就相當于是把剛才那個微信群分成了八個小組,每組先內部討論出一個結論,群主只需要看八條小組總結就行。

      在此基礎上,他們還做了一系列工程優化。

      比如跨階段緩存消除了流水線并行中的冗余傳輸,兩階段推理策略通過在線softmax把跨塊注意力的計算分攤到各個塊的處理過程中。最終的結果是,注意力殘差作為標準殘差連接的替代品,訓練時的額外開銷很小,推理時的延遲增加不到2%。

      Kimi團隊又做了兩個實驗。

      一是scaling law實驗,驗證這個改進在不同模型規模下是否一致有效。結果顯示,注意力在所有計算預算下都優于基線,其效果相當于用1.25倍的計算量訓練出的基線模型。

      二是Kimi拿自己的大模型上做了實戰驗證。模型參數量為480億,用超過一萬億個詞的數據做了完整的預訓練。然后在科學問答、數學推理、代碼生成、綜合知識等一系列主流測試中,加了塊注意力殘差的版本全面超過了沒加的版本。



      從訓練動態的分析來看,塊注意力殘差確實緩解了PreNorm稀釋問題。各層輸出的幅度不再隨深度線性增長,而是保持在一個相對穩定的范圍內;梯度的分布也更加均勻,也不再會出現淺層梯度過大、深層梯度過小的失衡現象。

      除此以外,論文中還做了一個統一的結構化矩陣分析,證明了標準殘差連接和之前的各種變體(比如 Highway Networks、DeepNet 的 scaled residuals 等)本質上都是深度維度上的線性注意力的特例。

      簡單來說就是,自2015年ResNet以來,在殘差連接這個板塊,沒有任何實質性的變化。而Kimi的這篇論文,是第一個既有理論依據,又能大規模實際部署且低成本的方案。

      馬斯克也正是因為這個結論,才親自下場點贊Kimi。

      02

      融資、爭議和馬斯克的那個贊

      月之暗面正處在一個微妙的時間節點上,那就是上市。

      2025年12月底,月之暗面完成了5億美元的C輪融資。投后估值43億美元。兩個月后,月之暗面完成超7億美元的C+輪融資,由阿里、騰訊、五源資本等老股東聯合領投,投后估值突破100億美元。

      到了3月中,月之暗面最新投前估值已上升至180億美元,新一輪10億美元融資正在推進中,3個月內估值實現超4倍增長。

      實際上月之暗面最近的收入增長得很快,Kimi K2.5模型發布不到一個月,累計收入就超過了2025年全年總收入。

      根據全球支付平臺Stripe的數據,Kimi個人訂閱用戶的支付訂單數在1月環比增長了 8280%,2月又環比增長了123.8%,已經進入Stripe全球榜單前十。

      但融資順利并不意味著沒有爭議。

      就在幾天前,OpenClaw創始人彼得·斯坦伯格公開對月之暗面的Kimi Claw產品提出了質疑。事

      情的起因是,月之暗面此前推出了OpenClaw的云端一鍵部署服務Kimi Claw,它的邏輯有悖于OpenClaw的設計理念。

      有用戶在X上詢問這個產品是否值得嘗試并 @了斯坦伯格,斯坦伯格的回應很直接:他們有沒有把安全文檔作為必讀項展示給用戶?



      斯坦伯格的核心關切在于,OpenClaw的邏輯是“本地優先”。agent運行在用戶自己的設備上,但可能因為過高的本地權限,引發了安全風險,因此工信部也建議“優先考慮在容器或虛擬機中隔離運行,形成獨立的權限區域。”

      但KimiClaw的做法正是如此,它把OpenClaw搬到了云端的虛擬機。在安全和隱私層面,這兩種模式的風險等級完全不同。

      對于正在高速融資的月之暗面來說,來自OpenClaw創始人的公開批評,多少會在海外技術社區中制造一些負面情緒。

      然后馬斯克的那條回復出現了。

      雖然這兩件事是風馬牛不相及的,但在輿論場上,它們會不可避免地被放在一起解讀。

      一邊是OpenClaw創始人對月之暗面產品的安全質疑,另一邊是馬斯克對月之暗面研究論文的公開認可。

      對于正在進行新一輪融資的月之暗面來說,后者的時機幾乎不能更好。在資本市場的敘事邏輯里,這種來自頂級人物的認可,往往比任何分析報告都更有說服力。

      當然了,不應該過度去解讀馬斯克的一條推文。他在X上的互動頻率極高,對各種技術話題都會隨手點評,一句“impressive”并不意味著他會投資月之暗面或者在xAI中采用月之暗面的方法。

      但不管怎么說,馬斯克那條回復發出去之后,很多原本不關注架構研究的人,也開始去翻這篇論文了。一個十一年沒人碰過的組件被重新打開,接下來會發生什么,誰也不知道。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      5億遺產,67%歸妻,16.5%留女!張雪峰留給世界的最后賬本!

      5億遺產,67%歸妻,16.5%留女!張雪峰留給世界的最后賬本!

      新浪財經
      2026-03-27 10:53:31
      中年人的“窮鬼樂園”爆火半年即涼,50萬投資30天沒生意

      中年人的“窮鬼樂園”爆火半年即涼,50萬投資30天沒生意

      豆腐腦觀察局
      2026-03-30 06:30:03
      藏拙藏到決賽!施海榮完勝蔡斌,江蘇女排扮豬吃虎打懵上海

      藏拙藏到決賽!施海榮完勝蔡斌,江蘇女排扮豬吃虎打懵上海

      金毛愛女排
      2026-03-30 00:00:15
      “生女兒的,再厲害也是給我兒子服務!”家長低認知發言,被群嘲

      “生女兒的,再厲害也是給我兒子服務!”家長低認知發言,被群嘲

      妍妍教育日記
      2026-03-30 18:56:05
      網友預訂一家“寵物友好”酒店,店方推薦其到當地鎮上吃狗肉,文旅局工作人員:該飲食文化悠久,最早追溯至明清

      網友預訂一家“寵物友好”酒店,店方推薦其到當地鎮上吃狗肉,文旅局工作人員:該飲食文化悠久,最早追溯至明清

      極目新聞
      2026-03-30 19:04:32
      吐槽一下,長沙的就業環境

      吐槽一下,長沙的就業環境

      一條要飛躍的咸魚
      2026-03-30 18:45:11
      國歌中一句話引發爭議,建國以來被反復修改,其中一版本只用四年

      國歌中一句話引發爭議,建國以來被反復修改,其中一版本只用四年

      顧秋韻
      2026-03-30 14:39:53
      擋不住了!10倍光纖牛股5天3板,市值突破2000億!創新藥集體走強,是反彈還是反轉?

      擋不住了!10倍光纖牛股5天3板,市值突破2000億!創新藥集體走強,是反彈還是反轉?

      雪球
      2026-03-30 16:26:00
      大跳水!金價跌破1000元,第一批跟風炒黃金的受害者,已經出現了

      大跳水!金價跌破1000元,第一批跟風炒黃金的受害者,已經出現了

      毒sir財經
      2026-03-30 16:03:36
      王曼昱贏下47歲老將!早田考夫蔓同一地方滑倒,王藝迪展望次輪

      王曼昱贏下47歲老將!早田考夫蔓同一地方滑倒,王藝迪展望次輪

      排球黃金眼
      2026-03-30 15:49:26
      謝霆鋒不再隱瞞!坦言拒絕和王菲結婚的真相,讓她開心的另有其人

      謝霆鋒不再隱瞞!坦言拒絕和王菲結婚的真相,讓她開心的另有其人

      最新聲音
      2026-03-30 03:01:44
      張蘭欺詐轉移資產實錘!2億名畫遭美國扣押,9.8 億欠債啥時候還清

      張蘭欺詐轉移資產實錘!2億名畫遭美國扣押,9.8 億欠債啥時候還清

      煙潯渺渺
      2026-03-30 12:00:52
      上海男籃的難題又來了!

      上海男籃的難題又來了!

      新民晚報
      2026-03-30 10:42:17
      重磅回歸!反詐老陳抖音賬號解封,全網刷屏歡迎回來

      重磅回歸!反詐老陳抖音賬號解封,全網刷屏歡迎回來

      雷科技
      2026-03-30 15:42:06
      三任嬌妻皆絕色,他卻晚景凄涼,一生令人唏噓

      三任嬌妻皆絕色,他卻晚景凄涼,一生令人唏噓

      嘮叨說歷史
      2026-03-27 16:39:19
      迪拜崩了!伊朗美國大戰,迪拜40年的造富神話,11天就崩了!

      迪拜崩了!伊朗美國大戰,迪拜40年的造富神話,11天就崩了!

      澳洲紅領巾
      2026-03-19 14:27:38
      章澤天穿小香風接待卡塔爾公主,兩人見面就擁抱,老板娘很大氣!

      章澤天穿小香風接待卡塔爾公主,兩人見面就擁抱,老板娘很大氣!

      阿廢冷眼觀察所
      2026-03-30 13:14:47
      美國華盛頓特區撞機事故畫面曝光:67人遇難,無人生還

      美國華盛頓特區撞機事故畫面曝光:67人遇難,無人生還

      IT之家
      2026-03-30 21:58:15
      努涅斯身價跌1000萬至2500萬歐,兩年前巔峰身價7000萬歐

      努涅斯身價跌1000萬至2500萬歐,兩年前巔峰身價7000萬歐

      懂球帝
      2026-03-30 22:03:53
      俄羅斯不賣油了!普京禁令一下,最慘的不是歐洲,而是兩個鄰國

      俄羅斯不賣油了!普京禁令一下,最慘的不是歐洲,而是兩個鄰國

      聽風喃
      2026-03-30 10:42:29
      2026-03-30 22:32:49
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2329文章數 8055關注度
      往期回顧 全部

      科技要聞

      一句謊言引發的硅谷血案

      頭條要聞

      開發商承諾有學校3年后交房沒建 業主起訴被當地駁回

      頭條要聞

      開發商承諾有學校3年后交房沒建 業主起訴被當地駁回

      體育要聞

      想進世界杯,意大利還要過他這一關

      娛樂要聞

      單依純凌晨發長文道歉!李榮浩再回應

      財經要聞

      本輪地緣沖突,A股憑什么走出獨立行情

      汽車要聞

      限時12.58萬起 銀河星耀8遠航家系列上市

      態度原創

      教育
      親子
      健康
      本地
      公開課

      教育要聞

      媽媽不要怕,有我在,你的兒子女兒會平安快樂長大!

      親子要聞

      孩子眼睛出現這些現象,一定要警惕!

      干細胞抗衰4大誤區,90%的人都中招

      本地新聞

      用Color Walk的方式解鎖城市春日

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版