<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      前有DeepSeek,后有Kimi!馬斯克狂贊的中國雙子星,炸穿大模型10年地基

      0
      分享至


      大數據文摘受權轉載自夕小瑤科技說

      黃仁勛召開了英偉達 GTC 大會。

      我在看直播的時候注意到一個關鍵細節——楊植麟是這次大會上唯一受邀演講的中國大模型公司創始人。

      在演講中他罕見地直接表達:很多普遍使用的技術標準,正成為大模型 Scaling 的瓶頸。并且連著表達了三次“we scale and open-sourced”。

      “我們規模化驗證了,并且開源了”。

      后面跟著三個關鍵詞——MuonClip、Kimi Linear、Attention Residuals。


      這三樣東西剛好覆蓋了深度學習訓練最底層的三個基礎結構——優化器、注意力機制、殘差連接。

      Kimi 三個全動了,而且規模化驗證后開源。

      它們解決的問題各不相同,但是姿態是一樣的,都是對用了將近十年沒人動的基礎組件動刀。這第三項,正是兩天前 Karpathy 和馬斯克在 X 上點贊的那篇論文。


      Karpathy 言外之意在說:attention 如果真的 is all you need,為什么不在深度這個維度上也用?Kimi 這篇論文干的正是這件事。

      馬斯克也給 Kimi 的工作點了贊。


      非常巧的是,去年的最后幾天,DeepSeek 也在 mHC(Manifold-Constrained Hyper-Connections)的論文里,對「殘差連接」動了刀。

      要理解這件事為什么這么重要,可能還得先理解殘差連接是啥,解決了啥。

      殘差連接用了 10 年,問題在哪?

      讓我們回到 2015 年。

      2015 年,深度神經網絡有個致命的毛病:越深越爛。

      理論上層數越多,模型表達能力越強;但實際上,訓練信號(梯度)從輸出層往回傳的時候,每經過一層就會衰減一點,等傳到前面的層,信號已經弱到接近于零,模型已經接變笨了。原因很簡單,太深了,學不動了。這就是「梯度消失」。

      而 ResNet 就解決了這個大麻煩,它的做法很巧妙,既然每一層傳遞的時候都會“忘記”一些東西,導致最后直接什么都沒有,那我就強制要求每一層在往后傳遞的時候,除了要傳遞該層的變換,還要保留原始輸入。它的公式很簡單:


      第 l 層的輸出,等于上一層的輸出,加上本層的變換結果。

      這個設計最重要的意義,是保住了一條 identity path。

      用大白話說,就是給信息留了一條“原樣直通”的通道,后面的變換怎么折騰都行,但至少有一部分輸入不會被改寫,能直接往后傳。

      這是 ResNet 的天才之處,也是 Transformer 能一路堆到今天這個深度的地基。

      但地基里,埋著一個隱患。

      Transformer 用的是「PreNorm」,也就是先把輸入做歸一化,再過注意力或 FFN,最后加殘差。

      這個設計配合殘差連接,相當于強制要求在信息傳遞時保“原文件”。每一層都平等地繼承所有歷史層的輸出,沒有誰更重要。

      把殘差連接的遞歸展開,會得到一個直觀的視角:


      發現問題了嗎?

      每一層的貢獻權重都是 1。無論第 3 層提取的是什么特征,無論第 97 層處理的是什么輸入,它們對最終狀態的貢獻量,完全相同。

      PreNorm 把輸入先做標準化,意味著所有層的輸出都被拉到同一尺度;殘差連接又強制等權累加。結果就是,深層的語義個性被稀釋了。

      隨著網絡加深,這個累加的總量越來越大——數學上,它大致按層數 L 線性增長。越往后的層,你新產生的輸出,在這團不斷累積的歷史信息里,占比越來越小。越深的層,越難留下痕跡。要想保持影響力,它只能輸出更大幅度的更新。

      論文把這個現象叫「PreNorm dilution」——PreNorm 導致的信息稀釋。

      就像一本永不刪改的會議記錄本,每次開會,新的紀要都往后疊,舊的內容一字不刪,誰都保留。看上去很穩,很安全,很尊重歷史。可會議一旦開多了,問題就來了:后來的發言者想留下真正有效的意見,就得喊得越來越響。不是因為前面的人更有道理,只是因為紙已經太厚了。

      這就是為什么殘差連接的問題,不在于它無效,而在于它太死板。它保住了信息,卻把所有信息一視同仁地保住了。它給了網絡一條歷史通道,卻沒給網絡“該從歷史里拿什么”的能力。

      這個問題存在了 10 年。沒人動,不是因為沒人知道,而是因為它夠用了,簡單、穩定、零額外成本。

      另一個原因是過去十年大家主要在改的是別的地方。

      注意力、激活函數、歸一化、MoE 路由、多模態融合,這些都被反復翻新;唯獨層與層之間的信息流動方式,長期被當成基礎設施默認不動。

      論文的 related work 里,Highway、Hyper-Connections、mHC、DDL 這些路線都被系統梳理了一遍。可這些方法大多還停留在“如何修補這條加法路徑”的層面:調一調比例,開幾條并行流,或者想辦法讓狀態別壓得那么狠。

      真正幾乎沒人認真追問的是:既然橫向的時間序列上用 Attention 能獲得更智能的全局理解,為什么縱向的深度維度就不行呢?

      這正是 Attention Residuals 的出發點。

      論文給了一個很妙的類比。像 RNN 這樣的序列模型,本質上也是把過去的信息不斷壓進一個滾動狀態里,沿時間一步一步往后傳。后來 Transformer 用 attention 改了這件事:每個位置不必再死守一個壓縮后的總狀態,而是可以直接看所有歷史位置,動態決定該看誰、看多少。

      作者說,深度維度其實也有同樣的問題。標準殘差連接讓每一層只接住一個已經被混好的總狀態,跟當年的序列遞歸有一種很強的形式對偶。既然序列這邊已經從 RNN 走到了 attention,深度這邊為什么不行?

      于是,Attention Residuals 做的事情就清楚了:它把標準殘差里那個固定為 1 的權重,換成了一個可學習、而且依賴輸入的 attention 權重。

      每一層用一個可學習的查詢向量 w_l,去和所有歷史層的輸出做匹配,經 softmax 歸一化后得到權重,再加權求和:


      每層只額外引入一個 d 維的可學習向量,參數量極少。同樣是第 50 層,面對不同輸入,它聚合歷史信息的方式可以完全不同。



      • 左邊是過去 10 年我們最熟悉的標準殘差:所有層輸出一路等權相加。

      • 中間是理論上最完整的 Full AttnRes:每一層都可以回看并選擇所有歷史層。

      • 右邊則是能落地實現方式 Block AttnRes:把層分塊,在保住大部分效果的同時,把系統開銷壓下來。

      再講講 DeepSeek 前段時間也發布了一個對殘差連接動刀的工作,叫做「mHC(Manifold-Constrained Hyper-Connections) 」。它延續的是 Hyper-Connections 這條路線:把原本單條的 residual stream 擴展成多條并行流,讓層與層之間的信息交換不再只走一條固定通道。

      mHC 把殘差流從單條擴展成多條(n 流),用可學習的矩陣來調節層間的信息流,再用數學約束(雙隨機矩陣)來保持穩定。本質上,這是對 residual stream 的橫向擴展。重點是先把路拓寬,讓信息有多條并行路徑可以走。

      Kimi 這次走的是另一條路,在原有這條深度通路上,重寫了信息聚合的規則。

      過去,前面各層的輸出是固定等權地一路相加;現在,它用 depth-wise softmax attention 來做跨層選擇,讓每一層都能動態決定該從哪些早期表示里多取一點、少取一點。這樣一來,重要信息會被突出,次要信息會被壓低,早期層里那些原本容易在層層累加中被沖淡的語義,也更有機會被后續層重新調出來。

      其實這兩條路并不互相否定,論文里甚至直接說了,AttnRes 和 mHC 在某種意義上是正交的。可從敘事上看,這兩家公司幾乎同時,從不同角度,對一個用了 11 年的基礎結構提出了質疑。這說明,層與層之間的信息流動方式,正在重新成為大模型研究里的關鍵問題。

      Kimi 這篇論文更進一步的地方在于,在于它把 Attention 從序列維度,進一步推進到了深度維度。

      這也是為什么 Karpathy 會對它產生興趣。一個清晰的信號是:Attention 這套機制,也許還能提供更多的智能潛力

      再補一個更進階的信息。

      Full Attention Residuals 雖然概念最干凈,工程上卻不能不算賬。因為它意味著每一層都要訪問所有歷史層的輸出,理論復雜度會到 O(L^2d)。

      在普通訓練設定下,Full AttnRes 幾乎不額外占內存,因為反向傳播本來就要保留這些層輸出;可一旦上到大規模訓練,尤其是 activation recomputation 和 pipeline parallelism 普遍存在的時候,問題就來了。這些激活需要被顯式保活,還要跨 stage 通信,成本會迅速抬頭。

      所以能工程落地的是Block AttnRes

      它的思路也很 Kimi:四兩撥千斤,換個結構讓它可用。論文把很多層切成 N 個 block。

      塊內仍然用傳統 residual 先累加,塊與塊之間再做 attention。這樣一來,需要保留和通信的對象,就從“每一層的輸出”變成“每個 block 的摘要表示”。論文給出的結果是,memory(內存開銷)和 communication (跨設備通信開銷)都可以降到 O(Nd)。而且實驗里大約 8 個 block,就已經能吃到 Full AttnRes 的大部分收益。


      它不是只在紙面上成立,論文專門補了兩套工程優化:

      • cross-stage caching:減少 pipeline 并行時的重復通信

      • two-phase computation:把塊間 attention 先并行算掉,再和塊內順序計算合并

      最終結果是:推理延遲額外開銷不到 2%,可以直接替換現有模型的標準殘差。

      Scaling law 的結果是:Block AttnRes 達到的 loss,大致相當于基線模型多花 1.25 倍算力才能追上。


      三條曲線里,Baseline 始終在上面,Full AttnRes 和 Block AttnRes 整體更低。Block 版本幾乎貼著 Full 走,說明它在更低系統成本下,追回了大部分收益。

      這個提升不只停留在預訓練 loss 上。

      在作者最終的同配方預訓練對比里,AttnRes 幾乎在所有 benchmark 上都追平或超過 baseline。


      如果非要比較 DeepSeek 的 mHC 方案和 Block AttnRes,Block AttnRes 的內存訪問開銷只有 mHC 的約六分之一,是更好的理論框架,更低的系統成本。

      就在 GTC 演講的同時,Kimi 正以 180 億美元的估值,進行新一輪 10 億美元融資。

      三個月前,這個數字還是 43 億。

      近三個月,Kimi 完成了三輪融資,估值從 43 億美元漲到 180 億美元,翻了四倍,成為中國歷史上從成立到估值破百億美元最快的公司。拼多多當年用了三年多,字節跳動用了四年多,Kimi 只用了兩年多。

      這個速度本身就已經說明了一件事:最敏感的錢,已經先下注了。

      第一層原因,是商業化已經被快速驗證。

      K2.5 發布后的 20 天內,Kimi 的收入就超過了 2025 年全年總和。根據全球支付平臺 Stripe 的數據,Kimi 的付費訂單數在 1 月環比激增 8280%,2 月再漲 123.8%,全球排名也從此前從未進入前 100,一路沖到第 9 位,前面已經是 Grok、Cursor 這樣的名字。

      但如果只是增長快,還不足以支撐 180 億美元的想象力。

      更深一層,資本押注的,是 Kimi 身上那股很少見的技術心氣。

      最近這幾個月,Kimi 連續開源的幾項工作,砍的幾乎都是深度學習最底層的基礎設施。

      這件事的分量,其實比一篇論文本身大得多。

      因為市場真正買單的,不只是你能不能做出增長,而是你有沒有能力去改寫那些別人默認不能動的東西。

      更重要的是,你改完之后,還能不能把這種能力變成真實增長。

      所以,楊植麟在 GTC 連說三個“we scale and open-sourced”,不全是客套,我想了下,還有姿態。

      “we”意味著一種邀請——不用別人定義的規則做競賽,我們在改規則本身。然后開源公開邀請所有人一起往前走。

      GPU 訓練特惠!

      H100/H200 GPU算力按秒計費,平均節省開支30%以上!

      掃碼了解詳情?

      點「贊」的人都變好看了哦!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      嫌犯攜多種武器沖向安檢點后開火,特朗普再次躲過危險稱與伊朗無關

      嫌犯攜多種武器沖向安檢點后開火,特朗普再次躲過危險稱與伊朗無關

      澎湃新聞
      2026-04-26 12:32:27
      37歲男籃傳奇人物:定居廣東,身居要職財富自由,娶嬌妻生雙胞胎

      37歲男籃傳奇人物:定居廣東,身居要職財富自由,娶嬌妻生雙胞胎

      尋墨閣
      2026-04-26 01:21:55
      2.4億頂薪打沒了!季后賽場均9+8,不像魔獸霍華德,更像小喬丹

      2.4億頂薪打沒了!季后賽場均9+8,不像魔獸霍華德,更像小喬丹

      你的籃球頻道
      2026-04-26 08:17:48
      上海人終于體會到了引進印度人的“快樂”!

      上海人終于體會到了引進印度人的“快樂”!

      步論天下事
      2026-04-25 09:34:47
      一旦武統臺灣,這4個臺灣人必上“斬首”名單,一個都跑不掉!

      一旦武統臺灣,這4個臺灣人必上“斬首”名單,一個都跑不掉!

      混沌錄
      2026-04-23 21:14:04
      首組2-2!尼克斯大勝老鷹進天王山 唐斯20+10+10布倫森19分

      首組2-2!尼克斯大勝老鷹進天王山 唐斯20+10+10布倫森19分

      醉臥浮生
      2026-04-26 08:52:23
      河北一女子稱用輪椅推患病親人到銀行取錢被拒:急需入院治療,人都快沒氣了;銀行致歉

      河北一女子稱用輪椅推患病親人到銀行取錢被拒:急需入院治療,人都快沒氣了;銀行致歉

      大象新聞
      2026-04-25 21:45:03
      森林狼3比1掘金:逆境中殺出了多孫穆?!

      森林狼3比1掘金:逆境中殺出了多孫穆?!

      張佳瑋寫字的地方
      2026-04-26 12:02:17
      男子帶9歲兒子到廣州一酒店泡溫泉碰到兩條蛇,酒店回應

      男子帶9歲兒子到廣州一酒店泡溫泉碰到兩條蛇,酒店回應

      瀟湘晨報
      2026-04-26 13:36:00
      兩男子應聘浦發銀行銷售代表,通過3輪面試,做了497元體檢,工資卡都辦好了,銀行卻以學歷不符為由拒絕入職

      兩男子應聘浦發銀行銷售代表,通過3輪面試,做了497元體檢,工資卡都辦好了,銀行卻以學歷不符為由拒絕入職

      大象新聞
      2026-04-24 16:49:09
      特朗普:美國總統是危險職業 不想生活在恐懼之中

      特朗普:美國總統是危險職業 不想生活在恐懼之中

      財聯社
      2026-04-26 12:16:05
      交警提醒:5月開始全國嚴查,這些行為一律扣分罰款,車主別大意

      交警提醒:5月開始全國嚴查,這些行為一律扣分罰款,車主別大意

      復轉這些年
      2026-04-25 23:39:55
      62歲單身大爺坦言:晚年搭伙兩次后才明白,原來女人都是一個德行

      62歲單身大爺坦言:晚年搭伙兩次后才明白,原來女人都是一個德行

      惟來
      2026-04-25 13:00:17
      玩什么?!火箭今天停掉所有訓練!

      玩什么?!火箭今天停掉所有訓練!

      柚子說球
      2026-04-26 09:57:07
      “兩萬名海面上的‘活靶子’,隨時可能被炸成灰燼”

      “兩萬名海面上的‘活靶子’,隨時可能被炸成灰燼”

      中國新聞周刊
      2026-04-26 07:26:10
      天涯神貼之東三省人口持續流出的真正原因

      天涯神貼之東三省人口持續流出的真正原因

      回旋鏢
      2026-04-26 13:42:15
      趙心童兩階段9-7領先丁俊暉 “中國德比”今日17時決勝負

      趙心童兩階段9-7領先丁俊暉 “中國德比”今日17時決勝負

      齊魯壹點
      2026-04-26 07:18:18
      確診癌癥別先住院!先去政務中心,50萬費用只花2萬多

      確診癌癥別先住院!先去政務中心,50萬費用只花2萬多

      苗苗情感說
      2026-04-25 21:52:52
      伊朗政權秋后算賬,絞死更多抗議者

      伊朗政權秋后算賬,絞死更多抗議者

      一種觀點
      2026-04-25 19:08:26
      突發!A股前董事長疑涉美國性侵丑聞

      突發!A股前董事長疑涉美國性侵丑聞

      鳳凰網財經
      2026-04-26 11:09:13
      2026-04-26 15:31:01
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6853文章數 94542關注度
      往期回顧 全部

      科技要聞

      漲價浪潮下,DeepSeek推動AI“價格戰”

      頭條要聞

      特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

      頭條要聞

      特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

      體育要聞

      那一刻開始,兩支球隊的命運悄然改變了

      娛樂要聞

      《八千里路云和月》大結局意難平

      財經要聞

      DeepSeek V4背后,梁文鋒的轉身

      汽車要聞

      預售19.38萬元起 哈弗猛龍PLUS七座版亮相

      態度原創

      時尚
      藝術
      親子
      家居
      軍事航空

      IU的臉,真的有自己的時間線

      藝術要聞

      鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

      親子要聞

      孩子會旺媽媽的6個特點

      家居要聞

      自然肌理 溫潤美學

      軍事要聞

      伊朗總統:不會在壓力、威脅下進行談判

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 视频专区熟女人妻第二页| 九九re线精品视频在线观看视频| 色偷偷www.8888在线观看| 亚洲成人夜色| 少妇午夜啪爽嗷嗷叫视频| 日本高清视频在线www色| 最大胆裸体人体牲交| 人妻少妇精品系列一区二区| 成人无码一区二区三区网站| 少妇被粗大猛进进出出| 真实的单亲乱自拍对白免费| 黑丝美女被内射在线观看| 日韩精品 在线 国产 丝袜| 国产精品国产AV片国产| 夜夜高潮天天爽欧美| 泸水县| 成年女性特黄午夜视频免费看| 伊人久久中文字幕| www.久久se精品一区二区.com| 国产精品亚洲mnbav网站| 一区二区三国产精华液| 亚洲一区精品伊人久久| 亚洲精品aⅴ无码精品丝袜足| 亚洲国产精品久久青草无码| 免费很黄很色裸乳在线观看| av无码免费一区二区三区| 国产xxxxxxx| 色欲久久久天天天综合网| 熟女av在线| 亚洲第一成人在线| 欧美色吊丝| 曰韩高清砖码一二区视频| 热久在线免费观看视频| 免费费很色大片欧一二区| 色色热| 色噜噜狠狠色综合成人网| 婷婷久久久亚洲欧洲日产国码av| 茌平县| 无遮挡又黄又刺激的视频| 亚洲精品影院| 老熟妇仑乱视频一区二区|