<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      難怪黃仁勛GTC請了楊植麟,讀完Kimi新論文我懂了

      0
      分享至


      這是蒼何的第 511 篇原創!

      Token,正在成為 AI 時代的水和電。

      誰能用更少的算力壓出更多的 token 效率,誰就能在這場軍備競賽里活得更久。

      這也是為什么今年英偉達 GTC 大會的焦點,開始從"誰的卡更多"轉向"誰用得更聰明"。


      圖片來自中國藍新聞

      這就不得不提剛在GTC上演講的楊植麟了,因為他演講的一個重要主題就是 Token 效率。

      這可能也是老黃請他的原因。

      楊植麟這次演講的主題是《How We Scaled Kimi K2.5》,首次完整披露了 Kimi 下一代模型的技術路線圖。他把 Kimi 的進化邏輯概括為三個維度:

      • Token 效率:用 MuonClip 優化器替代用了 11 年的 Adam,token 效率翻倍

      • 長上下文:Kimi Linear 架構在 128K-1M 上下文范圍內,解碼速度提升 5-6 倍

      • 智能體集群:引入 Orchestrator 編排器,讓多個 Agent 并行協作


      但真正讓我注意到的,是他在演講里提到的第三項底層創新:「Attention Residuals」


      因為就在 GTC 前兩天,我看到 Kimi 剛發了這篇論文。而馬斯克轉發后直接說了句:「Impressive work from Kimi」。


      Karpathy 看完也半開玩笑地說:我們是不是沒把「Attention is All You Need」這句話理解透。


      一篇改殘差連接的論文,怎么就讓這幫人集體激動了?我去讀了下。


      論文我也下載下來了,私信回復暗號即可獲取:Attention_Residuals

      主角我居然還挺熟——殘差連接

      簡單說下殘差連接是什么。

      2015 年 ResNet 提出了一個極其簡單的操作:每一層的輸出 = 上一層傳下來的東西 + 這一層自己算出來的東西。就是一個加法。

      這個加法讓深層網絡成為可能,也讓后來的 Transformer 站穩了腳跟。從 2015 年到現在,幾乎所有大模型都在用它,權重恒定為 1,所有層一視同仁


      問題在哪?

      打個比方:一個學生上了 40 節課,期末復習的時候把所有筆記等量堆在一起看——不管哪門課跟考試相關,每門課都占同樣的復習時間。

      結果就是:

      • 早期學到的重要內容,傳到深層已經被稀釋得差不多了

      • 后面的層想產生影響,得"喊"得比前面所有層加起來還大聲

      • 研究甚至發現,很多大模型里相當一部分層可以直接刪掉,性能幾乎不受影響


      用了十年沒人動,不是因為它完美,是因為"夠用"讓人失去了追問的動力。

      DeepSeek 去年底發了篇論文(mHC),核心思路是:既然固定權重太死板,那就讓權重變成可學習的,讓模型自己決定怎么混合各層的信號。

      DeepSeek 在殘差連接基礎上改進的 mHC(流形約束超連接) 架構,解決了 Hyper-Connections 的訓練不穩定問題,同時保持表達能力,并在 3B/9B/27B 規模模型上驗證了效果。


      這個方向是對的,但有一個局限:權重訓練完就固定了,不管輸入是什么,每一層拿到的混合方式都一樣

      Kimi 團隊這篇論文問了一個更往下的問題:就算權重可以學,每一層拿到的依然是"混合過的狀態"。它沒有辦法說"我要單獨看第 3 層的輸出"。

      信息一旦被攪進累積狀態,就找不回來了。

      Kimi 的解法,來自一個很漂亮的類比。

      把 Attention 旋轉 90 度

      Transformer 處理文本的時候,用注意力機制讓每個詞可以"回頭看"前面所有的詞,根據內容動態決定關注哪里。這是橫向的——在序列維度上。

      Kimi 團隊在思考:那層與層之間,為什么不能做同樣的事?

      把注意力機制"旋轉 90 度"——從序列維度轉向深度維度。

      改完之后,每一層擁有一個可學習的查詢向量(query),用它對所有前序層的輸出做 attention。哪些層對當前計算更重要,權重就更高;不相關的層,權重自動降低。


      回到復習的比喻:現在這個學生有了一套智能系統:做每道題之前,系統根據題目內容自動從 40 節課的筆記里挑出最相關的幾份重點看。


      最關鍵的一點:這個權重是動態的。同一個模型,處理不同的輸入,每一層對前序層的關注程度完全不同——實時決定,而非訓練完就固定。

      Ilya 說過,LSTM 旋轉 90 度就是 ResNet。現在 Kimi 證明,Attention 也可以旋轉 90 度。


      效果:等效白賺 25% 算力

      工程上,Kimi 把模型分成約 8 個 block,塊內用傳統殘差,塊間做 attention。推理延遲增加不到 2%,幾乎免費。

      在自家 48B 參數模型(Kimi Linear,3B 激活參數)上驗證:

      • GPQA-Diamond(科學推理):+7.5 分

      • Math(數學):+3.6 分

      • HumanEval(代碼):+3.1 分

      同等算力下性能更好;反過來說,達到同等性能需要的訓練預算減少約 20%。相當于不加機器、不加數據,只改信息流結構,白賺 25% 的算力效果。


      這幾年大模型的競爭,表面上是參數量、數據量、卡的數量在比拼。

      但 GTC 的風向已經變了.

      黃仁勛自己也清楚,光靠堆算力的時代正在見頂。

      他需要在臺上展示的,是"聰明地用算力"的人。

      楊植麟帶來的三項底層創新: MuonClip、Kimi Linear、Attention Residuals。

      恰好都在回答同一個問題:

      怎么用更少的資源做出更好的模型。

      Adam 用了 11 年,Attention 用了 8 年,殘差連接用了 10 年。

      這些東西不是不能動,是大部分人默認了"不需要動"。

      當所有人都在想怎么買更多的卡,有人在想怎么讓每張卡的每個 token 都更值錢。

      這才是黃仁勛真正想讓世界看到的。

      過去兩年,從 DeepSeek 到 Kimi,中國大模型團隊動手的位置越來越深。

      從訓練方法論到核心網絡架構,再到最底層的信號傳遞結構。

      大力出奇跡的故事講了太久了。接下來的競爭,屬于那些敢拆「地基」的人。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      長電科技2026年一季度實現營業收入91.7億元

      長電科技2026年一季度實現營業收入91.7億元

      全球TMT
      2026-04-28 17:39:06
      伊朗戰爭,出乎世界預料,美軍打出了一個更不想看到的對手

      伊朗戰爭,出乎世界預料,美軍打出了一個更不想看到的對手

      過期少女致幻錄
      2026-04-04 03:30:52
      世錦賽8強奪冠賠率:中國雙星包攬前2!趙心童斷層第1,黑馬墊底

      世錦賽8強奪冠賠率:中國雙星包攬前2!趙心童斷層第1,黑馬墊底

      我愛英超
      2026-04-28 07:41:40
      他突然走了,和張雪峰一樣…

      他突然走了,和張雪峰一樣…

      劉娜
      2026-04-26 21:03:00
      19歲男孩喝百草枯苦熬18天,逼在外打工母親回家,母親:你放心去

      19歲男孩喝百草枯苦熬18天,逼在外打工母親回家,母親:你放心去

      哄動一時啊
      2026-03-15 11:29:43
      觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

      觸目驚心!央視曝光上海一中醫館:從醫生到病人全是演員!

      人間頌
      2026-04-20 10:16:00
      2名民警“違規吃喝”?大連公安:舉報內容不屬實

      2名民警“違規吃喝”?大連公安:舉報內容不屬實

      半島晨報
      2026-04-28 16:53:59
      全世界最摳門首富!馬斯克登頂福布斯最不慈善榜單 其身家高達8390億美元

      全世界最摳門首富!馬斯克登頂福布斯最不慈善榜單 其身家高達8390億美元

      快科技
      2026-04-28 15:10:14
      伊能靜隨口問秦昊會不會嫌自己煩,秦昊當場懟:那還能離婚咋的

      伊能靜隨口問秦昊會不會嫌自己煩,秦昊當場懟:那還能離婚咋的

      動物奇奇怪怪
      2026-04-28 18:43:50
      高市早苗稱要為長期戰爭做準備

      高市早苗稱要為長期戰爭做準備

      界面新聞
      2026-04-27 18:36:46
      偶遇甲骨文創始人一家四口,朱可人穿超短裙腿白又嫩,孩子拽走光

      偶遇甲骨文創始人一家四口,朱可人穿超短裙腿白又嫩,孩子拽走光

      嫹筆牂牂
      2026-04-28 07:25:44
      涉黃被傳喚,馬斯克出事了

      涉黃被傳喚,馬斯克出事了

      營銷頭版
      2026-04-27 14:42:14
      終于等到這一天!中國國防部發出最強音!

      終于等到這一天!中國國防部發出最強音!

      做個平凡的軒友
      2026-04-27 06:55:08
      戰功赫赫的紅軍軍團長,整編時竟無人愿收,主席震怒直言純屬瞎胡鬧

      戰功赫赫的紅軍軍團長,整編時竟無人愿收,主席震怒直言純屬瞎胡鬧

      磊子講史
      2026-03-30 15:41:41
      遲遲等不到訪華邀請,高市欲掀桌報復,這一次,多國強烈批評日本

      遲遲等不到訪華邀請,高市欲掀桌報復,這一次,多國強烈批評日本

      扶蘇聊歷史
      2026-04-28 18:40:17
      大會定調,時隔一年重提房地產

      大會定調,時隔一年重提房地產

      大川東山再起
      2026-04-28 17:09:18
      iOS 26.5 更新,帶來一波新功能

      iOS 26.5 更新,帶來一波新功能

      果粉俱樂部
      2026-04-28 13:05:03
      中國3大長壽食物,雞蛋排第三,第一名超市常見,卻被我們忽略了

      中國3大長壽食物,雞蛋排第三,第一名超市常見,卻被我們忽略了

      觀星賞月
      2026-04-28 18:30:55
      克宮發出最后通牒要求烏作出“痛苦決定”,德國炮彈產能超越美國

      克宮發出最后通牒要求烏作出“痛苦決定”,德國炮彈產能超越美國

      史政先鋒
      2026-04-27 18:27:59
      81歲拉里·埃里森:為馬斯克建核反應堆,在夏威夷孤島稱王

      81歲拉里·埃里森:為馬斯克建核反應堆,在夏威夷孤島稱王

      人間觀覽
      2026-04-27 11:27:03
      2026-04-28 20:48:49
      蒼何
      蒼何
      前大廠工程師,努力分享AI干貨知識
      95文章數 153關注度
      往期回顧 全部

      科技要聞

      10億周活目標落空!傳OpenAI爆發內部分歧

      頭條要聞

      80多萬買的新房未交房成工人宿舍 業主看到排泄物崩潰

      頭條要聞

      80多萬買的新房未交房成工人宿舍 業主看到排泄物崩潰

      體育要聞

      季后賽最新局勢:雷霆4-0晉級首隊 4隊3-1

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      政治局會議:加強算力網等規劃建設

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      親子
      藝術
      房產
      旅游
      數碼

      親子要聞

      拍了幾年的急救視頻,模特小朋友長大了!拍到異物卡喉氣道梗阻的急救方法更新了,氣道完全梗阻五次拍背+五...

      藝術要聞

      深圳極具未來感的“外星”建筑亮相

      房產要聞

      紅利爆發!海南,沖到全國人口增量第4省!

      旅游要聞

      大理不止“風花雪月”,這份“文明之約”等你來赴!

      數碼要聞

      充電器統一再進一步!歐盟所有筆記本必須支持USB-C充電:今天起生效

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 思思99热精品在线| 久久久国产精品消防器材| 日本爽爽爽爽爽爽在线观看免| 亚洲色宗合| 亚洲国产综合91麻豆| AV?无码?白浆| 日本熟妇大乳| 日本毛茸茸的丰满熟妇| 开心五月色婷婷综合开心网| 国产97色在线 | 日韩| 精品无码久久久久久久久久| 亚洲自拍偷拍一区| 国产女人18毛片水真多1| A片地址| 99re国产| 色8久久人人97超碰香蕉987| 在线播放亚洲成人av| 亚洲变态另类天堂AV手机版| 国产二区精品久久| 无码欧精品亚洲日韩一区| 久久久久久免费一区二区三区| 国产麻豆精品一区| 九色91| 中文字幕日本人妻| 97人人看| 日日干日日日撸| 超碰成人福利| 色8久久人人97超碰香蕉987| 欧美精品无码| 天天做天天爱天天高潮| 欧美视频网站www色| 免费无码av片在线观看中文| 无限看片在线版免费视频大全| 这里只有精品视频| 亚洲aⅴ无码专区在线观看春色| 中文字幕三区| 中文字幕久久久久久精| 国产办公室秘书无码精品99| 亚洲sm另类一区二区三区| 亚洲综合第一色| 亚洲成a人片在线观看久|