<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<pre id="yu1ne"><label id="yu1ne"><i id="yu1ne"></i></label></pre>

<del id="yu1ne"><sup id="yu1ne"><center id="yu1ne"></center></sup></del>

<table id="yu1ne"></table>

<tt id="yu1ne"><em id="yu1ne"></em></tt>

<u id="yu1ne"></u>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

難怪黃仁勛GTC請了楊植麟，讀完Kimi新論文我懂了

2026-03-19 17:50:41　來源: 蒼何

湖北舉報

0

分享至

這是蒼何的第 511 篇原創！

Token，正在成為 AI 時代的水和電。

誰能用更少的算力壓出更多的 token 效率，誰就能在這場軍備競賽里活得更久。

這也是為什么今年英偉達 GTC 大會的焦點，開始從"誰的卡更多"轉向"誰用得更聰明"。

圖片來自中國藍新聞

這就不得不提剛在GTC上演講的楊植麟了，因為他演講的一個重要主題就是 Token 效率。

這可能也是老黃請他的原因。

楊植麟這次演講的主題是《How We Scaled Kimi K2.5》，首次完整披露了 Kimi 下一代模型的技術路線圖。他把 Kimi 的進化邏輯概括為三個維度：

Token 效率：用 MuonClip 優化器替代用了 11 年的 Adam，token 效率翻倍
長上下文：Kimi Linear 架構在 128K-1M 上下文范圍內，解碼速度提升 5-6 倍
智能體集群：引入 Orchestrator 編排器，讓多個 Agent 并行協作

但真正讓我注意到的，是他在演講里提到的第三項底層創新：「Attention Residuals」。

因為就在 GTC 前兩天，我看到 Kimi 剛發了這篇論文。而馬斯克轉發后直接說了句：「Impressive work from Kimi」。

Karpathy 看完也半開玩笑地說：我們是不是沒把「Attention is All You Need」這句話理解透。

一篇改殘差連接的論文，怎么就讓這幫人集體激動了？我去讀了下。

論文我也下載下來了，私信回復暗號即可獲取：Attention_Residuals

主角我居然還挺熟——殘差連接。

簡單說下殘差連接是什么。

2015 年 ResNet 提出了一個極其簡單的操作：每一層的輸出 = 上一層傳下來的東西 + 這一層自己算出來的東西。就是一個加法。

這個加法讓深層網絡成為可能，也讓后來的 Transformer 站穩了腳跟。從 2015 年到現在，幾乎所有大模型都在用它，權重恒定為 1，所有層一視同仁。

問題在哪？

打個比方：一個學生上了 40 節課，期末復習的時候把所有筆記等量堆在一起看——不管哪門課跟考試相關，每門課都占同樣的復習時間。

結果就是：

早期學到的重要內容，傳到深層已經被稀釋得差不多了
后面的層想產生影響，得"喊"得比前面所有層加起來還大聲
研究甚至發現，很多大模型里相當一部分層可以直接刪掉，性能幾乎不受影響

用了十年沒人動，不是因為它完美，是因為"夠用"讓人失去了追問的動力。

DeepSeek 去年底發了篇論文（mHC），核心思路是：既然固定權重太死板，那就讓權重變成可學習的，讓模型自己決定怎么混合各層的信號。

DeepSeek 在殘差連接基礎上改進的 mHC（流形約束超連接）架構，解決了 Hyper-Connections 的訓練不穩定問題，同時保持表達能力，并在 3B/9B/27B 規模模型上驗證了效果。

這個方向是對的，但有一個局限：權重訓練完就固定了，不管輸入是什么，每一層拿到的混合方式都一樣。

Kimi 團隊這篇論文問了一個更往下的問題：就算權重可以學，每一層拿到的依然是"混合過的狀態"。它沒有辦法說"我要單獨看第 3 層的輸出"。

信息一旦被攪進累積狀態，就找不回來了。

Kimi 的解法，來自一個很漂亮的類比。

把 Attention 旋轉 90 度

Transformer 處理文本的時候，用注意力機制讓每個詞可以"回頭看"前面所有的詞，根據內容動態決定關注哪里。這是橫向的——在序列維度上。

Kimi 團隊在思考：那層與層之間，為什么不能做同樣的事？

把注意力機制"旋轉 90 度"——從序列維度轉向深度維度。

改完之后，每一層擁有一個可學習的查詢向量（query），用它對所有前序層的輸出做 attention。哪些層對當前計算更重要，權重就更高；不相關的層，權重自動降低。

回到復習的比喻：現在這個學生有了一套智能系統：做每道題之前，系統根據題目內容自動從 40 節課的筆記里挑出最相關的幾份重點看。

最關鍵的一點：這個權重是動態的。同一個模型，處理不同的輸入，每一層對前序層的關注程度完全不同——實時決定，而非訓練完就固定。

Ilya 說過，LSTM 旋轉 90 度就是 ResNet。現在 Kimi 證明，Attention 也可以旋轉 90 度。

效果：等效白賺 25% 算力

工程上，Kimi 把模型分成約 8 個 block，塊內用傳統殘差，塊間做 attention。推理延遲增加不到 2%，幾乎免費。

在自家 48B 參數模型（Kimi Linear，3B 激活參數）上驗證：

GPQA-Diamond（科學推理）：+7.5 分
Math（數學）：+3.6 分
HumanEval（代碼）：+3.1 分

同等算力下性能更好；反過來說，達到同等性能需要的訓練預算減少約 20%。相當于不加機器、不加數據，只改信息流結構，白賺 25% 的算力效果。

這幾年大模型的競爭，表面上是參數量、數據量、卡的數量在比拼。

但 GTC 的風向已經變了.

黃仁勛自己也清楚，光靠堆算力的時代正在見頂。

他需要在臺上展示的，是"聰明地用算力"的人。

楊植麟帶來的三項底層創新: MuonClip、Kimi Linear、Attention Residuals。

恰好都在回答同一個問題：

怎么用更少的資源做出更好的模型。

Adam 用了 11 年，Attention 用了 8 年，殘差連接用了 10 年。

這些東西不是不能動，是大部分人默認了"不需要動"。

當所有人都在想怎么買更多的卡，有人在想怎么讓每張卡的每個 token 都更值錢。

這才是黃仁勛真正想讓世界看到的。

過去兩年，從 DeepSeek 到 Kimi，中國大模型團隊動手的位置越來越深。

從訓練方法論到核心網絡架構，再到最底層的信號傳遞結構。

大力出奇跡的故事講了太久了。接下來的競爭，屬于那些敢拆「地基」的人。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

黃仁勛GTC直言：現在是OpenClaw的時代，SaaS都將變AgaaS

機器之心Pro 2026-03-17 17:22:21
9 跟貼 9
翻完DeepSeek報告，我們發現了中國AI的默契

機器之心Pro 2026-04-26 13:21:55
12 跟貼 12

歡迎進入3T時代——算力主權、智能經濟與靈識社會的范式革命

鈦媒體APP 2026-04-28 13:14:10
0 跟貼 0

人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
0 跟貼 0
黃仁勛：AGI時代已經到來，“龍蝦開公司”不是夢！

財聯社 2026-03-26 23:15:59
0 跟貼 0

1000 倍效率神話，Taalas如何用 “模型即芯片” 暴打英偉達

鈦媒體APP 2026-02-24 15:35:10
0 跟貼 0

馬斯克起訴OpenAI開庭：錢我一分都不要，只求搞垮奧特曼？

雷科技 2026-04-28 18:53:37
0 跟貼 0
貨運界的“鴻蒙”出現，Robotruck競爭邏輯被改寫

36氪 2026-04-28 19:23:34
0 跟貼 0

AGI很蠢？AI教父Hinton預警：4.8萬億美元市場已鎖死，AI正撕裂全球！

新智元 2026-04-28 19:31:11
1 跟貼 1
Kimi新架構讓馬斯克嘆服！17歲高中生作者一戰成名

量子位 2026-03-17 14:47:09
161 跟貼 161
CVPR 2026 | 20步也能穩住畫質，這個擴散加速方法不一樣

機器之心Pro 2026-04-10 18:40:17
0 跟貼 0
中科曙光超智融合集群接入全國一體化算力網，AI4S駛入普惠快車道

每日經濟新聞 2026-04-28 19:00:21
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
阿里HappyHorse突然上線！實測讓馬斯克和奧爾特曼法庭開撕，還手搓了GTA6

智東西 2026-04-27 21:12:09
47 跟貼 47
馬斯克說新芯片快40倍，但特斯拉車主別急著換車

摸魚算法 2026-04-28 00:55:02
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
30 跟貼 30
黃仁勛最擔心的事發生了！DeepSeek V4華為芯片首發

快科技 2026-04-27 12:27:37
1 跟貼 1
黃仁勛的感慨正在成真

新浪財經 2026-04-28 08:57:48
2 跟貼 2
馬斯克和奧特曼要上法庭了，OpenAI上市計劃新增變數

DeepTech深科技 2026-04-28 15:14:50
0 跟貼 0
黃仁勛：沒有對流和傳導，也能把數據中心建在太空

機器之心Pro 2026-03-17 19:00:19
0 跟貼 0
馬斯克的小目標：星艦10000發/年，太空AI算力1太瓦/年

量子位 2026-02-08 23:37:12
0 跟貼 0
別再以為能控制一切了！掌握“第一性原理”，你會活得更清醒！

精準心理學何日輝 2026-04-28 18:14:28
0 跟貼 0
馬斯克拿1萬億工資，為什么大家都覺得超值

雷科技 2025-11-08 14:17:34
0 跟貼 0
老外看中國小伙創意發明：他比馬斯克還要聰明，發揮到了極致

愛歌唱的叮當貓 2026-04-24 13:21:25
0 跟貼 0
方向盤裝回去了，但“躺賺神車”的餅，馬斯克這次畫得有點香啊

深藍航跡 2026-04-27 01:08:30
2 跟貼 2
馬斯克要改變出行歷史！Cybercab已量產，年產200萬

投行圈子 2026-04-28 00:03:41
1 跟貼 1
貝佐斯創業，馬斯克嘲笑，兩人的恩怨糾葛20年

量子位 2025-11-22 12:44:22
0 跟貼 0
在四五年內，在太空運行大規模AI將比地面更劃算

每日經濟新聞 2026-01-22 12:48:26
0 跟貼 0
科技圈3大肝帝！最后一個連睡覺都在干活

雷科技 2026-02-03 20:54:35
0 跟貼 0
黃仁勛全世界穿皮衣，唯獨在中國換上了大花襖

雷科技 2026-01-27 17:19:30
0 跟貼 0
馬斯克：西方不搞電車，歐日韓集體擁抱氫能，中國電動車錯了沒？

主持人璐璐lu 2026-04-27 22:06:57
4 跟貼 4
樊振東的這次美國之行，原來藏著這么多細節，每一張合影都有故事

小尹體育 2026-04-26 10:03:13
1 跟貼 1
馬斯克狀告奧特曼OpenAI“變心”案，陪審團選拔今日啟動

Nee看 2026-04-28 15:09:43
0 跟貼 0
清華教授揚言物理太難，馬斯克接下來的話，對方瞬間啞口無言！

矻矻時尚 2026-04-28 10:30:50
0 跟貼 0
外網看美國請求中國租借月壤，外國網友都炸鍋了

是麗麗啊 2026-04-27 14:02:16
0 跟貼 0
馬斯克4秒掙的錢相當于普通人一年的收入

每日經濟新聞 2026-01-21 00:05:31
0 跟貼 0
AI狼人殺決戰，誰是國內推理天花板

思哲與創富 2026-04-27 10:28:17
1 跟貼 1
馬斯克下場搶人? xAI組建人才狙擊隊? 讓工程師做HR 馬斯克親自組建xAI“人才狙擊隊”：讓工程

量子位 2026-01-22 12:57:14
0 跟貼 0
上海迪士尼回應游客勸阻吸煙被打：園區沒有禁煙；被打男子發聲：對方已賠錢和解

中國新聞周刊 2026-04-27 14:25:00
15202 跟貼 15202
深度 | 關于英偉達 L4 和物理 AI，吳新宙回應一切

時間線Timelines 2026-04-28 15:19:31
0 跟貼 0

長電科技2026年一季度實現營業收入91.7億元

長電科技2026年一季度實現營業收入91.7億元

全球TMT

2026-04-28 17:39:06

伊朗戰爭，出乎世界預料，美軍打出了一個更不想看到的對手

伊朗戰爭，出乎世界預料，美軍打出了一個更不想看到的對手

過期少女致幻錄

2026-04-04 03:30:52

世錦賽8強奪冠賠率：中國雙星包攬前2！趙心童斷層第1，黑馬墊底

世錦賽8強奪冠賠率：中國雙星包攬前2！趙心童斷層第1，黑馬墊底

我愛英超

2026-04-28 07:41:40

他突然走了，和張雪峰一樣…

劉娜

2026-04-26 21:03:00

19歲男孩喝百草枯苦熬18天，逼在外打工母親回家，母親:你放心去

19歲男孩喝百草枯苦熬18天，逼在外打工母親回家，母親:你放心去

哄動一時啊

2026-03-15 11:29:43

觸目驚心！央視曝光上海一中醫館：從醫生到病人全是演員！

觸目驚心！央視曝光上海一中醫館：從醫生到病人全是演員！

人間頌

2026-04-20 10:16:00

2名民警“違規吃喝”？大連公安：舉報內容不屬實

2名民警“違規吃喝”？大連公安：舉報內容不屬實

半島晨報

2026-04-28 16:53:59

全世界最摳門首富！馬斯克登頂福布斯最不慈善榜單其身家高達8390億美元

全世界最摳門首富！馬斯克登頂福布斯最不慈善榜單其身家高達8390億美元

快科技

2026-04-28 15:10:14

伊能靜隨口問秦昊會不會嫌自己煩，秦昊當場懟：那還能離婚咋的

伊能靜隨口問秦昊會不會嫌自己煩，秦昊當場懟：那還能離婚咋的

動物奇奇怪怪

2026-04-28 18:43:50

高市早苗稱要為長期戰爭做準備

界面新聞

2026-04-27 18:36:46

偶遇甲骨文創始人一家四口，朱可人穿超短裙腿白又嫩，孩子拽走光

偶遇甲骨文創始人一家四口，朱可人穿超短裙腿白又嫩，孩子拽走光

嫹筆牂牂

2026-04-28 07:25:44

涉黃被傳喚，馬斯克出事了

營銷頭版

2026-04-27 14:42:14

終于等到這一天！中國國防部發出最強音！

終于等到這一天！中國國防部發出最強音！

做個平凡的軒友

2026-04-27 06:55:08

戰功赫赫的紅軍軍團長,整編時竟無人愿收,主席震怒直言純屬瞎胡鬧

戰功赫赫的紅軍軍團長,整編時竟無人愿收,主席震怒直言純屬瞎胡鬧

磊子講史

2026-03-30 15:41:41

遲遲等不到訪華邀請，高市欲掀桌報復，這一次，多國強烈批評日本

遲遲等不到訪華邀請，高市欲掀桌報復，這一次，多國強烈批評日本

扶蘇聊歷史

2026-04-28 18:40:17

大會定調，時隔一年重提房地產

大川東山再起

2026-04-28 17:09:18

iOS 26.5 更新，帶來一波新功能

iOS 26.5 更新，帶來一波新功能

果粉俱樂部

2026-04-28 13:05:03

中國3大長壽食物，雞蛋排第三，第一名超市常見，卻被我們忽略了

中國3大長壽食物，雞蛋排第三，第一名超市常見，卻被我們忽略了

觀星賞月

2026-04-28 18:30:55

克宮發出最后通牒要求烏作出“痛苦決定”，德國炮彈產能超越美國

克宮發出最后通牒要求烏作出“痛苦決定”，德國炮彈產能超越美國

史政先鋒

2026-04-27 18:27:59

81歲拉里·埃里森：為馬斯克建核反應堆，在夏威夷孤島稱王

81歲拉里·埃里森：為馬斯克建核反應堆，在夏威夷孤島稱王

人間觀覽

2026-04-27 11:27:03

前大廠工程師，努力分享AI干貨知識

95文章數 153關注度

往期回顧全部

科技要聞

10億周活目標落空！傳OpenAI爆發內部分歧

頭條要聞

80多萬買的新房未交房成工人宿舍業主看到排泄物崩潰

頭條要聞

80多萬買的新房未交房成工人宿舍業主看到排泄物崩潰

體育要聞

季后賽最新局勢：雷霆4-0晉級首隊 4隊3-1

娛樂要聞

蔡卓妍官宣結婚，老公比她小10歲

財經要聞

政治局會議：加強算力網等規劃建設

汽車要聞

拒絕瘋狂套娃！現代艾尼氪金星長在未來審美點上

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

藝術

房產

旅游

數碼

親子要聞

拍了幾年的急救視頻，模特小朋友長大了！拍到異物卡喉氣道梗阻的急救方法更新了，氣道完全梗阻五次拍背+五...

藝術要聞

深圳極具未來感的“外星”建筑亮相

房產要聞

紅利爆發！海南，沖到全國人口增量第4省！

旅游要聞

大理不止“風花雪月”，這份“文明之約”等你來赴！

數碼要聞

充電器統一再進一步！歐盟所有筆記本必須支持USB-C充電：今天起生效

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：思思99热精品在线| 久久久国产精品消防器材| 日本爽爽爽爽爽爽在线观看免| 亚洲色宗合| 亚洲国产综合91麻豆| AV?无码?白浆| 日本熟妇大乳| 日本毛茸茸的丰满熟妇| 开心五月色婷婷综合开心网| 国产97色在线 | 日韩| 精品无码久久久久久久久久| 亚洲自拍偷拍一区| 国产女人18毛片水真多1| A片地址| 99re国产| 色8久久人人97超碰香蕉987| 在线播放亚洲成人av| 亚洲变态另类天堂AV手机版| 国产二区精品久久| 无码欧精品亚洲日韩一区| 久久久久久免费一区二区三区| 国产麻豆精品一区| 九色91| 中文字幕日本人妻| 97人人看| 日日干日日日撸| 超碰成人福利| 色8久久人人97超碰香蕉987| 欧美精品无码| 天天做天天爱天天高潮| 欧美视频网站www色| 免费无码av片在线观看中文| 无限看片在线版免费视频大全| 这里只有精品视频| 亚洲aⅴ无码专区在线观看春色| 中文字幕三区| 中文字幕久久久久久精| 国产办公室秘书无码精品99| 亚洲sm另类一区二区三区| 亚洲综合第一色| 亚洲成a人片在线观看久|

<code id="a3six"></code>

<dfn id="a3six"><code id="a3six"><dl id="a3six"></dl></code></dfn>