<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Kimi新架構讓馬斯克嘆服!17歲高中生作者一戰成名

      0
      分享至

      • 克雷西 發自 凹非寺
        量子位 | 公眾號 QbitAI

      17歲高中生,以一作身份,在Kimi團隊把Ilya提出的設想,變成了現實。

      Ilya之前有個預言,把按時間先后順序處理數據的LSTM網絡“旋轉90度”,也就是把時間軸換成模型深度軸,就變成了現在的殘差網絡。

      Kimi團隊認為,既然時間上的LSTM能對應深度上的殘差,那后來淘汰了LSTM的“注意力機制”自然也可以照做。

      他們新搞出的Attention Residuals技術,就相當于把注意力機制也“旋轉了90度”。



      用了這套新方法后,模型在計算當前層時可以聰明地“回頭看”,根據需要自由決定去提取前面哪一層的信息。

      這篇論文讓馬斯克也來圍觀,表示令人印象深刻。



      除了馬斯克,這篇論文也引發了大神Karpathy的思考,直言我們對Attention is All You Need這篇Transformer開山之作的理解還是不夠。



      這種新機制放到Kimi自家的Kimi Linear 48B大模型(3B激活參數)上驗證,訓練效率提升25%,推理延遲增加不到2%。



      殘差連接的“記憶負擔”

      先回顧一下殘差連接的工作原理。

      傳統做法是:第N層的輸出 = 第N層的計算結果 + 第N-1層的輸出。這樣一路累加下去,每一層都能“記住”前面所有層的信息。

      問題來了,在大模型PreNorm主流范式下,殘差連接中所有層的貢獻都是等權累加。

      就像一個“記憶力太好的人”,把所有經歷都以相同權重存進大腦。貢獻被逐步稀釋,早期信息難以檢索,且大量層可被剪枝而損失微小,稱之為“PreNorm dilution problem”。

      更麻煩的是,隱藏狀態的范數會隨著深度不斷增長。研究人員發現,在深層網絡中,這種unbounded growth會導致訓練不穩定。

      月之暗面團隊換了個思路:既然問題出在“無差別累加”,那就讓網絡自己決定該回憶什么。

      用注意力“選擇性回憶”

      團隊觀察到一個有趣的對偶性:網絡的深度維度和序列的時間維度,本質上是同構的。

      在Transformer處理序列時,用注意力機制讓當前位置“選擇性關注”之前的位置。那么在深度維度上,為什么不能讓當前層“選擇性關注”之前的層?

      Attention Residuals就這么來的:

      • 當前層的可學習偽查詢向量作為query(learnable pseudo-query)
      • 所有前層的輸出作為key和value
      • 用注意力機制加權聚合

      這樣一來,網絡可以學會哪些層的信息對當前計算最重要,就多關注一點;不相關的層,權重自然降低。

      但這帶來一個新問題:計算量爆炸。

      如果一個100層的網絡,每一層都要對前面99層做full attention residual,復雜度是O(L2),根本跑不動。

      Block AttnRes:分塊壓縮

      論文中的解決方案是Block AttnRes。

      核心思想是把連續的若干層打包成一個block,對block內部的輸出做壓縮,只保留一個“摘要向量”。



      具體操作如下:

      • 把L層網絡分成B個block,每個block包含若干層
      • 每個block結束時,把block內的信息壓縮成單個向量
      • 后續層做attention時,只需要關注塊間表征+塊內實時層輸出,而非全部L個層

      這樣一來,attention的復雜度從O(L2)降到了O(L·B),在實踐中B可以設得很小(論文用的是8-16)。

      此外,團隊還做了數個工程優化:緩存式流水線通信、序列分片預填充、KV 緩存粒度優化等等。

      Kimi Linear驗證:1.25倍效率提升

      理論說得通,但真正讓人信服的是大規模驗證。

      團隊在自家的Kimi Linear架構上做了測試。這是一個采用線性注意力的大模型,總參數48B,激活參數3B(MoE架構)。

      同等計算預算下,Attention Residuals能獲得更好的下游性能;反過來說,達到相同性能需要的訓練計算量減少了約20%,相當于獲得了1.25倍的效率優勢。

      在具體任務上,數學推理(MATH、GSM8K)、代碼生成(HumanEval、MBPP)均持平或略優,多語言理解的一致性也有所改善。



      更重要的是,Attention Residuals是一個drop-in replacement,不需要修改網絡其他部分,直接替換殘差連接即可。

      論文里還講到一個有意思的視角。

      團隊把這項工作稱為“時間-深度對偶性”(time-depth duality)的應用。

      在他們看來,深度神經網絡的“層”和循環神經網絡的“時間步”,本質上是都是對信息的迭代處理。

      Transformer之所以成功,是因為用attention替代了RNN中固定的recurrence。

      那么在深度維度上,是不是也該用attention替代固定的residual?

      17歲高中生入列共同一作

      更有意思的是,這篇讓馬斯克、Karpathy等人都為之一震的論文,共同一作之一是一名年僅17歲的高中生——陳廣宇(Nathan)。



      另外兩名共同一作,分別是Kimi的關鍵人物之一、RoPE(旋轉位置編碼)的提出者蘇神(蘇劍林),以及Kimi Linear的第一作者張宇。

      誠然Attention Residuals是團隊協作取得的成果,但一名高中生出現在這樣的團隊之中,還與兩位大神共列一作,已經足夠震撼。



      a16z創始人Marc Andreessen、Thinking Machines的聯創等人都關注了他的X賬號。



      一年前才剛剛開始了解大模型的陳廣宇,是從北京的一場黑客松開始,一路走向硅谷的。

      后來回國時,他選擇加入了Kimi。

      經手過月之暗面投資的奇績創壇(原YC中國)創始成員董科含,也曾在其個人公眾號上刊載過陳廣宇的一份自傳。

      去年二月,北京的一場中學生黑客松上,陳廣宇展示了一個關于“人類第三只機械輔助手”的創新構想——ThirdArm。

      也正是這個項目,讓他結識了黑客松評委董科含,后者也成為了他的創業導師。

      當時,董科含追問他,未來是否會深耕這項技術,這促使他開始重新審視自己的職業方向。

      隨后他入選了董科含發起的只有極少數人入選的青年計劃,開始接觸IOI(國際信息學奧林匹克)金牌得主及資深科研人員。

      此前他曾嘗試經營Shopify跨境電商店鋪、運營短視頻賬號,但經過董科含的建議,他決定轉向理解時代的底層技術。

      當時還不知道Transformer是什么的他,在DeepSeek研究員袁境陽的指導下,利用Gemini作為輔助工具,通過研讀經典論文、追蹤GitHub開源項目等方式逐步建立認知。

      有一次他在推特上分享了對一篇博客的反思后,獲得了作者的回復,這篇帖子也因此引起了一家硅谷AI初創公司CEO的關注。

      該公司于2024年底成立,2025年初完成了800萬美元種子輪融資,資方背景涉及OpenAI與Anthropic。

      在通過一項限時通宵完成的實驗測試后,他拿到了對方的錄用通知。

      暑假期間,他前往舊金山開啟了為期七周的實習。其中前兩周,他負責定義并推進一個涉及144張H100顯卡的探索性項目。

      在CEO直接指導下,他的工作延伸至運營層面,參與了招聘系統搭建、技術內容輸出及融資策略討論,并獲得與早期投資者Vinod Khosla交流的機會。

      在硅谷期間,他維持著高強度工作節奏,通過咖啡社交與英偉達工程師及初創創始人建立聯系。這次經歷讓他將科研視為一種支撐創造的底層能力。



      實習結束后,陳廣宇回到國內,并于去年11月加入月之暗面。

      把他吸引進去的,正是Kimi一直做的Flash Linear Attention這一類高效attention工作。

      實際上,正是GitHub上的FLA項目,吸引了他對機器學習的興趣并被邀請加入Kimi團隊。

      也正是順著這條線,他開始一路往更底層鉆,從讀論文、看實現,到研究 Triton kernel、理解attention為什么能被這樣重寫、這樣加速。

      到了月之暗面,這條路也算是繞了一圈又落回原點——

      他最初是被底層技術吸引,最后做的也正是最底層、最核心的那部分事。

      相比于講一個“少年天才一路開掛”的故事,陳廣宇的經歷更像是另一種成長路徑——

      先被時代最前沿的技術擊中,再一步步把興趣磨成能力,把能力帶到真正的大模型研發現場里。

      論文地址:
      https://github.com/MoonshotAI/Attention-Residuals/
      [1]https://mp.weixin.qq.com/s/gRR99pEDWb5qsk2a2hwe2w
      [2]https://nathanchen.me/public/About%20me.html

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      劉詩詩和唐嫣沖上熱搜!曝離婚分割財產完畢,為爭撫養權做出妥協

      劉詩詩和唐嫣沖上熱搜!曝離婚分割財產完畢,為爭撫養權做出妥協

      離離言幾許
      2026-03-20 15:24:58
      爽,公司全員裁撤,就地解散!

      爽,公司全員裁撤,就地解散!

      黯泉
      2026-03-21 12:20:16
      殲20總師被除名:長期領導軍工央企,最近照流出,事發全過程披露

      殲20總師被除名:長期領導軍工央企,最近照流出,事發全過程披露

      博士觀察
      2026-03-20 21:41:54
      伊朗外長說尋求徹底結束戰爭而非臨時停火

      伊朗外長說尋求徹底結束戰爭而非臨時停火

      新華社
      2026-03-21 16:10:04
      英國授權美軍使用其軍事基地實施打擊,伊朗:此舉正將英國民眾置于危險之中,將行使自衛權回應

      英國授權美軍使用其軍事基地實施打擊,伊朗:此舉正將英國民眾置于危險之中,將行使自衛權回應

      揚子晚報
      2026-03-21 07:24:52
      “梅姨”落網!系張維平等人拐賣兒童案關鍵人物,被拐兒童家長:我一直堅信她真實存在

      “梅姨”落網!系張維平等人拐賣兒童案關鍵人物,被拐兒童家長:我一直堅信她真實存在

      瀟湘晨報
      2026-03-21 12:29:14
      伊朗發動大規模打擊,還要全球追殺美以官員:在國外度假也“不再安全”!伊最高領袖新年致辭:發展“抵抗經濟”,增強國家韌性

      伊朗發動大規模打擊,還要全球追殺美以官員:在國外度假也“不再安全”!伊最高領袖新年致辭:發展“抵抗經濟”,增強國家韌性

      每日經濟新聞
      2026-03-21 00:59:04
      伊朗用什么秘密武器擊中美軍F-35戰機?“慢吞吞導彈”卡“隱身神話”BUG

      伊朗用什么秘密武器擊中美軍F-35戰機?“慢吞吞導彈”卡“隱身神話”BUG

      紅星新聞
      2026-03-21 14:38:47
      對話“梅姨”模擬畫像繪制者林宇輝:我知道遲早有天她會落網

      對話“梅姨”模擬畫像繪制者林宇輝:我知道遲早有天她會落網

      南方都市報
      2026-03-21 15:14:07
      巴拿馬這回真傻了!搶了港口才發現,全世界沒人敢接盤

      巴拿馬這回真傻了!搶了港口才發現,全世界沒人敢接盤

      小舟談歷史
      2026-03-21 09:21:49
      突發!伊朗導彈襲擊美英印度洋基地,距伊本土大約3800公里!此前英國允許美軍使用其軍事基地實施打擊,伊朗回應:將行使自衛權

      突發!伊朗導彈襲擊美英印度洋基地,距伊本土大約3800公里!此前英國允許美軍使用其軍事基地實施打擊,伊朗回應:將行使自衛權

      每日經濟新聞
      2026-03-21 09:58:04
      外媒:美國一男子五天內在紐約費盡心思搶劫六家銀行,最終僅得手605美元

      外媒:美國一男子五天內在紐約費盡心思搶劫六家銀行,最終僅得手605美元

      環球網資訊
      2026-03-21 15:58:49
      霍爾木茲海峽之戰

      霍爾木茲海峽之戰

      新民周刊
      2026-03-21 09:08:51
      家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

      家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

      觀察鑒娛
      2026-03-21 12:39:12
      福建寧德一派出所教導員辦公室猥褻15歲女生,一審被判2年9個月,家屬欲申請抗訴

      福建寧德一派出所教導員辦公室猥褻15歲女生,一審被判2年9個月,家屬欲申請抗訴

      大風新聞
      2026-03-21 11:58:12
      38萬老車主看完新SU7配置單,沉默了……

      38萬老車主看完新SU7配置單,沉默了……

      道哥說車
      2026-03-20 10:17:01
      “梅姨”現身并落網!對販賣兒童事實供認不諱,已被依法逮捕

      “梅姨”現身并落網!對販賣兒童事實供認不諱,已被依法逮捕

      南方都市報
      2026-03-21 11:35:00
      4月1日后去醫院,只帶醫保卡可能吃大虧,這兩樣缺一不可

      4月1日后去醫院,只帶醫保卡可能吃大虧,這兩樣缺一不可

      萬物知識圈
      2026-03-21 07:12:41
      “梅姨”落網,她參與拐賣的9個孩子已找到、曾被質疑是否真有其人

      “梅姨”落網,她參與拐賣的9個孩子已找到、曾被質疑是否真有其人

      澎湃新聞
      2026-03-21 13:44:26
      高市早苗的一張照片引爆日本全網:女首相的外交已淪為全民笑柄!

      高市早苗的一張照片引爆日本全網:女首相的外交已淪為全民笑柄!

      行者聊官
      2026-03-21 14:38:25
      2026-03-21 16:28:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12318文章數 176418關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      媒體:美稱"將不再守衛霍爾木茲海峽" 或逼迫盟友接手

      頭條要聞

      媒體:美稱"將不再守衛霍爾木茲海峽" 或逼迫盟友接手

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      CMG盛典獲獎名單:章子怡高葉同獲影后

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      教育
      藝術
      家居
      健康
      時尚

      教育要聞

      廢掉一個孩子最快的方式:偷走他的靈氣!3個行為家長每天都在做

      藝術要聞

      貴州山里的“小香港”,曾經上萬人熱火朝天,現在只剩一片荒涼

      家居要聞

      時空交織 空間綺夢

      轉頭就暈的耳石癥,能開車上班嗎?

      今年春天一定要擁有“這件衣服”,減齡又好看!

      無障礙瀏覽 進入關懷版