<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      融資 1200億后 Kimi 再扔王牌,新架構爆改 Transformer 老配件,比 DeepSeek 同款還省錢

      0
      分享至


      作者 | 允毅

      連馬斯克、Andrej Karpathy 都紛紛點贊,DeepSeek 和 Kimi 前后腳都盯上的“殘差連接”,到底是什么?


      最近,Kimi 放出一篇重磅新論文,瞄準一個過去十年幾乎沒人動過的 Transformer 底層根基:殘差連接(Residual Connection)。殘差連接由何愷明于 2015 年在 ResNet 論文中提出,此后便成為深度學習領域的標配。

      簡單來說,可以把大模型的 Transformer 架構,想象成一支幾十人排成長隊的“傳話小組”,那么殘差連接就像一條規定:每個工人聽完前面所有人的話后,都往里面再補一句,然后原封不動往后傳。

      這套規則長這樣:


      但這會帶來一個麻煩:隊尾的工人收到的話,是前面幾十個工人的內容全堆在一起的,越往后話越亂、越長,前面工人說的重點被埋住了,后面工人加的內容也沒人聽得清,AI 就變笨了。這叫“稀釋問題”。

      于是,Kimi 想到把“注意力機制”引進來解決這一問題,它提出一個新的規則:“注意力殘差”(Attention Residuals)。如同給工人們配備了“智能篩選器”,不用再全盤收下前面堆出來的大雜燴,可以選擇重點聽前面自己關心的內容。

      結果,AI 變得更聰明了。不僅實現了全場景的穩定提升,在研究生級專業考試、高等數學推理、代碼生成、超長文本理解這類真正考驗 AI 硬實力的高難度任務上,更是直接實現了 3-7.5 個點的暴漲。


      而且更省錢了。在 Kimi 自家的大模型架構上驗證顯示可以節約1.25 倍算力,而訓練端到端額外開銷不到 4%,推理延遲增加不到 2%,基本沒什么額外負擔。


      而且它完全適配大模型的縮放定律,模型規模越大,這套規則的優勢越明顯。

      Kimi 論文里的精彩關注點

      殘差連接之所以能存在這么久,是因為它為 AI 信息的流動開了一條“主干道”,把教 AI 的糾錯信號一路傳下去,從而讓深層網絡更容易訓練,不會把前面的好東西丟掉。

      但這有三個致命問題改不了,分別是:


      1. 不能挑著聽:不管是負責“抓重點”的工人,還是負責“整理內容”的工人,都只能聽前面堆成一團的話,不能自己選聽誰的

      2. 丟了的內容找不回來:前面工人說的重點,一旦被后面的內容蓋住,就再也挖不出來了,AI 聊著聊著就忘了您最開始說的話

      3. 內容越堆越多:越往后的工人,必須扯著嗓子喊、加更多內容,才能讓隊尾聽到,不然就被前面的內容蓋住了,教 AI 的時候很容易教亂套


      之前也有不少人想要改善這些頑疾,比如 PreNorm 這種,只是調整內容整理的順序,完全不改變殘差的固定累加規則,完全沒改到根子上;或者 MRLA 這類,確實動了規則,但設計太復雜,AI 根本跑不動。

      而 Kimi 的靈感,來自于他們發現,“序列維度上的時間問題和深度維度上的曾問題,本質是同一件事”。

      當年 AI 讀長句子,只能一個詞一個詞往后傳,前面的內容記不住,后來發明了注意力機制,讓 AI 能自己選句子里哪個詞重要,一下子就解決了。而這和“工人隊伍里傳話的先后順序”,本質上是一樣的。

      注意力殘差鏈接的具體做法就是:

      1. 每個工人,都能直接聽到前面所有工人的原聲,還能打分,分數高就多聽,分數低就少聽,最后把所有話按分數合起來,再自己加工,傳給下一個人

      2. 打分是不固定的:處理數學題的時候,就多聽負責邏輯的工人的話;處理聊天的時候,就多聽負責語氣的工人的話,特別靈活。

      而公式也變成了這樣,其中α就是前面所說,智能篩選器給前面每個工人打的“重要性分數”。


      為了讓這一套機制真正落地,Kimi 推出了“省力好用版”的注意力殘差,即“分塊注意力殘差”(Block AttnRes)。

      它會把工人分成幾個小組,每個小組內部用標準殘差連接做累加,類似于“小組總結”,而組與組之間再用 Attention 來做選擇性收聽。這樣一來,大大節省了成本開支。

      為了進一步優化成本,Kimi 團隊還做了兩項針對性優化:

      • 面向訓練過程的“跨階段緩存”:已經傳過的舊內容直接存在本地不用反復來回發,每次只傳新生成的內容,大幅節省算力、提升訓練效率。

      • 面向推理過程的“兩階段計算策略”:將 AI 生成回復前,先把要用到的歷史內容一次性找齊,再一步步算結果,不用每算一個字都重新翻一遍歷史,響應更快,用戶幾乎感知不到任何延遲。


      最后,Kimi 實際測試了 5 種不同大小的 AI,從 194M 到 528M,分對比了傳統殘差連接、注意力殘差連接和分塊注意力殘差的實際效果。

      結果發現:

      • 不管 AI 是大是小,注意力殘差連接都比傳統殘差連接犯錯更少、更聰明

      • 分塊注意力殘差連接,花同樣的錢,能達到傳統殘差連接 1.25 倍算力才能達到的效果

      • AI 規模越大,分塊版和完整無損版的注意力殘差連接效果越接近,超大 AI 里,兩者幾乎一模一樣


      Kimi 還做了一系列消融實驗,證明注意力殘差連接中的每個設計,都必不可少:

      • 必須用“隨內容變的打分”,如果用固定的分數,效果就很差,甚至不如傳統殘差連接

      • 必須用 softmax 打分,不然 AI 就不會果斷選重點,效果變差

      • 必須先把內容整理通順再打分,不然信息容易蓋住其他人,效果變差

      • 分成 8 個左右的小組,效果最好

      Kimi 的新設計給了 OpenAI 大神 Andrej Karpathy 不少啟發,他忍不住深思,“注意力機制”是不是可以運用到更多的地方去?


      有網友直接指出,或許 Transformer 中不少“長期沿用的配置”,都可以動一動了。


      還有網友激動地將 Kimi 奉為“新的 DeepSeek”。


      DeepSeek 與 Kimi 的

      解法有什么不同?

      雖然都是對殘差連接進行創新,但 DeepSeek 推出的 mHC 卻和 Kimi 的 AttnRes 走出了兩條路。

      如果把殘差連接理解成 AI 內部的一套“傳話機制”,那兩家的分歧,首先來自于它們對“問題到底出在哪”的判斷不同。

      DeepSeek 的思路是,信息主干道太擠,信息才會亂,那就拓寬多條并行專線,用學習好的規則在專線之間混合、傳遞。

      Kimi 的思路則是,信息主干道不能挑重點才會亂,那就給篩選權。

      這也帶來了兩者在能力邊界上的關鍵差別,DeepSeek 的做法只能聽到 “混合后的二手內容”,聽不到原版原話,而 Kimi 的做法能直接聽到 “所有前面的原版原話”,想找誰的就找誰的。

      兩者都能提升基礎效果,但擅長的領域完全不同,差距主要在復雜任務上。

      • mHC:主打 “訓練穩定性”,基礎能力有提升,復雜任務乏力

      它的核心價值是能把模型做的更深,訓練的時候不會亂套,解決了深層模型訓練崩潰的問題,在基礎的語言理解、閑聊場景有穩定提升。但在需要多步推理、長上下文記憶、精準邏輯回溯的任務上,比如數學、代碼、專業考試、長上下文問答,提升非常有限 。原因正在于它不擅長讓模型“精準找回某個早期關鍵步驟”。

      • AttnRes:兼顧穩定性 + 復雜推理,長上下文 、邏輯題提升碾壓

      它不僅解決了深層模型的訓練穩定性問題,更擅長需要精準回溯、多步推理的高難度任務。

      兩者在落地適配性上天差地別。

      DeepSeek 的 mHC 更像傷筋動骨的大改造,得把現有 AI 的單流架構完全改成多流并行架構,每層都要加新的流處理模塊,還要重調全套訓練參數,沒法直接替換傳統殘差連接,老模型基本沒法直接升級,跟拆房重蓋沒兩樣,適配成本極高。

      而 Kimi 的 AttnRes 是即插即用的替換件,只需要把模型里原來的殘差連接模塊換成 Block AttnRes,其他模型結構、訓練參數全都不用動,老模型直接升級就能拿到效果提升,就像給房子換個好門鎖不用拆墻,適配成本極低。

      從已有對比看,Kimi 似乎拿到了更好的“性價比”。

      有網友將 Kimi 的 AttnRes 將與 DeepSeek 的 mHC 進行了性能對比,發現在 Kimi 的消融實驗中,Kimi 完整無損版本的 Full AttnRes 性能始終優于 mHC,而 Block AttnRes 的性能與之相當,但 Kimi 的方案需要讀寫的數據量,只有 DeepSeek mHC 的 1/6。

      這意味著,在大模型真正走向大規模工程部署的語境下,Kimi 的路線可能具備更強的現實吸引力。

      過去十年,Transformer 的大部分創新都集中在注意力、FFN、MoE、位置編碼和訓練數據上。殘差連接則像空氣一樣存在,重要,但過于基礎,以至于幾乎沒人認真去動它。

      而現在,DeepSeek 和 Kimi 先后出手,或許正釋放一個信號:當數據紅利逐漸到頂,過去的大模型比拼的是“誰能堆更多算力,那么下一代大模型,或許要開始學會“管信息”來拉開差距。

      https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

      聲明:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

      會議推薦

      OpenClaw 出圈,“養蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

      針對這一系列挑戰,在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態實踐」專題,將聚焦一線實踐與踩坑復盤,分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      危險,危險,超級、超級、超級大利空來襲!

      危險,危險,超級、超級、超級大利空來襲!

      價值事務所所長
      2026-03-28 21:00:19
      觀戰一個月,胡塞武裝出手了

      觀戰一個月,胡塞武裝出手了

      樞密院十號
      2026-03-29 14:29:08
      原來精神小妹的生活方式這么離譜!看完網友分享,大開眼界了

      原來精神小妹的生活方式這么離譜!看完網友分享,大開眼界了

      另子維愛讀史
      2026-03-02 19:55:07
      中國斬釘截鐵,就是要日本賠罪,軍官侵館第4天,防衛大臣行動了

      中國斬釘截鐵,就是要日本賠罪,軍官侵館第4天,防衛大臣行動了

      老謝談史
      2026-03-29 01:20:29
      何鴻燊是個謎!2009年,88歲何鴻燊各臟器就已衰竭

      何鴻燊是個謎!2009年,88歲何鴻燊各臟器就已衰竭

      果媽聊娛樂
      2026-03-26 10:00:16
      魯尼:以目前的表現來看,英格蘭10號更應該屬于摩根-羅杰斯

      魯尼:以目前的表現來看,英格蘭10號更應該屬于摩根-羅杰斯

      懂球帝
      2026-03-29 10:30:46
      細思極恐!張雪峰8個月前悄悄和母校告別,幼兒園到中學都走一遍

      細思極恐!張雪峰8個月前悄悄和母校告別,幼兒園到中學都走一遍

      火山詩話
      2026-03-28 06:05:06
      美國最擔心的事發生了,伊朗亮出中國“底牌”,中國或成最大贏家

      美國最擔心的事發生了,伊朗亮出中國“底牌”,中國或成最大贏家

      徐云流浪中國
      2026-03-04 15:30:07
      離婚是68歲鄧婕一生的痛,繼子不爭氣,養女卻越來越像丈夫!

      離婚是68歲鄧婕一生的痛,繼子不爭氣,養女卻越來越像丈夫!

      青橘罐頭
      2026-03-26 17:45:28
      香港馬拉松:阿Sa臉饅化,黃曉明白又嫩 林志玲被嘲做作

      香港馬拉松:阿Sa臉饅化,黃曉明白又嫩 林志玲被嘲做作

      白面書誏
      2026-03-26 18:12:50
      中國丈母娘把豪華別墅花園改成菜地,洋女婿回來后懵了…

      中國丈母娘把豪華別墅花園改成菜地,洋女婿回來后懵了…

      愛下廚的阿釃
      2026-03-29 12:11:09
      藍莓再次被關注?研究發現:藍莓或可在30小時內清除體內45%因子

      藍莓再次被關注?研究發現:藍莓或可在30小時內清除體內45%因子

      垚垚分享健康
      2026-03-29 11:55:24
      日軍躲在炮樓內,八路軍久攻不下,一老農路過卻稱:簡單,讓我來

      日軍躲在炮樓內,八路軍久攻不下,一老農路過卻稱:簡單,讓我來

      云霄紀史觀
      2026-03-28 18:23:14
      西路軍失敗是“借刀殺人”?長文深入分析西路軍失敗的真正原因

      西路軍失敗是“借刀殺人”?長文深入分析西路軍失敗的真正原因

      阿胡
      2025-02-13 12:47:19
      湖人87-109大勝助西部三隊受益,火箭重獲主動權

      湖人87-109大勝助西部三隊受益,火箭重獲主動權

      余蹮搞笑段子
      2026-03-29 08:58:56
      42集諜戰大劇來襲,僅播出3集,收視熱度全線領跑,全劇實力派

      42集諜戰大劇來襲,僅播出3集,收視熱度全線領跑,全劇實力派

      樂楓電影
      2026-03-29 14:50:41
      “擦邊”的世界冠軍吳柳芳,終于還清了債

      “擦邊”的世界冠軍吳柳芳,終于還清了債

      冰川思想庫
      2026-03-27 11:33:25
      終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

      終身追殺令生效,什葉派出終極殺招,特朗普與內塔尼亞胡無處可逃

      小舟談歷史
      2026-03-08 08:00:04
      特朗普突然夸中國工廠,美國政客集體閉嘴,這波到底在演哪出?

      特朗普突然夸中國工廠,美國政客集體閉嘴,這波到底在演哪出?

      靜水流深003
      2026-03-29 14:43:04
      接連兩天 兩個大三甲醫院黨委書記猝死

      接連兩天 兩個大三甲醫院黨委書記猝死

      醫脈圈
      2026-03-27 20:36:17
      2026-03-29 16:15:00
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1395文章數 143關注度
      往期回顧 全部

      財經要聞

      Kimi、Minimax 們的算力荒

      頭條要聞

      美軍地面戰"數周速決"方案披露 欲復刻"42天滅伊"神話

      頭條要聞

      美軍地面戰"數周速決"方案披露 欲復刻"42天滅伊"神話

      體育要聞

      絕殺衛冕冠軍后,他單手指天把勝利獻給父親

      娛樂要聞

      張凌赫事件持續升級!官方點名怒批

      科技要聞

      馬斯克承認xAI"建錯了",11位創始人均離職

      汽車要聞

      嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

      態度原創

      游戲
      藝術
      健康
      公開課
      軍事航空

      心態爆炸!《紅色沙漠》的逆天解密離譜到讓人想瘋

      藝術要聞

      2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

      干細胞抗衰4大誤區,90%的人都中招

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美兩棲攻擊艦載3500名增援到達

      無障礙瀏覽 進入關懷版