<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      估值1200億!Kimi新架構爆改Transformer,算力成本直降

      0
      分享至



      在AI技術迭代的浪潮里,總有一些基礎設計像空氣一樣,重要卻被長期忽視。2015年何愷明提出的殘差連接,就是這樣的存在——它支撐著從ResNet到Transformer的所有深度模型,讓AI能堆到幾十上百層而不 “訓練崩潰”。可就在2026年初,DeepSeek與Kimi先后對它動刀,連馬斯克、Andrej Karpathy都紛紛點贊,一場關于AI信息流動的底層革命,正在悄然發生。



      一、殘差連接:AI的 “信息高速公路”,藏著十年頑疾

      要讀懂這場革命,得先搞懂殘差連接到底是什么。

      你可以把大模型的Transformer架構,想象成一支幾十人排成的 “傳話小組”:每個人(對應模型的一層)聽完前面所有人的話,自己加工一句,再原封不動傳給下一個人。傳統殘差連接的規則很簡單:輸出=上一層輸入 + 本層加工結果(數學式:hl=hl?1+f(hl?1))。

      它的偉大之處,在于解決了深度網絡的 “梯度消失” 難題 —— 就像給信息和糾錯信號修了一條 “高速公路”,讓梯度能直接從輸出層傳回輸入層,不用在層層計算中衰減,讓深層模型訓練成為可能。從ResNet到GPT、Claude,再到國內所有主流大模型,這套設計沿用了整整十年,成了深度學習的 “公理”。

      但這套 “等權累加” 的規則,藏著三個致命問題,隨著模型層數越來越多,問題愈發凸顯:

      不能挑著聽:每一層只能全盤接收前面所有層的信息,不管有用沒用,無法自主篩選重點;

      信息被稀釋:層數越多,前面的關鍵信息越容易被后面的新內容“淹沒”,AI聊著聊著就忘了最初的需求,做復雜推理時更是抓不住核心;

      內容越堆越亂:后面的層必須不斷疊加信息,才能讓自己的貢獻被看到,導致信息冗余、訓練容易失控。

      過去十年,不是沒人想改。有人調整層歸一化順序(PreNorm),有人嘗試復雜連接(MRLA),但要么沒觸碰到 “等權累加” 的核心,要么設計太復雜、AI跑不動,始終沒能解決根本問題。直到DeepSeek和Kimi先后出手,才真正捅破了這層“窗戶紙”。

      二、兩條破局之路:DeepSeek拓寬通道,Kimi賦予篩選權

      面對殘差連接的 “稀釋困境”,DeepSeek 和 Kimi 給出了完全不同的解法,一個走 “拓寬通道” 的路線,一個走 “智能篩選” 的路線,卻都戳中了痛點。

      1. DeepSeek mHC:多流并行,用數學約束穩住訓練

      DeepSeek的思路很直接:信息主干道太擠,那就拓寬多條并行專線。

      它提出的mHC(流形約束超連接),把傳統單條殘差流,擴展成多條并行的 “信息專線”,讓模型自己學習每條專線的權重,靈活混合信息。但問題很快出現:無約束的權重矩陣會導致信號爆炸——在270億參數模型中,信號放大倍數可達3000倍,訓練直接崩潰。

      于是DeepSeek用了一個精妙的數學解法:雙隨機矩陣約束。通過Sinkhorn-Knop 算法,把權重矩陣限制在 “每行之和為1、每列之和為 1” 的幾何空間里,既保留了多流并行的優勢,又保證信號不會無限放大,徹底解決了深層模型的訓練穩定性問題。

      mHC的優勢很明確:主打訓練穩定,基礎能力全面提升。在語言理解、日常閑聊等基礎場景,效果穩定且模型能做得更深。但它的短板也很突出:只能聽到 “混合后的二手信息”,無法直接回溯早期關鍵步驟,在數學推理、代碼生成、長文本理解等復雜任務上,提升非常有限。而且它是 “傷筋動骨” 的大改造,需要把單流架構改成多流并行,老模型幾乎無法直接升級,適配成本極高。

      2. Kimi AttnRes:注意力賦能,即插即用的 “智能篩選器”

      Kimi的解法更顛覆:信息亂不是因為通道窄,而是因為不能挑重點,那就給每一層 “篩選權”。

      它提出的注意力殘差(AttnRes),把注意力機制引入殘差連接 —— 相當于給每個 “傳話工人” 配了一個智能篩選器:不再全盤接收前面的信息,而是能直接聽到前面所有層的 “原聲”,并給每個信息打分,分數高的多聽、分數低的少聽,最后按權重融合,再加工傳遞。

      簡單說,傳統殘差是 “一股腦全加”,AttnRes是 “按需挑選、加權融合”。處理數學題時,模型會多聽負責邏輯推理的層;處理聊天時,會多聽負責語氣理解的層,靈活度大幅提升。為了落地,Kimi還推出了 “分塊注意力殘差(Block AttnRes)”,把層分成小組,既保證效果,又控制算力開銷。



      AttnRes的優勢堪稱 “全能”:兼顧訓練穩定與復雜推理,長上下文、邏輯題提升碾壓傳統方案。實驗顯示,它在研究生級專業考試、高等數學推理、代碼生成等硬核任務上,直接實現3-7.5個點的暴漲;還能節約1.25倍算力,訓練額外開銷不到4%,推理延遲增加不到2%。更關鍵的是,它是 “即插即用” 的替換件 —— 只需要把傳統殘差模塊換成Block AttnRes,其他結構、參數全不用動,老模型直接升級就能受益,適配成本極低。



      三、性價比對決:Kimi AttnRes 的工程優勢更突出

      從性能到落地,兩家方案的差距一目了然:

      能力邊界:mHC擅長基礎場景與訓練穩定,復雜推理乏力;AttnRes兼顧穩定與復雜任務,長上下文、精準回溯能力更強;

      落地成本:mHC是 “拆房重蓋”,架構重構、參數重調,適配難度大;AttnRes是 “換門鎖”,即插即用,老模型無縫升級;

      算力效率:Kimi的Block AttnRes性能與mHC相當,但讀寫數據量僅為mHC的 1/6,在大規模工程部署中,性價比優勢明顯。

      這也是為什么Kimi的方案能獲得馬斯克、Andrej Karpathy的高度認可 —— 它不僅解決了技術問題,更貼合大模型規模化落地的現實需求。

      四、底層革命的信號:AI 競爭從 “堆算力” 轉向 “管信息”

      DeepSeek與Kimi的先后突破,釋放了一個關鍵信號:當數據紅利逐漸見頂,大模型的競爭邏輯正在改變。

      過去十年,AI比拼的是 “誰能堆更多參數、更多算力、更多數據”;而現在,創新開始回歸底層架構與信息流動效率。殘差連接作為Transformer的 “根基”,被重新審視和改造,意味著AI開始從 “粗放式堆規模”,轉向 “精細化管信息”—— 讓每一層信息都能被高效利用,讓模型在有限算力下,實現能力的指數級提升。

      這場革命才剛剛開始。Andrej Karpathy已經開始思考:注意力機制還能運用到Transformer的哪些角落?業內也在熱議:那些長期沿用的 “默認配置”,是不是都該被重新審視?

      對于普通用戶來說,這場底層革命的影響會逐漸顯現:未來的AI會更 “聰明”—— 記得住長文本、解得了復雜題、寫得出精準代碼,同時訓練和推理成本更低,AI服務會更普惠、更強大。

      從何愷明的殘差連接,到DeepSeek的mHC,再到Kimi的AttnRes,AI底層架構的每一次微小突破,都在推動整個行業向前。這場關于 “信息流動” 的革命,或許就是下一代大模型的核心競爭力所在。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美國緊急和以色列切割,但伊朗還是炸了美國的油氣設施

      美國緊急和以色列切割,但伊朗還是炸了美國的油氣設施

      遠方青木
      2026-03-20 23:34:12
      漲價就真的沒人買:中國大陸顯卡銷量直接腰斬!

      漲價就真的沒人買:中國大陸顯卡銷量直接腰斬!

      快科技
      2026-03-19 12:29:41
      遼寧惜敗10分上海狂勝40分!山西險勝2分浙江贏25分,積分榜大變

      遼寧惜敗10分上海狂勝40分!山西險勝2分浙江贏25分,積分榜大變

      老吳說體育
      2026-03-21 21:49:40
      爽,公司全員裁撤,就地解散!

      爽,公司全員裁撤,就地解散!

      黯泉
      2026-03-21 12:20:16
      越來越多的人查出腸癌!醫生含淚苦勸:冰箱久置的這4物是幫兇

      越來越多的人查出腸癌!醫生含淚苦勸:冰箱久置的這4物是幫兇

      岐黃傳人孫大夫
      2026-03-17 23:25:03
      賈國龍新開燜面館:600平獨棟大店,巨大土陶砂鍋上桌,客單價40元

      賈國龍新開燜面館:600平獨棟大店,巨大土陶砂鍋上桌,客單價40元

      職業餐飲網
      2026-03-21 20:25:02
      廣東一奔馳車身滿是“渣男”字樣,車牌號疑為粵P,當地公安:車身內容只要不違反相關規定,公安機關也不好干預,會移交交警部門核實調查

      廣東一奔馳車身滿是“渣男”字樣,車牌號疑為粵P,當地公安:車身內容只要不違反相關規定,公安機關也不好干預,會移交交警部門核實調查

      瀟湘晨報
      2026-03-21 14:17:10
      突發!伊朗下重手了!

      突發!伊朗下重手了!

      財經要參
      2026-03-21 20:20:03
      大變天!4月1日起,存款10萬-50萬用戶注意,銀行新規落地

      大變天!4月1日起,存款10萬-50萬用戶注意,銀行新規落地

      老特有話說
      2026-03-21 13:29:15
      太瘋了!MIT博士在Transformer里造計算機,攻破LLM終極缺陷

      太瘋了!MIT博士在Transformer里造計算機,攻破LLM終極缺陷

      新智元
      2026-03-21 10:11:31
      日本沒想到,美國也沒想到,現在的中國安徽省,已變成全球焦點

      日本沒想到,美國也沒想到,現在的中國安徽省,已變成全球焦點

      蜉蝣說
      2026-03-21 19:32:36
      福建寧德一派出所教導員辦公室猥褻15歲女生,一審被判2年9個月,家屬欲申請抗訴

      福建寧德一派出所教導員辦公室猥褻15歲女生,一審被判2年9個月,家屬欲申請抗訴

      大風新聞
      2026-03-21 11:58:12
      打了6場又傷了! 本賽季最荒唐的交易,用頂級天賦換玻璃人球星

      打了6場又傷了! 本賽季最荒唐的交易,用頂級天賦換玻璃人球星

      你的籃球頻道
      2026-03-21 11:36:53
      西部排名又亂了:開拓者創NBA奇跡,火箭收大禮,7隊排名互換

      西部排名又亂了:開拓者創NBA奇跡,火箭收大禮,7隊排名互換

      籃球大視野
      2026-03-21 14:08:28
      外媒曝杜普蘭蒂斯已與女友秘密完婚 今年夏天將在法國舉行正式婚禮

      外媒曝杜普蘭蒂斯已與女友秘密完婚 今年夏天將在法國舉行正式婚禮

      勁爆體壇
      2026-03-21 20:42:07
      7人上雙造40分慘案!上海主場火力全開,魚腩28連敗平歷史最長

      7人上雙造40分慘案!上海主場火力全開,魚腩28連敗平歷史最長

      體壇小李
      2026-03-21 21:23:38
      你見過最不講衛生的女生是怎樣的?網友:給我看吐了!

      你見過最不講衛生的女生是怎樣的?網友:給我看吐了!

      夜深愛雜談
      2026-03-15 23:14:53
      看完《好好的時光》大結局,我久久無法平靜,寫下這篇真實影評

      看完《好好的時光》大結局,我久久無法平靜,寫下這篇真實影評

      晴晴的娛樂日記
      2026-03-21 18:47:48
      笑死我了!一位三年級小朋友趁媽媽洗澡的縫隙時間,和豆包的對話

      笑死我了!一位三年級小朋友趁媽媽洗澡的縫隙時間,和豆包的對話

      夜深愛雜談
      2026-03-21 19:50:42
      一拉一燒!不用骨灰盒,裝膠袋扔掉,一廣東博主交代后事,引熱議

      一拉一燒!不用骨灰盒,裝膠袋扔掉,一廣東博主交代后事,引熱議

      火山詩話
      2026-03-20 15:19:13
      2026-03-22 02:03:00
      魏家東 incentive-icons
      魏家東
      一個人的營銷商學院!
      2530文章數 12209關注度
      往期回顧 全部

      科技要聞

      宇樹招股書拆解,人形機器人出貨量第一!

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      頭條要聞

      伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

      體育要聞

      誰在決定字母哥未來?

      娛樂要聞

      田栩寧終于涼了?出軌風波影響惡劣

      財經要聞

      通脹警報拉響,加息潮要來了?

      汽車要聞

      小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

      態度原創

      本地
      旅游
      教育
      游戲
      公開課

      本地新聞

      春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

      旅游要聞

      【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

      教育要聞

      高考地理中的湖岸沉積

      魔獸世界:時光服P3階段將至,新手該練什么職業,這個很重要!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版