<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek 元旦扔出王炸!CEO 梁文鋒親自署名,要動 AI 用了 10 年的“承重墻”?

      0
      分享至

        今天是元旦,DeepSeek 又扔了個王炸。

        本來準備躺平過節(嗯,是真的躺著了),結果睜眼發現一篇新論文 mHC(流形約束超連接)突然刷屏。

        我看了一眼作者列表,直接“垂死病中驚坐起”——最后一位赫然寫著:Wenfeng Liang(梁文鋒)。

        

        圖:DeepSeek CEO 梁文峰署名

        熟悉 DeepSeek 的都知道,這位 CEO 極少在技術論文上親自署名。

        老板親自掛帥,還選在新年第一天發,說明這事兒絕對不簡單。

        讀完我才發現,他們這次竟然要革深度學習祖師爺 ResNet 的命。

        聽起來很狂?但我研究了一下原理,發現這幫人是真有東西。

        01|從何愷明的“神來之筆”說起

        要看懂 DeepSeek 的操作,我們得先回看一眼歷史。

        2016年,大神何愷明(Kaiming He) 團隊提出了 ResNet,徹底解決了深層網絡訓練不動的難題。

        其中的核心設計叫“恒等映射”。

        

        圖:何愷明,深度殘差網絡(ResNet)的主要發明者

        打個比方,這就像在迷宮里修了一條“直通車道”。信號可以無腦地從這一層傳到下一層,不被中間商賺差價。

        正是因為有了這條路,今天的 ChatGPT、DeepSeek 這些幾百層的龐然大物才跑得起來。

        但問題是,對于現在胃口越來越大的模型來說,這一條“單車道”漸漸不夠用了。

        于是,學術界搞出了一個叫 HC(Hyper-Connections,超連接) 的東西。

        HC 的想法很美好:既然單車道不夠,那我就擴建成多車道唄!

        它把殘差流變寬(n倍),讓信息在不同車道間亂竄、混合,以此來提升模型的能力。

        

        圖:三代架構進化史:(a) 是經典的“單車道” ResNet; (b) 是路修寬了但沒紅綠燈的 HC(容易撞車); (c) 是 DeepSeek 加了“交通管制”的 mHC。

        但問題來了,這一擴建,出事了。

        原來的 ResNet 是“直通車”,很穩。現在的 HC 變成了“無紅綠燈的超級路口”。

        論文里的數據特別嚇人:在 HC 的架構下,信號在網絡里傳著傳著,就會因為缺乏管束而瘋狂膨脹。

        看原論文里的數據,HC 的信號增益幅度峰值直接干到了 3000!(下圖右側)

        

        圖:HC 的信號增益幅度峰值直接干到了 3000

        這意味著啥?意味著信號被放大了 3000 倍。

        這就像早高峰的十字路口沒有紅綠燈,車全撞在一塊了,這就是典型的“信號爆炸”。

        結果就是:模型訓練極其不穩定,錯誤率(Loss) 說炸就炸,根本沒法在大規模模型上用。

        02|DeepSeek 的解法:數學暴力美學

        面對這種“車禍現場”,一般人的思路可能是:“那我就少修兩條路吧。”

        但 DeepSeek 的思路是:路我要修,但我要請一個懂數學的交警。

        這就是 mHC(流形約束超連接)的核心邏輯。

        他們發現,只要把那些負責指揮交通的矩陣,強行按在一個叫“雙隨機矩陣”的數學規則里,問題就解決了。

        別被這個數學名詞嚇跑,它的原理其實也挺簡單,就像“能量守恒定律”:

        不管你在路口怎么變道、怎么混合,進來的流量總和,必須嚴格等于出去的流量總和。

        既不允許車子憑空消失(信號衰減),也不允許憑空變出車來(信號爆炸)。

        為了做到這一點,DeepSeek 用了一個叫 Sinkhorn-Knopp 的算法,像是給矩陣戴上了“緊箍咒”。

        不管這矩陣原來長啥樣,經過這個算法一處理,它就必須變得老老實實,行和列的加和都得等于1。

        這就很漂亮了。

        它保留了多車道互聯帶來的信息豐富度(性能提升),又把信號嚴格限制在了一個安全的范圍內(穩定性),完美致敬了何愷明當年追求的“恒等映射”精神。

        03. 效果怎么樣?直接看療效

        理論吹得再好,還得看實驗。

        還記得剛才說 HC 的信號增益飆到了 3000 嗎?

        用了 mHC 之后,這個數字被死死按在了 1.6 左右。

        

        從 3000 到 1.6,這是直接降低了三個數量級!

        這也直接體現在了訓練曲線上:

        穩如老狗: mHC 的訓練 Loss 曲線(藍線)極其平滑,跟基線模型幾乎一樣穩。

        

        圖:mHC 的訓練 Loss 曲線極其平滑

        性能更強: 在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。特別是在比較難的 BBH(邏輯推理)和 DROP 任務上,提升非常明顯。

        

        圖:在 27B 參數的模型上,mHC 不僅穩,效果還比標準版更好。

        04. 不止是數學,更是工程上的“摳門”

        讀 DeepSeek 的論文,你永遠能感覺到他們那種“把算力榨干到最后一滴”的執著。

        因為把路修寬,本來是一件非常費顯存、費時間的事。

        如果不做優化,內存訪問成本(I/O)會增加好幾倍,這誰受得了?

        所以 mHC 不僅僅是一個數學創新,還是一套工程優化方案。

        算子融合(Kernel Fusion): 他們手寫了底層的 Kernel,把好幾步計算合并成一步,減少 GPU 讀寫內存的次數。

        重計算(Recomputing): 為了省顯存,他們選擇在反向傳播時重新計算中間結果,而不是一直存著。

        通信重疊: 利用 DualPipe 策略,把額外的通信時間“藏”在計算時間里。

        結果就是:在擴展率為 4 的情況下,mHC 帶來的額外訓練時間開銷,僅僅只有 6.7%。

        用極小的代價,換來了模型性能和穩定性的雙重提升。

        這種“又好又省”的風格,確實很 DeepSeek。

        說實話,每次讀 DeepSeek 的論文都讓人挺佩服的,不是那些牛逼的技術,而是他們“死磕底層”的態度。

        特別是在現在,大家都忙著卷應用、卷 Agents 的時候,他們愿意回過頭去修補 AI 的“地基”。

        ResNet 已經統治了深度學習這么多年,大家都覺得它是完美的。

        但 mHC 告訴我們:只要你不迷信權威,哪怕是地基,也有重修的可能。

        mHC 這種架構,或許不會馬上改變你的生活,但它可能會讓下一代的 DeepSeek、GPT 跑得更穩、更快。

        對于 DeepSeek 這種“硬核”的數學暴力美學,你怎么看?歡迎在評論區聊聊。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      中山大學最新研究探明:二甲雙胍能通過多途徑,發揮抗衰老作用

      中山大學最新研究探明:二甲雙胍能通過多途徑,發揮抗衰老作用

      老費話家常
      2026-01-23 15:00:30
      白敬亭宋軼爆已經分手!大咖狗仔爆私下超冷互動 去年才取關對方

      白敬亭宋軼爆已經分手!大咖狗仔爆私下超冷互動 去年才取關對方

      ETtoday星光云
      2026-01-26 16:58:03
      神仙木有她美麗,黑絲哪有白襯衫性感

      神仙木有她美麗,黑絲哪有白襯衫性感

      貴圈真亂
      2025-12-12 12:12:10
      500架巨額訂單!巴基斯坦出口“梟龍”賺的錢,中國會有分成嗎?

      500架巨額訂單!巴基斯坦出口“梟龍”賺的錢,中國會有分成嗎?

      軍武次位面
      2026-01-26 19:30:48
      近7場6敗,遼籃難求一勝,沈陽日報發文,四個字直戳4冠王心窩

      近7場6敗,遼籃難求一勝,沈陽日報發文,四個字直戳4冠王心窩

      北緯的咖啡豆
      2026-01-27 07:28:24
      伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

      伊朗退了,敘利亞退了,巴勒斯坦退了,黎巴嫩退了,塞爾維亞退了

      南權先生
      2026-01-23 15:37:57
      國際乒聯終身主席怒了!樊振東打不打奧運會?應該我們自己說了算

      國際乒聯終身主席怒了!樊振東打不打奧運會?應該我們自己說了算

      夢史
      2026-01-19 14:16:23
      寶馬全新中型SUV上市!售價下調很親民,軸距接近3米,比肩寶馬X5

      寶馬全新中型SUV上市!售價下調很親民,軸距接近3米,比肩寶馬X5

      小史談車
      2026-01-24 10:00:08
      重磅!莫蘭特+錫安!3換1交易方案曝光...

      重磅!莫蘭特+錫安!3換1交易方案曝光...

      技巧君侃球
      2026-01-26 16:53:03
      詹俊:曼聯換帥換了一把屠龍刀,利物浦離崩盤僅一步之遙

      詹俊:曼聯換帥換了一把屠龍刀,利物浦離崩盤僅一步之遙

      懂球帝
      2026-01-26 11:55:08
      胡明軒大爆發!廣東4連勝登頂,北京隊重返前4,最新排名一夜變天

      胡明軒大爆發!廣東4連勝登頂,北京隊重返前4,最新排名一夜變天

      大秦壁虎白話體育
      2026-01-27 00:01:44
      輕斷食再次封神!研究證實:能讓肝臟脂肪在3個月內少25.5%!

      輕斷食再次封神!研究證實:能讓肝臟脂肪在3個月內少25.5%!

      健康之光
      2026-01-09 06:20:03
      瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質極佳

      瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質極佳

      古書記史
      2026-01-06 16:31:56
      蘋果加它是超強肝臟解毒水,連著喝3天,排出身體多年肝臟毒素

      蘋果加它是超強肝臟解毒水,連著喝3天,排出身體多年肝臟毒素

      江江食研社
      2026-01-26 10:30:08
      1959年,中央同志找陳賡談話,提出讓他退居二線的要求,陳賡當即直言:這不是開玩笑嗎?

      1959年,中央同志找陳賡談話,提出讓他退居二線的要求,陳賡當即直言:這不是開玩笑嗎?

      文史明鑒
      2026-01-26 18:21:17
      國家藥監局:暫停進口、銷售和使用Sun Pharmaceutical Industries Limited重酒石酸卡巴拉汀膠囊

      國家藥監局:暫停進口、銷售和使用Sun Pharmaceutical Industries Limited重酒石酸卡巴拉汀膠囊

      證券時報
      2026-01-26 20:11:03
      1983年,李大釗的兒子去祭拜父親,欣喜發現了埋在地下的一塊碑

      1983年,李大釗的兒子去祭拜父親,欣喜發現了埋在地下的一塊碑

      興趣知識
      2026-01-15 15:38:48
      多地合并退役軍人事務局,釋放了什么信號

      多地合并退役軍人事務局,釋放了什么信號

      中國新聞周刊
      2026-01-24 11:42:39
      CCTV5直播!天津女排對陣上海,劉美君發燒,全隊加練一傳

      CCTV5直播!天津女排對陣上海,劉美君發燒,全隊加練一傳

      跑者排球視角
      2026-01-27 07:03:02
      大布一旦離婚寸草不留,贅婿被豪門榨干,這智商居然還手撕爹媽?

      大布一旦離婚寸草不留,贅婿被豪門榨干,這智商居然還手撕爹媽?

      記錄生活日常阿蜴
      2026-01-27 07:00:52
      2026-01-27 08:20:49
      AI范兒 incentive-icons
      AI范兒
      AI范兒是一個專注于人工智能領域的資訊和學習平臺,提供最新的人工智能資訊
      649文章數 424關注度
      往期回顧 全部

      科技要聞

      理想開始關店“過冬”,否認“百家”規模

      頭條要聞

      上海一女子嫌風水不好 屢次掰歪小區兩塊反光鏡

      頭條要聞

      上海一女子嫌風水不好 屢次掰歪小區兩塊反光鏡

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被抵制成功!遼視春晚已將她除名

      財經要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發布 解鎖四項定制創新

      態度原創

      時尚
      家居
      旅游
      本地
      公開課

      甜了10年,超多曖昧細節,全網求他倆原地結婚

      家居要聞

      流韻雅居,讓復雜變純粹

      旅游要聞

      英媒:中國正成為全球健康旅游目的地

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版