<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      詳細解讀DeepSeek新年的第一篇論文,他們就是這個時代的真神。

      0
      分享至

      2026年新年第一天,DeepSeek又開卷了。

      發了他們新年的第一篇論文。

      《 mHC: Manifold-Constrained Hyper-Connections 》


      感覺是DeepSeek-V4的鋪墊,當然一些小道消息,不保真,我也不懂,我只是拍腦袋預測一下,有問題別找我。

      就是V4,大概在1月中下旬或者1月底,然后呢,有多模態輸入,沒有多模態輸出。

      就醬,回到論文。

      這篇論文我是說實話,有點過于硬核了。

      但同時,傳遞出來的信息量和對AI界的改變,又是巨大的。

      在給自己放了一天假,然后啃了一天以后(這玩意比我想象的難啃多了。。。)我還是想,用最通俗易懂最有意思的方式,來跟你聊聊,這篇論文的有趣之處,以及,是如何對現在的生態進行一些新的輸入的。

      當然也給我自己疊個甲,我不是算法出身,我只是讀完以后覺得很棒想分享給大家看,我對這篇論文的理解和亂七八糟的各種名詞解釋,都是我自己民科瞎JB自學的,部分措辭也有為了能讓大家更好理解而做的部分簡化,如果有我理解的錯誤或者事實性錯誤的地方,歡迎大佬們在評論區指正討論,感謝。

      話不多說,我們,正是開始。

      在最開始之前,我想先問大家一個問題,就是大家認為,一個要處理圖片、聲音、文字這么多亂七八糟信息的新模型,它最需要的是什么?

      是一塊更強的GPU嗎?是一個更大的內存嗎?

      而DeepSeek這篇文章,給出的答案,其實,是一個極其穩定、高效的、模型內部的信息流轉系統。

      要理解這個玩意,我們先得穿越回去,穿越回2015年,也就是十年前,從一個男人和一個偉大的想法說起。

      這個故事,要從盤古開天,啊不,要從何愷明蓋樓開始聊。

      對,何愷明蓋樓。

      我們都知道,大模型是神經網絡對吧,現在,你可以把一個神經網絡,當成一家開在101大廈里的超級公司。

      數據,就像一份客戶需求,從一樓的前臺進去,然后呢,先交給銷售部分析,在傳給二樓的市場部包裝一些,接著送到三樓的產品部進行需求評審。。。

      客戶的需求,也就是數據,就這樣坐著樓梯,一層一層往上爬,每一層都對這份信息做一點點加工和提煉。

      最后,這份被層層解讀過的報告,會送到頂樓的CEO辦公室,由CEO拍板,給出最終決策,比如“沒問題咱就這么干!”。

      理論上,公司的樓層越多,部門分工越細,那這家公司專業度就越高,也越牛逼,處理復雜問題的能力就越強,對吧。

      但在2015年,全世界的AI大佬們,都碰到了一個鬼故事,就是,這棟樓,它特娘的蓋不高啊。

      最多蓋到二三十層,就到頭了。

      再往上蓋,整個公司就直接罷工了。

      因為信息在傳遞過程中會失真。

      不知道你們有沒有玩過類似于王牌對王牌里面那種傳聲筒游戲。


      就是第一個人接到信息以后,在有限時間內,往后傳,最后一個人復述出來,看看還能復述多少字。

      這個游戲巨搞笑,因為最后一個人說出來的跟第一個人往往風牛馬不相及。

      在這個101大廈的公司里,也是一樣的。

      就比如一樓銷售部明明說的是“老板想喝咖啡”,傳到十樓就變成了“老板喜歡吃咖啡壺”,傳到二十樓成了“老板去中國有嘻哈上唱了首咖啡壺我的Baby”,等傳到三十樓CEO耳朵里,可能已經變成了“老板覺得自己是只屌炸天的咖啡壺”。

      這就完蛋了。

      CEO根據這個離譜的信息做出的決策,肯定是災難性的。

      在AI里,這個現象有個高大上的名字,叫梯度消失。

      說人話就是,信號在深層網絡里傳來傳去,衰減得一干二凈,腦子直接短路了,這破活干不了一點了。

      然后呢,就在整個AI界都對著這現象一籌莫展的時候,當時還在微軟的何愷明,就站了出來。


      他做了一個看似簡單,卻直接改變世界的決定。

      他在大樓里,修了一部VIP直達電梯。

      這部電梯,從一樓前臺,可以直達任何一個樓層,包括頂樓的CEO辦公室。

      于是,流程變成了這樣。

      客戶需求文件進來后,依然需要一層一層地坐樓梯往上爬,接受各個部門的加工,但與此同時,前臺會把這份文件的原件復印件,放進這部VIP電梯,直接嗖地一下,送到CEO的辦公桌上。

      這樣一來,CEO在看下面部門交上來的那份可能已經被傳得面目全非的報告時,他可以隨時拿起旁邊那份原件復印件來對比一下。

      “哦,底下人說老板是咖啡壺,但原件說的是老板想喝咖啡,那肯定是底下人傳話傳錯了”。

      信息,就這樣被保真了。

      這部天才的電梯,就是殘差連接(Residual Connection)。


      它像一根定海神針,貫穿了整棟大樓,讓最原始的信息可以在不同樓層間無損穿梭,時刻校準著整個公司的前進方向。

      可雖然這部電梯很偉大,但它也有一個致命的毛病。

      就是,它太TM窄了,它是一部只能容納一個人的小電梯,一次只能送一份文件。

      時間快進到今天,AI公司已經不是當年那個只處理文字需求的小作坊了。

      它成了一個要處理圖片、視頻、音頻、代碼的超級巨無霸。

      CEO每天要處理的信息,從一份文件,變成了一卡車的資料。

      只靠一部小小的VIP電梯來回送復印件,運力嚴重不足。

      這條曾經的VIP電梯,現在成了全公司最堵的羊腸小道。

      咋辦呢。

      于是,一群更激進更年輕的大佬,一拍桌子說,靠,一部電梯不夠,咱們把整面墻都砸了,修一個電梯井吧,把一條單行道,直接拓寬成雙向八車道,讓信息流淌起來不就完了?

      這個狂野的想法,就是超連接(Hyper-Connections)。

      來自2024年字節Seed發的一篇論文。


      以前,信息是一條單線流動的信息流。

      現在,他們把這條信息流,強行擴容成了四條、八條并行的信息流VIP電梯。這就好比以前公司里只有一個信使,現在搞了一個8人信使送貨團,8個人一起拎著大包小包一起送信。

      這下牛逼壞了,信息通量瞬間指數級暴增,模型的性能也確實立竿見影,蹭蹭往上漲。

      你看,電梯多了,聰明的智商又占領高地了,對吧。

      但是,但是又來了。

      就像所有恐怖故事的開頭一樣,好景不長。

      這條寬闊的八車道VIP電梯,很快就開始鬧鬼了。

      你想啊,這個8兄弟,他們是人,不是機器。

      他們在路上會互相聊天,會交流情報,人多嘴雜,就導致他們不再是單純地傳遞信息,這幾個人,開始在信息流里自由發揮了。

      于是,各種詭異的事情發生了。

      就比如說,一樓前臺收到消息說市場部小王今天可能要請假。

      信使A聽了,覺得這事兒挺重要,告訴了信使B。

      信使B覺得可能這個詞不確定,就跟信使C說市場部小王今天要請假。

      信使C一琢磨,覺得得強調一下嚴重性,就跟信使D說市場部整個組今天都要罷工。

      最后傳到CEO耳朵里,就變成了:

      市場部全體員工已經卷款跑路了!!!

      CEO:????????

      一個無關緊要的小信息,在多條信道里被反復共振、放大,最后釀成了一場災難。

      這就是,信號爆炸。

      再比如,一份十萬火急的服務器著火了的文件,被分成了八份,交給八個信使,讓每個信使都去送信。

      但是呢,每個信使都覺得,這么重要的事,其他七個人肯定會送到的,我不如出去掙個外快先去送個外賣。

      結果,誰都沒送。公司直接燒成了灰。

      這就是信號消失。

      整個公司的信息系統,陷入了一片混亂。

      這就導致,模型訓練到12000步的時候,突然性能就斷崖式下跌,跟跳樓似的,比心電圖還心電圖。


      這模型就算廢了,直接訓崩了。

      這就是HC技術最大的命門。

      它為了追求信息通量,犧牲了信息的保真度和穩定性。

      好了,鋪墊了這么久,DeepSeek的mHC終于要登場了。


      對,我們今天的主角,是mHC。

      只不過為了讓大家理解,mHC到底為了解決什么問題,所以,花了這么大的篇幅,給大家講了背景故事。

      mHC,全稱Manifold-Constrained Hyper-Connections,流形約束超連接。

      注意這個詞,約束。

      DeepSeek他們干了個啥事呢,他們沒有開掉那幾個信使,也沒有砸掉電梯說勞資要用火箭送用個鬼的電梯。

      他們只是給這個8人送信小隊,制定了一套極其嚴格、甚至有點變態的信息傳遞紀律。

      這套紀律的核心,在論文里叫雙重隨機矩陣約束。

      咱們還是說人話,舉例子。

      你可以理解為,他們設立了一個叫做內部審計部,由一個究極不近人情的德國老太太領導,權力大到嚇人。

      這個審計部咧,給每個信使都發了一本小冊子,上面印著兩條鐵律。

      第一條鐵律,我們稱為信息能量守恒定律: 作為一個信使,你從上一站收到的所有信息,其信息能量總和為100%。那么在你把信息傳遞給下一站的隊友時,你傳遞出去的所有信息的信息能量總和,也必須不多不少,正好是100%。

      回到上面信息爆炸那個案例。就比如說,信使A收到了小王請假這個信息,我們假設它的信息能量是10個單位。

      這時候,信使A想添油加醋告訴信使B一個更夸張的版本。

      但審計部的系統會立刻報警,因為信使A私自加信息了,導致他的輸出能量(比如20個單位)大于了他的輸入能量(10個單位)。

      他這是在無中生有暗度陳倉順手牽羊,嚴重違反了信息能量守恒定律,結果就會是,信使A當場被開除。

      在這套鐵律下,信使們依然可以交流,但任何放大和夸張的行為,都會在數學上被立刻識別并禁止。

      謠言的傳播鏈,從根上就被斬斷了,信號爆炸的問題,就此解決。

      第二條鐵律,我們稱為團隊責任綁定定律:對于任何一個需要被送達的信息,比如服務器著火這份文件,最終抵達目的地的信息能量總和,必須不多不少,正好等于它出發時的信息能量總和。

      就比如還是剛剛的那個服務器著火的事。

      信使A想:“這么多人呢,我不送也沒事吧?” 于是他選擇了摸魚,他貢獻的信息能量是0。

      信使B也想:“總有傻子會送的。” 他的貢獻也是0。。。

      如果八個人都這么想,那么最終抵達CEO辦公室的,關于服務器著火的信息能量總和就是0。

      審計部的系統立刻就會拉響最高級別的警報,因為它發現出發時明明是100單位的能量,抵達時卻變成了0。根據團隊責任綁定定律,整個信使團隊都將面臨重罰。

      為了避免這種情況,信使們就必須互相補位。如果A不干,B、C、D……就必須分攤他的工作,因為最終的那個總和是死命令,必須湊夠。

      責任擴散的可能性,在數學上就被杜絕了。

      信息,必須被送達。

      信號消失的問題,也就此解決。


      這兩條鐵律合在一起,就是所謂的雙重隨機矩陣約束。

      它沒有禁止信使們交流,八車道高速公路依然車水馬龍,信息依然可以在其間自由組合。

      但所有的自由,都被約束在了一個能量守恒的流形之內。

      這就是mHC的精髓。

      在這約束之下,給你自由。

      那最后的終極問題來了,這玩意,解決了HC的不穩定問題之后,到底有什么用?

      我先說兩個數字。

      第一個,就是這套所謂的審計系統,會帶來大概6.7%的額外訓練開銷。

      第二個,就是在能力上,確實有部分提升,相對HC額外多出約2個點。


      看著是不是好像有點投入產出不成正比?這生意聽起來,好像有點虧啊。

      但是,別被表面騙了。

      在模型訓練里,還有一個很核心的詞,叫穩定性。

      比如之前HC架構的那個公司,會有各種信息爆炸的問題,如果我原來的信息能量初始值是1,在信息傳遞過程中,最高的時候,信息能量到CEO辦公室的時候,能干到3000。

      你就能想象到,有多失真。

      這個恐怖的失真,有時候就直接變成了摧毀模型訓練的一場風暴。

      而DeepSeek的mHC。

      在鐵律之下,幾乎全部做到了100%保真,最高也不過才1.6。


      3000:1.6。

      直接降低了3個數量級,對,不是3倍,是3個,數量級。

      這就是mHC,最牛逼的地方,太尼瑪嚇人了。

      而這個穩定性,帶來的好處,顯而易見。

      它用額外6.7%的開銷成本,讓你模型訓練瞬間崩盤的3000倍的系統性風險,直接摁死到了可以忽略不計的1.6倍。

      要知道,模型訓練,太貴了,對于一家AI公司來說,訓模型每一秒燒掉的錢都是觸目驚心的。

      任何一次過程中訓練的崩盤,那損失的,就不只是6.7%的額外開銷了,那是100%的建造成本,所有的一切,全特么重頭再來。

      有可能就是數千萬的成本,還有好幾周的時間。

      這就是HC系統那個心電圖背后,極高的、不可預測的、災難性的失敗風險。

      他確實提高了模型的效率,但是這個不穩定性,幾乎很難接受。

      現在,我們再回來看mHC那6.7%的額外開銷。

      你現在還覺得它貴嗎?

      你把他當一份保險看,你就覺得,一丁點也不貴了。

      僅僅6.7%的額外開銷,就能為一項千萬美元級別的投資提供近乎百分之百的安全保障,這在任何一個金融模型里,都是一筆劃算到笑出聲的買賣。

      而且,性能還是更強的,這買賣,好到離譜好吧。

      穩定、高效、還更強。

      這三者通常是一個不可能三角,你只能取其二。

      而mHC,用一個精巧的數學設計和極致的工程優化,把這三者全占了。

      這就是為什么我說,這篇論文雖然低調,但意義重大。

      DeepSeek。

      真的就是我們這個AI時代的真神。

      每一篇論文,都能給行業,一些小小的震撼。

      贊美真神。

      以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

      >/ 作者:卡茲克

      >/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      普京和澤連斯基宣布:俄烏停火32小時!澤連斯基:愿意與普京會面,但不是在莫斯科

      普京和澤連斯基宣布:俄烏停火32小時!澤連斯基:愿意與普京會面,但不是在莫斯科

      每日經濟新聞
      2026-04-10 17:29:03
      伊朗議長帶四名遇難兒童照片赴美伊談判,配文“我的飛行同伴們”;代表團又名“米納卜168”;此前伊朗米納卜市一小學遭襲,168名女童遇難

      伊朗議長帶四名遇難兒童照片赴美伊談判,配文“我的飛行同伴們”;代表團又名“米納卜168”;此前伊朗米納卜市一小學遭襲,168名女童遇難

      揚子晚報
      2026-04-11 10:45:57
      德國“大神”來華手術,被「中國病歷」嚇到:“我的天...”。中國醫生卻要天天扛著

      德國“大神”來華手術,被「中國病歷」嚇到:“我的天...”。中國醫生卻要天天扛著

      醫護健康科普
      2026-04-11 09:08:37
      命中了!以色列徹底失控了!

      命中了!以色列徹底失控了!

      財經要參
      2026-04-11 05:50:03
      關于兩岸和平統一,鄭麗文正式表態,國民黨三人罕見支持,不簡單

      關于兩岸和平統一,鄭麗文正式表態,國民黨三人罕見支持,不簡單

      DS北風
      2026-04-10 17:16:33
      看了一天!終于理清特朗普老婆和愛潑斯坦的瓜!

      看了一天!終于理清特朗普老婆和愛潑斯坦的瓜!

      啃金融
      2026-04-10 22:47:23
      8888奔馳陪葬當事人已經認識到錯誤,他也確實非常有錢

      8888奔馳陪葬當事人已經認識到錯誤,他也確實非常有錢

      映射生活的身影
      2026-04-10 19:15:23
      以色列,終成人類公敵!

      以色列,終成人類公敵!

      燕梳樓頻道
      2026-04-10 15:02:39
      中東迎來關鍵24小時:伊朗額外提了兩個條件,特朗普邊談邊增兵

      中東迎來關鍵24小時:伊朗額外提了兩個條件,特朗普邊談邊增兵

      阿芒娛樂說
      2026-04-11 09:23:47
      兩段婚姻都娶普通人,三婚娶名導前妻,知名前國腳,如今活成這樣

      兩段婚姻都娶普通人,三婚娶名導前妻,知名前國腳,如今活成這樣

      削桐作琴
      2026-04-10 18:36:31
      為了鄭麗文專機能順利落地,解放軍果斷亮出底牌,痛擊臺獨要害

      為了鄭麗文專機能順利落地,解放軍果斷亮出底牌,痛擊臺獨要害

      流史歲月
      2026-04-09 16:30:07
      時隔35年!廣東東莞樟木頭上網絡平臺熱搜,真相令人震驚

      時隔35年!廣東東莞樟木頭上網絡平臺熱搜,真相令人震驚

      南方健哥
      2026-04-10 23:13:49
      Woc,才18歲啊,中國版“切特”橫空出世,已預定登錄NBA

      Woc,才18歲啊,中國版“切特”橫空出世,已預定登錄NBA

      體育新角度
      2026-04-11 11:19:36
      1-1!姆巴佩遭點球爭議,巴爾韋德難救主,皇馬連續3場不勝

      1-1!姆巴佩遭點球爭議,巴爾韋德難救主,皇馬連續3場不勝

      我的護球最獨特
      2026-04-11 05:04:38
      標120W的充電器實際功率僅22.5W,商家:120W是產品型號

      標120W的充電器實際功率僅22.5W,商家:120W是產品型號

      極目新聞
      2026-04-11 00:53:31
      難以置信啊!一餐吃掉562339.80元,上海一張消費清單刷爆網絡

      難以置信啊!一餐吃掉562339.80元,上海一張消費清單刷爆網絡

      火山詩話
      2026-04-10 06:49:46
      快訊!特普朗宣布最新消息了!

      快訊!特普朗宣布最新消息了!

      達文西看世界
      2026-04-11 09:58:36
      湖人季后賽前搞事情!裁掉場均25分天才后衛 要簽狠角色?

      湖人季后賽前搞事情!裁掉場均25分天才后衛 要簽狠角色?

      仰臥撐FTUer
      2026-04-11 11:02:33
      刺激!深圳有人年初買房已經賺了100萬!

      刺激!深圳有人年初買房已經賺了100萬!

      樓市滅霸
      2026-04-10 13:27:25
      趙勇淚別母親陳麗華!他曾支持母親再婚,不嫌棄生父平凡

      趙勇淚別母親陳麗華!他曾支持母親再婚,不嫌棄生父平凡

      細品名人
      2026-04-11 07:29:02
      2026-04-11 11:55:00
      數字生命卡茲克 incentive-icons
      數字生命卡茲克
      反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
      497文章數 616關注度
      往期回顧 全部

      科技要聞

      阿爾忒彌斯2號成功濺落,隔熱罩驚險過關

      頭條要聞

      "遲重瑞與陳麗華年輕時合影"熱傳 當事女子:張冠李戴

      頭條要聞

      "遲重瑞與陳麗華年輕時合影"熱傳 當事女子:張冠李戴

      體育要聞

      換帥之后,他們從降級區沖到升級區

      娛樂要聞

      浪姐7淘汰 該走的沒走,不該走的走了

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      數碼
      本地
      教育
      藝術
      健康

      數碼要聞

      大疆Pocket 4官宣4月16日發布:1英寸大底+可旋轉屏幕

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      教育要聞

      電氣專業直接就業還是考研?

      藝術要聞

      17位當代青年畫家油畫欣賞

      干細胞抗衰4大誤區,90%的人都中招

      無障礙瀏覽 進入關懷版