<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      梁文鋒署名,DeepSeek 論文引爆 AI 圈:mHC 架構(gòu)橫空出世!網(wǎng)友:這工程難度是地獄級(jí)

      0
      分享至


      作者 | 冬梅

      2026 年開年第一天,DeepSeek 又“整活兒了”!

      DeepSeek發(fā)布了一篇重要學(xué)術(shù)論文,提出了一種名為mHC(Manifold-Constrained Hyper-Connections,流形約束超連接)的新型網(wǎng)絡(luò)架構(gòu)。該研究旨在解決現(xiàn)有超連接(HC)架構(gòu)在大規(guī)模模型訓(xùn)練中存在的數(shù)值不穩(wěn)定和信號(hào)爆炸等瓶頸,同時(shí)保留其性能提升優(yōu)勢(shì),成為新一代基礎(chǔ)模型設(shè)計(jì)的潛在方向。

      論文題為 “mHC: Manifold-Constrained Hyper-Connections”,已于 2025 年底發(fā)布在 arXiv、Huggingface 平臺(tái),并迅速引起業(yè)界關(guān)注。論文由 Zhenda Xie、Yixuan Wei 和 Huanqi Cao 等人擔(dān)任第一作者,DeepSeek 創(chuàng)始人兼 CEO梁文鋒也列于作者名單中。


      論文地址:https://arxiv.org/pdf/2512.24880

      架構(gòu)創(chuàng)新解決了什么問題

      這篇論文中提到,傳統(tǒng) Transformer 網(wǎng)絡(luò)中的殘差連接結(jié)構(gòu)(即 x + F(x))因能維持恒等映射而保證信號(hào)穩(wěn)定傳遞,是深度學(xué)習(xí)模型得以順利訓(xùn)練的核心機(jī)制之一。然而,近年來提出的Hyper-Connections(超連接)雖然拓寬了殘差流通道并增強(qiáng)了表達(dá)能力,但其無約束的連接矩陣破壞了恒等映射特性,在大規(guī)模訓(xùn)練中經(jīng)常導(dǎo)致信號(hào)爆炸或梯度異常,影響訓(xùn)練穩(wěn)定性和可擴(kuò)展性。

      DeepSeek 提出的mHC通過引入一種幾何約束的思路,將傳統(tǒng) HC 的殘差映射空間投影到特定的流形上,將連接矩陣限制在雙隨機(jī)矩陣(Birkhoff 多胞形)流形內(nèi)。這一投影不僅恢復(fù)了恒等映射性質(zhì),還在數(shù)學(xué)上保證了信號(hào)范數(shù)的穩(wěn)定性,有效避免了信號(hào)放大和梯度爆炸等數(shù)值問題。

      核心技術(shù)實(shí)現(xiàn)上,研究團(tuán)隊(duì)采用了Sinkhorn-Knopp 算法進(jìn)行投影約束,并結(jié)合內(nèi)核融合、重計(jì)算和通信重疊等基礎(chǔ)設(shè)施層面的優(yōu)化手段,控制系統(tǒng)開銷,從工程角度確保訓(xùn)練效率不會(huì)顯著下降。

      這款新架構(gòu)“解決了什么問題”?在弄清楚這件事之前,首先是要搞清楚問題從哪里來:為什么傳統(tǒng) Hyper-Connections 會(huì)失控?

      傳統(tǒng) Transformer 殘差連接之所以能夠支撐極深網(wǎng)絡(luò),其關(guān)鍵并不只是“有殘差”,而在于殘差結(jié)構(gòu)中天然存在一個(gè)權(quán)重為 1 的恒等映射通路,這使得無論子模塊在訓(xùn)練早期表現(xiàn)如何,主信號(hào)都可以穩(wěn)定向前傳播,信號(hào)范數(shù)不會(huì)隨著層數(shù)增加而系統(tǒng)性放大或衰減。

      超連接(Hyper-Connections)在此基礎(chǔ)上進(jìn)一步放寬結(jié)構(gòu)假設(shè),將單一殘差流擴(kuò)展為多條并行殘差流,并通過一個(gè)可學(xué)習(xí)的連接矩陣在不同流之間進(jìn)行線性組合,從表達(dá)能力角度看更具潛力,但問題也正是出在這里:當(dāng)連接矩陣完全自由學(xué)習(xí)時(shí),它不再保證包含恒等映射成分,其譜性質(zhì)也無法受到約束,在大規(guī)模訓(xùn)練中極易導(dǎo)致信號(hào)放大、梯度爆炸或數(shù)值不穩(wěn)定,這也是超連接在小模型中有效、但在十億甚至百億參數(shù)規(guī)模上頻繁失效的根本原因。

      mHC 的核心思路并不是否定多流殘差,而是通過引入幾何約束,重新為這種復(fù)雜連接結(jié)構(gòu)建立穩(wěn)定性邊界。DeepSeek 將跨流連接矩陣的可行空間限制在雙隨機(jī)矩陣所構(gòu)成的流形上,即要求矩陣的每一行和每一列元素之和都為 1,且所有元素非負(fù)。


      這一約束對(duì)應(yīng)于數(shù)學(xué)上的 Birkhoff 多胞形,其關(guān)鍵性質(zhì)在于:?jiǎn)挝痪仃嚤旧砭褪请p隨機(jī)矩陣,因此傳統(tǒng)殘差結(jié)構(gòu)仍然是該空間中的一個(gè)特例;同時(shí),雙隨機(jī)矩陣的最大特征值為 1,意味著其不會(huì)系統(tǒng)性放大信號(hào)范數(shù),本質(zhì)上只能在不同殘差流之間重新分配權(quán)重,而不能憑空放大或削弱整體能量。通過這種方式,多流超連接在保留表達(dá)靈活性的同時(shí),重新獲得了與經(jīng)典殘差連接相近的穩(wěn)定性基礎(chǔ)。

      在實(shí)現(xiàn)層面,mHC 并未直接在受約束空間內(nèi)進(jìn)行復(fù)雜優(yōu)化,而是采用了工程上成熟且可微的 Sinkhorn-Knopp 算法,對(duì)無約束的連接矩陣進(jìn)行投影。

      訓(xùn)練過程中,模型首先學(xué)習(xí)一個(gè)普通實(shí)值矩陣,然后在每次前向傳播前,通過有限步 Sinkhorn 歸一化,將其投影為近似雙隨機(jī)矩陣,從而保證連接始終位于安全的流形之內(nèi)。由于 Sinkhorn-Knopp 算法本身計(jì)算結(jié)構(gòu)簡(jiǎn)單、數(shù)值穩(wěn)定,并且可以與主干計(jì)算進(jìn)行融合和重疊,其引入的額外開銷在整體訓(xùn)練中是可控的。

      論文披露的實(shí)驗(yàn)結(jié)果顯示,在 3B、9B 乃至 27B 參數(shù)規(guī)模下,mHC 不僅避免了傳統(tǒng)超連接中常見的訓(xùn)練不收斂問題,還在多個(gè)任務(wù)上維持甚至提升了性能表現(xiàn),表明這種“硬約束式”的幾何投影在大模型場(chǎng)景中具有現(xiàn)實(shí)可行性。

      從更宏觀的角度看,mHC 的意義并不在于提出一種立刻取代 Transformer 的新范式,而在于為復(fù)雜殘差拓?fù)涞倪M(jìn)一步探索提供了一種可擴(kuò)展的理論與工程框架。

      它表明,在大規(guī)模模型訓(xùn)練中,單純依賴正則項(xiàng)或經(jīng)驗(yàn)性初始化往往不足以抵御數(shù)值不穩(wěn)定,而將模型結(jié)構(gòu)顯式限制在具備良好譜性質(zhì)的幾何空間內(nèi),反而能夠系統(tǒng)性地解決穩(wěn)定性問題。這一思路為未來更復(fù)雜的多流、多路徑網(wǎng)絡(luò)設(shè)計(jì)打開了空間,也為如何在“更強(qiáng)表達(dá)能力”與“可控可訓(xùn)性”之間取得平衡,提供了一種具有啟發(fā)意義的解法。

      網(wǎng)友怎么看?

      論文發(fā)布后,在人工智能研究者與產(chǎn)業(yè)從業(yè)者中引發(fā)了廣泛討論。

      多位業(yè)內(nèi)人士在社交平臺(tái)和技術(shù)社區(qū)中對(duì) DeepSeek 提出的 mHC 架構(gòu)進(jìn)行了分析與解讀,討論重點(diǎn)集中在其對(duì)傳統(tǒng) Transformer 殘差連接方式的改動(dòng),以及該方法在大模型擴(kuò)展性和訓(xùn)練成本控制方面的潛在意義。也有觀點(diǎn)指出,DeepSeek 近年來持續(xù)通過公開論文釋放技術(shù)信號(hào),其研究方向往往與后續(xù)模型迭代節(jié)奏密切相關(guān)。

      在領(lǐng)英平臺(tái),有用戶認(rèn)為,這件事說明了一個(gè)趨勢(shì),中國(guó) AI 公司之間越來越愿意把研究成果公開出來,這反映出中國(guó)人工智能公司之間日益開放、協(xié)作的文化。他感慨道:

      中國(guó)人工智能初創(chuàng)公司 DeepSeek 在創(chuàng)始人梁文鋒參與撰寫的一份新論文中迎來了 2026 年。這篇論文建議重新思考用于訓(xùn)練基礎(chǔ)人工智能模型的基本架構(gòu)。這種名為 mHC 的方法,是這家杭州公司推動(dòng)其模型更具成本效益的部分努力。DeepSeek 試圖以此跟上資金更充裕、算力獲取途徑更深的其他競(jìng)爭(zhēng)對(duì)手的步伐。

      這也反映出中國(guó)人工智能公司之間日益開放、協(xié)作的文化,這些公司公開發(fā)表的研究成果所占比例越來越高。對(duì)于行業(yè)觀察人士來說,DeepSeek 的論文往往為其下一個(gè)重要模型發(fā)布所采用的工程選擇,提供了重要的早期信號(hào)。

      在 2026 年 1 月 1 日(周四)發(fā)布的一篇論文中,DeepSeek 的 19 名研究人員組成的團(tuán)隊(duì)表示,他們?cè)趽碛?30 億、90 億和 270 億參數(shù)的模型上測(cè)試了“流形約束超連接”方法,發(fā)現(xiàn)其擴(kuò)展性良好,且沒有增加顯著的計(jì)算負(fù)擔(dān)。


      在 Reddit 平臺(tái),新年第一天就看到這類研究成果發(fā)布,令人印象深刻。


      Reddit 用戶名為 SlowFail2433 的用戶是一位長(zhǎng)期從事深度學(xué)習(xí)研究的評(píng)論者,他指出,在深層神經(jīng)網(wǎng)絡(luò)中,如果缺乏恒等殘差連接,梯度往往會(huì)出現(xiàn)不穩(wěn)定甚至“崩潰”的問題,這一現(xiàn)象不僅存在于大語(yǔ)言模型中,在卷積神經(jīng)網(wǎng)絡(luò),尤其是 ResNet 架構(gòu)中同樣普遍。因此,如果 DeepSeek 提出的“流形約束超連接”方法能夠在保持穩(wěn)定性的同時(shí)實(shí)現(xiàn)良好擴(kuò)展,其意義不容小覷。

      不過他也強(qiáng)調(diào),該論文在數(shù)學(xué)推導(dǎo)和底層實(shí)現(xiàn)上都具有較高復(fù)雜度。他表示:

      為了保證效率,研究團(tuán)隊(duì)在 CUDA 內(nèi)核層面進(jìn)行了算子融合,并對(duì)訓(xùn)練流水線進(jìn)行了專門優(yōu)化,這類工作對(duì)工程能力提出了較高要求。有評(píng)論者直言,僅完全理解論文內(nèi)容就可能需要數(shù)周時(shí)間,不過在進(jìn)一步研讀后發(fā)現(xiàn),其核心主要圍繞投影矩陣與流形約束展開,并非不可實(shí)現(xiàn)。


      聲明:本文為 AI前線整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

      技術(shù)人的年度儀式感! 年度盤點(diǎn)與趨勢(shì)洞察 啟動(dòng)!

      《2025 年度盤點(diǎn)與趨勢(shì)洞察》由 InfoQ 技術(shù)編輯組策劃。覆蓋大模型、Agent、具身智能、AI Native 開發(fā)范式、AI 工具鏈與開發(fā)、AI+ 傳統(tǒng)行業(yè)等方向,通過長(zhǎng)期跟蹤、與業(yè)內(nèi)專家深度訪談等方式,對(duì)重點(diǎn)領(lǐng)域進(jìn)行關(guān)鍵技術(shù)進(jìn)展、核心事件和產(chǎn)業(yè)趨勢(shì)的洞察盤點(diǎn)。

      力求以體系化視角幫助讀者理解年度技術(shù)演化的底層邏輯、創(chuàng)新方向與落地價(jià)值,并為新一年決策提供參考。內(nèi)容將在 InfoQ 媒體矩陣陸續(xù)放出,歡迎大家持續(xù)關(guān)注。

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      最新 | 突發(fā)訃告!知名企業(yè)創(chuàng)始人去世!

      最新 | 突發(fā)訃告!知名企業(yè)創(chuàng)始人去世!

      天津廣播
      2026-01-25 14:57:24
      中國(guó)隊(duì)獲U23亞洲杯亞軍,球員評(píng)分:2人滿分,5人優(yōu)秀,2人不及格

      中國(guó)隊(duì)獲U23亞洲杯亞軍,球員評(píng)分:2人滿分,5人優(yōu)秀,2人不及格

      球場(chǎng)沒跑道
      2026-01-25 01:52:11
      2024年諾貝爾文學(xué)獎(jiǎng)《素食者》:你不吃肉,這世界的人就會(huì)吃掉你

      2024年諾貝爾文學(xué)獎(jiǎng)《素食者》:你不吃肉,這世界的人就會(huì)吃掉你

      千秋文化
      2026-01-25 10:43:19
      向華強(qiáng)兄長(zhǎng)出殯,向太陳嵐爆已立遺囑,曾狠批兩個(gè)兒子難繼承家業(yè)

      向華強(qiáng)兄長(zhǎng)出殯,向太陳嵐爆已立遺囑,曾狠批兩個(gè)兒子難繼承家業(yè)

      一盅情懷
      2026-01-25 19:00:08
      伊朗國(guó)防部:伊朗的導(dǎo)彈防御能力得到加強(qiáng)

      伊朗國(guó)防部:伊朗的導(dǎo)彈防御能力得到加強(qiáng)

      財(cái)聯(lián)社
      2026-01-24 21:33:37
      18歲身價(jià)5000萬(wàn),卻險(xiǎn)些毀掉自己生涯,如今浪子回頭閃耀法甲賽場(chǎng)

      18歲身價(jià)5000萬(wàn),卻險(xiǎn)些毀掉自己生涯,如今浪子回頭閃耀法甲賽場(chǎng)

      籃球圈里的那些事
      2026-01-25 17:49:00
      2000億江蘇國(guó)企換帥,人均薪酬約64萬(wàn)元

      2000億江蘇國(guó)企換帥,人均薪酬約64萬(wàn)元

      野火商經(jīng)
      2026-01-25 17:09:09
      原來有這么多工作需要保密!網(wǎng)友:犧牲12年的爸爸竟然回來了!

      原來有這么多工作需要保密!網(wǎng)友:犧牲12年的爸爸竟然回來了!

      另子維愛讀史
      2026-01-16 18:29:22
      領(lǐng)導(dǎo)為什么通過一次談話就知道你幾斤幾兩?

      領(lǐng)導(dǎo)為什么通過一次談話就知道你幾斤幾兩?

      夜深愛雜談
      2026-01-24 21:42:12
      特朗普自戀再升級(jí),海湖莊園門前新路改名“特朗普大道”!

      特朗普自戀再升級(jí),海湖莊園門前新路改名“特朗普大道”!

      世界探索者探索
      2026-01-25 18:43:53
      2-0爆大冷!中國(guó)金花爆發(fā)橫掃世界第13,莎娃曾斷言她必成世界第1

      2-0爆大冷!中國(guó)金花爆發(fā)橫掃世界第13,莎娃曾斷言她必成世界第1

      安海客
      2026-01-25 11:38:30
      年終獎(jiǎng)八千同事七萬(wàn),老板找我續(xù)約,我淡定遞上離職信他慌了

      年終獎(jiǎng)八千同事七萬(wàn),老板找我續(xù)約,我淡定遞上離職信他慌了

      曉艾故事匯
      2026-01-06 09:08:51
      美國(guó)22個(gè)州進(jìn)入緊急狀態(tài) 超13000架次航班被取消

      美國(guó)22個(gè)州進(jìn)入緊急狀態(tài) 超13000架次航班被取消

      每日經(jīng)濟(jì)新聞
      2026-01-25 11:42:36
      不滿現(xiàn)有成績(jī),太陽(yáng)報(bào):200名本菲卡球迷闖入基地與穆帥對(duì)峙

      不滿現(xiàn)有成績(jī),太陽(yáng)報(bào):200名本菲卡球迷闖入基地與穆帥對(duì)峙

      懂球帝
      2026-01-25 10:30:22
      臺(tái)退將:大陸已經(jīng)在做解放臺(tái)灣的思想動(dòng)員,最后時(shí)刻即將到來

      臺(tái)退將:大陸已經(jīng)在做解放臺(tái)灣的思想動(dòng)員,最后時(shí)刻即將到來

      始于初見見
      2026-01-25 18:19:27
      農(nóng)民把10頭豬趕到無人島,12年后再次登島,眼前畫面讓他不敢信

      農(nóng)民把10頭豬趕到無人島,12年后再次登島,眼前畫面讓他不敢信

      白云故事
      2026-01-22 17:30:05
      美軍艦護(hù)航對(duì)臺(tái)軍售船闖臺(tái)海,百架F35撐腰,中方亮殺招硬剛到底

      美軍艦護(hù)航對(duì)臺(tái)軍售船闖臺(tái)海,百架F35撐腰,中方亮殺招硬剛到底

      達(dá)文西看世界
      2026-01-22 09:28:01
      湖人即將挑戰(zhàn)東部苦主,后者豪取四連勝,一數(shù)據(jù)成決定勝負(fù)關(guān)鍵

      湖人即將挑戰(zhàn)東部苦主,后者豪取四連勝,一數(shù)據(jù)成決定勝負(fù)關(guān)鍵

      謝說籃球
      2026-01-25 18:12:37
      曾是全美第一小前,活塞的建隊(duì)核心,才26歲的他,3年已流浪4隊(duì)!

      曾是全美第一小前,活塞的建隊(duì)核心,才26歲的他,3年已流浪4隊(duì)!

      籃球圈里的那些事
      2026-01-25 17:30:25
      重磅!廣東隊(duì)被曝欲簽下山西主力內(nèi)線,朱芳雨又要出手了?

      重磅!廣東隊(duì)被曝欲簽下山西主力內(nèi)線,朱芳雨又要出手了?

      緋雨兒
      2026-01-25 11:45:25
      2026-01-25 19:35:00
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
      1266文章數(shù) 112關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛在上海逛菜市場(chǎng),可能惦記著三件事

      頭條要聞

      游客自稱爬衡山時(shí)掛脖子上80克金牌遺失 價(jià)值超10萬(wàn)元

      頭條要聞

      游客自稱爬衡山時(shí)掛脖子上80克金牌遺失 價(jià)值超10萬(wàn)元

      體育要聞

      中國(guó)足球不會(huì)一夜變強(qiáng),但他們已經(jīng)創(chuàng)造歷史

      娛樂要聞

      王玉雯方嚴(yán)正聲明 劇方回應(yīng):涉事人員已被開除

      財(cái)經(jīng)要聞

      隋廣義等80人被公訴 千億騙局進(jìn)入末路

      汽車要聞

      別克至境E7內(nèi)飾圖曝光 新車將于一季度正式發(fā)布

      態(tài)度原創(chuàng)

      教育
      藝術(shù)
      房產(chǎn)
      手機(jī)
      軍事航空

      教育要聞

      看似復(fù)雜,尖子生一個(gè)技巧口算

      藝術(shù)要聞

      當(dāng)代唯一能稱為“大師”的人,他的字普通人看不懂,啟功跟他比,就像小學(xué)生!

      房產(chǎn)要聞

      正式官宣!三亞又一所名校要來了!

      手機(jī)要聞

      榮耀泡泡瑪特聯(lián)名手機(jī)今日開售:首銷即引爆,線下再現(xiàn)排隊(duì)熱潮

      軍事要聞

      俄美烏三方首輪會(huì)談細(xì)節(jié)披露

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲国产日韩欧美一区二区三区| 国产一区二区三区黄色片 | 大余县| 熟妇的奶头又大又长奶水视频| 99无码中文字幕视频| 亚洲v天堂| 亚洲AV日韩AV永久无码久久| 成人日韩亚洲| 202丰满熟女妇大| 亚洲国产成人无码网站大全| 在线看免费无码的av天堂| 艳妇荡女欲乱双飞两中年熟妇| 欧美日产国产精品日产| 色综合久| 欧美人与拘牲交大全视频 | 大陆熟妇丰满多毛xxxⅹ | 亚洲精品中文字幕制| 久久综合噜噜激激的五月天| 国产男女无遮挡猛进猛出 | 99国产欧美久久久精品蜜芽| 亚洲激情一区二区三区在线| 国产98色在线 | 日韩| 欧美一线天| 色欲久久久天天天综合网| 色狠狠色噜噜av天堂一区| 国产精品???A片在线观看| 日本黄页网站免费观看| 超碰人人操| 亚洲日韩国产精品第一页一区| 国产熟妇??码视频| 亚洲av片在线免费观看| 91久久国产成人免费观看| 国产肉丝袜在线观看| 收藏| 无码卡一卡二| 新巴尔虎右旗| 综合色一色综合久久网| 一本之道AV无码专区| 亚洲欧美日韩久久精品| 午夜精品区| 中文字幕亚洲综合第一页|