<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      下一代模型呼之欲出?!DeepSeek的新年禮物mHC是個(gè)啥?

      0
      分享至

      大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技

      文丨譚梓馨

      開源大模型接下來還能怎么搞?

      2026年開年第一炮,DeepSeek團(tuán)隊(duì)提出了一種全新架構(gòu)mHC(流形約束超連接),DeepSeek創(chuàng)始人兼CEO梁文鋒署名發(fā)布。


      簡單說,mHC為AI模型帶來了“智能穩(wěn)定器”,在保持模型寬度的同時(shí),通過“雙隨機(jī)矩陣”的流形約束,解決了超連接(HC)不穩(wěn)定性問題,確保模型訓(xùn)練穩(wěn)健,配合算子融合等優(yōu)化,mHC在MATH、GSM8K等任務(wù)上表現(xiàn)優(yōu)異。


      mHC將有助于加深對拓?fù)浼軜?gòu)設(shè)計(jì)的理解,并為基礎(chǔ)模型的演進(jìn)指明有前景的方向,不少開發(fā)者認(rèn)為,這一趨勢進(jìn)一步強(qiáng)化了人工智能基礎(chǔ)設(shè)施的核心約束從峰值浮點(diǎn)運(yùn)算數(shù)(FLOPs)內(nèi)存帶寬、互連容量與系統(tǒng)軟件成熟度的平衡轉(zhuǎn)移的大方向。

      網(wǎng)友們紛紛期待著DeepSeek下一代開源模型的推出,猜測會不會趕在2026年春節(jié)之際?就像2025年春節(jié)前夕的R1一樣再次席卷整個(gè)AI圈。

      硬核“數(shù)學(xué)+工程”雙殺

      近年來,以超連接(HC)為代表的研究通過拓寬殘差流寬度與豐富連接模式,對過去十年確立的、應(yīng)用廣泛的殘差連接范式進(jìn)行了拓展。

      盡管該方法帶來了顯著的性能提升,但這種連接模式的多樣化從根本上破壞了殘差連接固有的恒等映射特性——這不僅導(dǎo)致嚴(yán)重的訓(xùn)練不穩(wěn)定性與受限的可擴(kuò)展性,還會產(chǎn)生顯著的內(nèi)存訪問開銷。


      為解決上述問題,DeepSeek團(tuán)隊(duì)提出了流形約束超連接(mHC)框架,這是一種針對Transformer類基礎(chǔ)模型的宏架構(gòu)改進(jìn)方案,其核心在于將HC的殘差連接空間投影至特定流形,以恢復(fù)恒等映射特性;同時(shí),框架整合了嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化策略,確保模型運(yùn)行效率。

      論文報(bào)告將數(shù)學(xué)理論(“雙隨機(jī)矩陣”、Sinkhorn-Knopp算法)與基礎(chǔ)設(shè)施優(yōu)化工作(如內(nèi)核融合、混合精度內(nèi)核、重計(jì)算策略、流水線通信-計(jì)算重疊)相結(jié)合,成功降低了拓寬殘差流原本會帶來的高昂內(nèi)存與通信開銷。



      在基于DeepSeek-V3的混合專家(MoE)預(yù)訓(xùn)練場景中(總參數(shù)量270億,激活參數(shù)量41.4 億),報(bào)告顯示mHC技術(shù)實(shí)現(xiàn)了以下效果:

      (1)消除了 HC 技術(shù)存在的訓(xùn)練不穩(wěn)定性;(2)相比基線模型,最終訓(xùn)練損失降低 0.021;(3)在8項(xiàng)下游基準(zhǔn)測試中,有7項(xiàng)性能優(yōu)于基線模型且超過HC技術(shù);(4)在計(jì)算量縮放(30億、90億、270億參數(shù)量)與令牌量縮放(30億參數(shù)量模型訓(xùn)練至1.05萬億令牌)過程中,性能優(yōu)勢持續(xù)保持,在擴(kuò)展系數(shù)n=4時(shí),內(nèi)部實(shí)測的額外訓(xùn)練時(shí)間開銷僅為6.7%。

      一種模型新范式前瞻

      DeepSeek團(tuán)隊(duì)表示,作為HC范式的通用擴(kuò)展,mHC為未來研究開辟了多個(gè)極具潛力的方向。

      盡管本研究采用雙隨機(jī)矩陣來保證穩(wěn)定性,但該框架支持探索針對特定學(xué)習(xí)目標(biāo)的多樣化流形約束,研究人員預(yù)計(jì),對不同幾何約束的進(jìn)一步研究,有望催生能夠更好地優(yōu)化可塑性與穩(wěn)定性平衡的全新方法。


      此外,他們希望mHC能夠重新激發(fā)學(xué)術(shù)界對宏架構(gòu)設(shè)計(jì)的關(guān)注,通過深化對“拓?fù)浣Y(jié)構(gòu)如何影響優(yōu)化過程與表征學(xué)習(xí)”的理解,mHC將助力突破當(dāng)前技術(shù)瓶頸,并有可能為下一代基礎(chǔ)模型架構(gòu)的演進(jìn)指明全新方向。


      不少開發(fā)者認(rèn)為,這件事比聽起來更重要。當(dāng)主流大模型仍在沿用舊方法組裝大模型,DeepSeek試圖搭建一套更強(qiáng)、更穩(wěn)、更高效的“新骨架”。

      隨著模型架構(gòu)變得越來越深、越來越復(fù)雜(例如,具有數(shù)百條殘差路徑的Transformer、多分支視覺模型、具有跨模塊反饋的代理系統(tǒng)),幾何違例會不斷累積,mHC本質(zhì)上是在說:如果想要保持可擴(kuò)展性,就必須維護(hù)表示的完整性,這也是對“蠻力式”模型搭建設(shè)計(jì)的一種無聲反駁。

      期待下一個(gè)“DeepSeek”時(shí)刻

      細(xì)心的網(wǎng)友發(fā)現(xiàn),DeepSeek在論文論文中提到“在我們的內(nèi)部大規(guī)模訓(xùn)練實(shí)驗(yàn)進(jìn)一步佐證了這一結(jié)論”,這句“大規(guī)模訓(xùn)練實(shí)驗(yàn)”引發(fā)諸多猜想:其新一代模型可能已經(jīng)成形。


      截至目前,DeepSeek的旗艦?zāi)P驮谕ㄓ镁C合能力與多模態(tài)上并非絕對領(lǐng)先者,僅在部分文本強(qiáng)相關(guān)賽道基準(zhǔn)與開源模型中表現(xiàn)突出,過去的2025年,國內(nèi)開源模型廠商的競逐同樣激烈,想要再次實(shí)現(xiàn)行業(yè)領(lǐng)跑并不容易。


      今年春節(jié)“DeepSeek時(shí)刻”會不會再來一次?一起拭目以待。

      GPU 訓(xùn)練特惠!

      H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!

      掃碼了解詳情?

      點(diǎn)「贊」的人都變好看了哦!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      盧浮宮十年驚天騙局曝光!中國導(dǎo)游團(tuán)伙內(nèi)外勾結(jié),損失超千萬歐元

      盧浮宮十年驚天騙局曝光!中國導(dǎo)游團(tuán)伙內(nèi)外勾結(jié),損失超千萬歐元

      老馬拉車莫少裝
      2026-02-19 05:14:29
      27歲荷蘭女王破紀(jì)錄,拉鏈一拉全網(wǎng)爆,代言或超百萬美元?

      27歲荷蘭女王破紀(jì)錄,拉鏈一拉全網(wǎng)爆,代言或超百萬美元?

      老吳教育課堂
      2026-02-19 04:14:51
      前線嘴炮互不相讓,后方能源接連被炸,這場消耗戰(zhàn)早已沒有底線

      前線嘴炮互不相讓,后方能源接連被炸,這場消耗戰(zhàn)早已沒有底線

      軍聞新大門
      2026-02-19 16:47:15
      小球時(shí)代的王,盤點(diǎn)錯(cuò)過庫里的3支球隊(duì),尼克斯可惜,1隊(duì)錯(cuò)過2次

      小球時(shí)代的王,盤點(diǎn)錯(cuò)過庫里的3支球隊(duì),尼克斯可惜,1隊(duì)錯(cuò)過2次

      摸神drose
      2026-02-19 16:42:44
      大衣哥女兒回娘家,朱雪梅超200斤體重頂雞窩頭,帶10箱牛奶火腿

      大衣哥女兒回娘家,朱雪梅超200斤體重頂雞窩頭,帶10箱牛奶火腿

      瘋說時(shí)尚
      2026-02-19 09:32:15
      皇俄大佬直言:俄已無力全面升級,再打要?jiǎng)?0萬動員與民眾存款

      皇俄大佬直言:俄已無力全面升級,再打要?jiǎng)?0萬動員與民眾存款

      老馬拉車莫少裝
      2026-02-17 11:40:19
      三花智控,悶聲發(fā)財(cái)!

      三花智控,悶聲發(fā)財(cái)!

      投研邦V
      2026-02-17 20:13:49
      馬謖為何丟了街亭,輕視“當(dāng)?shù)涝鸂I”,千年后塔山防守戰(zhàn)給出答案

      馬謖為何丟了街亭,輕視“當(dāng)?shù)涝鸂I”,千年后塔山防守戰(zhàn)給出答案

      芊芊子吟
      2026-02-19 10:40:05
      越活越舒服的10個(gè)小習(xí)慣,請從今天開始養(yǎng)成!

      越活越舒服的10個(gè)小習(xí)慣,請從今天開始養(yǎng)成!

      明智家庭教育
      2026-02-14 11:07:51
      俄方向美方發(fā)出照會,未得到答復(fù)

      俄方向美方發(fā)出照會,未得到答復(fù)

      上觀新聞
      2026-02-19 17:59:07
      一級軍士長王忠心簡歷,他享受什么待遇?退休后婉拒百萬年薪

      一級軍士長王忠心簡歷,他享受什么待遇?退休后婉拒百萬年薪

      混沌錄
      2026-01-27 22:33:05
      美國男籃世界杯預(yù)選賽12人大名單:懷斯曼、布蘭登·奈特在列

      美國男籃世界杯預(yù)選賽12人大名單:懷斯曼、布蘭登·奈特在列

      林子說事
      2026-02-19 14:29:08
      乾隆對準(zhǔn)噶爾的“滅族行動”,究竟給當(dāng)時(shí)世界帶來多大沖擊波

      乾隆對準(zhǔn)噶爾的“滅族行動”,究竟給當(dāng)時(shí)世界帶來多大沖擊波

      會跳的加菲貓
      2026-02-07 13:35:17
      術(shù)后五年一切良好,醫(yī)生看著腫瘤標(biāo)志物報(bào)告:馬上回來住院!

      術(shù)后五年一切良好,醫(yī)生看著腫瘤標(biāo)志物報(bào)告:馬上回來住院!

      荷蘭豆愛健康
      2026-02-19 14:46:19
      2026年春晚語言類節(jié)目評分出爐,只有一個(gè)作品超過及格線

      2026年春晚語言類節(jié)目評分出爐,只有一個(gè)作品超過及格線

      那些故事有點(diǎn)遠(yuǎn)
      2026-02-17 10:00:14
      山東一男子10歲時(shí)父親離世被親戚收留,長大后在除夕悄悄放禮品在親戚家門口“一事無成,沒臉見他們”

      山東一男子10歲時(shí)父親離世被親戚收留,長大后在除夕悄悄放禮品在親戚家門口“一事無成,沒臉見他們”

      大象新聞
      2026-02-19 11:48:13
      徐志勝回山東老家秒變社恐,家宴被圍觀啃饅頭挺尷尬,才開13萬車

      徐志勝回山東老家秒變社恐,家宴被圍觀啃饅頭挺尷尬,才開13萬車

      瘋說時(shí)尚
      2026-02-19 14:15:02
      寧波一男子除夕夜報(bào)警,稱開車時(shí)不小心撞到花壇和指示牌,結(jié)果因涉嫌危險(xiǎn)駕駛罪被拘!

      寧波一男子除夕夜報(bào)警,稱開車時(shí)不小心撞到花壇和指示牌,結(jié)果因涉嫌危險(xiǎn)駕駛罪被拘!

      環(huán)球網(wǎng)資訊
      2026-02-19 15:09:15
      放心吧,我們不是日本,也不會有“失去的三十年”

      放心吧,我們不是日本,也不會有“失去的三十年”

      六爺阿旦
      2026-01-19 17:10:26
      親戚很有錢是啥體驗(yàn)?網(wǎng)友:果然窮人只想沾光,這就是人性!

      親戚很有錢是啥體驗(yàn)?網(wǎng)友:果然窮人只想沾光,這就是人性!

      帶你感受人間冷暖
      2025-11-26 00:15:03
      2026-02-19 18:36:49
      大數(shù)據(jù)文摘 incentive-icons
      大數(shù)據(jù)文摘
      專注大數(shù)據(jù),每日有分享!
      6825文章數(shù) 94529關(guān)注度
      往期回顧 全部

      科技要聞

      怒燒45億,騰訊字節(jié)阿里決戰(zhàn)春節(jié)

      頭條要聞

      2名初中生扶摔倒女子被交警定次責(zé) 摔倒女子索賠22萬

      頭條要聞

      2名初中生扶摔倒女子被交警定次責(zé) 摔倒女子索賠22萬

      體育要聞

      首金!蘇翊鳴唱國歌落淚 自信比1吶喊

      娛樂要聞

      明星過年百態(tài)!黃曉明等現(xiàn)身三亞

      財(cái)經(jīng)要聞

      面條火腿香菇醬!上市公司這些年請你吃

      汽車要聞

      量產(chǎn)甲醇插混 吉利銀河星耀6甲醇插混版申報(bào)圖

      態(tài)度原創(chuàng)

      親子
      藝術(shù)
      游戲
      公開課
      軍事航空

      親子要聞

      過年期間這幾樣?xùn)|西,一口都不要給孩子吃!

      藝術(shù)要聞

      震驚!安徒生竟是畫家,他的田園生活太美了!

      PS5到PS6的躍升 比PS4到PS5還大!升級幅度引熱議

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      金正恩出席火箭炮贈送儀式 強(qiáng)調(diào)確保朝鮮安全環(huán)境

      無障礙瀏覽 進(jìn)入關(guān)懷版