大數(shù)據(jù)文摘受權(quán)轉(zhuǎn)載自頭部科技
文丨譚梓馨
開源大模型接下來還能怎么搞?
2026年開年第一炮,DeepSeek團(tuán)隊(duì)提出了一種全新架構(gòu)mHC(流形約束超連接),DeepSeek創(chuàng)始人兼CEO梁文鋒署名發(fā)布。
![]()
簡單說,mHC為AI模型帶來了“智能穩(wěn)定器”,在保持模型寬度的同時(shí),通過“雙隨機(jī)矩陣”的流形約束,解決了超連接(HC)不穩(wěn)定性問題,確保模型訓(xùn)練穩(wěn)健,配合算子融合等優(yōu)化,mHC在MATH、GSM8K等任務(wù)上表現(xiàn)優(yōu)異。
![]()
mHC將有助于加深對拓?fù)浼軜?gòu)設(shè)計(jì)的理解,并為基礎(chǔ)模型的演進(jìn)指明有前景的方向,不少開發(fā)者認(rèn)為,這一趨勢進(jìn)一步強(qiáng)化了人工智能基礎(chǔ)設(shè)施的核心約束從峰值浮點(diǎn)運(yùn)算數(shù)(FLOPs)向內(nèi)存帶寬、互連容量與系統(tǒng)軟件成熟度的平衡轉(zhuǎn)移的大方向。
網(wǎng)友們紛紛期待著DeepSeek下一代開源模型的推出,猜測會不會趕在2026年春節(jié)之際?就像2025年春節(jié)前夕的R1一樣再次席卷整個(gè)AI圈。
硬核“數(shù)學(xué)+工程”雙殺
近年來,以超連接(HC)為代表的研究通過拓寬殘差流寬度與豐富連接模式,對過去十年確立的、應(yīng)用廣泛的殘差連接范式進(jìn)行了拓展。
盡管該方法帶來了顯著的性能提升,但這種連接模式的多樣化從根本上破壞了殘差連接固有的恒等映射特性——這不僅導(dǎo)致嚴(yán)重的訓(xùn)練不穩(wěn)定性與受限的可擴(kuò)展性,還會產(chǎn)生顯著的內(nèi)存訪問開銷。
![]()
為解決上述問題,DeepSeek團(tuán)隊(duì)提出了流形約束超連接(mHC)框架,這是一種針對Transformer類基礎(chǔ)模型的宏架構(gòu)改進(jìn)方案,其核心在于將HC的殘差連接空間投影至特定流形,以恢復(fù)恒等映射特性;同時(shí),框架整合了嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化策略,確保模型運(yùn)行效率。
論文報(bào)告將數(shù)學(xué)理論(“雙隨機(jī)矩陣”、Sinkhorn-Knopp算法)與基礎(chǔ)設(shè)施優(yōu)化工作(如內(nèi)核融合、混合精度內(nèi)核、重計(jì)算策略、流水線通信-計(jì)算重疊)相結(jié)合,成功降低了拓寬殘差流原本會帶來的高昂內(nèi)存與通信開銷。
![]()
![]()
在基于DeepSeek-V3的混合專家(MoE)預(yù)訓(xùn)練場景中(總參數(shù)量270億,激活參數(shù)量41.4 億),報(bào)告顯示mHC技術(shù)實(shí)現(xiàn)了以下效果:
(1)消除了 HC 技術(shù)存在的訓(xùn)練不穩(wěn)定性;(2)相比基線模型,最終訓(xùn)練損失降低 0.021;(3)在8項(xiàng)下游基準(zhǔn)測試中,有7項(xiàng)性能優(yōu)于基線模型且超過HC技術(shù);(4)在計(jì)算量縮放(30億、90億、270億參數(shù)量)與令牌量縮放(30億參數(shù)量模型訓(xùn)練至1.05萬億令牌)過程中,性能優(yōu)勢持續(xù)保持,在擴(kuò)展系數(shù)n=4時(shí),內(nèi)部實(shí)測的額外訓(xùn)練時(shí)間開銷僅為6.7%。
一種模型新范式前瞻
DeepSeek團(tuán)隊(duì)表示,作為HC范式的通用擴(kuò)展,mHC為未來研究開辟了多個(gè)極具潛力的方向。
盡管本研究采用雙隨機(jī)矩陣來保證穩(wěn)定性,但該框架支持探索針對特定學(xué)習(xí)目標(biāo)的多樣化流形約束,研究人員預(yù)計(jì),對不同幾何約束的進(jìn)一步研究,有望催生能夠更好地優(yōu)化可塑性與穩(wěn)定性平衡的全新方法。
![]()
此外,他們希望mHC能夠重新激發(fā)學(xué)術(shù)界對宏架構(gòu)設(shè)計(jì)的關(guān)注,通過深化對“拓?fù)浣Y(jié)構(gòu)如何影響優(yōu)化過程與表征學(xué)習(xí)”的理解,mHC將助力突破當(dāng)前技術(shù)瓶頸,并有可能為下一代基礎(chǔ)模型架構(gòu)的演進(jìn)指明全新方向。
![]()
不少開發(fā)者認(rèn)為,這件事比聽起來更重要。當(dāng)主流大模型仍在沿用舊方法組裝大模型,DeepSeek試圖搭建一套更強(qiáng)、更穩(wěn)、更高效的“新骨架”。
隨著模型架構(gòu)變得越來越深、越來越復(fù)雜(例如,具有數(shù)百條殘差路徑的Transformer、多分支視覺模型、具有跨模塊反饋的代理系統(tǒng)),幾何違例會不斷累積,mHC本質(zhì)上是在說:如果想要保持可擴(kuò)展性,就必須維護(hù)表示的完整性,這也是對“蠻力式”模型搭建設(shè)計(jì)的一種無聲反駁。
期待下一個(gè)“DeepSeek”時(shí)刻
細(xì)心的網(wǎng)友發(fā)現(xiàn),DeepSeek在論文論文中提到“在我們的內(nèi)部大規(guī)模訓(xùn)練實(shí)驗(yàn)進(jìn)一步佐證了這一結(jié)論”,這句“大規(guī)模訓(xùn)練實(shí)驗(yàn)”引發(fā)諸多猜想:其新一代模型可能已經(jīng)成形。
![]()
截至目前,DeepSeek的旗艦?zāi)P驮谕ㄓ镁C合能力與多模態(tài)上并非絕對領(lǐng)先者,僅在部分文本強(qiáng)相關(guān)賽道基準(zhǔn)與開源模型中表現(xiàn)突出,過去的2025年,國內(nèi)開源模型廠商的競逐同樣激烈,想要再次實(shí)現(xiàn)行業(yè)領(lǐng)跑并不容易。
![]()
今年春節(jié)“DeepSeek時(shí)刻”會不會再來一次?一起拭目以待。
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
點(diǎn)「贊」的人都變好看了哦!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.