訓(xùn)練一個(gè)大模型要多久?
小模型幾天,大模型幾周,頂級(jí)模型可能要幾個(gè)月。
現(xiàn)在想象一下:你的團(tuán)隊(duì)花了兩周時(shí)間、燒掉幾百萬(wàn)美元的算力,眼看模型快要訓(xùn)練完成,突然,原本應(yīng)該不斷降低的loss曲線(xiàn)開(kāi)始暴漲,所有數(shù)據(jù)全部作廢,一切從頭再來(lái)。
2025年的最后一天,DeepSeek悄悄發(fā)了一篇論文《mHC: Manifold-Constrained Hyper-Connections》,解決了這個(gè)問(wèn)題。
一個(gè)讓工程師崩潰的bug
這篇論文一發(fā)布,海外AI圈就炸了。
Hugging Face上,mHC論文直接登上了 " Paper of the day",獲得73個(gè)專(zhuān)業(yè)點(diǎn)贊。
X上,AI研究者Alexander Doria的解讀帖引發(fā)了大量轉(zhuǎn)發(fā)。他寫(xiě)道:
"這實(shí)際上是一篇工程論文...論文的核心是'高效訓(xùn)練設(shè)計(jì)',他們用混合精度策略最大化數(shù)值精度,用算子融合減少內(nèi)存帶寬瓶頸...整體非常優(yōu)雅。"
![]()
Hugging Face Paper of the day
這篇論文到底解決了什么問(wèn)題?為什么能引起這么大的關(guān)注?
故事要從去年說(shuō)起。字節(jié)跳動(dòng)提出了一種叫Hyper-Connections(HC)的新技術(shù)。
簡(jiǎn)單說(shuō),傳統(tǒng)的AI模型像一條單行道,信息排隊(duì)通過(guò)。
HC把它拓寬成了4條并行車(chē)道,讓信息可以同時(shí)在多個(gè)"通道"里流動(dòng)和交換。
效果非常驚艷:根據(jù)字節(jié)跳動(dòng)的論文,訓(xùn)練速度最高提升1.8倍,在A(yíng)RC-Challenge基準(zhǔn)上提升了6分。
![]()
Hyper-Connections論文結(jié)果圖(訓(xùn)練loss與ARC-Challenge表現(xiàn))
全世界的AI團(tuán)隊(duì)都想用這個(gè)技術(shù),但很快,大家發(fā)現(xiàn)了一個(gè)致命的問(wèn)題:訓(xùn)練到12000步左右,模型會(huì)突然"發(fā)瘋"。
代表AI錯(cuò)誤率的loss曲線(xiàn),本來(lái)穩(wěn)步下降,突然毫無(wú)征兆地飆升。前面十幾天的訓(xùn)練,全部白費(fèi)。
更可怕的是,這個(gè)問(wèn)題沒(méi)有規(guī)律可循。有時(shí)候能撐過(guò)去,有時(shí)候撐不過(guò)去,工程師們只能碰運(yùn)氣。
3000倍 → 1.6倍
DeepSeek的工程師們研究后發(fā)現(xiàn)了問(wèn)題所在:4條"車(chē)道"之間的信息交換,沒(méi)有任何約束。
就像高速公路上的車(chē)可以隨意變道,而且每次變道車(chē)的數(shù)量還會(huì)隨機(jī)變化。
幾十次變道之后,有的車(chē)道上擠了幾千輛車(chē),有的車(chē)道空無(wú)一車(chē)。系統(tǒng)必然崩潰。
在A(yíng)I模型里,這個(gè)"變化"有多夸張?信號(hào)放大倍數(shù)最高達(dá)到3000倍。
DeepSeek的解決方案非常優(yōu)雅:加一個(gè)數(shù)學(xué)約束,讓每次"變道"后,總車(chē)數(shù)保持不變。
他們用的工具是一個(gè)1967年就有的老算法:Sinkhorn-Knopp。
這個(gè)算法能保證信息在通道之間流動(dòng)時(shí)"守恒",不會(huì)無(wú)限放大,也不會(huì)逐漸消失。
結(jié)果:信號(hào)放大倍數(shù)從3000倍降到1.6倍,訓(xùn)練過(guò)程穩(wěn)定,不再隨機(jī)崩盤(pán)。
額外的計(jì)算開(kāi)銷(xiāo)? 僅6.7%,推理能力還額外提升了2%以上。
用一個(gè)58年前的老算法,解決了2025年最前沿的工程難題。
沒(méi)有什么驚天動(dòng)地的理論突破,都是工程師的智慧:找到問(wèn)題的本質(zhì),用最簡(jiǎn)單的方法解決它。
研究,早已不在象牙塔里
看完這篇論文,相信你馬上就會(huì)明白,為什么AI研究的一線(xiàn)早已不在象牙塔里。
你看這篇論文的內(nèi)容:
大量篇幅在講"Kernel Fusion"(算子融合):怎么把多個(gè)計(jì)算合并成一個(gè),減少內(nèi)存讀寫(xiě)
詳細(xì)描述了"Recomputing"(重計(jì)算策略):寧可重新算一遍,也不占用寶貴的顯存
甚至專(zhuān)門(mén)討論了"DualPipe Schedule"(流水線(xiàn)調(diào)度):怎么讓通信和計(jì)算同時(shí)進(jìn)行,不浪費(fèi)一秒鐘
全是實(shí)打?qū)嵉墓こ虄?yōu)化。
![]()
DeepSeek
DeepSeek這篇論文的核心貢獻(xiàn),就是發(fā)現(xiàn)了"訓(xùn)練會(huì)崩"這個(gè)實(shí)際問(wèn)題,然后用一個(gè)58年前的老算法解決了它。
AI的"發(fā)動(dòng)機(jī)"已經(jīng)基本就緒了。
大模型的核心架構(gòu)、訓(xùn)練方法、推理框架,都已經(jīng)相當(dāng)成熟。
接下來(lái)的競(jìng)爭(zhēng),不只是"誰(shuí)能造出更大的發(fā)動(dòng)機(jī)",更是"誰(shuí)能把發(fā)動(dòng)機(jī)用得更好"。
而這種"用得更好"的優(yōu)化,會(huì)發(fā)生在A(yíng)I應(yīng)用的很多環(huán)節(jié):
怎么更好的使用AI大模型?
哪些場(chǎng)景中能發(fā)揮AI潛力?
怎么用更少的資源做更多的事?
這些問(wèn)題,不需要你是數(shù)學(xué)天才,不需要你發(fā)明新理論。你只需要:發(fā)現(xiàn)真實(shí)的問(wèn)題,找到解決它的方法。
這,就是大多數(shù)人的機(jī)會(huì)。
會(huì)"用"比會(huì)"造"更重要
吳恩達(dá)曾多次表達(dá)過(guò)類(lèi)似觀(guān)點(diǎn),大意是:未來(lái)最值錢(qián)的能力,不是"懂AI原理",是"會(huì)指揮AI干活"。
![]()
吳恩達(dá)(Andrew Ng)
這和很多人對(duì)AI的焦慮形成了鮮明對(duì)比:
有人擔(dān)心:"我不會(huì)寫(xiě)代碼,是不是就被淘汰了?"
有人擔(dān)心:"我數(shù)學(xué)不好,是不是學(xué)不了AI?"
有人擔(dān)心:"我不是名校出身,是不是沒(méi)機(jī)會(huì)?"
但現(xiàn)實(shí)是:真正稀缺的,是"能解決問(wèn)題的人"。
我們之前也為大家介紹過(guò),Gabriel Petersson高中輟學(xué),用ChatGPT自學(xué),現(xiàn)在在OpenAI做研究科學(xué)家。
一個(gè)20歲的中國(guó)大學(xué)生,靠AI編程工具做了個(gè)GitHub熱榜第一的項(xiàng)目,拿到了心儀的實(shí)習(xí)offer。
他們的共同點(diǎn)就是用AI解決了真實(shí)的問(wèn)題。
給下一代的機(jī)會(huì)
我們這代人,還在努力適應(yīng)AI。但下一代,完全可以從小學(xué)會(huì)"和AI協(xié)作"。
就像DeepSeek的工程師們,沒(méi)有從零發(fā)明了新理論,而是把已有的工具組合起來(lái),解決了實(shí)際問(wèn)題。
這種"解決問(wèn)題"的能力,越早培養(yǎng)越好。
【前哨A(yíng)I冬令營(yíng)】專(zhuān)為8-16歲孩子設(shè)計(jì)
7天時(shí)間,讓孩子親手做出可上線(xiàn)的作品:
? 專(zhuān)屬小游戲(卡牌游戲、闖關(guān)冒險(xiǎn)游戲)
? 微信小程序(卡路里識(shí)別、飯店點(diǎn)餐小程序)
教孩子"AI的原理是什么",更教孩子"怎么用AI解決問(wèn)題"。
當(dāng)DeepSeek的工程師用58年前的老算法解決最前沿的難題時(shí),你的孩子也可以學(xué)會(huì):用現(xiàn)有的工具,解決真實(shí)的問(wèn)題。
和AI時(shí)代一起成長(zhǎng)。
? 名額有限,先到先得,掃碼報(bào)名 ↓
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.