![]()
這個2016年由微軟亞洲研究院何愷明團隊提出的技術,在十年后迎來了一次硬核升級。
![]()
但模型越做越大,參數越來越多,問題就來了。
信息在神經網絡里傳遞,跟高速路上堵車沒兩樣,越到后面越混亂。
字節跳動2024年推出的超連接技術,本來想多開幾條“車道”緩解擁堵。
![]()
可車道多了沒規矩,大規模訓練時反而更不穩定。
DeepSeek的mHC技術就聰明多了,給這些車道加了“流形約束”。
這詞聽著挺學術,其實就是用數學方法給信息流動定規矩。
他們用30億、90億和270億參數的模型做了測試。
![]()
結果很驚喜,訓練穩定性提上去了,可擴展性也更好,關鍵是沒多花多少計算成本。
本來想簡單解釋下原理,但后來發現,這技術本質就是給老架構做了次“精裝修”,既保留優勢又補了短板,確實夠巧妙。
mHC技術的誕生,說到底是現實壓力逼出來的。
美國的OpenAI、谷歌這些巨頭,訓練一個模型動輒砸幾億甚至十幾億美元。
![]()
中國AI企業可沒這條件,美國的芯片出口管制卡得很嚴。
商務部2025年9月就發起了反歧視調查,那些限制出口、限制投資的措施,讓高端GPU成了稀缺資源。
無奈之下,中國企業只能另辟蹊徑。DeepSeek之前發布的R1模型,訓練成本才29.4萬美元。
這個數字傳到硅谷,不少工程師都覺得不可思議。
![]()
要知道,美國同行的同類模型成本可是這個數的幾十倍。
如此看來,低成本路線不是選擇題,是必答題。
mHC技術不是小修小補,而是從底層架構上做了系統性優化。
這路子走對了,畢竟不是所有企業都能燒錢拼算力,用技術巧勁降低門檻,才能讓更多人參與到AI創新里來。
![]()
更讓人意外的是,DeepSeek把這核心技術公開發表了。
HuggingFace可是NLP領域的開源重地,上面有海量預訓練模型和數據集,全球開發者都在這交流。
![]()
這在學術界是慣例,意味著他是整個項目的主導者和把關人。
一個公司CEO能親自扎進硬核研發,這在全球AI圈都不多見。
這幾年中國AI企業的心態變了。以前總想著“悶聲發大財”,現在更愿意把成果分享出來。
智譜AI、通義千問都開源了不少模型,截至2025年8月,中國開源模型的累計下載量已經超過美國。
![]()
開源不是吃虧,反而能吸引更多人才,通過社區反饋加速技術迭代。
這次mHC技術一出來,大家都在盼著他們的R2模型。2026年才剛開始,AI圈的競爭就已經火藥味十足。
![]()
中國AI企業靠著底層技術創新,在算力受限的情況下走出了自己的路。
低成本不是妥協,開源也不是讓利,這些都是構建核心競爭力的聰明做法。未來,mHC技術能不能在商業化應用中站穩腳跟,R2模型能不能帶來更多驚喜,都值得期待。
但可以肯定的是,中國AI已經不是只能跟跑的角色。
靠著這種“逆境求生”的創新力和開放共享的格局,在和美國巨頭的比拼中,一定能占據一席之地。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.