<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek與字節(jié)跳動踏進同一條河

      0
      分享至

      本文系基于公開資料撰寫,僅作為信息交流之用,不構(gòu)成任何投資建議


      新年前夕,DeepSeek發(fā)表了一篇聚焦神經(jīng)網(wǎng)絡(luò)架構(gòu)創(chuàng)新的核心論文,梁文鋒以通訊作者身份署名。論文提出了流形約束超連接(manifold-constrained HyperConnection, mHC)架構(gòu),直指大規(guī)模模型訓(xùn)練中的穩(wěn)定性難題。

      這一工作為硬件受限的中國 AI 企業(yè)開辟了一條兼顧性能與效率的路徑,也與字節(jié)跳動早前在殘差流優(yōu)化上的探索形成關(guān)鍵呼應(yīng),二者均瞄準(zhǔn)殘差連接這一模型基礎(chǔ)架構(gòu)進行改造。

      DeepSeek的研究,恰恰是對字節(jié)跳動“超連接”技術(shù)短板的系統(tǒng)性補位。這一成果不僅為大模型底層架構(gòu)的工業(yè)化落地提供了新方案,再度印證了硬件約束可轉(zhuǎn)化為創(chuàng)新動力的產(chǎn)業(yè)演進邏輯。

      自2016年ResNet 提出以來,殘差連接已成為深度學(xué)習(xí)的骨架式設(shè)計。其通過“捷徑連接”繞過層層非線性變換,從根本上緩解了梯度消失或爆炸的難題,支撐起越來越深的模型結(jié)構(gòu)。

      長期以來,業(yè)界創(chuàng)新多集中于注意力機制、MoE(混合專家)等模塊,殘差流本身處于一種“靜默的穩(wěn)定”中,直至2024 年字節(jié)跳動以超連接(HyperConnection)技術(shù)打破這一局面。

      字節(jié)跳動的超連接通過拓寬殘差流寬度、構(gòu)建多路并行信號流,并讓模型學(xué)習(xí)流間的交互模式,顯著提升了模型表達能力。然而,該技術(shù)在規(guī)?;?xùn)練中暴露出致命短板:信號發(fā)散。

      DeepSeek的測試顯示,在270億參數(shù)模型的訓(xùn)練中,約12000步后梯度范數(shù)劇烈波動,訓(xùn)練崩潰;更嚴(yán)重的是,信號強度在第60層膨脹至輸入值的3000倍。問題的核心在于,超連接為追求表達力,放棄了殘差連接原有的恒等映射約束——小規(guī)模下尚可調(diào)參掩蓋,但在大規(guī)模訓(xùn)練中,這一缺陷被急劇放大。

      mHC的核心創(chuàng)新,是將可學(xué)習(xí)的變換矩陣約束在雙重隨機矩陣(doubly stochastic matrix)構(gòu)成的流形上。這相當(dāng)于為信號傳播設(shè)立“剛性預(yù)算”:矩陣每行、每列元素之和均為1且非負(fù),確保輸出信號強度嚴(yán)格介于輸入信號的最大最小值之間,從而杜絕信號爆炸。

      更關(guān)鍵的是,雙重隨機矩陣具有組合不變性——多層疊加后仍保持穩(wěn)定。實驗表明,在超連接出現(xiàn)3000倍信號放大的同一場景中,mHC的信號放大峰值僅為1..6倍。為控制計算開銷,DeepSeek 采用Sinkhorn-Knopp 迭代進行投影,僅需20輪迭代即可收斂,額外訓(xùn)練成本被壓制在6.7%。

      硬件約束倒逼的不只是算法創(chuàng)新,更是全鏈路的系統(tǒng)級優(yōu)化。超連接拓寬殘差流后,每層數(shù)據(jù)讀寫量倍增,在A800/A100的有限互聯(lián)帶寬下,芯片極易陷入“等待數(shù)據(jù)遠(yuǎn)多于計算”的效率陷阱。DeepSeek通過三項關(guān)鍵技術(shù)破局:

      1.算子融合:將內(nèi)存訪問模式相近的操作合并為單一GPU內(nèi)核,減少數(shù)據(jù)搬運;

      2.反向傳播重計算:不存儲中間激活值,改為實時重算,以計算換內(nèi)存;

      3.流水線并行優(yōu)化:重疊跨GPU通信與本地計算,用計算掩蓋通信延遲。

      這些優(yōu)化將原本隨層數(shù)線性增長的內(nèi)存開銷,轉(zhuǎn)化為可由模塊大小控制的有界開銷。配合基于 TileLang 編寫的混合精度內(nèi)核(bfloat16 為主,float32 保關(guān)鍵精度),實現(xiàn)了全參數(shù)規(guī)模下的穩(wěn)定性能提升。測試中,30億至270 億參數(shù)模型搭載mHC后均表現(xiàn)優(yōu)異,270億模型在BIG-Bench Hard復(fù)雜推理任務(wù)上提升 2..1%,在 DROP閱讀理解任務(wù)上提升2.3%。

      此前,V3架構(gòu)論文對應(yīng)V3模型,R1推理論文對應(yīng)R1模型;本次mHC論文在 2026 年春節(jié)前三周發(fā)布,外界普遍預(yù)期下一代旗艦?zāi)P停≧2)即將亮相。

      這種“論文先行”的策略,既通過同行評議建立技術(shù)公信力,又在復(fù)雜地緣環(huán)境中為原創(chuàng)性留下時間戳,更向全球傳遞一個明確信息:中國 AI 企業(yè)的核心競爭力,并非依賴尖端算力芯片。

      DeepSeek選擇通過arXiv、Hugging Face等開放平臺而非傳統(tǒng)期刊發(fā)布成果,雖犧牲部分學(xué)術(shù)聲望,卻換來了技術(shù)傳播的速度與可達性。這種開放模式加速了知識擴散,也對同行構(gòu)成直接競爭壓力:當(dāng) mHC 的性能增益可量化、實現(xiàn)可復(fù)現(xiàn)時,西方實驗室要么跟進類似技術(shù),要么必須論證自身路徑的優(yōu)越性。

      此前R1 型已觸發(fā)推理模型研發(fā)熱潮,mHC架構(gòu)很可能推動殘差流優(yōu)化進入新一輪迭代。更重要的是,這一模式向技術(shù)管制者傳遞了清晰信號:硬件限制并未扼殺創(chuàng)新,反而迫使中國 AI 企業(yè)走向“從數(shù)學(xué)根源解決問題”的最本質(zhì)路徑。

      字節(jié)跳動與 DeepSeek,先后踏入同一條“突破傳統(tǒng)殘差流”的創(chuàng)新之河。前者率先探路,卻止步于規(guī)?;款i;后者在硬件約束的倒逼下,憑借數(shù)學(xué)約束與系統(tǒng)級優(yōu)化,架起了一座可通航的技術(shù)之橋。

      距離2026年春節(jié)僅剩六周,R2模型的發(fā)布將檢驗mHC架構(gòu)的工業(yè)化成色。無論最終基準(zhǔn)測試結(jié)果如何,這條“在約束中創(chuàng)新”的路徑已具備里程碑意義——它清晰證明,AI 競賽不只有“燒錢堆算力”這一條賽道。硬件限制從不是創(chuàng)新的絆腳石,而是催生真正核心突破的催化劑。

      轉(zhuǎn)載開白 | 商務(wù)合作 | 內(nèi)容交流
      請?zhí)砑游⑿牛簀induan008
      添加微信請備注姓名公司與來意

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      比爾·蓋茨被曝感染性病并隱瞞,前妻首次回應(yīng):勾起了我在婚姻生活中痛苦的回憶

      比爾·蓋茨被曝感染性病并隱瞞,前妻首次回應(yīng):勾起了我在婚姻生活中痛苦的回憶

      都市快報橙柿互動
      2026-02-04 12:27:59
      新京報立了大功!臥底襄陽,把那個爛透的精神病院黑幕全給掀開了

      新京報立了大功!臥底襄陽,把那個爛透的精神病院黑幕全給掀開了

      火山詩話
      2026-02-03 15:40:31
      滿屏都是劉虎,多少人在等答案?

      滿屏都是劉虎,多少人在等答案?

      走讀新生
      2026-02-03 23:30:07
      40勝聯(lián)盟首隊!雷霆36分狂勝魔術(shù) 亞歷山大連121場20+哈騰三雙

      40勝聯(lián)盟首隊!雷霆36分狂勝魔術(shù) 亞歷山大連121場20+哈騰三雙

      醉臥浮生
      2026-02-04 11:29:16
      具俊曄公開大S死因!去機場路上心臟驟停,醫(yī)生稱大S猝死與懷孕有關(guān)

      具俊曄公開大S死因!去機場路上心臟驟停,醫(yī)生稱大S猝死與懷孕有關(guān)

      不八卦掌門人
      2026-02-04 10:40:09
      周生生就“足金掛墜檢出鐵銀鈀”事件發(fā)布檢測報告:該批次貨品質(zhì)量完全符合國家相關(guān)標(biāo)準(zhǔn)

      周生生就“足金掛墜檢出鐵銀鈀”事件發(fā)布檢測報告:該批次貨品質(zhì)量完全符合國家相關(guān)標(biāo)準(zhǔn)

      閃電新聞
      2026-02-04 09:23:59
      愛潑斯坦死亡疑云再添關(guān)鍵爆料人,其身份被證實為獄警,曾發(fā)帖暗指愛潑斯坦并非自殺而是被 “調(diào)包”,此后其再未就該事件公開發(fā)聲

      愛潑斯坦死亡疑云再添關(guān)鍵爆料人,其身份被證實為獄警,曾發(fā)帖暗指愛潑斯坦并非自殺而是被 “調(diào)包”,此后其再未就該事件公開發(fā)聲

      揚子晚報
      2026-02-03 22:32:13
      今年29省區(qū)市將全面開展二輪土地延包試點

      今年29省區(qū)市將全面開展二輪土地延包試點

      極目新聞
      2026-02-04 12:05:59
      男孩縱火燒死薩摩耶后續(xù)!男孩父母被扒身份不一般,狗主人遭網(wǎng)暴

      男孩縱火燒死薩摩耶后續(xù)!男孩父母被扒身份不一般,狗主人遭網(wǎng)暴

      派大星紀(jì)錄片
      2026-02-04 10:11:03
      NBA官方:萊昂納德增補入選2026年全明星賽 填補美國隊人數(shù)缺口

      NBA官方:萊昂納德增補入選2026年全明星賽 填補美國隊人數(shù)缺口

      羅說NBA
      2026-02-04 07:40:12
      金刻羽教授的粉紅色世界,該破裂了

      金刻羽教授的粉紅色世界,該破裂了

      黔有虎
      2026-02-02 11:04:54
      美媒:特朗普政府同意與伊朗在阿曼舉行談判

      美媒:特朗普政府同意與伊朗在阿曼舉行談判

      新華社
      2026-02-04 10:18:04
      醫(yī)院直播婦科手術(shù),竟暴露女患者隱私部位,5萬人在線觀看!當(dāng)?shù)匦l(wèi)健委已介入

      醫(yī)院直播婦科手術(shù),竟暴露女患者隱私部位,5萬人在線觀看!當(dāng)?shù)匦l(wèi)健委已介入

      醫(yī)脈圈
      2026-02-03 20:56:15
      高價器材植入體內(nèi)后“消失”,鄭大一附院醫(yī)生詐騙94名患者獲刑

      高價器材植入體內(nèi)后“消失”,鄭大一附院醫(yī)生詐騙94名患者獲刑

      重案組37號
      2026-02-04 09:07:07
      伊朗無人機沖向美航母,遭美軍開火擊落,送給特朗普動武借口

      伊朗無人機沖向美航母,遭美軍開火擊落,送給特朗普動武借口

      第一軍情
      2026-02-04 08:36:11
      卡扎菲次子賽義夫喪生

      卡扎菲次子賽義夫喪生

      國際在線
      2026-02-04 05:05:01
      內(nèi)娛終于出了個狠角色。

      內(nèi)娛終于出了個狠角色。

      果媽聊軍事
      2026-02-04 08:34:26
      央視馬年春晚第三次大聯(lián)排,劉濤蘇有朋周傳雄等現(xiàn)身

      央視馬年春晚第三次大聯(lián)排,劉濤蘇有朋周傳雄等現(xiàn)身

      紅星新聞
      2026-01-31 19:13:28
      夫妻網(wǎng)購?fù)尥薏酥卸敬蠓崔D(zhuǎn)!是丈夫投毒,對妻子滅口,商家被坑慘

      夫妻網(wǎng)購?fù)尥薏酥卸敬蠓崔D(zhuǎn)!是丈夫投毒,對妻子滅口,商家被坑慘

      離離言幾許
      2026-02-03 15:12:39
      湖人16分大勝籃網(wǎng)!里夫斯復(fù)出三巨合砍64分 詹姆斯25+7各種暴扣

      湖人16分大勝籃網(wǎng)!里夫斯復(fù)出三巨合砍64分 詹姆斯25+7各種暴扣

      顏小白的籃球夢
      2026-02-04 10:55:10
      2026-02-04 14:04:49
      錦緞研究院 incentive-icons
      錦緞研究院
      專注上市公司價值發(fā)現(xiàn)與傳播
      2456文章數(shù) 10814關(guān)注度
      往期回顧 全部

      科技要聞

      太煩人遭投訴!元寶紅包鏈接被微信屏蔽

      頭條要聞

      月銷暴跌至不到50輛 小米SU7 Ultra專屬銷售團隊解散

      頭條要聞

      月銷暴跌至不到50輛 小米SU7 Ultra專屬銷售團隊解散

      體育要聞

      “也許我的一小步,會成為中國足球的一大步”

      娛樂要聞

      姜元來在大S墓碑前哭泣,與具俊曄擁抱

      財經(jīng)要聞

      35歲入行,先被考證“割韭菜”

      汽車要聞

      全偽裝雪地現(xiàn)身 一汽-大眾純電車型線索曝光

      態(tài)度原創(chuàng)

      數(shù)碼
      時尚
      本地
      游戲
      公開課

      數(shù)碼要聞

      AMD財報業(yè)績會:數(shù)據(jù)中心業(yè)務(wù)強勁增長 MI450系列有望下半年量產(chǎn)

      狀態(tài)比10年前更好,她到底做對了什么?

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      老牌MMO迎第二春?《激戰(zhàn)2》這次更新為何誠意拉滿?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版