<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek與字節跳動踏進同一條河

      0
      分享至

      本文系基于公開資料撰寫,僅作為信息交流之用,不構成任何投資建議


      新年前夕,DeepSeek發表了一篇聚焦神經網絡架構創新的核心論文,梁文鋒以通訊作者身份署名。論文提出了流形約束超連接(manifold-constrained HyperConnection, mHC)架構,直指大規模模型訓練中的穩定性難題。

      這一工作為硬件受限的中國 AI 企業開辟了一條兼顧性能與效率的路徑,也與字節跳動早前在殘差流優化上的探索形成關鍵呼應,二者均瞄準殘差連接這一模型基礎架構進行改造。

      DeepSeek的研究,恰恰是對字節跳動“超連接”技術短板的系統性補位。這一成果不僅為大模型底層架構的工業化落地提供了新方案,再度印證了硬件約束可轉化為創新動力的產業演進邏輯。

      自2016年ResNet 提出以來,殘差連接已成為深度學習的骨架式設計。其通過“捷徑連接”繞過層層非線性變換,從根本上緩解了梯度消失或爆炸的難題,支撐起越來越深的模型結構。

      長期以來,業界創新多集中于注意力機制、MoE(混合專家)等模塊,殘差流本身處于一種“靜默的穩定”中,直至2024 年字節跳動以超連接(HyperConnection)技術打破這一局面。

      字節跳動的超連接通過拓寬殘差流寬度、構建多路并行信號流,并讓模型學習流間的交互模式,顯著提升了模型表達能力。然而,該技術在規模化訓練中暴露出致命短板:信號發散

      DeepSeek的測試顯示,在270億參數模型的訓練中,約12000步后梯度范數劇烈波動,訓練崩潰;更嚴重的是,信號強度在第60層膨脹至輸入值的3000倍。問題的核心在于,超連接為追求表達力,放棄了殘差連接原有的恒等映射約束——小規模下尚可調參掩蓋,但在大規模訓練中,這一缺陷被急劇放大。

      mHC的核心創新,是將可學習的變換矩陣約束在雙重隨機矩陣(doubly stochastic matrix)構成的流形上。這相當于為信號傳播設立“剛性預算”:矩陣每行、每列元素之和均為1且非負,確保輸出信號強度嚴格介于輸入信號的最大最小值之間,從而杜絕信號爆炸。

      更關鍵的是,雙重隨機矩陣具有組合不變性——多層疊加后仍保持穩定。實驗表明,在超連接出現3000倍信號放大的同一場景中,mHC的信號放大峰值僅為1..6倍。為控制計算開銷,DeepSeek 采用Sinkhorn-Knopp 迭代進行投影,僅需20輪迭代即可收斂,額外訓練成本被壓制在6.7%

      硬件約束倒逼的不只是算法創新,更是全鏈路的系統級優化。超連接拓寬殘差流后,每層數據讀寫量倍增,在A800/A100的有限互聯帶寬下,芯片極易陷入“等待數據遠多于計算”的效率陷阱。DeepSeek通過三項關鍵技術破局:

      1.算子融合:將內存訪問模式相近的操作合并為單一GPU內核,減少數據搬運;

      2.反向傳播重計算:不存儲中間激活值,改為實時重算,以計算換內存;

      3.流水線并行優化:重疊跨GPU通信與本地計算,用計算掩蓋通信延遲。

      這些優化將原本隨層數線性增長的內存開銷,轉化為可由模塊大小控制的有界開銷。配合基于 TileLang 編寫的混合精度內核(bfloat16 為主,float32 保關鍵精度),實現了全參數規模下的穩定性能提升。測試中,30億至270 億參數模型搭載mHC后均表現優異,270億模型在BIG-Bench Hard復雜推理任務上提升 2..1%,在 DROP閱讀理解任務上提升2.3%

      此前,V3架構論文對應V3模型,R1推理論文對應R1模型;本次mHC論文在 2026 年春節前三周發布,外界普遍預期下一代旗艦模型(R2)即將亮相。

      這種“論文先行”的策略,既通過同行評議建立技術公信力,又在復雜地緣環境中為原創性留下時間戳,更向全球傳遞一個明確信息:中國 AI 企業的核心競爭力,并非依賴尖端算力芯片

      DeepSeek選擇通過arXiv、Hugging Face等開放平臺而非傳統期刊發布成果,雖犧牲部分學術聲望,卻換來了技術傳播的速度與可達性。這種開放模式加速了知識擴散,也對同行構成直接競爭壓力:當 mHC 的性能增益可量化、實現可復現時,西方實驗室要么跟進類似技術,要么必須論證自身路徑的優越性。

      此前R1 型已觸發推理模型研發熱潮,mHC架構很可能推動殘差流優化進入新一輪迭代。更重要的是,這一模式向技術管制者傳遞了清晰信號:硬件限制并未扼殺創新,反而迫使中國 AI 企業走向“從數學根源解決問題”的最本質路徑。

      字節跳動與 DeepSeek,先后踏入同一條“突破傳統殘差流”的創新之河。前者率先探路,卻止步于規模化瓶頸;后者在硬件約束的倒逼下,憑借數學約束與系統級優化,架起了一座可通航的技術之橋

      距離2026年春節僅剩六周,R2模型的發布將檢驗mHC架構的工業化成色。無論最終基準測試結果如何,這條“在約束中創新”的路徑已具備里程碑意義——它清晰證明,AI 競賽不只有“燒錢堆算力”這一條賽道。硬件限制從不是創新的絆腳石,而是催生真正核心突破的催化劑。

      轉載開白 | 商務合作 | 內容交流
      請添加微信:jinduan008
      添加微信請備注姓名公司與來意

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      冒死救回大兵,特朗普放地獄狠話

      冒死救回大兵,特朗普放地獄狠話

      南風窗
      2026-04-07 15:06:45
      伊朗革命衛隊稱以色列海法已被“全面打擊”

      伊朗革命衛隊稱以色列海法已被“全面打擊”

      財聯社
      2026-04-07 09:47:18
      美國飛行員逃跑路線曝光,附近有山,耕地,城鎮,多山地形救了他

      美國飛行員逃跑路線曝光,附近有山,耕地,城鎮,多山地形救了他

      魔都姐姐雜談
      2026-04-06 17:02:35
      董宇輝無視法律,賣假保健品怒賺超1000萬后,竟對消費者只退款不賠償

      董宇輝無視法律,賣假保健品怒賺超1000萬后,竟對消費者只退款不賠償

      可達鴨面面觀
      2026-04-06 15:47:53
      老宣傳畫里的堅決解放臺灣 拯救苦難中的臺灣人民

      老宣傳畫里的堅決解放臺灣 拯救苦難中的臺灣人民

      那些看得見的老照片
      2026-04-07 07:00:05
      中國國民黨主席鄭麗文率團抵達上海,并赴南京

      中國國民黨主席鄭麗文率團抵達上海,并赴南京

      三湘都市報
      2026-04-07 13:24:16
      陳麗華去世,享年85歲:吃了唐僧肉,留下半條金寶街和一個唐僧

      陳麗華去世,享年85歲:吃了唐僧肉,留下半條金寶街和一個唐僧

      烏娛子醬
      2026-04-07 11:20:35
      150億美金歸零!以色列轟炸伊朗石化命脈,復產至少等兩年

      150億美金歸零!以色列轟炸伊朗石化命脈,復產至少等兩年

      滄海旅行家
      2026-04-06 14:55:31
      陳麗華身價500億坐擁北京一條街,婚后給丈夫定三條規矩

      陳麗華身價500億坐擁北京一條街,婚后給丈夫定三條規矩

      老呶侃史
      2026-01-05 18:56:38
      比失業更可怕的是工資倒退,深圳的工資已經降到了10年前

      比失業更可怕的是工資倒退,深圳的工資已經降到了10年前

      細說職場
      2026-04-07 11:32:47
      原來她就是王楚欽母親,怪不得會成為世界冠軍,18歲家書令人動容

      原來她就是王楚欽母親,怪不得會成為世界冠軍,18歲家書令人動容

      阿纂看事
      2026-04-06 19:58:38
      它是“樹上人參”,春天遇見使勁吃,錯過要等1年,比薺菜營養

      它是“樹上人參”,春天遇見使勁吃,錯過要等1年,比薺菜營養

      阿龍美食記
      2026-04-06 13:56:32
      張雪峰去世半個月,團隊成員正式復播,武亮穿黑衣,超10萬人支持

      張雪峰去世半個月,團隊成員正式復播,武亮穿黑衣,超10萬人支持

      180視角
      2026-04-07 11:15:21
      陳麗華白手起家,10年前已是中國女首富

      陳麗華白手起家,10年前已是中國女首富

      極目新聞
      2026-04-07 11:33:24
      太膈應啊!網傳湛江高鐵站門前,分布著密密麻麻的墳堆和墓碑…

      太膈應啊!網傳湛江高鐵站門前,分布著密密麻麻的墳堆和墓碑…

      火山詩話
      2026-04-07 12:46:50
      伊朗:哈德米遇襲身亡

      伊朗:哈德米遇襲身亡

      澎湃新聞
      2026-04-06 18:06:07
      安慶6歲失聯女童確認遇害,35歲犯罪嫌疑人柳某某歸案;女童父親不愿多言,鎮政府工作人員:一直在安撫家屬情緒

      安慶6歲失聯女童確認遇害,35歲犯罪嫌疑人柳某某歸案;女童父親不愿多言,鎮政府工作人員:一直在安撫家屬情緒

      極目新聞
      2026-04-07 09:04:35
      超湖人升第3!掘金加時滅開拓者9連勝 約基奇35分三雙楊瀚森DNP

      超湖人升第3!掘金加時滅開拓者9連勝 約基奇35分三雙楊瀚森DNP

      醉臥浮生
      2026-04-07 11:51:16
      美國第一夫人梅拉尼婭竟聲稱“開戰是為了伊朗兒童的未來”,網友怒嗆:所以把他們炸死?

      美國第一夫人梅拉尼婭竟聲稱“開戰是為了伊朗兒童的未來”,網友怒嗆:所以把他們炸死?

      極目新聞
      2026-04-07 13:50:54
      重磅:文班亞馬因傷退出比賽,或缺席2-4周,馬刺的天塌了

      重磅:文班亞馬因傷退出比賽,或缺席2-4周,馬刺的天塌了

      姜大叔侃球
      2026-04-07 10:22:29
      2026-04-07 15:28:49
      錦緞研究院 incentive-icons
      錦緞研究院
      專注上市公司價值發現與傳播
      2490文章數 10824關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美被困飛行員靠定位器求救 回答其父私密問題驗明身份

      頭條要聞

      美被困飛行員靠定位器求救 回答其父私密問題驗明身份

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      張藝上浪姐惹爭議 黃景瑜前妻發文內涵

      財經要聞

      2026年,全國租房市場還有波降價潮

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      藝術
      健康
      時尚
      親子
      公開課

      藝術要聞

      美麗風光看不盡

      干細胞抗衰4大誤區,90%的人都中招

      今年最火的4雙平底鞋,配白裙子穿好看又松弛!

      親子要聞

      記錄下人生最勇敢的一天,我們就是一家三口啦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版