<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      租了8張H100,他成功復(fù)現(xiàn)了DeepSeek的mHC,結(jié)果比官方報(bào)告更炸裂

      0
      分享至



      機(jī)器之心編譯

      元旦期間,DeepSeek 發(fā)布的 mHC 震撼了整個(gè) AI 社區(qū)。

      簡單來說,DeepSeek 提出的 mHC 通過將傳統(tǒng) Transformer 的單一殘差流擴(kuò)展為多流并行架構(gòu),并利用 Sinkhorn-Knopp 算法將連接矩陣約束在雙擬隨機(jī)矩陣流形上,成功解決了超連接(HC)在大規(guī)模訓(xùn)練中因破壞恒等映射屬性而導(dǎo)致的數(shù)值不穩(wěn)定和信號爆炸問題。更多詳情請參閱《剛剛,梁文鋒署名,DeepSeek 元旦新論文要開啟架構(gòu)新篇章》。

      時(shí)至今日,這篇讓眾多讀者大呼看不懂的論文依然是技術(shù)社區(qū)關(guān)注的一大焦點(diǎn)。解讀分享這篇論文就好像已成為一種技術(shù)時(shí)尚。





      但還有更加硬核的,近日FlowMode 工程師 Taylor Kolasinski 宣布成功復(fù)現(xiàn)了 mHC,并且在測試中還取得了比 DeepSeek 原始論文更好的成績



      評論區(qū)也是直呼「不明覺厲」:



      目前,Kolasinski 正通過一個(gè) mHC 復(fù)現(xiàn)系列博客介紹其復(fù)現(xiàn)成果,相關(guān)博客已經(jīng)發(fā)布了 2 篇。這里我們進(jìn)行了整理,以饗讀者。



      • 博客 1:https://taylorkolasinski.com/notes/mhc-reproduction/
      • 博客 2:https://taylorkolasinski.com/notes/mhc-reproduction-part2/

      博客一:DeepSeek 的 mHC:當(dāng)殘差連接發(fā)生爆炸

      你使用過的每一個(gè) Transformer 模型都采用了 2016 年以來的同一種殘差連接設(shè)計(jì)。

      GPT-5、Claude、Llama、Gemini。在底層,它們做的事情都是一樣的:x + F (x)。信息流只有一條,穿過網(wǎng)絡(luò),每一層都向其中添加內(nèi)容。

      DeepSeek 提出了一個(gè)問題:如果它變得更寬會怎樣?



      設(shè)置

      標(biāo)準(zhǔn)殘差連接是每一個(gè)現(xiàn)代 Transformer 的脊梁。其思路很簡單:



      其輸入原封不動地流過,加上該層的輸出。這是一條單一的信息流。進(jìn)去是什么,出來的就是什么加上一個(gè)學(xué)習(xí)到的更新量。這就是為什么 Transformer 可以深達(dá)數(shù)百層:梯度有一條干凈的向后路徑。簡單。穩(wěn)定。自 2016 年以來未曾改變。

      超連接(Hyper-Connections)采取了不同的方法。它不再是單一流,而是擴(kuò)展到 n 條并行流,并帶有可學(xué)習(xí)的混合矩陣:



      下圖對比了標(biāo)準(zhǔn)殘差與超連接:



      三個(gè)矩陣控制著信息的流動方式:

      • H_res:信息流在殘差路徑中如何混合(紅色的交叉部分)
      • H_pre:信息流在進(jìn)入層之前如何組合
      • H_post:層的輸出如何分配回各個(gè)流中

      超連接表達(dá)能力更強(qiáng)。參數(shù)更多,但計(jì)算開銷幾乎可以忽略不計(jì)。理論上性能更好。亦可參閱報(bào)道《字節(jié)豆包大模型團(tuán)隊(duì)突破殘差連接局限!預(yù)訓(xùn)練收斂最快加速 80%》。

      但問題是什么?那些混合矩陣是不受約束的。它們不僅能路由信號,還能放大信號。

      爆炸

      在激進(jìn)的學(xué)習(xí)率下,作者的復(fù)現(xiàn)實(shí)驗(yàn)中超連接(HC)的信號放大達(dá)到了 7 倍,隨后最終崩潰。Amax(行和列絕對值的最大值)衡量了一個(gè)矩陣能將信號放大多少。



      在 10M 參數(shù)的規(guī)模下,這也還行。但 DeepSeek 在 27B 參數(shù)下觀察到了這種情況:

      「Amax 增益幅度產(chǎn)生了極值,峰值達(dá)到 3000」

      你沒有看錯(cuò):三千倍的放大。在 27B 參數(shù)下,不受約束的 HC 不僅僅是漂移,而是爆炸了。這里的 10M 復(fù)現(xiàn)中達(dá)到的 9.2 倍正是這種指數(shù)級故障的早期預(yù)警。

      也因此,不受約束的混合矩陣在規(guī)?;瘯r(shí)會崩潰。微小的放大呈指數(shù)級復(fù)合。



      壓力測試: 在激進(jìn)的學(xué)習(xí)率下,HC 的信號放大在崩潰前達(dá)到了 7 倍。mHC 保持平穩(wěn),維持在 1.0。

      修復(fù):約束流形

      DeepSeek 的修復(fù)方案很干凈:將混合矩陣約束為雙重隨機(jī)(doubly stochastic)

      一個(gè)雙重隨機(jī)矩陣具有以下特性:

      • 所有條目非負(fù)
      • 行之和為 1
      • 列之和為 1



      這意味著混合操作只能對流進(jìn)行加權(quán)平均。它可以路由信息,混洗它,融合它。但它不能放大。

      DeepSeek 是如何做到塞?使用 Sinkhorn-Knopp 算法。



      該算法非常簡單:

      1. 從任意矩陣(原始學(xué)習(xí)到的權(quán)重)開始
      2. 取指數(shù)使所有條目變?yōu)檎龜?shù):P = e^H
      3. 歸一化行,使每一行之和為 1
      4. 歸一化列,使每一列之和為 1
      5. 重復(fù) 3-4 個(gè)步驟,直到收斂

      就是這樣。交替進(jìn)行行和列的歸一化。二十次迭代就足夠了。

      這個(gè)過程是可微分的。梯度可以回傳穿過所有二十次迭代。網(wǎng)絡(luò)學(xué)習(xí)原始權(quán)重 H,而 Sinkhorn 確保實(shí)際的混合矩陣始終是雙重隨機(jī)的。



      當(dāng)作者第一次看到這個(gè)時(shí),感覺像是作弊。你不是在學(xué)習(xí)穩(wěn)定性,而是在強(qiáng)制它。但有些屬性不應(yīng)該被學(xué)習(xí);它們應(yīng)該被保證。

      技術(shù)說明:嚴(yán)格來說,只有遞歸矩陣 H_res 需要完整的 Sinkhorn 雙重隨機(jī)處理。它是層層復(fù)合誤差的那個(gè)。輸入 / 輸出混合器(H_pre,H_post)僅通過 sigmoid 進(jìn)行有界處理。Sinkhorn 的計(jì)算成本只花在最重要的地方。

      結(jié)果



      不同種子的結(jié)果(深度 24,3 個(gè)種子)



      HC 在原始性能上獲勝:驗(yàn)證損失 0.88 對 1.12。在 10M 參數(shù)下,mHC 約束就像是一種穩(wěn)定性稅;你付出的是表達(dá)能力。但在 27B 參數(shù)下,這種稅是防止你的模型爆炸成 NaN 的唯一手段。

      但看看方差。HC 的損失在不同種子間的變化是 mHC 的 3 倍(±0.033 vs ±0.012)。至于 Amax?HC 根據(jù)種子的不同在 6.1 到 7.6 之間擺動。mHC 是 1.00。每一個(gè)種子。每一次運(yùn)行。零方差。

      在 10M 參數(shù)下,這種不穩(wěn)定性是可以存活的。HC 仍然獲勝。但在 27B 參數(shù)下,那 6-7 倍的放大變成了 3000 倍。在這個(gè)規(guī)模下你無法賭博。

      深度擴(kuò)展



      作者還掃描了從 6 到 24 層的深度(保持約 11M 的常數(shù)參數(shù)預(yù)算):

      • 損失隨著深度增加而改善,直到不再改善。深度 20 達(dá)到了甜蜜點(diǎn)(0.85 驗(yàn)證損失)。
      • 深度 24 略有退步(0.93),這是由于為了將維度縮小到 192 而產(chǎn)生的寬度瓶頸。
      • Amax 是不可預(yù)測的。深度 20 飆升至 9.2 倍。深度 12 達(dá)到 6.6 倍。深度 8 保持在 4.3 倍。沒有清晰的關(guān)系;HC 是混沌的。

      實(shí)驗(yàn)細(xì)節(jié)

      • 數(shù)據(jù)集: TinyShakespeare(約 1M 字符,字符級)
      • 模型: GPT-2 架構(gòu),約 10M 參數(shù)
      • 訓(xùn)練: 5000 步,AdamW (β1=0.9, β2=0.95),權(quán)重衰減 0.1,余弦 LR 衰減
      • 硬件: Apple M 系列 (MPS)
      • 深度掃描: 8 種配置(6-24 層),調(diào)整寬度以維持約 11M 參數(shù)
      • 種子變異: 3 個(gè)種子(42, 123, 456),深度 24

      為什么這很重要

      殘差連接不僅僅是幫助梯度流動的技巧。它們是一種守恒定律。

      在物理學(xué)中,守恒定律約束了可能發(fā)生的事情,但使預(yù)測成為可能。你不能制造永動機(jī),但你可以精確計(jì)算球會落在哪里。

      殘差連接中的恒等映射是類似的。它通過防止任意變換來約束網(wǎng)絡(luò),但它保證了穩(wěn)定性。信號幅度被保留。

      HC 打破了守恒;mHC 恢復(fù)了它,不是通過回歸到恒等映射,而是通過找到一個(gè)更豐富的、仍然守恒信號的流形。

      2016 年,何愷明等人引入 ResNets 來解決梯度消失問題,確保信號不會消亡。十年后,相反的問題出現(xiàn)了:超連接帶來的信號爆炸。恒等映射通過被動的方式解決了第一個(gè)問題。mHC 通過強(qiáng)制守恒解決了第二個(gè)問題。

      每一個(gè)殘差連接都是一種守恒定律。mHC 強(qiáng)制執(zhí)行了它。

      不是黑客手段,不是技巧。這是一個(gè)原則性的約束,使架構(gòu)能在規(guī)模化下工作。

      要點(diǎn)總結(jié)

      1. 流持久性 Bug 讓人學(xué)會謙卑。作者的第一個(gè)實(shí)現(xiàn)看起來是對的。公式與論文相符。代碼能跑。但當(dāng)把輸出投影回單一流并在每一層重新擴(kuò)展它,扼殺了并行架構(gòu)。「超連接」中的「超」部分實(shí)際上沒做任何事。三次獨(dú)立的審計(jì)都說「看起來是對的」。Bug 是架構(gòu)上的,不是數(shù)學(xué)上的。作者是在問了「等等,層與層之間流動的實(shí)際形狀是什么?」之后才發(fā)現(xiàn)的。
      2. 約束不是限制;它們是保證。雙重隨機(jī)投影強(qiáng)制了穩(wěn)定性。你不是在學(xué)習(xí)好的行為。你是在讓壞的行為變得不可能。作者表示自己的第一反應(yīng)是:「這不優(yōu)雅。這是束縛?!沟鋵?shí),HC 達(dá)到了 7 倍放大才是重點(diǎn)。
      3. 無聊的選擇能規(guī)模化。標(biāo)準(zhǔn)殘差連接自 2016 年以來一直存活,不是因?yàn)樗鼈兪亲顑?yōu)的,而是因?yàn)樗鼈兪欠€(wěn)定的。HC 表達(dá)能力更強(qiáng)但脆弱。mHC 找到了一個(gè)中間地帶:比標(biāo)準(zhǔn)殘差表達(dá)能力更強(qiáng),且?guī)в蟹€(wěn)定性保證。

      博客 2:10,924 倍:17 億規(guī)模下的不穩(wěn)定炸彈

      下面是 mHC 復(fù)現(xiàn)系列的第 2 部分。第 1 部分 展示了 10M 參數(shù)量下的不穩(wěn)定性。現(xiàn)在,要擴(kuò)大規(guī)模了。

      在第 1 部分中,作者在 TinyShakespeare 數(shù)據(jù)集上訓(xùn)練了一個(gè) 10M 參數(shù)的 Transformer,并目睹了超連接(Hyper-Connections)將信號放大了 9.2 倍。DeepSeek 的論文 報(bào)告稱在 27B 參數(shù)下放大倍數(shù)達(dá)到了 3000 倍?,F(xiàn)在我們也擴(kuò)大規(guī)??纯?。

      為了這次運(yùn)行,作者租用了一個(gè) 8x H100 的節(jié)點(diǎn)。以下是他的發(fā)現(xiàn)。

      規(guī)模躍遷



      10924 倍信號放大!這遠(yuǎn)遠(yuǎn)超出了 DeepSeek 論文中的 3000 倍

      實(shí)驗(yàn)

      這篇博客記錄的是作者在三種架構(gòu)上進(jìn)行的 18 次實(shí)驗(yàn),包括:

      • Residual:標(biāo)準(zhǔn)的殘差結(jié)構(gòu),即 x + F (x) 作為基線;
      • HC:采用無約束混合矩陣的超連接(Hyper-Connections);
      • mHC:采用 Sinkhorn 投影的流形超連接(Manifold Hyper-Connections)。

      每種架構(gòu)分別在兩種網(wǎng)絡(luò)深度下進(jìn)行(32 層和 48 層),并使用三個(gè)隨機(jī)種子(42、123、456),因此每種配置運(yùn)行 3 次。

      所有模型均在 C4 數(shù)據(jù)集上訓(xùn)練 5000 步,采用 bf16 混合精度。其中 32 層模型參數(shù)量為 17.3 億(1.73B);48 層模型參數(shù)量為 25.4 億(2.54B)。

      主要結(jié)果



      首先,在 Loss 表現(xiàn)上:所有方法的收斂表現(xiàn)幾乎一致。

      三種方法最終都收斂到相近的 loss 區(qū)間(約 5.4–6.0)。整體學(xué)習(xí)曲線幾乎完全重合:HC 并沒有學(xué)得更快,mHC 也沒有變慢。從實(shí)驗(yàn)結(jié)果來看,引入 Sinkhorn 投影幾乎沒有額外代價(jià)。

      其次,Amax 表現(xiàn)出強(qiáng)烈的不穩(wěn)定性。Amax 是用來衡量混合矩陣對信號的放大程度,Amax = 1.0 表示對信號不放大(中性);數(shù)值越高,表示信號被放大的程度越強(qiáng)。



      實(shí)驗(yàn)中發(fā)現(xiàn),在深度為 32 時(shí),HC 的 Amax 值飆升至 6500 倍,并伴隨著劇烈的波動,而 mHC 值則穩(wěn)定保持在 1.0。在深度為 48 時(shí),這種模式再次出現(xiàn):HC 猛增至 3500 倍,而 mHC 值保持不變。



      Scaling Laws



      在對 Amax 與模型參數(shù)規(guī)模進(jìn)行 log–log 繪制后,可以觀察到明顯的放大趨勢:當(dāng)模型規(guī)模為 1000 萬參數(shù)時(shí),Amax 約為 9.2 倍;在 17 億參數(shù)規(guī)模下,這一數(shù)值躍升至 10924 倍;

      而公開數(shù)據(jù)中,DeepSeek 的 270 億參數(shù)模型對應(yīng)的 Amax 約為 3000 倍。基于趨勢線外推,模型規(guī)模達(dá)到 100 億參數(shù)時(shí),Amax 可能上升至約 50000 倍,在 1000 億參數(shù)量級下,甚至可能接近 400000 倍。

      實(shí)驗(yàn)結(jié)果并未顯示出任何自我修正的跡象,相反,隨著模型規(guī)模擴(kuò)大,不穩(wěn)定性呈現(xiàn)出持續(xù)加劇的趨勢。值得注意的是,該實(shí)驗(yàn)中的 17 億參數(shù)模型所表現(xiàn)出的不穩(wěn)定性,甚至高于參數(shù)規(guī)模更大的 DeepSeek 模型。

      這種差異可能源于架構(gòu)設(shè)計(jì)、訓(xùn)練配方或測量方法的不同;批大小、學(xué)習(xí)率與網(wǎng)絡(luò)深度之間的相互作用,也使得尺度效應(yīng)并非嚴(yán)格單調(diào)。

      盡管具體數(shù)值會受到多種因素影響,但這種不穩(wěn)定性是客觀存在的、可以被量化的,而且規(guī)模不容忽視。

      可復(fù)現(xiàn)性



      此外,在三個(gè)不同的隨機(jī)種子下,實(shí)驗(yàn)都呈現(xiàn)出完全相同的模式:所有 HC 的訓(xùn)練過程都會發(fā)生爆炸,而所有 mHC 的訓(xùn)練過程始終保持平穩(wěn)。不同隨機(jī)種子下的 loss 曲線幾乎完全重合,兩種方法的學(xué)習(xí)速度也一致。

      唯一的差別在于模型內(nèi)部正在發(fā)生的事情:HC 在不斷積累不穩(wěn)定性,這種不穩(wěn)定性可能在任何時(shí)刻被引爆;而 mHC 則始終維持著自身的結(jié)構(gòu)完整性。

      逐層分析:不穩(wěn)定性從哪里開始的



      這里有一個(gè)令人驚訝的發(fā)現(xiàn):不穩(wěn)定性始于輸入端,而非輸出端

      HC 的第 0 層(可視化圖表中的頂行)率先變紅,隨后其混合矩陣在訓(xùn)練初期就突破了 Amax 2.0,而更深層的網(wǎng)絡(luò)則保持相對穩(wěn)定??雌饋韱栴}不在于深度,而在于第 0 層 —— 這是唯一一層直接吞吐原始輸入的層。

      為什么是第 0 層? 不同于深層網(wǎng)絡(luò)前面有 LayerNorm 把關(guān),第一個(gè)混合矩陣直接面對原始 Embeddings。其他每一層看到的都是經(jīng)過歸一化、變換后的表征,但第 0 層必須硬抗 Embedding 表吐出的任何數(shù)值。如果尺度(scale)沒有完美匹配,第 0 層就會學(xué)習(xí)去補(bǔ)償。

      而在 HC 中,「補(bǔ)償」可能就意味著「放大」。反觀 mHC,在所有層級和所有訓(xùn)練步數(shù)中都呈現(xiàn)均勻的綠色。Sinkhorn 投影在限制最大值的同時(shí),也完全防止了任何層發(fā)生漂移。

      信號流:視覺展示



      在第 3000 步時(shí),一個(gè)進(jìn)入 HC 網(wǎng)絡(luò)的信號在輸出時(shí)被放大了 532 倍。而同樣的信號經(jīng)過 mHC 輸出時(shí)倍率為 1.000003 倍,本質(zhì)上保持不變。

      LayerNorm 和非線性模塊似乎「收拾」了大部分爛攤子,但這意味著它們消耗了模型容量,僅僅是為了去抵消上游制造的混亂。

      這正是守恒定律的體現(xiàn),它表明殘差連接應(yīng)當(dāng)保持信號的幅度:輸入了什么,就應(yīng)當(dāng)輸出什么(再加上學(xué)習(xí)到的殘差)。

      HC 打破了這一規(guī)則,任由信號失控螺旋上升,而 mHC 則守住了底線。

      壓力測試



      正常的訓(xùn)練使用了 1e-4 的學(xué)習(xí)率。如果加大強(qiáng)度會發(fā)生什么?作者在 3 倍于正常學(xué)習(xí)率的條件下進(jìn)行了壓力測試:



      深度 64 的模型在 Amax 達(dá)到 14765 倍后,開始在 2000 倍到 10000 倍之間劇烈振蕩,同時(shí),混合矩陣徹底失控。

      反觀 mHC,在所有配置、所有學(xué)習(xí)率下都表現(xiàn)得平坦、穩(wěn)定且「無聊」,數(shù)值始終保持在 1.0。

      意料之外:HC 模型并未崩潰



      有一個(gè)作者沒想到的結(jié)果:所有的 HC(Hyper-Connections)運(yùn)行實(shí)驗(yàn)都沒有崩潰。

      信號放大了 14765 倍,在深度 32 時(shí)放大了 10924 倍。Loss(損失)沒有發(fā)散,訓(xùn)練也沒有出現(xiàn) NaN。模型仍在繼續(xù)學(xué)習(xí)。

      這是一種「定時(shí)炸彈」般的場景。不穩(wěn)定性確實(shí)存在,但尚未導(dǎo)致災(zāi)難性的失敗…… 至少目前還沒有。

      為什么沒炸?作者列舉了以下幾種可能性:

      • 梯度裁剪力挽狂瀾。將范數(shù)裁剪在 1.0 防止了最嚴(yán)重的梯度爆炸,這幾乎肯定就是拯救了這次運(yùn)行的關(guān)鍵。
      • 5000 步還不夠。如果訓(xùn)練時(shí)間再長一點(diǎn),它可能就會爆發(fā)。
      • 這些模型還太小。在 100B(千億)參數(shù)規(guī)模下,動力學(xué)特性可能會有所不同。
      • 穩(wěn)妥的解讀是:HC 正在積聚不穩(wěn)定性,在不同條件下可能會被引爆,而 mHC則完全消除了這種風(fēng)險(xiǎn)

      重訪守恒定律

      在第 1 部分中,作者將殘差連接定義為了一種守恒定律,即「每一個(gè)殘差連接都是一條守恒定律,mHC 強(qiáng)制執(zhí)行了它?!?/p>

      1.7B 參數(shù)規(guī)模的結(jié)果讓這一點(diǎn)變得具體:HC 違反了守恒,信號在訓(xùn)練過程中增長了 10000 多倍。而 mHC 強(qiáng)制守恒,信號保持穩(wěn)定。具體地,

      • 在 10M(一千萬)參數(shù)時(shí),違反守恒是可以存活的。作者在第 1 部分中看到的 9.2 倍放大雖然煩人,但尚在可控范圍內(nèi)。
      • 在 1.7B(十七億)參數(shù)時(shí),這就是個(gè)炸彈。10924 倍的放大意味著一個(gè)本該是量級 1 的信號,現(xiàn)在變成了 10924。梯度更新在與這種放大對抗,而優(yōu)化器必須做額外的工作來補(bǔ)償網(wǎng)絡(luò)內(nèi)部的混亂。

      這還僅僅是在 5000 步的時(shí)候,如果訓(xùn)練更久、推高學(xué)習(xí)率、或者擴(kuò)展到 10B 參數(shù),在某個(gè)臨界點(diǎn),炸彈就會引爆。

      mHC 不僅僅是降低了不穩(wěn)定性,而是徹底消除了這種故障模式。

      從這次運(yùn)行中學(xué)到了什么

      一是,GPU 3 掛了。8 張 H100 中的一張?jiān)谔囟▽?shí)驗(yàn)中不斷報(bào)錯(cuò) CUDA 錯(cuò)誤。作者浪費(fèi)了一個(gè)小時(shí)調(diào)試「代碼問題」,才意識到是硬件故障。云端 GPU 是會壞的。

      二是,Batch size(批次大小)的限制是真實(shí)的。2.5B 參數(shù)的 d48 模型無法在 batch size 為 8 時(shí)塞進(jìn)顯存。作者不得不降到 batch size 4。這意味著不同深度下的「每步 token 數(shù)」不同。

      雖然同一深度下 HC 與 mHC 的對比依然有效(batch size 相同),但跨深度的對比就不那么完美了。

      要點(diǎn)總結(jié)

      如果正在實(shí)現(xiàn)超連接:

      • 使用 Sinkhorn 投影。這里大概只有 10 行代碼,卻消除了一種在大規(guī)模下感覺真正危險(xiǎn)的故障模式。
      • 在訓(xùn)練期間監(jiān)控 Amax。如果你看到它爬升超過 10 倍,則是在積聚不穩(wěn)定性。
      • 第 0 層是「金絲雀」(預(yù)警指標(biāo))。特別密切關(guān)注你的輸入混合矩陣。如果你的基礎(chǔ)模型有一個(gè)不穩(wěn)定的第 0 層,微調(diào)期間的詞表變更或 Embedding 漂移可能會導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定。
      • 該約束沒有性能代價(jià)。mHC 的 Loss 與 HC 完全一致。

      代碼和數(shù)據(jù)

      數(shù)據(jù)是公開的,代碼即將發(fā)布。

      • 主要實(shí)驗(yàn): wandb.ai/taylorkolasinski/mhc-part2
      • 壓力測試: wandb.ai/taylorkolasinski/mhc-part2-stress

      作者表示,包含訓(xùn)練腳本的倉庫即將推出。W&B 儀表板擁有每次運(yùn)行的完整配置、指標(biāo)和系統(tǒng)日志。實(shí)驗(yàn)在一個(gè) Lambda Labs 的 8x H100 SXM5 節(jié)點(diǎn)上運(yùn)行,耗時(shí)約 17 小時(shí)。

      下一步計(jì)劃

      目前有兩個(gè)懸而未決的問題:

      • HC 真的會失敗嗎? 作者看到了 10924 倍的放大,但訓(xùn)練沒有發(fā)散。這是一種潛在風(fēng)險(xiǎn),還是說訓(xùn)練時(shí)間更長就會導(dǎo)致失?。?/li>
      • Scaling Law 是什么? 10M → 9.2 倍。1.7B → 10924 倍。到了 10B 會發(fā)生什么?

      作者想探索 Scaling Law 到 10B 參數(shù),趨勢線表明那里可能出現(xiàn) 50000 倍的放大。那個(gè)實(shí)驗(yàn)技術(shù)上已經(jīng)準(zhǔn)備好了,但需要計(jì)算預(yù)算的大幅提升。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      切爾西球探關(guān)注李昊!5場零封,28次撲救,他幾乎鎖定賽事MVP!

      切爾西球探關(guān)注李昊!5場零封,28次撲救,他幾乎鎖定賽事MVP!

      海浪星體育
      2026-01-22 00:00:46
      勇士經(jīng)理銳評庫明加交易申請:得有別的隊(duì)要你才能申請交易啊

      勇士經(jīng)理銳評庫明加交易申請:得有別的隊(duì)要你才能申請交易啊

      懂球帝
      2026-01-22 14:33:14
      深圳多門店提前漲價(jià)!網(wǎng)友:“吃相太難看了!”

      深圳多門店提前漲價(jià)!網(wǎng)友:“吃相太難看了!”

      深圳晚報(bào)
      2026-01-21 19:12:18
      澳網(wǎng)第5天,中國網(wǎng)球喜訊:王欣瑜2-1逆轉(zhuǎn)大滿貫冠軍,首次進(jìn)32強(qiáng)

      澳網(wǎng)第5天,中國網(wǎng)球喜訊:王欣瑜2-1逆轉(zhuǎn)大滿貫冠軍,首次進(jìn)32強(qiáng)

      侃球熊弟
      2026-01-22 13:23:58
      中國第3位:陳冬獲一級航天功勛獎(jiǎng)?wù)?,特級僅1位,下一位會是誰?

      中國第3位:陳冬獲一級航天功勛獎(jiǎng)?wù)?,特級僅1位,下一位會是誰?

      環(huán)球科學(xué)貓
      2026-01-22 11:05:37
      鞏固東部第二!布朗30+10綠軍輕取步行者 西亞卡姆32+10

      鞏固東部第二!布朗30+10綠軍輕取步行者 西亞卡姆32+10

      醉臥浮生
      2026-01-22 11:01:35
      伊朗國家安全委員會:3117人在近期騷亂事件中死亡

      伊朗國家安全委員會:3117人在近期騷亂事件中死亡

      界面新聞
      2026-01-22 07:34:12
      欠中國的錢,委內(nèi)瑞拉不還了?美財(cái)長:中國已無法繼續(xù)獲得委石油

      欠中國的錢,委內(nèi)瑞拉不還了?美財(cái)長:中國已無法繼續(xù)獲得委石油

      李橑在北漂
      2026-01-21 23:49:17
      日本!大崩盤開始了!

      日本!大崩盤開始了!

      大嘴說天下
      2026-01-22 04:30:03
      xAI工程師播客聊太嗨,馬斯克解雇了他

      xAI工程師播客聊太嗨,馬斯克解雇了他

      量子位
      2026-01-21 18:10:26
      他屠盡城中婦女,還吃了自己老婆,殘忍如斯,為何還被后人景仰?

      他屠盡城中婦女,還吃了自己老婆,殘忍如斯,為何還被后人景仰?

      小豫講故事
      2026-01-20 06:00:08
      錢再多有啥用!50歲久居英國的李湘,終于為自己的行為付出了代價(jià)

      錢再多有啥用!50歲久居英國的李湘,終于為自己的行為付出了代價(jià)

      說歷史的老牢
      2026-01-21 11:57:05
      法媒:歷史天平再次向中國傾斜

      法媒:歷史天平再次向中國傾斜

      參考消息
      2026-01-21 14:13:48
      阿里納斯:若湖人與里夫斯簽2.4億美元頂薪,那湖人將倒退十年

      阿里納斯:若湖人與里夫斯簽2.4億美元頂薪,那湖人將倒退十年

      懂球帝
      2026-01-22 11:35:27
      上海炒股大賽冠軍的箴言:如果手里只有10萬,不妨死磕"七大口訣"

      上海炒股大賽冠軍的箴言:如果手里只有10萬,不妨死磕"七大口訣"

      一方聊市
      2026-01-19 13:13:48
      帶狀皰疹致死病例增多!倡議:1不喝、3不碰、2堅(jiān)持,別馬虎了!

      帶狀皰疹致死病例增多!倡議:1不喝、3不碰、2堅(jiān)持,別馬虎了!

      垚垚分享健康
      2026-01-19 20:30:10
      袁和平《鏢人》:但凡吳京拉胯一點(diǎn),都壓不住這群王炸配角

      袁和平《鏢人》:但凡吳京拉胯一點(diǎn),都壓不住這群王炸配角

      星宿影視鴨
      2026-01-19 18:56:18
      93年我在山里救了個(gè)老道士,他傳我兩句口訣,讓我躲過了兩次大災(zāi)

      93年我在山里救了個(gè)老道士,他傳我兩句口訣,讓我躲過了兩次大災(zāi)

      牛魔王與芭蕉扇
      2025-09-18 17:17:43
      央視女外賣員短片被罵,駱駝祥子拉黃包車,不是為了欣賞沿途風(fēng)景

      央視女外賣員短片被罵,駱駝祥子拉黃包車,不是為了欣賞沿途風(fēng)景

      壹月情感
      2025-12-02 16:42:19
      尷尬不?澳網(wǎng)一輪游獎(jiǎng)金遠(yuǎn)超任何乒乓球冠軍 WTT6年商業(yè)化肥了誰?

      尷尬不?澳網(wǎng)一輪游獎(jiǎng)金遠(yuǎn)超任何乒乓球冠軍 WTT6年商業(yè)化肥了誰?

      勁爆體壇
      2026-01-21 07:26:22
      2026-01-22 15:28:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12166文章數(shù) 142547關(guān)注度
      往期回顧 全部

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸?guī)兹f億

      頭條要聞

      小伙騎車撞特斯拉后貸款賠1.5萬修車費(fèi) 發(fā)票只開9千元

      頭條要聞

      小伙騎車撞特斯拉后貸款賠1.5萬修車費(fèi) 發(fā)票只開9千元

      體育要聞

      珍妮回應(yīng)爆料:湖人不感激詹姆斯付出絕非事實(shí)

      娛樂要聞

      鐘麗緹土耳其高空落淚 與張倫碩擁吻

      財(cái)經(jīng)要聞

      申通快遞創(chuàng)始人被前夫索要股份

      汽車要聞

      今年集中上市 旅行車的春天可能真要來了

      態(tài)度原創(chuàng)

      教育
      時(shí)尚
      數(shù)碼
      健康
      本地

      教育要聞

      時(shí)間定了!今年高考全國統(tǒng)考將于6月7日、8日舉行

      50+女性穿衣沒頭緒?教你3個(gè)顯瘦還時(shí)髦的思路,照搬就好看

      數(shù)碼要聞

      大疆Osmo Pocket 4云臺相機(jī)庫存清單曝光,預(yù)估2026Q1發(fā)布

      打工人年終總結(jié)!健康通關(guān)=贏麻了

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 377人体粉嫩噜噜噜| 樱花草在线社区www| 中国美女a级毛片| 欧美成a网| 深夜福利在线观看视频| 福泉市| 十八岁污网站在线观看| 亚洲无码社区| 96精品久久久久久久久久| 永久免费av无码网站直播| 美腿少妇资源在线网站| 依依成人精品视频在线观看| 香蕉久久国产精品免| 成人乱码一区二区三区av| 亚洲 欧美 影音先锋| 国产精品V在线播放| 色狠狠色婷婷丁香五月| 91在线观看视频| 亚洲精品国产精品制服丝袜| 怼嫩草白浆国产一区| 国产成人a∨激情视频厨房| 安国市| 精品久久久久久久中文字幕| 人妻熟女在线网址| 高清无码爆乳潮喷在线观看| 女女互磨互喷水高潮les呻吟| 欧美音影成人在线一级片| 亚洲色资源站| 樱桃视频影院在线播放| 欧美成a网| 亚洲欧美综合区自拍另类| 操逼不卡| 一卡二卡成人| 国产亚洲欧美精品永久| 欧美性交网| 亚洲国精产品| 做爱视频网站| 一区二区三区偷拍系列| 成人国内精品久久久久一区| 日日干日| 99r精品|