網易首頁 > 網易號 > 正文申請入駐

陶柯霏：神經網絡中的頓悟丨集智百科

2026-01-25 14:22:19　來源: 集智俱樂部

北京舉報

分享至

導語

“集智百科精選”是一個長期專欄，持續為大家推送復雜性科學相關的基本概念和資源信息。作為集智俱樂部的開源科學項目，集智百科希望打造復雜性科學領域最全面的百科全書，歡迎對復雜性科學感興趣、熱愛知識整理和分享的朋友加入，文末可以掃碼報名加入百科志愿者！

↑↑↑掃碼直達百科詞條

陶柯霏 | 作者

作者簡介

1. 歷史

1.1 頓悟的發現

2. 相關基礎知識

2.1 神經網絡的記憶（Memorization）與泛化（Generalization）

2.2 神經網絡中的涌現（Emergent Abilities）

2.3 早停機制（Early Stop）

3. 頓悟的場景

3.1 模運算

3.2 其他算法任務

3.3 非算法任務

3.4 大語言模型

4. 頓悟現象的可解釋性分析

4.1 結構化表征

4.2 時鐘和披薩算法

4.3 控制權之爭

4.4 參數空間

4.5 特征學習

5. 促進頓悟的方法

5.1 權重范數

5.2 慢梯度增強(Slow Gradient Amplification)

5.3 頓悟彩票（Grokking Ticket）

5.4 基于預訓練或遷移的加速學習策略

6. 頓悟與其他現象的關聯

6.1 雙降（double descent）

6.2 大語言模型的涌現能力

6.3 反思與批判：頓悟和涌現可能只是“度量的幻覺”

你是否經歷過學習中的“靈光一現”？其實，人工智能模型也有這樣的時刻。

神經網絡中的頓悟（grokking）指的是一種反直覺的現象：當模型在訓練過程中看似已經“死記硬背”（過擬合）而無法處理新數據時，如果我們不停止訓練、堅持讓它繼續“思考”，它可能會在某個臨界點突然“開竅”，從而掌握數據背后的真實規律，實現泛化能力的飛躍。

我們可以用一個學生做題的例子來理解：想象一個剛學加法的小孩，起初他只是把練習冊上的答案全背了下來（訓練準確率100%），但一旦遇到沒見過的數字就束手無策（測試準確率接近0%）。按照常規判斷，這個孩子只是在死記硬背。

然而，如果還要讓他繼續反復看這些題，經過漫長的枯燥過程后，由于某種原因，他突然理解了加法的原理。那一瞬間，他不僅能背出舊題，也能完美解決所有新題。這種從死記硬背到真正理解的延遲性突變，就是頓悟。在神經網絡中，體現為如下圖所示的泛化延遲：

頓悟現象的直觀展示：訓練和驗證集上準確率曲線間的上升延遲

1. 歷史

1.1 頓悟的發現

OpenAI在ICLR2021數學推理workshop中發布的論文《Grokking: Generalization beyond overfitting on small algorithmic datasets》[1]，首次引入了神經網絡中的頓悟（grokking）概念。而頓悟現象的發現其實源于一個有趣的巧合：當 OpenAI 團隊開始探索神經網絡如何進行數學運算時，他們使用一個小型 Transformer來進行模加法運算（( a + b ) mod p = c ），測試了 Transformer 在未知的 a 和 b 組合下能否正確預測答案 c 。正如預期，當網絡進入過擬合狀態時，訓練數據的損失接近于零（它開始記憶所見內容），而測試數據的損失開始上升，即神經網絡沒有泛化能力。然而，在一次實驗中，負責訓練神經網絡的那位成員忘記了停止訓練，隨著長時間繼續訓練它突然在未見過數據上變得準確，測試數據的準確率飆升到接近100%，這說明模型已經完全理解了運算規則。隨后，團隊使用不同的任務和不同的網絡驗證了結果，這一發現得到了證實。

2. 相關基礎知識

2.1 神經網絡的記憶（Memorization）與泛化（Generalization）

記憶指網絡對訓練數據的擬合能力。強大的記憶力能讓模型在訓練集上表現完美，但如果過強，模型可能會記住數據所包含的噪聲或偶然細節，導致過擬合。泛化指模型將學到的規律應用到未見過的樣本上的能力，提升泛化能力是機器學習的核心目標。

記憶與泛化兩者需要平衡，既要有足夠容量去擬合數據中存在的真實模式，又要通過正則化、早停、交叉驗證等手段抑制過擬合。直觀地說，記憶像“背答案”，泛化像“學方法、會舉一反三”；實踐中人們通常以降低驗證誤差為目標，避免訓練誤差下降而驗證誤差上升的過擬合，也避免訓練與驗證誤差都高的欠擬合。

2.2 神經網絡中的涌現（Emergent Abilities）

頓悟是一種特殊的涌現現象，表現為泛化能力的突然躍升，可以被視為一種時間維度上的涌現。在大語言模型（LLM）發展時代，神經網絡中涌現的概念已經引發了廣泛關注。已有研究者系統研究了不同模型的能力差異，將大模型的涌現定義為小型模型不具備、但突然出現在大型模型中的能力特征[2]。而頓悟則是隨著訓練時間（步數）的增加，模型能力發生的突變。兩者都展示了深度神經網絡在跨過某個臨界閾值后，性能發生質變的非線性特征。

2.3 早停機制（Early Stop）

為了防止過擬合，機器學習界長期遵循一個黃金法則：在驗證集性能不再提升時停止訓練。這種策略被稱為早停機制，是一種簡單有效的正則化方法：在訓練過程中持續監控驗證集指標（如驗證損失或準確率），當該指標在若干輪內不再改善即停止訓練，以防模型在訓練集上繼續降低損失、卻在驗證集上開始惡化而產生過擬合。

3. 頓悟的場景

起初，頓悟似乎只是簡單數學玩具模型的一個特性，但隨著研究深入，人們發現從圖像識別到大語言模型，頓悟無處不在。

3.1 模運算

最初關于模型頓悟的研究大多在Transformer執行模運算任務上進行[1][3]。為什么選擇用模運算任務？是因為小型算法數據集在研究神經網絡泛化能力上具有重要作用：它構成了一個代數結構嚴密且特征獨立的小樣本空間，且具有強烈的離散性；在數據有限、規則清晰的情況下，模型必須理解隱藏在數據中的模式和規律才能實現泛化，有助于快速驗證頓悟理論和假設，加深對神經網絡泛化能力的理解。因此，模運算成為了觀察模型從“機械記憶”向“算法泛化”轉變的最佳受控實驗場，能清晰地展示泛化能力突變的動態過程。

模運算數據集通常由形如 a ° b mod p = c 的方程組成，其中每個元素" a "、" ° "、" b "、" m o d "、" p "、" = "和" c "均為獨立token，可寫作 < c >=< a >< o p >< b >< m o d >< p > ，其中 < o p > 是運算符，通常在一個任務中只有 a , b , c 三個數字變量，也有研究試驗了對于不同運算符的泛化效果。除了首次發現頓悟現象的模加法運算，研究者們已經在以下多種類型模運算上進行了實驗，驗證了頓悟并非偶然的個例，而是一個真實存在的規律：

3.2 其他算法任務

除了模運算，研究者還在以下數學任務中觀察到了頓悟：

1. 群運算（Group Operations）：這是模運算的推廣。Chughtai 等人[4]訓練MLP模型在階數為 ∣ G ∣= n 的有限群上執行群組合運算，發現模型表現出頓悟現象。該任務模型輸入為有序對 ( a , b ) （其中 a , b ∈ G ），訓練目標是預測群元素 c = a b 。值得注意的是，模運算任務是該任務的特例——因為模113加法運算等價于113階循環群的組合運算。

2. n位k稀疏奇偶校驗（Parity Check）：這是一個典型離散搜索問題。Barak等人[5]通過大量實驗證明，使用標準初始化（均勻、高斯、伯努利）和標準訓練（SGD）的各種神經網絡架構（包括 2 層 MLP、特定設計的單神經元網絡、Transformer、PolyNet），能夠在訓練步數接近計算極限 n O ( k ) 的情況下，成功學習 k-稀疏 n 位奇偶函數，即從 n 個比特中找出 k 個關鍵比特，并計算它們的異或作為標簽。

2023年，Nanda等人[3]發現有限數據是頓悟現象的必要條件，而無限數據會導致模型直接泛化，并在以下三種運算中證實這一現象：

3. 5位數加法：該任務輸入兩個隨機生成的5位數（例如 12345 + 67890），模型需預測其和的每一位數字（如 80235 的 8,0,2,3,5）。在1層完整Transformer上，訓練數據限制為700個樣本時出現頓悟；使用隨機生成的無限數據時未出現頓悟。

4. 重復子序列預測：該任務生成均勻分布的隨機符號序列，隨機選擇子序列進行重復，訓練模型預測被重復的符號（如 7,2,8,3, 1,9,3,8,3, 1,9,9,2,5，其中 1,9 為重復子序列）。在2層僅注意力Transformer上，訓練數據限制為512個樣本時出現頓悟；使用隨機生成的無限數據時未出現頓悟，形成歸納頭后直接泛化。

5. 跳躍三元組（skip trigram）：該任務的輸入是由0到19構成的符號序列（其中恰好一個符號≥10），模型需輸出≥10的符號。如 [0,3,15,7,...,2]，模型需輸出該特殊token 15。在1層僅注意力Transformer上，訓練數據限制為512個樣本時出現頓悟；使用隨機生成的無限數據時未出現頓悟，而是直接學習了所有跳躍三元組規則。

3.3 非算法任務

頓悟不僅僅存在于完美的數學公式中，劉子鳴團隊在2022年[6]首次證明，頓悟現象是機器學習中更為普遍的現象，不僅出現在算法數據集上，也會出現在主流基準數據集中，例如MNIST數據集；并通過調整優化超參數能夠實現對頓悟的控制，發現顯式增加初始化權重范數會誘發頓悟現象，并在以下三種非算數任務上得到了證明[7]：

IMDb文本情感分析任務：該數據集包含5萬條需分類為正面或負面的電影評論。采用LSTM模型進行分類，該模型包含兩層結構，嵌入維度64，隱藏維度128。
分子QM9任務：該數據是小分子及其性質的數據庫。采用圖卷積神經網絡（GCNN）預測各向同性極化率。該GCNN包含2個帶ReLU激活的卷積層和1個線性層。
MNIST任務：在MNIST數據集上訓練寬度200、深度3的ReLU多層感知機（MLP），采用均方誤差損失。

除此之外，Abramov等人[8]提出定向數據合成方法，在基于真實維基百科的多跳問答（Multi-hop QA）任務中，實驗表明當比例系數超過特定閾值時，頓悟隨即出現。這意味著，不需要復雜的提示工程，只要給模型足夠的時間去頓悟，它就能自動學會進行多步推理。

3.4 大語言模型

現有關于頓悟的研究通常針對一兩個高度特定或玩具級任務訓練小型模型數千個周期，而Li等人[9]首次基于7B參數大語言模型（LLM）OLMoE的單次預訓練過程展開研究，他們計算OLMoE在預訓練數據上的訓練損失，并在多樣化基準任務（包括數學推理、代碼生成、常識/領域知識檢索任務）上評估其泛化性能，該研究首次證實頓悟現象在實用化大規模基礎模型的預訓練中依然存在，但不同數據可能異步進入其頓悟階段。

4. 頓悟現象的可解釋性分析

盡管人工智能神經網絡在各種任務中非常出色，但它們的內部機制仍然像過去一樣難以理解。研究人員一直在尋找任何可以深入了解這些模型的線索。頓悟現象的發現促使了很多后續研究，很多人已經復現了這些結果，甚至進行了逆向工程。最近發表的研究論文不僅闡明了這些神經網絡在頓悟時正在做什么，還提供了一個新的視角來審視它們的內部機制。麻省理工學院的 Eric Michaud 評價，頓悟現象中數據的設置就像是一個很好的模式生物，觀察這個生物體內部有助于理解深度學習的許多不同方面。現就職于倫敦谷歌深度思維的 Neel Nanda 也認為，挖掘模型頓悟的內部原理，不僅能發現美麗的結構，而且這種美麗的結構對于理解內部發生的事情非常重要[10]。這些模型內部表征的研究揭示了神經網絡在處理復雜任務時的內部運作機制，進一步驗證了頓悟現象的可重復性和可解釋性。通過深入分析內部結構，科學家們能夠更好地理解神經網絡如何逐步構建和優化其認知模型，從而為未來的AI研究提供了寶貴的理論基礎和實踐指導。

4.1 結構化表征

OpenAI團隊在發現頓悟最初就對模型輸出層的權重進行了可視化（使用t-SNE），發現網絡學到的符號嵌入中出現了可識別的數學結構[1]，例如下圖所示，在模加法任務中，嵌入空間中出現了圓形拓撲結構，表現出模運算的循環性質；在對稱群S5任務中，嵌入空間中出現了子群和陪集的結構，顯示出神經網絡對群結構的理解。

群運算和模加法運算的嵌入空間結構（左：群運算，右：模加法運算）。左圖為在S5群運算上訓練的網絡輸出層權重的t-SNE投影，可以觀察到排列的聚類，每個聚類都是子群 ? ( 0 , 3 ) ( 1 , 4 ) , ( 1 , 2 ) ( 3 , 4 ) ? 或其共軛子群的陪集。右圖是在模加法上訓練的網絡輸出層權重的t-SNE投影，線條表示每個元素加8的結果，顏色表示各元素模8的余數。模加法對應的圓環拓撲結構通過"將每個元素加8"形成的"數軸"得以呈現，這種結構在采用權重衰減優化的網絡中表現得更為明顯。

盡管對于神經網絡來說，輸入是無內在先驗結構與意義的符號，網絡仍能從它們的交互中推斷出結構，并形成有意義的嵌入表示，這表明神經網絡不僅能記憶訓練數據，還能從有限樣本中歸納出抽象關系。

劉子鳴在他們的論文[6]里更明確地指出，泛化的發生與輸入嵌入高度結構化的出現直接相關。他們發現，在玩具模型中，這種結構表現為嵌入向量形成平行四邊形結構；在模運算中，表現為圓形結構。當且僅當模型學到了這種結構，它才能進行泛化。為了精確衡量結構化程度，他們還提出了一個可量化的指標——表征質量指數（RQI）。RQI 衡量的是學習到的嵌入在多大程度上滿足任務所要求的數學關系（例如，在加法中，檢查有多少 ( i , j , m , n ) 四元組滿足 E i + E j = E m + E n ）。實驗表明，RQI 與模型的泛化準確率高度一致，證實了結構化表征是泛化的直接原因。

4.2 時鐘和披薩算法

Nanda 的工作重點是逆向工程訓練好的神經網絡，以弄清楚它學習了哪些算法[3]。他設計了一個更簡單的神經網絡版本，以便在模型學習模塊化算術時仔細檢查其參數。他觀察到了相同的行為：過擬合逐漸讓位于泛化，測試準確率突然提高。他的網絡也在將數字排列成圓形。

經過一番努力，Nanda最終弄清了原因。當將數字表示在圓形時鐘上時，網絡并不是像看時鐘的小學生那樣簡單地數數，而是在進行一些復雜的數學操作。通過研究網絡參數的值，Nanda和同事們發現，它通過對這些時鐘數字進行“離散傅里葉變換”來相加——使用正弦和余弦等三角函數轉換數字，然后利用三角恒等式對這些值進行操作以得出解決方案。

劉子鳴團隊繼續研究了Nanda的工作，他們展示了這些“理解”神經網絡并不總是發現這個“時鐘”算法，有時會找到研究人員稱之為“披薩”的算法[11]。這種方法設想一個披薩被分成若干片并按順序編號，要加兩個數，想象從披薩中心指向所問數字的箭頭，然后計算由前兩個箭頭形成的角度的角平分線。這條線穿過披薩某一片的中間：這一片的編號就是兩個數的和。這些操作也可以用三角函數和代數操作來表示，即對 a 和 b 的正弦和余弦進行操作，理論上它們與時鐘方法一樣精確。時鐘和披薩算法的原理如下圖所示：

時鐘與披薩算法示意圖。左側為Clock算法，右側為Pizza算法。兩者均包含三個核心步驟：輸入嵌入（Embed）、中間計算（MLP/Transformer）、輸出預測（Unembed/Logit），但中間計算邏輯存在本質差異。時鐘算法模擬時鐘指針相加:將 a 和 b 對應的角度直接相加，得到和 a + b 對應的角度，再映射到結果 c 。披薩算法通過 a 和 b 的平均值向量所在的“披薩切片"區域判斷結果。平均值向量的角度由 a + b 決定，長度由 a ? b 決定。

劉子鳴說：“時鐘算法和披薩算法都有這種循環表示，但是它們利用正弦和余弦的方式不同。這就是我們稱它們為不同算法的原因。”而且這還不是全部。在訓練多個網絡進行模運算后，他們發現，這些網絡中發現的大約40%的算法是披薩算法或時鐘算法的變種，而目前還無法精確破譯。對于披薩算法和時鐘算法，“它只是碰巧找到了一些我們能人類解讀的東西。”劉說道。

4.3 控制權之爭

研究人員也開始理解網絡頓悟數據的過程。Varma 等人指出，模型執行任務時存在兩種機制：高效但學習慢的泛化機制，和低效但學習快的記憶算法。頓悟現象的突然性源于記憶機制與泛化算法之間主導性的轉換——只有當模型完全抑制了其記憶機制之后，泛化能力才會真正顯現出來，并且存在一個數據集規模的臨界值 crit [12]。因此，雖然泛化能力的延遲似乎突然出現，但網絡內部參數實際上一直在學習泛化算法。只有當網絡既學會了泛化算法，又完全消除了記憶算法時，才能實現頓悟。Nanda說：“看似突然的事情，實際上可能表面之下是漸進的”，這個問題在其他機器學習研究中也出現過。

并且，由于臨界數據集規模 crit 決定記憶和泛化競爭結果，通過控制數據集規模可衍生逆頓悟（ungrokking）和半頓悟（semi-grokking）現象。逆頓悟現象是指若對已完成頓悟的網絡在新數據集（滿足 < crit 條件）上繼續訓練，網絡會退化為顯著記憶狀態，導致測試損失重新惡化。半頓悟是指當 ≈ crit 時，記憶算法與泛化算法在收斂過程中相互競爭，因此我們觀察到測試損失有所改善但未達完美。

進一步地，Huang等人[13]對記憶與泛化之爭產生的不同訓練動態進行了更詳細的定義和劃分，他們研究了模型隱空間維度和訓練數據量如何影響模型訓練動態，并根據這兩個參數繪制出相空間，每個區域對應實驗中觀察到的不同訓練動態，如下圖所示：

不同配置與訓練數據量下模型表現出的動態差異與相圖。左圖展示了隨著模型規模增大而提升的記憶能力與降低的臨界數據集規模，可以將圖像劃分為四個區域——漸進區、記憶區、半頓悟區和頓悟區。每個區域對應右側展示的特定訓練動態特征，關鍵交點處標注了估計值。

各子圖呈現特定訓練動態如下：

(a)漸進區(progressing)：當訓練數據量超過模型記憶容量時，模型無法完全記憶所有數據，表現為先以零驗證精度盡可能記憶訓練數據，隨后在保持訓練精度提升的同時對部分驗證數據產生泛化能力；

(b)記憶區(memorization)：小規模訓練數據下，模型能完全記憶且記憶回路效率優于泛化機制，因此僅表現為對訓練數據的記憶行為，驗證精度始終為零；

(c)半頓悟區(semi-grokking)：當訓練數據量接近臨界規模時，模型在完成全記憶后會表現出中等程度的泛化能力；

(d)頓悟區(grokking)：訓練數據量超越臨界規模后，泛化回路效率超越記憶機制，導致模型在訓練性能達到完美后經歷長期延遲才實現從記憶到泛化的轉變。

4.4 參數空間

研究人員對頓悟過程的參數空間進行了一系列的分析，以探索模型內部真實變化。最初科學家們發現，使用權重衰減的訓練方式能顯著提升嵌入的結構化程度[1]。權重范數（Weight Norms）最近的研究也認為參數權重的L2 norm是結構頓悟的重要量。總體上來說，訓練過程中范數（Norms）增長被作為神經網絡泛化的關鍵因素之一進行了研究。通過分析權重范數，研究者也提出了關于頓悟現象的解釋：

研究者認為，訓練損失與測試損失景觀之間的不匹配是導致頓悟的原因[7]。兩者在權重范數 w > w c 區域的不匹配導致快慢動力學機制，從而產生頓悟現象。在權重范數較大時，模型很容易過擬合訓練數據，使得訓練損失較低。只有在權重范數接近“Goldilocks zone”時，測試損失才較低，模型泛化性能較好。如果模型權重范數初始化為較大值，模型會首先快速移動到一個過擬合的解，因為此時訓練損失最小化，在沒有正則化的情況下模型會停留在過擬合的狀態，因為訓練損失在過擬合解的山谷中梯度幾乎為零，泛化不會發生。

由于訓練損失和測試損失（相對于模型權重范數）通常分別呈現“L”形和“U”形，人們將其稱為“LU機制”。這一簡單機制可以很好地解釋頓悟的諸多特征：數據規模依賴性、權重衰減依賴性、表征的涌現等。基于這一直觀圖像，研究者們成功在涉及圖像、語言和分子的任務中誘導出了頓悟現象。

4.5 特征學習

而從訓練動力學的角度探索模型，可將神經網絡的訓練動態分為兩個階段，惰性訓練動態和豐富的特征學習動態。在惰性訓練動態階段，網絡參數 w 幾乎停留在初始點 w 0 附近，網絡行為接近一個關于參數的線性模型：網絡通過初始神經切線核（NTK）提供的特征來擬合數據，此時訓練相當于進行一次固定核的核回歸（Kernel Regression）。隨著訓練推進，參數更新幅度逐漸增大，網絡不再保持線性近似。這時網絡不再依賴初始NTK，而是通過學習生成新的特征空間，更好地捕捉數據的結構。

為了讓訓練發生從惰性到特征學習的轉變，需要同時滿足：

初始特征未對齊（misaligned NTK）：若初始NTK特征與任務標簽方向接近，則惰性模型已能泛化，不會出現頓悟。
中等規模數據集
惰性初始（小步長 / 大 α 值）：訓練初期參數變化緩慢，維持線性化狀態，使得網絡需較長時間才過渡到特征學習階段。

這些條件共同導致訓練曲線出現延遲分離和突然收斂的頓悟現象[14]。

5. 促進頓悟的方法

促進頓悟這一系列研究旨在減少記憶與泛化之間的延遲效應，從而使模型更快泛化，從而也被叫做“消除頓悟”。

5.1 權重范數

其中的一個關鍵發現與權重范數有關，可以理解為模型參數的體積或規模。在可解釋性部分的參數空間小節，我們講過，研究者們認為存在一個“黃金泛化區”，當模型規模恰好處于這個區間時，最容易學到真本領。于是，他們想出了一個巧妙的辦法：在訓練期間，使用一種約束技術，將模型的體積始終固定在這個最佳區域附近[7]。這就好比直接為模型規劃好了最佳的學習路徑，讓它無法繞遠去死記硬背，從而被迫從一開始就尋找通用的解決方案，極大地縮短了從記憶到泛化的等待時間，實現了頓悟的消除。

5.2 慢梯度增強(Slow Gradient Amplification)

這項名為 Grokfast 的研究發現造成頓悟的原因在于梯度的頻率特性[15]：

快梯度（高頻信號）：像噪音一樣劇烈抖動，主要導致模型死記硬背訓練數據。
慢梯度（低頻信號）：像洋流一樣緩慢且堅定，這才是推動模型理解通用規律的關鍵力量。

該方法的解決思路非常巧妙，即“濾噪存真”：把訓練過程中的梯度看作隨時間變化的信號。他們引入了一個簡單的低通濾波器（Low-Pass Filter），過濾掉那些雜亂的快梯度，提取出代表長期趨勢的慢梯度，并將其人為放大疊加回去。結果顯示，這種慢梯度增強策略能讓模型頓悟的速度提升 50 倍，只需幾行代碼即可實現，無需昂貴的算力堆疊。

5.3 頓悟彩票（Grokking Ticket）

“頓悟彩票”（Grokking Ticket）這個方法橋接了兩個重要的神經網絡研究領域：Lottery Ticket Hypothesis (LTH, 彩票假設) 和頓悟現象。LTH 認為，任何一個隨機初始化的大型神經網絡（密集網絡）內部，都包含一個或多個稀疏子網絡。這些子網絡如果單獨從原始權重初始化并訓練，能夠比完整網絡更快、更好地收斂，達到相似的甚至更高的性能。LTH 將這些優秀的稀疏子網絡比喻為中獎的“彩票”（Winning Ticket）。這意味著成功的關鍵不在于網絡有多大，而在于在隨機初始化中“抽中”了哪個具備優秀拓撲結構的子集。

研究者們認為頓悟的延遲現象，并非單純在等待權重衰減降低參數范數，而是在高維參數空間中搜索并鎖定一個具備泛化能力的稀疏子網絡結構。所謂的“彩票假設掩碼”方法，實際上是一種提取并利用后驗結構知識的過程[16]：

首先將一個密集網絡訓練至完全泛化狀態，此時網絡內部的功能回路已經形成。通過幅度剪枝（Magnitude Pruning），保留權重絕對值較大的連接，將其拓撲結構固化為一個二值掩碼（Binary Mask），然后將此掩碼應用于一個隨機初始化的網絡。這意味著在訓練伊始，就強行約束了網絡的拓撲結構，使其僅在被篩選出的特定子空間內進行優化。該方法之所以能消除泛化延遲，其核心機理包含兩個方面：

拓撲結構即泛化歸納偏置：實驗表明，通過掩碼鎖定的稀疏子網絡本身就編碼了任務所需的良好表征（如模運算任務中的周期性特征）。這種特定的拓撲結構即使在權重隨機初始化時，也具備了快速學習任務特征的能力。

解耦權重優化與結構優化：在標準訓練中，模型需要同時進行參數值的優化和有效結構的篩選。應用掩碼后，模型直接跳過了漫長的“結構搜索”階段，使得訓練準確率與測試準確率同步上升，從而消除了延遲泛化。

5.4 基于預訓練或遷移的加速學習策略

1. 權重初始化

權重初始化的方法即用已頓悟的模型部件來給新模型“開小灶”，由于擁有更多先驗知識，模型得以提前頓悟[17]。方法的具體步驟如下：首先在簡單任務（如模加法）上預訓練一個Transformer直到其頓悟，然后將其組件（嵌入層或整個Transformer主體）取出，作為新模型在相關任務（如模減法、線性表達式）對應組件的初始化權重，并在后續訓練中保持這些權重凍結，以此利用不同任務間內部表示與算法的相似性，顯著加速新任務的頓悟過程。但該方法的成功高度依賴于源任務和目標任務之間的相似性，對于更復雜的操作，簡單移植基礎算術的組件可能不足以提供有效的先驗知識，復雜任務可能需要發現全新的、更復雜的算法。

2. 嵌入遷移

Xu等人提出了 GrokTransfer[18]（嵌入遷移法），提供了消除延遲泛化的一個簡潔而強大的解決方案。其核心洞察是：決定模型能否快速泛化的關鍵，在于它對輸入數據的初始理解，即數據在模型嵌入層中如何被表示和編碼。

嵌入遷移法的步驟可以簡單理解為：

請教弱模型：首先，我們快速訓練一個更小、更弱的模型。這個弱模型雖然無法達到完美性能，但它能以更快的速度學到一個初步但有效的數據結構地圖（即數據的嵌入表示）。

知識遷移：接著，我們將這個弱模型學習到的、帶有有效結構信息的嵌入層參數提取出來。用這些參數來初始化我們真正想要訓練的那個更強大、更復雜的模型的嵌入層。

通過這種方式，強大的目標模型在訓練之初就獲得了高質量的嵌入，不再需要從零開始摸索數據間的潛在聯系。它直接站在了弱模型的肩膀上，因此可以迅速從記憶階段進入泛化階段，大大加速甚至完全消除了原有的泛化延遲現象。

6. 頓悟與其他現象的關聯

6.1 雙降（double descent）

Belkin等人[19]提出的雙下降（Double Descent）現象揭示了模型驗證誤差隨規模變化的非單調模式：誤差先下降，隨后因過擬合噪聲而上升，最終隨著模型容量的進一步擴大而再次下降。Nakkiran等人[20]進一步在多種架構下驗證了這一現象，指出誤差峰值往往出現在訓練誤差趨近于零的臨界區間。

近期研究致力于將雙下降現象與頓悟現象聯系起來。Davies等人[21]提出了一種基于“規模-時間”對偶性的假說，認為兩者本質上反映了模型對不同復雜度模式的學習速率差異：模型傾向于先快速擬合簡單的虛假相關性（導致第一次下降后回升），只有在長時間訓練或更大規模下，才能掌握復雜的泛化模式（導致第二次下降，也即頓悟）。

具體而言，這種關聯的表現形式受限于訓練數據量。當數據量不足（低于特定臨界點）時，模型隨規模擴大會經歷“漸進期—記憶期—半頓悟期—頓悟期”四個階段，其中“記憶期”的性能惡化直接對應雙下降的峰值；反之，當數據量充足時，模型能夠跳過記憶期帶來的負面影響，直接從漸進期過渡到頓悟期，表現為泛化性能的單調提升。

Grokking 現象和雙重下降現象可以被視為同一學習機制在不同條件下的表現。它們都源于一個共同的學習動態：神經網絡的歸納偏置更傾向于選擇那些泛化能力強但學習速度慢的模式，因此模型會經歷一個從“快速學習但泛化差”的模式向“學習慢但泛化好”的模式過渡的過程。

6.2 大語言模型的涌現能力

從記憶與泛化的競爭視角來看，純記憶任務的存在會阻礙模型在記憶完所有訓練數據后完全轉向泛化階段。然而，當模型規模達到足夠大時，其記憶能力會顯著超過訓練數據量，它可以在記住大量信息的同時，借助其強大的內存能力去總結和學習出泛化的規律，從而表現出記憶與泛化等功能分化。

該現象與當前大語言模型（LLM）中觀察到的涌現能力相呼應——由于預訓練階段也可視為多任務學習場景，模型必須在保留海量世界知識的同時，習得上下文學習和多步推理等通用規則與能力。這一觀察也闡釋了Huang等人提出的假設[13]：涌現能力是通過不同神經回路的競爭形成的。盡管當前LLM的能力涌現由諸多復雜因素驅動，頓悟研究將為理解LLM的涌現能力提供新視角，并推動該領域的進一步研究。

Anthropic 的團隊發現，LLM 的上下文學習（In-context Learning）能力的涌現，恰好發生在模型頓悟了“歸納頭”這一特定電路結構的時刻[22]。研究發現，模型在訓練過程中會出現一個短暫的相變時刻（即頓悟）。在這個時刻，驗證集損失突然下降，同時上下文學習能力突然涌現。這種同步發生是因為模型學會了使用歸納頭（Induction Heads）——一種能夠通過查找前文來復制模式的注意力機制電路。這一發現強烈暗示，宏觀的涌現是由微觀電路層面的頓悟驅動的。

The Quantization Model of Neural Scaling這篇文章[23]提供了一個非常漂亮的理論框架，解釋了為什么學習曲線會呈現階梯狀（即包含頓悟和涌現），而不是平滑曲線。作者提出了“神經縮放的量子化模型”（QMNS），他們認為，復雜的任務是由許多離散的“子技能”（Quanta）組成的。隨著模型規模或訓練時間增加，模型并非一點點學好所有知識，而是按順序攻克一個個子技能。每當模型徹底掌握一個關鍵子技能，即對該子技能發生頓悟，整體性能就會出現一次階躍，表現為能力的階段性涌現。將頓悟（時間的階躍）和涌現（規模的階躍）統一到了同一個離散特征學習的框架下。

6.3 反思與批判：頓悟和涌現可能只是“度量的幻覺”

Schaeffer指出，所謂的“尖銳的涌現”或“突然的頓悟”，可能并非模型本身隨規模增長而產生的本質變化[24]，而是由于研究人員選擇的評估指標（如準確率、完全匹配等非線性或不連續指標）對模型逐詞錯誤率進行了非線性或不連續的縮放，從而在特定任務上制造出的假象；若改用線性或連續的指標（如詞編輯距離、Brier分數），則模型性能會呈現平滑、連續、可預測的提升趨勢，所謂的“涌現”現象也隨之消失。這暗示頓悟和涌現可能并非模型內部發生了魔法般的突變，而是模型內部一直在進行平滑的漸進式學習，只是在越過某個閾值后，才被我們粗糙的指標捕捉到。這提示我們需要從不同角度審視與探討頓悟現象。

參考文獻

Power A; Burda Y; Edwards H; Babuschkin I; Misra V (2022). "Grokking: Generalization beyond overfitting on small algorithmic datasets". arXiv.
Wei J; Tay Y; Bommasani R; Raffel C; Zoph B; Borgeaud S; Yogatama D; Bosma M; Zhou D; Metzler D; Chi E. H.; Hashimoto T; Vinyals O; Liang P; Dean J; Fedus W. (2022). "Emergent abilities of large language models". Transactions on Machine Learning Research. ISSN 2835-8856.
Nanda N; Chan L; Lieberum T; Smith J; Steinhardt J (2023). "Progress measures for grokking via mechanistic interpretability". International Conference on Learning Representations (ICLR).
Chughtai B; Chan L; Nanda N (2023). "A toy model of universality: Reverse engineering how networks learn group operations". International Conference on Machine Learning (ICML), PMLR.
Barak B; Edelman B; Goel S; Kakade S; Malach E; Zhang C (2022). "Hidden progress in deep learning: SGD learns parities near the computational limit". Advances in Neural Information Processing Systems. 35: 21750–21764.
Liu Z; Kitouni O; Nolte N S; Michaud E; Tegmark M; Williams M (2022). "Towards understanding grokking: An effective theory of representation learning" (PDF). Advances in Neural Information Processing Systems. 35: 34651–34663.
Liu Z; Michaud E J; Tegmark M (2023). "OMNIGROK: Grokking Beyond Algorithmic Data". International Conference on Learning Representations (ICLR).
Abramov R; Steinbauer F; Kasneci G (2025). "Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers". arXiv.
Li Z; Fan C; Zhou T (2025). "Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test". arXiv.
Pérez I (2024). "How Do Machines Grok Data?". Quanta Magazine.
Zhong Z; Liu Z; Tegmark M; Andreas J (2023). "The clock and the pizza: Two stories in mechanistic explanation of neural networks". Advances in Neural Information Processing Systems. 36: 27223–27250.
Varma V; Shah R; Kenton Z; Kramár J; Kumar R (2023). "Explaining Grokking Through Circuit Efficiency". arXiv.
Huang Y; Hu S; Han X; Liu Z; Sun M (2024). "Unified View of Grokking, Double Descent and Emergent Abilities: A Comprehensive Study on Algorithm Task". First Conference on Language Modeling.
Kumar T; Bordelon B; Gershman S?J; Pehlevan C (2024). "Grokking as the Transition from Lazy to Rich Training Dynamics". Twelfth International Conference on Learning Representations (ICLR).
Lee, J.; Kang, B.?G.; Kim, K.; Lee, K.?M. (2024). "Grokfast: Accelerated Grokking by Amplifying Slow Gradients". arXiv:2405.20233.
Minegishi G; Iwasawa Y; Matsuo Y (2023). "Bridging Lottery ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization?". arXiv preprint arXiv:2310.19470.
Furuta, H.; Minegishi, G.; Iwasawa, Y.; Matsuo, Y. (2024). "Towards Empirical Interpretation of Internal Circuits and Properties in Grokked Transformers on Modular Polynomials". Transactions on Machine Learning Research. ISSN 2835-8856.
Xu Z; Ni Z; Wang Y; Hu W (2025). "Let me grok for you: Accelerating grokking via embedding transfer from a weaker model". arXiv preprint arXiv:2504.13292.
Belkin M; Hsu D; Ma S; Mandal S (2019). "Reconciling modern machine-learning practice and the classical bias–variance trade-off". Proceedings of the National Academy of Sciences. 116 (32): 15849–15854.
Nakkiran P; Kaplun G; Bansal Y; Yang T; Barak B; Sutskever I (2021). "Deep double descent: Where bigger models and more data hurt". Journal of Statistical Mechanics: Theory and Experiment. 2021 (12): 124003.
Davies X; Langosco L; Krueger D (2023). "Unifying grokking and double descent". arXiv preprint arXiv:2303.06173.
Olsson C; Elhage N; Nanda N; Joseph N; DasSarma N; Henighan T; Mann B; Askell A; Bai Y; Chen A (2022). "In-context learning and induction heads". arXiv preprint arXiv:2209.11895.
Michaud E; Liu Z; Girit U; Tegmark M (2023). "The quantization model of neural scaling". Advances in Neural Information Processing Systems. 36: 28699–28722.
Schaeffer R; Miranda B; Koyejo S (2023). "Are emergent abilities of large language models a mirage?". Advances in Neural Information Processing Systems. 36: 55565–55581.

參考文獻可上下滑動查看

本詞條由集智俱樂部眾包生產，難免存在紕漏和問題，歡迎大家留言反饋，一經采納，可以獲得對應的積分獎勵噢！

親愛的社區伙伴與知識探索者：

我們誠摯邀請熱愛知識分享的您，加入集智百科詞條編寫志愿團隊！無論您是領域專家，還是對特定主題充滿熱忱的學習者，這里都有您的舞臺。通過編寫百科詞條，您將為全球讀者傳遞權威知識，同時獲得專家指導與個人能力躍升的雙重成長。

志愿者職責

創作新詞條：覆蓋復雜系統、人工智能等前沿領域

迭代經典內容：更新現有詞條，守護知識的準確性與時效性

質量守護者：參與內容校對審核，共建精品知識庫

我們期待您

集智讀書會成員（需完成一期字幕任務）

擁有清晰表達復雜概念的寫作能力

對特定領域有深度研究或強烈興趣

具備信息檢索與整合素養

懷揣責任感與協作精神，愿為知識共享賦能

您將收獲

百科積分（支持兌換集智俱樂部周邊：文化衫、復雜科學知識卡以及提現）

集智俱樂部創始人張江教授親自指導寫作

科研志愿者晉升通道：表現優異者可加入張江教授科研團隊從事科研志愿者

你的百科貢獻之路，從一字一句開始！

第一步，從成為一名字幕志愿者開始！

只需完成一期讀書會講座字幕任務，這不僅是貢獻，更是一次深度的學習。字幕任務過關后，您將升級為“百科志愿者”，開啟編輯詞條、整理術語的進階旅程。

從字幕到百科，這是一條清晰的成長路徑。立即行動，從第一個任務開始你的升級吧！

計算神經科學第三季讀書會

從單個神經元的放電到全腦范圍的意識涌現，理解智能的本質與演化始終是一個關于尺度的問題。更值得深思的是，無論是微觀的突觸可塑性、介觀的皮層模塊自組織，還是宏觀的全局信息廣播，不同尺度的動力學過程都在共同塑造著認知與意識。這說明，對心智的研究從最初就必須直面一個核心挑戰：局部的神經活動如何整合為統一的體驗？局域的網絡連接又如何支撐靈活的智能行為？

繼「」與「」讀書會后，集智俱樂部聯合來自數學、物理學、生物學、神經科學和計算機的一線研究者共同發起，跨越微觀、介觀與宏觀的視角，探索意識與智能的跨尺度計算、演化與涌現。重點探討物理規律與人工智能如何幫助我們認識神經動力學，以及神經活動跨尺度的計算與演化如何構建微觀與宏觀、結構與功能之間的橋梁。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.