![]()
來源:集智俱樂部
作者:陶柯霏
目錄
1. 歷史
1.1 頓悟的發(fā)現(xiàn)
2. 相關(guān)基礎(chǔ)知識(shí)
2.1 神經(jīng)網(wǎng)絡(luò)的記憶(Memorization)與泛化(Generalization)
2.2 神經(jīng)網(wǎng)絡(luò)中的涌現(xiàn)(Emergent Abilities)
2.3 早停機(jī)制(Early Stop)
3. 頓悟的場景
3.1 模運(yùn)算
3.2 其他算法任務(wù)
3.3 非算法任務(wù)
3.4 大語言模型
4. 頓悟現(xiàn)象的可解釋性分析
4.1 結(jié)構(gòu)化表征
4.2 時(shí)鐘和披薩算法
4.3 控制權(quán)之爭
4.4 參數(shù)空間
4.5 特征學(xué)習(xí)
5. 促進(jìn)頓悟的方法
5.1 權(quán)重范數(shù)
5.2 慢梯度增強(qiáng)(Slow Gradient Amplification)
5.3 頓悟彩票(Grokking Ticket)
5.4 基于預(yù)訓(xùn)練或遷移的加速學(xué)習(xí)策略
6. 頓悟與其他現(xiàn)象的關(guān)聯(lián)
6.1 雙降(double descent)
6.2 大語言模型的涌現(xiàn)能力
6.3 反思與批判:頓悟和涌現(xiàn)可能只是“度量的幻覺”
你是否經(jīng)歷過學(xué)習(xí)中的“靈光一現(xiàn)”?其實(shí),人工智能模型也有這樣的時(shí)刻。
神經(jīng)網(wǎng)絡(luò)中的頓悟(grokking)指的是一種反直覺的現(xiàn)象:當(dāng)模型在訓(xùn)練過程中看似已經(jīng)“死記硬背”(過擬合)而無法處理新數(shù)據(jù)時(shí),如果我們不停止訓(xùn)練、堅(jiān)持讓它繼續(xù)“思考”,它可能會(huì)在某個(gè)臨界點(diǎn)突然“開竅”,從而掌握數(shù)據(jù)背后的真實(shí)規(guī)律,實(shí)現(xiàn)泛化能力的飛躍。
我們可以用一個(gè)學(xué)生做題的例子來理解:想象一個(gè)剛學(xué)加法的小孩,起初他只是把練習(xí)冊上的答案全背了下來(訓(xùn)練準(zhǔn)確率100%),但一旦遇到?jīng)]見過的數(shù)字就束手無策(測試準(zhǔn)確率接近0%)。按照常規(guī)判斷,這個(gè)孩子只是在死記硬背。
然而,如果還要讓他繼續(xù)反復(fù)看這些題,經(jīng)過漫長的枯燥過程后,由于某種原因,他突然理解了加法的原理。那一瞬間,他不僅能背出舊題,也能完美解決所有新題。這種從死記硬背到真正理解的延遲性突變,就是頓悟。在神經(jīng)網(wǎng)絡(luò)中,體現(xiàn)為如下圖所示的泛化延遲:
![]()
頓悟現(xiàn)象的直觀展示:訓(xùn)練和驗(yàn)證集上準(zhǔn)確率曲線間的上升延遲
1. 歷史
1.1 頓悟的發(fā)現(xiàn)
OpenAI在ICLR2021數(shù)學(xué)推理workshop中發(fā)布的論文《Grokking: Generalization beyond overfitting on small algorithmic datasets》[1],首次引入了神經(jīng)網(wǎng)絡(luò)中的頓悟(grokking)概念。而頓悟現(xiàn)象的發(fā)現(xiàn)其實(shí)源于一個(gè)有趣的巧合:當(dāng) OpenAI 團(tuán)隊(duì)開始探索神經(jīng)網(wǎng)絡(luò)如何進(jìn)行數(shù)學(xué)運(yùn)算時(shí),他們使用一個(gè)小型 Transformer來進(jìn)行模加法運(yùn)算(( a + b ) mod p = c ),測試了 Transformer 在未知的 a 和 b 組合下能否正確預(yù)測答案 c 。正如預(yù)期,當(dāng)網(wǎng)絡(luò)進(jìn)入過擬合狀態(tài)時(shí),訓(xùn)練數(shù)據(jù)的損失接近于零(它開始記憶所見內(nèi)容),而測試數(shù)據(jù)的損失開始上升,即神經(jīng)網(wǎng)絡(luò)沒有泛化能力。然而,在一次實(shí)驗(yàn)中,負(fù)責(zé)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的那位成員忘記了停止訓(xùn)練,隨著長時(shí)間繼續(xù)訓(xùn)練它突然在未見過數(shù)據(jù)上變得準(zhǔn)確,測試數(shù)據(jù)的準(zhǔn)確率飆升到接近100%,這說明模型已經(jīng)完全理解了運(yùn)算規(guī)則。隨后,團(tuán)隊(duì)使用不同的任務(wù)和不同的網(wǎng)絡(luò)驗(yàn)證了結(jié)果,這一發(fā)現(xiàn)得到了證實(shí)。
2. 相關(guān)基礎(chǔ)知識(shí)
2.1 神經(jīng)網(wǎng)絡(luò)的記憶(Memorization)與泛化(Generalization)
記憶指網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)的擬合能力。強(qiáng)大的記憶力能讓模型在訓(xùn)練集上表現(xiàn)完美,但如果過強(qiáng),模型可能會(huì)記住數(shù)據(jù)所包含的噪聲或偶然細(xì)節(jié),導(dǎo)致過擬合。泛化指模型將學(xué)到的規(guī)律應(yīng)用到未見過的樣本上的能力,提升泛化能力是機(jī)器學(xué)習(xí)的核心目標(biāo)。
記憶與泛化兩者需要平衡,既要有足夠容量去擬合數(shù)據(jù)中存在的真實(shí)模式,又要通過正則化、早停、交叉驗(yàn)證等手段抑制過擬合。直觀地說,記憶像“背答案”,泛化像“學(xué)方法、會(huì)舉一反三”;實(shí)踐中人們通常以降低驗(yàn)證誤差為目標(biāo),避免訓(xùn)練誤差下降而驗(yàn)證誤差上升的過擬合,也避免訓(xùn)練與驗(yàn)證誤差都高的欠擬合。
2.2 神經(jīng)網(wǎng)絡(luò)中的涌現(xiàn)(Emergent Abilities)
頓悟是一種特殊的涌現(xiàn)現(xiàn)象,表現(xiàn)為泛化能力的突然躍升,可以被視為一種時(shí)間維度上的涌現(xiàn)。在大語言模型(LLM)發(fā)展時(shí)代,神經(jīng)網(wǎng)絡(luò)中涌現(xiàn)的概念已經(jīng)引發(fā)了廣泛關(guān)注。已有研究者系統(tǒng)研究了不同模型的能力差異,將大模型的涌現(xiàn)定義為小型模型不具備、但突然出現(xiàn)在大型模型中的能力特征[2]。而頓悟則是隨著訓(xùn)練時(shí)間(步數(shù))的增加,模型能力發(fā)生的突變。兩者都展示了深度神經(jīng)網(wǎng)絡(luò)在跨過某個(gè)臨界閾值后,性能發(fā)生質(zhì)變的非線性特征。
2.3 早停機(jī)制(Early Stop)
為了防止過擬合,機(jī)器學(xué)習(xí)界長期遵循一個(gè)黃金法則:在驗(yàn)證集性能不再提升時(shí)停止訓(xùn)練。這種策略被稱為早停機(jī)制,是一種簡單有效的正則化方法:在訓(xùn)練過程中持續(xù)監(jiān)控驗(yàn)證集指標(biāo)(如驗(yàn)證損失或準(zhǔn)確率),當(dāng)該指標(biāo)在若干輪內(nèi)不再改善即停止訓(xùn)練,以防模型在訓(xùn)練集上繼續(xù)降低損失、卻在驗(yàn)證集上開始惡化而產(chǎn)生過擬合。
3. 頓悟的場景
起初,頓悟似乎只是簡單數(shù)學(xué)玩具模型的一個(gè)特性,但隨著研究深入,人們發(fā)現(xiàn)從圖像識(shí)別到大語言模型,頓悟無處不在。
3.1 模運(yùn)算
最初關(guān)于模型頓悟的研究大多在Transformer執(zhí)行模運(yùn)算任務(wù)上進(jìn)行[1][3]。為什么選擇用模運(yùn)算任務(wù)?是因?yàn)樾⌒退惴〝?shù)據(jù)集在研究神經(jīng)網(wǎng)絡(luò)泛化能力上具有重要作用:它構(gòu)成了一個(gè)代數(shù)結(jié)構(gòu)嚴(yán)密且特征獨(dú)立的小樣本空間,且具有強(qiáng)烈的離散性;在數(shù)據(jù)有限、規(guī)則清晰的情況下,模型必須理解隱藏在數(shù)據(jù)中的模式和規(guī)律才能實(shí)現(xiàn)泛化,有助于快速驗(yàn)證頓悟理論和假設(shè),加深對神經(jīng)網(wǎng)絡(luò)泛化能力的理解。因此,模運(yùn)算成為了觀察模型從“機(jī)械記憶”向“算法泛化”轉(zhuǎn)變的最佳受控實(shí)驗(yàn)場,能清晰地展示泛化能力突變的動(dòng)態(tài)過程。
模運(yùn)算數(shù)據(jù)集通常由形如 a ° b mod p = c 的方程組成,其中每個(gè)元素" a "、" ° "、" b "、" m o d "、" p "、" = "和" c "均為獨(dú)立token,可寫作 < c >=< a >< o p >< b >< m o d >< p > ,其中 < o p > 是運(yùn)算符,通常在一個(gè)任務(wù)中只有 a , b , c 三個(gè)數(shù)字變量,也有研究試驗(yàn)了對于不同運(yùn)算符的泛化效果。除了首次發(fā)現(xiàn)頓悟現(xiàn)象的模加法運(yùn)算,研究者們已經(jīng)在以下多種類型模運(yùn)算上進(jìn)行了實(shí)驗(yàn),驗(yàn)證了頓悟并非偶然的個(gè)例,而是一個(gè)真實(shí)存在的規(guī)律:
![]()
3.2 其他算法任務(wù)
除了模運(yùn)算,研究者還在以下數(shù)學(xué)任務(wù)中觀察到了頓悟:
1. 群運(yùn)算(Group Operations):這是模運(yùn)算的推廣。Chughtai 等人[4]訓(xùn)練MLP模型在階數(shù)為 ∣ G ∣= n 的有限群上執(zhí)行群組合運(yùn)算,發(fā)現(xiàn)模型表現(xiàn)出頓悟現(xiàn)象。該任務(wù)模型輸入為有序?qū)? ( a , b ) (其中 a , b ∈ G ),訓(xùn)練目標(biāo)是預(yù)測群元素 c = a b 。值得注意的是,模運(yùn)算任務(wù)是該任務(wù)的特例——因?yàn)槟?13加法運(yùn)算等價(jià)于113階循環(huán)群的組合運(yùn)算。
2. n位k稀疏奇偶校驗(yàn)(Parity Check):這是一個(gè)典型離散搜索問題。Barak等人[5]通過大量實(shí)驗(yàn)證明,使用標(biāo)準(zhǔn)初始化(均勻、高斯、伯努利)和標(biāo)準(zhǔn)訓(xùn)練(SGD)的各種神經(jīng)網(wǎng)絡(luò)架構(gòu)(包括 2 層 MLP、特定設(shè)計(jì)的單神經(jīng)元網(wǎng)絡(luò)、Transformer、PolyNet),能夠在訓(xùn)練步數(shù)接近計(jì)算極限 n O ( k ) 的情況下,成功學(xué)習(xí) k-稀疏 n 位奇偶函數(shù),即從 n 個(gè)比特中找出 k 個(gè)關(guān)鍵比特,并計(jì)算它們的異或作為標(biāo)簽。
2023年,Nanda等人[3]發(fā)現(xiàn)有限數(shù)據(jù)是頓悟現(xiàn)象的必要條件,而無限數(shù)據(jù)會(huì)導(dǎo)致模型直接泛化,并在以下三種運(yùn)算中證實(shí)這一現(xiàn)象:
3. 5位數(shù)加法:該任務(wù)輸入兩個(gè)隨機(jī)生成的5位數(shù)(例如 12345 + 67890),模型需預(yù)測其和的每一位數(shù)字(如 80235 的 8,0,2,3,5)。在1層完整Transformer上,訓(xùn)練數(shù)據(jù)限制為700個(gè)樣本時(shí)出現(xiàn)頓悟;使用隨機(jī)生成的無限數(shù)據(jù)時(shí)未出現(xiàn)頓悟。
4. 重復(fù)子序列預(yù)測:該任務(wù)生成均勻分布的隨機(jī)符號序列,隨機(jī)選擇子序列進(jìn)行重復(fù),訓(xùn)練模型預(yù)測被重復(fù)的符號(如 7,2,8,3, 1,9,3,8,3, 1,9,9,2,5,其中 1,9 為重復(fù)子序列)。在2層僅注意力Transformer上,訓(xùn)練數(shù)據(jù)限制為512個(gè)樣本時(shí)出現(xiàn)頓悟;使用隨機(jī)生成的無限數(shù)據(jù)時(shí)未出現(xiàn)頓悟,形成歸納頭后直接泛化。
5. 跳躍三元組(skip trigram):該任務(wù)的輸入是由0到19構(gòu)成的符號序列(其中恰好一個(gè)符號≥10),模型需輸出≥10的符號。如 [0,3,15,7,...,2],模型需輸出該特殊token 15。在1層僅注意力Transformer上,訓(xùn)練數(shù)據(jù)限制為512個(gè)樣本時(shí)出現(xiàn)頓悟;使用隨機(jī)生成的無限數(shù)據(jù)時(shí)未出現(xiàn)頓悟,而是直接學(xué)習(xí)了所有跳躍三元組規(guī)則。
3.3 非算法任務(wù)
頓悟不僅僅存在于完美的數(shù)學(xué)公式中,劉子鳴團(tuán)隊(duì)在2022年[6]首次證明,頓悟現(xiàn)象是機(jī)器學(xué)習(xí)中更為普遍的現(xiàn)象,不僅出現(xiàn)在算法數(shù)據(jù)集上,也會(huì)出現(xiàn)在主流基準(zhǔn)數(shù)據(jù)集中,例如MNIST數(shù)據(jù)集;并通過調(diào)整優(yōu)化超參數(shù)能夠?qū)崿F(xiàn)對頓悟的控制,發(fā)現(xiàn)顯式增加初始化權(quán)重范數(shù)會(huì)誘發(fā)頓悟現(xiàn)象,并在以下三種非算數(shù)任務(wù)上得到了證明[7]:
IMDb文本情感分析任務(wù):該數(shù)據(jù)集包含5萬條需分類為正面或負(fù)面的電影評論。采用LSTM模型進(jìn)行分類,該模型包含兩層結(jié)構(gòu),嵌入維度64,隱藏維度128。
分子QM9任務(wù):該數(shù)據(jù)是小分子及其性質(zhì)的數(shù)據(jù)庫。采用圖卷積神經(jīng)網(wǎng)絡(luò)(GCNN)預(yù)測各向同性極化率。該GCNN包含2個(gè)帶ReLU激活的卷積層和1個(gè)線性層。
MNIST任務(wù):在MNIST數(shù)據(jù)集上訓(xùn)練寬度200、深度3的ReLU多層感知機(jī)(MLP),采用均方誤差損失。
除此之外,Abramov等人[8]提出定向數(shù)據(jù)合成方法,在基于真實(shí)維基百科的多跳問答(Multi-hop QA)任務(wù)中,實(shí)驗(yàn)表明當(dāng)比例系數(shù)超過特定閾值時(shí),頓悟隨即出現(xiàn)。這意味著,不需要復(fù)雜的提示工程,只要給模型足夠的時(shí)間去頓悟,它就能自動(dòng)學(xué)會(huì)進(jìn)行多步推理。
3.4 大語言模型
現(xiàn)有關(guān)于頓悟的研究通常針對一兩個(gè)高度特定或玩具級任務(wù)訓(xùn)練小型模型數(shù)千個(gè)周期,而Li等人[9]首次基于7B參數(shù)大語言模型(LLM)OLMoE的單次預(yù)訓(xùn)練過程展開研究,他們計(jì)算OLMoE在預(yù)訓(xùn)練數(shù)據(jù)上的訓(xùn)練損失,并在多樣化基準(zhǔn)任務(wù)(包括數(shù)學(xué)推理、代碼生成、常識(shí)/領(lǐng)域知識(shí)檢索任務(wù))上評估其泛化性能,該研究首次證實(shí)頓悟現(xiàn)象在實(shí)用化大規(guī)模基礎(chǔ)模型的預(yù)訓(xùn)練中依然存在,但不同數(shù)據(jù)可能異步進(jìn)入其頓悟階段。
4. 頓悟現(xiàn)象的可解釋性分析
盡管人工智能神經(jīng)網(wǎng)絡(luò)在各種任務(wù)中非常出色,但它們的內(nèi)部機(jī)制仍然像過去一樣難以理解。研究人員一直在尋找任何可以深入了解這些模型的線索。頓悟現(xiàn)象的發(fā)現(xiàn)促使了很多后續(xù)研究,很多人已經(jīng)復(fù)現(xiàn)了這些結(jié)果,甚至進(jìn)行了逆向工程。最近發(fā)表的研究論文不僅闡明了這些神經(jīng)網(wǎng)絡(luò)在頓悟時(shí)正在做什么,還提供了一個(gè)新的視角來審視它們的內(nèi)部機(jī)制。麻省理工學(xué)院的 Eric Michaud 評價(jià),頓悟現(xiàn)象中數(shù)據(jù)的設(shè)置就像是一個(gè)很好的模式生物,觀察這個(gè)生物體內(nèi)部有助于理解深度學(xué)習(xí)的許多不同方面。現(xiàn)就職于倫敦谷歌深度思維的 Neel Nanda 也認(rèn)為,挖掘模型頓悟的內(nèi)部原理,不僅能發(fā)現(xiàn)美麗的結(jié)構(gòu),而且這種美麗的結(jié)構(gòu)對于理解內(nèi)部發(fā)生的事情非常重要[10]。這些模型內(nèi)部表征的研究揭示了神經(jīng)網(wǎng)絡(luò)在處理復(fù)雜任務(wù)時(shí)的內(nèi)部運(yùn)作機(jī)制,進(jìn)一步驗(yàn)證了頓悟現(xiàn)象的可重復(fù)性和可解釋性。通過深入分析內(nèi)部結(jié)構(gòu),科學(xué)家們能夠更好地理解神經(jīng)網(wǎng)絡(luò)如何逐步構(gòu)建和優(yōu)化其認(rèn)知模型,從而為未來的AI研究提供了寶貴的理論基礎(chǔ)和實(shí)踐指導(dǎo)。
4.1 結(jié)構(gòu)化表征
OpenAI團(tuán)隊(duì)在發(fā)現(xiàn)頓悟最初就對模型輸出層的權(quán)重進(jìn)行了可視化(使用t-SNE),發(fā)現(xiàn)網(wǎng)絡(luò)學(xué)到的符號嵌入中出現(xiàn)了可識(shí)別的數(shù)學(xué)結(jié)構(gòu)[1],例如下圖所示,在模加法任務(wù)中,嵌入空間中出現(xiàn)了圓形拓?fù)浣Y(jié)構(gòu),表現(xiàn)出模運(yùn)算的循環(huán)性質(zhì);在對稱群S5任務(wù)中,嵌入空間中出現(xiàn)了子群和陪集的結(jié)構(gòu),顯示出神經(jīng)網(wǎng)絡(luò)對群結(jié)構(gòu)的理解。
![]()
群運(yùn)算和模加法運(yùn)算的嵌入空間結(jié)構(gòu)(左:群運(yùn)算,右:模加法運(yùn)算)。左圖為在S5群運(yùn)算上訓(xùn)練的網(wǎng)絡(luò)輸出層權(quán)重的t-SNE投影,可以觀察到排列的聚類,每個(gè)聚類都是子群 ? ( 0 , 3 ) ( 1 , 4 ) , ( 1 , 2 ) ( 3 , 4 ) ? 或其共軛子群的陪集。右圖是在模加法上訓(xùn)練的網(wǎng)絡(luò)輸出層權(quán)重的t-SNE投影,線條表示每個(gè)元素加8的結(jié)果,顏色表示各元素模8的余數(shù)。模加法對應(yīng)的圓環(huán)拓?fù)浣Y(jié)構(gòu)通過"將每個(gè)元素加8"形成的"數(shù)軸"得以呈現(xiàn),這種結(jié)構(gòu)在采用權(quán)重衰減優(yōu)化的網(wǎng)絡(luò)中表現(xiàn)得更為明顯。
盡管對于神經(jīng)網(wǎng)絡(luò)來說,輸入是無內(nèi)在先驗(yàn)結(jié)構(gòu)與意義的符號,網(wǎng)絡(luò)仍能從它們的交互中推斷出結(jié)構(gòu),并形成有意義的嵌入表示,這表明神經(jīng)網(wǎng)絡(luò)不僅能記憶訓(xùn)練數(shù)據(jù),還能從有限樣本中歸納出抽象關(guān)系。
劉子鳴在他們的論文[6]里更明確地指出,泛化的發(fā)生與輸入嵌入高度結(jié)構(gòu)化的出現(xiàn)直接相關(guān)。他們發(fā)現(xiàn),在玩具模型中,這種結(jié)構(gòu)表現(xiàn)為嵌入向量形成平行四邊形結(jié)構(gòu);在模運(yùn)算中,表現(xiàn)為圓形結(jié)構(gòu)。當(dāng)且僅當(dāng)模型學(xué)到了這種結(jié)構(gòu),它才能進(jìn)行泛化。為了精確衡量結(jié)構(gòu)化程度,他們還提出了一個(gè)可量化的指標(biāo)——表征質(zhì)量指數(shù)(RQI)。RQI 衡量的是學(xué)習(xí)到的嵌入在多大程度上滿足任務(wù)所要求的數(shù)學(xué)關(guān)系(例如,在加法中,檢查有多少 ( i , j , m , n ) 四元組滿足 E i + E j = E m + E n )。實(shí)驗(yàn)表明,RQI 與模型的泛化準(zhǔn)確率高度一致,證實(shí)了結(jié)構(gòu)化表征是泛化的直接原因。
4.2 時(shí)鐘和披薩算法
Nanda 的工作重點(diǎn)是逆向工程訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),以弄清楚它學(xué)習(xí)了哪些算法[3]。他設(shè)計(jì)了一個(gè)更簡單的神經(jīng)網(wǎng)絡(luò)版本,以便在模型學(xué)習(xí)模塊化算術(shù)時(shí)仔細(xì)檢查其參數(shù)。他觀察到了相同的行為:過擬合逐漸讓位于泛化,測試準(zhǔn)確率突然提高。他的網(wǎng)絡(luò)也在將數(shù)字排列成圓形。
經(jīng)過一番努力,Nanda最終弄清了原因。當(dāng)將數(shù)字表示在圓形時(shí)鐘上時(shí),網(wǎng)絡(luò)并不是像看時(shí)鐘的小學(xué)生那樣簡單地?cái)?shù)數(shù),而是在進(jìn)行一些復(fù)雜的數(shù)學(xué)操作。通過研究網(wǎng)絡(luò)參數(shù)的值,Nanda和同事們發(fā)現(xiàn),它通過對這些時(shí)鐘數(shù)字進(jìn)行“離散傅里葉變換”來相加——使用正弦和余弦等三角函數(shù)轉(zhuǎn)換數(shù)字,然后利用三角恒等式對這些值進(jìn)行操作以得出解決方案。
劉子鳴團(tuán)隊(duì)繼續(xù)研究了Nanda的工作,他們展示了這些“理解”神經(jīng)網(wǎng)絡(luò)并不總是發(fā)現(xiàn)這個(gè)“時(shí)鐘”算法,有時(shí)會(huì)找到研究人員稱之為“披薩”的算法[11]。這種方法設(shè)想一個(gè)披薩被分成若干片并按順序編號,要加兩個(gè)數(shù),想象從披薩中心指向所問數(shù)字的箭頭,然后計(jì)算由前兩個(gè)箭頭形成的角度的角平分線。這條線穿過披薩某一片的中間:這一片的編號就是兩個(gè)數(shù)的和。這些操作也可以用三角函數(shù)和代數(shù)操作來表示,即對 a 和 b 的正弦和余弦進(jìn)行操作,理論上它們與時(shí)鐘方法一樣精確。時(shí)鐘和披薩算法的原理如下圖所示:
![]()
時(shí)鐘與披薩算法示意圖。左側(cè)為Clock算法,右側(cè)為Pizza算法。兩者均包含三個(gè)核心步驟:輸入嵌入(Embed)、中間計(jì)算(MLP/Transformer)、輸出預(yù)測(Unembed/Logit),但中間計(jì)算邏輯存在本質(zhì)差異。時(shí)鐘算法模擬時(shí)鐘指針相加:將 a 和 b 對應(yīng)的角度直接相加,得到和 a + b 對應(yīng)的角度,再映射到結(jié)果 c 。披薩算法通過 a 和 b 的平均值向量所在的“披薩切片"區(qū)域判斷結(jié)果。平均值向量的角度由 a + b 決定,長度由 a ? b 決定。
劉子鳴說:“時(shí)鐘算法和披薩算法都有這種循環(huán)表示,但是它們利用正弦和余弦的方式不同。這就是我們稱它們?yōu)椴煌惴ǖ脑颉!倍疫@還不是全部。在訓(xùn)練多個(gè)網(wǎng)絡(luò)進(jìn)行模運(yùn)算后,他們發(fā)現(xiàn),這些網(wǎng)絡(luò)中發(fā)現(xiàn)的大約40%的算法是披薩算法或時(shí)鐘算法的變種,而目前還無法精確破譯。對于披薩算法和時(shí)鐘算法,“它只是碰巧找到了一些我們能人類解讀的東西。”劉說道。
4.3 控制權(quán)之爭
研究人員也開始理解網(wǎng)絡(luò)頓悟數(shù)據(jù)的過程。Varma 等人指出,模型執(zhí)行任務(wù)時(shí)存在兩種機(jī)制:高效但學(xué)習(xí)慢的泛化機(jī)制,和低效但學(xué)習(xí)快的記憶算法。頓悟現(xiàn)象的突然性源于記憶機(jī)制與泛化算法之間主導(dǎo)性的轉(zhuǎn)換——只有當(dāng)模型完全抑制了其記憶機(jī)制之后,泛化能力才會(huì)真正顯現(xiàn)出來,并且存在一個(gè)數(shù)據(jù)集規(guī)模的臨界值 crit [12]。因此,雖然泛化能力的延遲似乎突然出現(xiàn),但網(wǎng)絡(luò)內(nèi)部參數(shù)實(shí)際上一直在學(xué)習(xí)泛化算法。只有當(dāng)網(wǎng)絡(luò)既學(xué)會(huì)了泛化算法,又完全消除了記憶算法時(shí),才能實(shí)現(xiàn)頓悟。Nanda說:“看似突然的事情,實(shí)際上可能表面之下是漸進(jìn)的”,這個(gè)問題在其他機(jī)器學(xué)習(xí)研究中也出現(xiàn)過。
并且,由于臨界數(shù)據(jù)集規(guī)模 crit 決定記憶和泛化競爭結(jié)果,通過控制數(shù)據(jù)集規(guī)模可衍生逆頓悟(ungrokking)和半頓悟(semi-grokking)現(xiàn)象。逆頓悟現(xiàn)象是指若對已完成頓悟的網(wǎng)絡(luò)在新數(shù)據(jù)集(滿足 < crit 條件)上繼續(xù)訓(xùn)練,網(wǎng)絡(luò)會(huì)退化為顯著記憶狀態(tài),導(dǎo)致測試損失重新惡化。半頓悟是指當(dāng) ≈ crit 時(shí),記憶算法與泛化算法在收斂過程中相互競爭,因此我們觀察到測試損失有所改善但未達(dá)完美。
進(jìn)一步地,Huang等人[13]對記憶與泛化之爭產(chǎn)生的不同訓(xùn)練動(dòng)態(tài)進(jìn)行了更詳細(xì)的定義和劃分,他們研究了模型隱空間維度和訓(xùn)練數(shù)據(jù)量如何影響模型訓(xùn)練動(dòng)態(tài),并根據(jù)這兩個(gè)參數(shù)繪制出相空間,每個(gè)區(qū)域?qū)?yīng)實(shí)驗(yàn)中觀察到的不同訓(xùn)練動(dòng)態(tài),如下圖所示:
![]()
不同配置與訓(xùn)練數(shù)據(jù)量下模型表現(xiàn)出的動(dòng)態(tài)差異與相圖。左圖展示了隨著模型規(guī)模增大而提升的記憶能力與降低的臨界數(shù)據(jù)集規(guī)模,可以將圖像劃分為四個(gè)區(qū)域——漸進(jìn)區(qū)、記憶區(qū)、半頓悟區(qū)和頓悟區(qū)。每個(gè)區(qū)域?qū)?yīng)右側(cè)展示的特定訓(xùn)練動(dòng)態(tài)特征,關(guān)鍵交點(diǎn)處標(biāo)注了估計(jì)值。
各子圖呈現(xiàn)特定訓(xùn)練動(dòng)態(tài)如下:
(a)漸進(jìn)區(qū)(progressing):當(dāng)訓(xùn)練數(shù)據(jù)量超過模型記憶容量時(shí),模型無法完全記憶所有數(shù)據(jù),表現(xiàn)為先以零驗(yàn)證精度盡可能記憶訓(xùn)練數(shù)據(jù),隨后在保持訓(xùn)練精度提升的同時(shí)對部分驗(yàn)證數(shù)據(jù)產(chǎn)生泛化能力;
(b)記憶區(qū)(memorization):小規(guī)模訓(xùn)練數(shù)據(jù)下,模型能完全記憶且記憶回路效率優(yōu)于泛化機(jī)制,因此僅表現(xiàn)為對訓(xùn)練數(shù)據(jù)的記憶行為,驗(yàn)證精度始終為零;
(c)半頓悟區(qū)(semi-grokking):當(dāng)訓(xùn)練數(shù)據(jù)量接近臨界規(guī)模時(shí),模型在完成全記憶后會(huì)表現(xiàn)出中等程度的泛化能力;
(d)頓悟區(qū)(grokking):訓(xùn)練數(shù)據(jù)量超越臨界規(guī)模后,泛化回路效率超越記憶機(jī)制,導(dǎo)致模型在訓(xùn)練性能達(dá)到完美后經(jīng)歷長期延遲才實(shí)現(xiàn)從記憶到泛化的轉(zhuǎn)變。
4.4 參數(shù)空間
研究人員對頓悟過程的參數(shù)空間進(jìn)行了一系列的分析,以探索模型內(nèi)部真實(shí)變化。最初科學(xué)家們發(fā)現(xiàn),使用權(quán)重衰減的訓(xùn)練方式能顯著提升嵌入的結(jié)構(gòu)化程度[1]。權(quán)重范數(shù)(Weight Norms)最近的研究也認(rèn)為參數(shù)權(quán)重的L2 norm是結(jié)構(gòu)頓悟的重要量。總體上來說,訓(xùn)練過程中范數(shù)(Norms)增長被作為神經(jīng)網(wǎng)絡(luò)泛化的關(guān)鍵因素之一進(jìn)行了研究。通過分析權(quán)重范數(shù),研究者也提出了關(guān)于頓悟現(xiàn)象的解釋:
研究者認(rèn)為,訓(xùn)練損失與測試損失景觀之間的不匹配是導(dǎo)致頓悟的原因[7]。兩者在權(quán)重范數(shù) w > w c 區(qū)域的不匹配導(dǎo)致快慢動(dòng)力學(xué)機(jī)制,從而產(chǎn)生頓悟現(xiàn)象。在權(quán)重范數(shù)較大時(shí),模型很容易過擬合訓(xùn)練數(shù)據(jù),使得訓(xùn)練損失較低。只有在權(quán)重范數(shù)接近“Goldilocks zone”時(shí),測試損失才較低,模型泛化性能較好。如果模型權(quán)重范數(shù)初始化為較大值,模型會(huì)首先快速移動(dòng)到一個(gè)過擬合的解,因?yàn)榇藭r(shí)訓(xùn)練損失最小化,在沒有正則化的情況下模型會(huì)停留在過擬合的狀態(tài),因?yàn)橛?xùn)練損失在過擬合解的山谷中梯度幾乎為零,泛化不會(huì)發(fā)生。
由于訓(xùn)練損失和測試損失(相對于模型權(quán)重范數(shù))通常分別呈現(xiàn)“L”形和“U”形,人們將其稱為“LU機(jī)制”。這一簡單機(jī)制可以很好地解釋頓悟的諸多特征:數(shù)據(jù)規(guī)模依賴性、權(quán)重衰減依賴性、表征的涌現(xiàn)等。基于這一直觀圖像,研究者們成功在涉及圖像、語言和分子的任務(wù)中誘導(dǎo)出了頓悟現(xiàn)象。
4.5 特征學(xué)習(xí)
而從訓(xùn)練動(dòng)力學(xué)的角度探索模型,可將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練動(dòng)態(tài)分為兩個(gè)階段,惰性訓(xùn)練動(dòng)態(tài)和豐富的特征學(xué)習(xí)動(dòng)態(tài)。在惰性訓(xùn)練動(dòng)態(tài)階段,網(wǎng)絡(luò)參數(shù) w 幾乎停留在初始點(diǎn) w 0 附近,網(wǎng)絡(luò)行為接近一個(gè)關(guān)于參數(shù)的線性模型:網(wǎng)絡(luò)通過初始神經(jīng)切線核(NTK)提供的特征來擬合數(shù)據(jù),此時(shí)訓(xùn)練相當(dāng)于進(jìn)行一次固定核的核回歸(Kernel Regression)。隨著訓(xùn)練推進(jìn),參數(shù)更新幅度逐漸增大,網(wǎng)絡(luò)不再保持線性近似。這時(shí)網(wǎng)絡(luò)不再依賴初始NTK,而是通過學(xué)習(xí)生成新的特征空間,更好地捕捉數(shù)據(jù)的結(jié)構(gòu)。
為了讓訓(xùn)練發(fā)生從惰性到特征學(xué)習(xí)的轉(zhuǎn)變,需要同時(shí)滿足:
初始特征未對齊(misaligned NTK):若初始NTK特征與任務(wù)標(biāo)簽方向接近,則惰性模型已能泛化,不會(huì)出現(xiàn)頓悟。
中等規(guī)模數(shù)據(jù)集
惰性初始(小步長 / 大 α 值):訓(xùn)練初期參數(shù)變化緩慢,維持線性化狀態(tài),使得網(wǎng)絡(luò)需較長時(shí)間才過渡到特征學(xué)習(xí)階段。
這些條件共同導(dǎo)致訓(xùn)練曲線出現(xiàn)延遲分離和突然收斂的頓悟現(xiàn)象[14]。
5. 促進(jìn)頓悟的方法
促進(jìn)頓悟這一系列研究旨在減少記憶與泛化之間的延遲效應(yīng),從而使模型更快泛化,從而也被叫做“消除頓悟”。
5.1 權(quán)重范數(shù)
其中的一個(gè)關(guān)鍵發(fā)現(xiàn)與權(quán)重范數(shù)有關(guān),可以理解為模型參數(shù)的體積或規(guī)模。在可解釋性部分的參數(shù)空間小節(jié),我們講過,研究者們認(rèn)為存在一個(gè)“黃金泛化區(qū)”,當(dāng)模型規(guī)模恰好處于這個(gè)區(qū)間時(shí),最容易學(xué)到真本領(lǐng)。于是,他們想出了一個(gè)巧妙的辦法:在訓(xùn)練期間,使用一種約束技術(shù),將模型的體積始終固定在這個(gè)最佳區(qū)域附近[7]。這就好比直接為模型規(guī)劃好了最佳的學(xué)習(xí)路徑,讓它無法繞遠(yuǎn)去死記硬背,從而被迫從一開始就尋找通用的解決方案,極大地縮短了從記憶到泛化的等待時(shí)間,實(shí)現(xiàn)了頓悟的消除。
5.2 慢梯度增強(qiáng)(Slow Gradient Amplification)
這項(xiàng)名為 Grokfast 的研究發(fā)現(xiàn)造成頓悟的原因在于梯度的頻率特性[15]:
快梯度(高頻信號):像噪音一樣劇烈抖動(dòng),主要導(dǎo)致模型死記硬背訓(xùn)練數(shù)據(jù)。
慢梯度(低頻信號):像洋流一樣緩慢且堅(jiān)定,這才是推動(dòng)模型理解通用規(guī)律的關(guān)鍵力量。
該方法的解決思路非常巧妙,即“濾噪存真”:把訓(xùn)練過程中的梯度看作隨時(shí)間變化的信號。他們引入了一個(gè)簡單的低通濾波器(Low-Pass Filter),過濾掉那些雜亂的快梯度,提取出代表長期趨勢的慢梯度,并將其人為放大疊加回去。結(jié)果顯示,這種慢梯度增強(qiáng)策略能讓模型頓悟的速度提升 50 倍,只需幾行代碼即可實(shí)現(xiàn),無需昂貴的算力堆疊。
5.3 頓悟彩票(Grokking Ticket)
“頓悟彩票”(Grokking Ticket)這個(gè)方法橋接了兩個(gè)重要的神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域:Lottery Ticket Hypothesis (LTH, 彩票假設(shè)) 和頓悟現(xiàn)象。LTH 認(rèn)為,任何一個(gè)隨機(jī)初始化的大型神經(jīng)網(wǎng)絡(luò)(密集網(wǎng)絡(luò))內(nèi)部,都包含一個(gè)或多個(gè)稀疏子網(wǎng)絡(luò)。這些子網(wǎng)絡(luò)如果單獨(dú)從原始權(quán)重初始化并訓(xùn)練,能夠比完整網(wǎng)絡(luò)更快、更好地收斂,達(dá)到相似的甚至更高的性能。LTH 將這些優(yōu)秀的稀疏子網(wǎng)絡(luò)比喻為中獎(jiǎng)的“彩票”(Winning Ticket)。這意味著成功的關(guān)鍵不在于網(wǎng)絡(luò)有多大,而在于在隨機(jī)初始化中“抽中”了哪個(gè)具備優(yōu)秀拓?fù)浣Y(jié)構(gòu)的子集。
研究者們認(rèn)為頓悟的延遲現(xiàn)象,并非單純在等待權(quán)重衰減降低參數(shù)范數(shù),而是在高維參數(shù)空間中搜索并鎖定一個(gè)具備泛化能力的稀疏子網(wǎng)絡(luò)結(jié)構(gòu)。所謂的“彩票假設(shè)掩碼”方法,實(shí)際上是一種提取并利用后驗(yàn)結(jié)構(gòu)知識(shí)的過程[16]:
首先將一個(gè)密集網(wǎng)絡(luò)訓(xùn)練至完全泛化狀態(tài),此時(shí)網(wǎng)絡(luò)內(nèi)部的功能回路已經(jīng)形成。通過幅度剪枝(Magnitude Pruning),保留權(quán)重絕對值較大的連接,將其拓?fù)浣Y(jié)構(gòu)固化為一個(gè)二值掩碼(Binary Mask),然后將此掩碼應(yīng)用于一個(gè)隨機(jī)初始化的網(wǎng)絡(luò)。這意味著在訓(xùn)練伊始,就強(qiáng)行約束了網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),使其僅在被篩選出的特定子空間內(nèi)進(jìn)行優(yōu)化。該方法之所以能消除泛化延遲,其核心機(jī)理包含兩個(gè)方面:
拓?fù)浣Y(jié)構(gòu)即泛化歸納偏置:實(shí)驗(yàn)表明,通過掩碼鎖定的稀疏子網(wǎng)絡(luò)本身就編碼了任務(wù)所需的良好表征(如模運(yùn)算任務(wù)中的周期性特征)。這種特定的拓?fù)浣Y(jié)構(gòu)即使在權(quán)重隨機(jī)初始化時(shí),也具備了快速學(xué)習(xí)任務(wù)特征的能力。
解耦權(quán)重優(yōu)化與結(jié)構(gòu)優(yōu)化:在標(biāo)準(zhǔn)訓(xùn)練中,模型需要同時(shí)進(jìn)行參數(shù)值的優(yōu)化和有效結(jié)構(gòu)的篩選。應(yīng)用掩碼后,模型直接跳過了漫長的“結(jié)構(gòu)搜索”階段,使得訓(xùn)練準(zhǔn)確率與測試準(zhǔn)確率同步上升,從而消除了延遲泛化。
1. 權(quán)重初始化
權(quán)重初始化的方法即用已頓悟的模型部件來給新模型“開小灶”,由于擁有更多先驗(yàn)知識(shí),模型得以提前頓悟[17]。方法的具體步驟如下:首先在簡單任務(wù)(如模加法)上預(yù)訓(xùn)練一個(gè)Transformer直到其頓悟,然后將其組件(嵌入層或整個(gè)Transformer主體)取出,作為新模型在相關(guān)任務(wù)(如模減法、線性表達(dá)式)對應(yīng)組件的初始化權(quán)重,并在后續(xù)訓(xùn)練中保持這些權(quán)重凍結(jié),以此利用不同任務(wù)間內(nèi)部表示與算法的相似性,顯著加速新任務(wù)的頓悟過程。但該方法的成功高度依賴于源任務(wù)和目標(biāo)任務(wù)之間的相似性,對于更復(fù)雜的操作,簡單移植基礎(chǔ)算術(shù)的組件可能不足以提供有效的先驗(yàn)知識(shí),復(fù)雜任務(wù)可能需要發(fā)現(xiàn)全新的、更復(fù)雜的算法。
2. 嵌入遷移
Xu等人提出了 GrokTransfer[18](嵌入遷移法),提供了消除延遲泛化的一個(gè)簡潔而強(qiáng)大的解決方案。其核心洞察是:決定模型能否快速泛化的關(guān)鍵,在于它對輸入數(shù)據(jù)的初始理解,即數(shù)據(jù)在模型嵌入層中如何被表示和編碼。
嵌入遷移法的步驟可以簡單理解為:
請教弱模型:首先,我們快速訓(xùn)練一個(gè)更小、更弱的模型。這個(gè)弱模型雖然無法達(dá)到完美性能,但它能以更快的速度學(xué)到一個(gè)初步但有效的數(shù)據(jù)結(jié)構(gòu)地圖(即數(shù)據(jù)的嵌入表示)。
知識(shí)遷移:接著,我們將這個(gè)弱模型學(xué)習(xí)到的、帶有有效結(jié)構(gòu)信息的嵌入層參數(shù)提取出來。用這些參數(shù)來初始化我們真正想要訓(xùn)練的那個(gè)更強(qiáng)大、更復(fù)雜的模型的嵌入層。
通過這種方式,強(qiáng)大的目標(biāo)模型在訓(xùn)練之初就獲得了高質(zhì)量的嵌入,不再需要從零開始摸索數(shù)據(jù)間的潛在聯(lián)系。它直接站在了弱模型的肩膀上,因此可以迅速從記憶階段進(jìn)入泛化階段,大大加速甚至完全消除了原有的泛化延遲現(xiàn)象。
6. 頓悟與其他現(xiàn)象的關(guān)聯(lián)
6.1 雙降(double descent)
Belkin等人[19]提出的雙下降(Double Descent)現(xiàn)象揭示了模型驗(yàn)證誤差隨規(guī)模變化的非單調(diào)模式:誤差先下降,隨后因過擬合噪聲而上升,最終隨著模型容量的進(jìn)一步擴(kuò)大而再次下降。Nakkiran等人[20]進(jìn)一步在多種架構(gòu)下驗(yàn)證了這一現(xiàn)象,指出誤差峰值往往出現(xiàn)在訓(xùn)練誤差趨近于零的臨界區(qū)間。
近期研究致力于將雙下降現(xiàn)象與頓悟現(xiàn)象聯(lián)系起來。Davies等人[21]提出了一種基于“規(guī)模-時(shí)間”對偶性的假說,認(rèn)為兩者本質(zhì)上反映了模型對不同復(fù)雜度模式的學(xué)習(xí)速率差異:模型傾向于先快速擬合簡單的虛假相關(guān)性(導(dǎo)致第一次下降后回升),只有在長時(shí)間訓(xùn)練或更大規(guī)模下,才能掌握復(fù)雜的泛化模式(導(dǎo)致第二次下降,也即頓悟)。
具體而言,這種關(guān)聯(lián)的表現(xiàn)形式受限于訓(xùn)練數(shù)據(jù)量。當(dāng)數(shù)據(jù)量不足(低于特定臨界點(diǎn))時(shí),模型隨規(guī)模擴(kuò)大會(huì)經(jīng)歷“漸進(jìn)期—記憶期—半頓悟期—頓悟期”四個(gè)階段,其中“記憶期”的性能惡化直接對應(yīng)雙下降的峰值;反之,當(dāng)數(shù)據(jù)量充足時(shí),模型能夠跳過記憶期帶來的負(fù)面影響,直接從漸進(jìn)期過渡到頓悟期,表現(xiàn)為泛化性能的單調(diào)提升。
Grokking 現(xiàn)象和雙重下降現(xiàn)象可以被視為同一學(xué)習(xí)機(jī)制在不同條件下的表現(xiàn)。它們都源于一個(gè)共同的學(xué)習(xí)動(dòng)態(tài):神經(jīng)網(wǎng)絡(luò)的歸納偏置更傾向于選擇那些泛化能力強(qiáng)但學(xué)習(xí)速度慢的模式,因此模型會(huì)經(jīng)歷一個(gè)從“快速學(xué)習(xí)但泛化差”的模式向“學(xué)習(xí)慢但泛化好”的模式過渡的過程。
6.2 大語言模型的涌現(xiàn)能力
從記憶與泛化的競爭視角來看,純記憶任務(wù)的存在會(huì)阻礙模型在記憶完所有訓(xùn)練數(shù)據(jù)后完全轉(zhuǎn)向泛化階段。然而,當(dāng)模型規(guī)模達(dá)到足夠大時(shí),其記憶能力會(huì)顯著超過訓(xùn)練數(shù)據(jù)量,它可以在記住大量信息的同時(shí),借助其強(qiáng)大的內(nèi)存能力去總結(jié)和學(xué)習(xí)出泛化的規(guī)律,從而表現(xiàn)出記憶與泛化等功能分化。
該現(xiàn)象與當(dāng)前大語言模型(LLM)中觀察到的涌現(xiàn)能力相呼應(yīng)——由于預(yù)訓(xùn)練階段也可視為多任務(wù)學(xué)習(xí)場景,模型必須在保留海量世界知識(shí)的同時(shí),習(xí)得上下文學(xué)習(xí)和多步推理等通用規(guī)則與能力。這一觀察也闡釋了Huang等人提出的假設(shè)[13]:涌現(xiàn)能力是通過不同神經(jīng)回路的競爭形成的。盡管當(dāng)前LLM的能力涌現(xiàn)由諸多復(fù)雜因素驅(qū)動(dòng),頓悟研究將為理解LLM的涌現(xiàn)能力提供新視角,并推動(dòng)該領(lǐng)域的進(jìn)一步研究。
Anthropic 的團(tuán)隊(duì)發(fā)現(xiàn),LLM 的上下文學(xué)習(xí)(In-context Learning)能力的涌現(xiàn),恰好發(fā)生在模型頓悟了“歸納頭”這一特定電路結(jié)構(gòu)的時(shí)刻[22]。研究發(fā)現(xiàn),模型在訓(xùn)練過程中會(huì)出現(xiàn)一個(gè)短暫的相變時(shí)刻(即頓悟)。在這個(gè)時(shí)刻,驗(yàn)證集損失突然下降,同時(shí)上下文學(xué)習(xí)能力突然涌現(xiàn)。這種同步發(fā)生是因?yàn)槟P蛯W(xué)會(huì)了使用歸納頭(Induction Heads)——一種能夠通過查找前文來復(fù)制模式的注意力機(jī)制電路。這一發(fā)現(xiàn)強(qiáng)烈暗示,宏觀的涌現(xiàn)是由微觀電路層面的頓悟驅(qū)動(dòng)的。
The Quantization Model of Neural Scaling這篇文章[23]提供了一個(gè)非常漂亮的理論框架,解釋了為什么學(xué)習(xí)曲線會(huì)呈現(xiàn)階梯狀(即包含頓悟和涌現(xiàn)),而不是平滑曲線。作者提出了“神經(jīng)縮放的量子化模型”(QMNS),他們認(rèn)為,復(fù)雜的任務(wù)是由許多離散的“子技能”(Quanta)組成的。隨著模型規(guī)模或訓(xùn)練時(shí)間增加,模型并非一點(diǎn)點(diǎn)學(xué)好所有知識(shí),而是按順序攻克一個(gè)個(gè)子技能。每當(dāng)模型徹底掌握一個(gè)關(guān)鍵子技能,即對該子技能發(fā)生頓悟,整體性能就會(huì)出現(xiàn)一次階躍,表現(xiàn)為能力的階段性涌現(xiàn)。將頓悟(時(shí)間的階躍)和涌現(xiàn)(規(guī)模的階躍)統(tǒng)一到了同一個(gè)離散特征學(xué)習(xí)的框架下。
6.3 反思與批判:頓悟和涌現(xiàn)可能只是“度量的幻覺”
Schaeffer指出,所謂的“尖銳的涌現(xiàn)”或“突然的頓悟”,可能并非模型本身隨規(guī)模增長而產(chǎn)生的本質(zhì)變化[24],而是由于研究人員選擇的評估指標(biāo)(如準(zhǔn)確率、完全匹配等非線性或不連續(xù)指標(biāo))對模型逐詞錯(cuò)誤率進(jìn)行了非線性或不連續(xù)的縮放,從而在特定任務(wù)上制造出的假象;若改用線性或連續(xù)的指標(biāo)(如詞編輯距離、Brier分?jǐn)?shù)),則模型性能會(huì)呈現(xiàn)平滑、連續(xù)、可預(yù)測的提升趨勢,所謂的“涌現(xiàn)”現(xiàn)象也隨之消失。這暗示頓悟和涌現(xiàn)可能并非模型內(nèi)部發(fā)生了魔法般的突變,而是模型內(nèi)部一直在進(jìn)行平滑的漸進(jìn)式學(xué)習(xí),只是在越過某個(gè)閾值后,才被我們粗糙的指標(biāo)捕捉到。這提示我們需要從不同角度審視與探討頓悟現(xiàn)象。
參考文獻(xiàn)
Power A; Burda Y; Edwards H; Babuschkin I; Misra V (2022). "Grokking: Generalization beyond overfitting on small algorithmic datasets". arXiv.
Wei J; Tay Y; Bommasani R; Raffel C; Zoph B; Borgeaud S; Yogatama D; Bosma M; Zhou D; Metzler D; Chi E. H.; Hashimoto T; Vinyals O; Liang P; Dean J; Fedus W. (2022). "Emergent abilities of large language models". Transactions on Machine Learning Research. ISSN 2835-8856.
Nanda N; Chan L; Lieberum T; Smith J; Steinhardt J (2023). "Progress measures for grokking via mechanistic interpretability". International Conference on Learning Representations (ICLR).
Chughtai B; Chan L; Nanda N (2023). "A toy model of universality: Reverse engineering how networks learn group operations". International Conference on Machine Learning (ICML), PMLR.
Barak B; Edelman B; Goel S; Kakade S; Malach E; Zhang C (2022). "Hidden progress in deep learning: SGD learns parities near the computational limit". Advances in Neural Information Processing Systems. 35: 21750–21764.
Liu Z; Kitouni O; Nolte N S; Michaud E; Tegmark M; Williams M (2022). "Towards understanding grokking: An effective theory of representation learning" (PDF). Advances in Neural Information Processing Systems. 35: 34651–34663.
Liu Z; Michaud E J; Tegmark M (2023). "OMNIGROK: Grokking Beyond Algorithmic Data". International Conference on Learning Representations (ICLR).
Abramov R; Steinbauer F; Kasneci G (2025). "Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers". arXiv.
Li Z; Fan C; Zhou T (2025). "Where to find Grokking in LLM Pretraining? Monitor Memorization-to-Generalization without Test". arXiv.
Pérez I (2024). "How Do Machines Grok Data?". Quanta Magazine.
Zhong Z; Liu Z; Tegmark M; Andreas J (2023). "The clock and the pizza: Two stories in mechanistic explanation of neural networks". Advances in Neural Information Processing Systems. 36: 27223–27250.
Varma V; Shah R; Kenton Z; Kramár J; Kumar R (2023). "Explaining Grokking Through Circuit Efficiency". arXiv.
Huang Y; Hu S; Han X; Liu Z; Sun M (2024). "Unified View of Grokking, Double Descent and Emergent Abilities: A Comprehensive Study on Algorithm Task". First Conference on Language Modeling.
Kumar T; Bordelon B; Gershman S?J; Pehlevan C (2024). "Grokking as the Transition from Lazy to Rich Training Dynamics". Twelfth International Conference on Learning Representations (ICLR).
Lee, J.; Kang, B.?G.; Kim, K.; Lee, K.?M. (2024). "Grokfast: Accelerated Grokking by Amplifying Slow Gradients". arXiv:2405.20233.
Minegishi G; Iwasawa Y; Matsuo Y (2023). "Bridging Lottery ticket and Grokking: Is Weight Norm Sufficient to Explain Delayed Generalization?". arXiv preprint arXiv:2310.19470.
Furuta, H.; Minegishi, G.; Iwasawa, Y.; Matsuo, Y. (2024). "Towards Empirical Interpretation of Internal Circuits and Properties in Grokked Transformers on Modular Polynomials". Transactions on Machine Learning Research. ISSN 2835-8856.
Xu Z; Ni Z; Wang Y; Hu W (2025). "Let me grok for you: Accelerating grokking via embedding transfer from a weaker model". arXiv preprint arXiv:2504.13292.
Belkin M; Hsu D; Ma S; Mandal S (2019). "Reconciling modern machine-learning practice and the classical bias–variance trade-off". Proceedings of the National Academy of Sciences. 116 (32): 15849–15854.
Nakkiran P; Kaplun G; Bansal Y; Yang T; Barak B; Sutskever I (2021). "Deep double descent: Where bigger models and more data hurt". Journal of Statistical Mechanics: Theory and Experiment. 2021 (12): 124003.
Davies X; Langosco L; Krueger D (2023). "Unifying grokking and double descent". arXiv preprint arXiv:2303.06173.
Olsson C; Elhage N; Nanda N; Joseph N; DasSarma N; Henighan T; Mann B; Askell A; Bai Y; Chen A (2022). "In-context learning and induction heads". arXiv preprint arXiv:2209.11895.
Michaud E; Liu Z; Girit U; Tegmark M (2023). "The quantization model of neural scaling". Advances in Neural Information Processing Systems. 36: 28699–28722.
Schaeffer R; Miranda B; Koyejo S (2023). "Are emergent abilities of large language models a mirage?". Advances in Neural Information Processing Systems. 36: 55565–55581.
參考文獻(xiàn)可上下滑動(dòng)查看
閱讀最新前沿科技趨勢報(bào)告,請?jiān)L問歐米伽研究所的“未來知識(shí)庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識(shí)庫是“ 歐米伽 未來研究所”建立的在線知識(shí)庫平臺(tái),收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險(xiǎn)等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.