來自Berkeley,Pennsylvania,Harvard,New York,Stanford大學等多位頂尖學者聯合發表綜述【文獻1】,為深度學習的科學理論做奠基。
![]()
觀點
論文開篇提出,一個能刻畫神經網絡訓練過程、隱藏表征、最終權重和性能的科學理論正在形成。
作者整合了五個主要研究方向作為證據:
1)可求解的理想化模型;2)提供洞見的極限分析;3)描述宏觀量的簡單定律;4)對超參數的理論解耦;5)跨系統的普遍行為。
這些工作的共同點是,關注訓練動態過程、描述粗粒化統計量、強調可證偽的定量預測。
論文將這一新興理論命名為“ 學習力學 ”,并主張它應該是一門數學化、基于第一性原理、能精確預測與實證的學科,最終像物理學那樣對整個機器學習領域產生廣泛影響。
1. 引言
深度學習是當前最強大也最令人費解的 黑箱 方法,理論落后于實踐,模型仍靠大量試錯訓練。論文主張:
一個深度學習的科學理論,正以 學習力學 的形態浮現。
1.1 什么是學習力學?
力學研究力如何決定物體的運動。類似地,神經網絡訓練可視為模型在參數空間中的運動,受參數、數據、任務和學習規則之間相互作用的“力”(由梯度傳遞)驅動,最終收斂到損失景觀的局部極小點。
這與物理學高度相似:
可求解模型,類比經典力學中的諧振子、氫原子。簡化極限,類比熱力學極限、經典極限。宏觀定律,類比開普勒定律、歐姆定律。參數研究,類比流體力學中的雷諾數。普遍行為,類比物理中的臨界現象。
學習力學 的七大目標: 基礎的、數學的、預測的、全面的、直覺的、有用的、謙遜的 。這會是一個既能深刻解釋,又明確自知適用邊界的變革性理論。
1.2 學習力學為什么重要
三大理由:
科學上,揭示工程奇跡背后的原理,并可能啟發對生物智能的理解(如同熱力學源于蒸汽機);
實踐上,用原理取代試錯,指導模型設計、縮放和部署;
安全上,為描述、監管強大AI系統提供清晰的理論變量和框架。
2. 證據
深度學習的 運動方程 是顯式且高度可測量的, 核心挑戰是高維非線性帶來的復雜性 。
2.1 存在 可解析的理想化模型
通過研究簡化但不失代表性的模型來構建直覺,是物理學的成功范式,深度學習亦然。
![]()
數據線性化 :
移除所有非線性,模型對輸入線性但對參數依然高度非線性。它成功復現了真實網絡中的許多現象,如相變、時標分離、貪婪的低秩學習等,先學到最主要成分,再學次要的。
參數線性化:
在參數初始化處泰勒展開并截斷非線性項。在無限寬等極限下,訓練動態等價于使用NTK的核嶺回歸,可準確預測泛化性能,并揭示了模型如何從架構中獲得歸納偏置,例如傾向于學習簡單函數。
超越線性化:
前沿在于構建參數和數據都保持非線性的玩具模型,以捕捉 特征學習 這類關鍵能力。當前進展包括使用單/多索引模型、統計物理方法、二次激活函數網絡等,各自剝離了不同的非線性機制。
2.2 富有洞察的極限揭示基本行為
復雜系統在無限大的極限下常會簡化,就像理想氣體定律在粒子數無限的熱力學極限下導出,卻能夠描述現實氣體。這一思路是深度學習理論的核心工具。
![]()
無限寬度與惰性核/富特征二分:
將網絡寬度推向無窮,但初始化權重的縮放速率不同,會產生兩種截然不同的極限動態。
惰性核區,標準初始化下,權重幾乎不變,網絡等效于NTK模型,不會進行特征學習。
富特征區,將輸出層權重壓縮得更小時,為補償輸出,特征必須發生顯著改變,網絡因此展現出特征學習、神經元特化等豐富行為。
其他極限:
無限深度、上下文長度等極限同樣存在。不同變量的聯合縮放極限尤其重要,如將參數和數據量同時推向無窮,是理論解釋計算最優縮放定律的關鍵。
離散化假說:
一個普遍信念是,真實網絡可被理解為無限大理想模型的有噪、有限離散化版本。這暗示著,有限寬度、深度等效應通常只是對理想性能的擾動和成本妥協,而不是帶來根本性的優勢。
2.3 簡單的經驗定律捕捉有意義的宏觀統計量
科學史上許多重要定律(例如牛頓三定律、歐姆定律)都是先作為經驗規律被發現。深度學習同樣具備這一條件。
![]()
神經縮放定律:
盡管訓練過程極其復雜,但模型最終測試損失與計算量、數據量、參數量之間,普遍遵循可預測的冪律關系。我們尚不清楚是什么決定了冪律指數,但其存在本身就強烈暗示著背后有簡潔原理。
穩定邊緣現象:
用全批量梯度下降訓練時,損失景觀的銳度(最大Hessian特征值)會經歷一個漸進銳化的過程,然后穩定在2/學習率附近。這個值恰恰是保證凸優化不震蕩發散的臨界值,其背后機制已被部分理論解釋。
![]()
粗粒化與潛表征權重:
包括神經坍縮,網絡末層特征會形成規則的幾何結構;神經特征假設,首層權重的結構與輸入梯度的外積相關;以及守恒定律,源自參數化中的對稱性。
2.4 超參數可以被解耦和理解
訓練神經網絡有大量超參數,這構成了實踐和理論研究的雙重挑戰。但現在,理論開始能理解并解耦它們的影響。
優化超參數:
線性縮放法則表明,等比例放大學習率和批量大小,并減少優化步數,訓練軌跡大致不變。這可從隨機微分方程的角度得到解釋。
類似,關于最優批量大小的權衡以及學習率對泛化性能的影響,都被形式化為對損失曲率的隱式正則化。已證明全批量梯度下降的整個軌跡,可以被一個帶有曲率懲罰項的簡化梯度流很好地建模。
![]()
架構超參數:
最大更新參數化(μP)是這個方向的典范。它在寬度放大時,通過理論設定每一層的初始化方差和學習率縮放,保證了超參數在不同模型尺寸間的可遷移性,使得用小模型搜索最優超參數并直接用于大模型成為可能,極大降低了調參成本。
![]()
2.5 普遍現象
許多非平凡的行為不止出現一次,而是在不同架構、數據集和任務中反復涌現,或許是 理論存在最根本的證據。有 三類普遍現象:
模型能力涌現的普遍性:
如尺度定律、涌現、頓悟式學習等能力對計算量的依賴方式,在語言、視覺等不同模態中非常相似。
內部表征形成的普遍性:
網絡不是隨機學習,而是表現出普適的歸納偏置,例如傾向于學習低頻簡單函數,或是將特征組織成疊加、叢集等形式。這表明,某些內在的幾何或優化原理塑造了網絡學習到的東西。
訓練動力學機制的普遍性:
即便是超參數的具體影響,如學習率對曲率的隱式正則化、權重衰減在消除異常特征中的作用,在許多簡單模型和真實大模型中都有一致表現。
3. 視角
3.1 統計和信息論
統計學習理論、PAC學習等 經典學習理論,提供的是關于泛化誤差的最壞情況上界,它關心的問題是學習在什么條件下是可能的。
這些理論在凸模型和獨立同分布數據上非常成功,但對現代深度學習解釋力有限。信息論視角則試圖為泛化能力提供更緊的界,例如利用互信息。
這些視角與學習力學是互補而不是競爭的。前者的目標是給出保證和邊界,本質上是一種靜態和可能性的描述;而后者的目標是理解實際發生的動態過程和現實涌現的行為。
一個完整的科學理解同時需要這兩方面:既需要知道系統能做什么的邊界,也需要知道系統實際會做什么的機制。
3.2 機制可解釋性
機制可解釋性可以比作深度學習的 生物學 ,目的是通過解剖神經網絡,在神經元和回路層面理解具體的內部機制,例如特定的安全或不安全的計算環路。
學習力學則可以比作深度學習的 物理學 ,目的是尋找支配網絡學習、特征形成和動態演化的普遍第一性原理,就像物理學為所有物質提供底層規律一樣。
3.3 共生關系
這兩種視角應是共生、互相支持的。
力學如何支持解釋性:
解釋性研究面臨的一個巨大挑戰是定位哪里是重要的回路、特征是從哪兒開始形成的。
學習力學若能準確描述訓練過程中權重和表征的動態規律,就能為解釋性工作提供 理論地圖 ,指出在什么訓練階段、什么網絡層去觀察什么現象,將盲目搜索轉化為有理論指導的探索。
解釋性如何支持力學:
機制解釋性在微觀層面發現了許多令人困惑的、普遍存在的現象,例如特定的特征疊加方式、回路形成的階段,為力學提出了需要解釋的明確對象。力學的目標,就是用數學語言為這些 生物學 層面的發現提供底層的 物理學 解釋。
解釋性發現 是什么 ,學習力學解釋 為什么 。兩者結合,才能從底層原理到高層結構完整地理解智能系統。
4. 異見
作者坦承,構建這樣的理論很困難,且學界對理論能走到多遠存在合理質質疑。論文逐一回應四種核心反對意見。
4.1 網絡有數十億參數,動態高度非線性和耦合,不可能有簡潔理論 。
回應:
這正是物理學家面對由萬億億個分子組成的氣體時的困境。物理學并未試圖追蹤每個分子,而是通過統計力學發展了描述溫度、壓力等宏觀涌現量的理論。
學習力學采取相同策略,它追求的不是描述每個權重的微觀運動,而是找到描述全體行為的精確的、粗粒度的宏觀規律。復雜性不構成障礙,而是呼喚一種正確的抽象層次。
4.2 當前理論多基于無限寬度、梯度流、高斯數據等假設,與現實脫節 。
回應:
好的極限假設并非為了真實,而是為了隔離和放大核心機制。就像理想氣體、無摩擦平面在物理中的作用,一旦核心機制被理解,就可以逐步放松假設,引入有限修正。
此外, 穩定邊緣、縮放定律等 大量現象被證明在不同設置間驚人地普適,表明從理想化模型中得到的洞見具有極強的遷移性。
4.3 真實世界的數據分布無比復雜且無法刻畫,理論注定無法處理。
回應:
網絡的核心任務恰恰是壓縮和學習這個復雜性的結構。網絡能泛化這一事實就證明了數據中存在著能被數學捕獲的低維結構。學習力學的策略是從研究人造但結構化的數據入手,逐步推進。
實際上,神經正切核理論和特征學習的近期工作已經能對在真實數據上訓練的網絡做出精確的定量預測,證明這條路是通的。
4.4 深度學習進步靠的是算力、工程和直覺,理論并無實際用處。
回應:
歷史多次證明,前沿工程的瓶頸會成為基礎科學的催化劑。蒸汽機的實踐促生了熱力學,早期飛行的試錯推動了空氣動力學。今天,我們正面對超參數調優的巨額成本、模型縮放的盲目性、以及AI安全控制的乏力,這些正是工程上的瓶頸。
一個成熟的理論能將這些問題從昂貴的猜測游戲轉化為可計算的工程實踐,正如物理學之于電氣工程、化學工程。最終,最具變革性的工程增益往往來自最深層的理解。
5. 方向
綜述列舉十個方向展示學習力學當前面臨的挑戰的深度和廣度,吸引不同背景的研究者參與。
統一惰性與富特征的理論:
目前我們能描述兩個極端,但對有限寬度、有限初始化尺度下從惰性到富特征的完整相變過程缺乏精確的定量理論和相邊界預測。
從第一性原理推導特征學習:
特征學習是深度學習的核心。我們需要超越 有/無特征學習 的定性描述,建立一個能精確預測特征在訓練過程中如何演化、何時形成、最終結構的數學框架。
表征的共相分類 :
不同的網絡和數據常常涌現出相似的表征結構。能否像物理學對物質相的分類那樣,提出一套識別表征類型的理論,指出什么條件導致什么樣的表征?
預測縮放定律指數:
今天我們知道損失遵循冪律,但無法從數據和架構特性先驗地預測指數。解開指數是縮放定律研究的圣杯。
為離散化假說建立嚴格基礎:
2.2節真實網絡是有噪離散近似,需要將這個概念數學化,并定量計算出有限寬度、深度、學習率等引入的修正項,證明它們在有利情況下確實很小。
理解優化器的隱式偏差:
雖然已知學習率、批量大小等會隱式地正則化曲率或改變收斂方向,但需要一個統一的理論,能從超參數直接預測訓練最終的泛化性能和解的性質,而不是僅預測訓練軌跡。
從第一性原理推導超參數最優值:
這是終極的工程目標,消除超參數調優。給定架構、數據和算力預算后,理論應當直接輸出最優的學習率、批量大小、網絡深度和寬度等。
發展非平衡態學習力學:
真實網絡大部分時間并非處于損失景觀的極小點,而是處于具有持續噪聲和振蕩的非平衡穩態,尤其在 SGD 下。需要發展一套類似 非平衡態統計力學 的工具來描述這種狀態下的統計性質和泛化行為。
理解分布式訓練和同步的作用:
大規模訓練多采用數據并行等分布式策略,這會改變噪聲結構和有效批量大小。理論需要告訴我們分布式訓練何時會改變學習的結果,以及如何最優地設置并行度。
與人腦和生物學習建立聯系:
作為長遠愿景,學習力學揭示的約束和最優策略,可能會對理解生物大腦的學習規則和計算原則提供深刻的規范性洞見。
6. 組織
大家可以找到組織了:learningmechanics.pub 。
對照
與筆者的 大模型數理框架 對照分析:
與“學習力學”意圖一致,筆者通過數理框架刻畫訓練動力學、表征結構與泛化行為之間的關系,本質上是 高維統計系統的演化規律。
![]()
Transformer整體表現為一個多步重整化過程, 參數在損失函數驅動下的動力學重整化流,最終進入穩定的固定點,對應具有良好泛化能力的解。
同一吸引子結構 可以解釋為什么不同架構不同初始化能夠收斂到類似結果。Scaling law與跨架構一致性體現出普適性,說明宏觀行為由少數變量決定。
Attention是一種動態相互作用,類似Ising模型中的耦合關系,可以作為 粗粒化算子 ,在逐層計算中壓縮信息、提取結構。
表征空間的演化則對應對稱性破缺。訓練初期,embedding近似無結構;隨著訓練推進,空間被拉伸與分化,形成穩定的聚類與流形,即語義范疇。
范疇化是系統穩定運行的基礎機制,與預測過程深度耦合。
![]()
這是筆者心目中的整體圖景:
大模型是一個在高維概率空間中,通過重整化流演化、借助Attention進行粗粒化,并通過對稱性破缺形成范疇結構的統計物理系統。
這個框架不僅良好匹配前沿的大模型行為,也在神經生物學新發現中不斷得到驗證。讀者可以參考《清熙》的相應文章。
文獻1,There Will Be a Scientific Theory of Deep Learning, https://arxiv.org/pdf/2604.21691
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.