來源:市場資訊
(來源:圖靈人工智能)
您想知道的人工智能干貨,第一時間送達
![]()
![]()
來自Berkeley,Pennsylvania,Harvard,New York,Stanford大學等多位頂尖學者聯合發表綜述【文獻1】,為深度學習的科學理論做奠基。
![]()
觀點
論文開篇提出,一個能刻畫神經網絡訓練過程、隱藏表征、最終權重和性能的科學理論正在形成。
作者整合了五個主要研究方向作為證據:
1)可求解的理想化模型;2)提供洞見的極限分析;3)描述宏觀量的簡單定律;4)對超參數的理論解耦;5)跨系統的普遍行為。
這些工作的共同點是,關注訓練動態過程、描述粗粒化統計量、強調可證偽的定量預測。
論文將這一新興理論命名為“學習力學”,并主張它應該是一門數學化、基于第一性原理、能精確預測與實證的學科,最終像物理學那樣對整個機器學習領域產生廣泛影響。
1. 引言
深度學習是當前最強大也最令人費解的黑箱方法,理論落后于實踐,模型仍靠大量試錯訓練。論文主張:
一個深度學習的科學理論,正以學習力學的形態浮現。
1.1 什么是學習力學?
![]()
1.2 學習力學為什么重要
![]()
2. 證據
深度學習的運動方程是顯式且高度可測量的,核心挑戰是高維非線性帶來的復雜性。
2.1 存在可解析的理想化模型
通過研究簡化但不失代表性的模型來構建直覺,是物理學的成功范式,深度學習亦然。
![]()
![]()
2.2 富有洞察的極限揭示基本行為
復雜系統在無限大的極限下常會簡化,就像理想氣體定律在粒子數無限的熱力學極限下導出,卻能夠描述現實氣體。這一思路是深度學習理論的核心工具。
![]()
無限寬度與惰性核/富特征二分:
![]()
其他極限:
無限深度、上下文長度等極限同樣存在。不同變量的聯合縮放極限尤其重要,如將參數和數據量同時推向無窮,是理論解釋計算最優縮放定律的關鍵。
離散化假說:
一個普遍信念是,真實網絡可被理解為無限大理想模型的有噪、有限離散化版本。這暗示著,有限寬度、深度等效應通常只是對理想性能的擾動和成本妥協,而不是帶來根本性的優勢。
2.3 簡單的經驗定律捕捉有意義的宏觀統計量
科學史上許多重要定律(例如牛頓三定律、歐姆定律)都是先作為經驗規律被發現。深度學習同樣具備這一條件。
![]()
![]()
![]()
粗粒化與潛表征權重:
包括神經坍縮,網絡末層特征會形成規則的幾何結構;神經特征假設,首層權重的結構與輸入梯度的外積相關;以及守恒定律,源自參數化中的對稱性。
2.4 超參數可以被解耦和理解
![]()
![]()
架構超參數:
最大更新參數化(μP)是這個方向的典范。它在寬度放大時,通過理論設定每一層的初始化方差和學習率縮放,保證了超參數在不同模型尺寸間的可遷移性,使得用小模型搜索最優超參數并直接用于大模型成為可能,極大降低了調參成本。
![]()
2.5 普遍現象
許多非平凡的行為不止出現一次,而是在不同架構、數據集和任務中反復涌現,或許是理論存在最根本的證據。有三類普遍現象:
![]()
3. 視角
3.1 統計和信息論
![]()
3.2 機制可解釋性
機制可解釋性可以比作深度學習的生物學,目的是通過解剖神經網絡,在神經元和回路層面理解具體的內部機制,例如特定的安全或不安全的計算環路。
學習力學則可以比作深度學習的物理學,目的是尋找支配網絡學習、特征形成和動態演化的普遍第一性原理,就像物理學為所有物質提供底層規律一樣。
3.3 共生關系
這兩種視角應是共生、互相支持的。
![]()
4. 異見
作者坦承,構建這樣的理論很困難,且學界對理論能走到多遠存在合理質質疑。論文逐一回應四種核心反對意見。
4.1 網絡有數十億參數,動態高度非線性和耦合,不可能有簡潔理論。
![]()
4.2 當前理論多基于無限寬度、梯度流、高斯數據等假設,與現實脫節。
![]()
4.3 真實世界的數據分布無比復雜且無法刻畫,理論注定無法處理。
![]()
4.4 深度學習進步靠的是算力、工程和直覺,理論并無實際用處。
![]()
5. 方向
綜述列舉十個方向展示學習力學當前面臨的挑戰的深度和廣度,吸引不同背景的研究者參與。
![]()
為離散化假說建立嚴格基礎:
2.2節真實網絡是有噪離散近似,需要將這個概念數學化,并定量計算出有限寬度、深度、學習率等引入的修正項,證明它們在有利情況下確實很小。
![]()
理解分布式訓練和同步的作用:
大規模訓練多采用數據并行等分布式策略,這會改變噪聲結構和有效批量大小。理論需要告訴我們分布式訓練何時會改變學習的結果,以及如何最優地設置并行度。
與人腦和生物學習建立聯系:
作為長遠愿景,學習力學揭示的約束和最優策略,可能會對理解生物大腦的學習規則和計算原則提供深刻的規范性洞見。
6. 組織
大家可以找到組織了:learningmechanics.pub 。
對照
與筆者的大模型數理框架對照分析:
與“學習力學”意圖一致,筆者通過數理框架刻畫訓練動力學、表征結構與泛化行為之間的關系,本質上是高維統計系統的演化規律。
![]()
![]()
![]()
這是筆者心目中的整體圖景:
大模型是一個在高維概率空間中,通過重整化流演化、借助Attention進行粗粒化,并通過對稱性破缺形成范疇結構的統計物理系統。
這個框架不僅良好匹配前沿的大模型行為,也在神經生物學新發現中不斷得到驗證。讀者可以參考《清熙》的相應文章。
文獻1,There Will Be a Scientific Theory of Deep Learning,https://arxiv.org/pdf/2604.21691
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.