A Frequentist Statistical Introduction to Variational Inference,Autoencoders, and Diffusion Models
變分推理、自編碼器與擴散模型的頻率學派統計導論
https://www.arxiv.org/pdf/2510.18777
![]()
![]()
摘 要:
盡管變分推斷(VI)是現代生成模型(如變分自編碼器(VAEs)和去噪擴散模型(DDMs))的核心,但其教學處理卻分散在不同的學科中。在統計學中,VI 通常被描述為一種貝葉斯方法,用于近似后驗分布。然而,在機器學習中,VAEs 和 DDMs 是從頻率學派的觀點開發的,其中 VI 被用于近似最大似然估計器。這為統計學家創造了一個障礙,因為如果沒有對應的頻率學派對 VI 的介紹,VAEs 和 DDMs 背后的原理很難被理解。本文提供了這種介紹:我們從純粹的頻率學派視角解釋了 VI、VAEs 和 DDMs 的理論,從經典的期望最大化(EM)算法開始。我們展示了 VI 如何作為一種可擴展的解決方案用于難以處理的 E 步驟,以及 VAEs 和 DDMs 如何成為這一框架的自然的、基于深度學習的擴展,從而彌合了經典統計推斷與現代生成人工智能之間的差距。
1 引 言
變分推斷(VI)是現代機器學習中一套強大的方法。然而,在統計學文獻中,VI 最常被介紹為貝葉斯框架下的方法,它作為一種不可或缺的工具,用于近似那些難以處理的后驗分布(Bishop 和 Nasrabadi,2006;Blei 等人,2017;Kejzlar 和 Hu,2024;Sj?lund,2023)。
矛盾的是,VI 最成功的兩個應用——變分自編碼器(VAE)和去噪擴散模型(DDM)——通常是基于頻率學派的觀點構建的。關于 VAE(Doersch,2016;Kingma 和 Welling,2019)和 DDM(Chan,2024;Luo,2022)的重要教程并沒有對模型參數設置先驗。相反,它們的目標是近似復雜生成模型的最大似然估計器(MLE)。這種方法論上的分歧造成了一個教學上的空白:盡管 VAE 和 DDM 在人工智能中居于核心地位,但它們在統計學界的采用速度較慢,部分原因是缺乏以一種對許多統計學家來說更自然的方式來介紹這些方法。
本文旨在填補這一關鍵空白。我們提供了一個完全基于頻率學派原則的關于 VI、VAE 和 DDM 的自足性介紹。通過展示這些技術本質上是強大的優化和函數近似算法(Chen 等人,2018;Ormerod 和 Wand,2010),且獨立于貝葉斯背景,我們希望使這些強大的生成模型對統計學界來說更加易于接近和直觀。
大綱。我們在第 2 節從頻率學派的潛變量模型基礎開始,并回顧期望最大化(EM)算法。我們專注于兩個關鍵變體——蒙特卡洛 EM(MCEM)算法和正則化 Q 函數——它們直接推動了向變分推斷(VI)的轉變。在此基礎上,第 3 節將 VI 介紹為一種用于近似 EM 算法中難以處理的 E 步驟的通用方法,將證據下界(ELBO)作為正則化 Q 函數的變分類比。接下來,在第 4 節,我們通過引入攤銷 VI 和變分自編碼器(VAE)來解決經典 VI 的計算限制,這使得 VI 能夠應用于大規模的深度學習模型。最后,第 5 節將去噪擴散模型(DDM)介紹為這一框架的深度、層次化擴展,由正向(變分)和反向(生成)過程組成。我們在技術討論的結尾推導了簡化的噪聲預測目標,這是 DDM 作為最先進的圖像生成器取得實際成功的關鍵。
2 潛變量模型
![]()
![]()
![]()
2.1 EM算法
![]()
![]()
因此,運行 EM 算法保證不會減少似然值,盡管它可能收斂到局部最大值,而不是全局最大值。
2.2 MCEM:蒙特卡洛
EM 當 E 步(方程 (1))中的積分難以處理時,一個常見的解決方案是使用蒙特卡洛積分來近似 Q 函數。這種方法被稱為蒙特卡洛 EM(MCEM)算法(Wei 和 Tanner,1990)。
這個原理很簡單。我們知道,如果同時觀察到 X 和 Z,那么完整數據對數似然的最大化是可行的。因此,E 步的一個簡單的蒙特卡洛近似方法涉及生成一個單一的實現:
![]()
![]()
2.3 Q 函數的正則化形式
在 EM 算法中,Q 函數是整個過程的核心。雖然可以從缺失數據的角度來理解它,但另一種替代且強大的視角是將其框架為正則化的對數似然函數(Neal 和 Hinton,1998)。
![]()
![]()
2.4 示例:EM算法的局限性盡管EM算法在最大似然估計(MLE)沒有閉式解時是一種有效方法,但其適用性受限于E步的可處理性。在此,我們通過一個例子來說明這一局限性。
![]()
一般來說,這個分布不屬于任何標準分布族,這使得方程(1)中 Q 函數的解析計算變得難以處理。 如果我們采用 MCEM 方法,從方程(7)中的復雜分布中采樣也是一個不簡單的問題。雖然馬爾可夫鏈蒙特卡洛(MCMC)方法可能對小的 d 和 k 有效,但當這些維度很大時,它們會變得異常緩慢,這在像圖像生成這樣的高維環境中是很常見的。
3 變分近似
![]()
![]()
![]()
![]()
![]()
![]()
3.1 ELBO的梯度與重參數化技巧
變分推斷(VI)的優化不同于標準的梯度上升,因為最優的變分參數 ω? 依賴于全局參數 θ。這種耦合關系要求采用嵌套或交替優化方案。
在此,我們總結了一種用于計算VI估計量的梯度上升過程,該過程可輕松修改為隨機梯度上升算法(Hoffman et al., 2013)。我們從初始值 θ??? 開始,然后迭代以下步驟直至收斂:
對于給定的 θ???,我們首先通過運行一個內層梯度上升循環,為每個觀測值找到最優的變分參數。對于每個 i = 1, ..., n,我們通過在 ω???? 處初始化(通常使用熱啟動,即 ω???? = ω?????1?)并進行迭代:
![]()
關于 θ 的梯度。我們現在提供計算梯度 ?θELBO(θ, ω? | X?) 的詳細信息。在ELBO定義(公式(8))中的第二項,即熵,不依賴于 θ。因此,該梯度為:
![]()
該方法類似于MCEM如何近似Q函數的梯度。在變分推斷(VI)中,此蒙特卡洛平均用于數值近似ELBO的梯度。相較于MCEM,其關鍵優勢在于我們從可處理的變分分布 qω? 中采樣,而非從難以處理的 pθ(z|X?) 中采樣,從而避免了主要的計算瓶頸。
關于 ω? 的梯度及重參數化技巧。我們現在考慮關于變分參數 ω? 的梯度,這在公式(11)的更新步驟中至關重要。ELBO中的兩項均依賴于 ω?:
![]()
其中,H(qω?) = ?∫ qω?(z) log qω?(z) dz 是變分分布的熵。對于許多標準分布,熵項的梯度 ?ω? H(qω?) 可以解析計算。因此,主要的挑戰在于計算第一項的梯度。
為使該梯度可處理,我們必須選擇一個方便的變分族。一個常見且強大的選擇是高斯平均場族。具體而言,我們假設 qω?(z) 服從一個具有對角協方差矩陣的多元高斯分布,即 N(α?, diag(β?2)),其中變分參數為 ω? = (α?, β?) ∈ ?? × ???。這里,α? 是均值向量,β? 是標準差向量。高斯平均場分布是一種坐標相互獨立的多元高斯分布。
這一選擇使得重參數化技巧得以應用。一個隨機變量 Z ~ N(α?, diag(β?2)) 可以表示為其參數與一個標準正態隨機變量 ε ~ N(0, I?) 的確定性變換:
![]()
![]()
3.1.1 快速梯度上升的條件
上述推導突出了實現高效、基于梯度的變分推斷的兩個關鍵條件:
- 可微模型。完整數據對數似然函數 ?(θ|x,z) = log pθ(x,z) 必須關于模型參數 θ 和潛在變量 z 均可微。對于現代深度生成模型(例如,X|Z=z ~ N(μθ(z), Σθ(z))),這要求函數 μθ(z) 和 Σθ(z) 可微。這一條件在神經網絡中很容易滿足,因為這些梯度可通過現代自動微分框架中使用的反向傳播算法高效計算(Baydin 等, 2018; Rumelhart 等, 1986)。
- 可重參數化的變分族。變分分布 qω(z) 必須是可重參數化的。許多常見的連續分布都滿足此性質,通常通過逆累積分布函數(CDF)法實現,即樣本可表示為 Z = Fω?1(U),其中 U ~ Uniform[0,1]。這使得梯度 ?ω 能被有效處理。
4 攤銷變分推斷與變分自編碼器
前述VI框架存在兩個主要局限。首先,它需要優化 n 個不同的變分參數 (ω?, ..., ω?),隨著樣本量 n 增大,計算成本變得高昂。其次,用邊際分布 qω?(z) 近似條件分布 pθ(z|X?) 在概念上顯得笨拙。
攤銷變分推斷(AVI;Gershman and Goodman 2014)通過用一個單一的條件推斷模型 qφ(z|x) 替代獨立的變分分布,解決了這兩個問題。在此,變分參數 φ 在所有數據點間共享。這樣,無論樣本量大小,我們只需優化一組參數。著名的變分自編碼器(VAE;Kingma and Welling 2014)是AVI的一個重要應用,尤其適用于圖像數據。
在AVI中,變分分布 qφ(z|x) 可通過建模 ω = fφ(x)(其中 f 通常是一個神經網絡模型)從非攤銷的變分分布 qω(z) 構造而來。在此構造下,qφ(z|x) = qω=fφ(x)(z)。第4.1節提供了此方法的一個示例。
在AVI下,ELBO的推導類似:
![]()
與非攤銷VI相比,當樣本量 n 較大時,這大大降低了計算復雜度。方程(16)中對最大值點的搜索通常通過隨機梯度上升法完成。
4.1 示例:連接攤銷與非攤銷VI
現在我們考慮一個特例,即我們的攤銷變分分布 qφ(z|x) 是一個具有對角協方差矩陣的高斯分布:N(ηφ(x), diag(δ2φ,?(x), ..., δ2φ,?(x))),其中 ηφ(x), δ2φ(x) ∈ ?? 是某些函數。這是實踐中常見的選擇,可視為第3.1節中高斯平均場族的攤銷版本。
回想一下,在非攤銷的高斯平均場方法中,每個觀測值 X? 的變分分布為 qω?(z) = N(α?, diag(β?2)),其中 ω? = (α?, β?) 是一個直接優化的獨立參數向量。
在攤銷設定下,函數 ηφ(x) 和 δφ(x)(例如,由 φ 參數化的神經網絡)被訓練用于預測任意給定輸入 x 的最優均值和標準差。因此,其關聯可表示為:
![]()
這突顯了根本性差異:非攤銷VI直接優化 n 個獨立的參數向量 (ω?, ..., ω?),而AVI則優化一個單一的全局參數向量 φ,該向量用于生成每個觀測值的局部參數。盡管AVI大幅降低了計算負擔并允許對新數據點進行推斷,但這種效率可能以犧牲近似精度為代價。由于攤銷函數表達能力有限而導致的ELBO潛在下降,被稱為“攤銷間隙”(Cremer 等, 2018; Margossian 和 Blei, 2023)。
4.2 攤銷ELBO的梯度
為計算公式(16)中的AVI估計量,我們可再次使用梯度上升或隨機梯度上升算法(Bottou, 2010; Robbins 和 Monro, 1951)。在AVI中,優化過程比非攤銷情況要簡單得多,因為變分參數 φ 在所有觀測值間共享。這消除了嵌套優化循環的需要。
梯度上升是一個標準流程。從初始值 θ??? 和 φ??? 開始,參數在 t = 0, 1, ... 時更新直至收斂:
![]()
這些梯度的計算方式與非攤銷情況類似。關于模型參數 θ 的梯度可通過蒙特卡洛平均進行估計,而關于變分參數 φ 的梯度在選擇合適的變分族前提下,可利用重參數化技巧高效計算。我們在附錄 A 中提供了詳細的推導過程。
在現代應用中(如 VAE),通常使用深度神經網絡來指定生成模型 pθ(x|z)。例如,人們可能會建模
![]()
其中,均值函數 μθ(z) 和協方差函數 Σθ(z) 本身也由神經網絡參數化。在此設定下,這些函數關于 θ 和 z 所需的梯度可通過現代自動微分框架中使用的反向傳播算法高效計算(Baydin 等, 2018; Rumelhart 等, 1986)。
因此,只要模型是可微的,且變分族是可重參數化的(即滿足第3.1.1節中的條件),攤銷變分推斷(AVI)估計量就可以通過梯度上升或隨機梯度上升高效地計算。
4.3 變分自編碼器(VAE)
在潛變量模型中,數據生成過程被建模為:首先抽取一個潛變量 Z ~ p(z),然后抽取一個觀測值 X ~ pθ(x|z)。在VAE文獻中,條件分布 pθ(x|z) 的模型被稱為解碼器;它將潛表示 Z 解碼為觀測值 X。
當我們應用AVI時,我們引入一個條件分布 qφ(z|x),作為對真實條件分布的可處理近似。該分布可被解釋為一個從觀測變量 X 推斷潛變量 Z 的模型。在VAE文獻中,此變分分布 qφ(z|x) 被稱為編碼器;它將觀測值 X 編碼為潛表示 Z。
然而,從統計學角度看,概念起點通常與深度學習文獻不同。VAE實踐者常常先設計編碼器的架構,再構建對應的解碼器以建模反向的生成映射。下一節討論的去噪擴散模型就體現了這一方法,其教程通常從正向過程(定義變分分布)開始,再推導反向過程(生成模型)。這種建模哲學上的差異往往源于對生成效用與科學可解釋性關注點的不同;更多討論請參見第6.2節。
總結角色如下:
- 解碼器:解碼器 pθ(x|z) 是描述數據生成過程的模型。
- 編碼器:編碼器 qφ(z|x) 是變分分布,作為對真實但難以處理的 pθ(z|x) 的可處理、可計算近似。
必須認識到,解碼器 pθ(x|z) 和先驗 p(z) 足以完整定義聯合分布 pθ(x,z),并根據貝葉斯定理確定真實條件分布 pθ(z|x)。然而,在高維情況下,對該模型進行精確推斷通常是不可行的。因此,為了計算可行性,我們引入一個獨立的、可處理的推斷模型——編碼器 qφ(z|x)——來近似真實 pθ(z|x)。
這意味著編碼器和解碼器在一般情況下是不兼容的。編碼器 qφ(z|x) 并非由解碼器和先驗推導出的真實條件分布。事實上,如果它們兼容(即,若 qφ(z|x) = pθ(z|x)),則變分推斷將是精確的,EM/MCEM算法也將適用。盡管存在這種不兼容性,編碼器-解碼器配對仍創建了一種計算上可行的方案,用于通過可處理的AVI估計量來近似難以處理的最大似然估計量 。
5 去噪擴散模型(DDM)
去噪擴散模型(DDM),也稱為變分擴散模型,是一類強大的生成模型,尤其適用于圖像合成(Ho 等, 2020; Sohl-Dickstein 等, 2015)。DDM 可以被理解為 VAE/AVI 框架的一個特例。在此,我們使用統計潛變量模型的語言來闡述 DDM。簡言之,DDM 是一種通過攤銷變分近似進行訓練的深層潛變量模型。圖1 提供了直觀的總結。
![]()
5.1 一個深層潛變量模型
傳統的潛變量模型是“淺層”的,僅由單個潛向量 Z 生成觀測值 X。DDM 通過引入形成馬爾可夫鏈的一系列潛變量,深化了這一結構。為簡化起見,我們假設所有變量(包括觀測變量和潛變量)維度相同,即 X, Z ∈ ??。
傳統的“淺層”生成過程由一個有向無環圖(DAG)表示:
![]()
![]()
如第2.4節所示,即使對于該模型的單一層(T=1),EM算法也會失效。當層數為T時,問題會顯著加劇。為解決這一不可處理性,我們再次轉向變分近似,特別是第4節中介紹的AVI方法。
5.2 變分近似
為了將AVI方法應用于深層潛變量模型,我們首先推導相應的ELBO:
![]()
![]()
由于變分模型是一個高斯自回歸過程,項(B)和(C)可以解析計算。項(A)則需要蒙特卡洛近似,但由于公式(24)所具有的單次采樣(one-shot sampling)性質,這一近似可以高效實現。接下來我們推導(B)和(C)的解析形式。
![]()
![]()
5.3 DDM的ELBO梯度
由于DDM是AVI/VAE框架的一個特例,其梯度計算遵循第4.2節和附錄A中概述的相同原則。需要注意的是,在標準DDM實現(Ho等, 2020)中,變分參數 φ?, ..., φ? 并不進行學習,而是作為固定超參數預先定義。這使得優化僅針對生成模型參數;更多討論見第5.5節。然而,若有必要,變分參數 φ?, ..., φ? 也是可學習的。根據構造,DDM的前向過程是一個高斯自回歸模型,因此重參數化技巧可直接用于計算關于變分參數 φ 的梯度。
關于生成模型參數 θ 的精煉ELBO梯度,對于每個參數 θ? 是可分離的:
![]()
![]()
將數據生成過程視為一個“去噪”過程。公式(27)中梯度的形式提供了一個關鍵洞見:參數 θ? 的學習信號來源于 pθ(y???|y?) 的得分函數。該任務本質上是要求模型在給定一個更嘈雜的狀態 ?? 時,預測出一個更干凈的狀態 ????。因此,生成(逆向)模型 pθ 學會逐步對一系列潛變量進行去噪,從純噪聲 Y? 開始,最終得到一張干凈的圖像 Y?。
5.4 前向與逆向過程
上述描述的變分框架將DDM視為一種特定類型的VAE。解碼器是我們的數據生成模型 pθ,它描述了如何從純噪聲變量 Y? = Z 生成觀測值 Y?。編碼器是我們的變分分布 qφ,它是一個高斯自回歸模型。在DDM文獻中,這兩個組件被稱為前向過程和逆向過程。
編碼器 qφ 將觀測值 Y? 映射到最終的潛噪聲變量 Y?,被稱為前向過程。它是一個高斯自回歸模型,通過依次向觀測值添加高斯噪聲(如公式(23)所示),其行為類似于擴散過程。
解碼器 pθ 則以相反方向運行。它從純噪聲 Y? 開始,依次移除噪聲以恢復原始觀測值 Y?。這被稱為逆向過程,在功能上是一個去噪過程。這兩個組件的結合賦予了“去噪擴散模型”其名稱。
許多關于DDM的教程先介紹前向過程,再推導逆向過程(Ho等, 2020; Luo, 2022),因為這與實現方式一致——計算機將首先執行前向過程,然后利用逆向過程來擬合參數 θ。這與統計建模的傳統形成對比,后者通常從數據生成模型(即逆向過程)開始,再構建變分近似(即前向過程)作為可處理推斷的工具。
總結對應的術語:
- 解碼器 = 逆向過程 = 數據生成模型:一個具有馬爾可夫鏈結構的深層潛變量模型,學會逐步將變量從純噪聲去噪為觀測值。
- 編碼器 = 前向過程 = 變分分布:一個具有相似馬爾可夫結構的高斯自回歸模型,逐步向觀測值添加噪聲。
5.5 實際實現與簡化目標
完整的ELBO為DDM提供了理論基礎,但在實踐中,從業者已采用若干關鍵設定,以獲得更穩定、更高效的目標函數,從而支持大規模訓練。
固定變分參數與協方差矩陣模型。在實踐中,DDM的訓練過程通過若干關鍵設定變得更加高效。首先,變分分布(即前向過程)的參數并非從數據中學習,而是被固定為預定義的超參數,統稱為“方差調度表”(variance schedule)(Ho等, 2020)。此外,逆向(數據生成)過程中的協方差矩陣也被假定為固定且對角的,通常表示為 Σθ?(y?) = σ?2I_d。方差 σ?2 是已知常數,通常與前向過程的方差調度表相關聯。此設定具有兩大主要優勢:第一,它消除了學習任何方差參數的需求;第二,它將ELBO中與 θ 相關的部分簡化為一個加權最小二乘目標。如公式(26)所示,ELBO關于均值函數 μθ? 的梯度變為:
![]()
5.5.1 噪聲預測形式Ho 等人(2020)的關鍵洞見在于,該目標函數可以被重新表述為一個噪聲預測任務。公式(30)的核心準則是如下期望(為簡化起見,將梯度算子 ?θ 移出):
![]()
![]()
![]()
![]()
6 結論
變分推斷(VI)、變分自編碼器(VAEs)和擴散模型(DDMs)在潛變量建模與似然近似方面共享一個共同的基礎。從經典的EM算法出發,我們看到VI是通過用可處理的變分族 qω?(z) 替代難以處理的條件分布 p(z|x=X?; θ???) 而自然衍生出的一種松弛方法。攤銷VI進一步通過學習條件映射 qφ(z|x) 簡化了計算,從而實現大規模估計,并構成了VAEs的核心框架。最后,DDM將此框架擴展為一個具有馬爾可夫鏈結構的深層潛變量模型,提供了一種最強大的現代生成建模工具。
6.1 變分推斷:頻率學派還是貝葉斯學派?
盡管VI常被作為貝葉斯方法引入(Blei等, 2017; Doersch, 2016; Kingma & Welling, 2014),但它本身并非固有的貝葉斯方法。在我們的分析中,VI完全是從頻率學派視角發展而來的:我們并未對感興趣的參數θ施加任何先驗。相反,VI純粹作為一種計算工具,用于在似然函數難以處理時近似最大似然估計量。
話雖如此,如果推斷的主要目標是潛變量Z而非模型參數θ2,則VI也可置于貝葉斯語境下理解。在這種情況下,分布p(z)扮演先驗的角色,而難以處理的條件分布p(z|x;θ)則代表后驗分布。變分分布qω(z)或qφ(z|x)隨后便為該后驗提供了可處理的近似。
最終,VI最好被理解為一種通用的計算框架,用于近似難以處理的條件分布p(z|x;θ)。它同樣適用于頻率學派設定(如潛空間模型),也適用于貝葉斯問題(如對潛變量的后驗推斷)。無論從哪個視角出發,VI都通過相同的底層優化原則,統一了計算可處理性與概率近似。
6.2 潛變量建模:生成效用 vs 科學可解釋性
潛變量在深度生成模型(VAEs、DDMs)中的作用與它們在傳統統計學中的作用顯著不同——這體現了“生成效用”與“科學可解釋性”之間的區分。
在VAEs和DDMs中,潛變量主要作為一種工具,用于構建靈活且高容量的模型,以近似復雜的數據分布(例如自然圖像)。其主要目標是生成性能——即產生逼真的數據——而計算可處理性是關鍵約束。因此,單個潛變量維度的可解釋性通常是次要的,模型架構可以自由修改以提升效果。DDM中允許噪聲預測公式的模型設定(第5.5節)正突顯了這一原則。
相反,在因子分析等經典潛變量方法中,主要目標是科學解釋(Anderson, 2003; Harman, 1976)。潛變量被假定代表基于領域知識的有意義、潛在的構造。其含義至關重要,對模型潛結構的任何更改都需要強有力的理論或統計依據。因此,盡管程序上存在相似之處,這兩種范式由不同的哲學所引導:一種由預測能力驅動,另一種由解釋性洞察驅動。
原文鏈接:https://www.arxiv.org/pdf/2510.18777
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.