差異型近似貝葉斯計算的后驗集中性:基于 Rademacher 復雜度的分析
CONCENTRATION OF DISCREPANCY-BASED APPROXIMATE BAYESIAN COMPUTATION VIA RADEMACHER COMPLEXITY
https://www.researchgate.net/publication/388992222_Concentration_of_discrepancy-based_approximate_Bayesian_computation_via_Rademacher_complexity
![]()
![]()
近年來,人們對近似貝葉斯計算(ABC)中無需摘要統計量(summary-free)的解決方案日益關注,這類方法不再使用摘要統計量之間的距離,而是采用觀測數據與在所提議參數值下生成的合成樣本之間的經驗分布差異(discrepancies)來替代。這些策略的成功激發了對由此產生的后驗分布極限性質的理論研究。然而,目前仍缺乏一個滿足以下三點要求的理論框架:(i)具有統一性,而非僅針對特定差異度量;(ii)無需將分析局限于滿足特定正則性條件的數據生成過程和統計模型,而是便于推導出一致成立的極限性質;(iii)基于可驗證的假設,提供更明確的集中性界(concentration bounds),以闡明哪些因素決定了ABC后驗的極限行為。
我們通過引入Rademacher復雜度(Rademacher complexity)的概念,構建了一個全新的理論框架,用以分析基于差異度量的ABC后驗的極限性質,該框架甚至適用于非獨立同分布(non-i.i.d.)和模型誤設(misspecified)的情形。這一框架提供了一套統一的理論,其論證具有構造性,并能得出更具信息量的漸近結果和一致的集中性界,即使在現有研究尚未覆蓋的設定下亦然。
上述關鍵進展是通過將無摘要ABC后驗的漸近性質與所選差異度量在積分概率半度量(Integral Probability Semimetrics, IPS)族中對應的Rademacher復雜度的行為聯系起來而實現的。IPS類不僅推廣了基于摘要的距離,還涵蓋了實踐中廣泛使用的Wasserstein距離和最大均值差異(Maximum Mean Discrepancy, MMD)等度量。正如在針對流行IPS差異度量的專門理論分析以及說明性模擬中所闡明的那樣,這一新視角深化了我們對無摘要ABC的理解。
- 引言
![]()
上述實現方式的顯著例子包括:采用最大均值差異(Maximum Mean Discrepancy, MMD)的ABC版本(Park, Jitkrittum and Sejdinovic (2016))、Kullback–Leibler(KL)散度(Jiang, Wu and Wong (2018))、Wasserstein距離(Bernton et al. (2019))、能量統計量(energy statistic)(Nguyen et al. (2020))、Hellinger距離與Cramér–von Mises距離(Frazier (2020)),以及γ-散度(γ-divergence)(Fujisawa et al. (2021));另見Gutmann et al. (2018)、Forbes et al. (2021) 與 Wang, Kaji and Rockova (2022),其中提供了更多無摘要ABC策略的實例。通過避免預先選擇摘要統計量,所有這些方法都減少了基于摘要的ABC所可能導致的信息損失,從而在模擬研究和示例性應用中展現出更優的性能。
這些富有前景的經驗結果激發了對由此產生的ABC后驗分布理論性質的活躍研究,主要聚焦于在不同漸近機制下(關于容差閾值與樣本量)的極限行為(Jiang, Wu and Wong (2018);Bernton et al. (2019);Nguyen et al. (2020);Frazier (2020);Fujisawa et al. (2021))。在這些機制中,特別值得關注的是以下兩種情形:一是ABC閾值固定不變;二是當觀測樣本量 n n 與合成樣本量 m m 同時趨于無窮時,ABC閾值逐漸收縮至零。
![]()
現有相關研究路線的成果卻為若干種無摘要ABC方法提供了理論支撐。然而,當前理論往往僅針對所分析的具體差異度量而定制,且通常依賴于難以驗證的存在性假設與集中性不等式——這些假設或不等式要么隱含、要么顯式地施加于數據生成過程與統計模型之上,并要求其滿足特定的正則性條件,因而所得結論缺乏普遍適用性(uniform validity)。例如,Bernton et al. (2019) 與 Nguyen et al. (2020) 的研究即產生了涉及控制函數序列的集中性界,但這些控制函數并未被明確給出。因此,盡管漸近收斂性與集中性仍可被證明,但支配這些漸近性質的核心因素仍未被揭示,從而限制了當前理論的方法論影響力,并阻礙了在更具挑戰性設定下推導新穎、信息豐富的結果。
![]()
本文旨在彌補上述空白,通過引入一個創新性的理論框架來系統分析基于差異度量的ABC后驗的極限性質。該框架采用統一視角,并適用于不同漸近機制,其核心工具是Rademacher復雜度(Rademacher complexity)(例如,Wainwright (2019),第4章),應用于積分概率半度量(Integral Probability Semimetrics, IPS)這一廣泛類別(例如,Müller (1997),Sriperumbudur et al. (2012))。IPS類自然推廣了摘要統計量間的距離,并包含實踐中廣泛應用的MMD與Wasserstein距離等。如第2–3節及附錄C(Legramanti, Durante and Alquier (2025))所闡明,該視角在ABC領域內屬首創,使我們得以推導出適用于多種差異度量、可能誤設且非獨立同分布(non-i.i.d.)情境下的統一、信息豐富且具一致性的集中性界。此外,該框架依賴于更具構造性的論證,無需對真實數據生成過程 μ ? 及所設統計模型施加額外的正則性條件(實踐中 μ ?往往未知,故驗證此類條件通常不可行)。
關鍵在于,本文提出的理論框架甚至可在文獻中尚未探討的設定下得出富有信息量的結果。具體而言,在這些設定中,我們推導出關于極限接受概率的新穎上下界,從而明確指出:當標準理論分析中采用固定ABC閾值所建立的、對經驗分布間差異的控制,未必能直接轉化為對真實分布間差異的同等控制;相反,它僅能給出一個上界——等于ABC閾值與Rademacher復雜度的倍數之和,而后者正是衡量所選IPS類函數族“豐富程度”(richness)的指標(見第3.1節)。
上述結果厘清了ABC后驗極限行為與所選差異度量的學習性質之間根本性的關聯——此關聯通過Rademacher復雜度加以量化。此外,所推導的界進一步表明:恢復具有相同閾值控制的極限偽后驗(pseudo posterior)的一個充分條件是:所選差異度量對應的Rademacher復雜度在大樣本極限下趨于零。如第3.2節所證,該條件亦使得我們能在更具挑戰性的漸近設定(即當閾值隨 m m 與 n n 同時發散而趨于零時)下,構造性地推導出新穎、信息豐富且一致的集中性界。這一能力得益于以下兩點:(i)對主流ABC差異度量(如MMD等)的Rademacher復雜度存在有意義的上界;(ii)具備構造性條件以推導這些界(Sriperumbudur et al. (2012))。此類結果利用了統計學習理論中的基本聯系,例如Vapnik–Chervonenkis(VC)維數與一致Glivenko–Cantelli類的概念(例如,Wainwright (2019),第4章),從而在統一視角下深化了對基于差異度量的ABC后驗集中速率的理解,并進一步實現:(i)量化集中速率;(ii)直接將Rademacher復雜度理論的最新進展轉化為ABC理論的新成果。第4節通過聚焦MMD與常規有界核(routinely implemented bounded kernels)予以例示;同時澄清:即使在缺乏一致消失Rademacher復雜度的保證時(例如,在無界數據空間下使用Wasserstein距離的情形),仍可推導出集中性結果,但需以犧牲對數據生成過程 μ ? 與所設模型的正則性條件為代價(該部分延伸見附錄C(Legramanti, Durante and Alquier (2025)),其中我們將第3節理論拓展至非獨立同分布情形)。
第5節的模擬研究證實,第3–4節所推導的理論結果在實踐中具有實證支持,包括模型誤設與數據污染等場景;理論與模擬結果(詳見附錄C(Legramanti, Durante and Alquier (2025))中關于非獨立同分布數據生成過程的分析)均表明:當統計模型與/或數據生成過程不滿足特定正則性條件,或無法驗證相關假設時,那些具備一致消失Rademacher復雜度保證的差異度量,仍能提供穩健且合理的抉擇依據。這在應用中十分常見,因實際中數據生成過程通常是未知的。
如第6節所述,本文所建立的無摘要ABC與Rademacher復雜度之間的未被探索的橋梁,還可進一步拓展,以衍生更一般的理論。例如,結合本文視角與近期關于IPS與 f f-散度的統一處理(Agrawal and Horel (2021), Birrell et al. (2022)),有望為ABC中其他重要差異度量(如Kullback–Leibler散度(Jiang, Wu and Wong (2018))與Hellinger距離(Frazier (2020)))推導出類似清晰且普適的結果。更廣泛而言,本文貢獻亦可延伸至ABC之外的領域,尤其在基于差異度量的偽后驗的廣義貝葉斯推斷中(例如,Bissiri, Holmes and Walker (2016);Chérief-Abdellatif and Alquier (2020);Matsubara et al. (2022);Frazier, Knoblauch and Drovandi (2024))。相關證明及補充結果可見于附錄材料(Legramanti, Durante and Alquier (2025))。
2 積分概率半度量與Rademacher復雜度
![]()
![]()
![]()
常見的例子包括基于最大均值差異(MMD)、KL散度(KL divergence)、Wasserstein距離、能量統計量(energy statistic)、Hellinger距離與Cramér–von Mises距離,以及 γ -散度( γ -divergence)等的ABC方法;其極限性質已在 Park, Jitkrittum and Sejdinovic (2016)、Jiang, Wu and Wong (2018)、Bernton et al. (2019)、Nguyen et al. (2020)、Frazier (2020) 與 Fujisawa et al. (2021) 等文獻中,針對不同漸近機制并依賴于特定存在性假設的情形下進行了研究,以簡化證明過程。
作為構建統一且具構造性的理論框架的第一步,我們需強調:盡管上述多數研究分別處理各類差異度量,但其中若干選擇實際上共享一個共同源頭。例如,MMD、Wasserstein距離與能量統計量均屬于積分概率半度量(Integral Probability Semimetrics, IPS)類(見 Definition 2.1 中 Müller (1997) 的定義)。該類亦包含基于摘要統計量的距離。
![]()
例2.2–2.4 表明,實踐中常規采用的差異度量——無論用于無摘要還是基于摘要的ABC(參見,例如,Park, Jitkrittum and Sejdinovic (2016);Bernton et al. (2019);Nguyen et al. (2020);Drovandi and Frazier (2022))——實際上均屬于積分概率半度量(IPS),且各自對應一個已知的特征函數族 F F,該族唯一地標識出每一種差異度量。
例2.2(Wasserstein-1距離)
![]()
![]()
![]()
從而將經典基于摘要的ABC納入MMD框架。因此,諸如高斯核等依賴于無限維特征空間的常用核,可被視作基于摘要的ABC在極限情形下的推廣版本。
盡管例2.2–2.4刻畫了ABC中最為常用的IPS差異度量,仍需強調:其他若干有趣的半度量亦屬于IPS類(例如,Sriperumbudur et al. (2012),Birrell et al. (2022))。其中兩個相關例子是全變差距離(total variation, TV)與Kolmogorov–Smirnov距離,二者在補充材料(Legramanti, Durante and Alquier (2025))中有詳細討論。
![]()
![]()
![]()
![]()
![]()
![]()
3 基于差異度量的ABC后驗的漸近性質
![]()
![]()
條件(I)是我們對數據生成過程所作的唯一假設,例如在 Nguyen et al. (2020) 以及 Bernton et al. (2019) 的補充材料(Legramanti, Durante and Alquier (2025))中均有體現。盡管我們在附錄C中推導的理論放寬了(I)以適用于非獨立同分布情形,仍需強調:當前文獻中所考慮的部分假設——即使在獨立同分布設定下——也可能并不成立。因此,深入理解在假設(I)下ABC性質的適用范圍及其潛在局限性,對于將現有存在性理論拓展至更復雜(可能非獨立同分布)的情形至關重要。事實上,如第3.1節所示,某些差異度量即便在獨立同分布設定下,其對應的ABC后驗也可能定義不良(ill-defined),或缺乏強收斂保證。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
定理3.1 將此直覺形式化,適用于整個IPS類下由差異度量誘導的ABC后驗。
![]()
![]()
![]()
![]()
![]()
定理3.3的證明見補充材料附錄D(Legramanti, Durante and Alquier (2025)),其論證思路與Bernton et al. (2019)及Nguyen et al. (2020)中用于建立集中性結果的論證相似,后者又進一步延伸自Frazier et al. (2018)的工作。然而,如前所述,這些已有證明僅針對單一差異度量,預設了 ![]()
的收斂性,并依賴于非顯式的控制函數序列。相比之下,定理3.3克服了這些問題,基于引理2.6中的單一集中不等式,構建了一個統一的理論框架。這不僅在技術細節上帶來差異,更重要的是,它為分析基于差異度量的ABC后驗的集中性質提供了一種新穎且影響廣泛的視角。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
3.3 假設的合理性
![]()
![]()
上述聯系表明,假設(III)與(IV)可謂差異度量型ABC后驗一致收斂性與集中性性質的核心所在。此外,盡管式(5)本質上與(III)–(IV)相關,但一致Glivenko–Cantelli性質僅給出一個依概率收斂的結果;而借助引理2.6中更精確的集中不等式,通過Rademacher復雜度的概念可對此結果加以細化。結合第3.1節與3.2節的理論成果,這不僅使我們能夠斷言特定ABC后驗的收斂性與集中性,還能進一步闡明支配這些極限性質的關鍵因素,并可能推導出相應的收斂速率。
如例3.5–3.7所闡明,對于例2.2–2.4中所述的關鍵IPS差異度量,假設(III)–(IV)通常可通過已知的Rademacher復雜度上界予以驗證;同時,還可利用Rademacher復雜度與統計學習理論中其他被深入研究的量(例如多項式判別能力(polynomial discrimination)與VC維數)之間的聯系進行分析。特別地,Wainwright (2019) 第4.3章概述了若干通過此類概念對Rademacher復雜度進行上限估計的實用技術。
另需指出,對于IPS類中的另外兩種差異度量——即全變差距離(total variation distance)與Kolmogorov–Smirnov距離——其假設(III)–(IV)的有效性在補充材料(Legramanti, Durante and Alquier (2025))的附錄A中有詳細討論。盡管這兩種差異度量頗具理論趣味,但在ABC的實際應用中,其使用頻率遠低于Wasserstein距離、MMD以及基于摘要統計量的距離。
![]()
例3.6(MMD)
MMD的性質本質上依賴于所選核函數 k ( ? , ? ) 。這一點可由以下兩個不等式清晰體現:
![]()
![]()
![]()
例3.5–3.7表明,對于第2節中所列舉的IPS類關鍵實例,假設(III)與(IV)可在實踐中切實驗證:要么在無需額外條件的情形下成立,要么僅需對分析所涉數據的支持集(support of the data)施加適當約束即可直接檢驗。從實際應用角度看,這一特性構成重要優勢——它減輕了對所設模型及未知數據生成過程施加復雜正則性條件的需求。需注意,例3.5中關于Wasserstein距離的有界性條件,恰好對應于Bernton et al. (2019) 中假設1與2所隱含的條件(亦見Weed and Bach (2019)),而我們的Rademacher復雜度視角進一步深化了這些結果:例如,它闡明了Wasserstein-ABC的收斂性與集中性可由一個已知且可計算的復雜度測度統一調控,并在整個概率測度空間 P ( Y )
上一致成立。
![]()
4. 基于MMD與Wasserstein-1距離的ABC后驗的漸近性質
第4.1節與4.2節將第3節推導的一般理論專門應用于IPS類中兩類尤為重要的距離:MMD(包含基于摘要的距離作為特例)與Wasserstein-1距離。回顧例3.5–3.7可知,這些差異度量均被第3節的一般結果所覆蓋——前提是核函數或樣本空間 Y Y 有界。為求完備性,我們進一步將此類集中性結果拓展至(III)與(IV)不成立的情形;具體見命題4.3與4.4。
。。。。。。。。。。
原文鏈接:https://www.researchgate.net/publication/388992222_Concentration_of_discrepancy-based_approximate_Bayesian_computation_via_Rademacher_complexity
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.