Frequentist Guarantees of Distributed (Non)-Bayesian Inference
頻率學派對分布式(非)貝葉斯推理的保證
https://www.jmlr.org/papers/volume26/23-1504/23-1504.pdf
![]()
![]()
摘 要
我們為連接在網絡上的多個智能體所面臨的分布式(非)貝葉斯推斷問題建立了頻率學派性質,即后驗一致性、漸近正態性以及后驗收縮速率。這些結果源于對大規模、去中心化數據集進行分析的迫切需求,而分布式(非)貝葉斯推斷已成為統計學、機器學習和經濟學等多個領域中的關鍵研究方向。我們的結果表明,在通信圖滿足適當假設的條件下,分布式(非)貝葉斯推斷在保持參數效率的同時,還能增強不確定性量化方面的魯棒性。我們還通過考察通信圖的設計與規模如何影響后驗收縮速率,探討了統計效率與通信效率之間的權衡關系。此外,我們將分析擴展至時變圖,并將所得結果應用于指數族模型、分布式邏輯回歸以及去中心化檢測模型。
關鍵詞:分布式推斷,貝葉斯理論,Bernstein–von Mises定理,通信效率,網絡上的估計
- 引 言
現代數據集通常由分布式系統生成并存儲,例如社交媒體、傳感器網絡、區塊鏈和基于云的數據庫。然而,數據傳輸成本使得將這些數據集集中到單一機器上進行分析變得極其昂貴,甚至在某些情況下不可行。為應對這一挑戰,研究者轉向了分布式算法,以在通信受限的條件下實現去中心化的數據驅動決策(Borkar 和 Varaiya, 1982;Tsitsiklis 和 Athans, 1984;Gubner, 1993)。在此類系統中,一組智能體在一個通信網絡結構內運行,每個智能體僅能與其鄰居局部交換信息。這些智能體順序地分析數據,各自獨立進行推斷,并通過網絡結構定義的邊共享推斷結果;該網絡結構可能隨時間變化(Nedi? 等, 2017;Uribe 等, 2022b)。
去中心化或分布式貝葉斯推斷起源于統計學(DeGroot, 1974;Gilardoni 和 Clayton, 1993)。然而,直到過去十年計算能力的巨大進步,分布式推斷的思想才在統計學界重新引起關注(Uribe 等, 2022a,b)。目前已有大量關于分布式貝葉斯推斷的研究,旨在為大規模數據集開發可擴展且高效的后驗計算算法(Jordan 等, 2018)。該領域的主要挑戰之一是設計數據并行過程,通過將大規模數據集劃分為更小的塊,使其能在單個機器上獨立處理。當前文獻大多聚焦于“一次性”(one-shot)或“極易并行”(embarrassingly parallel)的方法,這類方法僅在計算流程結束時進行一輪本地機器與中央節點之間的通信。具體而言,這些方法在各本地機器上并行計算估計量或后驗樣本,然后將估計結果傳送到中央節點,以形成全局估計量或后驗近似(例如,通過計算各本地后驗分布的Wasserstein重心)。
從馬爾可夫鏈蒙特卡洛(MCMC)的角度來看,已有若干針對分布式貝葉斯推斷的并行MCMC方法被提出(Neiswanger 等, 2013;Wang 和 Dunson, 2013;Minsker 等, 2014;Wang 等, 2015;Rabinovich 等, 2015;Scott 等, 2016;Li 等, 2017;Minsker 等, 2017)。這些方法從各子集后驗中并行抽取樣本,并將這些樣本組合起來,以近似完整數據的后驗測度。
從變分貝葉斯的角度出發,已有研究提出了用于分布式貝葉斯推斷的算法,例如隨機變分推斷(Hoffman 等, 2013)。這些算法將數據分布到多臺機器上,通過隨機梯度下降(SGD)并行執行局部變分更新,并將全局變分參數更新為各局部最優解的加權平均。貝葉斯規則的變分解釋(Walker, 2006)使得變分優化問題與后驗分布之間可以雙向對應。
除了統計學界的進展,分布式貝葉斯推斷在微觀經濟學中也得到了研究,被稱為“非貝葉斯社會學習”。該領域的代表性工作聚焦于其公理基礎(Epstein 等, 2010)、達成共識的條件(Acemoglu 等, 2011)、各類學習規則(Golub 和 Sadler, 2017)以及信息聚合效應(Molavi 等, 2018)。這種跨學科的關注凸顯了分布式貝葉斯推斷技術的廣泛相關性和適用性。在此框架中,智能體代表試圖學習某個潛在世界狀態 θ 的個體。與傳統貝葉斯方法中每個智能體基于全部數據進行推斷不同,“非貝葉斯學習”(經濟學家如此稱呼)模型刻畫了個體在存在其他決策者、信息獲取有限且僅通過社交網絡互動的情境下如何進行推斷。分布式貝葉斯學習框架提供了一種有前景的解決方案:它保留了貝葉斯學習的理想特性(如便于不確定性量化和靈活性),同時引入了一種符合現實行為假設的信息聚合形式。事實上,分布式貝葉斯規則已被證明能反映社會中個體行為的合理假設(Jadbabaie 等, 2012)。在特定分布假設下,該分布式框架具有解析可處理性,且在一般情形下具備計算可行性。更全面的文獻綜述可參見(Molavi 等, 2018)。
盡管經濟理論在各種策略環境中探討了社會學習,但其幾乎完全是行為導向的,很少涉及實際數據。近期信號處理領域的研究則更深入地探討了社會學習的統計性質,其中大部分工作聚焦于有限參數空間。例如,Braca 等(2010)研究了在局部備擇假設下基于分布式檢驗統計量的二元檢驗的相對效率,并建立了該檢驗統計量的漸近正態性結果。在非貝葉斯社會學習設定中,Shahrampour 等(2015)假設參數空間有限,并給出了分布式信念與集中式信念之間KL散度的非漸近界。Lalitha 等(2014)從大偏差角度證明了信念以指數速率收斂到真實值。Bordignon 等(2021)研究了在步長趨于零的情形下智能體信念的漸近正態性。相比之下,Inan 等(2022)則在通信圖為隨機的情況下,研究了智能體信念向真實值收斂的一致性與收斂速率。
在離散有限參數空間中建立集中性界(concentration bounds)的技術嚴重依賴于對兩個候選分布之間KL散度的控制。而在超越有限離散參數空間的工作則較為稀少。一個例子是 Uribe 等(2022a,b),他們在 Θ 為離散或緊致的情形下分別建立了 pjt(θ) 的一致性和集中性界。
本文研究連續參數空間(作為 ?p 的子集)下、樣本量(或時間)趨于無窮時非貝葉斯社會學習的漸近性質。盡管這一設定在社會學習文獻中尚未充分探索,但從經典漸近理論(Van der Vaart, 2000)的角度看,它或許更為自然。建立此類理論填補了現有社會學習文獻的空白,并與統計學中分布式貝葉斯推斷文獻建立起聯系。
分布式貝葉斯方法已在電氣工程、統計學和經濟學等多個學科中引起廣泛關注。然而,由于缺乏對其統計性質的嚴格分析,這些方法在統計學界的廣泛應用仍受到阻礙。此外,理解這些性質對于深入認識不同通信模式下智能體的共識行為至關重要——這也是電氣工程和經濟學界共同關注的話題。本文研究了將隨機鏡像下降(SMD)算法應用于統計估計問題所產生的分布式貝葉斯過程(Uribe 等, 2022a,b)。我們的工作填補了一個關鍵空白:建立了此類分布式貝葉斯過程的頻率學派性質,包括后驗一致性、漸近正態性以及后驗收縮速率。我們還通過研究后驗收縮速率與通信圖結構之間的關系,探討了統計效率與通信成本之間的權衡。此外,我們通過實例說明了 Bernstein–von Mises 結果在不確定性量化中的實際效用。最終,我們希望激發統計學界對分布式貝葉斯方法的進一步興趣,并為經濟學和電氣工程等領域的分布式貝葉斯推斷奠定堅實的理論基礎。
![]()
本文其余部分安排如下:第2節從優化視角引入分布式貝葉斯推斷問題,并嚴格定義分布式貝葉斯后驗。第3節概述了分布式貝葉斯后驗一致性和漸近正態性的充分條件。第4節證明了分布式貝葉斯后驗的一致性(定理3)。第5節在模型正確設定(定理10)和錯誤設定(定理14)兩種情形下建立了 Bernstein–von Mises 定理。第6節提供了后驗收縮速率的抽象與具體上界(定理15和定理18),特別強調模型誤設情形。第7節將分析擴展至時變圖,并在不同通信頻率機制下建立了后驗收縮速率(定理20)。第8節通過三個統計模型展示了我們結果的實際應用,包括指數族模型(命題24)、邏輯回歸模型(命題25)以及分布式檢測問題(命題27)——后者是電氣工程中的一個典型問題。第9節總結全文,并討論基于本研究結果的未來研究方向。
- 預備知識
![]()
集中式統計估計問題的目標是找到一個子集 Θ? ? Θ,使得對于 θ? ∈ Θ?,?θ? 是在某個度量意義下“最接近” ?? 的分布。從幾何上看,目標是在概率測度集合 {?θ : θ ∈ Θ} 的子集中找到一個在給定拓撲下最接近 ?? 的點。該拓撲通常由概率空間上的散度定義,例如 Kullback-Leibler (KL) 散度、Rényi 散度等。KL 散度、Rényi 散度及其他散度函數的定義詳見附錄第 A.1 節。
可以說,最自然的估計問題應基于 KL 散度:
![]()
方程 (2.1) 在總體層面上等價于最大似然估計(MLE)。例如,如果真實分布 ?? 是標準正態分布 N(0,1),而參數族 ?θ 是正態位置族 N(θ,1);θ ∈ [?1,1],則最優值為 θ? = 0。
求解 (2.1) 存在兩個主要挑戰。首先,由于 ?? 未知,通常用從該分布抽取的樣本代替。由此產生的近似誤差影響了 MLE 的樣本復雜度,這在統計學文獻中已被廣泛研究(Van der Vaart, 2000)。第二個挑戰是計算方面的。當集合 Θ 是離散的、非光滑的或不連通的時,諸如一階優化方法等默認方法即使在總體層面上也無法直接應用于求解方程 (2.1)。
與其在 Θ 上最小化,一種常見做法是通過在 Θ 上的概率分布上最小化來“提升”該問題。
令 ΔΘ 表示定義在 Θ 上的概率密度函數空間。那么
![]()
其中 ΔΘ 是(假設的)所有在 Θ 上的概率分布構成的空間,且 ∫Θ p(θ)dθ = 1,同時 p(θ) ≥ 0。如果 θ? 滿足方程 (2.1),則 p* = δθ? 滿足方程 (2.2),因此這兩個問題是等價的。然而,其優勢在于,無論 Θ 所定義的拓撲如何,方程 (2.2) 都是一個連續優化問題;也就是說,Θ 可以是一個有限離散集合。
方程 (2.2) 引入了一種等價的統計估計表述形式,即將其轉化為在 Θ 上的概率測度空間上的最小化問題。鑒于期望泛函的線性性質,Riesz 表示定理意味著存在一個內積 ?.,.?,用于刻畫 Θ 上的期望。隨后,我們將 KL 最小化問題重新表述為一個線性隨機優化問題(至多相差一個常數):
![]()
![]()
該結果源于標準的變分貝葉斯論證(Knoblauch 等,2022)。
上述結果揭示了隨機優化與廣義貝葉斯推斷之間一種引人入勝的相互作用。參數 α 既充當 SMD 更新中的步長,又作為廣義貝葉斯規則中的溫度參數。當 α 取值為 1 時,我們便恢復標準的貝葉斯定理。接下來,我們將探討廣義貝葉斯與 SMD 之間的聯系,以基于分布式 SMD 算法構建一個分布式貝葉斯后驗。
2.1 分布式貝葉斯推斷
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
2.2 分布式貝葉斯后驗
本節提供了我們在本文中研究的分布式貝葉斯后驗的嚴格定義。定義先驗測度 Π 如下:
![]()
分布式貝葉斯后驗的測度論定義等價于遞歸公式(2.9)。該定義表明,分布式貝葉斯后驗是先驗分布和替代似然的乘積。
![]()
![]()
![]()
假設
在整篇論文中,我們提出以下假設:
![]()
![]()
其余假設分為四類:通信圖結構、私有統計模型的規律性、先驗質量假設和一致性測試假設。后三者是貝葉斯漸近理論中的標準假設,有著良好的歷史(見附錄A.2節)。通信圖的假設在第7節中放寬,以允許時間依賴性。
![]()
![]()
關于連通性的假設在網絡通信文獻中是標準的,以確保代理之間的信息流(Shahrampour 等人,2015;Nedic 等人,2017)。這三個假設確保具有轉移矩陣 A 的馬爾可夫鏈是不可約且非周期的。
![]()
![]()
假設2中描述的規律性條件是后驗分布漸近分析的常見前提(Van der Vaart,2000)。直觀上,對數似然的可微分性或凸性確保了最大似然估計量的一致性,而二次可微分性使得在真實值附近可以進行有效的二階泰勒展開。這使我們能夠利用最大似然估計量(MLE)的性質來描述后驗的漸近性質。
下一組假設通常被稱為先驗質量或先驗厚度假設。
![]()
后驗一致性
![]()
![]()
![]()
![]()
該結果直接來自Miller(2021)的定理3。因此,證明省略。 在實踐中,由于缺乏關于未知分布矩的信息,假設2(a)很難驗證。在像柯西分布這樣的重尾分布下,期望可能不存在。在下面的結果中,我們提供了一個更容易檢查的信息論等價于假設2(a)。
![]()
![]()
漸近正態性
![]()
![]()
![]()
![]()
![]()
![]()
在定理10中,二次均值(DQM)假設(假設2(c))的可微性在實際環境中可能難以驗證。我們用關于私有對數對數對數的二階平滑性假設(假設2(e))來替代抽象的DQM假設。
推論11 如果將假設2(c)替換為假設2(e),則定理10成立。
二次均值(DQM)假設(假設2(c))的可微性和利普希梯度正則性假設(假設2(d))都可以被三階平滑性假設(假設2(f))替代,后者通常被稱為M估計量的漸近正態性的經典條件(Van der Vaart,2000)。
推論12 如果將假設2(c)和2(d)替換為假設2(f),則定理10成立。
![]()
![]()
![]()
收縮率
收縮率量化了后驗分布接近數據生成分布的真實參數的速度。控制收縮率不僅細化了我們對后驗一致性的理解,還有助于控制錯誤指定的伯恩斯坦-馮-米塞斯定理(定理14)中的采樣復雜性。與前幾節側重于漸近結果不同,我們在本節提供非漸近界限和后驗收縮率的縮放規律。我們的結果涉及樣本大小 t、維度 p 和代理數量 m。
![]()
![]()
![]()
本節的主要定理在“先驗質量和測試”框架下陳述。假設是對伯恩斯坦-馮-米塞斯定理假設的次指數細化:(a) 先驗需要在真實參數的鄰域內放置最少量的先驗質量。(b) 限制在參數空間的一個子集內,存在一個測試函數可以將真實值與其鄰域的補集區分開來;(c) 先驗基本上支持在(b)中描述的子集。
![]()
![]()
![]()
![]()
![]()
![]()
該結果直接由定理15和17得出,因此證明從略。
該定理概述了設計參數如何決定分布式貝葉斯后驗的收縮速率。公式中的第二項可以說是最有趣的。隨著代理數量 m 的增加,收縮速率與 m log m 成正比,與 ν(最小正鄰接權重)成反比。這表明,代理網絡的規模和最小通信帶寬(譜間隙)對后驗收縮速率具有關鍵影響。此外,誤差在最壞情況模型誤設誤差和平均模型誤設誤差中呈線性縮放,這表明偏離理想模型假設會懲罰收縮速率。
7. 擴展到時變圖
本節將我們的理論擴展到一個特定的時變連通性場景:在完全連通圖和“完全孤立的智能體”圖之間交替。雖然這是一個簡化的設定,但從理論角度看,它已足夠豐富,能夠揭示時變通信下推斷的相變行為。
![]()
假設 5 提出的設定之所以有用,有多方面原因。理論上,此設定有助于嚴格研究統計效率與通信成本之間的權衡。它使我們能夠探索,給定目標統計效率水平時,何種通信水平是“最優”的。在實際方面,此設定可概念化為一個以概率 λ λ發生完全故障的網絡。在此類場景中,主要目標是量化這種間歇性連通水平如何影響系統內的整體學習質量。
我們在假設 5 的設定下,給出一個與引理 1 類似的結果。
![]()
![]()
![]()
在推論20中,“以概率1”這一表述是相對于定義在序列 A?, A?, … 上的測度而言的,其中每個 A? 是一個獨立的隨機矩陣,以概率 λ 從兩個確定性矩陣中抽取。重要的是,這與命題19所依賴的概率測度相同,我們將在后續內容中繼續使用該測度。
改變通信頻率 λ 會影響在網絡中執行分布式貝葉斯推斷的統計效率。在以下結果中,我們展示了 λ 對收縮速率的影響。
![]()
分布式理想后驗分布 P? 不依賴于通信圖;因此,定理15仍然成立,且假設依然合理。由于收縮速率中唯一依賴于通信圖的項是,推論21的論證直接建立在定理15和推論20的基礎之上。證明詳見附錄中的第 C.3 節。
據我們所知,定理21是首個關于時變通信網絡對分布式統計推斷效率影響的結果。該結果在某種程度上違背直覺。人們自然會預期存在一種通信-統計權衡:即提高通信頻率會導致更快的后驗收縮速率。雖然更高的通信頻率(λ ≥ 2/m)確實會導致更快的收縮速率,其縮放因子為 log λ / λ,但當頻率低于 2/m 時,情況則不同。在此情形下,通信效率 λ 不再產生任何影響,而收縮速率僅取決于代理數量 m——其速率為 m2,而非 m log m。
這暗示了在 λ = 2/m 處可能存在一種“相變”現象,值得在未來研究中進一步探索。從實際角度而言,如果目標是在大型網絡中平衡通信效率與統計性能,則通信頻率 λ* = 2/m 似乎是最佳選擇。
- 示例說明
8.1 指數族分布
![]()
指數族包括常用的高斯分布、指數分布、伽馬分布、卡方分布、Beta 分布、Dirichlet 分布、Bernoulli 分布、分類分布、Poisson 分布、Wishart 分布、逆 Wishart 分布以及幾何分布。在本節中,我們僅考慮標準指數族,并可互換地指代指數族和標準指數族。
指數族分布在貝葉斯推斷中很有用,因為它們具有共軛性質。例如,如果先驗分布和似然函數都屬于指數族,則后驗分布也屬于指數族。這一性質在分布式設定下同樣得以保持。
讓我們考慮這樣一種情形:在時刻 t,所有代理的信念均屬于自然指數族。在此設定下,代理 i 關于參數 θ 的信念可描述如下:
![]()
![]()
![]()
![]()
![]()
該命題依賴于兩個模型特定的假設。假設 i) 關注私有 Fisher 信息的正則性,這是廣義線性模型(GLMs)中的一個標準前提,用以確保模型參數 θ 是可識別的(參見 Van der Vaart (2000) 中的例 16.8)。假設 ii) 施加了一個更嚴格的條件,要求協變量具有有界的三階矩。該假設用于驗證假設 2(f),在大多數應用中通常是合理的。
令 表示自由度為 p 的 χ2 分布在顯著性水平 α 下的臨界值。命題 25 在概率測度 P?? 下,針對參數 θ 指定了一個漸近有效的可信區域,置信水平為 1?α。該區域由滿足以下條件的 θ 的集合給出:
![]()
![]()
命題 25 增強了分布式邏輯回歸模型的魯棒性。近似協方差中的平均 Fisher 信息確保了極端協變量值不會過度影響近似不確定性。模型特定的假設 i) 和 ii) 也可作為分布式邏輯回歸模型何時達到期望的漸近性質的魯棒性檢驗。在實踐中,檢查這些假設并使用拉普拉斯近似為分布式邏輯回歸模型中的統計推斷提供了一種高效可靠的方法,使其對各種數據不規則性具有更強的適應性。
8.3 分布式檢測
![]()
![]()
![]()
- 討論與未來方向
我們研究了分布式(非貝葉斯意義上的)貝葉斯推斷的頻率學統計性質,包括“后驗”一致性、Bernstein–von Mises 定理以及“后驗”收縮速率。我們的結果首次嚴格揭示了分布式貝葉斯推斷的統計效率及其對底層通信網絡設計參數(如代理數量和網絡拓撲結構)的依賴關系。這些富有前景的結果為未來研究提供了若干方向。
未來的工作應考察在更復雜的時變網絡結構下分布式貝葉斯后驗的頻率學統計性質,例如存在單鏈路故障的網絡(Shahrampour 等,2015)或其它隨機圖結構,如 Erd?s–Rényi 圖(Erd?s 等,1960)。理解分布式貝葉斯推斷如何適應此類場景,對于在不可預測或對抗性環境中應用理論成果至關重要。
另一個引人關注的方向是探索分布式貝葉斯后驗的頻率學覆蓋性質。這可包括在模型設定正確或誤設情形下對置信區間或假設檢驗的分析。理解分布式貝葉斯后驗如何與頻率學準則相一致,可為模型提供額外的驗證與穩健性檢驗。
在社會學習的背景下,還有多種方式可以拓展我們的結果。例如,Bordignon 等(2021)和 Hu 等(2023)在分布式更新規則(2.8)中引入了步長,并在固定樣本量 n 下、步長趨于零的條件下建立了漸近正態性結果。可以將我們的結果與他們的工作相結合,以研究在時間與步長聯合漸近機制下的極限分布。另一項可能的拓展是在離散且有限的參數空間 Θ 上證明 Bernstein–von Mises 定理,如 Bordignon 等(2021)和 Hu 等(2023)所探討的情形。此外,還可以在后驗更新過程中為似然項引入代理特定的權重(類似于 Bordignon 等,2023),以探究此類更新規則相較于使用與代理無關的權重時,對極限分布和收縮速率的影響。
人們或許可以將我們的工作與社會學習的微觀經濟學理論聯系起來,例如 Molavi 等人(2018)的結果。來自非貝葉斯框架的見解——例如 DeGroot 模型(DeGroot, 1974;Acemoglu 等, 2011)的各種變體——有助于闡明分布式貝葉斯方法的收斂性質,尤其是在代理具有異質先驗信念或受外部信號影響的情境中。
我們的工作補充了聚焦于通信效率的頻率學分布式推斷文獻。未來的研究可以整合該領域中的成果,包括通信高效的方法(Jordan 等, 2018)和高維分布式統計推斷(Battey 等, 2015),以設計并分析分布式貝葉斯方法。
最后,我們的理論發現可為實際應用中通信網絡的設計提供指導。具體而言,對代理數量與通信成本之間相互作用的解析性理解,有助于構建更高效、更魯棒的分布式貝葉斯系統。
![]()
原文鏈接:https://www.jmlr.org/papers/volume26/23-1504/23-1504.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.