Divide-and-conquer with finite sample sizes:valid and efficient possibilistic inference
有限樣本下的分治策略:有效且高效的可能性推理
https://arxiv.org/pdf/2503.22812
![]()
![]()
摘 要
分治(Divide-and-conquer)方法利用大樣本近似,在每個數據塊既小到足以實現高效計算、又大到足以支持近似有效推斷的前提下,提供頻率學派的保證。然而,當總體樣本量較小或中等時,很可能不存在同時滿足這兩個條件的數據劃分方式,從而導致所得推斷缺乏有效性保證。我們提出一種新方法,該方法基于推理模型(inferential model)框架,具有貝葉斯意義上的完全條件性,并在頻率學派意義上可證明有效。核心洞見在于:現有分治方法兩次使用了高斯性假設——第一次用于構造估計量,第二次用于近似其抽樣分布。我們的方案保留第一個高斯性假設,采用高斯工作似然,但用一個“驗證”(validification)步驟替代第二個假設,該步驟利用由所設定模型確定的各數據塊匯總統計量的抽樣分布。這一后一步驟是一種概率到可能性的變換,是本方法可靠性保證的關鍵,使其在分治文獻中擁有獨一無二的普適性。除具備有限樣本下的有效性保證外,所提方法在漸近意義上也與其他文獻中的分治解法一樣高效。我們的計算策略借助最先進的黑盒似然模擬器(likelihood emulator)。通過模擬研究展示了該方法的性能,并以2023年澳大利亞山火季期間昆士蘭州瑪麗伯勒(Maryborough)PM2.5中位數的分析為例,突顯了其靈活性。
關鍵詞:模擬器(emulator)、g-and-k 分布、推理模型(inferential model)、相對似然(relative likelihood)、有效性(validity)。
1 引言
分治(Divide-and-conquer)技術已成為大數據分析中的強大工具,適用于數據集樣本量極大、即使被劃分到多個中央處理器(CPU)上,各子集仍足夠大且信息豐富,從而能產生近似有效的推斷。然而,更具挑戰性但同樣常見的場景是:僅估計本身在計算上就已十分繁重,導致無法對整個數據集進行分析,而樣本總量又不足以保證(近似)有效的推斷。本文針對后一種情形,為計算上困難的優化問題開發了一種分治方法,該方法基于 Martin 與 Liu(2013, 2015)以及 Martin(2019)提出的推理模型(Inferential Models, IMs)框架。
IM 框架具有兩個核心特征:
- 貝葉斯意義上的完全條件性:即它為關于未知參數的所有斷言分配依賴于數據的信念度;
- 頻率學派意義上的可靠性(或有效性):即對關于未知量的錯誤斷言賦予高信念度的概率很低。
具體細節見第 2.2 節,但有效性的一個重要推論是:由 IM 輸出導出的推斷程序(如置信區域和假設檢驗)可在任意指定水平上被嚴格校準,且不依賴于樣本量。
廣義而言,分治框架將一個因計算成本過高而難以整體分析的樣本量為 n n 的數據集,劃分為 B B 個大致等大的塊,并在分布式計算系統中并行處理。幾乎所有現有的分治方法(參見第 2.1 節綜述)都假設每個塊內的樣本量足夠大,并利用各塊中估計函數和/或估計量的漸近高斯性來構造一個合并估計量,并近似其分布。該合并估計量(下文稱為“大-n 估計量”)通常采取加權平均的形式,權重由各塊估計量的漸近方差之逆給出。然而,當每個塊內的樣本量并不特別大時,“大-n 估計量”的漸近分布就無法得到恰當校準。在實踐中,這常常導致第一類錯誤率膨脹,并過度傾向于錯誤地得出所關注效應在統計上顯著非零的結論。我們在第 5 節進一步展示了使用未恰當校準推斷所帶來的有害后果。
一個激勵性例子是 g-and-k 分布族(Haynes 等,1997;Rayner 與 MacGillivray,2002),其由如下分位數函數定義:
![]()
其中,μ ∈ ? 是位置參數,σ > 0 是尺度參數,g ∈ ? 衡量偏度,k > -1/2 衡量峰度,z? = Φ?1(u) 是第 u 個標準高斯分位數,c 是一個對應于“整體對稱性”值的常數。若 g < 0,則分布向左偏斜;同理,g > 0 表示向右偏斜。g-and-k 族能夠捕捉一大類分布形態。當 k < 0 時,該族還可表示比高斯分布更短的尾部。由于其靈活性,該分布族已被用于建模復雜的金融和氣候數據等。在這些模型中尋找最大似然估計量是困難的,因為每次對數似然評估都需要求解每個觀測值 y? (i=1, ..., n) 的逆問題 y? = Q(u?)。因此,優化不僅計算昂貴,而且數值上具有挑戰性。此外,當 n 不太大時(例如,n = 200),需要進行計算上代價高昂的似然評估以確保推斷的有效性。由于該分布易于抽樣,它常被用來說明近似貝葉斯計算的應用。
(例如,Fearnhead 和 Prangle 2012),但這種方法可能緩慢且難以調參,并且沒有頻率學派校準保證。我們通過在 IM 框架內采用分治策略,減輕了計算負擔并保證了有效推斷。
本文的主要貢獻是開發了一種分治式 IM 框架,該框架除了提供類似貝葉斯的完全條件化不確定性量化外,在有限樣本下也具有頻率學派有效性,并在大樣本下等價于漸近有效的全數據 IM。換句話說,與僅關注漸近有效性的現有方法相比,我們所提出的 IM 在不損失(漸近)統計效率的前提下,獲得了重要的統計有效性保證——可謂魚與熊掌兼得。此外,我們還開發了一種基于黑盒似然模擬器的新計算高效工具,用于評估我們所提出的有效分治式 IM,并結合其他更基礎的策略來加速 IM 計算。
第 2 節概述了分治框架和 IMs。第 3 節通過考察兩種極端版本的分治式 IM 解法奠定了基礎:一種是“最優”的,但實際操作中難以實現;另一種則極其簡單,但僅具漸近有效性。在此經驗基礎上,第 4 節描述了我們的新方法,該方法在分治推斷中實現了有限樣本有效性和漸近效率,相較于擁有處理完整數據所需計算資源的“神諭”解法。第 5 節通過多個數值示例展示了我們所提方案的性能,包括對 2023 年澳大利亞山火季期間昆士蘭州瑪麗伯勒 PM?.? 中位數的分析。所有用于復現結果的代碼均可在 https://github.com/ehector/IMdac 獲取。
2 背景與符號
2.1 分治方法
用于分析大規模分布式數據的分治方法直接源于 Glass (1976) 的元分析。分治框架的主要任務是在 B 個獨立的數據塊上獲得統一的推斷,該過程需同時兼顧計算效率和統計效率。每個數據塊的大小必須足夠小以便快速分析,但又要足夠大以確保估計近似有效,這導致了計算效率與統計效率之間存在根本性的張力。通常,會使用來自各數據塊的數據摘要來降低通信和計算成本,因此分治方法的主要挑戰和關注點在于開發出在統計和計算上都高效的規則,用以合并這些摘要。
為明確記號,設 Z? = (Z?, ..., Z?) 由 n 個獨立觀測值組成,其聯合分布 PΘ 依賴于一個取值于參數空間 Θ ? ?? 的不確定真實參數 Θ;為簡潔起見,省略了 PΘ 對 n 的依賴。單個觀測值 Z? 可能代表觀測研究中的預測變量與響應變量對 (X?, Y?),或如在設計實驗中那樣,預測變量為固定常數。無論如何,完整數據 Z? 會被隨機劃分為 B 個大小分別為 n?, ..., n? 的數據塊,我們記這些數據塊為 Z???,其中 b = 1, ..., B。
![]()
分治方法已應用于多個領域,包括核嶺回歸(Zhang 等,2015)、高維稀疏回歸(Lee 等,2017;Lin 和 Lu,2019)、變量篩選(Diao 等,2024)和經驗似然(Zhou 等,2023b),到建模矩陣(Mackey 等,2015;Nezakati 和 Pircalabelu,2023)、高維相關數據(Hector 和 Song,2020, 2021, 2022)及空間場(Hector 和 Reich,2024;Hector 等,2025;Lee 和 Park,2023)。參見 Chen 等(2021b)、Hector 等(2024)、Zhou 等(2023a)獲取最新綜述。我們所關注的分治方法被稱為“一次性”(one-shot),因為每個數據塊僅被分析一次(因此我們省略了關于一步更新和代理似然的文獻)。大多數一次性方法依賴于(加權)平均,其中合并后的估計量是各研究估計量的(加權)平均值(例如,Hector 等,2023;Lin 和 Xi,2011;Shi 等,2018)。
與我們的工作相關的是,受 Fisher 的置信推斷(Fisher 1935, 1956)和 Efron (1993) 的置信分布啟發,Liu 等 (2014, 2015);Michael 等 (2019);Singh 等 (2005);Tang 等 (2020);Xie 等 (2011);Yang 等 (2016) 提出了使用頻率學派置信分布來組合跨研究推斷的方法。在這一系列工作中,置信分布是一個樣本依賴的函數,它編碼了某個參數的所有置信水平。相比之下,通過 IM 框架(下文第 2.2 節介紹)獲得的可能性輪廓,其主要關注點在于控制置信分布在某個點零假設下的行為。然而,必須謹慎行事,因為將熟悉的概率微積分——即積分——應用于置信分布以進行更廣泛的不確定性量化會帶來風險(例如,Fraser 2011, 2013),特別是會導致虛假置信度(Balch 等,2019)。
2.2 推理模型
如第1節簡要所述,推理模型(IM)框架提供了對統計模型中未知參數的不確定性進行數據驅動量化的功能。這種不確定性量化旨在同時滿足貝葉斯意義上的完全條件性和頻率學派意義上的可證明可靠性。同時實現貝葉斯和頻率學派目標,需要超越教科書中的概率論與統計理論。IM 的特定新穎之處在于,其不確定性量化是用“不精確概率理論”的語言表述的,更具體地說,是用“可能性理論”(例如,Dubois 2006;Dubois 和 Prade 1988)表述的。雖然可能性理論對讀者而言可能比較陌生,但很容易解釋,我們接下來就進行說明。
用一句話概括,可能性理論就是將概率論中的積分替換為優化的概率論。從一個函數 π: Θ → [0,1] 開始,該函數具有性質 supθ∈Θ π(θ) = 1。這個函數被稱為“可能性輪廓”(possibility contour),或簡稱“輪廓”。該“上確界等于一”的條件,與概率密度函數熟悉的“積分為一”的歸一化條件相對應。然后,輪廓 π 通過優化確定一個可能性測度 Π:
![]()
![]()
![]()
![]()
![]()
![]()
這是所謂的概率到可能性變換(例如,Hose 和 Hanss,2020, 2021)在相對似然上的一個應用版本。如果似然函數的計算和最大似然估計量的求解在計算上代價高昂,那么上述定義的 IM 輪廓在實踐中可能難以實現。本文的主要貢獻之一便是一套解析且高效的計算策略,用于在此類情形下近似形如式 (2) 的可能性推理模型(possibilistic IM)輪廓;詳見第 3 節。
盡管本文所考慮的情形均假設數據服從參數模型,但排序–驗證(ranking–validification)構造也可應用于無分布假設(distribution-free)的問題;參見,例如,Cella 與 Martin(2022)、Martin(2023,第6節)以及 Cella(2024)。此外,盡管在參數問題中相對似然是一種自然的排序選擇,但它并非唯一選項;事實上,式 (1) 中的驗證步驟可使用任何合適的排序函數 R R 來執行。這種靈活性在第 4 節尤為重要,我們在該節中引入了一種用于分治推斷的新型強有效推理模型(IM)。
3 通向分治式 IM
3.1 終極方案
第 2.2 節所述的 IM 方法使用完整的數據集 z? 來進行有效且高效的可能性推斷。前述的排序與驗證步驟需要兩樣東西:相對似然(其隱含依賴于最大似然估計量)及其分布。在評估似然函數計算成本高昂的情形下,獲取最大似然估計量并在足夠密集的候選參數值網格上計算相對似然變得不可行。如果相對似然可以被計算出來,當其分布有閉式表達時,驗證步驟可解析地執行;否則,仍需昂貴的計算來經驗性地評估其分布。
分治分析旨在通過結合基于分塊數據 z??? (b = 1, ..., B) 的更廉價、塊特定的推斷,繞過對完整數據 z? 進行同時且可能昂貴的計算。要在分治框架內評估式 (2) 中的輪廓,一個初步想法可能是嘗試僅使用來自 z??? 的摘要統計量 s_b 來重構這個全數據輪廓。當相對似然 R(z?, θ) 僅通過 s?(即各塊摘要統計量的聚合)依賴于數據 z? 時,這是可以實現的。以下,我們給出兩個滿足此條件的例子,旨在建立關于 IM 構造和當前問題復雜性的直觀理解。即使在這些計算幾乎免費的簡單案例中,從分塊數據重構全數據 IM 解法也相當具有挑戰性,因此需要一種不同的方法。我們在第 4 節提出的解決方案即使在似然函數計算成本極高時也能表現得非常好;參見第 5 節中的示例。
![]()
![]()
![]()
3.2 一種大樣本分治式推理模型(IM)
全數據的最大似然估計量和相對似然通常無法僅通過摘要統計量來表達;高斯情形是一個例外。因此,經典的分治推斷方法通常假設各數據塊的最大似然估計量服從高斯分布,并模仿上文例1中的推導過程,從而得到(例如,Hector 等,2024;Hedges,1983):
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
這是一個有趣的觀察結果,但 “亞高斯性” 的條件過于嚴格,不能滿足我們的需求。因此,我們繼續探索。下一節將在此基礎上提出一種新的 “分而治之” IM,它不僅精確有效,而且漸近高效。
4 實用的分治式 IM
4.1 通過高斯工作似然進行排序
上文我們考察了基于簡單模仿高斯情形下計算的大樣本分治式 IM。這消除了與合并各數據塊特定信息相關的所有固有挑戰,因為在高斯情形下最優組合規則是已知的。我們還證明了這種大樣本分治式 IM 在漸近意義上會與全數據 IM 融合。由于全數據 IM 既是有效的又是高效的,上述融合意味著大樣本分治式 IM 在漸近意義上也是有效且高效的。但統計推斷的核心原則是有限樣本有效性——即統計學家的希波克拉底誓言——因此,對我們而言,漸近有效性是不夠的。在此,我們提供一種折中策略,它保留了使大樣本分治式 IM 變得優良的部分特性,同時舍棄了使其顯得幼稚的部分。這使得我們能夠在僅比大樣本分治式 IM 略微增加復雜度的情況下,實現所需的有限樣本有效性。
關鍵觀察是,大樣本分治式 IM 在兩個步驟中兩次使用了高斯性假設:一次是在排序步驟中,通過選擇相對似然;另一次是在驗證步驟中。也就是說,公式 (6) 中提出的可以表示為
![]()
![]()
我們的建議是在排序步驟中僅使用高斯假設,即通過選擇公式 (8) 中的高斯工作相對似然,然后在驗證步驟中改用假設的統計模型而不是高斯近似來進行驗證:
![]()
![]()
4.2 有效性與效率
正如“驗證”(validification)這一術語所暗示的,當我們使用所設定的模型(而非某種高斯近似)來執行驗證步驟時,所得的推理模型(IM)具有精確的有效性,而不僅僅是漸近有效性;參見定理 2。這意味著我們的方法實現了上文所述的“統計學家的希波克拉底誓言”。
![]()
IM 有效性的直接推論是,常規的統計程序(即假設檢驗和置信集)能夠控制頻率學派的錯誤率。這一點尤為突出,因為據我們所知,目前尚無其他分治方法能在如此普遍的設定下實現這種精確的錯誤率控制。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4.4 邊緣輪廓的輪廓似然
![]()
![]()
![]()
![]()
![]()
![]()
![]()
5 數值示例
5.1 萊維α-穩定分布
α-穩定分布(Lévy,1925)常用于金融、經濟和物理學領域。如果一個分布族在卷積運算下封閉,則稱該分布族為α-穩定分布。這些分布由其特征函數定義。
![]()
我們考慮設置 n = 200,B = 4,nb ≡ 50。我們取 α = 1.5 為固定值,數據點由參數 μ = 0、c = 0.5 和 β = 0 的α-穩定分布生成,并使用 Chambers 等人(1976)提出的并在附錄 D.1 中總結的算法。令 Θ = (μ, c, β) 為位置、尺度和偏斜參數的真實值。附錄 D.2 說明了基于完整最大似然估計量的大樣本推斷缺乏有效性保證,這促使我們評估第 2.2 節中描述的計算上不可行的有效輪廓,并隨后評估有效的分治推斷。
我們訓練一個模擬器,以學習大小為 nb = 50 的數據與參數值 Θ 之間的映射關系,其中 Θ 的訓練分布分別為 μ ∈ [?20, 20]、c ∈ [0, 10] 和 β ∈ [?1, 1] 上的連續均勻分布。該模擬器基于兩個串聯的可逆神經網絡,在 DeepSets 框架內使用 BayesFlow 軟件(Radev 等,2020,2023)聯合訓練,從而對觀測值的排列保持不變性。第一個網絡從 50 維數據輸入中學習一個十維摘要統計量,而第二個網絡(由六個耦合層組成)則從摘要統計量中學習參數。模擬器使用 Radev 等人(2023)的在線算法進行訓練,該算法在訓練過程中實時從模型采樣以提高泛化能力。模擬器訓練完成后,我們通過從模擬器抽取 1,000 個樣本,計算 θ?z(b) 和 Jz(b) 分別作為均值和逆方差。我們使用公式 (13) 計算 πs?∨,q,其中 θ? = θ?s?,M = 3,000 個蒙特卡洛樣本,q ∈ {1, 2, 3}。
圖 3 繪制了一個重復實驗中大樣本 n 和有效分治 IM 的輪廓,圖 4 繪制了基于 1,000 次重復實驗的 πs?∨,q 的經驗分布函數的大樣本 n 和有效分治可能性輪廓。大樣本 n 的 IM 是無效的,因為其經驗分布函數遠高于對角線。
![]()
作為對推論 1 的經驗檢驗,我們生成 1,000 個大樣本 n 和有效分治輪廓 πs?∞ 和 πs?∨ 的重復實驗。對于每個重復實驗,我們使用 {θq ∈ Tq : πs?∞,q(θq) > α} 和 {θq ∈ Tq : πs?∨,q(θq) > α} 在水平 α ∈ {0.1, 0.2, ..., 0.9} 下計算 Θ 的 100(1 ? α)% 邊際置信區間。表 2a 報告的 100(1 ? α)% 水平的經驗覆蓋概率是包含真實值 Θ 的 1,000 個計算區間的比例。經驗覆蓋概率
跟蹤有效分治輪廓在蒙特卡洛標準誤差范圍內的名義水平,但大樣本 n 輪廓在所有名義水平下都顯著低估了 Θ 的真實值。圖 3 表明,表 2b 確認:大樣本 n 置信區間過窄;來自有效分治輪廓的置信區間的平均長度大于來自大樣本 n 輪廓的置信區間。
![]()
5.2 g-和-k 分布
我們回到第 1 節中介紹的 g-和-k 分布。令 Θ = (μ, σ, g, k) 為位置、尺度、偏斜和峰度參數的真實值。正如現有文獻中常見的那樣(參見,例如,Drovandi 和 Pettitt 2011;Rayner 和 MacGillivray 2002),我們設定 c = 0.8。我們考慮設置 n = 200,B = 4,nb ≡ 50。結果 yj 使用 R 包 gk(Prangle 2017)從參數 μ = 3、σ = 1、g = 2 和 k = 0.5 的 g-和-k 分布中生成。附錄 D.3 表明,在此情況下,基于完整最大似然估計量的大樣本推斷似乎是有效的,盡管并無保證。為了確保有效性,需要進行計算上不可行的似然比驗證。我們訓練一個模擬器,以學習樣本大小 nb = 50 的數據與參數值 Θ 之間的映射關系,其中 Θ 的訓練分布分別為 μ ∈ [?20, 20]、σ ∈ [?20, 20]、g ∈ [?5, 5] 和 k ∈ [?1/2, 5] 上的連續均勻分布。模擬器以及 θ?z(b) 和 Jz(b) 的計算如第 5.2 節所述。我們使用公式 (13) 計算 πs?∨,q,其中 θ? = θ?s?,M = 3,000 個蒙特卡洛樣本,q ∈ {1, 2, 3, 4}。
圖 5 繪制了一個重復實驗中大樣本 n 和有效分治 IM 的輪廓,圖 6 繪制了基于 1,000 次重復實驗的 πs?∨,q 的經驗分布函數的大樣本 n 和有效分治可能性輪廓。大樣本 n 的 IM 是無效的,因為其經驗分布函數遠高于對角線。
作為對推論 1 的經驗檢驗,我們生成 1,000 個大樣本 n 和有效分治輪廓 πs?∞ 和 πs?∨ 的重復實驗。在水平 100(1?α)%(α ∈ {0.1, 0.2, ..., 0.9})下,Θ 的邊際經驗覆蓋概率如表 3a 所示,它跟蹤了有效分治輪廓在蒙特卡洛標準誤差范圍內的名義水平,但大樣本 n 輪廓在所有名義水平下都顯著低估了 Θ 的真實值。圖 5 表明,表 3b 確認:大樣本 n 置信區間再次過窄。這突顯了使用我們的有效分治輪廓而非大樣本 n 輪廓的重要性:如果在 Θ 未知的真實世界場景中部署,使用基于大樣本 n 輪廓的 90% 置信區間將無意中使 I 類錯誤率增加至三倍!換句話說,錯誤發現的數量可能高達三倍。
![]()
5.3 PM2.5 數據分析
PM?.? 指直徑為 2.5 微米或更小的顆粒物,因其尺寸微小,可被吸入血液并引發嚴重的健康問題。野火是 PM?.? 的重要來源,其普遍性預計會隨著氣候變化而持續增加(Chen 等,2021a)。暴露于高濃度的 PM?.? 與出生體重(Birtill 等,2024)以及澳大利亞急診科入院率(Ranse 等,2022)存在關聯。2023 年 8 月至 12 月的澳大利亞叢林火災季登上國際頭條新聞(Sheehan 等,2023),燒毀了約 8400 萬公頃土地(Fisher,2024),其中包括昆士蘭州的多起火災。鑒于暴露于高濃度 PM?.? 對健康的危險后果,我們以季節為函數,對澳大利亞昆士蘭州瑪麗伯勒市每日 PM?.? 中位數的分布進行建模,以便更好地理解當地居民的暴露窗口。數據由 2023 年 1 月 1 日至 12 月 31 日在瑪麗伯勒站點測得的每小時平均 PM?.?(單位:微克/立方米)的日中位數組成。該數據在知識共享署名 4.0 許可下公開提供,并可在昆士蘭州政府開放數據門戶(Queensland Government,2024)下載。
圖 7 繪制了 n = 365 個日中位數的直方圖和散點圖。令 (y?)???3?? 表示全年每日 PM?.? 的中位數,其中 y? 假設服從參數為位置 μ、尺度 σ?、偏斜 g 和峰度 k(c = 0.8)的 g-和-k 分布。為了擬合時間趨勢,我們使用五次 B 樣條展開來建模尺度參數,結點位于 365/3、365/2 和 2 × 365/3:
![]()
![]()
![]()
![]()
所提出的有效分治 IM 框架的一個獨特特點是,可以在 365 個每日尺度參數上進行有限樣本的有效推斷。圖 8a 繪制了每日尺度的大樣本估計值 θ?s?,?, ..., θ?s?,???,其 90% 邊際置信區間是使用 {θq ∈ Tq : πs?∨,q(θq) > 0.1} 構建的。點估計值似乎模仿了圖 7 散點圖中每日中位數 PM?.? 觀測值的模式。圖 8b 中繪制的觀測值與擬合分位數(通過使用 g-和-k 分布的擬合分布函數的概率積分變換獲得)對比圖表明,我們的模型擬合良好。圖 9 繪制了位置、偏斜和峰度參數的大樣本和有效分治可能性輪廓。位置、偏斜和峰度的 90% 置信區間分別為 (5.198, 5.218)、(0.6534, 0.6811) 和 (0.1762, 0.1955),表明存在正偏斜和重右尾,這與圖 7 中的直方圖一致。
![]()
圖 10 繪制了每日尺度參數 σ?, ..., σ??? 的大樣本和有效分解可能性輪廓。如圖 8a 所示,12 月和 1 月(夏季)各日的尺度似乎表現出更大的變異性,而 6 月和 7 月(冬季)則相對較小。與第 5.2 節一樣,大樣本可能性輪廓在推斷中校準不當。相比之下,有效的分治輪廓更寬,因為它恰當地考慮了觀測樣本中的信息量。模型的不確定性在 1 月、2 月和 3 月最大,這從圖 8a 中更寬的 90% 置信區間可以看出。尺度的最大值對應于冬季月份(6 月和 7 月)和初夏(11 月和 12 月),這意味著瑪麗伯勒居民在這些月份暴露于 PM?.? 的風險最高。
![]()
6 結論
第 3.2 節中提出的大樣本分治可能性輪廓在 IM(信念函數推斷機)構建的排序(ranking)和有效化(validification)兩個步驟中均利用了(近似的)高斯性。在定理 1 中,我們證明了該構造在漸近意義下是有效且有效的(即與基于全數據似然的最優 IM 一致),但這對我們而言并不充分,因為我們所關注的是中等樣本量(moderate n n)的情形。
相比之下,有效分治 IM 在排序步驟中使用高斯相對似然,但其關鍵區別在于:有效化步驟是基于摘要統計量的真實抽樣分布進行的。顧名思義,這確保了有效分治 IM 即使在有限樣本設置下也具有有效性。我們在定理 3 中進一步證明,該有效分治 IM 同時也是漸近有效的,這意味著相較于全數據 IM 和大樣本分治 IM,我們在不損失漸近效率的前提下,獲得了重要的可靠性保證。
本文的核心關注點在于構建一個有效且高效的分治 IM,其由可能性輪廓所刻畫。隨后,我們將該輪廓以一種微妙而或許出人意料的貝葉斯風格加以運用。一種提議的用途是可視化地展示數據對不確定參數 Θ(或其相關特征)所傳達的信息,例如圖 3 所示——這為頻率學派提供了一種與貝葉斯后驗密度相對應的可視化工具。另一種用途是程序性的:通過公式 (10) 直接讀取置信集,類似于貝葉斯學派從后驗密度中讀取最高后驗密度可信集。關鍵區別在于,有效 IM 的水平集自動校準為頻率意義上的置信集。
除了上述貝葉斯–頻率學派之間的聯系外,我們還多次強調:IM 的輸出不僅是一個用于提取置信集的工具,更可用于對 Θ 進行完全條件化、依賴于數據、類概率式的不確定性量化,其作用可與貝葉斯后驗分布相媲美。事實上,人們可以通過計算與 Θ 相關假設的上/下概率來進行形式化推斷;更一般地,還可計算 Θ 的函數的上/下期望,從而對相關行動進行正式的決策理論評估。重要的是,IM 的有效性意味著:所有這類貝葉斯風格的不確定性量化——而不僅僅是置信集——都在頻率意義上是可靠且經過校準的。
![]()
這在似然函數不存在、且訓練模擬器計算成本高昂的情形下可能特別有用。一個缺點是,由此產生的有效分治 IM 將失去其漸近有效性(定理 3)。盡管該方法因與大樣本分治估計量的聯系而具有良好的動機,但未來工作的一個有趣方向是探索替代高斯相對似然的方法,用于組合塊特定估計量。
本文中或許未得到充分關注的一個局限性是:當參數 Θ 的維度較大時,計算聯合可能性輪廓存在困難。這一點在第 5.3 節對中位數 PM?.? 的分析中尤為突出——我們計算的是尺度參數 σ? 的邊際每日置信區域,而非所有尺度參數 σ?, ..., σ??? 的聯合置信集。主要挑戰仍在于計算:由于需要在 θ 值網格上評估可能性輪廓 πs?∨(使用公式 (11)),而網格維度會隨參數維度急劇增長。近期關于可能性輪廓的概率近似研究(Martin,2025)可能為高維情形提供一些新的解決方向。
原文鏈接: https://arxiv.org/pdf/2503.22812
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.