高效計(jì)算的可能性推理模型近似方法
Computationally efficient variational-like approximations ofpossibilistic inferential models
https://www.sciencedirect.com/science/article/pii/S0888613X25001471?via%3Dihub
![]()
![]()
摘 要
推斷模型(Inferential Models, IMs)提供了一種可證明可靠的、數(shù)據(jù)驅(qū)動(dòng)的、可能性(possibilistic)統(tǒng)計(jì)推斷方法。然而,盡管IM框架在理論和基礎(chǔ)層面具有優(yōu)勢,其高效計(jì)算仍是一個(gè)挑戰(zhàn)。本文提出了一種簡單而強(qiáng)大的數(shù)值策略,用于近似IM的可能性輪廓(possibility contour),或至少近似其在給定顯著性水平 α ∈ ( 0 , 1 )下的 α α-截集( α α-cut)。我們的方法首先指定一個(gè)參數(shù)化族,該族在某種意義上近似覆蓋了與IM可能性測度相關(guān)聯(lián)的信度集(credal set)。類似于變分推斷,我們隨后調(diào)整該參數(shù)化族的參數(shù),使其 100 ( 1 ? α ) % 可信集(credible set)大致匹配IM輪廓的 α α-截集。這種參數(shù)化的 α α-截集匹配策略,能夠以遠(yuǎn)低于以往方法的計(jì)算成本,實(shí)現(xiàn)對IM可能性輪廓的完整近似。
關(guān)鍵詞:貝葉斯、置信區(qū)域、信度集、Fiducial(信念推斷)、蒙特卡洛、隨機(jī)近似
- 引言
長期以來,盡管貝葉斯方法在理論基礎(chǔ)上具有優(yōu)勢,但實(shí)際使用貝葉斯方法的統(tǒng)計(jì)學(xué)家卻寥寥無幾——其計(jì)算負(fù)擔(dān)實(shí)在過于沉重。這一局面在蒙特卡洛方法使貝葉斯解變得觸手可及時(shí)發(fā)生了顯著改變。而近年來,隨著各類近似貝葉斯計(jì)算方法(尤其是文獻(xiàn)[8]、[73]及其所引文獻(xiàn)中的變分近似方法)的發(fā)展,情況再次發(fā)生轉(zhuǎn)變。曾經(jīng)清晰劃分貝葉斯與非貝葉斯方法在計(jì)算可行性上的界限如今已變得模糊,這重新激發(fā)了貝葉斯方法在現(xiàn)代應(yīng)用中的活力。丹尼斯·林德利(Dennis Lindley)曾預(yù)言:“到2020年,(統(tǒng)計(jì)學(xué)家)都將變成貝葉斯主義者”[65]——他的預(yù)言并未實(shí)現(xiàn),但可以說,貝葉斯學(xué)派如今比以往任何時(shí)候都更強(qiáng)大。
目前,貝葉斯與頻率學(xué)派是統(tǒng)計(jì)推斷中的兩大主流思想流派,但它們并非僅有的視角。例如,Dempster–Shafer 理論最初便是作為對貝葉斯推斷和費(fèi)希爾(Fisher)信念推斷(fiducial argument)的改進(jìn)與推廣而提出的。我們在此特別關(guān)注的是推斷模型(Inferential Models, IMs;參見[44, 47, 52, 54])方面的最新進(jìn)展。IM 框架提供了一種類似貝葉斯的、數(shù)據(jù)依賴的、基于可能性(possibilistic)的未知量不確定性量化方式,同時(shí)內(nèi)嵌了類似頻率學(xué)派的可靠性保證。IM 及其他新興/非傳統(tǒng)框架目前正面臨當(dāng)年貝葉斯學(xué)派曾遭遇的相同計(jì)算挑戰(zhàn):我們知道想要計(jì)算什么以及為何要計(jì)算它,但目前缺乏高效完成該任務(wù)的工具。雖然傳統(tǒng)的蒙特卡洛方法仍然有用(見第2節(jié)),但 IM 可靠性保證所依賴的“不精確性”(imprecision)意味著僅靠蒙特卡洛方法是不夠的。要實(shí)現(xiàn)埃夫龍(Efron)關(guān)于信念推斷類方法的預(yù)言——“也許費(fèi)希爾最大的失誤將在21世紀(jì)大獲成功!”[24]——就必須在蒙特卡洛計(jì)算中取得能夠容納不精確性的新進(jìn)展。本文的貢獻(xiàn)正是朝向這一總體方向,提出了一種新的 IM 近似方法及一種高效計(jì)算該近似的算法。
我們的出發(fā)點(diǎn)是一個(gè)相對簡單的想法,卻能導(dǎo)向一個(gè)通用的工具,用于實(shí)現(xiàn)計(jì)算高效且統(tǒng)計(jì)可靠的可能性推斷(possibilistic inference)。如第2節(jié)所述,我們聚焦于基于可能性理論的 IM(possibility-theoretic IMs),這類 IM 完全由其對應(yīng)的輪廓函數(shù)(contour function)決定,或者等價(jià)地,由該輪廓函數(shù)的所謂 α-截集(α-cuts)決定。我們利用一個(gè)廣為人知的刻畫:一個(gè)可能性測度的信度集(credal set)可被表示為所有滿足“對上述 α-截集賦予至少 1?α 概率”的概率測度的集合。在 IM 的語境中,這些 α-截集即為 100(1?α)% 的置信區(qū)域,因此 IM 信度集中的元素可合理地解釋為“置信分布”(confidence distributions;例如[62, 77])。具體而言,信度集中“最彌散”的那個(gè)元素(即“內(nèi)概率近似”,inner probabilistic approximation)會(huì)盡可能接近 1?α 地為每個(gè) α-截集分配概率。如果我們能通過蒙特卡洛或其他方式近似這一特殊的信度集成員,那么我們就離完成大部分(甚至全部)相關(guān)的 IM 計(jì)算不遠(yuǎn)了。挑戰(zhàn)在于,除了極少數(shù)特殊問題類別[48]外,這種“內(nèi)概率近似”通常相當(dāng)復(fù)雜。然而,如果我們僅需對某個(gè)單一的 α-截集(例如 α = 0.1)進(jìn)行精確近似,那么我們可以獲得一個(gè)相對簡單的近似方案。
為此,我們提議在參數(shù)空間上引入一個(gè)簡單的參數(shù)化概率分布族(例如高斯分布),其部分參數(shù)依賴于數(shù)據(jù),然后調(diào)整該分布中未指定的參數(shù),使得該分布(近似地)對指定的 α-截集賦予概率 1?α。這類似于變分貝葉斯方法:我們試圖用一個(gè)適當(dāng)選擇的、相對簡單的概率分布族中的成員,去近似一個(gè)復(fù)雜的概率分布——在我們的情形中,這個(gè)復(fù)雜分布是 IM 可能性測度的“內(nèi)概率近似”,而非貝葉斯后驗(yàn)分布。本文所提方法的具體技術(shù)細(xì)節(jié)受到近期文獻(xiàn)[35]以及看似無關(guān)的文獻(xiàn)[69]中發(fā)展的啟發(fā)。
本文其余部分安排如下:第2節(jié)簡要回顧可能性 IM 及其性質(zhì);第3節(jié)提出我們基本但極具普適性的類變分 IM 近似方法,該方法結(jié)合蒙特卡洛與隨機(jī)近似來調(diào)整所設(shè)參數(shù)化近似族的索引參數(shù),特別適用于低維參數(shù)的統(tǒng)計(jì)推斷問題,并給出若干示例。第4節(jié)則提出該類變分近似方法的一個(gè)更精細(xì)版本,更適合高維問題,但主要適用于高斯近似族——這在實(shí)踐中并無限制。借助更具結(jié)構(gòu)化的近似形式,我們可通過減少 IM 輪廓函數(shù)的蒙特卡洛評(píng)估次數(shù)來降低計(jì)算成本。我們在多個(gè)例子中展示了這一點(diǎn),包括一個(gè)帶 Lasso 懲罰的相對高維問題,以及分別涉及參數(shù)、非參數(shù)和半?yún)?shù)模型中冗余參數(shù)(nuisance parameters)的問題。需要強(qiáng)調(diào)的是,本文并非提出一種新的 IM 構(gòu)造方法,而是提出一種對已在文獻(xiàn)中發(fā)展和研究過的 IM 解的新穎且計(jì)算高效的近似方法。因此,本文的示例并不將我們的 IM 近似與其他方法(如貝葉斯方法)進(jìn)行比較,而是聚焦于新近似方法的質(zhì)量,展示其與通常計(jì)算成本高得多的精確 IM 解高度吻合。如果所提近似足夠準(zhǔn)確,那么無論使用舊的昂貴計(jì)算策略還是本文提出的新高效策略,IM 解與其他方法之間的比較結(jié)果(參見例如[10–14, 41, 47, 49])將保持一致。不過,我們?nèi)园艘粋€(gè) IM 與貝葉斯方法的簡要對比(見例5)。第6節(jié)對全文進(jìn)行簡明總結(jié),并討論若干具有實(shí)際意義的擴(kuò)展方向。
- 可能性推斷模型(IMs)的背景
IM 框架最初的表述(例如,[52, 54])嚴(yán)重依賴于(嵌套的)隨機(jī)集及其相應(yīng)的信念函數(shù)。最近在 [47] 中提出的 IM 公式,建立在 [41, 42] 的發(fā)展基礎(chǔ)之上,通過將概率到可能性的轉(zhuǎn)換應(yīng)用于相對似然函數(shù)來定義 IM 的可能性輪廓。這一看似微小但重要的轉(zhuǎn)變具有理論動(dòng)機(jī),但我們在此僅作簡要提及。本文綜述的重點(diǎn)在于可能性 IM 的公式、其關(guān)鍵性質(zhì)以及現(xiàn)有的計(jì)算策略。
考慮一個(gè)由參數(shù)空間 T ? ?? 索引的參數(shù)統(tǒng)計(jì)模型 {Pθ : θ ∈ T}。例子包括 Pθ = Ber(θ)、Pθ = N(θ, 1)、Pθ = Gamma(α, β)(其中 θ = (α, β)),以及其他許多模型;參見第 3.3 節(jié)。非參數(shù)問題——參見 [12]、[13] 和 [49, 第 5 節(jié)]——同樣可以處理,但我們將其討論推遲至第 5 節(jié)。假設(shè)可觀測數(shù)據(jù) X? = (X?, ..., X?) 是來自分布 Pθ 的獨(dú)立同分布樣本,其中 Θ ∈ T 是未知/不確定的“真實(shí)值”。該模型與觀測數(shù)據(jù) X? = x? 共同確定了一個(gè)似然函數(shù) θ ? L??(θ) 以及相應(yīng)的相對似然函數(shù)
![]()
![]()
其中 H 表示關(guān)于 Θ 的一個(gè)假設(shè)。這種純粹由似然驅(qū)動(dòng)的可能性測度具有若干理想的性質(zhì):例如,基于對可能性得分進(jìn)行閾值化(使用與模型無關(guān)的閾值)的推斷滿足似然原理(例如,[4,6]),并且在標(biāo)準(zhǔn)正則條件下,它在 PΘ-概率意義下漸近一致(即當(dāng) n → ∞ 時(shí),收斂于集中在 Θ 上的可能性測度)。然而,這種純粹基于似然的可能性測度所缺乏的是一個(gè)校準(zhǔn)性質(zhì)(相對于所設(shè)定的模型),該性質(zhì)賦予其對未知 Θ 的假設(shè)所分配的“可能性”以意義或信念形成方面的推斷權(quán)重。更具體地說,如果我們以可能性測度作為對統(tǒng)計(jì)不確定性的量化,則其對應(yīng)的信度集應(yīng)包含在統(tǒng)計(jì)意義上具有意義的概率分布。我們假設(shè)先驗(yàn)信息為空白,因此不存在有意義或特殊的貝葉斯后驗(yàn)分布。對信度集元素唯一其他自然的約束是它們應(yīng)為“置信分布”。但是,正如在 (8) 中所述,這種解釋要求相對似然的 α-截集(即 {θ : R(x?, θ) > α})是 Θ 的 100(1?α)% 置信集,而通常情況并非如此。因此,僅憑相對似然本身是不夠的。
幸運(yùn)的是,至少從概念上講,通過應(yīng)用 Martin [46] 所稱的“有效化”(validification)——一種概率到可能性的轉(zhuǎn)換版本(例如,[22,31])——可以實(shí)現(xiàn)這種校準(zhǔn)。具體而言,對于觀測數(shù)據(jù) X? = x?,可能性 IM 的輪廓定義為
![]()
換言之,如果 IM 以不超過 α 的可能性賦予真實(shí)假設(shè)(作為數(shù)據(jù) X? 的函數(shù))的比例不超過 α,則該 IM 是有效的(或已校準(zhǔn)的)。這正是 IM 上述“推斷權(quán)重”的來源:公式 (6) 意味著,當(dāng) H 為真時(shí),我們不期望 Π???(H) 很小,因此我們傾向于懷疑那些 Π???(H) 較小的假設(shè) H 的真實(shí)性。此外,上述性質(zhì)確保了可能性 IM 不會(huì)陷入虛假置信(false confidence)[2,43,50],而所有默認(rèn)先驗(yàn)的貝葉斯方法和信念推斷(fiducial)解則無法避免這一點(diǎn)。甚至更強(qiáng)的一個(gè)版本——在所有假設(shè)上一致成立的 (6) 版本——也成立,如 [15] 中所示/討論:
![]()
“對于某些包含 Θ 的假設(shè) H”這一事件,可被視為所有包含 Θ 的假設(shè) H 的并集,這使得它比公式 (6) 中與任何單個(gè)固定假設(shè) H 相關(guān)聯(lián)的事件要寬泛得多。因此,無論評(píng)估的假設(shè)數(shù)量多少或它們被選擇的方式如何——即使它們依賴于數(shù)據(jù)——從 IM 得出的任何一個(gè)建議具有誤導(dǎo)性的概率仍被控制在指定水平內(nèi)。關(guān)于可能性 IM 性質(zhì)及其與貝葉斯/信念推斷聯(lián)系等的更多細(xì)節(jié)和討論,請參見 [47–49]。
在貝葉斯分析中,推斷基于數(shù)據(jù)依賴后驗(yàn)分布的摘要,例如科學(xué)相關(guān)假設(shè)的后驗(yàn)概率、損失/效用函數(shù)的期望等。而所有這些摘要最終都?xì)w結(jié)為涉及決定后驗(yàn)的概率密度函數(shù)的積分。對于可能性 IM 而言,幾乎完全相同的情況也成立:科學(xué)相關(guān)假設(shè)的上下概率對、損失/效用函數(shù)的上下期望等,最終都?xì)w結(jié)為涉及可能性輪廓 π?? 的優(yōu)化問題。例如,若關(guān)注點(diǎn)是 Θ 的某個(gè)特征 Φ = g(Θ),則貝葉斯方法可通過積分 Θ 的后驗(yàn)密度來獲得 Φ 的邊緣后驗(yàn)分布。類似地,相應(yīng)的機(jī)會(huì)主義 IM 具有一個(gè)通過優(yōu)化 π?? 獲得的輪廓:
![]()
重要的是,與貝葉斯積分不同,IM 的優(yōu)化操作確保了 π?? 中固有的有效性性質(zhì)被傳遞到 π??????,這意味著 IM 關(guān)于 Φ 的邊緣推斷不會(huì)陷入虛假置信。
上述應(yīng)用于 IM 輪廓函數(shù) (2) 的操作——用于獲得上概率或消除冗余參數(shù)——均為 Choquet 積分的特例(例如 [74, 附錄 C])。這些更一般的 Choquet 積分在正式?jīng)Q策情境中具有統(tǒng)計(jì)相關(guān)性 [45] 等。也就是說,若 ??(Θ) 表示當(dāng)世界狀態(tài)為 Θ 時(shí)采取行動(dòng) a 所關(guān)聯(lián)的損失,則可能性 IM 通過 Choquet 積分,在給定 x? 的前提下,提供了一種對行動(dòng) a 所關(guān)聯(lián)風(fēng)險(xiǎn)的評(píng)估,該評(píng)估考慮了 Θ 的不確定性:
![]()
那么,例如,人們可能會(huì)選擇行動(dòng) a(x?),該行動(dòng)使上述上期望損失最小化。關(guān)鍵在于,即使在 IM 的輪廓函數(shù)已經(jīng)獲得之后,仍需執(zhí)行非平凡的操作——這為我們尋找盡可能簡單且高效的輪廓近似方法提供了真實(shí)而實(shí)用的動(dòng)力。
盡管 IM 的構(gòu)造在概念上很簡單,且其性質(zhì)很強(qiáng),但計(jì)算可能是一個(gè)挑戰(zhàn)。問題在于,我們很少能在 Pθ 下獲得相對似然 R(X?, θ) 的抽樣分布的閉式表達(dá),以方便精確計(jì)算 π??。因此,通常采用的策略是:在足夠精細(xì)的 θ 網(wǎng)格上,使用蒙特卡洛方法在每個(gè) θ 值處近似該抽樣分布(例如,[32, 47])。也就是說,可能性輪廓被近似為:
![]()
其中,X?,θ? 由 Pθ 生成的 n 個(gè)獨(dú)立同分布樣本構(gòu)成,m = 1, ..., M。上述計(jì)算在單個(gè)或少數(shù)幾個(gè) θ 值上是可行的,但通常需要在覆蓋(相關(guān)區(qū)域)的、往往為多維的參數(shù)空間 T 上進(jìn)行足夠精細(xì)的網(wǎng)格計(jì)算。例如,公式 (5) 中的置信集要求我們能求解方程 π??(θ) = α,或至少找出滿足 π??(θ) ≥ α 的那些 θ 值;一種樸素的方法是在一個(gè)龐大的網(wǎng)格上計(jì)算輪廓,然后保留那些(近似地)滿足前述方程的點(diǎn)。與此相關(guān)的計(jì)算復(fù)雜度為 O(Mg?),其中 M 是蒙特卡洛樣本量,d 是參數(shù)空間的維度,g 是參數(shù)空間 T 每一維上的網(wǎng)格點(diǎn)數(shù);這導(dǎo)致大量計(jì)算被浪費(fèi)。更一般而言,IM 輸出的相關(guān)摘要涉及對輪廓函數(shù)的優(yōu)化,而數(shù)值實(shí)現(xiàn)該優(yōu)化需要多次評(píng)估輪廓函數(shù)。雖然在某些情況下可以對這種最樸素的方法進(jìn)行簡單調(diào)整(例如重要性抽樣),但這些調(diào)整需要針對具體問題進(jìn)行考慮,且不能期望在計(jì)算效率上帶來實(shí)質(zhì)性改進(jìn)。這是一個(gè)嚴(yán)重的瓶頸,因此迫切需要新的、非樸素的計(jì)算策略。
- 基礎(chǔ)類變分 IMs
3.1 設(shè)置
上述回顧的基于蒙特卡洛的策略并非數(shù)值近似可能性 IM 的唯一方法。另一種選擇是基于現(xiàn)有大樣本理論 [57] 的解析“高斯”近似(見下文)。此處的目標(biāo)是在(或多或少精確但昂貴的)蒙特卡洛近似與(粗糙但廉價(jià)的)大樣本近似之間取得平衡。為實(shí)現(xiàn)這一平衡,我們選擇聚焦于可能性 IM 輸出的一個(gè)特定特征,即公式 (5) 中的置信集 Cα(x?),并選擇一種近似方法,使其至少能精確匹配給定的置信集。我們的具體提案類似于目前在貝葉斯分析中廣泛使用的變分近似:首先指定一個(gè)相對簡單的候選概率分布族,然后通過尋找使該候選分布與精確后驗(yàn)分布之間的距離/散度(的上界)最小化的成員來獲得近似解。我們的方法的不同之處在于,我們旨在通過(對適當(dāng)選擇的概率分布應(yīng)用)概率到可能性的轉(zhuǎn)換,來近似一個(gè)可能性測度。
根據(jù) Destercke 和 Dubois [21]、Couso 等人 [17] 及其他學(xué)者的研究,可能性 IM 的信度集(credal set)(Π???),即所有被 Π??? 支配的精確概率分布的集合,具有一個(gè)非常簡單且直觀的刻畫:
為方便起見,我們將在下文中用下標(biāo)“n”替代下標(biāo)“x?”——例如,用 Q? 和 Π?? 代替 Q?? 和 Π???——以簡化符號(hào)表示。)也就是說,一個(gè)依賴于數(shù)據(jù)的概率分布 Q? 與 Π?? 一致,當(dāng)且僅當(dāng)對于每個(gè) α ∈ [0, 1],它賦予 IM 的置信集 Cα(x?)(見公式 (5))至少 1?α 的概率質(zhì)量。此外,如果存在“最佳”的內(nèi)概率近似,則該近似對應(yīng)于一個(gè) Q?*,使得對所有 α ∈ [0, 1],Q?*{Cα(x?)} = 1?α。對于某一類特殊的統(tǒng)計(jì)模型,Martin [48] 證明了這種最佳內(nèi)近似對應(yīng)于費(fèi)希爾的信念分布(fiducial distribution)和默認(rèn)先驗(yàn)貝葉斯后驗(yàn)分布。但在這一特殊模型類別之外,尚不清楚如何找到最佳內(nèi)近似。一個(gè)不那么雄心勃勃的目標(biāo)是:對于固定的 α,尋找一個(gè)概率分布 Q?,α*,使得
![]()
3.2 提出的近似方法
我們建議從一個(gè)由通用參數(shù)空間 Ξ 索引的數(shù)據(jù)依賴型概率分布族 ??? = {Q?? : ξ ∈ Ξ} 開始。一個(gè)重要的例子是 Q?? 為高斯分布的情形,其均值向量和/或協(xié)方差矩陣以某種特定方式依賴于(數(shù)據(jù)和)ξ。具體而言,由于可能性 IM 輪廓的峰值位于最大似然估計(jì)量 θ?? = θ??? 處,因此將高斯分布 Q?? 的均值向量固定在 θ?? 是合理的;而對于協(xié)方差矩陣,一個(gè)自然的選擇是 ξ2 J??1,其中 J? = J?? 是依賴于數(shù)據(jù)及所設(shè)定統(tǒng)計(jì)模型的觀測費(fèi)舍爾信息矩陣。
鑒于當(dāng) ξ = 1 時(shí),Q?? 是對 Π?? 漸近最優(yōu)的內(nèi)概率近似(參見 [57]),該高斯族是一個(gè)非常合理且默認(rèn)的選擇。因此,我們的方案是在高斯近似中引入一些額外的靈活性,允許其離散程度根據(jù) ξ > 1 或 ξ < 1 而擴(kuò)展或收縮。盡管基于高斯的近似是自然的,但選擇 ??? 為高斯族并非唯一選項(xiàng)——參見下面的例 4。事實(shí)上,如果參數(shù)空間具有在通常歐幾里得空間中不存在的結(jié)構(gòu)(例如,若 T 是概率單純形),則選擇 ??? 以尊重該結(jié)構(gòu)是完全合理的。
對 ??? 所施加的一個(gè)高層條件是:它必須足夠靈活,即隨著 ξ 的變化,Q?,α? 對可能性 IM 的 α-截集的概率值能夠小于或大于目標(biāo)水平 1?α。上述高斯近似顯然滿足此條件,因?yàn)?ξ 控制著 Q?,α? 的離散程度,通過取足夠小或足夠大的 ξ 值,可以使前述概率任意地變小或變大。這一溫和條件對于幾乎所有其他(合理的)近似族 ??? 同樣易于驗(yàn)證。
給定這樣一個(gè)由參數(shù) ξ ∈ Ξ 索引的合適的近似族 ???,我們提出的程序如下。定義一個(gè)目標(biāo)函數(shù):
![]()
其中 Θ??, ..., Θ?? 獨(dú)立同分布于 Q???。可以想見,上述樣本對每個(gè) ξ 而言都是廉價(jià)的,因?yàn)榉植甲?已由用戶指定;但我們?nèi)孕枰?M 個(gè)蒙特卡洛樣本來對每個(gè) k 計(jì)算 π??(Θ??)。這導(dǎo)致計(jì)算復(fù)雜度為 O(MK),除了在低維情形下(例如 d ∈ {1,2}),該修改相比 (7) 中的樸素策略已帶來顯著的計(jì)算節(jié)省。接下來將描述一個(gè)額外的計(jì)算步驟,但其復(fù)雜度是有界的,因此整體復(fù)雜度仍保持在 O(MK)。
僅擁有目標(biāo)函數(shù)的無偏估計(jì)量還需要對數(shù)值算法進(jìn)行一些調(diào)整。特別是,我們不能使用假設(shè)函數(shù)值無噪聲的牛頓-拉弗森(Newton–Raphson)算法,而必須使用一種適應(yīng)于函數(shù)值存在噪聲的隨機(jī)近似算法(例如,[40,51,61,69,70])。基本的 Robbins–Monro 算法通過以下迭代更新來求解 (10) 的根:
![]()
![]()
我們所提近似方法的偽代碼見算法 1。總結(jié)而言,我們提出了一種針對參數(shù) Θ 的簡單數(shù)據(jù)依賴型概率分布,其概率到可能性的輪廓在指定閾值 α 處至少能緊密匹配 IM 的輪廓。更具體地說,一個(gè)合理的概率分布選擇是高斯分布,而算法 1 中所呈現(xiàn)的方法通過縮放協(xié)方差矩陣,使其對應(yīng)的輪廓函數(shù)在閾值 α 處能精確逼近 IM 的輪廓。
在某些溫和條件下,上述定義的序列 {ξ??? : t ≥ 0} 在概率意義上收斂于 fα 在 (10) 中的根。若 ξ? 是算法達(dá)到實(shí)際收斂(例如,當(dāng) |f?α(ξ???)| 或變化量 |ξ???1? ? ξ???| 小于某個(gè)指定閾值)時(shí)返回的值,則我們設(shè) Q??,α = Q?,α??。該分布應(yīng)是對 IM 可能性測度內(nèi)近似(即 (Π???) 中“最彌散”的成員)的一個(gè)合理準(zhǔn)確的近似。因此,將 (2) 中的概率到可能性轉(zhuǎn)換應(yīng)用于 Q???,α,應(yīng)能合理準(zhǔn)確地近似精確的可能性 IM 輪廓 π??,至少在它們的上 α-截集方面如此。下文各節(jié)中的示例證實(shí)了這一點(diǎn),以及第 4 節(jié)中提出的更復(fù)雜近似方法確實(shí)具有合理的準(zhǔn)確性。
如上所述,合適的 ??? 選擇取決于具體情境。在此選擇中的一個(gè)重要考量是:能否對由內(nèi)近似 Q??,α 所確定的近似輪廓進(jìn)行精確計(jì)算。對于前述正態(tài)變分族 ???(均值為 θ??,協(xié)方差為 ξ?2 J??1)而言,情況正是如此,因?yàn)?/p>
![]()
3.3 數(shù)值示例
我們在此的第一個(gè)目標(biāo)是為所提出的近似方法提供一個(gè)概念驗(yàn)證。為此,我們呈現(xiàn)幾個(gè)低維示例,以便能夠同時(shí)可視化精確的 IM 輪廓和近似輪廓,并直接評(píng)估近似的質(zhì)量。除下面的例 4 外,所有示例均使用上述描述的正態(tài)變分族 ,其均值為 θ??、協(xié)方差為 ξ2 J??1(其中 ξ 待確定)。所有示例均展示基于 α = 0.1、M = 200 個(gè)蒙特卡洛樣本、步長 w? = 2(1 + t)?1 以及收斂閾值 ε = 0.005 的類變分 IM 近似 Q??,α。
例 1. 回顧第 2 節(jié)中探討的二項(xiàng)分布例子,其中 X? 由 n 個(gè)獨(dú)立同分布的 Ber(Θ) 隨機(jī)變量組成。基于觀測數(shù)據(jù) X? = x? 的精確 IM 可能性輪廓表達(dá)式見公式 (3),并在圖 1(a) 中針對 n = 15 且 ∑???? x? = 6 的情形予以展示。圖 1(a) 同時(shí)也顯示了所提出的基于高斯的變分近似對應(yīng)的輪廓。請注意,這兩個(gè)輪廓非常吻合,尤其是在專門針對的水平 α = 0.1 處。
例 2. 假設(shè) X? 由獨(dú)立同分布的二元正態(tài)配對組成,其均值為零、方差為 1,具有共同密度函數(shù):
![]()
![]()
對未知相關(guān)系數(shù) Θ 進(jìn)行推斷是一個(gè)出人意料地具有挑戰(zhàn)性的問題(例如,[3,53,59])。事實(shí)上,盡管這是一個(gè)標(biāo)量指數(shù)族模型,但它并沒有一個(gè)一維的充分統(tǒng)計(jì)量;此外,還存在多種不同的輔助統(tǒng)計(jì)量可用于條件化,從而導(dǎo)致不同的解。圖 1(b) 展示了基于 (2) 的樸素蒙特卡洛實(shí)現(xiàn)所得到的精確 IM 輪廓,數(shù)據(jù)為模擬樣本,樣本量 n = 50,真實(shí)相關(guān)系數(shù)為 0.5。精確輪廓具有一些不對稱性,而正態(tài)近似無法完美容納這種不對稱性,但通過略微擴(kuò)大上 0.1 水平集來彌補(bǔ)了這一不足。所提近似的計(jì)算效率與準(zhǔn)確性的定量評(píng)估將在下面的例 6 中給出。
例 3. [28] 第 8.4 表中呈現(xiàn)的數(shù)據(jù)涉及氯乙酸暴露與小鼠死亡率之間的關(guān)系。擬合一個(gè)簡單的邏輯回歸模型,以將二元死亡指標(biāo) (y) 與氯乙酸暴露水平 (u) 關(guān)聯(lián)起來,該數(shù)據(jù)集包含 n = 120 只小鼠。也就是說,X? 由獨(dú)立配對 X? = (U?, Y?) 組成,且在給定 U? 的條件下,Y? 服從伯努利模型,其質(zhì)量函數(shù)為:
其中 F(z) = (1 + e??)?1 是邏輯分布函數(shù)。相應(yīng)的似然函數(shù)無法以閉式最大化,但數(shù)值求解是常規(guī)操作。最大似然估計(jì)量及相應(yīng)的觀測信息矩陣可導(dǎo)出漸近有效的推斷,這是標(biāo)準(zhǔn)統(tǒng)計(jì)軟件包所報(bào)告的結(jié)果。然而,對于精確推斷而言,計(jì)算負(fù)擔(dān)更重:在足夠精細(xì)的 θ 值網(wǎng)格上評(píng)估經(jīng)驗(yàn)證的相對似然函數(shù)成本相當(dāng)高。圖 1(c) 展示了基于 (2) 的樸素蒙特卡洛實(shí)現(xiàn)所得到的回歸系數(shù)的精確 IM 可能性輪廓的 0.1 水平集,并與所提出的變分近似并列展示。變分方法比樸素方法快近 2.5 倍,但兩個(gè)輪廓幾乎完全吻合。
![]()
其中,自然地,我們將均值取為最大似然估計(jì)量 θ? = n?1X,精度取為 nξ(其中 ξ > 0 待確定)。當(dāng)然,此處也可以使用高斯變分近似,但我們采用狄利克雷近似旨在突出我們方案的靈活性。圖 1(d) 展示了基于 K = 3 和計(jì)數(shù) X = (8, 10, 7) 的近似 IM 輪廓。精確的 IM 輪廓幾乎不可能計(jì)算,因?yàn)闃闼孛商乜宸椒ㄋ俣染徛?dāng)蒙特卡洛樣本量過小時(shí)輪廓會(huì)呈現(xiàn)噪聲,且數(shù)據(jù)的離散性質(zhì)使其形狀類似于圖 1(a) 中的二項(xiàng)分布圖。然而,在此處,我們僅需幾秒鐘即可獲得一個(gè)平滑的輪廓近似。
本節(jié)的第二個(gè)目標(biāo)是提供更深入的示例,以說明利用所提出的類變分近似 IM 可以開展何種分析。我們在針對計(jì)數(shù)數(shù)據(jù)的回歸建模背景下進(jìn)行這一說明。
例 5. 泊松對數(shù)線性模型被廣泛用于分析基于計(jì)數(shù)的離散響應(yīng)變量與一組固定解釋變量之間的關(guān)系;即使解釋變量并非由設(shè)計(jì)固定,也幾乎總是假設(shè)其分布不依賴于任何相關(guān)參數(shù);這使得解釋變量成為輔助統(tǒng)計(jì)量,因此通常需以其觀測值為條件。令 X? 表示第 i 個(gè)觀測的響應(yīng)變量,z??, ..., z?? 表示該觀測的 p 個(gè)解釋變量,i = 1, ..., n。泊松對數(shù)線性模型假設(shè)在給定 z? = (z??, ..., z??) 的條件下,X? 服從泊松分布,且跨 i = 1, ..., n 相互獨(dú)立,其邊際質(zhì)量函數(shù)為:
![]()
考慮 [1] 第 3.2 表中提供的數(shù)據(jù),這些數(shù)據(jù)來源于一項(xiàng)關(guān)于馬蹄蟹筑巢習(xí)性的研究。在該研究中,每只 n = 173 只雌性馬蹄蟹均有一只雄性附著在其巢穴旁,研究目標(biāo)是探索影響附近是否存在額外雄性(稱為“衛(wèi)星雄性”)的因素。響應(yīng)變量 X 是每只雌性蟹觀測到的衛(wèi)星雄性數(shù)量。此處,我們重點(diǎn)關(guān)注評(píng)估兩個(gè)與雌性蟹體型相關(guān)的解釋變量對這一響應(yīng)的影響:z?(體重,單位 kg)和 z?(甲殼寬度,單位 cm)。
IM 輪廓的變分近似由公式 (12) 得到,其中 ξ 使用 M = 200 個(gè)蒙特卡洛樣本估計(jì),步長 w? = 2(1 + t)?1,收斂閾值 ε = 0.005。或許首先應(yīng)考慮的問題是:z? 或 z? 中至少有一個(gè)是否對 X 有影響?為回答此問題,構(gòu)建了 (Θ?, Θ?) 的邊際 IM,如圖 2(a) 所示。值得注意的是,假設(shè) “H: Θ? = Θ? = 0” 的上概率接近零,這提供了強(qiáng)有力的證據(jù)表明 Θ? 或 Θ? 至少有一個(gè)不為零。為分別評(píng)估 z? 和 z? 的影響,圖 2(b,c) 展示了 Θ? 和 Θ? 各自的邊際 IM。盡管有強(qiáng)證據(jù)支持 “Θ? > 0”,但假設(shè) “Θ? = 0” 卻非常合理。最后,鑒于存在明顯證據(jù)支持 “Θ? > 0”,人們可能會(huì)進(jìn)一步詢問形如 “H?: Θ? > γ”(γ > 0)的哪些假設(shè)得到良好支持。這一問題可通過使用 H? 的邊際必要性測度來解決,如圖 2(d) 所示。我們可以看到,“Θ? > 0.1” 得到良好支持,表明每增加一公斤體重,雌性蟹平均擁有的衛(wèi)星雄性數(shù)量大約增加 10%。重要的是,IM 的一致有效性保證了上述任何一條推斷具有誤導(dǎo)性的概率都可被控制在極小范圍內(nèi)。
![]()
為了突出 IM 的校準(zhǔn)保障并提供與另一種框架的比較,我們按照上述設(shè)置進(jìn)行了一項(xiàng)模擬研究。我們生成了 500 個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集包含 n = 25 個(gè)觀測值。所有數(shù)據(jù)集中,25 對解釋變量保持固定,并通過從上述原始數(shù)據(jù)集的 173 對中隨機(jī)抽取獲得。重要的是,所選解釋變量經(jīng)過縮放,使得 ∑???? z?? = 0 且 p?1∑???? z??2 = 1——這種縮放不影響解釋變量之間的依賴關(guān)系,確保了各 Θ? 具有可比性,從而使如下所述的假設(shè) H? 具有意義。響應(yīng)變量 X? 獨(dú)立地從 Pois(Λ?) 中抽樣,其中
![]()
![]()
![]()
- 超越基礎(chǔ)類變分 IMs
4.1 設(shè)置與方案
為加速計(jì)算,可考慮對第 3 節(jié)所述的基本程序進(jìn)行多種調(diào)整。如果在第 3 節(jié)提出的方案中仍存在計(jì)算瓶頸,則意味著在隨機(jī)近似算法的每次迭代中,IM 的可能性輪廓必須在 M 個(gè)點(diǎn)上進(jìn)行評(píng)估。雖然在某些應(yīng)用中(包括上文所呈現(xiàn)的例子),這并不算昂貴,但在其他應(yīng)用中可能構(gòu)成顯著負(fù)擔(dān)。另一個(gè)相關(guān)挑戰(zhàn)是:迄今為止我們專注的變分族上的標(biāo)量索引 ξ 可能不夠靈活。通過考慮更高維的 ξ 來增加靈活性,同樣會(huì)增加計(jì)算負(fù)擔(dān),因此需要謹(jǐn)慎處理。在此,我們的目標(biāo)是同時(shí)解決上述兩個(gè)挑戰(zhàn)。
我們在此考慮的特定修改最適合于以下情形:變分族 ??? 滿足如下性質(zhì)——對于每個(gè) ξ ∈ Ξ,對應(yīng) Q?? 的 100(1?α)% 可信集可以以閉式表達(dá)(或至少能夠簡潔概括)。此處將要呈現(xiàn)的想法更具一般性,但為使細(xì)節(jié)盡可能簡單具體,我們將重點(diǎn)放在高斯變分族的情形上。此時(shí),可信集是 d 維空間中的橢球體。
作為對第 3 節(jié)引入的標(biāo)量 ξ 索引高斯族的推廣,令 ξ ∈ Ξ = ???? 為一個(gè) d 維向量索引,并取 ??? 為具有均值向量 θ??(即最大似然估計(jì)量)和協(xié)方差矩陣 J?(ξ)?1 的 d 維高斯族,其定義如下:對觀測費(fèi)舍爾信息矩陣 J? 進(jìn)行特征分解,記作 J? = UΨU?,然后設(shè)定
![]()
![]()
4.2 數(shù)值示例
我們將通過三個(gè)例子來說明這一新版高斯變分族及其近似算法。第一個(gè)例子重新審視前述的二元正態(tài)相關(guān)系數(shù)案例,但提供關(guān)于該近似方法計(jì)算時(shí)間和精度的更具體細(xì)節(jié);第二個(gè)例子是經(jīng)典的雙參數(shù)伽馬模型;第三個(gè)例子是一個(gè)涉及懲罰項(xiàng)的相對高維模型,旨在作為進(jìn)入高維問題 IM 解法的入口。
例 6. 此處我們重新審視上文例 2 中的二元正態(tài)相關(guān)系數(shù)示例,但這次對所提近似方法(即算法 2 所述版本)與樸素蒙特卡洛輪廓評(píng)估(如公式 (7) 所述)在計(jì)算時(shí)間和精度方面進(jìn)行定量比較。我們沿用例 2 的設(shè)置,數(shù)據(jù)集從真實(shí)相關(guān)系數(shù) Θ = 0.5 的標(biāo)準(zhǔn)二元正態(tài)分布中生成,樣本量 n 各不相同。在此情形下,我們生成 100 個(gè)不同大小(n = 50、100 和 200)的數(shù)據(jù)集,并針對每個(gè)數(shù)據(jù)集,分別基于公式 (7) 中的樸素策略和新提出的近似方法評(píng)估 IM 輪廓函數(shù),記為 π?????? 和 π???????。兩種方法在評(píng)估輪廓時(shí)均基于 M = 500 個(gè)蒙特卡洛樣本。在表 1 中,我們比較了相對計(jì)算時(shí)間——定義為樸素策略耗時(shí)除以所提策略耗時(shí)——以及兩者之間的 L? 距離 ∫ |π???????(θ) ? π??????(θ)| dθ;這些數(shù)值是在每種樣本量 n 下的 100 個(gè)數(shù)據(jù)集上取平均得到的。這里的解釋是:樸素策略是“黃金標(biāo)準(zhǔn)”,因?yàn)樗诿總€(gè)網(wǎng)格點(diǎn)上都能準(zhǔn)確評(píng)估 IM 輪廓。因此,理想情況下,π??????? 與 π?????? 之間的距離應(yīng)很小,而前者解法應(yīng)比后者的暴力窮舉法更高效。然而,隨著樣本量 n 增加,我們知道兩點(diǎn):
- 兩種策略的計(jì)算復(fù)雜度均隨 n 線性增長,但樸素策略的增長速率快于所提近似方法,因此計(jì)算時(shí)間比率應(yīng)大致恒定且大于 1;
- 根據(jù)文獻(xiàn) [57] 的結(jié)果,π??????? 中采用的高斯近似精度會(huì)提高,因此我們預(yù)期兩個(gè)輪廓將趨于一致。
表 1 的結(jié)果證實(shí)了這些預(yù)期,即相對計(jì)算時(shí)間穩(wěn)定在數(shù)值 2 附近,表明樸素策略的計(jì)算時(shí)間大約是所提策略的兩倍,且兩個(gè)輪廓之間的 L? 距離隨 n 增大而減小。在這種情況下,樸素策略在計(jì)算時(shí)間對比上占優(yōu),因?yàn)槠鋬H涉及一個(gè)標(biāo)量參數(shù),但性能差異仍相當(dāng)顯著。
![]()
例 7. 假設(shè) X? 是來自形狀參數(shù) Θ? 和尺度參數(shù) Θ? 的伽馬分布的一個(gè)大小為 n 的獨(dú)立同分布樣本。我們模擬了 n = 25 的數(shù)據(jù),其中 Θ? = 7 且 Θ? = 3,并在圖 4(a) 中繪制了 (Θ?, Θ?) 的近似 IM 輪廓。該輪廓的構(gòu)建方法是:首先構(gòu)建 (log Θ?, log Θ?) 的高斯近似輪廓,然后將其映射回 (Θ?, Θ?) 空間。當(dāng)映射到對數(shù)尺度時(shí),參數(shù)的非負(fù)約束被消除,從而提高了高斯近似的質(zhì)量;若直接應(yīng)用于 (Θ?, Θ?) 空間,則近似效果較差。作為對比,圖中也展示了相對似然的輪廓,其與高斯輪廓的相似性表明后者是對精確 IM 輪廓的良好近似——盡管精確計(jì)算成本高昂。事實(shí)上,[42] 中的例 1 考慮了完全相同的模擬設(shè)定,他也得到了一個(gè)類似圖 4(a) 中的香蕉形輪廓。
我們還重復(fù)上述例子 1000 次,圖 4(b) 展示了隨機(jī)變量 π??(Θ) 的分布函數(shù),分別基于精確輪廓和高斯近似。結(jié)果顯示,基于精確輪廓的分布函數(shù)為 Unif(0,1)(忽略蒙特卡洛抽樣變異),而基于高斯近似的分布函數(shù)在整個(gè)范圍內(nèi)與 Unif(0,1) 在經(jīng)驗(yàn)上無法區(qū)分。
例 8. 最簡單且最典型的高維推斷例子是“多正態(tài)均值問題”(many-normal-means problem),可追溯至經(jīng)典論文如 [68]、[34]、[9] 等。該模型假設(shè)數(shù)據(jù) X? 包含 n 個(gè)獨(dú)立但非同分布的觀測值,其中 X? ~ N(Θ?, σ2),σ2 被假定已知,而向量 Θ = (Θ?, ..., Θ?) 未知且待推斷。粗略地說,上述文獻(xiàn)的核心觀點(diǎn)是:在平方誤差損失下,最佳無偏估計(jì)量 θ? = X?(也是最大似然估計(jì)量)是不可容許的。這一結(jié)果激發(fā)了對懲罰估計(jì)的研究努力,包括如今著名的 lasso 方法(例如,[71,72])。遵循這一思路,并秉承第 5 節(jié)示例的精神,我們此處提出使用一種相對懲罰似然函數(shù)。
![]()
![]()
盡管相對懲罰似然函數(shù)可以閉式表達(dá),但仍需蒙特卡洛方法來評(píng)估該輪廓。當(dāng)維度 n 甚至只是中等大小時(shí),在足夠精細(xì)的 n 維網(wǎng)格上執(zhí)行這些計(jì)算以獲得 Θ 的置信集在實(shí)際操作中幾乎是不可能的。但上述描述的變分近似提供了一種比樸素蒙特卡洛方法計(jì)算效率更高的替代方案,能夠處理中等到較大的 n。
在此,我們遵循前述策略,即采用高斯近似,其均值 θ? 等于 lasso 或最大懲罰似然估計(jì)量,協(xié)方差矩陣為 n×n 階的 J?(ξ)?1,由 n 維向量 ξ 索引;在此情形下,初始的 J? 取為無懲罰信息矩陣 J? = σ?2I?,與單位矩陣成比例。此處的直覺是,坐標(biāo)特定的調(diào)整因子 ξ? 將允許高斯近似在某種程度上適應(yīng)真實(shí)信號(hào) Θ 中的稀疏性。為說明這一點(diǎn),我們考慮 n = 50,且真實(shí)參數(shù) Θ 的前五個(gè)分量等于 5,其余 45 個(gè)分量等于 0,即 X 中僅 10% 的坐標(biāo)包含信號(hào),其余 90% 僅為噪聲。我們還固定 α = 0.1 用于近似。對于單個(gè)數(shù)據(jù)集,圖 5(a) 展示了所提隨機(jī)近似更新收斂后得到的估計(jì)值 ξ?。黑色點(diǎn)對應(yīng)信號(hào)(非零真實(shí)均值),灰色點(diǎn)對應(yīng)噪聲。關(guān)鍵觀察結(jié)果是:對應(yīng)信號(hào)的 ξ 值往往大于對應(yīng)噪聲的 ξ 值;在信號(hào)情形下幾乎沒有變異性,但在噪聲情形下存在顯著變異性。在噪聲情形下 ξ 值趨于更小是符合預(yù)期的,因?yàn)樵谀切┟黠@為 0 的均值周圍,IM 的可能性輪廓需要更小的離散程度。我們將上述模擬重復(fù) 1000 次,并繪制了在真實(shí) Θ 處的精確(使用樸素蒙特卡洛)和近似(使用高斯變分族)IM 輪廓的分布函數(shù)。再次地,精確輪廓在 Θ 處服從 Unif(0,1) 分布,結(jié)果如圖 5(b) 所示。高斯近似僅被設(shè)計(jì)為在水平 α = 0.1 處校準(zhǔn),這一點(diǎn)顯然已實(shí)現(xiàn);但在較低水平上略顯激進(jìn),在較高水平上則偏保守。關(guān)于該方案在高維問題中的進(jìn)一步研究將在其他地方報(bào)告。
- 冗余參數(shù)問題
5.1 參數(shù)情形
上述視角假設(shè)存在一個(gè)未知的模型參數(shù) Θ,且主要目標(biāo)是基于觀測數(shù)據(jù) X? = x? 從模型中對 Θ 的整體不確定性進(jìn)行量化。當(dāng)然,對 Θ 的不確定性量化意味著對任意特征 Φ = g(Θ) 的不確定性量化(如第 2 節(jié)所述)。然而,如果唯一目標(biāo)是對某個(gè)特定特征 Φ = g(Θ) 的不確定性進(jìn)行量化,那么很自然會(huì)問:我們能否做得比先量化關(guān)于完整 Θ 的不確定性、再推導(dǎo)出 Φ 的相應(yīng)結(jié)果更好?存在提高效率的機(jī)會(huì),但這需要消除冗余參數(shù)——即在某種意義上與 Φ 互補(bǔ)或正交的 Θ 的那些方面。一種相當(dāng)通用的消除冗余參數(shù)的策略是剖面化(profiling)(例如,[49,63,66]),如下所述。
或許并不令人意外的是,盡管在第 2 節(jié)所呈現(xiàn)的 IM 構(gòu)造中使用相對似然函數(shù)是非常自然且在某種意義上“最優(yōu)”的,但它并非唯一選項(xiàng)。對于涉及冗余參數(shù)的情形,一種策略是將公式 (2) 中的相對似然函數(shù)替換為一個(gè)替代物,即相對剖面似然函數(shù)
![]()
這種構(gòu)造的優(yōu)勢在于,它通常比第 2 節(jié)中所介紹的樸素冗余參數(shù)消除方法更高效;參見例如 [57]。上述外層上確界(supremum)的出現(xiàn)是因?yàn)?Φ 并非所設(shè)定模型的完整參數(shù);更多細(xì)節(jié)請參見 [49, 第 3.2 節(jié)]。通常情況下,上述右側(cè)的概率在 θ 上近似為常數(shù)(當(dāng) g(θ) = φ 時(shí)),但不能依賴于此——為了確保 IM 的強(qiáng)有效性性質(zhì)成立,不幸的是,必須計(jì)算該上確界。
為具體說明,我們將聚焦于一個(gè)看似簡單卻頗具挑戰(zhàn)性的問題,即對伽馬分布均值進(jìn)行高效推斷。粗略而言,伽馬均值是形狀和尺度參數(shù)的一個(gè)高度非線性函數(shù),這使得經(jīng)典的一階漸近近似在有限樣本下表現(xiàn)較差。因此,伽馬均值問題受到了相當(dāng)多的關(guān)注,重點(diǎn)在于推導(dǎo)具有更高階精度的漸近近似;我們建議讀者參考 [27] 以獲取更多細(xì)節(jié)。Martin 和 Liu [55] 提出了伽馬均值問題的一個(gè)精確 IM 解法,而最近,在 [49, 例 6] 中提出了一種基于剖面化的可能性 IM 解法,并被證明優(yōu)于各種現(xiàn)有方法。此處我們的重點(diǎn)是在這一新背景下展示變分近似的質(zhì)量。
例 9. 設(shè)伽馬模型由參數(shù) θ = (θ?, θ?) 索引,其中 θ? 和 θ? 分別代表(正的)形狀參數(shù)和尺度參數(shù)。在伽馬模型中,最大似然估計(jì)量 θ?? 和 θ?? 沒有閉式表達(dá)式,但可以數(shù)值最大化似然函數(shù)來求得;也可以數(shù)值或解析地獲得觀測費(fèi)舍爾信息矩陣 J。對于剖面似然函數(shù),將模型重新參數(shù)化為以均值參數(shù) Φ = θ?θ? 和形狀參數(shù) θ? 表示可能有助于簡化問題。將密度函數(shù)用這種新參數(shù)化形式表示為:
![]()
在這種形式下,對于任何固定的 φ,可以數(shù)值最大化基于數(shù)據(jù) X? 的似然函數(shù)以求得 θ?,從而得到(相對)剖面似然函數(shù)。
Fraser 等人 [27] 提供了一個(gè)例子,其中 n = 20 只小鼠暴露于 240 拉德的伽馬輻射,并記錄了它們的存活時(shí)間。圖 6 中展示了精確的基于剖面化的邊際可能性 IM 輪廓(黑線)。該計(jì)算相對昂貴,因?yàn)樵诰W(wǎng)格上的每個(gè) φ 點(diǎn)處,我們的蒙特卡洛近似都需要針對不同的 θ? 值進(jìn)行優(yōu)化。作為對比,我們考慮一個(gè)高斯可能性輪廓,其均值為 φ? = θ??θ??,方差為 ξ2 ?(θ?)?J?1?(θ?),其中 g(θ) = θ?θ?,梯度 ?(θ) = (θ?, θ?)?。圖 6 展示了 ξ = 1 的高斯近似(如 [57] 中所討論)以及根據(jù)第 4 節(jié)中變分近似確定的 ξ = 1.28。該近似僅需不到一秒即可獲得,我們發(fā)現(xiàn),正如預(yù)期的那樣,它在目標(biāo)水平 α = 0.1 處(右側(cè)粗線部分)與精確輪廓緊密匹配,而在左側(cè)(細(xì)線部分)則略顯保守。顯然,基本的大樣本高斯近似在右尾部過窄,這證實(shí)了上述觀點(diǎn):一階漸近理論在小樣本情況下提供的近似效果相對較差。另一方面,我們的變分近似能夠適當(dāng)調(diào)整,在某些地方匹配精確輪廓,而在其他地方則略顯謹(jǐn)慎或保守。
![]()
5.2 非參數(shù)情形
非參數(shù)問題是指,底層分布 P 并未被假定為具有由有限維參數(shù)索引的特定形式。在某些應(yīng)用中,感興趣的量本身就是分布 P 本身(或例如,其密度函數(shù));而在另一些情況下,感興趣的則是 P 的某個(gè)(有限維的)特征或泛函 Θ。我們此處的關(guān)注點(diǎn)在于后一種情況,因此它也符合涉及冗余參數(shù)問題的一般框架,因?yàn)橐坏┛紤]了 Θ,P 中剩余的部分將被視為“冗余”并需被消除。
至少在原則上,可以采用類似于上述參數(shù)情形的方法來處理該問題,即通過剖面化去除 P 中的冗余部分。回顧一下,剖面化的目標(biāo)是降低維度,以便可以直接評(píng)估數(shù)據(jù)與感興趣量候選值之間的相容性。由于通常情況下,感興趣的量 Θ 具有某種現(xiàn)實(shí)世界的解釋,因此有機(jī)會(huì)利用這種解釋進(jìn)行相容性評(píng)估,而無需進(jìn)行剖面化。這正是 [13] 所采取的方法,該方法建立在 M-估計(jì)的經(jīng)典工作(例如,[33,67])以及關(guān)于 Gibbs 后驗(yàn)的較不經(jīng)典的工作(例如,[7,29,56,78])基礎(chǔ)之上,我們在下文簡要總結(jié)。
設(shè)數(shù)據(jù) X? = (X?, ..., X?) 由獨(dú)立同分布的分量組成,其中 X? ~ P,且對 P 本身一無所知或未作任何假設(shè)。在這種更一般的情形下,未知的興趣量 Θ = Θ(P) 是底層分布的一個(gè)泛函。例子包括 P 的分位數(shù)和矩。假設(shè) Θ 可以表示為某個(gè)風(fēng)險(xiǎn)或期望損失函數(shù)的最小化者。也就是說,假設(shè)存在一個(gè)損失函數(shù) (x, θ) ? LOSSθ(x),使得
![]()
外層上確界(supremum),類似于公式 (15) 中的情形,是對所有那些使 P 的相關(guān)特征 Θ 取值為 θ 的概率分布 P 進(jìn)行最大化。該上確界的出現(xiàn)是因?yàn)?R??(X?, θ) 的分布顯然依賴于底層的 P,但 P 是未知的。這使得基于樸素蒙特卡洛方法直接評(píng)估 IM 輪廓變得不可行。幸運(yùn)的是,有效性僅要求在唯一真實(shí)的 P 下滿足特定校準(zhǔn)條件,這提供了一條捷徑。Cella 和 Martin [13] 提出將“對所有與 θ 相容的 P 進(jìn)行獨(dú)立同分布抽樣”替換為從經(jīng)驗(yàn)分布中進(jìn)行獨(dú)立同分布抽樣——后者是真實(shí) P 的一個(gè)良好估計(jì)量。這相當(dāng)于使用自助法(bootstrap)(例如,[18,23,25])來近似上述輪廓,且 Cella 和 Martin 證明了相應(yīng)的 IM 是漸近有效的。在此,我們將展示所提出的類變分 IMs 可以為這種基于自助法的輪廓提供良好的近似。
例 10. 假設(shè)我們感興趣的是分布 P 的 τ 階分位數(shù),即精確點(diǎn) Θ = Θ???,使得 P(X ≤ Θ???) = τ,其中 τ ∈ (0,1)。上述非參數(shù) IM 構(gòu)造中的關(guān)鍵組成部分是選擇一個(gè)合適的損失函數(shù)。對于分位數(shù)估計(jì),眾所周知,損失函數(shù)由下式給出:
![]()
其中,p? 表示基于觀測數(shù)據(jù)對密度 p 的核密度估計(jì)。與第 3.3 節(jié)中相同的設(shè)置被應(yīng)用,其中 ξ 使用 M = 200 個(gè)蒙特卡洛樣本估計(jì),步長 w? = 2(1 + t)?1,α = 0.1,收斂閾值 ε = 0.005。請注意,變分近似在除左側(cè)小 α 值外的所有地方都是完美的,在左側(cè)它略顯保守。
為驗(yàn)證變分方法在非參數(shù)設(shè)定下能提供近似的有效性,我們通過重復(fù)上述情景 250 次進(jìn)行了一項(xiàng)模擬研究。對于每個(gè)數(shù)據(jù)集,近似輪廓在 Θ = 2.53 處進(jìn)行評(píng)估,這大致對應(yīng)于當(dāng) P 服從 Gamma(4,1) 分布時(shí)的第一四分位數(shù)。該輪廓的經(jīng)驗(yàn)分布如圖 7(b) 所示,表明近似的有效性確實(shí)已實(shí)現(xiàn)。
5.3 半?yún)?shù)情形
前兩小節(jié)所描述的參數(shù)與非參數(shù)情形之間的中間地帶被稱為半?yún)?shù)問題,即同時(shí)包含參數(shù)和非參數(shù)部分的問題。或許最簡單的例子是誤差分布未指定的線性回歸模型:線性均值函數(shù)是參數(shù)部分,而誤差分布是非參數(shù)部分。下面我們將聚焦于帶刪失數(shù)據(jù)的半?yún)?shù)模型,但當(dāng)然其他例子也是可能的;更多細(xì)節(jié)請參見例如 [5]、[75] 和 [38]。
上文第 5.1 節(jié)所述的相同剖面化策略也可應(yīng)用于半?yún)?shù)模型;[58] 是一個(gè)重要參考文獻(xiàn)。為具體說明,我們將考慮一個(gè)涉及刪失數(shù)據(jù)的常見情形。也就是說,假設(shè)我們正在測量土壤中某種特定化學(xué)物質(zhì)的濃度,但我們的測量儀器有一個(gè)較低的檢測限——即低于該限值的濃度無法被檢測到。在這種情況下,濃度數(shù)據(jù)(左)被刪失。我們心中可能有一個(gè)針對測量濃度的參數(shù)模型,但刪失會(huì)破壞數(shù)據(jù)并最終改變該模型。令 Y? 表示站點(diǎn) i 處的實(shí)際化學(xué)物質(zhì)濃度,其值我們可能觀察到也可能觀察不到;Y? 被賦予一個(gè)統(tǒng)計(jì)模型 {Pθ : θ ∈ T},而該模型參數(shù)的真實(shí)但未知值 Θ 需要被推斷。令 C? 表示刪失水平,我們假設(shè)——不失一般性——其受抽樣變異影響,即 C? 是隨機(jī)變量。那么觀測數(shù)據(jù) X? 由獨(dú)立同分布的配對 X? = (Z?, T?) 組成,其中
![]()
這取決于真實(shí)未知模型參數(shù) Θ 的通用值 θ(用于濃度)以及真實(shí)未知?jiǎng)h失水平分布 G 的通用值 G。在上述表達(dá)式中,g 和 pθ 分別是刪失分布和濃度分布的密度函數(shù),而 G 和 Pθ 則是相應(yīng)的累積分布函數(shù)。現(xiàn)在應(yīng)該清楚為何這是一個(gè)半?yún)?shù)模型:除了明顯的參數(shù)模型外,還有一個(gè)針對缺失水平的非參數(shù)模型。
該半?yún)?shù)模型的一個(gè)顯著特征是,似然函數(shù)是“可分離的”,即它是涉及 θ 的項(xiàng)與涉及 G 的項(xiàng)的乘積。因此,如果我們對 G 進(jìn)行優(yōu)化,然后構(gòu)造相對剖面似然比,則涉及 G 優(yōu)化的部分將被消去。這意味著我們可以簡單地忽略涉及 G 的部分,而直接使用如下形式的相對剖面似然函數(shù):
![]()
通過蒙特卡洛方法評(píng)估右側(cè)表達(dá)式,歸結(jié)為從 ? 中抽樣刪失水平、從 Pθ 中抽樣濃度水平,然后根據(jù)公式 (17) 構(gòu)造新的數(shù)據(jù)集。雖然該過程在概念上相對簡單,但在足夠精細(xì)的 θ 值網(wǎng)格上進(jìn)行樸素實(shí)現(xiàn)卻相當(dāng)昂貴。幸運(yùn)的是,我們第 4 節(jié)提出的類變分近似方法可直接應(yīng)用,能夠快速生成一個(gè)閉式近似輪廓。
例 11. 為說明這一點(diǎn),我們使用從內(nèi)布拉斯加州一口井收集的阿特拉津(Atrazine)濃度數(shù)據(jù)。該數(shù)據(jù)包含 n = 24 個(gè)觀測值,這些觀測值如上所述受到隨機(jī)左刪失的影響。這是一個(gè)相當(dāng)極端的情況,其中近一半(11 個(gè))的 24 個(gè)觀測值被刪失,但先前的研究表明,對阿特拉津濃度采用對數(shù)正態(tài)模型是合適的 [30]。在環(huán)境科學(xué)應(yīng)用中,對數(shù)正態(tài)分布常被用于建模左刪失數(shù)據(jù)(例如,[39])。對數(shù)正態(tài)模型的密度函數(shù)為:
![]()
其中 θ = (θ?, θ?) 表示 log Y 的均值和方差參數(shù)。同樣,對數(shù)正態(tài)模型僅用于描述觀測到的濃度——對于刪失觀測值未作任何模型假設(shè)。圖 8(a) 顯示了通過應(yīng)用 Kaplan–Meier 估計(jì)量(并將刪失標(biāo)簽取反:t? ? 1 ? t?)所獲得的刪失數(shù)據(jù)分布的非參數(shù)估計(jì)量 ?。該 ? 隨后被用于定義我們此處所稱的“精確”IM 輪廓(通過公式 (18)),然后相應(yīng)的高斯變分近似——首先應(yīng)用于 (θ?, log θ?),再映射回 (θ?, θ?)——如圖 8(b) 所示。該圖與 [11] 中圖 10 所示的基于樸素蒙特卡洛方法的結(jié)果非常相似,但在計(jì)算上卻遠(yuǎn)不那么昂貴。
![]()
- 結(jié)論
秉承當(dāng)前貝葉斯統(tǒng)計(jì)中廣泛使用的變分近似思想,并基于文獻(xiàn) [35] 中提出的最新思路,本文發(fā)展了一種策略,利用普通的蒙特卡洛抽樣與隨機(jī)近似方法,來近似可能性推斷模型(possibilistic IM)的輪廓函數(shù)——或至少近似其在指定顯著性水平 α 下的 α-截集(即水平集)。我們展示了一系列應(yīng)用場景,從簡單的教科書式問題,到涉及冗余參數(shù)的(參數(shù)、非參數(shù)和半?yún)?shù))問題,甚至包括一個(gè)相對高維的問題,以突顯所提方法的靈活性、準(zhǔn)確性以及整體適用性。
當(dāng)然,本文所提出的方法也存在若干局限性。這些局限自然引出了一些開放性問題和未來的研究方向。
第一,本文提出的更復(fù)雜且更高效的近似方法(即第 4 節(jié)所述方法)專門針對高斯變分族設(shè)計(jì)。這在實(shí)踐中并非嚴(yán)重限制,因?yàn)樵跇颖玖?n 為中等或較大時(shí),高斯分布通常能提供良好的近似 [57]。然而,肯定還存在其他變分族,其密度水平集在模型參數(shù)下具有簡潔、近乎閉式的表達(dá)形式。識(shí)別適用于此類高效近似的其他合適模型,將為用戶提供更多靈活性,并最終帶來更好、更精確的近似結(jié)果。
第二,所提出的近似方法依賴于在初始階段預(yù)先指定一個(gè) α 值,這意味著我們實(shí)際上僅近似了可能性 IM 輪廓的某些特定特征。然而,IM 推斷本質(zhì)上具有整體性(holistic),這表明人們更傾向于一種廣義而非高度特化的近似。因此,如何將這些針對不同 α 的 IM 近似“拼接”起來,構(gòu)成一個(gè)統(tǒng)一的整體近似,是一個(gè)重要的開放問題。受文獻(xiàn) [35] 最新進(jìn)展的啟發(fā),我們相信這一問題的答案是肯定的,相關(guān)細(xì)節(jié)將在其他地方報(bào)告。
第三,本文所呈現(xiàn)的具體方法聚焦于對未知參數(shù) Θ 無先驗(yàn)信息(vacuous prior)的情形。近期研究(例如 [47])已開始探索如何將不完整或部分先驗(yàn)信息整合到可能性 IM 的構(gòu)建中;隨著我們向更高維問題擴(kuò)展,這類方法幾乎肯定是必要的。但引入部分先驗(yàn)信息的一個(gè)缺點(diǎn)是:IM 輪廓的評(píng)估通常比本文所考慮的無先驗(yàn)情形更加復(fù)雜。這種額外的復(fù)雜性意味著,在部分先驗(yàn)設(shè)定下,高效的數(shù)值近似方法變得更加重要。幸運(yùn)的是,我們預(yù)期本文所提出的方案可近乎直接地推廣至這些情形。
最后,除例 8 外,本文主要關(guān)注未知參數(shù)維度相對較低的問題。如常理所示,將所提近似策略擴(kuò)展至高維場景必然面臨挑戰(zhàn)。目前我們尚不清楚如何克服這些挑戰(zhàn),但受本文所展示的最新進(jìn)展的鼓舞,我們有信心這些問題終將被解決。
原文鏈接: https://www.sciencedirect.com/science/article/pii/S0888613X25001471?via%3Dihub
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.