Possibilistic inferential models: a review
概率性推理模型:綜述
https://arxiv.org/pdf/2507.09007
![]()
摘要
推斷模型(IM)是一種用于構(gòu)建可證明可靠的、數(shù)據(jù)驅(qū)動(dòng)的不確定性量化與未知量推斷的框架。IM 與費(fèi)希爾的可信推斷(fiducial argument)目標(biāo)相似,但根本區(qū)別在于:IM 不要求不確定性量化必須是概率性的,從而獲得更大靈活性,并能嚴(yán)格證明其可靠性。近期的重要進(jìn)展部分得益于與不精確概率(imprecise probability)文獻(xiàn)——尤其是可能性理論(possibility theory)——的新聯(lián)系。本文所研究的這類可能性型 IM 構(gòu)造簡(jiǎn)單,具有極強(qiáng)的類頻率學(xué)派可靠性,并支持完全條件化的、類貝葉斯式的(不精確)概率推理。本文綜述了這些關(guān)鍵的最新進(jìn)展,闡述了新理論、新方法及計(jì)算工具。此外,還提出了一種對(duì)基本可能性 IM 的推廣,意外地建立起與現(xiàn)代統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中若干思想(如自助法和保形預(yù)測(cè))的新聯(lián)系。
關(guān)鍵詞與短語:貝葉斯;置信分布;可信推斷;頻率學(xué)派;不精確概率;可能性理論;有效性。
1 引言
推斷模型(IM)是一種用于數(shù)據(jù)驅(qū)動(dòng)的不確定性量化與關(guān)于相關(guān)未知量的歸納推斷的模型。這些未知量可能是所設(shè)定統(tǒng)計(jì)模型中的參數(shù)或其函數(shù),但也可能涉及其他情形;詳見第6節(jié)。更具體地說,IM 提供一種數(shù)學(xué)上嚴(yán)謹(jǐn)、完全條件化的、類貝葉斯式的不確定性量化——無需先驗(yàn)分布或貝葉斯定理——且在類頻率學(xué)派意義上可證明可靠,即其輸出在重復(fù)抽樣下自然校準(zhǔn)。至少在高層次上,這讓人聯(lián)想到費(fèi)希爾可信推斷的目標(biāo),因此有必要從一開始就闡明 IM 的新穎之處:在缺乏真實(shí)先驗(yàn)信息的情況下,概率性不確定性量化存在可靠性極限;而 IM 框架并非通過放松“可靠性”來規(guī)避這些限制,而是通過放松“概率性”,轉(zhuǎn)而在一個(gè)更靈活(但仍數(shù)學(xué)嚴(yán)謹(jǐn))的框架中工作,該框架不要求為每個(gè)關(guān)于未知量的命題賦予單一或精確的概率值。后續(xù)章節(jié)將深入探討這些細(xì)節(jié)。目前只需指出,正是這種在統(tǒng)計(jì)推斷中創(chuàng)新性地運(yùn)用不精確概率理論的概念與工具,促使 Cui 和 Hannig(2024)將 IM 描述為“2010 年代最具原創(chuàng)性的統(tǒng)計(jì)創(chuàng)新之一”。
自專著《推斷模型:不確定性推理》(Martin and Liu, 2015b)出版至今已約十年,此后在基礎(chǔ)、理論、方法和計(jì)算等各方面均取得了諸多令人振奮的進(jìn)展。推動(dòng)這些近期進(jìn)展的一個(gè)動(dòng)因在于認(rèn)識(shí)到:盡管 IM 偏離常規(guī)概率論使人進(jìn)入陌生領(lǐng)域,但這一新領(lǐng)域并非無人涉足——整個(gè)不精確概率理論研究社群及其豐富文獻(xiàn)蘊(yùn)藏著重要的洞見、理解以及數(shù)學(xué)與計(jì)算工具。這些努力也激發(fā)了其他發(fā)展(例如 Caprio et al. 2025;Williams 2023;Xie and Wang 2022),并為重新理解和改進(jìn)貝葉斯推斷、可信推斷、自助法、保形預(yù)測(cè)等提供了新機(jī)遇。本文旨在綜述這些與前述專著相關(guān)但又有所不同的最新進(jìn)展,并呈現(xiàn)一些新的洞見、方法和結(jié)果。希望本綜述能使這些激動(dòng)人心的發(fā)展更易于理解,并吸引新一代研究者關(guān)注這些基礎(chǔ)性進(jìn)展與開放問題。
為此,本文其余部分安排如下:第2節(jié)通過回顧概率性不確定性量化并指出其缺陷來鋪墊背景。特別是,第2.4節(jié)對(duì)“虛假置信定理”(Balch et al., 2019)提出了新視角,表明任何依賴數(shù)據(jù)的后驗(yàn)概率分布——無論是采用何種先驗(yàn)的貝葉斯方法,還是(廣義)可信推斷等——在本文所考慮的先驗(yàn)信息為空的情形下,往往會(huì)賦予某些錯(cuò)誤假設(shè)很高的概率或置信度。這一結(jié)論有雙重含義:概率性不確定性量化存在固有的不可靠性;要糾正這一點(diǎn),必須借助不精確概率世界中更靈活的工具來量化不確定性。第3節(jié)深入探討可能性型 IM 的構(gòu)造細(xì)節(jié),之所以強(qiáng)調(diào)“可能性型”,是因?yàn)檫@一新視角——類似于 Martin and Liu(2015b)中提出的觀點(diǎn)——高度依賴于可能性理論的解釋、演算、計(jì)算工具和數(shù)學(xué)結(jié)構(gòu)。隨后介紹了 IM 的關(guān)鍵性質(zhì),包括有限樣本有效性(finite-sample validity),該性質(zhì)確保其不精確概率輸出得到恰當(dāng)校準(zhǔn),特別是由此導(dǎo)出的檢驗(yàn)和置信集具有頻率學(xué)派的錯(cuò)誤率保證。同時(shí)也討論了效率問題,包括一個(gè)新的可能性型 Bernstein–von Mises 定理,該定理保證 IM 的輸出在漸近意義下呈可能性高斯分布,且效率與經(jīng)典情形一致(即漸近方差達(dá)到 Cramér–Rao 下界)。但 IM 并非純粹的頻率學(xué)派方法——它也提供完全條件化的不確定性量化;第3.4節(jié)綜述了此前工作中較少關(guān)注的相關(guān)類貝葉斯性質(zhì)。IM 的計(jì)算并不平凡,第3.5節(jié)簡(jiǎn)要回顧了一項(xiàng)令人振奮的新進(jìn)展,該進(jìn)展促進(jìn)了基于抽樣的蒙特卡洛計(jì)算,用于評(píng)估 IM 的非概率性輸出。第4節(jié)闡釋 IM 提供的遠(yuǎn)不止是頻率學(xué)派與貝葉斯學(xué)派的“統(tǒng)一”——IM 框架實(shí)際上彌補(bǔ)了兩種范式的缺陷!第5節(jié)處理消除冗余參數(shù)這一重要實(shí)踐問題,并由此引出第6節(jié)所呈現(xiàn)的一些新發(fā)展,這些發(fā)展幫助 IM 實(shí)現(xiàn)超越統(tǒng)計(jì)模型情形的更高層次不確定性量化。該節(jié)還探討了該思想在風(fēng)險(xiǎn)最小化推斷和(保形)預(yù)測(cè)中的應(yīng)用。第7節(jié)以簡(jiǎn)要總結(jié)收尾,提及本綜述未涵蓋的相關(guān)主題及未來研究的若干開放問題。附錄/補(bǔ)充材料提供了支持性技術(shù)細(xì)節(jié)和額外示例。
有人或許會(huì)認(rèn)為此類基礎(chǔ)性工作不切實(shí)際,但我持不同看法。多年來,我們一直聽到統(tǒng)計(jì)學(xué)作為一門學(xué)科在數(shù)據(jù)科學(xué)浪潮中面臨“錯(cuò)失良機(jī)”的風(fēng)險(xiǎn);參見 He 等人(2025)的近期報(bào)告。統(tǒng)計(jì)學(xué)家普遍認(rèn)同統(tǒng)計(jì)學(xué)是數(shù)據(jù)科學(xué)的重要組成部分,那為何如此擔(dān)憂?船長(zhǎng)從不擔(dān)心錯(cuò)過自己的船,大副和二副亦然;只有輔助船員和乘客才會(huì)憂慮趕不上船。這種對(duì)錯(cuò)失數(shù)據(jù)科學(xué)之船的恐懼,暴露了我們社群深層的不安全感——害怕自己只是輔助船員——這顯然并非因?yàn)槲覀儏⑴c的應(yīng)用項(xiàng)目不夠多,或證明的一致性定理不夠多。其根源必定在于某種更深層、更重大的缺陷,例如:“一門對(duì)科學(xué)和批判性思維至關(guān)重要的學(xué)科,為何擁有兩種方法論、兩種邏輯、兩種常常對(duì)同一問題給出截然不同答案的路徑?”(Fraser, 2011b)。只要這類根本性問題懸而未決,我們的學(xué)科就無法對(duì)其貢獻(xiàn)充滿信心。通過解決這些基礎(chǔ)問題來為學(xué)科定向,將證明我們擁有獨(dú)特的專業(yè)能力,從而讓我們確信:船,不會(huì)拋下我們。
2 背景與動(dòng)機(jī)
2.1 問題設(shè)定與符號(hào)
![]()
![]()
由于先驗(yàn)信息為空白,我們所能依賴的僅有針對(duì)數(shù)據(jù) Z Z 及其實(shí)現(xiàn) z z 的模型/似然函數(shù)。根據(jù) Hacking(1976)的觀點(diǎn),“統(tǒng)計(jì)學(xué)家希望獲得數(shù)據(jù)支持假設(shè)程度的數(shù)值度量”,在我看來,這聽起來像概率性不確定性量化(見第2.2節(jié))。因此,盡管存在完全空白的先驗(yàn)信息(這使得恰當(dāng)?shù)呢惾~斯推斷無法實(shí)現(xiàn)),目標(biāo)仍然是為關(guān)于未知量 Θ Θ的假設(shè)分配數(shù)據(jù)依賴的概率(或類似的東西)。為此,我將追隨費(fèi)希爾——“量化不確定性的世界大師”(Pearl 2018)——以及杰弗里斯、鄧普斯特、伯格、瓦利及其他先驅(qū)者的思想。
2.2 概率性不確定性量化
![]()
重要的是,必須區(qū)分對(duì)未知且不可觀測(cè)的 Θ Θ(如本文所考慮的情形)進(jìn)行概率性不確定性量化,與對(duì)未知但可觀測(cè)的對(duì)象(例如,未來的一個(gè)數(shù)據(jù)點(diǎn))進(jìn)行量化之間的區(qū)別。在后一種情況下,所涉及的概率模型可以直接根據(jù)觀測(cè)結(jié)果進(jìn)行檢驗(yàn):如果模型聲稱某個(gè)預(yù)設(shè)事件具有(實(shí)際上)零概率,而該事件卻發(fā)生了,則模型必然是錯(cuò)誤的。這就是庫爾諾原理(Cournot’s principle),參見 Vovk (1993)、Shafer (2007) 以及 Shafer and Vovk (2019, 第10章)。然而,在前一種情況下,真實(shí)參數(shù) Θ Θ 通常永遠(yuǎn)不會(huì)被揭示,因此關(guān)于 Θ Θ 的概率性不確定性量化無法直接對(duì)照現(xiàn)實(shí)進(jìn)行檢驗(yàn)。但它可以通過間接方式接受可靠性審查:
即使未將經(jīng)驗(yàn)頻率觀點(diǎn)作為推斷的基礎(chǔ),如果一種表示不確定知識(shí)的程序……在反復(fù)使用時(shí)會(huì)系統(tǒng)性地得出誤導(dǎo)性結(jié)論,那也是不可接受的。(Reid and Cox 2015)
![]()
![]()
![]()
2.3 現(xiàn)有方法
默認(rèn)先驗(yàn)貝葉斯方法(Default-prior Bayes)在缺乏真實(shí)信息時(shí),采用相等概率作為默認(rèn)的做法有著悠久歷史。這一思想最早出現(xiàn)在貝葉斯(Bayes, 1763)的原始工作中,并被拉普拉斯(Laplace, 1812)及其同時(shí)代學(xué)者所采納,最終被稱為“不充分理由原則”(principle of insufficient reason)(例如 Stigler 1986, 第127–129頁)。凱恩斯(Keynes, 1921, 第4章)后來將其更名為“無差別原則”(principle of indifference),并描述如下:
“無差別原則斷言……若沒有正面理由賦予若干命題以不相等的概率,則必須對(duì)它們分配相等的概率。”(Keynes 1921, 第45頁)
一方面,該原則至少在初步考慮時(shí)似乎普遍可接受,并已被廣泛應(yīng)用于各種場(chǎng)景,且以多種方式得到推廣(例如 Jaynes 2003)。另一方面,包括凱恩斯和費(fèi)希爾在內(nèi)的許多作者對(duì)該原則提出了嚴(yán)厲批評(píng)。
杰弗里斯(Jeffreys)以不同視角回應(yīng)了費(fèi)希爾的批評(píng)。他并未試圖對(duì)“無知”進(jìn)行概率性描述——這是一項(xiàng)不可能完成的任務(wù)(見第2.4節(jié))——而是專注于構(gòu)建其他方面合理、可辯護(hù)的默認(rèn)先驗(yàn):
“…找到一種方式來表達(dá)一個(gè)參數(shù)的大小未知,而其所有可能取值都不需要特別關(guān)注。”(Jeffreys 1998, 第117頁)
他的努力催生了如今廣為使用的杰弗里斯先驗(yàn)(Jeffreys priors, Jeffreys 1946),后續(xù)研究證明這些先驗(yàn)所產(chǎn)生的后驗(yàn)分布在大樣本下具有優(yōu)良性質(zhì)(例如 Datta and Ghosh 1995;Welch and Peers 1963)。目前,杰弗里斯公式已在多個(gè)方向上得到實(shí)質(zhì)性推廣(例如 Berger et al. 2024)。然而,盡管取得這些進(jìn)展,學(xué)界仍未能就哪一種(如果有的話)默認(rèn)先驗(yàn)是“正確”的達(dá)成普遍共識(shí),因此根本問題顯然仍未解決;參見第20頁埃夫龍(Efron)的引述。
可信推斷及其類似方法(Fiducial and the like)費(fèi)希爾(Fisher, 1930, 1933, 1935a,b)提出了一種新穎的、非貝葉斯的概率性不確定性量化方法——薩維奇(Savage, 1961)曾著名地將其描述為“試圖不打破貝葉斯之蛋而做出貝葉斯煎蛋卷的大膽嘗試”。此處我不展開細(xì)節(jié),讀者可參考 Zabell (1992) 和 Savage (1976) 了解費(fèi)希爾的思想,以及 Xie and Singh (2013)、Hannig et al. (2016)、Schweder and Hjort (2016) 獲取關(guān)于現(xiàn)代可信類推斷的視角。
粗略而言,費(fèi)希爾的可信推斷將模型賦予可觀測(cè)數(shù)據(jù)事件的、依賴于參數(shù)的概率,重新解釋為關(guān)于未知參數(shù)的(依賴于數(shù)據(jù)的)斷言,然后將這些事件原先的概率“翻轉(zhuǎn)”為給定觀測(cè)數(shù)據(jù)下關(guān)于未知參數(shù)的主觀概率。費(fèi)希爾選用“fiducial”(意為“基于信念或信任”)一詞來描述其解法,清楚表明他意識(shí)到自己的論證并非百分之百數(shù)學(xué)嚴(yán)謹(jǐn)。費(fèi)希爾心中必定存在某種支撐其對(duì)可信概率之“信念/信任”的原則,但據(jù)我所知,他從未明確陳述過此類原則。鄧普斯特(Dempster, 1963, 1964)將其描述為一種“繼續(xù)視作”(continue to regard)的操作;漢尼格(Hannig)等人(例如 Hannig et al. 2016;Murph et al. 2024)則稱之為“切換原則”(switching principle),即隨機(jī)與固定的角色發(fā)生互換。無論如何,可信推斷融合了數(shù)學(xué)推理與原則應(yīng)用,因此與默認(rèn)先驗(yàn)貝葉斯方法并無本質(zhì)區(qū)別。
由于費(fèi)希爾的聲望及其所提方案的神秘性,可信推斷獲得了大量關(guān)注——同時(shí)也遭遇了嚴(yán)厲審視。林德利(Lindley, 1958)、鄧普斯特(Dempster, 1963, 1964)以及布勒與費(fèi)德森(Buehler and Fedderson, 1963)對(duì)費(fèi)希爾的構(gòu)想給予了致命打擊。盡管這些批判極具洞見,但基本上僅證實(shí)了可信推斷在數(shù)學(xué)上并不嚴(yán)謹(jǐn)。費(fèi)希爾所提供的解法缺乏數(shù)學(xué)嚴(yán)格性,并不意味著該問題本身不切實(shí)際、無關(guān)緊要或不可解;因此,可信推斷對(duì)統(tǒng)計(jì)學(xué)家而言仍是一種“圣杯”:
![]()
2.4 概率論是否適合這項(xiàng)任務(wù)?
在統(tǒng)計(jì)學(xué)文獻(xiàn)中,幾乎普遍默認(rèn)不確定性量化必須使用概率論來表述。但值得追問的是:概率性不確定性量化能否實(shí)現(xiàn)第2.2節(jié)所描述的可靠性目標(biāo)?劇透警告——答案是“否”。
![]()
![]()
![]()
![]()
![]()
這相當(dāng)于一個(gè)假設(shè):回歸函數(shù)的根大于 -1。假設(shè)真實(shí)參數(shù) Θ Θ 為 (0.3, 0.1, 1),因此上述假設(shè)實(shí)際上是錯(cuò)誤的。圖1展示了基于1000個(gè)大小為 n = 25
的數(shù)據(jù)集,該貝葉斯后驗(yàn)分布所對(duì)應(yīng)的虛假置信率 α ? F C R ( α , H )(的一個(gè)下界)的圖像。請(qǐng)注意,即使這個(gè)下限在整個(gè) α 范圍內(nèi)也相當(dāng)高。這種貝葉斯后驗(yàn)傾向于賦予錯(cuò)誤假設(shè)相對(duì)較高概率的趨勢(shì),正是導(dǎo)致系統(tǒng)性誤導(dǎo)性結(jié)論風(fēng)險(xiǎn)的原因。
以概率論來表述統(tǒng)計(jì)不確定性量化的風(fēng)險(xiǎn)并非新問題。例如,F(xiàn)raser (2013) 寫道:
[Xie and Singh (2013)] 因此建議我們忽略對(duì)置信集的限制或等價(jià)物,允許自由地生成參數(shù)分布。當(dāng)然,分布更容易思考,大體上符合費(fèi)希爾最初的提議,且更貼近貝葉斯方法的自由度,但它們確實(shí)忽視了固有的風(fēng)險(xiǎn)……
這些風(fēng)險(xiǎn)主要涉及在進(jìn)行邊緣化時(shí)所產(chǎn)生的不可靠性(例如 Balch et al. 2019;Dawid et al. 1973;Fraser 2011a)。當(dāng) Schweder and Hjort (2013) 警告說“我們認(rèn)為不應(yīng)尋求聯(lián)合[置信分布],因?yàn)樗鼈兛赡茌p易使統(tǒng)計(jì)學(xué)家迷失方向”時(shí),他們擔(dān)心的是用戶會(huì)無法抗拒進(jìn)行熟悉的概率性邊緣化的誘惑,從而制造出不可靠性的風(fēng)險(xiǎn)。造成虛假置信或這種不可靠性風(fēng)險(xiǎn)的根本原因,目前仍是一個(gè)開放性問題。當(dāng)前的猜想是:當(dāng)假設(shè)涉及模型參數(shù)的非線性函數(shù)時(shí),虛假置信往往更容易發(fā)生(Martin 2024b),例如上述假設(shè) H 是關(guān)于比率的假設(shè);Fraser (2011a) 和 Fraser et al. (2016) 的分析也給出了類似的警示信息。
2.5 若非概率論,那又該是什么?
統(tǒng)計(jì)推斷中概率性不確定性量化不可靠的問題具有普遍性,并非某種特定概率方法所獨(dú)有。因此,要解決這些問題,就必須超越概率性不確定性量化,轉(zhuǎn)向其他框架。這種“其他框架”應(yīng)當(dāng)具有類似概率的性質(zhì),使得不確定性量化仍有意義,但它不能滿足可加性(additivity)。
Choquet(1954)引入的容度(capacities)是非可加的集函數(shù),下文我將展示:一種特殊類型的數(shù)據(jù)依賴容度能夠?qū)崿F(xiàn)普通概率所無法達(dá)到的理想可靠性性質(zhì)。
粗略地說,不精確概率(imprecise probabilities)是經(jīng)過歸一化的容度,并具備額外性質(zhì),使其適合作為不確定性量化的模型。統(tǒng)計(jì)學(xué)家可能熟悉的一些例子包括:
- 信念函數(shù)(belief functions),最初由 Dempster(1966, 1967, 1968)提出,后由 Shafer(1976)形式化,屬于無窮單調(diào)容度;
- 在穩(wěn)健性研究中出現(xiàn)的二階單調(diào)容度(2-monotone capacities)(例如 Berger 1984;Huber 1973, 1981;Wasserman 1990b;Wasserman and Kadane 1990);
- Walley(1991)提出的基于下預(yù)視(lower previsions)的廣義貝葉斯框架。
在接下來的討論中,我們并不需要上述不精確概率具體形式的細(xì)節(jié)。此處我關(guān)注的是不精確性本身及其作用。
在教科書中,普通的或精確的概率論通常置于機(jī)會(huì)實(shí)驗(yàn)(chance experiment)的背景下介紹——例如,擲一枚均勻的六面骰子——其中實(shí)驗(yàn)的具體設(shè)定完全明確,但結(jié)果無法確定預(yù)測(cè)。此時(shí),概率用于量化人們對(duì)實(shí)驗(yàn)不可預(yù)測(cè)結(jié)果是否滿足某個(gè)性質(zhì)的不確定性。這類不確定性稱為偶然不確定性(aleatory uncertainty)。
但若實(shí)驗(yàn)的具體設(shè)定并未完全明確呢?假如關(guān)于即將擲出的骰子存在模糊性——例如,可能有一半的面都標(biāo)著“3”,或者骰子不對(duì)稱地偏向“6”等——那么顯然不存在一個(gè)單一的概率能準(zhǔn)確刻畫對(duì)結(jié)果的不確定性。這種模糊性就是認(rèn)知不確定性(epistemic uncertainty)的一個(gè)例子,而普通概率論無法容納此類不確定性。
在對(duì)骰子完全無知的極端情形下,應(yīng)用無差別原則并假設(shè)各面概率相等是不可接受的:在“對(duì)骰子一無所知”與“確信骰子公平”這兩種幾乎正交的情境下,評(píng)估結(jié)果怎么可能相同?問題不在于假設(shè)公平性本身,而在于相信單一概率可以同時(shí)刻畫偶然不確定性和認(rèn)知不確定性。
不精確概率旨在直接處理認(rèn)知不確定性,即模型設(shè)定中的模糊性。因此,不精確性并非源于評(píng)估粗糙的缺陷,而是為了誠(chéng)實(shí)地、忠實(shí)地捕捉所有不確定性的努力。
![]()
![]()
![]()
這對(duì)本文所討論的關(guān)于未知量 Θ Θ 的不確定性量化目標(biāo)具有重要意義,因?yàn)樵凇跋闰?yàn)無知”(a priori ignorance)的情況下,認(rèn)知不確定性占主導(dǎo)地位。從這一視角看,“數(shù)據(jù)足夠信息充分,足以將空白的、不精確的先驗(yàn)——即完全無知——映射為既完全精確又可靠的后驗(yàn)”的想法是完全不現(xiàn)實(shí)的。不精確性是必要的。事實(shí)上,Walley (1991) 提出的廣義貝葉斯規(guī)則應(yīng)用于完全空白先驗(yàn)時(shí),返回的仍是一個(gè)空白后驗(yàn),這意味著當(dāng)一個(gè)人在先驗(yàn)上無知時(shí),不可能以貝葉斯方式學(xué)習(xí);另見 Kyburg (1987)、Walley (2002),以及近期的 Gong and Meng (2021)。非貝葉斯式學(xué)習(xí)方法不會(huì)受到此類批評(píng),但這種“上手”方法顯然要付出相當(dāng)高昂的代價(jià)——即必須徹底放棄概率論,轉(zhuǎn)而采用沒有自然固定數(shù)據(jù)不確定性量化解釋的程序;參見第6頁 Zabell 的引述。
然而,我的主張是:許多這些非貝葉斯學(xué)習(xí)策略實(shí)際上對(duì)應(yīng)于不精確概率性或更具體地說,可能性性(possibilistic)不確定性量化,只是此前無人意識(shí)到這一點(diǎn)。盡管費(fèi)希爾活躍的時(shí)代尚無不精確概率理論,但在他的著作中存在一些段落暗示他可能預(yù)見到了一種不精確或不準(zhǔn)確的概率理論:
- “[p 值] 比任何關(guān)于該命題的精確概率陳述更原始、更基本,且不能證明其合理性。”(Fisher 1973, 第46頁)
- “然而,顯然,任何精確的概率陳述都不能基于[置信限]。”(同上,第74頁)
推測(cè)起來,非貝葉斯主義者并不反對(duì)固定數(shù)據(jù)不確定性量化的解釋,他們只是不知道如何在不走貝葉斯路線的前提下加以論證,而這可能會(huì)危及可靠性。下文所述的發(fā)展展示了如何獲得既可靠又高效的可能性性不確定性量化。
3 可能性推斷模型
3.1 視角
![]()
![]()
關(guān)于基于隨機(jī)集合的構(gòu)造,有一個(gè)技術(shù)要點(diǎn)需提供背景知識(shí)以支撐后續(xù)內(nèi)容。Martin and Liu (2015b) 中的定理 4.3 指出,用于量化未觀測(cè)值 u u 不確定性的唯一可接受的隨機(jī)集合是嵌套的,即:對(duì)于隨機(jī)集合的任意兩個(gè)實(shí)現(xiàn),其中一個(gè)必為另一個(gè)的子集。雖然隨機(jī)集合的分布通常可用信念函數(shù)描述,但嵌套隨機(jī)集合的分布對(duì)應(yīng)于一種特殊類型的信念函數(shù),即相容信念函數(shù)(consonant belief function);參見 Shafer (1976, 1987)。相容信念函數(shù)對(duì)應(yīng)于可能性測(cè)度(possibility measures)(例如 Dubois 2006; Dubois and Prade 1988),而這些測(cè)度類似于統(tǒng)計(jì)學(xué)家所熟悉的概率分布。鑒于前述定理表明高效的 IM 必須采用 T T 上的可能性測(cè)度形式,我將專注于可能性型 IM;另見 Liu and Martin (2024)。對(duì)可能性理論基礎(chǔ)不熟悉的讀者,請(qǐng)參閱附錄 A 以了解與下文統(tǒng)計(jì)發(fā)展相關(guān)的背景知識(shí)。
3.2 構(gòu)造
![]()
![]()
我將始終假設(shè),對(duì)于幾乎所有 z z,分母是有限的。相對(duì)似然可以直接賦予一種不精確概率性(實(shí)際上是可能性性)的解釋,且這一點(diǎn)已被廣泛研究(例如 Denceux 2006, 2014;Shafer 1982;Wasserman 1990a)。但基于原始相對(duì)似然的可能性性不確定性量化存在與上述討論的概率性不確定性量化類似的問題——顯然無法控制虛假置信率。然而,相對(duì)似然扮演著一個(gè)重要的角色,即根據(jù)參數(shù)值與觀測(cè)數(shù)據(jù) Z = z
的相容性對(duì)其進(jìn)行排序,這正是費(fèi)希爾所設(shè)想的角色。可以說,上述相對(duì)似然函數(shù) θ ? R ( z , θ ) 是“最佳”的此類排序函數(shù),因?yàn)樗菢O小充分統(tǒng)計(jì)量;另見附錄 C 中的注釋1。但這并非唯一可考慮的排序函數(shù);參見第5–6節(jié)。
可能性型 IM 構(gòu)造的第二步是“驗(yàn)證”(validifying)(Martin 2022a)相對(duì)似然(或其他排序函數(shù))。這相當(dāng)于應(yīng)用一種“概率到可能性變換”(probability-to-possibility transform)的版本(例如 Dubois et al. 2004; Hose 2022),并返回可能性型 IM 的等高線函數(shù):
![]()
![]()
![]()
3.3 基于抽樣的可靠性性質(zhì)
3.3.1 有效性(Validity)
可能性型 IM 的核心可靠性性質(zhì)是強(qiáng)有效性(strong validity)。
定理2。可能性型 IM 具有強(qiáng)有效性,其含義是:
![]()
這對(duì)應(yīng)于 p 值的熟悉結(jié)果,是基礎(chǔ)數(shù)理統(tǒng)計(jì)課程中所教授的概率積分變換的直接推論。盡管這一結(jié)果以及下文部分(但非全部)結(jié)果在 p 值的語境下可能為人所熟知,但重要的是要記住:p 值通常僅用于孤立的顯著性檢驗(yàn),而非作為構(gòu)建廣泛、數(shù)學(xué)上嚴(yán)謹(jǐn)?shù)目煽坎淮_定性量化框架的基礎(chǔ)模塊。此外,此處的結(jié)果之所以與熟悉的 p 值考量一致,僅僅是因?yàn)槲壹僭O(shè)了先驗(yàn)信息為空白;更一般的情形已在 Martin (2022b) 中討論,并在第7節(jié)簡(jiǎn)要提及。
強(qiáng)有效性具有若干重要推論。首先,式(4)立即意味著可能性等高線的上 α 水平集是一個(gè) 100(1?α)% 置信區(qū)域。請(qǐng)注意,貝葉斯可信集和可信推斷的置信集通常只能在樣本量趨于無窮時(shí)漸近地達(dá)到置信集的地位。圖2展示了上水平集 C α ( z ) ,其中 α = 0.1 。
![]()
那么,正如對(duì)式(6)的解釋一樣:IM 將較大的下概率賦予一個(gè)錯(cuò)誤假設(shè),這是一個(gè)小概率事件。
一個(gè)自然的問題是:為何同一個(gè)量 α 會(huì)同時(shí)出現(xiàn)在上述兩個(gè)表達(dá)式的花括號(hào)內(nèi)外。原因在于,數(shù)值概率的解釋是與語境無關(guān)的。也就是說,盡管“小”和“大”概率的具體含義可能因人而異,但像“概率為0.1”這樣的陳述,對(duì)于某個(gè)特定個(gè)體而言,無論主題是明天的天氣還是關(guān)于未知量 Θ 的數(shù)據(jù)驅(qū)動(dòng)不確定性量化,其含義都是相同的。因此,用于解釋關(guān)于 Θ 的概率的尺度,與用于解釋關(guān)于 Z 的模型驅(qū)動(dòng)概率的尺度完全一致。于是,同一個(gè) α——代表任何被解釋為“小”的值——在式(6)的概率陳述的花括號(hào)內(nèi)外均會(huì)出現(xiàn)。
![]()
![]()
推論2。可能性型 IM 在式(6)的意義上是有效的。因此:
最后,盡管有效性與強(qiáng)有效性在例如 Martin and Liu (2013, 2015b) 中曾被或多或少視為等價(jià)性質(zhì),但必須強(qiáng)調(diào)的是:強(qiáng)有效性(4)確實(shí)比有效性(6)更強(qiáng)。這一點(diǎn)首次在 Cella and Martin (2023) 中得到確立,其中證明了式(4)中的強(qiáng)有效性與式(6)的一個(gè)關(guān)于假設(shè)的一致版本是等價(jià)的。有關(guān)進(jìn)一步解釋,請(qǐng)參見附錄 C 中的注釋2。
3.3.2 效率
![]()
此處的問題是基礎(chǔ)性的,與19世紀(jì)初勒讓德和高斯發(fā)展出的關(guān)于最小二乘法的基本概念相關(guān),更一般地說,也涉及觀測(cè)值組合(例如 Stigler 1986),以及后來20世紀(jì)發(fā)展的充分統(tǒng)計(jì)量、費(fèi)希爾信息、Cramér–Rao 下界等。
在早期 IM 發(fā)展中,Martin and Liu (2015a) 通過手動(dòng)操作連接數(shù)據(jù) Z Z、參數(shù) Θ Θ 和輔助變量 U U 的關(guān)聯(lián)關(guān)系,處理了跨不同來源的信息整合問題。他們“重新發(fā)現(xiàn)”了經(jīng)典的降維技術(shù),如充分性和基于輔助統(tǒng)計(jì)量的條件化;他們還發(fā)展了一些新見解,超出了本綜述的范圍。雖然他們的手動(dòng)方法提供了更大的靈活性,并進(jìn)而具有更高效率的潛力,但通常難以實(shí)施。當(dāng)前的構(gòu)造基于相對(duì)似然排序,自動(dòng)以一種“最優(yōu)”的方式整合觀測(cè)值(至少在某些情況下),無需任何手動(dòng)操作。下文將回顧 Martin and Williams (2025) 的結(jié)果,表明上述有效的可能性型 IM 在熟悉的含義下是漸近高效的。因此,IM 的精確有效性(通過不精確性實(shí)現(xiàn))在效率方面沒有任何代價(jià)。
以下總結(jié)的是一個(gè)著名的 Bernstein–von Mises 定理的可能性理論版本,該定理出現(xiàn)在貝葉斯和(廣義)可信推斷文獻(xiàn)中,它確保輸出是漸近高斯分布,其協(xié)方差矩陣與 Cramér–Rao 下界一致。Bernstein–von Mises 定理對(duì)貝葉斯和可信推斷至關(guān)重要,因?yàn)樗WC了可信集是漸近置信集。對(duì)于可能性型 IM,其等高線水平集自動(dòng)成為置信集(推論1),因此下面的定理3嚴(yán)格關(guān)注 IM 的漸近效率。
![]()
![]()
![]()
![]()
3.4 條件性、固定數(shù)據(jù)性質(zhì)
雖然考察 IM 輸出的抽樣性質(zhì)是自然且重要的,但(不精確)概率性不確定性量化常被忽視的一個(gè)優(yōu)勢(shì)在于:它提供了完全條件化、針對(duì)固定數(shù)據(jù)的解釋。這一角度在默認(rèn)先驗(yàn)貝葉斯、(廣義)可信推斷、IM 等文獻(xiàn)中往往未被充分討論。遺憾的是,本文篇幅有限,無法對(duì)此進(jìn)行細(xì)致闡述,詳見附錄 D。
3.5 計(jì)算
直到最近,計(jì)算 IM 等高線的方法仍僅限于樸素且相對(duì)低效的策略。具體而言,主流方法是通過以下方式近似 π z
:
![]()
![]()
Martin (2025b) 最近開發(fā)了一種新穎且高效的 IM 計(jì)算策略。該方案用一種從 IM 輸出中專門導(dǎo)出的“后驗(yàn)分布”(而非通過貝葉斯定理)進(jìn)行蒙特卡洛抽樣,取代了(大部分)式(7)中的樸素等高線評(píng)估。這些發(fā)展的起點(diǎn)是所謂的“可信集”(credal set)(例如 Levi 1980, 第5章),它與 IM 輸出相關(guān)聯(lián)。一般而言,可信集就是被給定上概率所支配的一組精確概率;在我們當(dāng)前的記號(hào)下,其定義為:
![]()
![]()
![]()
![]()
![]()
3.6 示例
![]()
![]()
![]()
![]()
4 對(duì)頻率學(xué)派與貝葉斯學(xué)派的啟示
4.1 對(duì)頻率學(xué)派而言
頻率學(xué)派有充分理由放棄概率主義(probabilism)。這些理由包括上文第2.4節(jié)所述的可靠性警告、Mayo(2018)詳述的基礎(chǔ)性問題,以及概率主義缺乏靈活性所帶來的實(shí)際相關(guān)問題,例如:“認(rèn)為統(tǒng)計(jì)問題不必作為一個(gè)統(tǒng)一整體來解決,這種想法對(duì)貝葉斯學(xué)派而言是不可接受的,但對(duì)頻率學(xué)派卻是一種解放”(Wasserman 2008)。然而,僅僅因?yàn)楦怕手髁x存在缺陷就徹底拋棄形式化的不確定性量化,實(shí)屬極端之舉——無異于“把嬰兒和洗澡水一起倒掉”。事實(shí)上,這種拋棄既無必要,又有害處。
我先說明為何“無必要”。頻率學(xué)派對(duì)其經(jīng)典問題已有偏好的解決方案,因此自然不愿考慮那些對(duì)同一經(jīng)典問題提出不同解法的新框架。但上文所述的基于似然的可能性型推斷模型(possibilistic IM)通常恰好與經(jīng)典解法一致(必要時(shí)模去適當(dāng)?shù)倪吘壔幚恚灰姷?節(jié))。此外,該基于似然的框架易于推廣(第6節(jié)),從而在可能性型 IM 解法與常用頻率學(xué)派解法之間實(shí)現(xiàn)更大的靈活性和更廣泛的吻合。更一般地,附錄 G 中正式陳述并證明的結(jié)果大致如下:對(duì)于關(guān)于完整參數(shù) Θ 的任意特征 Φ = f(Θ) 的任何具有頻率學(xué)派錯(cuò)誤率保證的檢驗(yàn)或置信程序,都存在一個(gè)有效的可能性型 IM(即提供完整的不確定性量化!),其所導(dǎo)出的關(guān)于 Φ 的檢驗(yàn)/置信程序至少與給定程序一樣好。這一結(jié)果推廣了 Martin and Liu(2014)和 Martin(2021a)中的類似結(jié)論,具有重要推論:沒有任何真正的頻率學(xué)派解法——無論是經(jīng)典教科書中的,還是尚未被構(gòu)想出來的——超出了可能性型 IM 框架的能力范圍。因此,頻率學(xué)派實(shí)際上已經(jīng)在使用可能性型 IM,故而他們對(duì)本文所提出的不確定性量化方式不應(yīng)有任何異議;但他們尚未充分利用可能性型 IM 所能提供的全部?jī)?yōu)勢(shì),這一點(diǎn)我將在下文討論。
頻率學(xué)派若放棄形式化的不確定性量化,其危害已被廣泛記錄;《美國(guó)統(tǒng)計(jì)學(xué)家》(The American Statistician)近期多期專刊均聚焦于此。其中所述的混亂源于教科書一方面強(qiáng)調(diào) p 值和置信區(qū)間沒有概率解釋,另一方面又不提供替代性解釋。缺乏解釋會(huì)導(dǎo)致至少兩種后果:一些研究者會(huì)自行構(gòu)建解釋,但多種不同的解釋只會(huì)造成混淆;另一些研究者則干脆接受“不存在有意義的解釋”這一觀點(diǎn),使統(tǒng)計(jì)分析淪為盲目遵循的規(guī)程,即所謂“統(tǒng)計(jì)顯著性的崇拜”(Ziliak and McCloskey 2008)。這種混淆和/或盲目信任導(dǎo)致統(tǒng)計(jì)工具的誤用,或許更重要的是,它促使研究者只關(guān)注那些他們認(rèn)為可用簡(jiǎn)單教科書規(guī)程回答的、相對(duì)狹窄的科學(xué)問題。
幸運(yùn)的是,這種混淆是可以克服的,因?yàn)轭l率學(xué)派方法與 IM 之間的聯(lián)系為 p 值和置信區(qū)間提供了一種簡(jiǎn)單且數(shù)學(xué)嚴(yán)謹(jǐn)?shù)慕忉尅YM(fèi)希爾曾正確指出,p 值和置信區(qū)間不能對(duì) Θ 作出“精確的概率陳述”,但這并不意味著完全不能作出任何陳述。借用 Shafer 將上概率描述為“合理性”(plausibility)度量的說法,上述聯(lián)系立即意味著:p 值可被解釋為在給定數(shù)據(jù) z 下零假設(shè) H? 的合理性,而置信集可被解釋為在給定數(shù)據(jù) z 下所有個(gè)體均具有足夠合理性的參數(shù)值集合。這正是實(shí)踐中 p 值和置信集的實(shí)際用法,如今這一用法獲得了數(shù)學(xué)上嚴(yán)謹(jǐn)?shù)恼?dāng)性。這正是我在課程中(包括入門級(jí)課程)教授 p 值和置信集的方式——無需涉及不精確概率等技術(shù)細(xì)節(jié)——并受到學(xué)生們的廣泛歡迎。
4.2 對(duì)貝葉斯學(xué)派而言
與頻率學(xué)派不同,貝葉斯學(xué)派堅(jiān)定地信奉概率主義(probabilism)。當(dāng)真實(shí)先驗(yàn)信息可用時(shí),這種承諾是合理的;但在缺乏先驗(yàn)信息的情況下,這種承諾就值得質(zhì)疑。由于不存在能夠忠實(shí)表達(dá)“無知”的先驗(yàn)概率分布,因此任何默認(rèn)先驗(yàn)的貝葉斯后驗(yàn)分布都不可能在任何意義上是“正確”的——“[貝葉斯定理] 無法從假設(shè)的概率中創(chuàng)造出真實(shí)的概率”(Fraser 2014)。此外,即使務(wù)實(shí)的貝葉斯主義者并不關(guān)心其后驗(yàn)分布是否“正確”,也必須接受“虛假置信定理”所揭示的可靠性缺失問題。基于這些(或許還有其他)原因,Efron(2013)寫道:
“……在缺乏先驗(yàn)信息的情況下使用貝葉斯定理,或許是統(tǒng)計(jì)推斷中最重要的未解問題。”
堅(jiān)持概率主義是對(duì)不確定性量化質(zhì)量與可靠性的限制。為強(qiáng)調(diào)這一點(diǎn),不精確概率理論與應(yīng)用學(xué)會(huì)(Society for Imprecise Probability: Theories and Applications)有一句座右銘:“不確定性遠(yuǎn)不止概率。”IM 框架坦然接受概率主義的這一局限,并承認(rèn):在缺乏先驗(yàn)信息時(shí),雖然不存在單一“正確”或完全可靠的后驗(yàn)概率分布,但存在一個(gè)可被合理辯護(hù)的后驗(yàn)概率集合,而該集合可由一個(gè)可能性測(cè)度來刻畫。
讀者對(duì)不精確概率感到不適是可以理解的,出于簡(jiǎn)潔性考慮,或許仍傾向于熟悉的(盡管有缺陷的)概率性不確定性量化。但構(gòu)造概率的方式多種多樣,若僅局限于“先驗(yàn) × 似然”這類構(gòu)造,同樣會(huì)限制不確定性量化的質(zhì)量。Martin(2025c)提出的新思路是:用一個(gè)概率分布去近似 IM 的可能性型輸出。下文簡(jiǎn)要概述這一方法。
![]()
盡管內(nèi)層概率近似通常不是任何先驗(yàn)下的貝葉斯后驗(yàn),但在某些情形下仍可建立直接的貝葉斯聯(lián)系。特別地,對(duì)于所謂的不變統(tǒng)計(jì)模型(invariant statistical models)(參見 Eaton 1989;Schervish 1995, 第6章),基于右哈爾先驗(yàn)(right Haar prior)的貝葉斯后驗(yàn)正是該可能性型 IM 的一個(gè)內(nèi)層概率近似(例如 Martin 2023a, 2025c)。
綜上所述,在缺乏先驗(yàn)信息時(shí),概率主義的局限性與上述可能性主義(possibilism)的優(yōu)勢(shì)共同表明:應(yīng)放棄前者,轉(zhuǎn)而采用后者。但即便有人堅(jiān)持概率主義,“似然 × 先驗(yàn)”這一貝葉斯式構(gòu)造本身也有其局限:如果真存在一個(gè)能解決 Efron 問題的神奇默認(rèn)先驗(yàn),那它早就該被發(fā)現(xiàn)了。因此,該問題的解決方案很可能來自一種全新的視角——其中后驗(yàn)并非通過貝葉斯定理獲得。或許,正是那個(gè)“不打破貝葉斯之蛋卻做出煎蛋卷”的解法,從而解決了 Efron 所稱的“最重要的未解問題”?
5 消除冗余參數(shù)
Basu (1977) 曾寫道:“從模型中消除冗余參數(shù)被普遍認(rèn)為是統(tǒng)計(jì)學(xué)的一個(gè)重大問題。” 自 Basu 時(shí)代以來,情況并未有多大改變——頻率學(xué)派的不可能性結(jié)果(例如 Gleser and Hwang 1987;Dufour 1997)以及上文討論的貝葉斯推斷的普遍不可靠性表明,邊緣化推斷具有挑戰(zhàn)性,需要謹(jǐn)慎處理。本文所采用的可能性理論視角提供了一些新的洞見,我將在下文進(jìn)行討論。
在(不精確)概率推斷中執(zhí)行的一種通用操作是“擴(kuò)展”(extension),即利用不確定性量化框架的演算,將對(duì)一個(gè)未知量的不確定性量化擴(kuò)展到相關(guān)的另一個(gè)未知量。在可能性理論中,相關(guān)演算是優(yōu)化(optimization),因此這是用于執(zhí)行擴(kuò)展的操作。遵循 Zadeh (1975, 1978),可能性型擴(kuò)展原則的基本構(gòu)件是一種基于優(yōu)化的邊緣化規(guī)則:使用當(dāng)前記號(hào)和術(shù)語,若 Θ 是未知的,其不確定性由帶有等高線 π_z 的可能性型 IM 給出,且若 Φ = g(Θ) 是 Θ 的一個(gè)特征,則對(duì)應(yīng)的基于擴(kuò)展的邊緣 IM 等高線定義為
![]()
盡管通向式(12)的正式推導(dǎo)可能令人陌生,但所執(zhí)行的操作卻是統(tǒng)計(jì)學(xué)家無需多想就會(huì)使用的:為了檢驗(yàn)一個(gè)復(fù)合假設(shè),可以在其包含的所有簡(jiǎn)單假設(shè)上最大化 p 值。
![]()
![]()
該策略的簡(jiǎn)潔性和普適性是其優(yōu)勢(shì)。但若不對(duì)特定問題或感興趣的特征進(jìn)行任何定制化調(diào)整,人們應(yīng)預(yù)期相應(yīng)的基于擴(kuò)展的邊緣 IM 會(huì)相當(dāng)保守。
![]()
![]()
![]()
這并非完全由 ? ? 決定。與之前一樣,容易證明強(qiáng)有效性在此基于輪廓的邊緣 IM 構(gòu)造下得以保留。在排序步驟中包含優(yōu)化的合理性,在效率方面通常優(yōu)于在驗(yàn)證后進(jìn)行優(yōu)化,但這一點(diǎn)較為微妙,我建議感興趣的讀者參閱 Martin (2022b)。在特定應(yīng)用中,輪廓法往往比擴(kuò)展法更高效是顯而易見的;詳見下文。Martin and Williams (2025) 表明,雖然基于擴(kuò)展和基于輪廓的邊緣 IM 構(gòu)造都享有大樣本可能性型 Bernstein–von Mises 定理,但后者極限高斯分布的方差通常更小,因此效率更高。
![]()
伽馬例子(續(xù))。此處我重新分析 Hamada 等人 (2004) 中的數(shù)據(jù)。關(guān)注點(diǎn)在于推斷伽馬分布的均值 2。可以執(zhí)行兩種邊緣化——基于擴(kuò)展和基于輪廓——兩者均在圖5(b)中展示。如前所述,基于擴(kuò)展的等高線(可從圖4(b)中的聯(lián)合等高線導(dǎo)出)結(jié)果更寬泛,缺乏基于輪廓解法的效率。圖5(b) 還展示了基于“暴力搜索”策略的“精確”基于輪廓的邊緣 IM 等高線(灰色線)。
我稱其為“精確”,是因?yàn)樵摬呗阅墚a(chǎn)生對(duì)等高線的逐點(diǎn)無偏估計(jì)。我在這里展示這兩條曲線是為了突出第3.5節(jié)簡(jiǎn)要描述的 Martin (2025b) 的基于抽樣的蒙特卡洛策略的準(zhǔn)確性:圖5(b)中的兩條實(shí)線幾乎無法區(qū)分。
關(guān)于基于輪廓似然的 IM 解法的進(jìn)一步討論和示例見附錄 F。盡管它相比基于擴(kuò)展的邊緣化具有優(yōu)勢(shì),但必須強(qiáng)調(diào)的是,基于輪廓的邊緣化并非普遍適用,即存在輪廓法次優(yōu)的情形。正如預(yù)期的那樣,當(dāng)存在許多冗余參數(shù)時(shí)會(huì)出現(xiàn)問題,例如著名的 Neyman and Scott (1948) 和 Stein (1959) 例子;參見 Martin (2023b, 第3.6節(jié))。更具體地說,基于輪廓的邊緣 IM 始終有效,但隨著冗余參數(shù)數(shù)量的增加,其效率會(huì)下降。原因是,當(dāng)冗余參數(shù)數(shù)量發(fā)散時(shí),最大似然估計(jì)量?jī)A向于不一致;由于基于輪廓的邊緣 IM 等高線的峰值位于最大似然估計(jì)量處,若該峰值偏離目標(biāo),則需要更寬的等高線才能覆蓋相關(guān)范圍。補(bǔ)救方法是用其他東西(例如邊緣似然或條件似然)替換相對(duì)輪廓似然排序(例如 Severini 1993, 1994, 1998),但迄今為止,這僅在個(gè)案基礎(chǔ)上得到解決(Martin 2023b)。值得再次提及的是,前述 IM 始終有效——不同于貝葉斯和可信推斷,它們?cè)谌哂鄥?shù)問題上可能具有誤導(dǎo)性——因此問題是如何恰當(dāng)?shù)貙?duì)興趣參數(shù)值進(jìn)行排序,以使推斷高效。
![]()
技巧1。一個(gè)簡(jiǎn)單且通用的消除冗余參數(shù)的策略是條件化。費(fèi)希爾精確檢驗(yàn)就是一個(gè)熟悉的例子,其中 p 值是通過給定零假設(shè)下充分統(tǒng)計(jì)量的觀測(cè)值所對(duì)應(yīng)的條件分布獲得的。根據(jù)定義,給定充分統(tǒng)計(jì)量的數(shù)據(jù)的條件分布不依賴于參數(shù),因此冗余參數(shù)被消除了。當(dāng)前的目標(biāo)并非獲得用于檢驗(yàn)假設(shè)的 p 值,但相關(guān)計(jì)算相似,因此可以采用相同的策略。
技巧2。嚴(yán)格來說,式(13)外層的上確界并非必要。事實(shí)上,一個(gè)實(shí)際上難以達(dá)到的等高線定義為
![]()
![]()
![]()
![]()
6 在更一般情境下的 IM
6.1 關(guān)鍵技術(shù)擴(kuò)展
上述提案的一個(gè)明顯局限在于,其對(duì)相對(duì)似然的強(qiáng)調(diào)隱含地假設(shè)了一個(gè)統(tǒng)計(jì)模型 { P θ : θ ∈ T }是可用的。例如,機(jī)器學(xué)習(xí)應(yīng)用往往傾向于避免此類模型假設(shè)。一個(gè)簡(jiǎn)單但重要的觀察——已在各種情境中應(yīng)用(包括上文第5節(jié))——是:驗(yàn)證步驟并不要求排序必須基于相對(duì)似然。也就是說,雖然所設(shè)定模型的似然函數(shù)決定了相對(duì)于該模型的“最優(yōu)”排序選擇(附錄 C 中的注釋1),但可能存在其他因素建議采用不同的選擇。以下是幾個(gè)關(guān)鍵實(shí)例:
- 如果數(shù)據(jù)來自多個(gè)來源,例如在元分析或分治策略中(Hector et al. 2025),或者以匯總統(tǒng)計(jì)量的形式出現(xiàn),可能無法計(jì)算完整似然。
- 更一般地,所設(shè)定的模型可能無法為感興趣的參數(shù)確定一個(gè)似然函數(shù),例如在分位數(shù)回歸中。
- 如果關(guān)于 Θ 存在部分/不完整的先驗(yàn)信息——參見 Martin (2022b) 和下文第7節(jié)——或者如果問題背景暗示某些假設(shè)比其他假設(shè)具有更高優(yōu)先級(jí)(例如 Liu and Williams 2025;Yang et al. 2023),那么就有理由修改基于似然的排序函數(shù)。
在此,我將簡(jiǎn)要描述這一簡(jiǎn)單但重要的技術(shù)擴(kuò)展,然后將其應(yīng)用于一些相關(guān)問題;另見附錄 H。
![]()
![]()
關(guān)于這一通用 IM 構(gòu)造的更多細(xì)節(jié)見附錄 H。可以預(yù)期,Martin 和 Williams(2025)為基于似然的可能性型 IM 所建立的 Bernstein–von Mises 定理,可推廣至此處所述的一些更一般情形,但具體細(xì)節(jié)仍有待完善。
當(dāng)然,挑戰(zhàn)在于如何計(jì)算式(14)中的上確界,而這歸結(jié)為對(duì)排序函數(shù) ρ ρ 的策略性選擇和/或應(yīng)用第5節(jié)中所述的邊緣化技巧。接下來將討論這兩種情況下的若干有趣且實(shí)用的例子。
6.2 對(duì)風(fēng)險(xiǎn)最小化者的推斷
![]()
![]()
![]()
誠(chéng)然,上述解決方案并不完全令人滿意,因?yàn)橛行詢H在樣本量趨于無窮時(shí)近似成立,而非在有限樣本中精確成立。但我認(rèn)為這里仍有很大的改進(jìn)空間,因此我在此綜述中提出這一不夠完美的解決方案。事實(shí)上,我猜想上述描述的漸近有效性具有更高階的精度,即 π Z n ( Θ ) 收斂到均勻分布的速度比通常的根號(hào) n 速率更快。更一般地,我確信對(duì)上述提案的若干變體,至少能達(dá)到“更接近精確有效”的程度,是觸手可及的。我希望本綜述能激勵(lì)他人貢獻(xiàn)自己的想法,共同解決這一重要且富有挑戰(zhàn)性的開放問題。
6.3 預(yù)測(cè)
![]()
![]()
![]()
![]()
![]()
![]()
7 結(jié)論
本文綜述了可能性推斷模型(possibilistic inferential models, IMs)的一些最新進(jìn)展。最重要的是,IM 提供了類貝葉斯的、完全條件化的不確定性量化,同時(shí)具備類頻率學(xué)派的校準(zhǔn)性質(zhì),這意味著由 IM 輸出導(dǎo)出的檢驗(yàn)和置信程序能夠控制頻率學(xué)派的錯(cuò)誤率。主流統(tǒng)計(jì)推斷方法均無法同時(shí)實(shí)現(xiàn)類貝葉斯與類頻率學(xué)派的目標(biāo),而 IM 框架的獨(dú)特之處在于其依賴不精確概率,特別是可能性理論。
費(fèi)希爾曾暗示:顯著性檢驗(yàn)和置信區(qū)間“不支持任何精確的概率陳述”,但他并未為此提供數(shù)學(xué)解釋。通過明確不精確性所扮演的角色,我現(xiàn)在能夠修正 Efron(1998)戲稱為“費(fèi)希爾最大失誤”的可信推斷(fiducial inference)。我必須再次強(qiáng)調(diào):接受不精確性并不會(huì)降低推斷與不確定性量化的質(zhì)量——可能性理論在數(shù)學(xué)和哲學(xué)上都是健全的,且這種不精確性可防止虛假置信,使我們保持誠(chéng)實(shí)。此外,新的可能性型 Bernstein–von Mises 定理確保,至少在漸近意義上,可能性型 IM 解是高效的。
本文及所引文獻(xiàn)的討論大多聚焦于統(tǒng)計(jì)模型參數(shù)的不確定性量化,但第6節(jié)描述了將 IM 推廣至這一相對(duì)狹窄情形之外的初步步驟,并與文獻(xiàn)中的其他基礎(chǔ)思想建立了關(guān)鍵聯(lián)系。
遺憾的是,本綜述未能涵蓋所有近期進(jìn)展。以下是幾個(gè)未被討論的重要主題:
第一,不確定性量化有諸多用途,其中一個(gè)重要應(yīng)用是決策制定。遵循馮·諾依曼–摩根斯坦綱領(lǐng),貝葉斯框架從損失函數(shù)出發(fā)(該函數(shù)評(píng)估給定參數(shù)值下某行動(dòng)的質(zhì)量),然后尋求最小化期望損失的行動(dòng)(對(duì)后驗(yàn)分布下的參數(shù)值取平均)。可信推斷框架也采用類似方式(例如 Taraldsen and Lindqvist 2013)。而基于 Choquet 積分的可能性型 IM 則提出了一種新方法:以上期望損失(upper expected loss)來評(píng)估行動(dòng)質(zhì)量,其對(duì)應(yīng)的決策理論框架提供了貝葉斯與可信推斷所不具備的可靠性保證(Martin 2021b, 2025a)。
第二,本綜述聚焦于特定統(tǒng)計(jì)模型參數(shù)的不確定性量化。但現(xiàn)實(shí)中模型本身往往也是不確定的,這對(duì)應(yīng)于一種極端的邊緣推斷情形——所有模型特異性參數(shù)均為冗余參數(shù)。Martin and Liu(2015b, 第10章)和 Martin(2019)已就此開展了初步工作。然而,這些早期 IM 嘗試缺乏對(duì)模型復(fù)雜度的懲罰機(jī)制。貝葉斯方法通過先驗(yàn)分布實(shí)現(xiàn)復(fù)雜度懲罰,而可信推斷則通過人工方式控制復(fù)雜度(例如 Han and Lee 2022;Hannig and Lee 2009;Lai et al. 2015;Shi et al. 2021;Su et al. 2022;Wei and Lee 2023;Williams and Hannig 2019;Wu et al. 2021)。我認(rèn)為,對(duì)模型復(fù)雜度的懲罰源于一種(先驗(yàn))信念,即真實(shí)模型相對(duì)簡(jiǎn)單;盡管用概率論難以形式化此類模糊、不完整的信念,但用不精確概率理論卻很容易做到。因此,即將發(fā)表的工作將展示如何將“稀疏性”等模糊信念視為不完整先驗(yàn)信息,將其表述為不精確概率,并納入 IM 構(gòu)造中,從而對(duì)模型本身實(shí)現(xiàn)可證明可靠的不確定性量化。
第三,本文假設(shè)先驗(yàn)信息為空白。盡管這在統(tǒng)計(jì)文獻(xiàn)中是標(biāo)準(zhǔn)設(shè)定,但研究者對(duì)其欲推斷的量“一無所知”的情況實(shí)際上極為罕見。問題在于,可用信息通常也不足以合理地指定一個(gè)用于貝葉斯分析的先驗(yàn)分布。上述模型復(fù)雜度懲罰就是一個(gè)典型例子——研究者可能相信“稀疏性”等結(jié)構(gòu)假設(shè),但對(duì)結(jié)構(gòu)相關(guān)參數(shù)一無所知。若僅有兩個(gè)選擇:要么夸大已知信息以構(gòu)造精確先驗(yàn),要么忽略已知信息并假設(shè)先驗(yàn)空白,那么后者是更安全的選擇。但本文所采用的放松視角提供了一條替代路徑:將無論多么模糊或不完整的可用先驗(yàn)信息,精確地編碼為不精確概率并納入分析。這會(huì)誘導(dǎo)出一種特殊類型的正則化,在保持有效性的同時(shí)提升效率。Martin(2022a,b;2023b)的一系列工作論文正在發(fā)展這些細(xì)節(jié)。
有待解決的開放問題太多,無法在此一一列舉,但以下幾點(diǎn)尤為引人關(guān)注,涉及理論、方法、計(jì)算與應(yīng)用:
問題:哪些統(tǒng)計(jì)假設(shè)會(huì)受虛假置信影響?現(xiàn)有理論與實(shí)證強(qiáng)烈支持“虛假置信由非線性引起”的觀點(diǎn),即它是通過全模型參數(shù)的非線性函數(shù)進(jìn)行概率邊緣化所導(dǎo)致的后果。但這些假設(shè)的具體特征及其受影響程度仍不清楚。
問題:基于從訓(xùn)練數(shù)據(jù)中學(xué)得的模型構(gòu)建的 IM 如何?IM 文獻(xiàn)通常假設(shè)模型形式已給定,這在現(xiàn)實(shí)中略顯不切實(shí)際。機(jī)器學(xué)習(xí)中常利用訓(xùn)練數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)生成過程的某些方面,再將部分訓(xùn)練好的模型用于推斷與預(yù)測(cè)。在此背景下,排序和/或驗(yàn)證步驟均可依賴訓(xùn)練數(shù)據(jù)。這類 IM 的可靠性如何?
問題:如何擴(kuò)展到高維情形?第3.3.1節(jié)的有效性結(jié)果對(duì)所有樣本量和參數(shù)維度均成立;唯一假設(shè)“低維”的是關(guān)于效率的定理3。因此,高維擴(kuò)展問題歸結(jié)為計(jì)算與統(tǒng)計(jì)效率。高維問題中的統(tǒng)計(jì)效率需通過適當(dāng)正則化實(shí)現(xiàn)(如上所述),相關(guān)工作正在進(jìn)行。從計(jì)算角度看,需結(jié)合優(yōu)化與蒙特卡洛積分的前沿策略。我不認(rèn)為需要全新思路,良好的起點(diǎn)應(yīng)是不同思想的創(chuàng)新組合。公平而言,貝葉斯與頻率學(xué)派已在高維問題上耕耘多年,相關(guān)計(jì)算挑戰(zhàn)仍未真正“解決”——我們通常知道如何在高維中嘗試優(yōu)化與抽樣,但通常無法證明這些嘗試確實(shí)有效。
問題:因果推斷、差分隱私等方向如何?當(dāng)前令人興奮的應(yīng)用涉及因果推斷(例如 Imbens and Rubin 2015;Pearl 2009)和數(shù)據(jù)隱私(例如 Awan and Wang 2024;Garfinkel 2025)等。IM 在這些方向并無根本障礙,尤其考慮到第6節(jié)的擴(kuò)展。這只是細(xì)節(jié)問題。
最后,我想就 IM 及其在人工智能(AI)中可能扮演的角色談些高層次思考。AI 關(guān)注具備執(zhí)行人類智能典型任務(wù)能力的計(jì)算系統(tǒng),如學(xué)習(xí)、推理、問題求解、感知與決策。將其歸入“數(shù)據(jù)驅(qū)動(dòng)的不確定性量化”這一寬泛范疇并非不合理。事實(shí)上,一些心理學(xué)家(例如 Gigerenzer and Murray 1987;Juslin et al. 2007)將認(rèn)知過程建模為(直覺性的)統(tǒng)計(jì)推斷:提出問題、收集相關(guān)數(shù)據(jù),并基于數(shù)據(jù)與假設(shè)模型做出判斷。目前 AI 與 IM 的聯(lián)系尚難看清,很大程度上是因?yàn)楸疚挠懻摰?IM 構(gòu)造專為統(tǒng)計(jì)應(yīng)用量身定制。但其核心思想——具有可靠性保證的不確定性量化——更具普遍性,適用范圍更廣。現(xiàn)代 AI 所用的深度學(xué)習(xí)模型,本質(zhì)上只是“復(fù)雜的非參數(shù)回歸模型”,因此第6節(jié)及補(bǔ)充材料中討論的 IM 細(xì)節(jié)顯然相關(guān)。無論如何,正如 Shafer 早年獨(dú)立于 Dempster 早期工作的概率語言與統(tǒng)計(jì)焦點(diǎn),發(fā)展出后來被稱為“Dempster–Shafer 理論”的框架,并在1980年代找到了真實(shí)的 AI 應(yīng)用,我也樂觀地認(rèn)為,存在一種足夠通用的 IM 形式,能夠滿足現(xiàn)代 AI 對(duì)“可靠不確定性量化”的需求。
https://arxiv.org/pdf/2507.09007
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.