無分布假設(shè)下對條件量的可能性推理
Distribution-free possibilistic inference on conditional quantities
https://proceedings.mlr.press/v290/cella25a.html
![]()
![]()
摘要
對條件量(即與給定協(xié)變量下響應(yīng)變量的條件分布相關(guān)的未知量)進(jìn)行不確定性量化是一個基本問題。現(xiàn)有方法通常依賴于嚴(yán)格的參數(shù)假設(shè)或光滑性條件,并且通常僅提供未知量的集合估計。本文引入了推斷模型(Inferential Models, IMs),用于對條件量進(jìn)行可能性(possibilistic)不確定性量化,超越了僅提供集合估計的簡單做法。與傳統(tǒng)方法不同,所提出的 IMs 完全無需分布假設(shè)(distribution-free),并能同時處理隨機(jī)和固定的條件量。此外,它們滿足一種邊緣有效性(marginal validity)準(zhǔn)則,確保在對協(xié)變量分布取平均時,所有 IM 輸出均得到恰當(dāng)校準(zhǔn)。本文通過實例展示了該框架在隨機(jī)和固定條件量上的應(yīng)用——具體而言,分別針對一個未來響應(yīng)值和條件中位數(shù)。
關(guān)鍵詞:推斷模型,無分布假設(shè),預(yù)測,條件中位數(shù)
引言
考慮一個常見的情境,其中一項研究涉及 p+1 個變量,(X, Y) ? ?? × ?,其中 Y 是響應(yīng)變量——主要關(guān)注對象——而 X 中的 p 個協(xié)變量用于預(yù)測或理解 Y。具體而言,給定觀測到的配對 (X?, Y?), ..., (X?, Y?) 和一個新的協(xié)變量向量 X???,目標(biāo)要么是根據(jù)給定 X = x??? 時 Y 的條件分布預(yù)測下一個實現(xiàn)值,要么是通過分析其矩或分位數(shù)等來深入了解該條件分布。
假設(shè) (X?, Y?), ..., (X?, Y?) 和 X??? 獨立地從同一分布 P = P_Y|X × P_X 中抽取,在大多數(shù)應(yīng)用中是合理的。然而,這通常伴隨著一個更強(qiáng)、更難以辯護(hù)的假設(shè),即 P 遵循特定的參數(shù)模型。在這種情況下,對與 Y | X = x 條件分布相關(guān)的未知量進(jìn)行不確定性量化成為一個兩步過程:首先,對模型參數(shù)進(jìn)行不確定性量化,然后將這種不確定性傳播到所關(guān)注的量上。
如果參數(shù)模型被錯誤設(shè)定,這種間接方法可能會出現(xiàn)問題。因此,在幾乎沒有理由假設(shè)參數(shù)模型的情境下,能夠在不施加分布假設(shè)的情況下量化不確定性的能力尤其寶貴。
對下一個響應(yīng)值 Y??? 的不確定性進(jìn)行量化通常是應(yīng)用中的首要目標(biāo)。一種成熟的解決方法是共形預(yù)測 [2, 18, 27, 28],它構(gòu)建具有有限樣本覆蓋保證的預(yù)測集合,且完全不依賴于對 P 的分布假設(shè)。然而,在許多應(yīng)用中,希望將不確定性量化擴(kuò)展到簡單的集合估計之外。一個更細(xì)致的視角涉及為關(guān)于 Y??? 的特定斷言分配(可能不精確的)概率。
例如,考慮一所大學(xué)正在評估一位高中 GPA 為 2.5 及其他相關(guān)特征的申請者。該機(jī)構(gòu)可能不僅限于預(yù)測其未來大學(xué) GPA 的范圍,而是特別關(guān)心以概率方式評估某個具體斷言——例如,該學(xué)生的大學(xué) GPA 是否會低于 2。由于此類評估會影響重要決策,因此概率賦值必須得到恰當(dāng)校準(zhǔn),以確保錯誤結(jié)論保持可控的稀有性 [26]。
推斷模型 (IMs) [20, 23, 24] 提供了一個針對未知量的不確定性量化的可能性框架。它們的關(guān)鍵特征是對可能性賦值進(jìn)行校準(zhǔn),確保低可能性(或高必然性)測度以受控的比率被賦予真實(或虛假)斷言。早期的 IM 發(fā)展集中在假設(shè)有參數(shù)模型的情形,但近期進(jìn)展已將其構(gòu)造擴(kuò)展到無分布假設(shè)的情形 [4–10, 22]。特別是,本文所考慮的條件預(yù)測問題此前已在 Cella 和 Martin [9] 中探討過。
當(dāng)焦點從對 P_Y|X 下一個實現(xiàn)值的不確定性量化轉(zhuǎn)移到對 P_Y|X 函數(shù)的不確定性量化時,挑戰(zhàn)會增加。傳統(tǒng)的無分布假設(shè)方法旨在不僅為特定數(shù)據(jù)點 x??? 構(gòu)建集合估計,而且為所有 x ∈ ?? 構(gòu)建集合估計。然而,實現(xiàn)適當(dāng)?shù)母采w通常需要額外的假設(shè)。非參數(shù)回歸 [12, 29],例如,施加了光滑性條件,并假設(shè)在估計條件均值時 P_Y|X 具有足夠輕的尾部——這反映了為其構(gòu)建非平凡置信區(qū)間的基本困難 [1]。即使是像條件分位數(shù)這樣穩(wěn)健的函數(shù),也需要對 x ∈ ?? 上的分位數(shù)函數(shù)施加額外的連續(xù)性假設(shè),正如分位數(shù)回歸方法 [17] 所示。同樣的限制也適用于 Cella [5] 提出的用于條件分位數(shù)的無分布假設(shè) IMs 構(gòu)造,雖然它提供了經(jīng)過校準(zhǔn)的可能性不確定性量化,但也依賴于連續(xù)性假設(shè)。
這就引出了一個問題:能否在不施加任何額外假設(shè)的情況下,實現(xiàn)對 P_Y|X 至少某些函數(shù)的有意義的不確定性量化?該領(lǐng)域的最新進(jìn)展由 Medarametla 和 Candès [25] 以及 Barber [3] 做出,二者都專注于通過集合估計進(jìn)行不確定性量化。這些發(fā)展的一個核心要素是他們采用的有效性概念。類似于共形預(yù)測,所提出的集合估計的覆蓋范圍被認(rèn)為是邊緣性的,而不是以特定的觀測值 x??? 為條件。換句話說,目標(biāo)是在以邊緣分布 P_X 加權(quán)時覆蓋未知關(guān)注量的值。由于未對 P 所屬的分布類做任何假設(shè),尋求針對單個數(shù)據(jù)點的校準(zhǔn)集合估計比試圖在整個 x ∈ ?? 上實現(xiàn)逐點覆蓋更為可行 [25]。
在這些進(jìn)展的基礎(chǔ)上,我們的目標(biāo)是在 IM 框架內(nèi)擴(kuò)展這些思想,使條件量的不確定性量化無需分布假設(shè),且超越集合估計。在第 4 節(jié)中,我們將上述討論的邊際有效性概念置于概率不確定性量化的更廣泛背景下進(jìn)行形式化,并提出一種滿足此標(biāo)準(zhǔn)的具體無分布假設(shè) IMs 構(gòu)造。這種構(gòu)造相當(dāng)通用,能夠容納隨機(jī)和固定的條件量。具體而言,我們呈現(xiàn)兩個例子:一個是針對隨機(jī)量 Y???,另一個是針對固定量——條件中位數(shù)。前者此前已在 Cella 和 Martin [9] 中考察過,但在這里,我們通過新框架的視角重新詮釋它。后者是一項新穎的貢獻(xiàn),從 Medarametla 和 Candès [25] 的工作中汲取了重要啟發(fā)。
本文其余部分組織如下。在第 2 節(jié),提供了關(guān)于參數(shù)化 IMs 的簡要背景,以使讀者了解 IMs 背后的基本推理、其構(gòu)造邏輯以及它們滿足的關(guān)鍵性質(zhì)。第 3 節(jié)介紹了(無條件的)無分布假設(shè) IMs,其中 Cella [5] 的發(fā)展(最初設(shè)計用于固定的關(guān)注量)被推廣以同時容納固定和隨機(jī)量。這種推廣很重要,因為第 4 節(jié)中提出的用于條件量的 IMs 遵循類似的邏輯。最后,第 5 節(jié)提供了一個簡明的總結(jié)、關(guān)鍵評論以及對開放問題的討論。
參數(shù)化IMs的背景
推理模型(IMs)大約在十五年前出現(xiàn),旨在在統(tǒng)計學(xué)中兩種主要思想流派之間取得平衡:頻率主義和貝葉斯方法。換句話說,IMs被開發(fā)出來是為了提供關(guān)于未知數(shù)的概率不確定性量化,類似于貝葉斯框架,同時確保這些概率陳述經(jīng)過校準(zhǔn)并獲得,而無需事先指定,這符合頻率主義的觀點。實現(xiàn)這種“兩全其美”的關(guān)鍵——Efron稱之為統(tǒng)計推斷中“最未解決的問題”——在于IMs概率陳述中使用不精確概率。特別是,這些陳述通過必要性和可能性度量來表達(dá)。
![]()
![]()
換句話說,推斷模型(IMs)將小的可能性(≤ α)賦予真實斷言的頻率(作為數(shù)據(jù) ? 的函數(shù))也很小(≤ α)。
對于 IM 的必然性測度,也有相應(yīng)的陳述,但我們在本文此處及后續(xù)部分均省略。關(guān)于這兩種測度在 IM 框架中各自所起的重要作用的討論,參見 Cella 和 Martin [11]。
這些校準(zhǔn)性質(zhì)的基礎(chǔ)是 IM 輪廓函數(shù)(contour)所謂的有效性(validity)性質(zhì),其形式如下:
![]()
若干其他關(guān)鍵性質(zhì)可直接由此有效性條件推出。為避免重復(fù),我們將其討論推遲到后續(xù)章節(jié)。
IM 構(gòu)造背后的推理如下:相對似然自然地量化了未知參數(shù) Θ 的某個候選值 與觀測數(shù)據(jù) ? 之間的相容性。然而,它本身并不能保證我們所追求的經(jīng)過校準(zhǔn)的概率性不確定性量化。為解決這一問題,相對似然需經(jīng)過公式 (1) 中所述的“可能性到概率”的變換,Martin [21] 將該過程稱為“有效化”(validification)。這種“相容性函數(shù) + 有效化”的組合將在下文構(gòu)建無分布假設(shè)的 IMs 中起到關(guān)鍵作用。
無分布假設(shè)的IMs
第2節(jié)回顧的參數(shù)化IMs功能強(qiáng)大,可以說為統(tǒng)計學(xué)中長期存在的頻率學(xué)派與貝葉斯學(xué)派之爭提供了一個有吸引力的解決方案。然而,如同所有參數(shù)化方法一樣,它們也存在一個主要缺點——需要為數(shù)據(jù)指定一個參數(shù)化分布。在許多現(xiàn)代應(yīng)用中,此類假設(shè)往往缺乏依據(jù),使得無分布假設(shè)的方法更為可取。因此,任何嚴(yán)肅的統(tǒng)計推斷框架都必須能夠適應(yīng)無分布假設(shè)的情形,而IMs也不例外。
考慮一個感興趣的隨機(jī)量 Z,它在樣本空間 Z 中取值,并服從某個分布 P,但關(guān)于該分布 P 不做任何假設(shè)。可觀測數(shù)據(jù) Z? = (Z?, ..., Z?) 由來自 P 的 n 個獨立同分布的實現(xiàn)構(gòu)成。目標(biāo)是在給定觀測數(shù)據(jù) Z? = z? 的情況下,對一個未知量 Θ 進(jìn)行不確定性量化,該量 Θ 在空間 T 中取值,并與分布 P 相關(guān)聯(lián)。為了盡可能保持一般性,我們考慮兩種情況:未知量是固定的(例如,作為底層分布的一個函數(shù) Θ = Θ(P),如 P 的分位數(shù)),或是隨機(jī)的(例如,從 P 中抽取的一個未來實現(xiàn)值 Θ = Z???)。在本節(jié)余下部分,當(dāng) Θ 是固定時,? 將表示對 Z? 取的概率;當(dāng) Θ 是隨機(jī)時,? 將表示對 Z? 和 Θ 兩者取的概率。
第2節(jié)中參數(shù)化IMs的一個關(guān)鍵特征是其有能力對任何感興趣的斷言做出經(jīng)過校準(zhǔn)的概率賦值。針對 Θ 的一個無分布假設(shè)IM 應(yīng)該保持類似的性質(zhì)。更具體地說,
目標(biāo)是構(gòu)建一個無分布假設(shè)的IM,它將小的可能性賦予那些具有小 ?-概率的真實斷言。以下定義形式化了這一要求。
![]()
在構(gòu)建針對 Θ 的無分布假設(shè) IM 時,由于未假定模型,似然函數(shù)(以及相應(yīng)的相對似然)不復(fù)存在。因此,無法通過公式 (1) 中的概率–可能性變換來獲得輪廓函數(shù)(contour)。然而,我們認(rèn)為第 2 節(jié)中提出的核心思想仍然適用:對一個實值函數(shù)進(jìn)行“有效化”(validification),只要該函數(shù)能夠度量 Θ 的候選值與觀測數(shù)據(jù) ? 之間的相容性,就足以用于構(gòu)建無分布假設(shè)的 IM。關(guān)鍵區(qū)別在于,在當(dāng)前設(shè)定下,該相容性函數(shù)不能再基于相對似然,而需要一種新的策略。
![]()
![]()
![]()
除了確保對所關(guān)注斷言賦予的可能性測度具有校準(zhǔn)性之外,(5) 還帶來另外兩個重要推論。首先,它意味著由 IM 輪廓函數(shù)導(dǎo)出的集合估計具有頻率學(xué)派的錯誤率控制保證。
![]()
(5) 的第二個重要推論涉及 IM 不確定性量化的整體可靠性。具體而言,它表明定理 3.1 中所推導(dǎo)的校準(zhǔn)性不僅適用于關(guān)于 Θ 的某些預(yù)先指定的斷言,而且在所有此類斷言上是一致成立的(uniformly)。關(guān)于這一點的進(jìn)一步討論將在定理陳述及證明之后給出。
定理 3.2. 無分布假設(shè) IM 的可能性測度具有一致校準(zhǔn)性,即
![]()
(6) 中的事件“存在某個滿足 ? Θ 的集合 ”可被視為所有包含 Θ 的斷言 的并集。這顯然比與任何一個固定的、包含 Θ 的集合 相關(guān)的事件要寬泛得多,這意味著 (6) 中的概率界比 (3) 中相應(yīng)的界更強(qiáng)。這種更強(qiáng)的校準(zhǔn)概念確保了:即使數(shù)據(jù)分析人員沒有遵循在數(shù)據(jù)收集之前預(yù)先設(shè)定感興趣斷言的推薦做法,而是讓數(shù)據(jù)影響其對斷言的選擇,錯誤的結(jié)論仍然能被控制在罕見的范圍內(nèi)。
為了說明上述無分布假設(shè) IM 的構(gòu)造,我們考慮兩個例子。在這兩種情況下,Z?, ..., Z? 均為獨立同分布的連續(xù)定量變量。第一個例子考察一個固定的未知量 Θ,具體指 P 的中位數(shù)。第二個例子則關(guān)注一個隨機(jī)的未知量 Θ,即 P 的下一個實現(xiàn)值 Z???。
例 1. 考慮感興趣的未知量為 P 的中位數(shù),即滿足 P(Z? ≤ Θ) = 0.5 的確切點 Θ。正如 Cella [5] 中所討論的,在此情境下,一個自然的選擇是相容性-樞軸(compatibility-pivot)為
![]()
![]()
圖1的底部面板以灰色顯示了該輪廓函數(shù),其對應(yīng)于頂部面板直方圖中所示的數(shù)據(jù)。由于 ??? 基于 ? 的中位數(shù),因此該輪廓函數(shù)在樣本中位數(shù)處達(dá)到峰值。同樣值得注意的是,在例1中推導(dǎo)出的針對分布 中位數(shù)的輪廓函數(shù)具有更高的精確度。這是合理的,因為對像 ??? 這樣的隨機(jī)量進(jìn)行不確定性量化,本質(zhì)上比對像中位數(shù)這樣的固定量進(jìn)行量化更為復(fù)雜;但請參見第4.4節(jié)。
用于條件量的無分布假設(shè)IMs
4.1 設(shè)置與目標(biāo)。在本節(jié)中,我們處理本文的核心問題:數(shù)據(jù) ? = (?, ..., ?) 由 = (, ) ? ?? × ? 的 n 個獨立同分布實現(xiàn)構(gòu)成,其中 表示協(xié)變量, 表示定量響應(yīng)變量。對 的分布 = _Y|X × _X 不做任何假設(shè)。關(guān)注點是一個與 _Y|X 相關(guān)的未知量 Θ。更具體地說,在觀測到數(shù)據(jù) ? 和一個新的協(xié)變量向量 ??? 后,所關(guān)注的未知量與分布 | ??? = ??? 相關(guān)。類似于第3節(jié),Θ 可以是隨機(jī)的(例如條件分布的下一個實現(xiàn)值 ???),也可以是固定的(例如其中位數(shù))。
為了為這些與條件分布相關(guān)的 Θ 構(gòu)建一個 IM,我們首先需要明確我們希望達(dá)成的有效性類型。觀測數(shù)據(jù)由 ? 中的 n 個協(xié)變量-響應(yīng)配對以及第 (n+1) 個協(xié)變量向量 ??? 組成。我們將此組合數(shù)據(jù)記為 ???,即 ??? = {?, ???}。以下定義指定了基于 ??? = ??? 的針對 Θ 的無分布假設(shè) IM 的輪廓函數(shù)應(yīng)滿足的理想有效性,而后續(xù)定理則概述了具有此類輪廓函數(shù)的 IM 所具備的性質(zhì)。在本節(jié)中,當(dāng) Θ 是固定時,? 表示對 ??? 取的概率;當(dāng) Θ 是隨機(jī)時,? 表示對 ??? 和 Θ 兩者取的概率。
![]()
![]()
![]()
![]()
4.2. IMs的構(gòu)建
![]()
![]()
對于 Θ 的無分布假設(shè) IM,其輪廓函數(shù)按 (12) 定義,保留了定理 4.1 中建立的所有性質(zhì)。然而,一個關(guān)鍵挑戰(zhàn)是識別一個合適的相容性-樞軸 ρ,它在所提出的構(gòu)造中起著至關(guān)重要的作用。這一挑戰(zhàn)與第 3 節(jié)中(無條件的)無分布假設(shè) IM 構(gòu)造中的挑戰(zhàn)類似。盡管特定應(yīng)用允許識別該樞軸(如下文示例所示),但一種廣泛適用的策略仍難以捉摸。事實上,此類相容性-樞軸可能并不總是存在——詳見第 5 節(jié)的進(jìn)一步討論。
4.3 用于條件預(yù)測的 IMs
![]()
![]()
作為說明,考慮圖2第一個圖中 n=200 的數(shù)據(jù)集 z?。圖中的直線代表為擬合數(shù)據(jù) z? 而選定的三次中位數(shù)回歸模型。然而,我們關(guān)注的是 Y???,而所展示的三次中位數(shù)回歸模型正是我們在上述構(gòu)造中將用作 m? 的模型。假設(shè)觀測到 X??? = 7。圖2底部的圖顯示了式 (13) 中的輪廓函數(shù)。
![]()
水平線確定了由式 (11) 導(dǎo)出的 Y??? 對應(yīng)的 95% 集合估計。
4.4 用于條件中位數(shù)的 IMs。我們現(xiàn)在將焦點轉(zhuǎn)移到一個固定的 Θ,具體而言即條件中位數(shù)。記 m(x) 為給定 X = x 時 Y 的條件分布的中位數(shù)。在給定觀測數(shù)據(jù) w??1 的情況下,目標(biāo)是為 Θ = m(x???) 構(gòu)建一個無分布假設(shè)的 IM。
為實現(xiàn)此目標(biāo),必須識別一個合適的相容性-樞軸。雖然人們可能會想從第3節(jié)中的(無條件)中位數(shù)示例中汲取靈感,但該方法在此處并不適用,原因很簡單:當(dāng) X 包含至少一個定量變量時,對于給定 X = x 的 Y 將沒有重復(fù)觀測值。在 Cella [5] 中,這一問題通過創(chuàng)建 X 的鄰域得以解決,從而能夠在對中位數(shù)函數(shù)在 x ∈ ?? 上附加連續(xù)性假設(shè)的前提下,構(gòu)建用于條件中位數(shù)的無分布假設(shè) IM。由于本文不愿假設(shè)連續(xù)性,因此必須開發(fā)一種新策略。
![]()
![]()
如果我們能獲得 i = 1, ..., n? 時的 m(X?),我們就可以直接應(yīng)用前述結(jié)果來定義我們的相容性-樞軸,并完成條件中位數(shù)的無分布假設(shè) IM 構(gòu)造。然而,這種方法在實踐中不可行,因為對于 i = 1, ..., n?,m(X?) 是不可觀測的。對于我們數(shù)據(jù)集 Z?2 中的每個 X?,唯一可獲得的量是其對應(yīng)的響應(yīng)值 Y?。于是定義:
T? = -|Y? - m?(X?)|, i = 1, ..., n?, (14)
并令 r*(M????) 表示 M???? 相對于 T?, ..., T?? 的秩。由于 T?, ..., T?? 是可計算的,確定 r*(M????) 的分布并驗證其獨立于任何未知量,使我們能夠使用此秩作為相容性-樞軸。以下引理對于推導(dǎo) r*(M????) 的分布至關(guān)重要,該分布將在后續(xù)定理中正式給出。
![]()
![]()
再次考慮圖2頂部面板中 n=200 的數(shù)據(jù)集 z?。異方差性顯而易見,因為 Y 的離散程度隨 X 變化顯著。這表明,對于給定 X 時 Y 的條件分布,中位數(shù)是一個合適的中心趨勢度量。現(xiàn)在,假設(shè) X??? = 7。為應(yīng)用上述針對 Θ = m(x???) 的無分布假設(shè) IM 構(gòu)造,我們首先將數(shù)據(jù) z? 隨機(jī)分為兩半,其中 z?1 由圖3頂部面板中的黑色數(shù)據(jù)點表示。同一圖中的直線代表為 m? 選定的三次中位數(shù)回歸模型。圖3底部面板以黑色顯示了由式 (16) 得到的輪廓函數(shù)。作為對比,Θ = Y??? 的輪廓函數(shù)以灰色顯示。重要的是要注意,這是一個不同于圖2底部面板所展示的輪廓函數(shù)。為確保公平比較,此處的輪廓函數(shù)是使用第4.3節(jié)中所述構(gòu)造的一個修正版本推導(dǎo)出來的。該方法依賴于數(shù)據(jù)分割,并利用了由式 (14) 定義的 T?, ..., T?? 的可交換性。
![]()
該輪廓函數(shù)被證明比條件中位數(shù)的輪廓函數(shù)精確得多,這與第3節(jié)中的例子形成了鮮明對比,在那些例子中觀察到的是相反的趨勢。此外,將上式右側(cè)與式 (16) 的右側(cè)進(jìn)行比較可以發(fā)現(xiàn),前者確實小于后者。關(guān)于這一點的進(jìn)一步討論見第5節(jié)。
結(jié)論
本文提出了一種新穎的無分布假設(shè)推斷模型(IMs)構(gòu)造方法,專門用于對條件量(即與給定協(xié)變量下響應(yīng)變量的條件分布相關(guān)的量)進(jìn)行可能性推理(possibilistic inference)。所提出的方法具有通用性,能夠處理隨機(jī)和固定的未知量,并且如定理 4.1 所示,其有效性可被嚴(yán)格證明。此處采用的有效性概念是邊緣性的(marginal),這與更常被討論的條件有效性(conditional validity)性質(zhì)不同,且弱于后者。在無分布假設(shè)的背景下,若不引入額外假設(shè),要在整個條件分布上實現(xiàn)逐點有效性(pointwise validity)極其困難。此外,基于 Lei 和 Wasserman [19] 等人的結(jié)果來看,似乎任何非平凡的 IM 都不可能滿足條件有效性。
本節(jié)最后提出一些評述與未來研究方向。首先,盡管我們提出的構(gòu)造方法具有廣泛的適用性,但其實施高度依賴于識別一個合適的相容性-樞軸(compatibility-pivot)。目前尚無普適策略可用于此任務(wù),這意味著每個具體問題都需單獨處理。此外,并不能保證總能找到合適的樞軸,尤其當(dāng)所關(guān)注的量受分布尾部影響時更是如此。一個自然的未來研究方向是將我們的方法應(yīng)用于其他條件量,只要在這些情形下有可能識別出相容性-樞軸。例如,用于條件中位數(shù)的方法可推廣至條件分位數(shù)。其他潛在目標(biāo)包括條件四分位距、截尾均值和比例等。還需指出的是,使用相容性-樞軸構(gòu)造無分布假設(shè) IM 并非唯一途徑;其他策略也存在,且可在幾乎不損失或完全不損失有效性的前提下加以應(yīng)用;參見 [10, 22]。
其次,針對條件中位數(shù)所提出的解決方案依賴于數(shù)據(jù)分割(data splitting),這對于近似所選相容性-樞軸的分布至關(guān)重要。然而,類似于在構(gòu)建針對 Yn+1的 IM 時可以選擇是否使用數(shù)據(jù)分割,此處所提出方法的替代版本或許能在條件中位數(shù)的情形下消除對數(shù)據(jù)分割的需求。這為未來研究提供了一個有前景的方向。
最后,我們在第 4.4 節(jié)的示例中觀察到,針對條件中位數(shù)所提出的 IM 比針對 Yn+1的 IM 效率更低,這初看似乎違反直覺,可能暗示我們的方法并非最優(yōu)。一方面,需注意我們的解決方案依賴于所選相容性-樞軸真實分布函數(shù)的一個上界,因此確實存在改進(jìn)空間。另一方面,Medarametla 和 Candès [25] 已證明:以概率 1?α/2包含 Yn+1的置信區(qū)間,必然以概率 1?α包含條件中位數(shù)。這表明我們在示例中觀察到的現(xiàn)象并非完全出乎意料。這些發(fā)現(xiàn)將在不精確概率(imprecise probabilities)的框架下進(jìn)一步探索,并在本文的后續(xù)擴(kuò)展中予以報告。
原文鏈接:https://proceedings.mlr.press/v290/cella25a.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.