The typicality principle and its implications for statistics and data science
典型性原則及其對統計學與數據科學的啟示
https://arxiv.org/pdf/2501.14860
![]()
![]()
摘要
數據科學的一個核心焦點是將經驗證據轉化為知識。因此,費希爾(Fisher)、波普爾(Popper)和圖基(Tukey)等深刻思想家的關鍵洞見與科學態度,有望在未來激勵機器學習與人工智能領域取得令人振奮的新進展。沿著這一思路,本文提出了一種新穎的“典型性原則”(typicality principle),其大意是:如果觀測到的數據在某種意義上相對于某個所提出的理論而言足夠“非典型”(atypical),那么該理論就是不成立的。對典型性的強調,將模型檢驗(model-checking)等熟悉但常被忽視的背景概念推到了推斷過程的前臺。典型性原則的一個具體應用體現在參數估計中:我們提出了一種新的、基于典型性的正則化策略,該策略高度依賴于擬合優度檢驗(goodness-of-fit testing)。我們在三個非平凡的例子中展示了這種新正則化策略的有效性——在這些例子中,普通的最大似然估計(maximum likelihood estimation)表現極差。我們還進一步闡明了典型性原則如何融入更宏大的可靠且高效不確定性量化(uncertainty quantification)框架之中。
關鍵詞與短語:證偽;擬合優度;推斷模型;似然;模型檢驗;預測。
1 引言
數據科學已吸引了來自科學、商業、政府等所有領域研究者與從業者的廣泛關注。與統計學類似,數據科學作為一門學科,主要關注將經驗證據轉化為關于我們世界的知識,這屬于歸納邏輯(inductive logic)的范疇:
“在歸納推理中,我們正在執行新知識創造過程的一部分。隨著納入更多數據,所得結論通常會變得越來越準確。”(Fisher, 1935b, 第54頁)
盡管統計學擁有長達百年的先發優勢,但數據科學可以說已經超越了它,成為應用歸納邏輯領域的引領者。從統計學到數據科學的這一轉變,遠不止是術語上的更替;它反映了我們在處理推斷、預測和決策問題時方法論的演進,這種演進汲取了機器學習、人工智能及其他領域的工具與洞見。隨著數據科學的持續發展,它必將激勵——同時也被激勵于——費希爾(Fisher)、卡爾·波普爾(Karl Popper)和約翰·圖基(John Tukey)等深刻思想家所倡導的那些具有奠基意義的工作。
現代數據集固有的復雜性意味著存在多種不確定性與模糊性來源,使得數據分析及其隨之而來的歸納論證變得高度非平凡。因此,認識論(epistemology)的洞見密切相關,而其中占主導地位的思想流派是波普爾在《科學發現的邏輯》中所闡述的證偽主義(falsificationism)。他的核心洞見在于:在一系列對相關理論進行嚴格檢驗的實驗中,那些經受住這種審視的理論便“證明了自己的價值”(Popper 1959, 第10頁)——這是任何理論被稱為“非假”(not-false)的必要但非充分條件。只有在極限意義上,即隨著檢驗次數或嚴格程度的不斷增加,一個理論才能獲得“非假”的地位。現代經驗科學面臨的一個挑戰(這在哲學文本中常以“所有天鵝都是白色的”這類例子出現的情形中并不存在)是:經驗數據在邏輯上無法與任何合理的理論構成直接矛盾,因此在進行推斷時必然存在不確定性。這就要求對上述不確定性進行可靠量化,而這正是本文貢獻的核心所在。
證偽主義視角背后的理解是:實驗通常會產生典型的數據,即看起來與現實世界中所預期的一致。因此,如果觀測到的數據相對于某個提出的理論而言是非典型的——即看起來與該理論所預期的足夠不同——那么就有理由認為該理論已被證偽。這就是我們所提出的“典型性原則”(typicality principle)的基本形式。但“數據看起來像預期的那樣”究竟意味著什么?
通常,人們將模型的似然函數解釋為衡量其對觀測數據擬合質量的指標,并進而通過似然值的大小來判斷數據是否“看起來像預期的那樣”。似然律(law of likelihood,例如 Edwards 1992;Hacking 1976)對此進行了形式化。然而,在某些情況下,似然函數可能因某種退化(degeneracy)而變得很大,并非因為數據真的“看起來像”該理論所預期的那樣。這揭示了以似然為中心的歸納推理方法的缺陷,也表明我們需要新的視角。常見的正則化策略僅依賴于所提出的理論本身——例如,懲罰那些與假設的“稀疏性”不兼容的理論——而不依賴于數據本身,因此無法單獨修復上述缺陷。相比之下,我們的典型性概念關注的是非參數意義上的擬合優度(goodness-of-fit),而非基于參數模型、以高似然值為標準的擬合。本文所推進的典型性原則,受到圖基關于模型構建與檢驗的深刻洞見的啟發(Tukey 1962, 1977)。雖然哲學原則往往是“自上而下”的(即由更高權威下達的指令),但圖基式的哲學卻是“自下而上”的(例如 Dempster 2002;Tukey 1986),因而本質上契合波普爾的精神。的確,在模型構建中,沒有任何候選模型是“天賜”的,一個模型的價值必須通過令人滿意地解釋觀測數據中的變異性來贏得。我們所提出的典型性原則旨在以此為基礎,拓展至正則化估計及其他領域。
基于典型性原則,本文主要的方法論創新是一種新型的、聚焦于典型性的正則化策略。更具體地說,我們建議采用熟悉的懲罰似然框架,但加以調整:不再懲罰那些與先驗知識不兼容的理論,而是懲罰那些會導致數據被判定為“非典型”的理論,從而確保我們所導出的程序能夠獎勵那些對數據擬合良好的理論,有助于解釋并提升效率。我們通過將該典型性聚焦的正則化方法應用于若干歷史上在統計學基礎中引發爭議的難題,來評估其性能。結果表明,該方法在點估計和更廣泛的不確定性量化方面均表現出高效性,凸顯了其解決統計科學中一些最深層未決問題的潛力。除了實際應用價值外,我們還深入探討了典型性原則的理論基礎,揭示了它與其他熟悉統計原則之間的聯系(或缺乏聯系)。這些聯系強調了典型性的更廣泛重要性——它不僅是一種方法論工具,更是一座連接統計推理各個方面的概念橋梁。通過將典型性原則置于這一豐富的理論與應用背景之中,本文為未來在數據科學及其他領域探索其含義奠定了基礎。
本文其余部分結構如下:第2節設定討論的背景,并介紹一些關鍵概念與符號。第3節引入典型性原則的第一個基本版本,此處的討論聚焦于統計直覺與哲學考量。在參數估計的背景下,典型性原則的一個具體實現形式即為我們提出的新型典型性正則化策略,該策略也在本節中詳細闡述。第4節在三個非平凡且充滿悖論的例子中考察所提典型性正則化策略的性能:勒康(Le Cam)提出的混合模型、奈曼–斯科特(Neyman–Scott)問題,以及斯坦(Stein)均值向量長度問題。這三個例子中所面臨的挑戰在現代數據科學應用中同樣常見(例如存在過擬合風險),因此本文的貢獻超出了此處所考慮的簡單參數模型范疇。第5節進一步深入,提出一個形式化的典型性原則,并展示其如何融入一個更一般的框架,該框架能在點估計、假設檢驗等之外提供可證明可靠的不確定性量化。本節還探討了該原則與其他統計原則的聯系,并通過一個數值示例展示了所提框架在具有挑戰性的邊際推斷問題中的有效性與效率。第6節以若干評述作結。
2 問題設定
![]()
![]()
3 典型性原
在此,我們采納波普爾的證偽主義觀點,即:關于不確定參數 Θ 的假設 H 無法基于數據 x 被直接證實或確認,而只能根據 H 的真實性與數據 x 是否存在足夠矛盾來決定是否予以駁斥。重要的是,證偽主義實際上是我們唯一可行的選擇:若采用對立的卡爾納普–杰弗里斯–杰恩斯式(Carnapian–Jeffreysian–Jaynesian)確證主義觀點(例如 Carnap 1962;Jaynes 2003;Jeffreys 1998),要在科學和數學上嚴格地實施,就必須擁有一個真實的先驗概率分布并應用貝葉斯定理,而這在我們假定先驗信息為空(vacuous prior information)的情況下是無法實現的。
如第1節所述,我們的證偽主義視角提示我們應制定一種策略,用以評估數據 x 相對于關于 Θ 的某個給定假設 H 是否“典型”——如果典型,又是在何種意義上、在多大程度上典型。一旦有了這樣的評估,推斷至少在概念上就是直接明了的。
我們從一個非正式且直觀的表述開始,闡述這一核心原則,該表述聚焦于簡單的單點假設。即使這個直觀版本在點估計問題上也具有重要含義。更形式化的表述見第5節。
![]()
作者堅信,只有當處理的是極端正則分布族時,采用最大似然法才是合理的。那些[最大似然]估計量易于獲得并被證明具有良好性質的情形極為有限。
后來,在他的著作中(Le Cam 1986),
“似然”和“最大似然”這兩個術語似乎由 R.A. 費希爾引入,他似乎也應對大量關于最大似然方法優越性的宣傳負主要責任……鑒于費希爾的巨大影響力,人們仍以近乎宗教般的狂熱推崇該方法的所謂優越性,或許并不令人意外。盡管已有大量證據表明最大似然估計常常無用甚至嚴重誤導,這種狀況依然持續存在。
第4節將展示凸顯最大似然估計量不足之處的具體例子。勒卡姆此處的觀點只是:最大似然法在某些情況下表現良好,但在其他情況下則不然。一種估計量在某些情況下有效、在其他情況下無效,本身并不構成基礎性擔憂。然而,如果一個核心原則——最大似然原則——自身不可靠,那么這就構成了嚴重的根本性問題:如果我們沒有可靠的原則,數據科學就不是一門科學。典型性原則旨在填補這一信任缺口。
![]()
我們提出的典型性原則實現方式是通過正則化。這將以似然函數為基礎,因為在常規情況下這種方法是高效的;但我們所提出的正則化方式在某些重要方面不同于數據科學文獻中的常見做法。具體而言,考慮目標函數
![]()
![]()
![]()
![]()
Kolmogorov–Smirnov 檢驗所對應的 p 值。有關 Kolmogorov–Smirnov p 值用于評估我們此處所稱的“典型性”的更多內容,請參見 Liu (2023) 和 Jiang and Liu (2025)。然而,在某些特殊情況下,可能存在其他更簡單的擬合優度評估方法。例如,在高斯模型中,若“殘差平方和”預期服從合適的卡方分布,則可利用該卡方檢驗對應的 p 值來構造懲罰函數;參見第4.2節。第4節中的例子突顯了懲罰項(2)如何帶來理想的正則化效果,從而修正最大似然估計量在足夠非正則模型中存在的系統性偏差。
4 示例:非正則估計
在本節中,我們考慮三個值得注意的涉及“非正則”模型的例子。這些模型共享的一個關鍵特征是:與 Θ 的相關特征相關的似然函數偏離目標,以至于最大似然估計量變得無意義或至少不一致。盡管下面的例子相對簡單,但這種非正則性意味著它們在某些方面與現代應用中涉及復雜、高維模型的情形有共同之處。此處,我們將上述(1)式中的通用典型性鼓勵型正則化策略應用于這些例子。
4.1 勒卡姆混合模型
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
4.2 奈曼–斯科特問題
![]()
![]()
![]()
![]()
4.3 斯坦的均值向量長度
考慮一個經典問題:其中 X 是一個 n 維正態隨機向量,其均值向量 Θ 未知,協方差矩陣為單位矩陣。無論維度如何,對均值本身的推斷是相同的;但假設我們感興趣的量是 Φ = ∥ Θ ∥
,即均值向量的歐幾里得長度。對 Φ 的推斷被證明是一個非平凡的問題,正如 Stein (1956, 1959) 所指出的,該問題也被 Fraser 等人 (2018) 列為已故 D.R. Cox 爵士提出的“挑戰性問題”之一。
![]()
![]()
![]()
![]()
![]()
![]()
5 可靠的不確定性量化
5.1 典型性原則,再審視
當然,統計學與數據科學的意義遠不止于點估計;事實上,典型性原則的影響超越了第3節中所討論的重要但相對狹窄的點估計背景。我們首先討論將我們的直接且具體的“典型性”關注點與其他先前方法相比的重要性與新穎性。
![]()
![]()
頻率主義證據原則(Frequentist Principle of Evidence):從數據中得出推斷,需要考慮與底層數據生成過程相關的相關錯誤概率(Mayo 2014)。
奈曼的頻率主義止步于典型性原則的直觀版本:
- 指定一個檢驗統計量、一個顯著性水平和一個拒絕域,使得如果假設 H H 為真,則事件“檢驗統計量落入拒絕域”的(錯誤)概率不超過所設定的顯著性水平;
- 如果基于數據 x x 計算的檢驗統計量落入所設定的拒絕域,則稱數據 x x 相對于 H H 足夠非典型。
也就是說,純粹的頻率主義者并不試圖量化給定數據 x x 下假設 H H 為真的不確定性——他們滿足于一個控制錯誤概率的決策規則。尋求貝葉斯–頻率主義“圣杯”的嘗試更進一步,通過構建依賴于數據的支持度或信念/置信度測度來衡量假設 H H 為真的程度,并保持與 Mayo 的頻率主義證據原則一致。這些嘗試包括默認先驗貝葉斯推斷(如 Berger et al. 2009; Datta and Ghosh 1995; Jeffreys 1946)、費希爾的可信推斷(如 Fisher 1933, 1935a; Zabell 1992)及其推廣(如 Fraser 1968; Hannig et al. 2016; Xie and Singh 2013)、Dempster–Shafer 理論(如 Dempster 1966, 2008; Shafer 1976, 1982),以及推斷模型(如 Martin 2015, 2021a, 2024; Martin and Liu 2013, 2015a)。這些方法的一個共同點是,至少在表面上,它們未能認識到“典型性”是唯一基本的概念;這種缺失造成了混淆并阻礙了進展。通過將典型性置于核心位置,我們能夠澄清這種混亂。特別地,我們將展示哪些性質與典型性測度一致,進而揭示獲得可靠且有原則的未知量不確定性量化的“圣杯”需要什么。
為了幫助引導我們的探索,我們首先給出第3節中非正式表述的典型性原則的正式對應版本。隨后,我們將澄清形式化陳述中引入的若干術語和概念。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
5.2 將原則付諸實踐
![]()
![]()
![]()
實現所提出的框架要求我們能夠評估式(7)中定義的等高線。接下來我們將描述一種簡單且易于解釋的方法,該方法對于涉及低維參數的大多數問題已足夠有效。固定一個參數 θ θ 到典型性等高線上,然后將式(7)近似為
![]()
其中,中抽取的獨立數據副本, m = 1 , … , M 。在實際應用中,上述方法可能過于昂貴。事實上,在中等至高維問題中,要在參數空間相關部分覆蓋足夠密集的網格上評估等高線,需要巨大的計算投入。雖然可以進行各種調整,例如使用重要性抽樣來減輕生成如此多樣本集的負擔,但這些改進的效果有限。因此,近期的研究重點轉向開發新的策略,以模仿貝葉斯所使用的蒙特卡洛方法,即:從一個“后驗分布”中抽取參數值樣本(而非新數據集),從而更好地控制維度災難。這些細節超出了本文的范圍,但感興趣的讀者可參閱 Jiang et al. (2023) 和 Martin (2025)。
5.3 與其他統計原則的關系
最廣為人知的統計原則是似然原則(likelihood principle)(例如 Basu 1975;Berger and Wolpert 1984;Birnbaum 1962),該原則指出:數據中與參數 Θ 推斷相關的一切信息,都包含在似然函數的形狀之中。這乍看之下似乎直觀且無害,因為常用的極大似然估計量和似然比統計量確實僅依賴于似然函數的形狀。然而,仔細審視便會發現,我們通常對這些摘要所做的操作——例如 p 值的計算——依賴于所設定模型下的抽樣分布;而抽樣分布并非由觀測到的似然函數所決定,因此基于這些方法的推斷違反了似然原則。單就這一違反本身而言或許無關緊要,但 Birnbaum 定理聲稱似然原則等價于更符合常識的充分性原則(sufficiency principle)與條件性原則(conditionality principle)的聯合;因此,違反似然原則就意味著至少違反了其中一個常識性原則,從而引發了爭議。不過,自 Durbin(1970)早期起,以及近期 Evans(2013)和 Mayo(2014)的研究中,對 Birnbaum 定理適用范圍的合理質疑進一步加劇了這場爭論。
![]()
![]()
![]()
如果我們確實不知道抽樣模型(或停止規則),那么(10)中的修改是合理的。如果我們對所設定的抽樣模型(或停止規則)有信心,則無需為了滿足似然原則而犧牲效率;這正是我們對于提案違反似然原則“毫無歉意”的原因。在兩個極端之間存在一個中間地帶,例如,我們知道實際使用的是所有可能停止規則的一個適當子集,有關如何實現這一點的細節,我們請讀者參閱 Martin (2024)。
![]()
![]()
5.4 斯坦的均值向量長度(再論)
為了說明第5節所述的更廣泛、由典型性驅動的不確定性量化策略,我們再次回顧第4.3節中斯坦的正態均值向量長度例子。
![]()
![]()
![]()
6 結論
受波普爾與圖基深刻哲學思考與科學態度的啟發,本文提出了一種新的典型性原則,該原則對統計學與數據科學在方法論和基礎層面均具有多重意義。
首先,在方法論層面,典型性原則直接引出了一種在參數估計背景下全新的正則化策略。具體而言,不同于將估計量向估計目標中假定的結構(例如“稀疏性”)收縮,我們基于典型性的關注點強調擬合優度,以確保觀測數據在所擬合模型下呈現“典型”特征。文中展示了三個非平凡且具說明性的例子:在這些例子中,最大似然方法表現極差,而我們所提出的典型性聚焦正則化策略則展現出令人滿意甚至優越的性能。
其次,在基礎理論層面,典型性原則的一個更形式化的版本可自然地融入一般的推斷模型(inferential model)框架之中,從而為超越點估計、假設檢驗等任務的不確定性量化提供可證明可靠的保障。這種更廣泛的不確定性量化框架能夠方便地容納馮·諾依曼–摩根斯坦(von Neumann and Morganstern)式的決策制定及其他形式化推斷——其功能類似于貝葉斯方法,但無需依賴先驗分布,同時不犧牲對錯誤率控制的保證。
更一般地,我們相信,所提出的典型性原則的各種實現方式將有益于數據科學的發展,因為自動化應用預計將在人工智能等領域的進步中發揮關鍵作用。盡管本文聚焦于基于模型的推斷,但“典型性”這一概念本身與擬合優度考量緊密相連,因此我們完全有理由預期,典型性原則及其衍生方法論不僅會影響推斷,也將對科學建模產生深遠影響。
典型性原則及其所衍生的各類方法論仍有待進一步的理論與應用研究。在應用方面,現代數據科學問題常涉及復雜模型,若無某種正則化策略的引導,極易發生過擬合;正是這種過擬合傾向,導致了第4節所示例中最大似然估計量的糟糕表現。因此,本文一個自然的后續工作,便是考察所提出的典型性正則化策略在一類現代數據科學問題中的表現,這些問題涉及深度神經網絡(deepnets)、Transformer 等復雜且過參數化的模型(Vaswani et al. 2017)。此外,將我們提出的方法與其他先進方法(如知識蒸餾,參見 Hinton et al. 2015;Jiang and Liu 2025)進行比較也將十分有趣。
另一個重要的實踐問題是:如何設定式(1)中的調優參數 λ?盡管目前已有大量標準化的調參策略,但一個相關的問題是:我們基于典型性的懲罰項具有內在的數據依賴性,這是否需要引入新的調參考量?畢竟,與常見的鼓勵稀疏性的懲罰項不同,p 值具有明確的尺度意義,因此可能需要新的思路來平衡此類懲罰項與似然函數之間的貢獻。
在理論方面,所提出的典型性正則化最大似然估計量(以及第5節中發展的更廣泛不確定性量化方法)在有限樣本和大樣本下的效率性質,目前仍是完全開放的研究課題。盡管如此,在必要時,傳統的稀疏性懲罰項也可輕松納入,形成一種混合正則化方法。
與我們所提出的統計原則相一致,并受到其他深刻哲學思考的驅動,近期已有研究致力于提升人工智能的創造力與可信度(例如 Eschker and Liu 2024)。當前的一大挑戰在于,如何理解這些(以及其他)哲學進展如何幫助完善當今最前沿的方法,并激發突破現代邊界的全新發展。同樣重要的是,這些哲學貢獻應體現圖基那種“親自動手、面向應用”的“自下而上”風格,而非由象牙塔中發出的“自上而下”、束縛手腳的教條式指令。
原文鏈接:https://arxiv.org/pdf/2501.14860
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.