<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      使用Jeffreys先驗的元分析:經驗頻率學派性質

      0
      分享至

      Meta-analysis with Jeffreys priors: Empirical frequentist properties

      使用Jeffreys先驗的元分析:經驗頻率學派性質

      https://www.cambridge.org/core/services/aop-cambridge-core/content/view/B6F787E5BBF8049D473AB896C65ADB39/S1759287924000024a.pdf/meta-analysis-with-jeffreys-priors-empirical-frequentist-properties.pdf


      關鍵詞:元分析;貝葉斯;模擬研究;Firth校正;貝葉斯方法;小樣本估計;模擬

      摘 要

      在小型元分析(例如,最多包含20項研究)中,表現最佳的頻率學派方法可能對元分析均值產生非常寬的置信區間,同時對異質性參數的估計也存在偏差且不夠精確。我們考察了采用不變杰弗里斯先驗(Jeffreys prior)的替代性貝葉斯方法的頻率學派性質。該先驗具有通常的貝葉斯動機,但也具有純粹的頻率學派動機:由此得到的后驗眾數對應于最大似然估計量中已確立的Firth偏差校正。我們考慮了用于隨機效應元分析的兩種形式的杰弗里斯先驗:“Jeffreys1”先驗將異質性視為干擾參數,而“Jeffreys2”先驗則將均值和異質性都視為感興趣的待估參數。在一項大規模模擬研究中,我們評估了這兩種杰弗里斯先驗的表現,考察了不同類型的貝葉斯點估計和區間估計。我們對均值和異質性參數的點估計與區間估計進行了評估,并與表現最佳的頻率學派方法進行了比較。對于二分類結局的小型元分析,Jeffreys2先驗在均值參數的點估計和區間估計方面可能優于標準頻率學派方法。在此類情形下,Jeffreys2先驗能顯著提高估計效率,同時更常實現名義上的頻率學派覆蓋概率。然而,對于連續結局的小型元分析,標準頻率學派方法似乎仍是最佳選擇。異質性參數估計的最佳方法則隨異質性本身的大小而變化。R?ver與Friede開發的R軟件包bayesmeta實現了上述兩種杰弗里斯先驗。我們還將Jeffreys2先驗推廣至元回歸的情形。

      亮點
      ? 已有認知:在小型元分析中,表現最佳的隨機效應元分析頻率學派方法可能高度不精確,并對異質性提供有偏估計。
      ? 本文新貢獻:我們開展了一項大規模模擬研究,評估了兩種形式的杰弗里斯先驗在元分析中的表現,這兩種先驗對應于最大似然估計量的Firth偏差校正。
      ? 對RSM讀者的潛在影響:對于二分類結局的小型元分析,Jeffreys2先驗在均值參數的點估計和區間估計方面可能優于標準頻率學派方法。


      1. 標準的隨機效應元分析包括估計各項研究總體效應(例如,其標準差)的異質性,并獲得一個基于倒方差加權的元分析均值估計,其中各項研究的權重取決于所估計的異質性。1 常用的異質性估計方法包括半參數的矩法估計量1??和參數化的基于似然的估計量。1,? 這些方法的理論依據依賴于大樣本漸近性質,然而在某些科學領域中,大多數元分析僅包含相對較少數量的研究。例如,《Cochrane系統評價數據庫》中關于醫療干預措施的元分析,其研究數量的中位數僅為3項(第75百分位數:6;第90百分位數:10)。? 在心理學領域,《Psychological Bulletin》上發表的元分析包含的研究數量中位數為12項,盡管有些元分析規模要大得多(第75百分位數:33;第90百分位數:76)。?,?

      一方面,先前的模擬研究表明,即使在非常小的元分析中(此處定義為包含 ≤ 5 項研究),許多現有方法仍能為元分析均值(記為 μ)提供幾乎無偏的點估計。1? 另一方面,基于漸近正態性(例如,Wald 區間)構建的置信區間在小型元分析(≤ 20 項研究)中可能達不到名義覆蓋水平,且在極小型元分析中覆蓋水平會進一步下降。?,11,12 使用 Hartung–Knapp–Sidik–Jonkman (HKSJ) 方法調整標準誤13,1? 可在許多情境下提供校準更好的區間,但現有的模擬研究對這些區間是否始終能達到名義覆蓋水平得出了不一致的結果。?,11,12,1??1? 此外,對于典型樣本量的元分析,此類區間可能極其寬泛。1??1? 例如,即使真實異質性為零,在包含 5 項研究的模擬元分析中,采用 HKSJ 標準誤的矩法估計量產生的 95% 置信區間平均寬度約為 4–5。1? 這表明,若標準化均值差異尺度上的點估計為 0.5,則典型的置信區間大約為 [?1.5, 2.5],其寬度如此之大,以至于可能被認為缺乏信息量。此外,異質性的標準點估計在小型元分析中可能具有顯著偏差且不夠精確。?,11 許多關于異質性估計的現有模擬研究似乎并未評估異質性參數置信區間的覆蓋概率或寬度11(但參見 Viechtbauer (2007)1?)。

      本文中,我們考察了使用不變杰弗里斯先驗的替代性貝葉斯方法的頻率學派表現。2? 通常,貝葉斯估計通過指定未知參數的先驗分布,并根據觀測數據獲得這些參數的后驗分布來進行。21 這本質上涉及根據觀測數據的似然函數更新先驗分布。21 對于具有未知參數 Ψ 和期望費舍爾信息量 I(Ψ) 的任意分布,杰弗里斯先驗與 √det I(Ψ) 成正比。2? 該先驗最初的動機在于其對參數變換的不變性,2? 這一性質并非所有先驗都具備。22,23,i 例如,令 τ 表示各項研究總體效應的標準差,則 (μ, τ) 上的杰弗里斯先驗與 (μ, τ2) 上的杰弗里斯先驗相同,因此所得的后驗估計和區間將不依賴于分析者對參數化的任意選擇。這一理想的性質促使一些人將杰弗里斯先驗描述為“無信息先驗”,盡管我們同意其他人對此術語的批評。2?,2?

      杰弗里斯先驗一個有趣且被低估的特性是:其后驗分布也可從純粹的頻率學派視角進行解釋。2? 特別地,眾所周知,最大似然(ML)估計存在 O(n?1) 階偏差,這主要源于得分函數的曲率。2? Firth (1993)2? 證明,對于指數族分布,施加適當懲罰以校正此偏差的似然函數,恰好等同于在杰弗里斯先驗下的估計。這本質上是因為杰弗里斯先驗在得分函數中引入了一個偏差,從而補償了由其曲率導致的偏差。2? 具體而言,在該先驗下的后驗眾數可從頻率學派角度視為經過偏差校正的 ML 估計;因此,杰弗里斯先驗下的后驗眾數有時被稱為“Firth 校正”。Firth 校正在多個頻率學派估計問題中已顯示出成功應用,并常用于邏輯回歸。2??2?

      鑒于杰弗里斯先驗作為小樣本中偏差校正方法的有效性,將其應用于小型元分析以改進點估計和區間估計似乎是合理的。Bodnar 等人(2016, 2017)1?,3? 推導了僅針對異質性 τ 的杰弗里斯先驗(即保持均值 μ 不變),如果 τ 嚴格被視為干擾參數,這種方法可能是最優的。2? 他們的模擬研究表明,結合對 μ 的獨立平坦先驗,所得的可信區間可能比現有的頻率學派方法具有更好的頻率學派覆蓋性能。1? 我們將這種先驗稱為“Jeffreys1”,因為它是針對單個參數的先驗。Kosmidis 等人(2017)31 獨立推導出一種懲罰似然校正方法,其等價于僅針對 μ 的單參數杰弗里斯先驗;也就是說,將 μ 而非 τ 視為干擾參數。這種懲罰與 τ 的受限最大似然(REML)估計密切相關。31

      在本文中,我們同時考慮 Jeffreys1 先驗以及針對 μ 和 τ 的雙參數杰弗里斯先驗。據我們所知,后者尚未出現在已發表的元分析文獻中。我們將后者稱為“Jeffreys2”,原因有三。首先,雖然在元分析中均值參數通常是主要關注對象,但異質性也應通常被估計并報告,因此將 τ 視為干擾參數可能并非最優。32 第二,在其他小樣本估計問題中,包含尺度參數(例如指數族模型中的離散參數)的多參數杰弗里斯先驗已被提出,并表現出良好的經驗性質。2?,2?,33 (我們將在第 3.3 節中重新討論此問題。)在通過元分析截斷部分隨機效應分布來調整 p 值挖掘的背景下,我們最近發現,對 μ 和 τ 使用杰弗里斯先驗的表現明顯優于 ML,而 ML 在截斷分布情形下通常表現極差。2?,3? 第三,正如我們將要討論的,Jeffreys2 先驗的形狀表明它可能比 Jeffreys1 先驗提供更精確的區間。Jeffreys2 可信區間是否能實現名義頻率學派覆蓋,以及對 μ 和 τ 的點估計表現如何,仍是開放性問題。

      以往關于元分析中杰弗里斯先驗的模擬研究提供了有希望的初步結果,但也存在局限性。這些模擬僅研究了 Jeffreys1 先驗,而非 Jeffreys2,并且僅考慮了 μ 的點估計和區間估計,而未考慮 τ。1? 在本文中,我們開展了一項模擬研究,比較在 Jeffreys1 和 Jeffreys2 先驗下,μ 和 τ 的點估計與區間估計的頻率學派性質,同時也比較了幾種表現最佳的頻率學派方法。我們采用的模擬設計緊密參照 Langan 等人(2019)? 最近的一項廣泛模擬研究,并大幅擴展了此前 Jeffreys1 先驗模擬研究所使用的比較方法和模擬場景范圍。此前關于 Jeffreys1 先驗的模擬僅考慮了后驗均值作為點估計,1? 而上述偏差校正性質則專門適用于后驗眾數。這對 τ 的點估計尤其重要,因為其后驗分布高度不對稱。因此,我們考慮三種類型的貝葉斯點估計(后驗眾數、均值和中位數)以及兩種類型的可信區間(中心區間和最短區間)。我們的模擬包括 Langan 等人(2019)? 模擬研究中表現最佳的方法,以及若干其他理論性質表明其可能同樣表現良好的方法,例如精確區間1? 和基于輪廓似然的區間。?

      本文結構如下:我們簡要回顧了現有的用于隨機效應元分析的矩法估計量和基于似然的估計量(第2節),這些方法在其他文獻中已有更詳細的論述。?,1?,3? 我們還簡要回顧了關于這些方法的現有模擬研究結果(第2.4節)。我們回顧了已確立的Jeffreys1先驗形式1?,并推導出Jeffreys2先驗的形式;隨后討論了在這兩種先驗下的后驗估計(第3節)。我們展示了模擬研究的結果(第4節)和一個簡短的應用實例(第5節),最后以總體討論作結。

      1. 現有的頻率學派方法

      2.1. 矩法估計量

      元分析中的矩法估計量屬于半參數方法;它們僅需指定總體效應分布的前兩個矩,即 μ 和 τ2。由于這些方法無需指定更高階矩,因此不需要假設總體效應服從正態分布。具體而言,考慮 k 項研究,其總體效應 μ? 的期望為 μ,方差為 τ2。這兩個矩正是通常在元分析中感興趣的待估參數。令 θ?? 和 σ? 分別表示第 i 項研究的點估計值和標準誤,且近似滿足 θ?? ~ N(μ?, σ?2)。

      對于給定的異質性方差估計值 τ?2,θ?? 的估計邊際方差為 τ?2 + σ?2。μ 的一致最小方差無偏估計量(UMVUE)通過對各研究按其估計邊際方差的倒數加權得到,記作 w? = 1 / (τ?2 + σ?2):


      各種矩法估計量的區別在于它們對 τ2 的估計方式,從而導致權重 w? 的形式不同。關于這些方法的詳細綜述和原始文獻均有發表,因此此處我們僅作簡要總結。τ2 的矩法估計量基于廣義 Q 統計量:

      Q = Σ???? a?(θ?? ? μ?)2, (1)

      其中,系數 a? 的形式在不同的矩法估計量之間有所不同。例如,傳統的 DerSimonian–Laird 估計量(DL)1 設定 a? = 1/σ?2。兩步法 DL 估計量(DL2)2 則設定 a? = 1/(τ?2_DL + σ?2),其中 τ?2_DL 是通過 DL 估計量獲得的初始估計值。Paule–Mandel(PM)3,? 估計量可視為 DL2 的一個極限情形,涉及對 μ? 和 τ?2 的估計值進行迭代直至收斂。該估計量也等價于經驗貝葉斯估計量。? 一般而言,經驗貝葉斯估計利用觀測數據來估計貝葉斯先驗參數,而非獨立于數據預先指定先驗。21 在元分析的背景下,經驗貝葉斯估計本質上是通過后驗均值來估計總體效應的分布,其先驗由數據經驗確定。?

      2.2. 基于似然的估計量


      τ 的標準最大似然(ML)估計量通常通過求解 ?/?τ log p(θ? | μ, τ) = 0 得到,其解依賴于 μ。? 由于該估計量未考慮因額外估計 μ 本身而導致的自由度損失,所得估計值通常存在負偏差。? 這一問題促使了限制性最大似然(REML)估計法的產生,該方法通過變換對數似然函數以消除參數 μ,從而改進 ML 估計。?

      2.3. 區間估計

      一個簡單的 Wald 置信區間可以通過假設 μ? 服從正態分布獲得,根據標準 ML 性質,當研究數量 k 趨于無窮大時,該假設漸近成立。如果權重 w? 被視為已知而非被估計,則有 Var(μ?) = 1 / Σ???? w?。一個 Wald 95% 置信區間為:


      其中,c = Φ?1(0.975) ≈ 1.96 是標準正態分布的臨界值。然而,Wald 區間在小型元分析中表現出顯著的覆蓋不足,這既是因為正態近似僅在漸近意義上成立,也是因為近似式 Var(μ?) = 1 / Σ???? w? 未考慮對 τ2 的估計。?,11,12 Wald 區間也可用于 τ?,但同樣表現不佳。1? 因此,我們不再進一步討論 Wald 區間,而是轉而關注下文所述表現更優的替代方法。

      關于 μ 的區間估計,替代性的 HKSJ 方法(有時也稱為“Knapp–Hartung”方法)解決了 Wald 區間的局限性。13,1? 該方法更靈活地假設 μ? 服從 t 分布,并額外對 Var(μ?) 進行重新縮放,以考慮權重 w? 中 τ2 的估計影響:


      對于 τ,可利用 Q 統計量的卡方分布(見公式 (1))1? 構建改進的置信區間。這些“Q-剖面”區間的表現顯著優于 Wald 區間。1? 對于 μ 和 τ,ML 剖面區間也可按常規方式構建。?

      一種有趣且相對較新的方法提供的是精確區間而非漸近區間,并在假設總體效應服從正態分布的前提下,理論上保證提供超過名義覆蓋水平的性能。1? 該方法本質上涉及對精確檢驗進行反演。其他參數化方法則對似然比檢驗統計量提供小樣本校正;這些方法包括 Skovgaard 的二階校正和 Bartlett 校正。3???? 這些方法可改進基礎似然方法在假設檢驗中的表現,?? 但 Skovgaard 的二階校正并非為區間估計而設計,在此情境下數值上可能不穩定。31 使用 Bartlett 校正進行區間估計是可行的,?1 但在現有軟件中并未實現(I. Visser, 個人通訊,2024 年 7 月 8 日)。?2,?3 由于我們的關注點在于區間估計而非假設檢驗,因此我們的模擬未包含 Skovgaard 或 Bartlett 校正。最后,各種參數化或非參數重抽樣方法可用于獲得自助法置信區間。1?,?3,?? 非參數重抽樣可通過有放回地重抽樣行數據實現,之后可獲得簡單的百分位自助法區間,或偏差校正并加速(BCa)區間等多種類型的自助法區間。??,?? BCa 置信區間可校正自助抽樣分布中的偏差與偏度,我們推測這在估計 τ 的抽樣分布時可能有所幫助。BCa 自助法在某些依賴于 τ? 的元分析估計量中表現相對良好。?? 然而,自助法是一種漸近方法,其小樣本表現通常需通過模擬評估。

      2.4. 現有對這些方法的模擬比較

      Langan 等人(2017)11 對不同異質性估計量的模擬研究進行了出色的系統綜述。? 簡言之,當異質性為中等至較高水平時,DerSimonian–Laird(DL)估計量對 τ 的估計存在負偏倚,而 Paule–Mandel(PM)估計量通常偏倚較小。11 所綜述的研究似乎并未評估 τ 的區間估計。基于他們自己更廣泛的模擬研究,Langan 等人(2019)? 通常推薦使用 REML、PM 或 DL2 進行異質性估計,并結合 HKSJ 置信區間用于 μ;然而,他們建議在小型元分析中謹慎解釋異質性估計結果。

      Langan 等人(2019)? 的模擬研究未評估基于輪廓似然、自助法(bootstrapping)或精確方法(exact method)的區間;其中后者是近期才被提出。關于輪廓似然區間,文獻中的建議并不一致。一篇有影響力的文章指出:“輪廓似然是計算置信區間的一種良好方法。”?? 一項模擬研究似乎支持這一建議,發現當異質性大于零時,輪廓似然區間最接近名義覆蓋水平。1? 然而,另一項模擬研究則表明,在僅包含5項研究的元分析中,輪廓似然區間常常出現覆蓋不足的問題。3? 精確方法的提出者提供了模擬結果,表明盡管該方法在理論上保證至少達到名義覆蓋水平,但其所得區間并不比現有方法顯著更寬。1? 盡管我們的模擬研究主要動機在于考察杰弗里斯方法,但其次要貢獻在于更全面地評估輪廓似然、自助法和精確區間。

      我們現在轉向建立 Jeffreys1 和 Jeffreys2 先驗的理論基礎。

      1. 使用杰弗里斯先驗的貝葉斯方法

      3.1. 杰弗里斯先驗

      在總體效應服從正態分布的假設下,Bodnar 等人(2017)1? 證明了非正常化的 Jeffreys1 先驗為:


      如果將 μ 視為唯一感興趣的參數,而 τ 被視為干擾參數,則 Jeffreys1 先驗也與 Berger–Bernardo 參考先驗一致。3? 一般來說,對于給定分布,Berger–Bernardo 先驗的設計目標是在最小化先驗所提供信息量的同時,最大化數據所提供的信息量。3?,?? 具體而言,該先驗使先驗與后驗之間的 Kullback–Leibler 散度達到最大。??

      關于 Jeffreys2 先驗,式 (2) 中的聯合似然函數意味著期望費舍爾信息矩陣的元素為:



      為便于說明,圖1展示了四種標準化均值差異元分析中兩種先驗在 τ 上的分布。這些元分析是通過從四種不同分布中抽取研究樣本量 N 模擬生成的。盡管先驗的幅度當然會受研究數量 k 的影響,但其形狀受 k 的影響極小,因此圖1描繪的是 k = 10 項研究的元分析所對應的先驗。請注意,對于每項元分析,Jeffreys2 先驗比 Jeffreys1 先驗略窄,這表明前者可能提供更窄的區間;這一假設將在模擬研究(第4節)中進一步深入探討。當 k > 1 時,這兩種先驗均可導出適當的后驗分布(參見 Bodnar (2017)1? 關于 Jeffreys1 的論述,以及補充材料第1節關于 Jeffreys2 的內容)。此外,兩種先驗均可輕松推廣至元回歸情形:Jeffreys1 先驗將與 Bodnar 等人(2024)?? 提出的廣義邊際隨機效應模型中的先驗一致;而 Jeffreys2 先驗在元回歸中的形式則推導于補充材料第1節。本文正文不再進一步討論元回歸。



      3.2. 各先驗下的后驗分布

      對于任一先驗,由于 p(μ, τ) ∝ p(τ),τ 的邊緣后驗分布為:1?


      離散近似方法無需通過混合鏈蒙特卡洛(MCMC)進行抽樣,并已在 R 軟件包 bayesmeta 中實現。?,?1 我們在模擬研究和應用實例中均使用了該軟件包。

      在已獲得聯合后驗分布和邊緣后驗分布的近似形式的前提下,點估計可根據各種集中趨勢度量來定義,例如后驗眾數、中位數或均值。對于任一先驗,在許多情況下(例如,圖4),p(μ | θ?) 似乎近似對稱,因此這三種集中趨勢度量通常會高度一致。然而,對于 p(τ | θ?),情況并非如此,因為在任一先驗下該分布均為不對稱。現有針對 Jeffreys1 先驗的研究主要關注后驗均值和中位數1?,但我們重點關注后驗眾數,因為其具有前述理論優勢2?。事實上,正如第4.4節所討論的,我們的模擬結果表明,τ 的后驗眾數相比后驗均值和中位數,具有顯著更低的偏倚、均方根誤差(RMSE)和平均絕對誤差(MAE)。與最大似然(ML)估計類似,點估計既可基于邊緣分布,也可基于聯合分布的眾數來定義。在貝葉斯框架下,邊緣眾數表示僅針對某一參數(例如 μ)最大化后驗概率時該參數的取值,同時將另一參數(例如 τ)積分掉。相比之下,聯合眾數表示使聯合后驗概率同時達到最大的兩個參數的取值。


      同樣類比于 ML 估計,有時可通過將后驗分布近似為以“后驗眾數”為中心的漸近正態分布,并以負對數后驗在后驗眾數處的 Hessian 矩陣的逆作為方差-協方差矩陣,從而構建對稱的 Wald 可信區間。21 然而,正如當似然函數不對稱時,圍繞 ML 估計值的 Wald 區間可能表現不佳一樣,當后驗分布不對稱時,圍繞后驗眾數的 Wald 區間也可能表現不佳。?2 為了獲得合適的非對稱后驗區間,我們考慮兩種方法。第一種,可通過取估計后驗分布的第2.5百分位數和第97.5百分位數,獲得中心(也稱為“等尾”)95% 后驗分位數區間。第二種,可通過數值方法獲得最短的95%后驗分位數區間;對于單峰分布,該區間等價于最高后驗密度區間。21 在我們的模擬研究和應用實例中,這兩種類型的區間均通過 R 軟件包 bayesmeta 獲得。?

      3.3. 兩種先驗之間的理論與實質區別

      Jeffreys1 先驗與 Jeffreys2 先驗之間的區別涉及多參數杰弗里斯先驗所普遍面臨的理論與實質考量。Jeffreys 及其他學者曾指出,若希望估計所有參數(在元分析中即 μ 和 τ),則應使用多參數杰弗里斯先驗;但若僅希望估計部分參數(例如僅 μ),而將其他參數視為干擾參數,則不應使用該先驗。2?,2?,?3 如引言所述,隨機效應元分析通常不僅應估計和報告 μ,還應估計并報告 τ(或相關指標32,??,??),這提示我們應考慮使用 Jeffreys2 先驗。另一方面,在一般的位置-尺度問題中,Jeffreys 建議僅針對尺度參數(而將位置參數視為固定)構造先驗。2?,?3 這對應于 Jeffreys1 先驗。Jeffreys 的這一建議源于當位置參數數量隨樣本量增加而增長時可能出現的問題,類似于著名的 Neyman–Scott 問題——在該問題中,最大似然估計量不具備一致性。2?,?3 有趣的是,Firth 后來證明,在 Neyman–Scott 問題的一個特定且嚴重的情形下,多參數杰弗里斯先驗(即 Firth 校正)實際上能導出一個一致且嚴格無偏的估計量。2? 考慮到 Firth 校正的漸近論證在此類參數數量遞增的情形下并不成立,這一結果出人意料。2? 當然,在本文所討論的隨機效應元分析情境中,參數數量是固定的,因此上述潛在問題根本不會出現。我們認為,現有的理論與實質考量并未明確排除其中任一先驗在隨機效應元分析中的適用性,因此我們的模擬研究對兩者均進行了評估。

      1. 模擬研究

      我們設計本模擬研究時,力求緊密參照 Langan 等人(2019)? 的研究,而后者本身正是為了克服以往模擬研究中的諸多局限性而設計的。11 如下文詳述,我們考慮了二分類結局的元分析(效應量采用對數優勢比尺度)和連續結局的元分析(效應量采用 Hedges’ g 尺度??),納入的研究數量最少為 2 項,異質性程度各異,均值和結局發生率(針對二分類結局)也各不相同,同時研究內樣本量的分布也有所變化。由于我們評估了多種參數化、半參數化和非參數化方法,我們還初步考察了模型誤設下的穩健性,即除了通常假設的正態分布總體效應外,還考慮了指數分布的總體效應。

      4.1. 點估計與區間估計方法

      表 1 列出了本模擬研究中評估的方法。我們評估了兩種杰弗里斯先驗。在每種先驗下進行點估計時,我們主要考慮邊緣后驗眾數,其次也考察了后驗均值和中位數(見補充材料第 2.2 節)。關于 μ 的區間估計,中心區間與最短區間通常非常接近,因此我們僅展示最短區間的結果。關于 τ 的區間估計,我們對每種先驗均考慮了兩種類型的區間,分別稱為 “Jeffreys1-shortest”(Jeffreys1 最短區間)、“Jeffreys1-central”(Jeffreys1 中心區間)、“Jeffreys2-shortest”(Jeffreys2 最短區間)和 “Jeffreys2-central”(Jeffreys2 中心區間)。


      我們將兩種杰弗里斯先驗的表現與第 2 節所述的若干現有頻率學派方法進行了比較。所選方法包括:在已有大規模模擬研究中表現良好的方法,或具有理想理論性質的方法(例如,能為 τ 提供適當非對稱區間的估計方法)?,?,1?,3?,??,??。在點估計方面,比較方法包括:最大似然估計(ML)、限制性最大似然估計(REML)、DerSimonian–Laird(DL)、兩步法 DL(DL2)和 Paule–Mandel(PM)。在 μ 的區間估計方面,我們考慮了每種頻率學派估計方法對應的 HKSJ 區間、ML 輪廓似然區間(ML-profile)、精確區間1?、非參數 BCa 自助法區間以及非參數百分位自助法區間??,??。在 τ 的區間估計方面,我們考慮了每種頻率學派估計方法對應的 Q-輪廓區間(Q-profile)、ML 輪廓區間以及兩種自助法區間。


      所有頻率學派方法和區間均通過 R 軟件包 metafor?? 實現,以下情況除外:ML 輪廓區間使用自編 R 代碼實現,精確方法通過 R 軟件包 rma.exact1? 實現,自助法通過 R 軟件包 boot?? 實現。

      4.2. 數據生成

      表 2 總結了我們操縱的模擬參數,這些參數與 Langan 等人(2019)? 的模擬研究相似。我們考慮了連續結局(效應量采用 Hedges’ g 尺度??)和二分類結局(效應量采用對數優勢比尺度)。我們同時考慮了總體效應服從正態分布和指數分布的情形;在后一種情況下,除矩法估計量外,所有點估計方法的基本假設均被違反。統計理論表明,在具有正態效應的大樣本元分析中,所有方法的表現將大致相當,因此我們的重點在于較小規模元分析(k ≤ 20)中的點估計和區間估計。正文報告的主要模擬結果對應 k ∈ {2, 3, 5, 10, 20} 的情形。此外,我們還額外運行了 k = 100 的模擬,以確認漸近行為(見補充材料第 3 節)。由于自助法區間所需的計算時間遠多于其他方法,我們首先在所有情境下使用單一的樣本量(k = 10)對這些方法進行了試點測試,以評估它們是否能與其他方法競爭。

      數據生成過程如下:在每次模擬迭代中,我們生成一個元分析,其潛在的總體效應(μ?)要么服從正態分布,要么服從指數分布。正態分布的總體效應按 μ? ~ N(μ, τ2) 生成,其中 μ 和 τ 按表 2 中所示進行變化。指數分布的總體效應則通過適當縮放和位移的分布生成,以達到期望的總體矩(μ 和 τ2)。對于元分析中的每項研究,我們從表 2 所列的四種分布中隨機抽取一個總樣本量 N。然后我們模擬個體參與者數據,使得 N/2 名參與者被分配到治療組,另外 N/2 名參與者被分配到對照組。在連續結局的情境下,我們模擬對照組的結局均值為 0,治療組的結局均值為 μ?,且各組內標準差均為 1。隨后,我們使用 Hedges’ g 校正法估計標準化均值差異??,??。我們使用 Hedges (1982)?? 中的標準大樣本近似公式(式 (8))來計算各項研究的標準誤:



      其中,P(Y = 1 | X = 0) 是我們在表 2 所列數值中操縱的一個情景參數。隨后我們估計了優勢比;為處理可能出現的零單元格計數,當任何單元格計數為零時,我們在每個單元格中添加 0.5。??

      我們預期,對于二分類結局且研究內樣本量較小時,某些極端的情景參數組合(例如,N = 40 且 μ = 2.3,對應一個極端的優勢比為 10)將導致研究內優勢比出現偏差。2?,?1 在試點模擬中,我們識別出了導致研究內絕對偏倚大于 0.05 的情景參數組合。由于我們的關注點在于元分析估計方法所引起的偏倚,而非研究內偏倚,因此我們排除了這些參數組合。在排除這些組合后,我們最終對連續結局模擬了 240 種獨特情景,對二分類結局模擬了 2267 種獨特情景。

      4.3. 性能指標

      對于每種情景,我們以頻率學派通常意義下的偏倚、平均絕對誤差(MAE)和均方根誤差(RMSE)來評估點估計量的表現與變異性。即,對于一個在 500 次模擬迭代 r 中變化的通用參數 ω?:


      對于每種情景,我們從頻率學派覆蓋概率和 95% 置信區間或可信區間的寬度兩個方面評估區間估計的表現。某些方法的區間在部分情景下表現出過度覆蓋,而在其他情景下則出現覆蓋不足。因此,在跨情景匯總結果時,我們還考慮了每種方法在多少比例的情景中實現了近似名義覆蓋水平——嚴格定義為覆蓋概率 >94%。在討論部分,我們將進一步闡述我們評估貝葉斯方法頻率學派性質的理由,以及該方法的含義。我們未評估統計功效。盡管 p 值在被解釋為連續性證據度量時確實可能有用,但我們同意其他人長期以來對“閾值式顯著性檢驗”的擔憂?2,?3——這種做法已導致對已發表元分析的嚴重誤解??,??,且很可能也導致了發表偏倚。

      4.4. 結果

      鑒于情景數量眾多,有必要進行一定程度的匯總,以便緊湊地呈現結果。在正文部分,我們提供按 k、τ、總體效應分布和結局類型分層的線圖,并對 N 的分布(對于二分類結局,還包括 μ 和 P(Y=1 | X=0))進行匯總。由于某一估計量的偏倚方向可能在不同情景間有所不同,我們使用箱形圖而非線圖來展示各估計量在不同情景下的偏倚,以避免跨情景的匯總。對于其他性能指標,我們額外提供了一系列表格,這些表格根據結局類型和 k 對情景子集內的平均表現進行了匯總(表 3–10)。每個單獨情景的完整模擬結果作為數據集公開提供(https://osf.io/9qfah)。









      如上所述,我們的重點是小型元分析。因此,除非另有說明,所有后續結果均針對 k ≤ 20 的情景,我們將其稱為“所有情景”。盡管表格和圖表同時展示了正態效應和指數效應的結果,但我們的文字描述主要聚焦于正態效應情景;在這些情景中,所有方法的設定均正確。我們次要討論了指數分布效應下結果的變化情況。請注意,圖表按效應分布分層,而表格因空間限制對正態和指數效應進行了匯總。

      4.4.1. 收斂性指標

      除精確方法和 BCa 自助法外,所有方法的算法在 >99% 的模擬數據集中均收斂(即能給出 μ? 和 τ? 的點估計和/或區間)。精確方法僅設計用于提供 μ? 的區間,其算法在 >98% 的模擬數據集中成功運行。在我們運行自助法方法的情景子集(即 k = 10 的情景)中,BCa 自助法僅在 67% 的數據集中提供了 μ? 和 τ? 的區間。當未提供區間時,這是因為估計的偏倚校正值為無窮大,這種情況可能發生在經驗影響值因離群值或小樣本量而接近零時。

      4.4.2. μ 的點估計與區間估計

      與先前已發表的模擬研究一致1?,所有方法在 μ 的點估計方面表現非常相似,且近似無偏(圖 6 及補充材料第 2.1 節)。在所有情景中,任意兩種方法在偏倚、RMSE 和 MAE 上的最大場景內絕對差異分別為 0.056、0.064 和 0.036。鑒于 μ 的點估計在不同方法間相對差異較小,我們主要討論該參數的區間估計。在 k = 10 情景的試點測試中,自助法方法與其他方法相比缺乏競爭力(補充材料第 3.7 和 3.8 節)。因此,我們未在其他樣本量下運行這些計算密集型方法,且自助法方法在正文結果中被省略。


      圖7展示了95%區間的覆蓋概率。所有采用HKSJ區間的頻率學派方法表現相似。在總體效應為正態分布的情景中,這些方法的表現受k和τ的影響極小,且在80%的情景中覆蓋概率超過94%。這種描述略顯悲觀,因為這些方法的覆蓋概率很少低于約93%。ML-輪廓區間在71%的正態效應情景中覆蓋概率超過94%,但與HKSJ方法不同,其覆蓋概率在不同情景間波動較大。特別是,該方法在中等異質性水平及k=20時接近名義覆蓋水平,但在較高異質性值(例如,τ ≥ 0.20)時表現出覆蓋不足。精確區間在較小k值時表現出過度覆蓋,在k=20時則接近名義覆蓋水平。所有這些發現均與先前的模擬研究一致。1?,1?


      Jeffreys1-最短區間和Jeffreys2-最短區間在正態總體效應情景下,分別在98%和88%的情景中實現了超過94%的覆蓋概率。這超過了HKSJ區間(80%)和ML-輪廓區間(71%)所觀察到的比例。在單個情景中,Jeffreys1-最短區間和Jeffreys2-最短區間通常表現為過度覆蓋或達到名義覆蓋,僅有一個例外:當k ≤ 5、結局為連續變量且異質性高(τ = 0.50)時,Jeffreys2-最短區間表現出輕微的覆蓋不足(約89–93%)。

      圖8展示了95%區間的寬度。當k < 10時,不同區間的寬度差異顯著,有時甚至非常大。在這些情景中,ML-輪廓區間始終是最窄的,對于極小型元分析尤為如此。相比之下,Jeffreys1-最短區間通常是所有區間中最寬的,尤其在極小型元分析中。另一方面,Jeffreys2-最短區間通常是僅次于ML-輪廓區間的第二窄區間,并且在極小型元分析中明顯比所有HKSJ區間更窄。雖然看起來反直覺——Jeffreys2-最短區間比HKSJ區間更窄,同時卻能更穩定地達到至少名義覆蓋水平——我們在下文第4.4.3節中對此現象進行了解釋。當k ≥ 10且結局為連續變量時,所有類型的區間寬度幾乎完全相同。當k ≥ 10且結局為二分類變量時,兩種Jeffreys區間和精確區間均略寬于HKSJ方法,但應結合圖7所示這些情景下頻率學派方法的輕微覆蓋不足來理解這一結果。


      在總體效應為指數分布的情景中,所有方法的相對表現相似,盡管當異質性較高(τ = 0.50)時,覆蓋概率略有下降。這也與先前的模擬研究一致。1? 補充材料第3節提供了按結局類型分層的額外結果。首先,我們展示了k=100情景的結果,因為這些情景未包含在正文的所有結果中。在這些情景中,正如理論預期,無論結局類型如何,所有點估計量的表現都非常相似。對于二分類結局,大多數方法的覆蓋概率在k=100時略有下降。這一發現與先前涉及稀有二分類結局的模擬研究結果一致(Langan 等人 (2019)?;附錄圖4),并且可能反映了元分析對數優勢比時已知的兩種誤設來源。具體而言:(1) 估計的對數優勢比與其估計的標準誤相關;(2) 常規的方差估計是一種不完美的近似,尤其當存在零單元格計數時,即使在每個單元格中添加了正數常數也是如此。??,?? 我們將在討論部分重新探討這些問題。

      在這些情景中,杰弗里斯方法比頻率學派方法更接近名義覆蓋水平。附加的補充表格將正文中的結果(即k ≤ 20的情景)按各研究中N固定與否進行了分層。在所有這些分層中,方法性能的相對排序與匯總分析中的結果非常相似。

      4.4.3. 關于μ的結果討論

      對于具有二分類結局的小型元分析(k ≤ 20),Jeffreys2-最短區間可能是一種有用的方法,因為其區間至少能達到名義覆蓋水平(在正態效應下),且通常比除ML-輪廓區間外的所有其他區間都要窄得多,而ML-輪廓區間的覆蓋水平在不同情景中不穩定。為說明這一點,我們提供了一些針對二分類結局元分析的數值比較,以Jeffreys2-最短區間與REML-HKSJ區間為例。為簡化起見,我們僅與一種頻率學派區間進行比較。在具有二分類結局和正態總體效應的情景中,Jeffreys2-最短區間在90%的情景中覆蓋概率超過94%,而REML-HKSJ區間僅在80%的情景中達到此標準。相應地,Jeffreys2-最短區間的覆蓋概率在85%的情景中至少等于REML-HKSJ區間。同時,Jeffreys2-最短區間平均比REML-HKSJ區間窄27%;而在k ≤ 5的元分析中,這種效率提升增加至51%。對于二分類結局,Jeffreys1-最短區間似乎并未表現出優于Jeffreys2-最短區間或其他方法的明顯優勢,因為Jeffreys1-最短區間的寬度甚至比精確方法還要寬。

      對于具有連續結局的小型元分析,使用Jeffreys2-最短區間時需要更加謹慎,因為在極小型元分析(k ≤ 5)且異質性高的情況下,它們會表現出輕微的覆蓋不足(約89–93%)。由于Jeffreys2-最短區間在k > 5的連續結局元分析中僅帶來適度的效率提升,因此保守起見,無論k取值如何,均可優先選擇帶有HKSJ區間的頻率學派方法。盡管Jeffreys1-最短區間在連續結局下通常仍能保持至少名義覆蓋水平,但該區間比精確區間更寬,且比HKSJ區間要寬得多。

      如上所述,Jeffreys2-最短區間通常比HKSJ區間更窄,同時卻能更穩定地達到至少名義覆蓋水平,這看似違反直覺。造成這一發現的原因有兩個。第一,HKSJ區間對于μ總是基于所分析的效應尺度(即,連續結局下的Hedges’ g和二分類結局下的對數優勢比)對稱的,而Jeffreys1-最短和Jeffreys2-最短區間則可根據后驗分布的形狀呈現對稱或不對稱(見補充材料第2.3節)。第二,在給定情景下,Jeffreys2-最短區間的寬度在重復抽樣中通常比HKSJ區間的寬度變化小得多。因此,在許多Jeffreys2-最短區間表現出過度覆蓋而對比方法僅達到名義或更低覆蓋水平的情景中,這是因為HKSJ方法在重復抽樣中常常產生極寬的區間,而Jeffreys2-最短區間則被限制在一個更窄的范圍內(見補充材料第2.3節)。

      4.4.4. τ 的點估計與區間估計

      對于連續結局和二分類結局,τ 的點估計和區間估計結果取決于 τ 是否接近邊界值零,特別是對于杰弗里斯方法。在點估計方面,頻率學派方法(尤其是 ML)通常表現出輕微的負偏倚(圖9)。來自 Jeffreys1 和 Jeffreys2 的點估計在偏倚的符號和幅度上比頻率學派點估計更為多變(圖9)。在 MAE 和 RMSE 方面,頻率學派方法 DL、DL2、REML 和 PM 彼此表現相當。相比之下,ML 在這些指標上通常略優(圖10 和 圖11)。Jeffreys1 和 Jeffreys2 的 MAE 和 RMSE 彼此相當。相對于頻率學派方法,Jeffreys1 和 Jeffreys2 通常在 τ 中等取值時(例如,τ = 0.10)表現出可比的 MAE 和 RMSE,在 τ > 0.10 時表現更好,而在 τ < 0.10 時表現更差。這些模式在二分類結局中更為顯著。




      盡管兩種結局類型的方法相對排序相似,但上述模式在正態效應和指數效應下也基本一致。

      關于區間估計,自助法方法的試點測試再次表明,這些方法相比其他方法表現相對較差(補充材料第3.7節和第3.8節),因此我們再次將自助法方法從正文結果中省略。圖12展示了95%區間的覆蓋概率。在總體效應為正態分布的情景下,所有 Q-輪廓區間表現相似,并接近名義覆蓋水平(在83%的情景中覆蓋率 >94%)。ML-輪廓區間在大多數情景中通常表現為名義覆蓋或過度覆蓋;在正態效應情景下,這些區間的覆蓋率在82%的情景中超過94%,與Q-輪廓方法類似。然而,當元分析規模較小且異質性較高時,ML-輪廓區間確實表現出覆蓋不足。這種覆蓋不足在二分類結局中最小(最低約90%),但在連續結局中可能較為嚴重(最低約75%)。


      Jeffreys1-最短區間在 τ > 0.01 時至少達到名義覆蓋水平,但在 τ = 0.01 時表現出顯著的覆蓋不足。Jeffreys2-最短區間表現類似,但額外在高異質性(τ = 0.50)的連續結局元分析中也表現出覆蓋不足,尤其在 k ≤ 5 時。Jeffreys1-最短和 Jeffreys2-最短區間的覆蓋率分別在83%和74%的情景中超過94%。Jeffreys1-中心區間和 Jeffreys2-中心區間的覆蓋表現則明顯更差(即,表現出更嚴重的覆蓋不足),相較于 Jeffreys1-最短和 Jeffreys2-最短區間在較小 τ 值時的表現:在正態總體效應情景下,Jeffreys1-中心和 Jeffreys2-中心區間的覆蓋率分別僅在54%和56%的情景中超過94%。這種覆蓋不足反映了當 τ 接近參數空間邊界時對 τ 的高估。

      圖13展示了95%區間的寬度。我們現在僅討論具有最高至少名義覆蓋率的方法,因此不討論 Jeffreys2-最短、Jeffreys1-中心和 Jeffreys2-中心區間。各種 Q-輪廓區間的寬度彼此相當,但 ML-輪廓區間的寬度通常要窄得多,特別是在極小型元分析中。


      在總體效應為指數分布的情景中,所有方法在 τ 的估計和區間估計方面的相對表現相似,盡管所有方法的覆蓋概率均有所下降。附加的分層結果(補充材料第3節)表明,k=100以及各研究中N固定或變動的情形下,性能模式也大致可比。

      4.4.5. 關于 τ 的結果討論

      在 τ 的點估計方面,沒有任何一種方法表現出明顯最優,因為各方法的性能強烈依賴于 τ 本身。杰弗里斯方法的低覆蓋概率出現在 τ 接近零(即參數空間邊界)時。這反映了對 τ 的高估,而在隨機效應元分析的背景下,這種高估通常被視為保守的。關于 τ 的區間估計,帶有 Q-輪廓或 ML-輪廓區間的頻率學派估計量似乎比杰弗里斯方法更可取。

      在兩種杰弗里斯先驗和兩種區間類型中,只有 Jeffreys1-最短區間在覆蓋水平上與頻率學派方法具有競爭力。然而,由于 Jeffreys1-最短區間的寬度略大于頻率學派方法的區間,因此該方法似乎并未在整體上優于頻率學派區間。Q-輪廓區間在不同情景下的表現比 ML-輪廓區間稍顯穩定,盡管其平均表現相似。但 ML-輪廓區間卻顯著窄于 Q-輪廓區間。

      4.5. 總體結論

      所有方法在 μ 的點估計方面表現相似。總體而言,對于 μ 采用 HKSJ 區間、對于 τ 采用 Q-輪廓區間的標準頻率學派方法在不同結局類型下表現最為穩定一致。Jeffreys2-最短區間在二分類結局的元分析中也表現出一貫良好的性能,并且所得區間明顯比頻率學派方法更窄。然而,Jeffreys2-最短區間在連續結局下的表現不夠穩定:在異質性較高且元分析規模極小(k ≤ 5)的情形下,該方法出現了輕微的覆蓋不足。關于 τ 的點估計,所有方法在平均意義上再次表現相當,但最優方法取決于 τ 本身的取值。關于 τ 的區間估計,Q-輪廓方法的表現 arguably(可認為)最佳,并在各種情景下表現穩定一致。

      總體而言,對于連續結局的小型元分析,我們推薦使用標準頻率學派方法,即對 μ 采用 HKSJ 區間、對 τ 采用 Q-輪廓區間,這與以往的建議一致。然而,對于二分類結局的小型元分析,如果元分析者主要關注 μ 的點估計和區間估計(盡管再次強調,τ 的最優估計方法取決于 τ 本身的取值),則 Jeffreys2 方法可能優于標準頻率學派方法。這是因為 Jeffreys2-最短區間更頻繁地達到至少名義覆蓋水平,同時精確度顯著更高。如果元分析者還希望獲得 τ 的區間,則使用帶有 Q-輪廓區間的頻率學派方法可能會比 Jeffreys2-最短區間提供更接近名義覆蓋水平的 τ 區間;但這樣做很可能會犧牲 μ 估計的大量精確度。

      1. 應用實例

      Zito 等人?? 對隨機對照試驗進行了元分析,比較了多種用于檢測冠狀動脈疾病(CAD)的診斷策略,研究對象為出現 CAD 相關癥狀的患者。作者針對多種診斷方法之間的每一對比較均進行了元分析;為簡化起見,我們重點關注比較冠狀動脈計算機斷層掃描血管造影(CCTA)與負荷單光子發射計算機斷層掃描心肌灌注成像(SPECT-MPI)的研究。我們復制了作者對六種結局的元分析:心血管死亡和心肌梗死(k=2)、全因死亡(k=3)、心肌梗死(k=2)、首次侵入性冠狀動脈造影(ICA)(k=4)、后續再血管化治療(k=4)以及下游檢查(k=4)。作者的元分析?? 使用了 DL 方法,并采用了 Wald 區間而非 HKSJ 置信區間。iii 我們從已發表的森林圖中提取了各研究層面的匯總統計量,并使用 DL、REML、精確方法、Jeffreys1-最短和 Jeffreys2-最短方法重新分析了各項結局。?,12?1? 對于 DL 和 REML,我們根據既定建議采用了 HKSJ 區間。由于我們的模擬研究表明,帶有 HKSJ 區間的各種頻率學派方法之間差異相對較小,因此為簡潔起見,我們僅聚焦于 DL 和 REML。所有用于復現該應用實例所需的代碼和數據均已公開并有文檔記錄(https://osf.io/9qfah)。

      圖2展示了針對單一結局(全因死亡)的 Jeffreys1 和 Jeffreys2 先驗,圖3展示了在 Jeffreys2 先驗下的聯合后驗分布。圖5展示了所有方法對所有結局的 μ? 點估計和區間;關于異質性估計的類似森林圖見補充材料第4節。與模擬研究一樣,所有點估計幾乎完全相同,但 Jeffreys2-最短區間的寬度通常比 Jeffreys1-最短、REML、DL 和精確方法所得區間窄得多。在全部六種結局中,Jeffreys2-最短區間在對數優勢比尺度上的平均寬度比其他方法中最窄的區間還要窄 45%。對于僅包含兩項研究的元分析,這種精確度提升增加至 112%。

      據我們所知,本文提供了首個對元分析中 Jeffreys2 先驗的經驗評估。我們將來自 Jeffreys2 先驗的點估計和區間與 Jeffreys1 先驗以及若干表現最佳的參數化、半參數化和非參數化頻率學派方法進行了比較。在擴展先前關于 Jeffreys1 先驗的模擬研究的基礎上,我們額外考慮了不同類型的貝葉斯點估計和區間,并考察了 μ 和 τ 的點估計和區間估計。正如第 4.5 節總結的那樣,對于二分類結局的小型元分析,Jeffreys2 在 μ 的點估計和區間估計方面可能優于標準頻率學派方法,其效率提升有時相當可觀。然而,對于連續結局的小型元分析,帶有 HKSJ 區間的標準頻率學派方法和帶有 Q-輪廓置信區間的 τ 似乎是最佳選擇,可避免 Jeffreys2-最短區間在極小型且高異質性的元分析中可能出現的輕微覆蓋不足。對于兩種結局類型,τ 的最優點估計方法隨 τ 本身而變化。當 τ 非常小時,杰弗里斯方法表現保守,因為它們通常會高估 τ。最后,我們證明了 Jeffreys2 先驗可以被直接推廣到元回歸的情形(見補充材料第1節)。

      鑒于我們關注的是作為最大似然估計 Firth 校正的杰弗里斯先驗的頻率學派性質,我們從頻率學派角度處理了點估計和區間估計問題。例如,我們的模擬研究考慮了基于固定參數值生成的重復樣本所估計的 95% 區間的覆蓋概率。相比之下,在貝葉斯推斷中,參數被視為從先驗分布中隨機抽取的,而非固定的量。貝葉斯框架允許對某些類似于“覆蓋”的概念進行經驗評估,但這需要從先驗分布中抽樣參數,而非保持參數恒定。?,??,?? 作為附加的復雜因素,執行這些貝葉斯校準檢驗需要一個合適的先驗來進行抽樣,而兩個杰弗里斯先驗均為非正常先驗。?? Cook 等人(2006)認為,使用非正常先驗時評估校準的困難是這類先驗的缺點之一。?? 鑒于我們對方法的頻率學派動機及其頻率學派經驗性質的興趣,我們未考慮為元分析提出的眾多其他貝葉斯先驗(例如,如 R?ver (2020)? 所綜述的)。將標準頻率學派方法與缺乏頻率學派解釋的貝葉斯方法進行比較具有一定難度,這或許正是許多先前的模擬研究未包含任何貝葉斯方法的原因?,11(但也有例外1??1?)。

      我們的模擬研究也存在其他局限性。首先,我們只考慮了一種模型誤設形式,即總體效應服從指數分布,并發現方法的相對排序基本未受影響。然而,我們并未評估其他形式的誤設,例如嚴重偏離正態性或聚集的總體效應。其次,對于二分類結局的元分析,我們僅考慮了標準的逆方差加權元分析,但基于臂的方法可能具有更好的統計特性。?? 另一方面,基于臂的方法可能因試驗間不可交換性而引入偏倚,??,?1 而逆方差元分析更容易適應研究調整協變量的可能性,并且在原始論文僅報告有限匯總統計量時可能更可行。此外,評估逆方差元分析能與先前的模擬研究進行更直接的比較。11 第三,我們使用的兩種研究內估計量——對數優勢比和 Hedges’ g——都涉及近似,這可能引入輕微的小樣本偏倚。此類決策可能非平凡地影響模擬研究的結果,?2 我們使用這些估計量是為了確保與先前模擬研究的直接可比性。?3 此外,這兩種度量是元分析中最常用的度量之一。?3 未來的工作可以探索無需近似的效應度量(如原始均值差異)的相對表現,盡管這些度量在實踐中并不常用。?3 第四,我們僅考慮了兩個待估參數 μ 和 τ,但這兩者僅能提供隨機效應分布的有限概括。其他可能具有信息量的指標包括超過某一有意義效應大小閾值的總體效應比例??,??,??;新總體效應的預測區間??,??;以及每個研究總體效應的收縮估計。2?,?? 貝葉斯估計的一個優勢是,此類指標可以直接從后驗分布中輕松獲得;其中一些已在 R 軟件包 bayesmeta 中實現。? 未來的模擬研究也可以考慮這些待估參數和區間。第五,我們做出了通常的假設,即研究內標準誤的估計誤差可忽略不計。我們并未評估這種近似在多大程度上損害了區間估計。已有若干方法被提出以應對這種形式的估計誤差;也許未來的工作可以將這些進展納入杰弗里斯先驗中。?????

      我們的工作仍是對 Jeffreys1 和 Jeffreys2 先驗的初步探究。我們特別鼓勵未來的研究考慮對這些先驗的其他推廣,除了我們將其推廣至元回歸的情形之外。例如,如引言所述,我們最近發現,對 μ 和 τ 的杰弗里斯先驗在一個涉及嚴重 p 值挖掘的估計問題中表現良好,該問題需要估計截斷分布的參數。3? 某些出版偏倚的選擇模型會導致相關分布,這些分布涉及出版概率中的階躍函數。?1 這些模型在小型元分析中可能表現不佳,往往對與出版偏倚嚴重程度相關的參數產生極其寬泛的區間。?2,?3 是否通過在 μ、τ 和偏倚參數上使用杰弗里斯先驗也能改善這些模型在小型元分析中的表現?其他可能的擴展包括容納聚集的總體效應。我們期待沿著這些方向開展未來的研究。

      原文鏈接: https://www.cambridge.org/core/services/aop-cambridge-core/content/view/B6F787E5BBF8049D473AB896C65ADB39/S1759287924000024a.pdf/meta-analysis-with-jeffreys-priors-empirical-frequentist-properties.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      終于來了,芬蘭總理抵達北京,落地下說了2句話,特朗普怕啥來啥

      終于來了,芬蘭總理抵達北京,落地下說了2句話,特朗普怕啥來啥

      劉森森
      2026-01-27 16:37:48
      以色列遞交給美國的伊朗處決證據,為何引發全球嘩然?

      以色列遞交給美國的伊朗處決證據,為何引發全球嘩然?

      老馬拉車莫少裝
      2026-01-25 08:06:06
      做完手術人就廢了,這5種手術不需要做,別讓無知害了自己

      做完手術人就廢了,這5種手術不需要做,別讓無知害了自己

      華庭講美食
      2026-01-19 14:27:13
      英格蘭前國腳戴維-巴蒂每年都給老隊友打電話,看他是否還活著

      英格蘭前國腳戴維-巴蒂每年都給老隊友打電話,看他是否還活著

      懂球帝
      2026-01-27 11:13:22
      張不開嘴就別尬演!黃曉明“吃泡面”,戳穿了多少演員最后的體面

      張不開嘴就別尬演!黃曉明“吃泡面”,戳穿了多少演員最后的體面

      十里電影
      2026-01-18 10:07:37
      得分“業余”卻成籃板怪物!火箭最被低估的殺招,被他一人扛起!

      得分“業余”卻成籃板怪物!火箭最被低估的殺招,被他一人扛起!

      田先生籃球
      2026-01-27 13:01:19
      安以軒老公被抓3年后首露臉!模樣大變老到認不出,素顏聚餐像大媽

      安以軒老公被抓3年后首露臉!模樣大變老到認不出,素顏聚餐像大媽

      八星人
      2026-01-27 14:12:34
      8勝2平,皇馬歐戰對葡萄牙球隊連續10場不敗

      8勝2平,皇馬歐戰對葡萄牙球隊連續10場不敗

      懂球帝
      2026-01-28 03:50:08
      她赴英留學,卻與上千外國男子有染并拍成視頻,父母與她斷絕關系

      她赴英留學,卻與上千外國男子有染并拍成視頻,父母與她斷絕關系

      阿胡
      2026-01-21 17:34:15
      “泡”女人,男人只要記住這兩點,女人絕對會主動送上門

      “泡”女人,男人只要記住這兩點,女人絕對會主動送上門

      小鬼頭體育
      2026-01-27 04:31:18
      樓大鵬同志逝世

      樓大鵬同志逝世

      澎湃新聞
      2026-01-27 08:58:05
      楊德龍:2026年做好大類資產配置至關重要

      楊德龍:2026年做好大類資產配置至關重要

      德龍財經
      2026-01-27 20:32:25
      登陸英超!U23國足隊長攜女友已抵英國 6隊友祝福:加油狼隊球員

      登陸英超!U23國足隊長攜女友已抵英國 6隊友祝福:加油狼隊球員

      我愛英超
      2026-01-26 10:02:13
      我供男友讀碩4年后他提分手,我停了他的生活費,他打電話來質問

      我供男友讀碩4年后他提分手,我停了他的生活費,他打電話來質問

      荷蘭豆愛健康
      2026-01-27 07:52:59
      4-4!最佳新援誕生!謝謝你,特雷楊!

      4-4!最佳新援誕生!謝謝你,特雷楊!

      籃球實戰寶典
      2026-01-27 17:03:42
      貪財又好色,德不配位的幾位老藝術家,晚節不保一點都不冤

      貪財又好色,德不配位的幾位老藝術家,晚節不保一點都不冤

      素衣讀史
      2026-01-19 12:01:39
      險爆大冷!衛冕冠軍辛納驚魂一幕!克服高溫抽筋苦戰4盤艱難晉級

      險爆大冷!衛冕冠軍辛納驚魂一幕!克服高溫抽筋苦戰4盤艱難晉級

      搏擊江湖
      2026-01-27 20:53:46
      短劇男頂流被前女友舉報涉毒,與女演員亂睡覺,荒唐的一幕發生!

      短劇男頂流被前女友舉報涉毒,與女演員亂睡覺,荒唐的一幕發生!

      叨嘮
      2026-01-28 04:11:05
      溫州網絡第一人,被抓了!

      溫州網絡第一人,被抓了!

      溫百君
      2026-01-27 22:58:52
      閆學晶風波終于落幕,6個男人慘遭牽連,兒媳與繼女最不好過

      閆學晶風波終于落幕,6個男人慘遭牽連,兒媳與繼女最不好過

      青橘罐頭
      2026-01-26 20:19:38
      2026-01-28 06:11:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1182文章數 18關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      旅游
      家居
      數碼
      公開課
      軍事航空

      旅游要聞

      紅燈籠映北海:皇家園林里的年味,藏著中國人的精神原鄉!

      家居要聞

      現代古典 中性又顯韻味

      數碼要聞

      這事你怎么看 索尼與TCL簽署意向備忘錄 網友:Sony變Tony了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美海軍"林肯"號航母打擊群抵達中東地區

      無障礙瀏覽 進入關懷版