<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      柳葉刀子刊:評估AI預測模型性能的幾大類指標總結(區分度、校準度…)

      0
      分享至

      2025年12月,《Lancet Digital Health》發表了一篇總結文章“Evaluation of performance measures in predictive artificial intelligence models to support medical decisions: overview and guidance”,對評估AI預測模型性能的幾大類指標進行了評估。文章討論了五大性能維度的32種性能指標及其圖形化評估方法,這五個維度包括:

      1)區分度(discrimination)

      2)校準度(calibration)

      3)整體性能(overall performance)

      4)分類(classification)

      5)臨床效用(clinical utility)

      其中,前四個維度反映統計性能,第五個維度則體現決策分析性能。

      文章以ADNEX模型為例來講解這些指標及其特性(該模型用于預測女性卵巢腫瘤的惡性概率)。文章建議以下指標和圖表應作為AI預測模型報告中的核心內容:受試者工作特征曲線下面積(AUC-ROC)、校準圖(calibration plot)、基于決策曲線分析的臨床效用指標(如凈收益[net benefit])、按結局類別展示的概率分布圖。

      五大性能維度

      1、區分度(discrimination)

      區分度關注模型是否能為實際發生事件的個體比未發生事件的個體分配更高的事件概率。區分度反映的是相對性能,即模型所估計的概率絕對值大小并不重要,關鍵在于這些概率能否有效區分有事件個體與無事件個體

      2、校準度(calibration)

      校準度關注模型估計的概率與實際觀察到的事件發生率之間的一致性。校準度體現的是絕對性能,用于評估概率估計值是否過高或過低。因此,一個模型可能具有良好的區分度但校準度較差,反之亦然。

      3、整體性能(overall performance)

      整體性能綜合了區分度與校準度,通過量化模型估計的概率與真實結局(0表示無事件,1表示事件)之間的接近程度,來評估模型表現。

      4、分類(classification)

      第四和第五個性能維度需要設定一個事件風險的閾值,將個體劃分為兩個互斥的組別低風險組(估計風險低于閾值)和高風險組(估計風險等于或高于閾值)。這種分組通常關聯著某種干預措施(例如手術),即建議對高風險個體實施干預,對低風險個體則不建議干預。因此,該閾值可稱為“決策閾值”。也可以使用多個決策閾值將個體劃分為三個或更多組別,本文聚焦于常見的單閾值情形。

      分類性能關注個體被正確歸類為高風險或低風險的程度。該維度基于列聯表(又稱混淆矩陣),對分類結果(低風險 vs. 高風險)與實際結局(事件 vs. 無事件)進行交叉匯總。當所有發生事件的個體預測概率均高于決策閾值,所有未發生事件的個體預測概率均低于該閾值時,分類性能達到完美。分類性能受區分度和校準度的影響

      5、臨床效用(clinical utility)

      臨床效用更進一步,在評估個體被劃分進低風險或高風險組時,明確考慮了誤分類成本(misclassification costs)。"誤分類成本"是一個成熟術語,泛指各類誤分類(包括假陽性與假陰性)所帶來的危害。

      臨床效用評估的是基于特定決策閾值所做決策的質量,以及使用該模型是否比不使用模型或使用其他競爭模型能帶來更優的臨床決策。因此,決策閾值應具有臨床意義,并與誤分類成本相關聯。由于臨床效用直接關注決策質量,它是五個性能維度中最重要的一個

      “決策閾值”的定義

      大多數用于醫學的預測性AI模型,主要目標是支持后續的臨床決策。模型得到的概率估計值可幫助改善健康結局:對低風險個體避免實施獲益有限且負擔較重的干預措施,為高風險個體更合理地選擇干預方案。因此,決策閾值應基于醫學考量而非統計學依據來確定

      然而,在實踐中,決策閾值常常通過某個統計指標來定(如約登指數,即靈敏度+特異度?1)。采用統計學指標來設定決策閾值,不僅違背決策理論的基本原則,也脫離了臨床醫生的實際使用需求

      正確的做法是:一旦模型所要支持的具體臨床決策被明確定義后,就應考慮使用該模型輔助決策可能產生的四種后果:

      • 真陽性(實際發生事件且被歸類為高風險)
      • 真陰性(未發生事件且被歸類為低風險)
      • 假陰性(實際發生事件卻被歸類為低風險)
      • 假陽性(未發生事件卻被歸類為高風險)

      這些后果的重要性權重因干預措施的性質與影響、醫療體系特點,以及醫生和患者的偏好而有所不同

      本文中的案例涉及需要手術切除卵巢腫瘤的患者。臨床使用ADNEX模型來決定應采取高級別手術還是保守手術,通常建議將惡性概率的決策閾值設為0.1(即10%)。這意味著,當ADNEX模型預測某患者的惡性風險為10%時,便建議其接受高級別手術。在此閾值下,每發現1例真正需要高級別手術的惡性腫瘤患者(真陽性),就需要對另外9名實際為良性腫瘤的患者實施了不必要的高級別手術(即最多接受9例假陽性)。換言之,采用這一閾值隱含的前提是:對惡性腫瘤患者實施高級別手術所帶來的醫學獲益,至少是良性腫瘤患者接受不必要高級別手術所造成傷害的9倍。

      本文討論了32種性能指標(3種區分度指標、6種校準度指標、9種整體性能指標、11種分類指標、3種臨床效用指標)(見表1),以及相應的可視化評估方法。

      表1. 本文所討論的性能指標以及案例研究中ADNEX模型在校準前后的結果






      良好性能指標應具備的關鍵特征

      本文定義了性能指標應具備的兩項關鍵特征:(1)該指標應為“恰當”(proper)的指標;(2)該指標應明確聚焦于是反映統計價值還是決策分析價值。不具備第一項特征的指標不可信賴,缺乏第二項特征的指標則含義模糊、難以解釋。

      第三項理想特征是具有直觀易懂的可解釋性,但本文不詳細討論這一特征,因為可解釋性具有主觀性,且受使用者背景知識和熟悉程度的影響。

      在醫學實踐中,對預測性AI模型的性能評估可清晰區分為統計性能評估決策分析性能評估兩類。前四個性能維度關注統計性能的不同方面,而臨床效用維度則聚焦于決策分析性能。

      統計性能指標對于模型評估至關重要,但不能單獨用于判斷模型是否應投入臨床實踐。例如,僅憑良好的區分度和校準度就聲稱“該模型可用于輔助卵巢手術決策”是不恰當的。若某性能指標旨在超越單純的統計價值,則必須依據決策分析原則,要納入誤分類成本。

      案例研究:卵巢癌診斷模型(ADNEX模型)

      本文所使用的案例是對有卵巢腫瘤的女性預期其惡性風險。ADNEX模型由國際卵巢腫瘤分析(IOTA)聯盟開發,可在術前估計計劃接受手術的卵巢腫瘤患者患惡性腫瘤的概率[1]。該模型可用于指導兩類決策:(1)在腫瘤中心就診的患者選擇高級別手術還是保守手術;(2)在其他機構就診的患者是否應轉診至腫瘤中心。

      ADNEX模型基于1999-2012年間來自10個國家(意大利、比利時、瑞典、捷克、波蘭、法國、英國、中國、西班牙、加拿大)的24家二級和三級醫療機構共5909名患者的數據開發而成。

      隨后,TransIOTA研究利用2015-2019年間來自4個國家(比利時、意大利、捷克和英國)的1家二級和5家三級醫療機構的894名女性數據,對ADNEX模型區分良性與惡性腫瘤的能力進行了外部驗證[2]。

      出于教學目的,本文使用該數據集計算了所有要討論的性能指標及其95%CI,并展示了所有相關的可視化圖表。

      本文評估了原始ADNEX模型的性能,以及經邏輯校準(logistic recalibration)更新后的性能(見前表1)。更新方法為:以結局為因變量,以ADNEX輸出的事件概率的logit值(線性預測因子)為自變量,擬合一個logistic回歸模型。該方法類似于機器學習中的Platt縮放(Platt scaling),常用于改善預測的校準度。邏輯校準本質上是對線性預測因子進行線性變換,因此是一種保序方法(rank-preserving method),即患者按惡性概率排序的結果在校準前后保持不變。

      所有R和Python代碼,以及894名參與者的惡性風險估計值和實際結局數據,均已公開于GitHub代碼倉庫,鏈接如下:

      https://github.com/benvancalster/PerfMeasuresOverview

      參考文獻:

      1.BMJ. 2014; 349:g5920

      2. Br J Cancer. 2024; 130:934-940

      本文整理自:Lancet Digit Health. 2025 Dec 13:100916.

      受篇幅限制,本篇文章先介紹到這里,在后面一篇推文中,我們再介紹這篇文章的后半部分,即針對各種性能指標的描述以及相應的可視化方法,敬請期待。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬筱梅曝大S豪宅去向,S媽又"作妖",張蘭出手,小楊阿姨也不簡單

      馬筱梅曝大S豪宅去向,S媽又"作妖",張蘭出手,小楊阿姨也不簡單

      無處不風景love
      2026-03-09 21:48:38
      歐冠雙場大勝:拜仁馬競聯手造慘案,意甲獨苗已出局

      歐冠雙場大勝:拜仁馬競聯手造慘案,意甲獨苗已出局

      阿錯田間生活
      2026-03-11 06:30:53
      WTI原油期貨跌幅超10%,跌破85美元/桶

      WTI原油期貨跌幅超10%,跌破85美元/桶

      每日經濟新聞
      2026-03-10 09:23:10
      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      火箭不忍了!休賽期計劃曝光,鎖定兩大目標,申京離隊進入倒計時!

      火箭不忍了!休賽期計劃曝光,鎖定兩大目標,申京離隊進入倒計時!

      煙潯渺渺
      2026-03-11 05:36:34
      特朗普:若伊朗阻斷霍爾木茲海峽,美國將施以更猛烈打擊

      特朗普:若伊朗阻斷霍爾木茲海峽,美國將施以更猛烈打擊

      界面新聞
      2026-03-10 09:28:51
      淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

      淺色系穿搭!這個組合讓你在健身房瞬間吸引眼球!

      獨角showing
      2025-12-31 21:08:57
      baby私下聚會視頻!旗袍邋遢煙不離手請男模,舉止浮夸疑精神失常

      baby私下聚會視頻!旗袍邋遢煙不離手請男模,舉止浮夸疑精神失常

      八卦王者
      2026-03-09 11:05:16
      蘭大博士黃河救人獲省委書記點贊,此前他還資助困難學生,本人回應:說我是英雄愧不敢當,只是做了一件小事

      蘭大博士黃河救人獲省委書記點贊,此前他還資助困難學生,本人回應:說我是英雄愧不敢當,只是做了一件小事

      極目新聞
      2026-03-10 19:48:21
      網友曝張藝興多個活動被取消,疑被國家話劇院開除,本人發聲明!

      網友曝張藝興多個活動被取消,疑被國家話劇院開除,本人發聲明!

      小娛樂悠悠
      2026-03-10 08:35:31
      德容恩:拜仁實在太強了,我們本該回收打反擊

      德容恩:拜仁實在太強了,我們本該回收打反擊

      懂球帝
      2026-03-11 06:54:13
      第33波!10枚導彈全命中!伊朗發出停火條件,特朗普只能認輸?

      第33波!10枚導彈全命中!伊朗發出停火條件,特朗普只能認輸?

      薛小榮
      2026-03-10 19:40:48
      低脂勻稱的健美胴體是最完美的藝術品--寶藝媛;膚白貌美的尤物!

      低脂勻稱的健美胴體是最完美的藝術品--寶藝媛;膚白貌美的尤物!

      女子健美相冊
      2026-02-13 18:51:48
      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      網易海南房產
      2026-03-10 11:32:27
      第6波反制,中方準時索賠,巴政府收到罰單,兩家公司被中國約談

      第6波反制,中方準時索賠,巴政府收到罰單,兩家公司被中國約談

      影孖看世界
      2026-03-10 16:56:04
      國乒3消息:樊振東出戰世乒賽,10號重慶賽程出爐,莎頭抽上上簽

      國乒3消息:樊振東出戰世乒賽,10號重慶賽程出爐,莎頭抽上上簽

      越嶺尋蹤
      2026-03-10 04:31:26
      性壓抑已經變態至此了?

      性壓抑已經變態至此了?

      黯泉
      2026-03-07 11:28:43
      宋平同志生平照片

      宋平同志生平照片

      新華社
      2026-03-10 19:08:38
      曼聯哭暈!頭號目標公開拒絕,寧愿去利物浦也不來老特拉福德

      曼聯哭暈!頭號目標公開拒絕,寧愿去利物浦也不來老特拉福德

      瀾歸序
      2026-03-11 04:02:26
      王曼昱慘敗因不舒服?大楊揚透露樊振東不回歸原因,幫王勵勤解圍

      王曼昱慘敗因不舒服?大楊揚透露樊振東不回歸原因,幫王勵勤解圍

      三十年萊斯特城球迷
      2026-03-10 22:31:30
      2026-03-11 07:44:49
      醫咖會
      醫咖會
      生動有趣的形式傳遞醫學新進展
      2782文章數 10983關注度
      往期回顧 全部

      科技要聞

      蔚來今年要少虧150億,沖擊年度盈利

      頭條要聞

      "一對老夫妻雙雙129歲相戀100年"視頻引熱議 當地回應

      頭條要聞

      "一對老夫妻雙雙129歲相戀100年"視頻引熱議 當地回應

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      《逐玉》注水風波升級!315評論區淪陷

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      手機
      房產
      旅游
      數碼
      公開課

      手機要聞

      蘋果iPhone17e體驗:加量不加價,值不值得入手呢?

      房產要聞

      信號!千億巨頭入局,三亞開啟新一輪大征拆!

      旅游要聞

      獨好風景 向新而行從場景再造到品牌躍升的江西文旅實踐

      數碼要聞

      蘋果MacBook Neo筆記本SSD速度約為MacBook Pro的1/8

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版