本文內容整理自醫咖會《機器學習在醫學研究中的應用案例實戰教學》專欄,小咖針對其中的機器學習建模流程相關內容進行了整理,可點擊左下角“閱讀原文”查看完整視頻。
選題和研究思路的確定
推薦以下五個維度來獲取選題靈感:臨床實踐、同行交流、文獻閱讀、理論支撐、基金指南(政策導向),也可以從研究設計,也就是PI(E)COS的五個角度幫助尋找創新性的選題。
![]()
圖. PI(E)COS
研究設計和數據采集
當前臨床預測模型的建模分為兩大類:
診斷模型:預測當前患某病的風險,往往用橫斷面研究和病例對照研究;
預后模型:預測未來一段時間內發生特定預后事件的風險,往往用隊列研究和回顧性、前瞻性研究。
數據采集有五種方法:
A.自行設計問卷,開展調查,收集數據;
B.查閱病案,批量查找和導出數據;
C. 其他信息系統測量的數據,如ICU監護儀,可穿戴設備等
D. 申請臨床公開數據庫、大型專病隊列,數據競賽網站公開數據集。
![]()
圖.各領域的國內外數據庫
數據預處理
拿到數據后需要對數據進行預處理,一般需要進行變量轉換、缺失值處理和異常值檢測。推薦大家收集原始數據時盡量收集連續型數據,可以靈活轉化為多分類和二分類變量。
模型訓練和變量選擇
預處理之后,需要進行變量篩選,比較常規的篩選方法有:單因素篩選、多因素逐步回歸、LASSO回歸、其他機器學習算法(如隨機森林的變量重要性排序)。
機器學習較傳統回歸的一個不同之處是需要做超參數的調優,如隨機森林有兩個超參數, ntree(要建立多少樹模型進行預測)和mtry(一個樹模型從變量值中隨機抽取幾個變量來建立決策樹),而調優后需要使用調優指標評估,選取最優的超參數,比如分類模型可以使用AUC和分類準確率。
![]()
圖.超參數的調優
模型評價、驗證和比較
模型評價、驗證和比較指標包括:
區分度:AUC和ROC曲線,也可以包括靈敏度、特異度、分類正確率等指標;
校準度:Brier評分和校準曲線;
臨床實用性:DCA曲線。
![]()
圖例.模型評價、驗證和比較指標
模型可視化報告
可以考慮多種方式進行模型的呈現:
A.OR/HR/B或森林圖
![]()
圖例.Logistic回歸模型的森林圖
B.評分表(根據OR/HR/β進行打分,四舍五入取整數,或者X5\X10翻倍)
C.列線圖(也是一種更直觀的評分表)
![]()
圖例.列線圖
D.網頁計算器(便于在線應用)
![]()
圖例. 網頁計算器
E.決策樹等(也非常直觀)
![]()
圖例.決策樹
還有一些集成模型,比如隨機森林不可能將每一棵樹的決策過程都呈現出來,一般會對樹的結果進行整合,根據變量重要性進行排序(左圖)。對于黑箱模型這類無法解釋的模型,支持向量機比較抽象,可以采取一些新的可解釋的技術,如SHAP、LIME等,右圖利用LIME進行解釋,第一行為平均風險,下面為變量特異性取值時的風險。
![]()
圖.隨機森林變量重要性排序(左)和LIME解釋黑箱模型(右)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.