
近日,廣州國家實驗室李亦學、劉俊偉團隊與中山大學智能工程學院劉萬泉團隊合作,開發了一種新型的單細胞數據整合基準框架scIB-E。該研究在統一的變分自編碼器(VAE)框架下,對16種深度學習整合方法進行了系統性基準測試,并針對評估中揭示的局限性,提出了一種擴展的評估體系。該框架解決了當前領域內一個長期存在的關鍵難題:即現有基準未能有效評估模型對特定細胞類型內部(intra-cell-type)精細生物學變異的保留能力。團隊同時提出了一種新型損失函數Corr-MSE,通過在整合過程中主動保留這些細微的生物學信號,有效平衡了批次校正與生物學細節保留之間的矛盾。scIB-E為評估和開發單細胞數據整合算法提供了一個更嚴謹、更全面的評估工具,有助于推動保留關鍵生物學信息的新一代整合模型的發展,為解析復雜疾病的細胞機制提供了更精確的工具。相關研究成果以:Benchmarking deep learning methods for biologically conserved single-cell integration為題,發表在國際期刊Genome Biology。
![]()
隨著單細胞RNA測序(scRNA-seq)技術的廣泛應用,生命科學研究已邁入高分辨率圖譜時代,海量數據為解析細胞命運決定機制提供了豐富資源。然而,如何有效整合來自不同實驗、平臺及個體的海量數據,并消除技術批次效應,始終是該領域面臨的核心挑戰。深度學習已成為解決這一問題的關鍵方法,其核心優勢的發揮高度依賴于優化的損失函數設計與有效的信息約束策略。然而,目前領域內不僅缺乏對不同損失函數組合影響的系統性橫向比較,而且用于科學評估這些方法的主流基準本身也存在一個顯著的評估盲區:它們主要關注批次校正和基于細胞類型的生物學保留兩個方面。
針對這一現狀,研究團隊設計了涵蓋三個層級(僅批次去除、僅細胞類型約束、聯合優化)的16種深度學習整合策略進行基準測試。結果表明,聯合利用批次和細胞類型信息的策略總體性能最優,其中Domain Class Triplet loss被證實為表現最佳的損失函數設計。然而,團隊進一步分析發現,即便是表現優異的方法,若采用強信息正則化策略(如過度依賴細胞類型標簽監督),雖能顯著提升傳統指標,卻往往陷入“過度校正”的陷阱 。而現有基準由于過度依賴預定義的細胞類型標簽或局部混合度量,難以捕捉這種無監督的、細胞類型內部生物學變異的丟失。這意味著,高分模型可能在完美對齊已知細胞類型的同時,無意中抹去了細胞亞型、連續發育軌跡或疾病特異性狀態等至關重要的精細生物學差異。
為解決這一難題,研究團隊提出了擴展版的單細胞數據整合基準框架scIB-E。該框架在原有基礎上創新性地引入了“細胞類型內生物學保留”維度,填補了對不依賴標簽的精細生物學信息進行量化評估的空白。針對評估中暴露的生物學信號丟失問題,團隊進一步設計了Corr-MSE損失函數。該策略通過約束整合前后細胞間的相對關系結構,確保模型在去除批次效應的同時,能主動“鎖定”并保留細胞內部微妙且連續的生物學變異,從而有效打破了過度校正的困局。
為驗證scIB-E框架的有效性,研究團隊在多個大規模公開數據集上進行了多維度驗證,結果表明該框架在衡量模型性能方面具有高度的敏銳性和準確性。研究團隊利用具有多層級精細注釋的人類肺細胞圖譜(HLCA),證實了scIB-E指標能夠精準反映從主要細胞類型到精細亞型的多層次生物學事實,確立了其作為衡量“精細生物學保留”標尺的可靠性。在人類胎兒肺發育圖譜分析中,團隊評估了模型對連續發育軌跡的還原能力。結果顯示,結合了Corr-MSE損失的最佳模型(DCT-Corr)在重構細胞發育路徑和保持局部表征方面,顯著優于傳統方法,能夠更真實地還原成纖維細胞等群體的動態發育過程。研究團隊進一步將該方法應用于人類乳腺細胞圖譜(HBCA)研究,在去除技術偽影的同時,DCT-Corr展現出對細微細胞群體變化(如特定管腔細胞亞群)的敏銳捕捉能力,成功揭示了被其他方法掩蓋的生物學差異,展示了其在解析復雜生物學異質性方面的獨特優勢。
綜上所述,本研究提出的scIB-E基準框架和Corr-MSE損失函數,為單細胞數據整合領域的一個關鍵局限性提供了全面的解決方案。通過實現對“細胞類型內”精細生物學變異的嚴格評估和主動保留,該工作為如何在去除批次效應與保留生物學信號之間達到微妙平衡提供了新的見解和工具,為構建高保真的單細胞圖譜、精準解析復雜生物學過程提供了強有力的技術支撐。
廣州國家實驗室李亦學研究員、劉俊偉副研究員與中山大學智能工程學院劉萬泉教授為本文的共同通訊作者。中山大學智能工程學院-廣州國家實驗室聯合培養博士生伊晨昕為本文第一作者,香港中文大學-廣州國家實驗室聯合培養博士生程瑾瑜、中山大學智能工程學院-廣州國家實驗室聯合培養博士生陳佳俊為本文共同作者。scIB-E框架的代碼已公開發布在GitHub (https://github.com/Chenxin-Yi/scIB-E)。
文章鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-025-03869-z
制版人:十一
BioArt
Med
Plants
人才招聘
學術合作組織
(*排名不分先后)
![]()
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.