![]()
單細胞組學的「洪水時代」已經來臨。成百上千萬的細胞轉錄組測序結果不斷涌現,研究者們期待把這些數據串聯起來,繪制出全面的人體和動物細胞圖譜。然而現實中,一個難題屢屢擋道:數據量太大、訓練太慢、下載太耗資源,導致大規模參考集很難被真正廣泛復用。
在這種背景之下,美國加州大學伯克利分校(University of California, Berkeley)等的團隊提出了scvi-hub—— 一個利用預訓練概率模型高效共享和訪問單細胞組學數據集的平臺。研究者希望通過它,讓任何實驗室都能像調用工具包一樣,輕松利用社區已經訓練好的模型與參考圖譜。
該成果以「Scvi-hub: an actionable repository for model-driven single-cell analysis」為題,于 2025 年 9 月 8 日發布在《Nature Methods》。
![]()
相關鏈接:https://www.nature.com/articles/s41592-025-02799-9
單細胞組學生態平臺
單細胞技術過去十年間快速擴張,Tabula Sapiens、HLCA(Human Lung Cell Atlas)等大型項目產生了數量龐大的參考數據集。隨著單細胞數據集的增長,遷移學習將成為一種關鍵技術,這類技術在單細胞組學中大致分為參數與非參數兩類,盡管前者已經得到了廣泛運用,但實現訓練模型重用能力的挑戰依然存在。
如何實現高效復用?如何解決數據庫與框架之間的版本問題?諸如此類,都是急需解決的問題。
Scvi-hub 的設計初衷就是要「去除負擔」,讓模型和數據變得輕巧、透明而且易于分享。它基于scvi-tools(一種生成式概率建模工具包)構建,并通過Hugging Face Hub托管,確保版本可追溯、卡片式(model card)文檔清晰。
![]()
圖 1:Scvi-hub 概述。
模型的貢獻者可以自行選擇分享模型背后的數據,以原始數據或者以精簡后的形式進行上傳。精簡功能提供了參考數據集的壓縮表示,同時仍然保留了與原始數據大部分相同的功能。
![]()
圖 2:scvi-hub 實現的僅參考任務。
數據壓縮顯著降低了內存需求并加快了表達值的生成。借助這項功能,團隊已經在平臺上「種子化」了90 多個預訓練模型,覆蓋了多個大型計劃以及CELLxGENE Census等公共資源。每個模型的訓練細節、適用范圍與性能指標都被透明化展示,保證后續使用的可追溯性與可復現性。
輕裝上陣
接下來,除開貢獻者角度,該平臺針對使用者也做出了相當程度的評估優化。
模型評估是 scvi-hub 的關鍵功能,使貢獻者能夠在上傳前評估模型,用戶可以判斷其相關性和質量。為此,團隊專門開發了 scvi.criticism 模塊,用于評估使用 scvi-tools 訓練的模型。
這個模塊引入了一系列通用指標來評價模型質量,比如說計算基因水平和細胞水平的變異系數和差異表達,并評估它們的相似性。相似性越高,說明模型訓練得越好。
這些指標不依賴具體數據集,因此可跨研究場景比較。研究者在下載模型前,可以先查看其「體檢報告」,對模型的可靠性心里有數。
![]()
圖 3:使用普查級預訓練模型進行查詢分析。
Scvi-hub 也可以擴展到多模態數據。從遷移學習的查詢數據分析,再到標簽注入后的查詢參考,以及超過 3000 萬細胞的數據集普查分析,scvi-hub 的使用范圍非常廣泛, 除開本職工作意外,團隊甚至利用它識別出一種在原研究中未識別的對 CCR7、CCL17 和 CCL22 呈陽性的樹突狀細胞群體。
潛力與謹慎并行
研發團隊共計設想了三種適用群體:共享數據并提供可重復分析的個人研究員、大規模圖集工作的高級分析項目以及使用預訓練模型執行注視或反卷積任務的研究者。結合外部參考文獻,數據集分析逐漸豐富,細胞類型組成等相關見解也日益增多。
這是良性的社區循環,且它所采用的以模型為中心的方法能夠以縮小的格式表示大型參考數據集,加速對資源的訪問。在單細胞數據洪流里,研究者終于不必再為數據而焦頭爛額,而是能夠把精力集中在真正重要的科學問題上。可以說,scvi-hub 并不是又一個工具,而是一條讓數據、模型與社區之間形成正循環的高速通道。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.