
空間轉錄組技術正經歷從“ 高通量” 到“ 高分辨率” 的范式轉變。 Visium HD 將空間分辨率提升至 2 微米, Stereo-seq 實現亞微米級測量,單次實驗可產生數百萬測量單元,為解析組織微環境的細胞組成提供了前所未有的機遇【1,2】。然而,這一技術進步也帶來了嚴峻的計算挑戰:現有解卷積方法大多基于貝葉斯推斷或稠密協方差建模,其 O(N 2 ) 的時間或空間復雜度使其難以處理超過數萬個 spots 的數據集——據報道, Cell2Location 在處理約 20,000 個 spots 的 Slide-seqV2 數據時即因計算負擔而無法運行【3】。更為根本的挑戰在于特征選擇。現有方法普遍采用高變異基因( HVG )策略,其隱含假設是 " 方差大的基因攜帶更多信息 " 。然而,基因表達方差與均值在負二項分布模型下呈二次關系耦合,導致高豐度細胞類型的標志基因天然擁有高方差,而占比僅 0.1% 的稀有群體——如腫瘤干細胞、血管內皮細胞——其標志基因即使具有高度特異性,也會因總體方差貢獻低而被系統性排除【4,5】。因此,亟需兼顧計算效率與稀有細胞檢測能力的新方法。
來自德州農工大學統計系和梅奧診所的研究團隊在bioRxiv預印本平臺發表了題為FlashDeconvenables atlas-scale, multi-resolution spatial deconvolution via structure-preservingsketching的研究論文。該研究提出FlashDeconv框架,其核心創新在于引入來自隨機數值線性代數( RandNLA )領域的杠桿分數( leverage score )概念,將"生物學區分能力"與"數量豐度"數學解耦。結合稀疏圖拉普拉斯正則化,FlashDeconv實現線性O(N)復雜度,能夠在普通筆記本電腦上3分鐘內完成100萬個spots的解卷積,同時保持與頂級貝葉斯方法相當的準確性。
![]()
研究團隊首先系統闡述了 FlashDeconv 的框架設計。該方法將空間解卷積問題重新表述為圖正則化非負最小二乘問題,包含三個關鍵設計:( 1 )采用 Log-CPM 歸一化處理極端稀疏的空間轉錄組數據,其有界范數防止高表達基因主導壓縮空間;( 2 )引入基于杠桿分數加權的 CountSketch 隨機投影,與最大化解釋方差的 PCA 不同,該投影滿足 Johnson- Lindenstrauss 性質,保證細胞類型簽名之間的歐氏距離在壓縮空間中以高概率保持;( 3 )采用稀疏 k-NN 圖拉普拉斯正則化建模空間連續性,復雜度僅為 O(N · k) 而非 O(N 2 ) 。
杠桿分數的幾何意義在于衡量每個基因對參考矩陣列空間的貢獻程度——即該基因是否定義了一個獨特的區分方向,而非簡單反映有多少細胞表達它。研究團隊通過一系列實驗構建了從數學原理到分子功能再到空間表型的完整證據鏈。在豐度不變性測試中,研究團隊使用小鼠腦 scRNA -seq 參考( 40,532 細胞, 59 種細胞類型),將少突膠質細胞從 26.7% 人為降采樣至 0.4% ——細胞數量減少 67 倍。結果顯示,基于方差的排名從 115 位下降 至 240 位,劣化超過 100% ;而杠桿分數排名始終穩定在約 150 位,證明了 " 生物學身份 " 與 " 數量豐度 " 的真正數學解耦。
進一步的基因象限分析揭示了系統性偏差。將 31,053 個基因映射到方差 - 杠桿分數二維平面,“ GOLD” 象限(低方差、高杠桿分數)包含經典血管標志物( Cldn5 、 Rgs5 、 Ly6a 等), GO 富集分析顯示這些基因顯著富集于“ 血管生成調控 ” ( FDR 校正 p = 2.8 × 10 ??)、 “ 內皮細胞分化” ( FDR 校正 p = 2.1 × 10 ??)等通路。相反,“ NOISE” 象限(高方差、低杠桿分數)包含 35% 的未注釋 Gm 系列轉錄本( GOLD 中僅 6% ), GO 分析在 FDR 校正 p < 0.05 水平無任何顯著通路。空間可視化進一步證實: GOLD 基因在組織切片上重建出清晰的血管解剖結構(空間結構評分 1.33 ),而 NOISE 基因呈現隨機 " 椒鹽噪聲 " 分布(評分 0.87 ; Mann-Whitney p = 5.6 × 10 ??)。
在基準測試中, FlashDeconv 在 Spotless 基準測試套件的 56 個 Silver Standard 數據集上達到平均 Pearson 相關系數 0.944 、中位 RMSE 0.065 ,與 Cell2Location 、 RCTD 等計算密集型方法相當。 在稀有細胞檢測任務中, FlashDeconv 的 AUPR 達到 0.960 ± 0.036 ,與頂級概率模型持平。更重要的是,在參考協議敏感性測試中, FlashDeconv 的穩定性 JSD 為 0.0138 ,排名第 1 ,比第二名 RCTD ( 0.0185 )優 25% 。可擴展性是 FlashDeconv 的決定性優勢:在普通硬件上, 10,000 個 spots 不到 1 秒, 100,000 個 spots 約 4 秒, 1,000,000 個 spots 約 3 分鐘。
研究團隊通過三個應用案例展示了 FlashDeconv 的實際價值。在人卵巢癌治療響應分析中, FlashDeconv 在 3.8 秒內處理了 6 例高級別漿液性卵巢癌患者的全部樣本( 15,092 個 spots ),發現治療反應不佳患者的腫瘤細胞占比高達 56.1% ,而反應良好患者僅 14.3% ,差異達 3.9 倍;免疫細胞浸潤與良好預后相關,巨噬細胞在反應良好患者中高 11 倍。這些發現與 Denisenko 等人使用 CARD 方法分析同一數據集的結論高度一致【6】。
在 Visium HD 分辨率地平線的系統性量化中, FlashDeconv 在 12 秒內處理了 8 μ m 分辨率下的 351,817 個 bins 。分析揭示了 " 分辨率地平線 " 現象:在 8 μ m 分辨率下, 61.5% 的 bins 被單一細胞類型主導;到 16 μ m 時驟降至 13.3% ,信息損失 78% 。更關鍵的發現是相關性符號翻轉: Paneth 細胞和 Goblet 細胞在 8 μ m 分辨率下表現為弱負相關( r = -0.12 ),反映其在細胞尺度上的互斥性;然而隨著分辨率變粗,在 64 μ m 時變為強正相關( r = +0.80 )。研究團隊使用 Xenium 單分子測序數據進行地面真值驗證,證實這是源自組織空間組織尺度的物理現象,而非算法偽影。
在 Tuft-Stem 化學感受細胞巢的發現中,研究團隊注意到 Tuft 細胞(僅占腸上皮 0.4-2% )在所有細胞類型中表現出最高的 "HVG 盲區 " ——其標志基因在基于方差的選擇下比杠桿分數排名低 21 個百分位。在 8 μ m 分辨率下, FlashDeconv 識別出 2,244 個局灶性 Tuft 細胞微環境,比例高達 61% ,這些微環境表現出腸道干細胞富集 16.8 倍、腸內分泌細胞富集 15.3 倍,而分化細胞類型顯著缺失。這一發現與 Tuft 細胞已知的定位及其作為儲備干細胞的能力相符【7】。
總的來說,該項研究成功解決了當前空間轉錄組解卷積領域面臨的兩大核心挑戰:計算可擴展性和稀有細胞檢測。其核心洞見在于區分 " 幾何結構 " 與 " 統計方差 " ——杠桿分數量化每個基因對細胞類型間區分結構的貢獻,獨立于表達量級或群體規模。 FlashDeconv 證明:測量幾何結構而非統計方差,可以將生物學重要性與數量流行性解耦,這一原理在空間解卷積之外,對軌跡推斷、多組學整合和圖譜級比較研究也具有潛在應用價值。
![]()
原文鏈接:
https://doi.org/10.64898/2025.12.22.696108
制版人:十一
參考文獻
1. Chen, A., Liao, S., Cheng, M., Ma, K., Wu, L., Lai, Y., Qiu, X., Yang, J., Xu, J., Hao, S., et al. (2022). Spatiotemporal transcriptomic atlas of mouse organogenesis using DNA nanoball-patterned arrays.Cell185, 1777-1792.e21. 10.1016/j.cell.2022.04.003.
2. Janesick, A., Shelansky, R., Engblom, C., Deng, A., Bouchard, M., Bhogale, S., Keller, J.M., Weinstein, J., Ou, J., and Finak, G. (2023). High resolution mapping of the tumor microenvironment using integrated single-cell, spatial and in situ analysis.Nat Commun14, 8353. 10.1038/s41467-023-43458-x.
3. Ma, Y., and Zhou, X. (2022). Spatially informed cell-type deconvolution for spatial transcriptomics.Nat Biotechnol40, 1349-1359. 10.1038/s41587-022-01273-7.
4. Osorio, D., and Cai, J.J. (2020). Systematic determination of the mitochondrial proportion in human and mice tissues for single-cell RNA-sequencing data quality control.Bioinformatics37, 963-967. 10.1093/bioinformatics/btaa751.
5. Jindal, A., Gupta, P., Jayadeva, and Sengupta, D. (2018). Discovery of rare cells from voluminous single cell expression data.Nat Commun9, 4719. 10.1038/s41467-018-07234-6.
6. Denisenko, E., de Kock, L., Tan, A., Beasley, A.B., Beilin, M., Jones, M.E., Hou, R., Mukhopadhyay, P., Mccauley, R., Miller, D.T., et al. (2024). Spatial transcriptomics reveals discrete tumour microenvironments and autocrine loops within ovarian cancer subclones.Nat Commun15, 2860. 10.1038/s41467-024-47261-y.
7. Huang, L., Jaeger, N., Gieseler, F., and Bhattarai, S. (2024). Tuft cells act as regenerative stem cells in the human intestine.Nature627, 166-173. 10.1038/s41586-024-07085-w.
BioArt
Med
Plants
人才招聘
學術合作組織
(*排名不分先后)
![]()
轉載須知
【非原創文章】本文著作權歸文章作者所有,歡迎個人轉發分享,未經作者的允許禁止轉載,作者擁有所有法定權利,違者必究。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.