![]()
導語
單細胞測序賦予了我們捕捉細胞分子“快照”的能力,但在發育與疾病的復雜舞臺上,細胞命運的抉擇往往是確定性趨勢與隨機性波動共舞的結果。現有的漂移-擴散模型雖然擅長描述細胞狀態的確定性漂移,卻常將至關重要的隨機擴散簡化為恒定的背景噪聲,難以完全捕捉生命的動態調控邏輯。為了突破這一局限,研究人員引入了 scDiffEq——一種基于神經隨機微分方程的全新生成式框架。該模型通過顯式學習生物學中的確定性與隨機性動力學,在造血發育研究中展現了卓越的細胞軌跡重構與命運預測能力。它不僅能通過計算機模擬(in silico)精確重現 CRISPR 基因擾動下的動力學變化,還能突破數據限制,從單一時間點快照中推演出高分辨率的發育軌跡,為解析基因層面的時間依賴性動力學提供了強大的新工具。
關鍵詞:單細胞動力學 (Single-cell Dynamics)、神經隨機微分方程 (Neural Stochastic Differential Equations)、細胞命運預測 (Cell Fate Prediction)、計算擾動 (In Silico Perturbation)、發育軌跡 (Developmental Trajectory)
彭晨丨作者
王璇丨審校
![]()
論文題目:Learning cell dynamics with neural differential equations 論文鏈接:https://www.nature.com/articles/s42256-025-01150-3 發表時間:2025年12月18日 論文來源:Nature Machine Intelligence
引言:從靜態快照到動態電影的跨越
在生命科學的前沿探索中,理解細胞動力學是揭示發育奧秘和疾病機制的關鍵,動力系統支撐著包括分化和癌癥在內的生物學基本過程。基因表達作為分子代理,被廣泛用于表征細胞的狀態。然而,現有的觀測手段存在一個根本性的問題:單細胞RNA測序(scRNA-seq)雖然能捕捉到細胞在穩定和瞬態之間的快照,但這一過程本身是破壞性的,測量即意味著細胞的毀滅。這使得我們無法直接觀測同一個細胞的過去、現在和未來,只能通過計算推斷來重建細胞之間的時間動態和調控動力學。
為了跨越這一障礙,計算生物學家開發了一系列復雜的工具。近年來,RNA速率(RNA velocity)及其衍生方法(如Dynamo和CellRank)通過利用轉錄動力學的假設來推斷細胞的未來狀態。然而,這些基于RNA速率的方法主要模擬細胞狀態的平均漂移(Drift),即確定性部分,卻往往忽略了細胞特異性的擴散(Diffusion),即隨機性部分,或者僅僅將其視為均勻的高斯噪聲。事實上,隨機性在生物發育中絕非僅僅是噪音,它是從共同祖細胞生成多樣化細胞類型的必要條件,與確定性調控機制協同工作。解釋確定性和隨機基因表達之間的相互作用對于模擬復雜的細胞決策至關重要。為了填補這一空白,本研究開發了一種名為scDiffEq的全新深度學習框架。
scDiffEq框架:神經隨機微分方程的生物學重構
scDiffEq的核心創新在于引入了神經隨機微分方程(Neural Stochastic Differential Equations, Neural SDEs)來直接參數化漂移-擴散方程。這種方法不再依賴于數十年的經驗假設或局限于低維數據,而是利用深度神經網絡的強大擬合能力來數值近似復雜的動力學。
該框架將細胞在轉錄空間中的運動分解為兩個部分:由漂移網絡(Drift Network, f)控制的確定性動力學,以及由擴散網絡(Diffusion Network, g)控制的隨機動力學。具體而言,scDiffEq通過最小化預測細胞群體與觀察到的細胞群體之間的Sinkhorn散度(一種正則化的Wasserstein距離)來學習這些網絡。這意味著,模型通過讓虛擬細胞在“發育時間”中演化,不斷調整漂移和擴散參數,直到模擬出的細胞分布與真實觀測到的后續時間點的細胞分布高度吻合。
這種設計使得scDiffEq不僅能夠捕捉細胞發育的主流方向,還能精確量化在不同細胞狀態下隨機噪聲的大小和方向。研究人員使用包含譜系追蹤信息的scRNA-seq數據(LARRY數據集)對模型進行了基準測試,該數據集通過可遺傳的條形碼記錄了細胞的真實系譜關系,為驗證模型的預測提供了“金標準”。
![]()
圖 1. scDiffEq 算法概覽及應用。
超越傳統:細胞命運預測精度的飛躍
為了驗證scDiffEq的性能,研究團隊首先進行了一項極具挑戰性的任務:預測多能祖細胞的最終命運。在LARRY數據集中,研究人員利用早期的祖細胞數據訓練模型,并嘗試預測它們分化為中性粒細胞、單核細胞等成熟細胞的概率。結果顯示,scDiffEq在命運預測準確性上顯著優于現有的單細胞特定方法。相比于僅達到4.1%至46.1%準確率的現有方法,scDiffEq實現了58.5%的準確率,超越了之前的最先進模型PRESCIENT(圖 2d)。值得注意的是,基于RNA速率的方法(Dynamo, CellRank)在此任務中表現不佳,這突顯了在長時程發育預測中,僅僅依賴轉錄動力學假設的局限性。
這一性能的提升并非偶然。研究團隊發現,模型中“擴散”項的引入至關重要。當通過消融實驗移除細胞特異性的擴散模擬,轉而使用均勻的高斯噪聲時,模型的預測準確率下降了11.1%,且交叉熵顯著增加。這表明,僅僅知道細胞“想去哪里”(漂移)是不夠的,還需要理解它們在旅途中“有多猶豫”(擴散)。scDiffEq能夠捕捉到多能祖細胞復雜的命運軌跡,而不僅僅是單一的確定性路徑,從而更真實地反映了生物發育的多樣性。
此外,研究還揭示了漂移與擴散之間的最佳比例。系統評估顯示,當漂移/擴散比率維持在2.5左右時,模型的性能達到最佳。這一發現不僅優化了模型參數,也暗示了生物系統中確定性驅動力與隨機擾動之間存在某種內在的平衡常數。
填補空白:稀疏時間點下的動力學插值
在實際的生物學研究中,我們往往無法獲得連續密集的時間序列數據。scDiffEq展示了其強大的插值能力,能夠從稀疏的時間點數據中恢復出連續的發育軌跡。在實驗中,研究人員僅使用第2天和第6天的細胞數據訓練模型,然后讓模型預測被故意隱去的第4天的細胞狀態。結果顯示,scDiffEq生成的第4天細胞分布與真實觀測到的數據在Sinkhorn距離上非常接近,優于PRESCIENT模型。這一能力證明了神經SDE不僅是在記憶數據,而是真正學習到了潛在的動力學規律。這種時間插值能力對于理解快速發育過程或難以頻繁采樣的臨床樣本具有極高的應用價值。
![]()
圖 2. 使用譜系追蹤的造血發育數據對scDiffEq性能進行基準測試。
虛擬實驗室:計算機模擬的基因擾動篩選
scDiffEq最令人興奮的應用前景之一是進行計算機模擬(in silico)的基因擾動實驗。傳統的基因功能研究通常需要昂貴且耗時的CRISPR篩選或轉基因動物模型,而scDiffEq提供了一個高效的虛擬替代方案。研究團隊對參與粒細胞生成的關鍵轉錄因子(如Lmo4, Dach1, Klf4, Cebpe)進行了模擬擾動。結果令人印象深刻:當在模型中模擬過度表達這些轉錄因子時,細胞群體的命運明顯向中性粒細胞偏移,而單核細胞的比例則相應減少;反之,模擬敲低這些基因則產生了相反的效果。這種劑量依賴性的反應與已知的生物學事實高度一致,且線性回歸模型完全無法捕捉這種動態變化。
進一步地,研究人員利用scDiffEq對全基因組范圍內的基因進行了虛擬篩選,試圖尋找決定粒細胞-單核細胞祖細胞(GMP)分化命運的關鍵調節因子。模型成功識別出了Gfi1作為中性粒細胞命運的促進因子,以及Ir8和Klf4作為抑制因子,這些預測與已知的血液學知識相吻合。更有趣的是,模型還發現了一些非轉錄因子的標記基因(如Mpo, Elane)在擾動后也會產生強烈的命運偏向,這雖然在生物學上可能意味著模型捕捉到了狀態與命運的強相關性而非因果性,但也為發現新的調控機制提供了線索。這一功能不僅在小鼠數據上得到驗證,還成功遷移到了人類造血數據上,重現了SPI1基因對單核細胞命運的劑量依賴性影響。這標志著scDiffEq有望成為藥物靶點發現和基因治療策略設計的強大輔助工具。
![]()
圖 3. 計算機模擬的基因擾動分析和跨數據集的泛化。
深入機制:隨機性是細胞可塑性的指紋
scDiffEq的獨特之處在于它能夠將細胞動力學解耦為漂移和擴散兩個分量,這為我們提供了一個全新的視角來審視細胞的可塑性。研究人員分析了不同命運潛能的細胞軌跡,發現了一個引人注目的規律:細胞的漂移和擴散幅度與它的命運多能性(Plasticity)正相關。也就是說,那些能夠分化成多種細胞類型的多能祖細胞,其內部的隨機波動(擴散)和確定性驅動(漂移)都比單能細胞更強烈。這表明,細胞在分化潛能最高的階段,處于一種高能量的活躍狀態,積極地通過隨機波動來探索不同的命運可能性。
在具體的中性粒細胞-單核細胞分化軌跡中,scDiffEq揭示了擴散并非均勻分布。在決定命運的關鍵分叉點附近,擴散幅度顯著升高,而在細胞最終定型后則降低。此外,通過將轉錄因子表達與動力學參數相關聯,研究者發現某些基因(如Myc, Cebpa)主要與擴散相關,而另一些基因(如Gfi1, Lmo4)則更多地驅動確定性的漂移。這種細粒度的解析能力,讓我們得以窺見細胞如何在噪聲中通過特定的基因調控網絡鎖定最終命運。
![]()
圖 4.譜系定型(Lineage Commitment)過程中細胞特異性漂移-擴散動力學的分解和轉錄調控。
結語與展望
scDiffEq的提出標志著單細胞動力學建模進入了一個新的階段。它不僅在技術上實現了利用神經隨機微分方程處理高維單細胞數據的突破,更在生物學意義上強調了隨機性在細胞發育中的核心地位。通過明確模擬漂移和擴散,scDiffEq比以往的方法更準確地描繪了細胞命運的決策過程,特別是對于那些罕見或多命運的復雜軌跡。
盡管目前的模型仍依賴于PCA降維后的潛在空間,可能掩蓋部分基因間的直接相互作用,但其展現出的可擴展性和通用性令人振奮。scDiffEq已被證明可以處理超過100萬個細胞的數據集,并具有近線性的計算擴展能力。未來,隨著多模態數據(如染色質可及性、蛋白質組學)的整合,以及無模擬流匹配(flow-matching)算法的引入,scDiffEq有望發展成為解析生命動態過程的通用引擎,為發育生物學和再生醫學提供更深邃的洞見。
細胞動力學讀書會
細胞絕非孤立的單元,生命的智慧,如同蟻群的協作,涌現在細胞間復雜的相互作用之中。跨越臨界點,簡單規則便能催生全新的、穩定的結構與功能。
半個世紀以來,復雜系統科學為我們提供了洞見生命現象的全新工具箱。本期活動,我們將融合物理學、復雜科學與系統生物學,從Waddington景觀、自組織臨界,到反應-擴散模型與類器官實驗,繪制一幅理解細胞命運與群體動力學的連貫地圖。
本次讀書會由李輝、王維康、韋曉慧三位學者及王艷博士共同發起,并沿兩條主線展開:一是探討細胞命運、多穩態等理論核心;二是結合單細胞測序、時序推斷等方法,學習如何將靜態數據轉化為動態模型。
![]()
詳情請見:
1.
2.
3.
4.
5.
6.
7.
8.
9.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.