細胞生物學模型,又更進一步!
一直以來,科學家手握海量單細胞數據,卻始終難以回答一個關鍵問題:這些細胞,到底在哪兒?
單細胞組學告訴我們「有什么細胞」,空間轉錄組學告訴我們「這些細胞在哪兒」以及「它們的鄰居是誰」。
但二者長期割裂,讓研究人員難以同時捕捉細胞身份與其空間背景。
要知道細胞不是單獨存在的,空間轉錄組能夠系統性地回答空間異質性、細胞相互作用、功能區劃以及疾病微環境等關鍵細胞生物學問題。
現在,這一壁壘被徹底打破!
近期,慕尼黑大學團隊推出Nicheformer,全球首個將單細胞分析與空間轉錄組學融合的大規模基礎模型,由超1.1億個細胞數據訓練而來。
這一成果被刊登在Nature子刊Nature Methods上,且團隊已經將該模型開源。
![]()
github地址:https://github.com/theislab/nicheformer
它僅憑解離細胞的基因數據,就能精準推斷細胞在原始組織中的位置與鄰居,能更好的釋放當前單細胞數據的潛力,對細胞微環境等研究有極大的促進作用。
更令人振奮的是,這項突破被視為邁向「AI虛擬細胞」的重要一步。
這意味著,一個能整合多模態數據、模擬真實細胞行為與空間關系的數字細胞時代,正加速到來。
![]()
讓單細胞數據釋放潛力
一直以來,細胞組學有兩大技術路徑:
單細胞組學:在單個細胞層面上系統測量基因組、轉錄組、表觀基因組、蛋白質組等多維分子信息。
空間轉錄組學:在保持組織結構信息的前提下,對組織切片或原位細胞進行基因表達測序的技術,能夠在組織層面測量基因表達情況。
簡單來說,單細胞組學告訴科學家有什么細胞,而空間細胞組學在此基礎上,還告訴你“這些細胞在哪里”以及“它們的鄰居是誰”。
而研究人員一直缺乏一種方法來同時研究細胞信息和組織。
為此慕尼黑大學的團隊開發了Nicheformer,這是第一個將單細胞分析與空間轉錄組學相結合的大規模基礎模型。
它能做到僅憑分離細胞的基因數據,就推斷出它在原始組織中最可能的位置和相鄰細胞。
![]()
圖:Nicheformer基礎架構
為了實現這一目標,研究團隊創建了SpatialCorpus-110M,這是迄今為止最大的單細胞和空間數據集之一,包含超過1.1億個細胞,涵蓋了人類和小鼠的73種不同器官和組織。
團隊使用SpatialCorpus-110M進行預訓練。該模型通過引入上下文信息(如技術、物種和實驗設計)來學習單細胞和空間基因組學的聯合表示。
隨后,該模型在空間組學數據的空間任務上進行了微調,以解碼空間解析的細胞信息。
Nicheformer可執行多個下游任務,包括學習單細胞和空間基因組學的聯合表示,為非空間的scRNA-seq數據增添空間上下文,憑細胞的基因表達譜準確預測空間上下文等。
為了評估Nicheformer的性能,團隊設計了一系列新的下游任務,包括空間細胞類型、生態位和區域標簽預測,以及鄰域細胞密度和組成等。
結果顯示,實驗結果表明,Nicheformer在預測空間組成和標簽方面優于現有的基礎模型,如Geneformer、scGPT和UCE。
![]()
圖:Nicheformer執行下游任務
團隊稱:“借助 Nicheformer,我們現在可以大規模地將空間信息傳輸到解離的單細胞數據上,這為研究組織和細胞鄰域開辟了許多可能性,而無需額外的實驗。”
![]()
虛擬細胞更近一步
團隊表示,該研究與最近興起的「虛擬細胞」有關。
Nicheformer模型的核心意義在于,它首次將單細胞分辨率和空間組織背景大規模地結合起來,為構建具有生物學意義的“虛擬細胞”奠定了基礎。
作者表示:“通過Nicheformer,我們正在邁出第一步,構建通用 AI 模型,這些模型將改變我們研究健康和疾病的方式,并最終指導新療法的開發。”
簡單來說,AI虛擬細胞?是利用人工智能技術結合多模態組學數據,構建的數字細胞,它能模擬、預測細胞行為和反應。
虛擬細胞的價值不僅在于技術突破,更在于其可能重構生物醫學研究范式。
當前,大多數生命活動都是在細胞層面進行的,如果AI能精準模擬分子、細胞和組織的作用,則具有巨大的應用前景。應用領域包括靶點發現、患者分層、藥物篩選等。
雖然這個概念在生物學和人工智能中越來越受歡迎,但以前的模型在很大程度上將細胞視為孤立的實體,而沒有推理它們的空間關系。
因此,當前構建的虛擬細胞高度依賴單細胞測序數據集,包括陳-扎克伯格打造的rBio、Tahoe構建的Tahoe-x1等。
![]()
但虛擬細胞的終極目標是盡可能接近生物學真實細胞,僅有單細胞的數據還遠遠不夠。因此,未來虛擬細胞的趨勢是整合多模態數據,包括蛋白質組學、表觀遺傳學、活細胞成像、空間轉錄組等。
團隊表示,結合空間轉錄組數據的單細胞大模型僅僅只是第一步。
研究團隊接下來的目標就是開發一個能學習細胞間物理關系的「組織基礎模型」,該模型還可以學習細胞之間的物理關系。
這種模型可以幫助分析腫瘤微環境和體內其他復雜結構,與癌癥、糖尿病和慢性炎癥等疾病直接相關。
未來,隨著多模態數據的集成進入虛擬細胞模型,它將變得更加精確和智能,有望徹底改變我們發現生物學規律、開發新藥和治療疾病的方式。
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.