有了 AI,科學(xué)研究是否有一天可以擺脫對濕實驗的高度依賴,通過在計算機中構(gòu)建“虛擬細(xì)胞”,來模擬和理解新藥可能產(chǎn)生的生物效應(yīng)?如今,這一愿景正被逐步實現(xiàn)。由上海交通大學(xué)鄭雙佳教授及其研究團隊打造的 VCWorld,構(gòu)建了如同“生物世界模擬器”的虛擬細(xì)胞模型,為新藥效果預(yù)測開辟了全新的計算路徑。
![]()
圖 | 鄭雙佳(來源:鄭雙佳)
他告訴 DeepTech:“其核心技術(shù)在于,我們基于 AI 科學(xué)家系統(tǒng),發(fā)展了一種大語言模型與知識圖譜混合增強的預(yù)測方式。我們構(gòu)建了一個知識圖譜,將人類已知的知識,如藥物與靶點的關(guān)系、靶點與疾病的關(guān)系等,以顯式、結(jié)構(gòu)化的方式建模起來。”
![]()
(來源:https://arxiv.org/abs/2512.00306)
VCWorld:像偵探一樣推理的白盒模型
VCWorld 的突破在于,它不是一個只會猜測的黑盒子,而是一個能像生物學(xué)家一樣推理的白盒模型。它把 AI 變成了一個細(xì)胞偵探,既可以給出答案,還可以給你查看它的破案筆記。
VCWorld 的核心思想非常巧妙:
首先是構(gòu)建一個生物知識宇宙,整合多個權(quán)威的生物數(shù)據(jù)庫,把藥物、基因、蛋白質(zhì)、信號通路之間的關(guān)系,像地圖一樣連接起來,形成一個巨大的生物知識圖譜;
其次,使用語言模型來理解知識,讓一個大語言模型來讀懂生物知識圖譜中的復(fù)雜關(guān)系,并使用人類可以理解的語言描述出來;
最后,像偵探一樣檢索和推理,當(dāng)被問到藥物 A 對于基因 B 有什么影響的時候,VCWorld 不是去直接猜測,而是在知識圖譜里查找藥物 A 的作用機制和基因 B 的功能,以及去歷史檔案也就是訓(xùn)練數(shù)據(jù)里尋找最相似的案例比如作用機制相似的藥物 C 是如何影響基因B的,然后像撰寫推理報告一樣,一步一步分析這些線索,綜合得出一個結(jié)論并解釋為什么。
在論文里,鄭雙佳等人舉了一個例子:預(yù)測抗癌藥物 Larotrectinib 對于增殖標(biāo)記基因 MKI67 的影響。MKI67 基因產(chǎn)生的蛋白叫做 Ki-67,是細(xì)胞正在活躍分裂的指示燈。如果一種藥物能夠抑制癌細(xì)胞分裂,那么 Ki-67 的水平通常會下降。
![]()
(來源:https://arxiv.org/abs/2512.00306)
雖然之前沒有直接實驗證明 Larotrectinib 會影響 MKI67,但 VCWorld 是的推理是這樣的:
第一步,尋找相似藥物,借此發(fā)現(xiàn) Larotrectinib 是一種激酶抑制劑。在歷史案例中,作用機制相似的藥物 Afatinib(另一種激酶抑制劑)被證明能夠降低 MKI67 的表達;
第二步,尋找共同模式,其他一些能夠引起 DNA 損傷或者細(xì)胞應(yīng)激的藥物,也會改變 MKI67 的水平。這說明,凡是干擾細(xì)胞生長和分裂過程的擾動,都有可能影響這個指示燈;
第三步,得出結(jié)論也就是 Larotrectinib 很可能通過抑制腫瘤細(xì)胞的增殖信號通路導(dǎo)致 MKI67 的表達出現(xiàn)下降。
這個預(yù)測與后來查到的真實實驗結(jié)果完全一致。此前有文獻記載稱,使用 Larotrectinib 治療之后,Ki-67 陽性的增殖細(xì)胞確實顯著減少了,這證明 VCWorld 的推理不僅準(zhǔn)確,而且有著堅實的生物學(xué)邏輯。
鄭雙佳表示:“我們的整個預(yù)測過程邏輯鏈路非常明確。模型能夠解釋為什么我認(rèn)為這個藥物會在這個細(xì)胞系上引起這個基因的差異化表達,并提供一套可追溯的知識推理鏈條。這就將傳統(tǒng)的、黑箱式的虛擬細(xì)胞預(yù)測,變成了一個白箱式的、引入了因果推理引擎的過程。”
![]()
(來源:https://arxiv.org/abs/2512.00306)
什么是虛擬細(xì)胞?
細(xì)胞是我們身體里最小的生命單位,就像一個超級迷你的工廠,里面有無數(shù)的機器也就是蛋白質(zhì)在不停地工作。科學(xué)家們一直想弄明白的是:如果給細(xì)胞喂一種新藥,會有什么反應(yīng)?哪些基因會被激活?哪些會被抑制?這對于治療疾病和研發(fā)新藥至關(guān)重要。
傳統(tǒng)方法是在實驗室里培養(yǎng)真實的細(xì)胞,加入藥物之后再使用昂貴的儀器來檢測變化。這個過程不僅耗時和耗錢,而且每次只能測試有限的藥物。于是,虛擬細(xì)胞的概念誕生了:能不能在電腦里建設(shè)一個細(xì)胞的數(shù)字模型,讓 AI 來預(yù)測藥物的效果?
其實,已經(jīng)有不少 AI 模型嘗試過這個任務(wù)。但是這些模型非常挑食,它們需要海量的高質(zhì)量數(shù)據(jù)來訓(xùn)練,如果遇到一種全新的、訓(xùn)練數(shù)據(jù)里沒有出現(xiàn)的藥物,就有可能預(yù)測不準(zhǔn)。而且,這些模型依舊存在黑盒問題。而 VCWorld 則解決了這些問題。
鄭雙佳表示:“虛擬細(xì)胞這個概念其實已有二三十年的歷史。近年再次興起,有幾個重要原因:單細(xì)胞多組學(xué)測序技術(shù)在前幾年取得了重大突破,無論是蛋白質(zhì)組學(xué)還是其他組學(xué),高通量檢測設(shè)備的水平提高、成本下降、精度提升,使得多組學(xué)數(shù)據(jù)大量積累。有了海量數(shù)據(jù),人們自然會想到能否用這些數(shù)據(jù)構(gòu)建類似 ChatGPT 的模型,去理解細(xì)胞尺度的語言,而不僅僅是 DNA、RNA 序列層面的語言。”
他繼續(xù)說道,目前的虛擬細(xì)胞模型更像一個疾病解碼器或基于表型的建模工具。但基于表型建模的最大問題是難以逆向設(shè)計藥物:假設(shè)知道藥物A會產(chǎn)生某種擾動信號,但很難根據(jù)想要的信號反向設(shè)計出分子 A。這是基于表型的藥物發(fā)現(xiàn)的一個固有弊端。
因此,他和團隊正在嘗試向藥物設(shè)計方向進行反向推理。例如,基于某種特定的、非藥物手段(如敲低某個基因)或疾病狀態(tài)產(chǎn)生的擾動信號,基于所期望逆轉(zhuǎn)的細(xì)胞狀態(tài),能否根據(jù)這個期望的響應(yīng),反向設(shè)計出一個能實現(xiàn)該擾動的分子?“這是我們正在努力探索的方向。”他表示。
參考資料:
相關(guān)論文
https://arxiv.org/abs/2512.00306
排版:KIK
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.