有了 AI,科學研究是否有一天可以擺脫對濕實驗的高度依賴,通過在計算機中構建“虛擬細胞”,來模擬和理解新藥可能產生的生物效應?如今,這一愿景正被逐步實現。由上海交通大學鄭雙佳教授及其研究團隊打造的 VCWorld,構建了如同“生物世界模擬器”的虛擬細胞模型,為新藥效果預測開辟了全新的計算路徑。
![]()
圖 | 鄭雙佳(來源:鄭雙佳)
他告訴 DeepTech:“其核心技術在于,我們基于 AI 科學家系統,發展了一種大語言模型與知識圖譜混合增強的預測方式。我們構建了一個知識圖譜,將人類已知的知識,如藥物與靶點的關系、靶點與疾病的關系等,以顯式、結構化的方式建模起來。”
![]()
(來源:https://arxiv.org/abs/2512.00306)
VCWorld:像偵探一樣推理的白盒模型
VCWorld 的突破在于,它不是一個只會猜測的黑盒子,而是一個能像生物學家一樣推理的白盒模型。它把 AI 變成了一個細胞偵探,既可以給出答案,還可以給你查看它的破案筆記。
VCWorld 的核心思想非常巧妙:
首先是構建一個生物知識宇宙,整合多個權威的生物數據庫,把藥物、基因、蛋白質、信號通路之間的關系,像地圖一樣連接起來,形成一個巨大的生物知識圖譜;
其次,使用語言模型來理解知識,讓一個大語言模型來讀懂生物知識圖譜中的復雜關系,并使用人類可以理解的語言描述出來;
最后,像偵探一樣檢索和推理,當被問到藥物 A 對于基因 B 有什么影響的時候,VCWorld 不是去直接猜測,而是在知識圖譜里查找藥物 A 的作用機制和基因 B 的功能,以及去歷史檔案也就是訓練數據里尋找最相似的案例比如作用機制相似的藥物 C 是如何影響基因B的,然后像撰寫推理報告一樣,一步一步分析這些線索,綜合得出一個結論并解釋為什么。
在論文里,鄭雙佳等人舉了一個例子:預測抗癌藥物 Larotrectinib 對于增殖標記基因 MKI67 的影響。MKI67 基因產生的蛋白叫做 Ki-67,是細胞正在活躍分裂的指示燈。如果一種藥物能夠抑制癌細胞分裂,那么 Ki-67 的水平通常會下降。
![]()
(來源:https://arxiv.org/abs/2512.00306)
雖然之前沒有直接實驗證明 Larotrectinib 會影響 MKI67,但 VCWorld 是的推理是這樣的:
第一步,尋找相似藥物,借此發現 Larotrectinib 是一種激酶抑制劑。在歷史案例中,作用機制相似的藥物 Afatinib(另一種激酶抑制劑)被證明能夠降低 MKI67 的表達;
第二步,尋找共同模式,其他一些能夠引起 DNA 損傷或者細胞應激的藥物,也會改變 MKI67 的水平。這說明,凡是干擾細胞生長和分裂過程的擾動,都有可能影響這個指示燈;
第三步,得出結論也就是 Larotrectinib 很可能通過抑制腫瘤細胞的增殖信號通路導致 MKI67 的表達出現下降。
這個預測與后來查到的真實實驗結果完全一致。此前有文獻記載稱,使用 Larotrectinib 治療之后,Ki-67 陽性的增殖細胞確實顯著減少了,這證明 VCWorld 的推理不僅準確,而且有著堅實的生物學邏輯。
鄭雙佳表示:“我們的整個預測過程邏輯鏈路非常明確。模型能夠解釋為什么我認為這個藥物會在這個細胞系上引起這個基因的差異化表達,并提供一套可追溯的知識推理鏈條。這就將傳統的、黑箱式的虛擬細胞預測,變成了一個白箱式的、引入了因果推理引擎的過程。”
![]()
(來源:https://arxiv.org/abs/2512.00306)
什么是虛擬細胞?
細胞是我們身體里最小的生命單位,就像一個超級迷你的工廠,里面有無數的機器也就是蛋白質在不停地工作。科學家們一直想弄明白的是:如果給細胞喂一種新藥,會有什么反應?哪些基因會被激活?哪些會被抑制?這對于治療疾病和研發新藥至關重要。
傳統方法是在實驗室里培養真實的細胞,加入藥物之后再使用昂貴的儀器來檢測變化。這個過程不僅耗時和耗錢,而且每次只能測試有限的藥物。于是,虛擬細胞的概念誕生了:能不能在電腦里建設一個細胞的數字模型,讓 AI 來預測藥物的效果?
其實,已經有不少 AI 模型嘗試過這個任務。但是這些模型非常挑食,它們需要海量的高質量數據來訓練,如果遇到一種全新的、訓練數據里沒有出現的藥物,就有可能預測不準。而且,這些模型依舊存在黑盒問題。而 VCWorld 則解決了這些問題。
鄭雙佳表示:“虛擬細胞這個概念其實已有二三十年的歷史。近年再次興起,有幾個重要原因:單細胞多組學測序技術在前幾年取得了重大突破,無論是蛋白質組學還是其他組學,高通量檢測設備的水平提高、成本下降、精度提升,使得多組學數據大量積累。有了海量數據,人們自然會想到能否用這些數據構建類似 ChatGPT 的模型,去理解細胞尺度的語言,而不僅僅是 DNA、RNA 序列層面的語言。”
他繼續說道,目前的虛擬細胞模型更像一個疾病解碼器或基于表型的建模工具。但基于表型建模的最大問題是難以逆向設計藥物:假設知道藥物A會產生某種擾動信號,但很難根據想要的信號反向設計出分子 A。這是基于表型的藥物發現的一個固有弊端。
因此,他和團隊正在嘗試向藥物設計方向進行反向推理。例如,基于某種特定的、非藥物手段(如敲低某個基因)或疾病狀態產生的擾動信號,基于所期望逆轉的細胞狀態,能否根據這個期望的響應,反向設計出一個能實現該擾動的分子?“這是我們正在努力探索的方向。”他表示。
參考資料:
相關論文
https://arxiv.org/abs/2512.00306
排版:KIK
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.