虛擬細胞,又一重大進展!
近日,AI制藥公司Tahoe Therapeutics震撼發布了其第一代虛擬細胞模型Tahoe-x1。
該模型在超過30億參數,可學習基因、細胞和藥物的統一表示,在與癌癥相關的單細胞生物學基準中實現最先進的性能(SOTA),可預測各種干細胞、癌細胞和免疫細胞對藥物、細胞因子或基因擾動的反應。
目前該模型已開源,代碼和工作流已上傳至GitHub及Huggingface,預印本也已上傳。
arxiv:https://www.biorxiv.org/content/10.1101/2025.10.23.683759v1
github:https://github.com/tahoebio/tahoe-x1
Huggingface:https://huggingface.co/tahoebio/Tahoe-x1
今年2月,Taho還發布了全球首個十億級擾動單細胞數據集——Tahoe-100M,一經開源發布便轟動了業界。
虛擬細胞(AIVC),被譽為計算生物學的下一個圣杯。
“女版巴菲特”木頭姐發布的《Big Ideas 2025》報告認為,單細胞組學與AI的結合將推動虛擬細胞的發展,重塑藥物發現的方式。
越來越多的頂尖科學家和研究機構,正將研究重心轉向更復雜的細胞層面,發布了多個數據集和模型。
![]()
隨著行業生態正在不斷前進和完善,我們離真正的虛擬細胞模型,越來越近了。
![]()
虛擬細胞也符合Scaling Law嗎?
過去幾年,我們經歷了大模型的巨大飛躍,模型參數不斷增長,性能越來越強悍。
這背后基于一個巨大的前提:Scaling Law(縮放法則)。
它的核心在于,擁有更多的計算、更多的數據則帶來更好的模型,并由此形成良性循環。
但它是否適用于復雜的系統生物學,例如打造一個能夠學習細胞和基因如何受到擾動的模型?
到目前為止,有兩大要素阻礙了這一發展:
(1)缺乏大型、多樣化的單細胞數據
(2)缺乏能夠覆蓋十億參數的計算效率模型
第一個問題已經得到了初步的解決,當然也是Tahoe的成果。
今年2月,該公司發布并開源了全球首個十億級擾動單細胞數據集——Tahoe-100M,包含50 個癌癥模型和 1,100 個藥物擾動的 1 億個單細胞。
該數據集一經發布就引發行業震動,下載量已接近20萬次。
如今,Tahoe想要挑戰第二個障礙了。
近期發布的Tx1,則是第一個在擾動豐富的單細胞數據上訓練的超十億參數、計算高效的基礎模型。
它的計算效率也比以前的細胞模型高出3-30×,即高出此前基礎模型的3倍到30倍。
![]()
圖:規模和效率的工程設計
Tahoe還針對生物建模,量身定制了最前沿的大語言模型技術,包括FlashAttention v2、全分片數據并行性 (FSDP)、流數據集和混合精度訓練等。
更酷的是:我們重新設計了模型核心的注意力機制。
例如 FlashAttention v2架構下,Tahoe能實現完全密集的注意力——更簡單、更快速,并且仍然具有很高的內存效率。
![]()
圖:模型架構
模型性能如何?
Tahoe甚至表示,Tx1正在成為虛擬細胞的模型基準。
當然誰都能吹一波自家的模型,但Tx1的模型性能究竟如何?
在核心的預測基因方面,Tx1展現出了最先進的性能。
在預測基因必需性方面,根據 DepMap 數據集的測量,Tx1實現了最先進的性能,匹配或超過線性基線,并優于所有其他模型。
該基準反映了該模型識別亞型特異性遺傳依賴性的能力,這是發現新靶點的關鍵一步。
![]()
圖:推斷標志性的致癌程序
同樣,Tx1 擅長推斷標志性的致癌基因。根據MSigDB(分子特征數據庫)的測量,展示了捕獲腫瘤進展核心轉錄特征的能力,這種能力可以極大地加速科學家對癌癥如何發展和對治療做出反應的理解。
![]()
圖:零樣本泛化性能
Tx1還具有強大的零樣本泛化能力。結合訓練后框架,可以預測看不見的細胞類型和患者環境中的藥物反應,在跨生物環境中都有效。
![]()
踩上虛擬細胞風口
為什么虛擬細胞如此重要?被譽為生物學的下一個圣杯?
Arc Institute的首席技術官Dave Burke曾經做過這樣的比喻:
DNA就像是細胞的ROM,編碼了基礎程序;而rnRNA則更像是RAM,它的表達水平會根據細胞所處的環境、壓力、疾病狀態而實時動態調整。
構建“虛擬細胞”模型,本質上是在推斷細胞的CPU——即細胞響應輸入的運算邏輯。只有理解了這個CPU,我們才能反向求解:要讓一個癌細胞恢復健康,我應該輸入什么樣的指令——即藥物或基因編輯。
正是如此,我們需要研究生物學中更高層次的模型。
盡管蛋白質模型進展非常快,但它們的行為最終是在整個細胞的復雜網絡中展現的。而細胞模型通過模擬細胞行為,是當前最好的選擇之一。
想象一下未來,可以針對人體細胞的虛擬模型篩選和優化新的候選藥物,從而大大減少傳統臨床前測試的時間、成本和倫理復雜性。
目前,有多個科研團體、非營利組織都致力于推動虛擬細胞的技術生態,包括
Arc Institute、Xaira Therapeutics、陳-扎克伯格倡議(CZI)等。
Tahoe Therapeutics則是商業公司中,技術以及開源精神的佼佼者。
Tahoe成立于2022年,總部位于美國加州。不過,那時候公司還叫做Vevo Therapeutics,但因為公司名稱被搶注,不得不更名為Tahoe。
公司核心團隊建立在加州大學舊金山分校的科學突破上,除CEO Nima Alidoust畢業于普林斯頓大學外,其他聯合創始人均來自該校,包括CSO Johnny Yu以及聯合創始人Hani Goodarzi、Kevin Shokat。
![]()
圖:Tahoe的核心團隊
今年以來,公司發布了關于虛擬細胞的多項進展,并獲得了資本關注。
8月,Tahoe獲得了3000萬美元融資。當前該公司的總融資達到4200萬美元,估值突破1.2億美元(約合人民幣8.6億元)。
該公司在成立后不到三年就能夠推出Tahoe-x1這樣的重磅模型,主要歸功于其背后的Mosaic平臺。
傳統的藥物篩選一次只能針對一種癌癥模型,效率低下,而該平臺能將來自不同患者(例如肺癌、胰腺癌等)的癌細胞匯集到一個可重復培養的“馬賽克腫瘤”中。
利用該技術能在同一個實驗里,一次性測試數百種藥物對數十種不同遺傳背景的癌細胞的影響,實現了數據生成效率的指數級提升。
這樣的能力讓公司數據集從其他競品中脫穎而出,今年六月Arc Institute剛發布的開源虛擬細胞模型State,就使用了Tahoe-100M 作為訓練數據的一部分。
雖然實現“虛擬細胞”還需要幾年時間,不僅需要大規模的數據,其算力需求也將遠超當前上限。
但有Tahoe、Arc Institute、Xaira Therapeutics、陳-扎克伯格倡議(CZI)這樣頂尖的團隊,該領域正在朝著這一愿景飛速靠近。
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.