關于生物學的一個長期笑話是,如果你喜歡科學但數學不好,那它是一個很棒的專業。
分子生物學不像物理學。生命系統的復雜性和非線性,要求以蠻力方式創造和傳播知識。生物學教科書充滿了事實,而不是方程式。
人工智能正在以重大方式改變這一狀況。經過數十年研究,深度學習有效地解決了三維蛋白質結構預測的問題,許多現實問題通過收集數據更容易解決。
這一突破——以及蛋白質設計的進展——讓David Baker,、Demis Hassabis和John Jumper 獲得了2024年諾貝爾化學獎。
這背后的邏輯并不難理解:很少有大分子像蛋白質一樣重要,在解決和設計其結構的能力上實現突破,意義很重大。
但整個分子復合物,以及這些復合物之間的相互作用呢?
我們已經擁有特定部件的強大模型。現在我們正在學習將部分組成整體的模型——讓我們更接近整體細胞的預測模型。
這似乎正是研究工作目前的發展方向。生物學中一個長期以來的圣杯——有效模擬細胞行為——的關注明顯上升。
全球頂尖實驗室和公司正競相建設“虛擬細胞”,這一概念自世紀之交以來就存在。有了新工具,這個愿景現在似乎觸手可及。
一個特別重要的例子是最近的論文How to build the virtual cell with artificial intelligence: Priorities and opportunities(《如何用人工智能構建虛擬細胞:優先事項與機遇》)。
我們正看到第一波架構創新浪潮——更重要的是,基準測試——以及大規模生成多類數據的努力。
但在我們開始揭開AI虛擬細胞的真相之前,先來看看以前虛擬細胞是什么樣子?
![]()
早期探索
Markus Covert成長于1980年代的硅谷,在大學期間,他決定學習化學工程,部分原因是他長期以來對科學的興趣,部分原因是這被認為是校園里最難的專業。
它名副其實:真的很難。但回報并不完全值得。
對化學工程感到失望,Covert開始尋找當時還非常少見的生物工程研究生項目。他最終來到了加州大學圣地亞哥分校,該校在1994年才成立了整個加州大學系統中第一個生物工程系。事實證明這是明智的選擇。
![]()
圖:Markus Covert
當時,基因組學領域剛剛開始合并。圣地亞哥是一個圣地——Craig Venter成立了基因組研究所,這是一個私營研究中心,致力于應對看似瘋狂的項目。
Venter是一位極具前瞻性和競爭心的科學家,后來因與人類基因組計劃競速而聞名,他召集了一小群科學家,這些人與他一樣,擁有熱情和雄心。
在一系列具有里程碑意義的論文中,他們繪制了首個自由生活生物的基因組圖譜、世界上最小生物(生殖支原體)的基因組,以及著名腸道病原體的基因組。
但這一愿景遠遠超出了基因組測序。Venter和他的團隊推動了一個研究議程,旨在在計算機上模擬整個細胞,最終甚至合成其基因組。排序、合成、模擬,這些理念作為一個使命的一部分,旨在以一種根本全新的方式設計生命。
Covert十分欣賞這些成果,他師從Bernhard Palsson,后者是生物學計算機建模的早期先驅之一。Covert癡迷于生成可驗證預測的美妙之處,他發表了一篇重要論文,將Palsson的細胞代謝建模技術與基因調控的表示方法聯系起來。
之后,David Baltimore成為了Covert的博士后,隨便一提,David Baltimore在37歲時獲得諾貝爾獎,后來還成為了洛克菲勒大學校長,以及加州理工學院校長。
在加州理工學院,Covert愛上了實驗。他學會了將建模技術與細致實驗結合起來,追蹤實際細胞中的單個轉錄因子。
關鍵是,他接觸到了活細胞成像技術的早期原型。為了學習,科弗特自愿在夜間監視顯微鏡,他用雞卵孵化器、紙板和膠帶搭建了一個臨時設備,確保溫度穩定在37度,以保證細胞存活。
最終,Covert有機會回到灣區,在斯坦福創辦自己的實驗室,繼續從事計算機建模和活細胞成像的研究
模擬一個細胞需要什么?
1984年,耶魯大學的生物物理學家Harold Morowitz在一篇題為The completeness of molecular biology的文章中提出了一個計劃。
首先,測序最小的生物——分枝桿菌。Covert已經做過類似的事,確認了這件事。
接下來,模擬基因組中估計存在的600個基因的行為。Morowitz推理道:“在600步中,計算機模型是可行的,實驗室中所有實驗也可以在計算機上進行。這些匹配程度衡量了分子生物學范式的完整性。”
但實際上,這一步比預期的要困難得多。早期原型僅代表了M. genitalium基因組中的127個基因,模擬結果幾乎不像實驗。分子生物學的范式感覺遠未完整。
時間到2008年,突然,Covert將整個訓練中收集的零散想法開始拼湊起來。
在加州理工學院,他曾用顯微鏡觀察單個細胞。全細胞模擬應當以近似一個細胞為目標,而非對多個細胞群體進行近似。與他的論文工作類似,這需要將不同細胞過程的不同數學表示整合到一個模型中。
他立即開始繪制單個M. genitalium細胞中每個細胞過程的模塊,雪球開始滾起來了。Covert招募了兩名研究生,Jonathan Karr 和 Jayodita Sanghvi,他們愿意參與這項新項目。
這兩位研究生花了兩年時間訪問多家研究圖書館,實地掃描了近千篇研究論文。他們正在尋找任何關于生殖分枝桿菌的分子信息。所有這些數據點,以及其他物種的理論假設和測量數據,都存儲在MySQL數據庫中。
隨著建模工作的擴展和完善,團隊也不斷壯大。他們采用了測試驅動開發,并向面向對象編程模型發展。每個離散的細胞過程和分子都被作為獨立對象表示,以幫助應對問題的復雜性。
另一個重要的建模假設是,“盡管所有這些生物過程在活細胞中同時發生,但它們的作用在不到一秒的時間內實際上是獨立的。”這意味著每個模塊——總共有28個——可以獨立執行每個一秒間隔。
目進行多年,沒有實證證據表明這一關鍵假設——或許多內置于模型中的假設——能真正產生結果。正如Covert回憶的那樣,“這是一次信念的飛躍。”
這款模型一開始性能極差。模擬與現實幾乎沒有對應關系。但經過一年多的調整和調試,實驗和數字成果開始趨于一致。
最終成果發表于2012年Cell上:每一個注釋的基因都被記錄在內。每個細胞過程都配備了不同的數學工具。
![]()
圖:A Whole-Cell Computational Model Predicts Phenotype from Genotype
雖然遠非完美,但全細胞模型近似了細胞的生長和分裂,產生的數值在廣泛的代謝數據范圍內相差一個數量級,并與實驗基因表達數據相關聯。
這是一大進步。設計核心元素之一是在模擬的每個步驟中引入“傳感器”讀取細胞狀態。借助這臺數字測量設備,他們用模型探索了廣泛的生物學問題。
這才是真正的“模型驅動的生物學發現”。正如Horowitz所設想的,預測與實驗之間的每一次差異,都是接近分子生物學“完整”理解的機會。
而且存在許多矛盾。作者完全承認這一點,并表示:“與人類基因組序列的首次報告類似,這里呈現的模型是'初稿',需要大量努力才能被視為模型完整。”
推進進展的一個主要瓶頸是與其他模式生物相比,生殖單粒菌缺乏實驗可處理性。該生物體較小的基因組幫助縮小了首個全細胞模型的挑戰范圍。但生殖單胞菌細胞體積小、抗生素耐藥性強以及缺乏成熟工具,使得實驗室中無法驗證某些預測。
自這項工作以來的十三年里,Covert的實驗室和其他團隊一直在大腸桿菌建模問題上不斷推進。雖然大腸桿菌是最簡單的模式生物之一,但其基因組幾乎比生殖單體單體大一個數量級,包含超過4,000個基因。
Covert認為自那以后已經取得了相當大的進展。他認為我們正接近一個“圖靈測試時刻”,即沒有任何大腸桿菌生物學家能可靠地檢測模擬結果與匹配實驗結果之間的差異。
對于研究最詳盡的微生物之一來說,模擬與現實可能很快難以區分。
對于擁有數十億DNA堿基對和數萬個基因的人類細胞來說,機制性全細胞模型的時間線則不那么確定。這可能仍然是一種信心的飛躍。
這又回到梯度下降的問題。假如細胞的計算機模型是我們應該從數據中學習的典型程序,而不是試圖手動定義和參數化呢?
![]()
范式轉變
硅谷自20世紀80年代以來發生了變化。雖然建筑環境依然令人沮喪地穩定,但科技卻爆發式增長。在全球十大最大公司中,有七家已成為科技公司。
能力越大,責任越大。
20世紀,安德魯·卡內基、約翰·D·洛克菲勒和亨利·福特向公共工程項目捐贈了前所未有的資金。全新的大學、研究機構、圖書館和醫院相繼成立。
這些都是新科技精英們必須承擔的重任,他們現在正努力如何最好地發揮新獲得的權力。與他們的前輩類似,硅谷慈善家早期的重點是科學研究。歷史不會重演,但常常押韻
一個核心例子是陳·扎克伯格倡議。CZI成立于2015年,馬克·扎克伯格和普莉西拉·陳宣布將通過CZI的努力捐贈他們99%的Facebook(現Meta)分享內容。
CZI的第一個重大項目是建立一個耗資30億美元的生物中心,為灣區三大生物醫學研究機構——加州大學舊金山分校、伯克利大學和斯坦福大學——提供新的資源。
生物中心的創始使命是“在本世紀末治愈、預防和管理所有疾病”,這一觀點立即引發了極大分歧。
起初,科學家們——包括CZI首任科學主管Steve Quake——對此嗤之以鼻。Quake開玩笑道:“我可沒法正經地說......我不知道你為什么雇我,因為我說不出任務。”
但漸漸地,這個想法被他和其他科學家接受了。在大多數研究依賴于官僚主義且日益保守的NIH,新機構是件好事。更關鍵的是,更長的資金周期意味著科學家們可以采取更大膽的賭注。將這些項目堆疊起來超過一個世紀,誰知道會發生什么?
據Quake說,CZI的“未來十年的終極目標是理解細胞的奧秘。”
其理由有兩個。
首先,人工智能正在發生。他們認為蛋白質是這些技術在生物學中的首次突破性應用,但不會是最后一個。
其次,AI需要大量數據。AlphaFold及后續蛋白質模型之所以成為可能,正是因為研究人員數十年來貢獻的晶體結構數據庫。在細胞數據方面,CZI在開發龐大的單細胞基因組測量圖譜上投入巨大。
也許這些龐大的單細胞數據集能夠推動人工智能模型在預測細胞行為方面的性能發生重大變化。
2024年3月,CZI的AI團隊由Theofanis Karaletsos領導。首要任務是在舊金山生物中心舉辦一個工作坊,開始更詳細地勾勒這個論點。他們召集了一群頂尖的人工智能研究人員和單細胞生物學家,共同探討可能實現的方案。
![]()
最終,研討會上的對話幫助統一了每個實驗室正在發展的想法。經過數月的積累,這些想法被濃縮成一篇題為《如何用人工智能構建虛擬細胞:優先事項與機遇》的文章。
在引言中,作者概述了此前在細胞模擬領域的努力。科弗特2012年的“開創性工作”被認為是一個重要里程碑。
但也指出了自下而上的機械方法面臨的挑戰。
細胞由一組多樣且極其復雜的過程組成。每個過程都跨越從原子到整個身體組織系統的尺度。更糟糕的是,細胞行為往往是非線性的,信號的細微差異可能導致下游發生巨大變化。
我們是否有可能實現對哺乳動物細胞的完整自下而上的數學描述?什么時候?
相反,作者提出了另一種方法:“科學與技術領域的兩場激動人心的革命——人工智能和組學——現在使得直接從數據學習的細胞模型能夠構建起來。”
或許他們說得對,在幾乎所有數據充足的計算機建模領域,學習模型都優于更詳細的機制模型。
考慮自然語言處理。數十年研究構建了極其細致的語言學和語義模型,這些模型后來被Transformer取代。Transformer是一種通用方法,可以隨數據擴展并計算出豐富的語言表示。
CZI論文中提出的論點是,我們應該對細胞生物學進行同樣的測試。但我們沒有互聯網數據,而是基于組學數據進行構建。測序技術的進步甚至超過了摩爾定律。
![]()
自人類基因組計劃以來,隨著DNA測序技術的指數級進步,我們現在可以制作出極其宏大的單細胞測量圖譜。與其費盡心思地基于人類知識開發數學模型,不如直接從這些數據中學習細胞動力學呢?
在AI虛擬細胞(AIVC)方法中,我們應重點利用通用學習方法捕捉每個主要細胞構建模塊的通用表征(UR),如DNA、RNA和蛋白質。
再說一次,把它看作是一個大型套娃,由不同生物模型模型組成。DNA模型。RNA模型。蛋白質模型。以及一個模型,將這些信息整合進細胞行為快照中,結合顯微鏡、蛋白質組學或RNA測序等數據類型。最終,將這些模型連接起來,以表示多細胞相互作用。
![]()
這個策略中最反直覺的部分可能是成功應是什么樣子。
我們會有一個細胞生物學的模型——只是我們根本無法理解它!
本質上,我們是在用虛擬模擬體替換物理細胞。主要好處是虛擬實驗的規模是物理實驗無法做到的。理論上,我們可以用這些模型檢驗數十億甚至數萬億個假設。如果結果看起來有希望,可以在物理現實中得到驗證。
像大多數觀點一樣,AIVC論文試圖整合許多已經在討論中的觀點。許多作者已經花費多年時間測試相關方法。像2023年發布的通用細胞嵌入模型展示了如何將蛋白質模型與RNA數據整合以創建細胞表征。其他架構如GEARS和scGPT已經開發出來,用于模擬細胞擾動。
核心信息是,這一研究方向是最有前景的道路。論文總結道:“我們相信,我們正邁入一個科學探索和理解的新時代。AIVC所體現的人工智能與生物學的融合,標志著生物學領域的范式轉變。
![]()
挑戰仍在
非凡的主張需要非凡的證據。每當新的建模范式出現時,其他科學家都會立即試圖對其提出漏洞。通常,主張越宏大,回應越快、越大規模。
隨著AI細胞模型的出現,第三方基準和評估開始陸續出現。其中一些結果相當令人驚訝。
2024年9月,一組德國經驗豐富的生物統計學家發布了一份預印本,比較了許多最早用于擾動預測的人工智能模型與“刻意簡化”的線性模型。
預測對擾動的反應已成為AIVC研究人員的主要關注領域。通過像CRISPR這樣的實驗工具,特定基因可以被上調或下調,就像打開大型細胞控制面板上的節點一樣。
通過RNA測序,可以根據作看到哪些基因被調高或降低。像Perturb-seq這樣的方法被發明出來,以大規模實現這一目標。
因此,德國實驗室評估了模型在兩個基因同時上調時,預測這些反應的準確度。
反直覺的是,簡單模型的錯誤率低于復雜的人工智能模型。
![]()
圖:基于深度學習的基因擾動效應預測尚未超過簡單的線性基線
用于這類預測任務的人工智能模型顯然很有前景。線性基線的開發者寫道:“我們不認為基礎模型在預測任務中的負面結果是反對該研究方向的理由......Transformer架構和轉移學習范式為許多機器學習任務帶來的進展是真實且實質性的。
但最初的實現仍感覺遠未達到基準開發者所說的“非凡洞見”。
詢問了AIVC觀點的主要作者Yanay Rosen和Yusuf Roohani,他們如何解讀這些結果。兩位研究者都坦率承認這些早期原型模型的局限性。
Rosen還指出,在創建通用細胞嵌入的任務中,AI模型已經產生了無法用更簡單方法捕捉的結果。這些方法使得在單一共享坐標空間中表示不同數據集、組織類型甚至物種的細胞成為可能。
最近,CZI的人工智能團隊通過發布Transcriptformer模型,進一步拓展了這一研究方向。該模型基于來自12個不同物種的1.12億多個細胞進行訓練,涵蓋了15億年的進化距離,設計用于廣泛的預測任務。
CZI團隊在新聞稿中寫道:“研究人員可以使用TranscriptForformer預測不同類型的細胞,細胞是否病變,以及基因之間的相互作用。”
相對于所有細胞進行定位任務,人工智能模型似乎有足夠的數據發揮作用。但在預測細胞在受擾時的變化動態方面,現有數據和模型似乎不足以實現。
但這種情況開始改變,
Roohani目前領導Arc Institute的機器學習研究組,他對與實驗者更緊密的融合感到非常興奮。Arc Institute是另一項大型科技慈善項目,推出了自己的虛擬細胞圖譜項目。主要關注點是大規模數據生成。
Arc團隊發布了該研究項目的新結果。他們的新模型名為STATE,似乎是擾動預測領域的一大進步。你可以看到基準測試開發者與方法開發者之間的互動:線性基線現在成為了核心。而這一次,模型似乎更有效地捕捉到“非凡洞見”。
性能提升的關鍵驅動力來自于對數據中生物噪聲的更細致表現。細胞本質上是噪聲大、異質的系統——與之交互的實驗也帶來了自身的局限。STATE利用數學來考慮可能掩蓋真實信號的生物和實驗噪聲。
當他們這樣做時,會發生一件非常重要的事情:模型的性能似乎隨著數據的增加而顯著提升。
最近,Tahoe開源了一個龐大的數據集,涵蓋了1億個不同細胞中的6萬次藥物擾動——遠遠超過所有其他公開的單細胞數據集。經過如此規模的數據和細胞環境多樣性的訓練,State模型能夠推廣到更廣泛的擾動預測。
總體而言,State的性能和靈活性為虛擬細胞模型的擴展奠定了基礎。
![]()
那么,什么是虛擬細胞?讓我們先從它們不是什么說起。
聽到這個詞,很難不想象一個細胞在旋轉三維光輝中華麗的圖形表現。關鍵是,每一個分子機械的表現都會像在真實細胞內一樣。
科學家們還沒有在構建這些——至少目前還沒有。
對Covert來說,更合適的類比是氣象模擬。正如他和他的研究團隊在他們最近的觀點中所寫:“數值天氣預報是一項綜合性工作,旨在將來自全球和空間、跨越多個時間尺度的觀測數據整合到一個數學模型中,該模型既能保持全球系統的初始狀態,還能提前幾天預測大氣變化。”
他和其他人希望建立一個能夠模擬微生物系統的等效數學模型。正如Morowitz
在20世紀80年代設想的那樣,這些模型中的每一個故障都可以被視為我們分子生物學更廣泛地圖中的負空間。
人工智能研究人員對這個問題的看法不同。他們讓數據自行說明。第一個目標是預測,而不是理解。
如果這些模型獲得了極強的預測能力呢?真正的工作才剛剛開始。借助儀器,生物學家能夠以實驗室難以想象的控制大規模細胞。
隨著時間推移,這些獨特的聲音可能會融合。自下而上的機械建模工作可能會開始將人工智能方法整合進他們的系統。
同樣,隨著AIVC的研究工作超越RNA,模型架構將變得越來越復雜。具有不同生物過程不同模塊的分層系統將開始類似于全細胞模擬領域的方法。
目前,Arc Institute的目標更簡單:讓現有模型足夠好,讓實驗者采納并使用它們。就像“GPT時刻”一樣。
未來,細胞生物學將從“90%實驗、10%計算”,反過來。
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.