![]()
撰文丨易
理解生命藍圖的復雜性是生物學的核心挑戰之一。DNA作為所有生命形式的信息載體,其序列編碼了從分子功能到系統行為的全部指令。盡管基因組測序、合成和編輯技術已取得長足進步,但我們仍然缺乏足夠的知識來預測大多數基因組變化的影響,或是有邏輯地設計全新的生物系統。傳統方法在解析非編碼區域的功能、理解跨物種的保守性以及從零開始設計功能性基因組方面存在顯著瓶頸。近年來,從海量生物序列數據中學習的人工智能模型,為預測和設計生物功能提供了新的可能。然而,現有的模型通常在數據廣度(覆蓋所有生命域)、序列上下文長度(理解長距離基因組相互作用)以及多功能性(統一處理DNA、RNA和蛋白質)方面存在局限。Evo 1等先前模型主要專注于原核生物,對更復雜、含有大量非編碼區的真核基因組建模能力不足。因此,開發一個能夠整合所有生命形式、跨越不同生物組織層次、并兼具強大預測與生成能力的通用基因組基礎模型,成為推動計算生物學和合成生物學發展的關鍵需求。
近日,美國弧形研究所Brian L. Hie和Patrick D. Hsu在Nature期刊發表題為Genome modelling and design across all domains of life with Evo 2的研究論文,開發了能夠統一理解并設計生命全領域基因組的Evo 2模型,它不僅實現了在基因組序列變異功能預測方面的突破,還能在外部功能模型的引導下生成具有預設表觀遺傳模式的合成DNA序列。
![]()
研究團隊 首先利用了一個覆蓋細菌、古菌、真核生物和噬菌體、包含超過9萬億個DNA堿基對的超大規模基因組數據集,并采用創新的StripedHyena 2卷積混合架構,訓練出了擁有百萬個token上下文窗口的基礎模型Evo 2。該方法使模型具備了理解長程基因組相互作用的空前能力。結果顯示,Evo 2能夠零樣本地準確預測遺傳變異的功能影響,其序列似然度的變化精準反映了從啟動子、密碼子到不同物種遺傳密碼的進化約束,并在人類臨床變異預測上實現了對以往通用模型的超越,特別是在非SNV變異和BRCA1非編碼區變異預測上表現優異。
隨后, 研究團隊 通過可解釋性分析技術,對模型內部的表示進行了解析。利用稀疏自編碼器分析Evo 2的神經元激活模式,該方法揭示出模型內部自發學習到了豐富且可解釋的生物學特征。研究結果證實,模型學到的抽象特征直接關聯于外顯子-內含子邊界、轉錄因子結合位點、蛋白質二級結構乃至原噬菌體區域等多種核心生物元件,表明這個模型確實建立了對基因組語法和語義的深度理解。
進一步, 研究團隊 評估了Evo 2作為生成模型的強大能力。通過設計基因補全、細胞器及微型基因組生成等一系列任務,該方法展示了模型從提示信息中生成連貫、合理生物序列的潛力。結果表明,Evo 2生成的線粒體基因組在基因組成和順序上高度仿真,生成的原核基因組中大部分基因含有有意義的蛋白質結構域,其生成的蛋白質在長度和二級結構分布上與天然蛋白相似,證明了其在基因組尺度設計的可行性。
然后,作者將Evo 2的生成能力與外部預測模型結合,開創性地提出了一個推理時引導的設計范式。該方法的核心是利用Evo 2作為序列生成器,同時以染色質可及性預測模型作為“指導評分函數”,通過波束搜索技術進行優化。研究結果取得了突破性成功:Evo 2成功生成了包含特定“莫爾斯電碼”圖案在內的復雜染色質開放模式的DNA序列,并將這些序列在小鼠和人類細胞中進行了實驗驗證。實驗測得的染色質可及性圖譜與設計目標高度吻合,準確率極高,且生成序列中富含與細胞類型相關的轉錄因子結合基序,展現出超越簡單隨機生成策略的生物學合理性。
總結而言,本研究通過構建一個超大規模、長上下文的基因組基礎模型Evo 2,系統性地結合了零樣本預測、可解釋性分析、大規模序列生成和推理時引導設計等多種方法。其結果不僅證明了該模型在理解遺傳密碼、預測變異影響方面達到了新的高度,更重要的是,它成功地將強大的生成能力與特定的功能設計目標相結合,首次實現了對哺乳動物細胞表觀基因組狀態的按需編程,為人工智能驅動的基因組理解和設計建立了全新的強大平臺。
https://doi.org/10.1038/s41586-026-10176-5
制版人: 十一
學術合作組織
(*排名不分先后)
![]()
戰略合作伙伴
(*排名不分先后)
![]()
![]()
轉載須知
【原創文章】BioArt原創文章,歡迎個人轉發分享,未經允許禁止轉載,所刊登的所有作品的著作權均為BioArt所擁有。BioArt保留所有法定權利,違者必究。
BioArt
Med
Plants
人才招聘
![]()
點擊主頁推薦活動
關注更多最新活動!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.