![]()
編輯丨coisini
還記得 Evo 嗎?
2024 年,由 Arc 研究所(Arc Institute)、斯坦福大學(xué)等聯(lián)合開發(fā)的生物學(xué)人工智能(AI)模型 Evo(下稱 Evo 1)問世,今年 2 月研究團隊又重磅推出 Evo 2—— 能夠預(yù)測所有物種 DNA、RNA、蛋白質(zhì)的形式和功能。
現(xiàn)在,研究團隊宣布使用 Evo 1 和 Evo 2 構(gòu)建了全球首個 AI 生成的基因組(一種噬菌體基因組),Evo 研究團隊主要成員、斯坦福大學(xué)計算生物學(xué)家 Brian Hie 表示:「生成式基因設(shè)計時代到來了!」
![]()
這項研究表明基因組語言模型能夠捕捉進化約束,從而實現(xiàn)功能性基因組設(shè)計。在一定程度上,生物學(xué)迎來了「ChatGPT 時刻」。
![]()
研究論文:https://www.biorxiv.org/content/10.1101/2025.09.12.675911v1
從設(shè)計單個基因到構(gòu)建完整基因組
此前研究團隊已經(jīng)證明,Evo 系列基因組基礎(chǔ)模型能夠生成單一蛋白質(zhì)及多組分系統(tǒng),但其長期研究目標(biāo)之一是通過生物語言模型設(shè)計出完整且具有功能活性的基因組。
不同于設(shè)計單個基因,基因組設(shè)計需要協(xié)調(diào)多個相互作用的基因和調(diào)控元件,同時維持復(fù)制能力、宿主特異性與進化適應(yīng)性的平衡。這帶來了單蛋白質(zhì)或雙組分系統(tǒng)設(shè)計中不曾出現(xiàn)的新約束條件與失效模式。
![]()
研究團隊開發(fā)了集計算設(shè)計與實驗驗證于一體的綜合框架,包括針對重疊閱讀框的定制化基因注釋 pipeline、基因組語言模型采樣所需的系統(tǒng)化微調(diào)(systematic fine-tuning)與提示工程(prompt engineering)技術(shù),以及合成噬菌體基因組的新型篩選方案。
ΦX174:讀取、編寫與設(shè)計 DNA
由于合成基因組的生成需要明確的設(shè)計標(biāo)準(zhǔn),基于實踐與歷史意義考量,研究團隊選擇噬菌體 ΦX174 作為設(shè)計模板。其基因組全長 5386 個核苷酸,編碼 11 個基因 —— 這一尺度既處于當(dāng)前 DNA 合成成本可控上限,又足夠復(fù)雜以展現(xiàn)基因組級設(shè)計能力。其重疊基因架構(gòu)構(gòu)成了嚴(yán)格測試場景:重疊區(qū)域的突變必須同時滿足多個蛋白質(zhì)約束條件。此外,ΦX174 編碼的多種調(diào)控元件與識別序列需精密協(xié)作,確保在宿主細(xì)胞中的正確包裝與復(fù)制。
ΦX174 基因組還具有特殊歷史意義:1977 年,弗雷德里克?桑格團隊首次完成對其全基因組測序;2003 年,克雷格?文特爾團隊首次實現(xiàn)其全基因組化學(xué)合成,證明基因組可從頭組裝;如今在 2025 年,Evo 研究團隊以 ΦX174 為模板誕生了首批 AI 生成的基因組。這一演進歷程標(biāo)志著現(xiàn)代基因組學(xué)的核心能力迭代:從讀取 DNA,到編寫 DNA,再到設(shè)計 DNA。
![]()
構(gòu)建定制化基因注釋
ΦX174 的重疊基因帶來了首個重大挑戰(zhàn):由于重疊閱讀框會干擾標(biāo)準(zhǔn)基因預(yù)測工具的判斷(這些工具專為非重疊基因設(shè)計),常規(guī)方法最多只能識別 11 個基因中的 7 個。
因此,研究團隊開發(fā)了一種新型注釋 pipeline,將開放閱讀框查找策略與噬菌體蛋白質(zhì)數(shù)據(jù)庫同源搜索相結(jié)合,成功識別出 ΦX174 的全部 11 個基因。
該定制化注釋工具對評估數(shù)千條生成序列至關(guān)重要。研究團隊設(shè)定至少需匹配 7 個天然 ΦX174 蛋白作為基礎(chǔ)質(zhì)量篩選標(biāo)準(zhǔn),確保生成基因組保留噬菌體功能所需的遺傳工具包。
針對噬菌體基因生成對 Evo 進行微調(diào)
盡管基礎(chǔ) Evo 模型已基于 200 多萬個噬菌體基因組進行訓(xùn)練,具備生成噬菌體基因組序列的能力,但其可控性仍不足以生成類 ΦX174 基因組。
研究團隊采用監(jiān)督微調(diào)技術(shù)解決該問題:繼續(xù)使用 14466 條微病毒科序列對 Evo 模型進行訓(xùn)練。通過微調(diào),Evo 模型能專門生成與 ΦX174 密切相關(guān)的序列變體。
質(zhì)量、宿主特異性與新穎性評估
為評估數(shù)千條生成序列,研究團隊開發(fā)了基于序列質(zhì)量、宿主特異性和進化多樣性的篩選體系:既要確保基因組保持合理的基因排列,又要允許進化新穎性。同時需保證 AI 設(shè)計的噬菌體能感染實驗所用的非致病性大腸桿菌 C 株。
實驗表明,16 個功能性噬菌體均僅感染大腸桿菌 C 株及其近緣 W 株,在其他六種測試菌株中無生長現(xiàn)象,證明在保持宿主特異性的同時可實現(xiàn)其他區(qū)域的顯著進化分歧。
實驗驗證
![]()
測試數(shù)百個合成基因組需要重新設(shè)計傳統(tǒng)噬菌體工作流。研究團隊基于 ΦX174 的裂解周期開發(fā)了生長抑制檢測法:通過 Gibson 組裝合成基因組,轉(zhuǎn)化至大腸桿菌 C 感受態(tài)細(xì)胞,并在 96 孔板中監(jiān)測生長抑制情況。感染后在 2-3 小時內(nèi)會出現(xiàn) OD???值快速下降。
該方案實現(xiàn)了 285 種快速測試,其中 16 個引起生長抑制的候選噬菌體經(jīng)過測序驗證、擴增培養(yǎng),并進行了適應(yīng)性與宿主范圍表征。
所有功能性基因組與其最接近的天然基因組相比均攜帶 67-392 個新突變。其中 Evo-Φ2147 具有 392 個突變,與 NC51 噬菌體的平均核苷酸相似度為 93.0%,根據(jù)某些分類學(xué)標(biāo)準(zhǔn)可被視為新物種。13 個基因組含有任何已知天然序列中均未發(fā)現(xiàn)的突變,證明 Evo 能利用自然進化未曾采樣過的序列。
特別值得注意的是,合成噬菌體 Evo-Φ36 整合了遠緣噬菌體 G4 的 DNA 包裝 J 蛋白。冷凍電鏡分析顯示,較短的 G4 J 蛋白(25 個氨基酸 vs38 個氨基酸)在衣殼結(jié)構(gòu)中采取了獨特取向。這表明人工智能能夠協(xié)調(diào)復(fù)雜的補償性突變,使新型蛋白質(zhì)組合實現(xiàn)功能化。
![]()
總的來說,這項研究表明:基因組語言模型在經(jīng)過適當(dāng)?shù)挠?xùn)練和引導(dǎo)后,能夠很好地捕捉進化約束,從而實現(xiàn)功能性基因組設(shè)計。
隨著基因組語言模型的改進和合成成本的降低,全基因組設(shè)計可以探索自然選擇從未嘗試過的進化可能性,為生物技術(shù)和基礎(chǔ)研究開辟新的途徑。從讀取基因組,到編寫基因組,再到設(shè)計基因組,生物學(xué)研究將開啟新的篇章。
參考內(nèi)容:
https://arcinstitute.org/news/hie-king-first-synthetic-phage
https://x.com/samuelhking/status/1968329299364376698
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.