![]()
原文發表于 《科技導報》2026年第5期科技新聞-前沿動態
超長記憶讓AI開始改寫小鼠的DNA
![]()
Evo2的工作模式及用途
(圖片來源:斯坦福大學官網)
繼2008年人類首次化學合成生殖支原體基因組后,合成生物學領域今日迎來了一項被譽為“ChatGPT時刻”的范式突破。由Arc研究所、斯坦福大學、NVIDIA及加州大學伯克利分校等機構聯合研發的生物基礎模型——Evo2正式對外公布。該模型基于9萬億個DNA堿基對訓練而成,不僅能夠高精度預測基因突變的致病性,更實現了從頭設計長達百萬堿基對的復雜基因組序列,標志著生命代碼的操縱從“微調編輯”正式跨入“生成式編程”時代。2026年3月4日,相關研究成果發表于Nature。
人類基因組的建模一直受困于序列極長且包含大量長程依賴的特征。傳統的Transformer架構在處理長序列時計算量呈平方級增長,難以完整“閱讀”長達數百萬堿基的遺傳信息。Evo2憑借創新的StripedHyena2混合架構(結合了卷積和注意力機制),成功將“工作記憶”(上下文窗口)擴展至100萬堿基對,并保持單核苷酸級的分辨率。這意味著AI不再只能分析基因片段,而是具備了理解整本“基因組小說”的能力,其處理吞吐量是傳統模型的3倍以上。
該模型在一個龐大、經過科學策劃的數據集OpenGenome2上訓練,該數據集包含約8.8萬億個來自細菌、古菌、真核生物和噬菌體的核苷酸,同時出于生物安全考慮,有意排除感染真核宿主的病毒。
Evo2的性能主要在2個關鍵方向上進行評估:
一是預測,即判斷特定DNA突變或其他遺傳變異是否會導致疾病或功能喪失;
二是生成,即在指導條件下進行合成DNA序列的從頭設計(deno‐vodesign)。
在針對BRCA1和BRCA2等關鍵致病基因的測試中,模型在無需任何任務特異性微調的情況下,識別致病突變的準確率超過90%。更具突破性的是,研究團隊引導Evo2設計了特定的DNA序列,并將包含“EVO2”、“ARC”和“LO”(這是互聯網傳輸的第一條信息)字樣的摩斯密碼信息成功編碼進小鼠細胞的染色質拓撲結構中,并通過評價基因轉錄性的實驗驗證。
研究團隊利用稀疏自編碼器(SAEs)對Evo2的內部表示進行機制可解釋性分析,從而識別出與具體生物學功能相關的潛在特征,例如外顯子-內含子邊界、噬菌體相關基因組區域以及與遺傳突變模式相關的編碼特征。這表明Evo2在訓練過程中自動學習到基因組結構規律,而不僅僅是統計模式。
盡管Evo2生成的線粒體和細菌基因組在計算機預測中顯示70%的基因結構“看起來很合理”,但合成生物學家依然保持警惕。瓦赫寧根大學教授Nico‐Claassens指出:“生命設計不能只完成70%。只要有一個關鍵代謝位點存在語法錯誤,整個合成生命就無法正常運行”。此外,德克薩斯大學奧斯汀分校的獨立評估顯示,Evo2生成的長序列在處理高重復序列(如異染色質區域)時容易發生“低復雜度崩潰”,表現出明顯的同質化偏差。
Evo2標志著生物學研究范式的一次重要轉變:從以往針對單一生物組分的分析,邁向對整個基因組復雜性的整體建模。憑借超長上下文窗口及機制層面的關鍵創新,該模型能夠識別并解析普遍性的進化規律,并實現從單細胞生物到人類等復雜生命系統的跨尺度泛化。
(綜合:《中國科學報》、Nature、斯坦福大學官網)
《科技導報》創刊于1980年,中國科協學術會刊,主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述,發表促進經濟社會發展、完善科技管理、優化科研環境、培育科學文化、促進科技創新和科技成果轉化的決策咨詢建議。常設欄目有院士卷首語、科技新聞、科技評論、本刊專稿、特色專題、研究論文、政策建議、科技人文等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.