網易首頁 > 網易號 > 正文申請入駐

超長記憶讓AI開始改寫小鼠DNA | 前沿動態

2026-04-04 10:08:16　來源: 科技導報

北京舉報

分享至

原文發表于《科技導報》2026年第5期科技新聞-前沿動態

超長記憶讓AI開始改寫小鼠的DNA

Evo2的工作模式及用途

（圖片來源：斯坦福大學官網）

繼2008年人類首次化學合成生殖支原體基因組后，合成生物學領域今日迎來了一項被譽為“ChatGPT時刻”的范式突破。由Arc研究所、斯坦福大學、NVIDIA及加州大學伯克利分校等機構聯合研發的生物基礎模型——Evo2正式對外公布。該模型基于9萬億個DNA堿基對訓練而成，不僅能夠高精度預測基因突變的致病性，更實現了從頭設計長達百萬堿基對的復雜基因組序列，標志著生命代碼的操縱從“微調編輯”正式跨入“生成式編程”時代。2026年3月4日，相關研究成果發表于Nature。

人類基因組的建模一直受困于序列極長且包含大量長程依賴的特征。傳統的Transformer架構在處理長序列時計算量呈平方級增長，難以完整“閱讀”長達數百萬堿基的遺傳信息。Evo2憑借創新的StripedHyena2混合架構（結合了卷積和注意力機制），成功將“工作記憶”（上下文窗口）擴展至100萬堿基對，并保持單核苷酸級的分辨率。這意味著AI不再只能分析基因片段，而是具備了理解整本“基因組小說”的能力，其處理吞吐量是傳統模型的3倍以上。

該模型在一個龐大、經過科學策劃的數據集OpenGenome2上訓練，該數據集包含約8.8萬億個來自細菌、古菌、真核生物和噬菌體的核苷酸，同時出于生物安全考慮，有意排除感染真核宿主的病毒。

Evo2的性能主要在2個關鍵方向上進行評估：

一是預測，即判斷特定DNA突變或其他遺傳變異是否會導致疾病或功能喪失；
二是生成，即在指導條件下進行合成DNA序列的從頭設計（deno‐vodesign）。

在針對BRCA1和BRCA2等關鍵致病基因的測試中，模型在無需任何任務特異性微調的情況下，識別致病突變的準確率超過90%。更具突破性的是，研究團隊引導Evo2設計了特定的DNA序列，并將包含“EVO2”、“ARC”和“LO”（這是互聯網傳輸的第一條信息）字樣的摩斯密碼信息成功編碼進小鼠細胞的染色質拓撲結構中，并通過評價基因轉錄性的實驗驗證。

研究團隊利用稀疏自編碼器（SAEs）對Evo2的內部表示進行機制可解釋性分析，從而識別出與具體生物學功能相關的潛在特征，例如外顯子-內含子邊界、噬菌體相關基因組區域以及與遺傳突變模式相關的編碼特征。這表明Evo2在訓練過程中自動學習到基因組結構規律，而不僅僅是統計模式。

盡管Evo2生成的線粒體和細菌基因組在計算機預測中顯示70%的基因結構“看起來很合理”，但合成生物學家依然保持警惕。瓦赫寧根大學教授Nico‐Claassens指出：“生命設計不能只完成70%。只要有一個關鍵代謝位點存在語法錯誤，整個合成生命就無法正常運行”。此外，德克薩斯大學奧斯汀分校的獨立評估顯示，Evo2生成的長序列在處理高重復序列（如異染色質區域）時容易發生“低復雜度崩潰”，表現出明顯的同質化偏差。

Evo2標志著生物學研究范式的一次重要轉變：從以往針對單一生物組分的分析，邁向對整個基因組復雜性的整體建模。憑借超長上下文窗口及機制層面的關鍵創新，該模型能夠識別并解析普遍性的進化規律，并實現從單細胞生物到人類等復雜生命系統的跨尺度泛化。

（綜合：《中國科學報》、Nature、斯坦福大學官網）

《科技導報》創刊于1980年，中國科協學術會刊，主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述，發表促進經濟社會發展、完善科技管理、優化科研環境、培育科學文化、促進科技創新和科技成果轉化的決策咨詢建議。常設欄目有院士卷首語、科技新聞、科技評論、本刊專稿、特色專題、研究論文、政策建議、科技人文等。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.