Evo-2登上Nature：AI模型實現(xiàn)對所有生命基因組的建模和設(shè)計，甚至能從頭設(shè)計生命

2026-03-09 14:48:51　來源: 生物世界

上海舉報

分享至

撰文丨王聰

編輯丨王多魚

排版丨水成文

所有生命都是用 DNA 編碼信息。盡管基因組測序、合成和基因組編輯工具已經(jīng)改變了生物學(xué)研究，但我們對基因組所編碼的巨大復(fù)雜性的理解，仍不充分，無法預(yù)測許多類型的基因組變化的影響，也無法智能地構(gòu)建新的生物系統(tǒng)。

飛速發(fā)展的人工智能模型（AI Model）能夠從不同生物的基因組序列中學(xué)習(xí)、提取信息，其預(yù)測和設(shè)計能力日益增強，為我們實現(xiàn)預(yù)測生命和設(shè)計生命提供了前所未有的機會。

2026 年 3 月 4 日，Arc 研究所的Patrick Hsu和Brian Hie團隊聯(lián)合斯坦福大學(xué)、加州大學(xué)伯克利分校、加州大學(xué)舊金山分校以及英偉達(dá)的科學(xué)家，在國際頂尖學(xué)術(shù)期刊Nature上發(fā)表了題為：Genome modelling and design across all domains of life with Evo 2 的研究論文。

這標(biāo)志著有史以來最大的生物學(xué)人工智能模型（AI model for biology）——Evo-2，經(jīng)過了同行評議后正式發(fā)表。該模型訓(xùn)練了從病毒到單細(xì)胞的細(xì)菌、古菌，再到真核生物以及多細(xì)胞的植物以及人類的生命之樹中的 12.8 萬個基因組的9.3 萬億個核苷酸，從而能夠?qū)崿F(xiàn)對所有生命域的理解、建模和設(shè)計遺傳密碼，從頭開始編寫整個染色體，甚至從頭設(shè)計生命，還能準(zhǔn)確預(yù)測所有類型的基因突變（包括編碼基因和非編碼基因）的影響。

Evo-2 的訓(xùn)練使用了 2000 多個英偉達(dá) H100 GPU，并得到了英偉達(dá)研究人員和工程師的合作支持。更重要的是，Evo-2 是完全開源的，在 GitHub 上共享了模型參數(shù)、訓(xùn)練代碼、推理代碼以及訓(xùn)練使用的 OpenGenome 2 數(shù)據(jù)集。世界各地的研究人員可以通過英偉達(dá) BioNeMo 平臺免費訪問以及部署 Evo-2，從而加速對生物復(fù)雜性的探索和設(shè)計。

Evo-1

2024 年 11 月 15 日，Patrick Hsu和Brian Hie團隊在國際頂尖學(xué)術(shù)期刊Sciencce上發(fā)表了題為：Sequence modeling and design from molecular to genome scale with Evo 的研究論文，該論文還被選為當(dāng)期封面論文。

該論文發(fā)布了首個在全基因組規(guī)模上以單核苷酸分辨率預(yù)測和生成 DNA 序列的 AI 模型——Evo。

Evo是在原核生物（細(xì)菌、古菌）和噬菌體的基因組上進行訓(xùn)練，能夠在 DNA、RNA 和蛋白質(zhì)模式下實現(xiàn)零樣本功能預(yù)測，還能夠生成長度超過百萬堿基對的具有合理基因組結(jié)構(gòu)的 DNA 序列。研究團隊使用 Evo 生成了CRISPR-Cas分子復(fù)合物和IS200/IS605轉(zhuǎn)座子，并驗證了它們的功能活性，這也是首次通過語言模型實現(xiàn)蛋白質(zhì)-RNA 和蛋白質(zhì)-DNA 協(xié)同設(shè)計的實例。

Brian Hie（左）和Patrick Hsu（右）

Evo-2

所有生命都以DNA編碼信息，就像人類用語言記錄思想。盡管基因測序、合成和編輯技術(shù)已經(jīng)相當(dāng)成熟，但我們?nèi)匀浑y以完全理解基因組中蘊含的復(fù)雜信息，更無法精準(zhǔn)預(yù)測基因突變的影響或智能設(shè)計新的生物系統(tǒng)。

Evo-2的核心理念是將DNA視為一種“生命語言”，通過大規(guī)模無監(jiān)督學(xué)習(xí)，讓 AI 自行掌握這種語言的語法和語義。

Evo-2 的前身 Evo 完全是在單細(xì)胞生命的基因組上進行訓(xùn)練的，而 Evo-2 進一步將其訓(xùn)練數(shù)據(jù)擴展到了生命的所有域——從細(xì)菌、古細(xì)菌、噬菌體，以及植物、動物、人類和其它單細(xì)胞和多細(xì)胞的真核生物，總計12.8 萬個全基因組和宏基因組數(shù)據(jù)的 9.3 萬億個核苷酸（包含編碼序列和非編碼序列），訓(xùn)練參數(shù)高達(dá) 400 億（Evo-2 有兩個版本，訓(xùn)練參數(shù)分別是 70 億和 400 億）。訓(xùn)練過程使用了超過 2000 張英偉達(dá) H100 GPU，持續(xù)數(shù)月時間，規(guī)模接近頂尖通用大模型。

Evo-2 最引人注目的技術(shù)突破是其 100 萬個 token 的上下文窗口，相當(dāng)于能夠一次性處理長達(dá) 100 萬堿基對的 DNA 序列。

在生物學(xué)中，許多關(guān)鍵功能依賴于長距離相互作用。例如，一個增強子可能距離它調(diào)控的基因數(shù)十萬堿基之遙，通過染色體折疊在三維空間上接觸目標(biāo)基因。而傳統(tǒng)模型受限于上下文長度，難以捕捉這種長距離相互作用關(guān)系。

為了實現(xiàn)這一能力，研究團隊使用全新的StripedHyena 2架構(gòu)，這是一種新的卷積混合架構(gòu)，融合了輸入依賴卷積和注意力機制，相比 Transformer 架構(gòu)，能夠大幅提高訓(xùn)練速度和推理效率，在處理長序列時比標(biāo)準(zhǔn) Transformer 快了 3 倍，顯存占用也更低。

Evo-2 的模型架構(gòu)、訓(xùn)練程序、數(shù)據(jù)集和評估概述

核心能力：預(yù)測與生成的雙重突破

1、零樣本預(yù)測基因突變的影響

Evo-2 最強大的能力之一是零樣本預(yù)測——無需針對特定任務(wù)進行微調(diào)，就能準(zhǔn)確評估基因突變的功能影響。

在 ClinVar 數(shù)據(jù)庫（包含人類疾病相關(guān)變異注釋）的測試中，Evo-2 表現(xiàn)出色——

編碼區(qū)單核苷酸突變：AUROC 達(dá)到 0.841，雖然略低于專門訓(xùn)練的 AlphaMissense（0.958），但作為通用模型已相當(dāng)出色。
非編碼區(qū)突變：表現(xiàn)尤為突出，AUROC 高達(dá) 0.987，顯著優(yōu)于其他模型。
復(fù)雜變異類型：對于插入、缺失、重復(fù)等非單核苷酸突變，Evo-2 更是全面領(lǐng)先。

精準(zhǔn)預(yù)測剪接突變

剪接是基因表達(dá)的關(guān)鍵步驟，剪接錯誤與多種疾病相關(guān)。在 SpliceVarDB 數(shù)據(jù)集（包含實驗驗證的剪接突變）上，Evo-2 在內(nèi)含子突變預(yù)測中與專業(yè)監(jiān)督模型競爭激烈，略低于 SpliceAI 和 CADD，但優(yōu)于 Pangolin；在外顯子突變預(yù)測中，雖然落后于專業(yè)模型，但超越了所有零樣本模型。

生成完整的基因組序列

除了預(yù)測，Evo-2 還能生成全新的DNA序列。研究團隊用它生成了——

線粒體基因組（細(xì)胞中的能量工廠的遺傳物質(zhì)）
最小細(xì)菌基因組（生殖支原體）
酵母染色體（真核生物，染色體長達(dá) 33 萬堿基對）。

這些生成的序列在結(jié)構(gòu)上與自然序列高度相似，rRNA、tRNA 的數(shù)量分布也接近天然基因組。

Evo-2 跨越生命域的基因組規(guī)模的生成能力

重點應(yīng)用：從臨床診斷到合成生物學(xué)

臨床基因突變解讀與精準(zhǔn)醫(yī)療

BRCA1是著名的乳腺癌易感基因，準(zhǔn)確預(yù)測其突變后果對風(fēng)險評估和預(yù)防策略至關(guān)重要。該研究顯示，Evo-2 在沒有針對特定任務(wù)進行訓(xùn)練（即零樣本）的情況下，能夠準(zhǔn)確預(yù)測 BRCA1 基因的編碼區(qū)和非編碼區(qū)單核苷酸突變，這一能力擴展到相關(guān)基因 BRCA2 時同樣突出，這表明了 Evo-2 是一個有效的零樣本預(yù)測器，能夠廣泛應(yīng)用于多種類型的人類功能性基因突變評估。

合成生物學(xué)與基因組工程

Evo-2 的生成能力為合成生物學(xué)開辟了新可能。通過推理時搜索技術(shù)，研究人員可以引導(dǎo)模型設(shè)計具有特定功能的 DNA 序列。例如，團隊成功設(shè)計了具有預(yù)設(shè)染色質(zhì)可及性模式的序列，甚至在表觀基因組上“寫”出了“EVO2”、“ARC”這樣的摩斯電碼。這種可控生成能力，使得定制化設(shè)計啟動子、增強子等調(diào)控元件成為可能。

基礎(chǔ)生物學(xué)研究

Evo-2 的內(nèi)部表示捕捉了多種生物學(xué)特征，包括外顯子-內(nèi)含子邊界（基因的結(jié)構(gòu)單元）、轉(zhuǎn)錄因子結(jié)合位點（基因開關(guān)）、蛋白質(zhì)結(jié)構(gòu)元素（α螺旋、β折疊）、噬菌體基因組區(qū)域（細(xì)菌病毒的遺傳物質(zhì)）。這些發(fā)現(xiàn)不僅驗證了模型的學(xué)習(xí)能力，也為發(fā)現(xiàn)新的功能元件提供了工具。

開放生態(tài)：加速生命科學(xué)創(chuàng)新

與許多封閉的 AI 模型不同，Evo-2 實現(xiàn)了完全開源——包括模型參數(shù)、訓(xùn)練代碼、推理代碼以及 OpenGenome2 數(shù)據(jù)集。

這種開放性對生物計算領(lǐng)域是結(jié)構(gòu)性的事件。長期以來，該領(lǐng)域被工具生態(tài)割裂、數(shù)據(jù)許可復(fù)雜、基準(zhǔn)標(biāo)準(zhǔn)不統(tǒng)一所困擾。Evo-2 的完全開源意味著它不是一個“演示模型”，而是一個可能成為標(biāo)準(zhǔn)生態(tài)的平臺。

生物學(xué)開始擁有自己的“通用底座”，研究人員可以在其基礎(chǔ)上開發(fā)各種應(yīng)用，加速整個領(lǐng)域的創(chuàng)新。

生物安全與倫理考量

值得一提的是，研究團隊在生物安全方面采取了謹(jǐn)慎措施，在訓(xùn)練數(shù)據(jù)中排除了能夠感染真核生物的病毒序列，以確保模型不會被濫用于設(shè)計和操縱致病性病毒。

這一策略不僅降低了潛在的生物安全風(fēng)險，也體現(xiàn)了對倫理問題的高度重視。團隊驗證了這些數(shù)據(jù)排除導(dǎo)致模型對真核病毒基因組序列的建模性能較差，表明數(shù)據(jù)排除達(dá)到了預(yù)期效果。

總的來說，Evo 系列模型為生物學(xué)建模與設(shè)計奠定了基礎(chǔ)，該框架通過統(tǒng)一的表征方式整合了生物學(xué)的多尺度特征。這些能力結(jié)合大規(guī)模 DNA 操作技術(shù)，或?qū)崿F(xiàn)更復(fù)雜生物功能的可編程設(shè)計。預(yù)計未來通過整合基因組序列數(shù)據(jù)與其他模態(tài)數(shù)據(jù)，有望開發(fā)出能夠有效模擬健康與疾病狀態(tài)下復(fù)雜表型的模型。

Evo-2 的出現(xiàn)標(biāo)志著生命科學(xué)正站在一個新時代的門檻，當(dāng) AI 不僅能讀懂基因組的“語言”，還能像作家一樣創(chuàng)作全新的生命代碼，我們對于生命的理解和設(shè)計能力將發(fā)生質(zhì)的飛躍。

論文鏈接：

https://www.nature.com/articles/s41586-026-10176-5

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.