![]()
撰文丨王聰
編輯丨王多魚
排版丨水成文
所有生命都是用 DNA 編碼信息。盡管基因組測序、合成和基因組編輯工具已經(jīng)改變了生物學(xué)研究,但我們對基因組所編碼的巨大復(fù)雜性的理解,仍不充分,無法預(yù)測許多類型的基因組變化的影響,也無法智能地構(gòu)建新的生物系統(tǒng)。
飛速發(fā)展的人工智能模型(AI Model)能夠從不同生物的基因組序列中學(xué)習(xí)、提取信息,其預(yù)測和設(shè)計能力日益增強,為我們實現(xiàn)預(yù)測生命和設(shè)計生命提供了前所未有的機會。
2026 年 3 月 4 日,Arc 研究所的Patrick Hsu和Brian Hie團隊聯(lián)合斯坦福大學(xué)、加州大學(xué)伯克利分校、加州大學(xué)舊金山分校以及英偉達(dá)的科學(xué)家,在國際頂尖學(xué)術(shù)期刊Nature上發(fā)表了題為:Genome modelling and design across all domains of life with Evo 2 的研究論文。
這標(biāo)志著有史以來最大的生物學(xué)人工智能模型(AI model for biology)——Evo-2,經(jīng)過了同行評議后正式發(fā)表。該模型訓(xùn)練了從病毒到單細(xì)胞的細(xì)菌、古菌,再到真核生物以及多細(xì)胞的植物以及人類的生命之樹中的 12.8 萬個基因組的9.3 萬億個核苷酸,從而能夠?qū)崿F(xiàn)對所有生命域的理解、建模和設(shè)計遺傳密碼,從頭開始編寫整個染色體,甚至從頭設(shè)計生命,還能準(zhǔn)確預(yù)測所有類型的基因突變(包括編碼基因和非編碼基因)的影響。
Evo-2 的訓(xùn)練使用了 2000 多個英偉達(dá) H100 GPU,并得到了英偉達(dá)研究人員和工程師的合作支持。更重要的是,Evo-2 是完全開源的,在 GitHub 上共享了模型參數(shù)、訓(xùn)練代碼、推理代碼以及訓(xùn)練使用的 OpenGenome 2 數(shù)據(jù)集。世界各地的研究人員可以通過英偉達(dá) BioNeMo 平臺免費訪問以及部署 Evo-2,從而加速對生物復(fù)雜性的探索和設(shè)計。
![]()
Evo-1
2024 年 11 月 15 日,Patrick Hsu和Brian Hie團隊在國際頂尖學(xué)術(shù)期刊Sciencce上發(fā)表了題為:Sequence modeling and design from molecular to genome scale with Evo 的研究論文,該論文還被選為當(dāng)期封面論文。
該論文發(fā)布了首個在全基因組規(guī)模上以單核苷酸分辨率預(yù)測和生成 DNA 序列的 AI 模型——Evo。
Evo是在原核生物(細(xì)菌、古菌)和噬菌體的基因組上進行訓(xùn)練,能夠在 DNA、RNA 和蛋白質(zhì)模式下實現(xiàn)零樣本功能預(yù)測,還能夠生成長度超過百萬堿基對的具有合理基因組結(jié)構(gòu)的 DNA 序列。研究團隊使用 Evo 生成了CRISPR-Cas分子復(fù)合物和IS200/IS605轉(zhuǎn)座子,并驗證了它們的功能活性,這也是首次通過語言模型實現(xiàn)蛋白質(zhì)-RNA 和蛋白質(zhì)-DNA 協(xié)同設(shè)計的實例。
![]()
![]()
Brian Hie(左)和Patrick Hsu(右)
Evo-2
所有生命都以DNA編碼信息,就像人類用語言記錄思想。盡管基因測序、合成和編輯技術(shù)已經(jīng)相當(dāng)成熟,但我們?nèi)匀浑y以完全理解基因組中蘊含的復(fù)雜信息,更無法精準(zhǔn)預(yù)測基因突變的影響或智能設(shè)計新的生物系統(tǒng)。
Evo-2的核心理念是將DNA視為一種“生命語言”,通過大規(guī)模無監(jiān)督學(xué)習(xí),讓 AI 自行掌握這種語言的語法和語義。
Evo-2 的前身 Evo 完全是在單細(xì)胞生命的基因組上進行訓(xùn)練的,而 Evo-2 進一步將其訓(xùn)練數(shù)據(jù)擴展到了生命的所有域——從細(xì)菌、古細(xì)菌、噬菌體,以及植物、動物、人類和其它單細(xì)胞和多細(xì)胞的真核生物,總計12.8 萬個全基因組和宏基因組數(shù)據(jù)的 9.3 萬億個核苷酸(包含編碼序列和非編碼序列),訓(xùn)練參數(shù)高達(dá) 400 億(Evo-2 有兩個版本,訓(xùn)練參數(shù)分別是 70 億和 400 億)。訓(xùn)練過程使用了超過 2000 張英偉達(dá) H100 GPU,持續(xù)數(shù)月時間,規(guī)模接近頂尖通用大模型。
![]()
Evo-2 最引人注目的技術(shù)突破是其 100 萬個 token 的上下文窗口,相當(dāng)于能夠一次性處理長達(dá) 100 萬堿基對的 DNA 序列。
在生物學(xué)中,許多關(guān)鍵功能依賴于長距離相互作用。例如,一個增強子可能距離它調(diào)控的基因數(shù)十萬堿基之遙,通過染色體折疊在三維空間上接觸目標(biāo)基因。而傳統(tǒng)模型受限于上下文長度,難以捕捉這種長距離相互作用關(guān)系。
為了實現(xiàn)這一能力,研究團隊使用全新的StripedHyena 2架構(gòu),這是一種新的卷積混合架構(gòu),融合了輸入依賴卷積和注意力機制,相比 Transformer 架構(gòu),能夠大幅提高訓(xùn)練速度和推理效率,在處理長序列時比標(biāo)準(zhǔn) Transformer 快了 3 倍,顯存占用也更低。
![]()
Evo-2 的模型架構(gòu)、訓(xùn)練程序、數(shù)據(jù)集和評估概述
核心能力:預(yù)測與生成的雙重突破
1、零樣本預(yù)測基因突變的影響
Evo-2 最強大的能力之一是零樣本預(yù)測——無需針對特定任務(wù)進行微調(diào),就能準(zhǔn)確評估基因突變的功能影響。
在 ClinVar 數(shù)據(jù)庫(包含人類疾病相關(guān)變異注釋)的測試中,Evo-2 表現(xiàn)出色——
編碼區(qū)單核苷酸突變:AUROC 達(dá)到 0.841,雖然略低于專門訓(xùn)練的 AlphaMissense(0.958),但作為通用模型已相當(dāng)出色。
非編碼區(qū)突變:表現(xiàn)尤為突出,AUROC 高達(dá) 0.987,顯著優(yōu)于其他模型。
復(fù)雜變異類型:對于插入、缺失、重復(fù)等非單核苷酸突變,Evo-2 更是全面領(lǐng)先。
精準(zhǔn)預(yù)測剪接突變
剪接是基因表達(dá)的關(guān)鍵步驟,剪接錯誤與多種疾病相關(guān)。在 SpliceVarDB 數(shù)據(jù)集(包含實驗驗證的剪接突變)上,Evo-2 在內(nèi)含子突變預(yù)測中與專業(yè)監(jiān)督模型競爭激烈,略低于 SpliceAI 和 CADD,但優(yōu)于 Pangolin;在外顯子突變預(yù)測中,雖然落后于專業(yè)模型,但超越了所有零樣本模型。
生成完整的基因組序列
除了預(yù)測,Evo-2 還能生成全新的DNA序列。研究團隊用它生成了——
線粒體基因組(細(xì)胞中的能量工廠的遺傳物質(zhì))
最小細(xì)菌基因組(生殖支原體)
酵母染色體(真核生物,染色體長達(dá) 33 萬堿基對)。
這些生成的序列在結(jié)構(gòu)上與自然序列高度相似,rRNA、tRNA 的數(shù)量分布也接近天然基因組。
![]()
Evo-2 跨越生命域的基因組規(guī)模的生成能力
重點應(yīng)用:從臨床診斷到合成生物學(xué)
臨床基因突變解讀與精準(zhǔn)醫(yī)療
BRCA1是著名的乳腺癌易感基因,準(zhǔn)確預(yù)測其突變后果對風(fēng)險評估和預(yù)防策略至關(guān)重要。該研究顯示,Evo-2 在沒有針對特定任務(wù)進行訓(xùn)練(即零樣本)的情況下,能夠準(zhǔn)確預(yù)測 BRCA1 基因的編碼區(qū)和非編碼區(qū)單核苷酸突變,這一能力擴展到相關(guān)基因 BRCA2 時同樣突出,這表明了 Evo-2 是一個有效的零樣本預(yù)測器,能夠廣泛應(yīng)用于多種類型的人類功能性基因突變評估。
合成生物學(xué)與基因組工程
Evo-2 的生成能力為合成生物學(xué)開辟了新可能。通過推理時搜索技術(shù),研究人員可以引導(dǎo)模型設(shè)計具有特定功能的 DNA 序列。例如,團隊成功設(shè)計了具有預(yù)設(shè)染色質(zhì)可及性模式的序列,甚至在表觀基因組上“寫”出了“EVO2”、“ARC”這樣的摩斯電碼。這種可控生成能力,使得定制化設(shè)計啟動子、增強子等調(diào)控元件成為可能。
基礎(chǔ)生物學(xué)研究
Evo-2 的內(nèi)部表示捕捉了多種生物學(xué)特征,包括外顯子-內(nèi)含子邊界(基因的結(jié)構(gòu)單元)、轉(zhuǎn)錄因子結(jié)合位點(基因開關(guān))、蛋白質(zhì)結(jié)構(gòu)元素(α螺旋、β折疊)、噬菌體基因組區(qū)域(細(xì)菌病毒的遺傳物質(zhì))。這些發(fā)現(xiàn)不僅驗證了模型的學(xué)習(xí)能力,也為發(fā)現(xiàn)新的功能元件提供了工具。
開放生態(tài):加速生命科學(xué)創(chuàng)新
與許多封閉的 AI 模型不同,Evo-2 實現(xiàn)了完全開源——包括模型參數(shù)、訓(xùn)練代碼、推理代碼以及 OpenGenome2 數(shù)據(jù)集。
這種開放性對生物計算領(lǐng)域是結(jié)構(gòu)性的事件。長期以來,該領(lǐng)域被工具生態(tài)割裂、數(shù)據(jù)許可復(fù)雜、基準(zhǔn)標(biāo)準(zhǔn)不統(tǒng)一所困擾。Evo-2 的完全開源意味著它不是一個“演示模型”,而是一個可能成為標(biāo)準(zhǔn)生態(tài)的平臺。
生物學(xué)開始擁有自己的“通用底座”,研究人員可以在其基礎(chǔ)上開發(fā)各種應(yīng)用,加速整個領(lǐng)域的創(chuàng)新。
生物安全與倫理考量
值得一提的是,研究團隊在生物安全方面采取了謹(jǐn)慎措施,在訓(xùn)練數(shù)據(jù)中排除了能夠感染真核生物的病毒序列,以確保模型不會被濫用于設(shè)計和操縱致病性病毒。
這一策略不僅降低了潛在的生物安全風(fēng)險,也體現(xiàn)了對倫理問題的高度重視。團隊驗證了這些數(shù)據(jù)排除導(dǎo)致模型對真核病毒基因組序列的建模性能較差,表明數(shù)據(jù)排除達(dá)到了預(yù)期效果。
總的來說,Evo 系列模型為生物學(xué)建模與設(shè)計奠定了基礎(chǔ),該框架通過統(tǒng)一的表征方式整合了生物學(xué)的多尺度特征。這些能力結(jié)合大規(guī)模 DNA 操作技術(shù),或?qū)崿F(xiàn)更復(fù)雜生物功能的可編程設(shè)計。預(yù)計未來通過整合基因組序列數(shù)據(jù)與其他模態(tài)數(shù)據(jù),有望開發(fā)出能夠有效模擬健康與疾病狀態(tài)下復(fù)雜表型的模型。
Evo-2 的出現(xiàn)標(biāo)志著生命科學(xué)正站在一個新時代的門檻,當(dāng) AI 不僅能讀懂基因組的“語言”,還能像作家一樣創(chuàng)作全新的生命代碼,我們對于生命的理解和設(shè)計能力將發(fā)生質(zhì)的飛躍。
論文鏈接:
https://www.nature.com/articles/s41586-026-10176-5
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.