![]()
撰文丨王聰
編輯丨王多魚(yú)
排版丨水成文
近年來(lái),人工智能(AI)在生命科學(xué)領(lǐng)域的最重要的突破莫過(guò)于AlphaFold,這款由 DeepMind 推出的 AI 工具能夠僅根據(jù)氨基酸序列就實(shí)現(xiàn)對(duì)蛋白質(zhì)三維結(jié)構(gòu)的精準(zhǔn)預(yù)測(cè),并獲得了諾貝爾獎(jiǎng)的認(rèn)可。
而最近,DeepMind 推出了一款新型 AI 工具——AlphaGenome,這是一個(gè)全新的DNA 序列模型,能夠更全面、更準(zhǔn)確地預(yù)測(cè)人類 DNA 序列中的單堿基突變?nèi)绾斡绊懻{(diào)控基因的多種生物學(xué)過(guò)程,該模型能夠處理高達(dá) 100萬(wàn)堿基對(duì)的長(zhǎng) DNA 序列,高精度地預(yù)測(cè)廣泛的基因組特征和突變效應(yīng),從而有助于查明遺傳疾病的病因,指導(dǎo)合成 DNA 的設(shè)計(jì),加速對(duì)基因組(尤其是非編碼基因組)的基本理解。
該研究于 2026 年 1 月 28 日發(fā)表于Nature期刊,論文題為:Advancing regulatory variant effect prediction with AlphaGenome,并被選為當(dāng)期封面論文。
DeepMind表示,相信 AlphaGenome 能夠成為科學(xué)界的一項(xiàng)寶貴資源,幫助科學(xué)家更好地理解基因組功能、疾病生物學(xué),最終推動(dòng)新的生物學(xué)發(fā)現(xiàn)以及新療法的開(kāi)發(fā)。
基因組是我們的細(xì)胞操作手冊(cè)。它是完整的 DNA 集合,幾乎指導(dǎo)著生物體的每一個(gè)部分,從外觀和功能到生長(zhǎng)和繁殖。基因組 DNA 序列的細(xì)微變化可能會(huì)改變生物體對(duì)環(huán)境的反應(yīng)或其對(duì)疾病的易感性。但要解讀基因組指令在分子層面是如何被讀取的——以及當(dāng) DNA 發(fā)生微小變化時(shí)會(huì)發(fā)生什么——仍是生物學(xué)最大的謎團(tuán)之一。
實(shí)際上,在科學(xué)家完成人類基因組草圖近 25 年后的今天,人類基因組中絕大部分對(duì)我們來(lái)說(shuō)仍然是個(gè)謎,占基因組98%的非編碼序列尤其令人困惑,它們不編碼蛋白質(zhì),但發(fā)揮著重要的調(diào)控作用。這就好比我們擁有了一本“生命之書(shū)”,但只認(rèn)識(shí)其中 2% 的文字,對(duì)于剩下的 98%,我們雖然知道其很重要,卻不知其含義。
2020 年,DeepMind 推出AlphaFold2,大大推進(jìn)了解決困擾研究人員數(shù)十年的問(wèn)題的進(jìn)程:蛋白質(zhì)序列如何影響其三維結(jié)構(gòu)。
而要弄清楚 DNA 序列的作用則有所不同,因?yàn)椴幌?AlphaFold2 提供的蛋白質(zhì)三維結(jié)構(gòu)那樣只有一個(gè)答案。實(shí)際上,一段 DNA 序列會(huì)有眾多相互關(guān)聯(lián)的作用——從吸引一組細(xì)胞機(jī)制附著到染色體的特定部分并將附近的基因轉(zhuǎn)錄成 RNA 分子,到吸引影響基因表達(dá)位置、時(shí)間和程度的蛋白質(zhì)轉(zhuǎn)錄因子。例如,許多 DNA 序列通過(guò)改變?nèi)旧w的 3D 形狀來(lái)影響基因活性,要么限制要么促進(jìn)轉(zhuǎn)錄機(jī)制的接近。
幾十年來(lái),生物學(xué)家們一直在利用各種計(jì)算工具來(lái)研究這個(gè)問(wèn)題。在過(guò)去十年左右的時(shí)間里,科學(xué)家們開(kāi)發(fā)了數(shù)十種 AI 模型來(lái)解讀基因組。其中許多模型專注于單一任務(wù),比如預(yù)測(cè)基因表達(dá)水平或確定單個(gè)基因中的外顯子是如何被剪切和拼接成不同蛋白質(zhì)的。但科學(xué)家們?cè)絹?lái)越對(duì)能夠“All in One”解讀 DNA 序列的工具感興趣。
AlphaGenome 為何與眾不同
在這項(xiàng)研究中,研究團(tuán)隊(duì)推出了一個(gè)統(tǒng)一的 DNA 序列模型——AlphaGenome,該模型能夠處理高達(dá) 100萬(wàn)堿基對(duì)的長(zhǎng) DNA 序列,高精度地預(yù)測(cè)廣泛的基因組特征和突變效應(yīng)。
與之前的基因組模型相比,AlphaGenome 在三個(gè)方面實(shí)現(xiàn)了重大突破——
第一,兼顧“遠(yuǎn)景”與“近景”
以前的模型只能在“看遠(yuǎn)景”和“察細(xì)節(jié)”之間二選一:要么分析長(zhǎng)序列但失去精細(xì)度,要么保持精細(xì)度但只能看短序列。AlphaGenome 通過(guò)創(chuàng)新的算法架構(gòu),首次實(shí)現(xiàn)了在 100 萬(wàn)個(gè)堿基對(duì)長(zhǎng)度上保持單堿基分辨率的分析能力。
第二,多任務(wù)統(tǒng)一處理
AlphaGenome 可以同時(shí)預(yù)測(cè)數(shù)千種分子特性,包括基因的起止位置、RNA 剪接位點(diǎn)、DNA 可及性、蛋白質(zhì)結(jié)合位點(diǎn)等。這意味著研究人員不再需要為不同任務(wù)使用多個(gè)專用模型,一個(gè) AlphaGenome 就能全面解析。
第三,高效的突變影響評(píng)估
AlphaGenome 能在一秒鐘內(nèi)評(píng)估基因突變對(duì)所有這些分子特性的影響,通過(guò)比較突變序列與正常序列的預(yù)測(cè)結(jié)果,快速識(shí)別可能導(dǎo)致疾病的遺傳變異。
技術(shù)核心:卷積與 Transformer 的完美結(jié)合
AlphaGenome 的架構(gòu)設(shè)計(jì)巧妙結(jié)合了兩種先進(jìn)的神經(jīng)網(wǎng)絡(luò)技術(shù)。
卷積神經(jīng)網(wǎng)絡(luò)如同微距鏡頭,負(fù)責(zé)識(shí)別 DNA 序列中的局部模式——比如那些短暫的調(diào)控信號(hào)和蛋白質(zhì)結(jié)合位點(diǎn)。這就像在文本中識(shí)別單詞和短語(yǔ)一樣,卷積層能夠捕捉 DNA 中的“遺傳詞語(yǔ)”。
隨后,Transformer 模塊扮演廣角鏡頭的角色,在整個(gè)序列的任意位置之間建立聯(lián)系,理解全局語(yǔ)境。這使得模型能夠把握長(zhǎng)距離的調(diào)控關(guān)系,比如當(dāng)一個(gè)增強(qiáng)子遠(yuǎn)離它調(diào)控的基因時(shí),這種關(guān)系依然能被識(shí)別。
這種設(shè)計(jì)讓 AlphaGenome 既見(jiàn)樹(shù)木,又見(jiàn)森林。
![]()
AlphaGenome 模型架構(gòu)
性能卓越:全面超越現(xiàn)有模型
在嚴(yán)格的基準(zhǔn)測(cè)試中,AlphaGenome 表現(xiàn)驚人。
在 24 項(xiàng) DNA 序列功能預(yù)測(cè)任務(wù)中,AlphaGenome 在 22 項(xiàng)中實(shí)現(xiàn)了最先進(jìn)性能(SOTA);在 26 項(xiàng)遺傳變異影響預(yù)測(cè)任務(wù)中,AlphaGenome 在 24 項(xiàng)中實(shí)現(xiàn)了最先進(jìn)性能(SOTA)。
特別值得注意的是,比較對(duì)象包括許多專門為特定任務(wù)優(yōu)化的“專用模型”,而AlphaGenome 作為一個(gè)“通用模型”,在絕大多數(shù)任務(wù)中都表現(xiàn)更優(yōu)。這打破了“專用模型總是優(yōu)于通用模型”的傳統(tǒng)認(rèn)知。
AlphaGenome 模型的架構(gòu)、訓(xùn)練方案及全面性能評(píng)估
從實(shí)驗(yàn)室到現(xiàn)實(shí):AlphaGenome 的實(shí)際應(yīng)用
AlphaGenome 不僅理論性能卓越,在實(shí)際生物醫(yī)學(xué)研究中也展現(xiàn)出強(qiáng)大應(yīng)用價(jià)值。
疾病機(jī)制解析:研究團(tuán)隊(duì)使用 AlphaGenome 來(lái)探究一種與癌癥相關(guān)的突變的潛在機(jī)制。在一項(xiàng)現(xiàn)有的T 細(xì)胞急性淋巴細(xì)胞白血病(T-ALL)患者研究中,研究團(tuán)隊(duì)觀察到基因組中非編碼區(qū)域存在突變。AlphaGenome 預(yù)測(cè)這些非編碼基因突變會(huì)通過(guò)引入一個(gè) MYB DNA 結(jié)合基序,激活附近的一個(gè)名為TAL1的基因,而
TAL1是一個(gè)已知的致癌基因,這突顯了 AlphaGenome 將特定非編碼基因突變與疾病基因相關(guān)聯(lián)的能力。
罕見(jiàn)遺傳病研究:許多罕見(jiàn)遺傳病(例如脊髓性肌萎縮癥和某些形式的囊性纖維化)由 RNA 剪接錯(cuò)誤引起。AlphaGenome 能夠直接從 DNA 序列預(yù)測(cè)剪接位點(diǎn)的位置和表達(dá)水平,為理解這些疾病提供了新工具。
合成生物學(xué)設(shè)計(jì):AlphaGenome 的預(yù)測(cè)能力可用于指導(dǎo)設(shè)計(jì)具有特定調(diào)控功能的合成 DNA 序列,例如設(shè)計(jì)僅在神經(jīng)細(xì)胞中激活、在肌肉細(xì)胞中保持沉默的基因開(kāi)關(guān),為精準(zhǔn)基因治療奠定基礎(chǔ)。
未來(lái)展望:生命科學(xué)的新紀(jì)元
AlphaGenome 的出現(xiàn),標(biāo)志著基因組 AI 模型從“單項(xiàng)專家”向“通用翻譯官”的重要轉(zhuǎn)變。
結(jié)合 DeepMind 之前的突破性成果(例如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型 AlphaFold 和編碼區(qū)突變預(yù)測(cè)模型 AlphaMissense),科學(xué)界正在構(gòu)建一個(gè)前所未有的“基因組集成開(kāi)發(fā)環(huán)境”。這種發(fā)展代表了生物學(xué)研究范式的根本轉(zhuǎn)變——從描述性科學(xué)轉(zhuǎn)向預(yù)測(cè)性科學(xué)。未來(lái),研究人員不僅可以觀察生命現(xiàn)象,還可以預(yù)測(cè)遺傳改變的影響,甚至設(shè)計(jì)特定的生命功能。
如果說(shuō) DNA 是生命的代碼,那么 AlphaGenome 就是我們理解和編輯這一代碼的強(qiáng)大解碼器(DNA Decoder)。AlphaGenome 為分析調(diào)控基因組提供了一個(gè)強(qiáng)大且統(tǒng)一的模型,它提升了我們從 DNA 序列預(yù)測(cè)分子功能和突變效應(yīng)的能力,為生物學(xué)發(fā)現(xiàn)提供了有價(jià)值的新工具,并在生物技術(shù)領(lǐng)域開(kāi)啟了應(yīng)用之門。最終,AlphaGenome 成為了朝著更廣泛的科學(xué)目標(biāo)——解讀 DNA 序列中編碼的復(fù)雜細(xì)胞過(guò)程邁出的基礎(chǔ)性一步。
論文鏈接:
https://www.nature.com/articles/s41586-025-10014-0
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.