![]()
新智元報道
編輯:桃子 好困
【新智元導讀】今天Nature封面,屬于谷歌DeepMind!生命,是一場長達40億年代碼迭代。現在,AlphaGenome破解98%基因暗物質,開啟了人類「刪除」疾病代碼的上帝模式。
今天,谷歌AlphaGenome登上了Nature封面!
![]()
去年5月,谷歌DeepMind重磅發布了新一代「阿爾法」模型——AlphaGenome。
它可一次性「讀入」100萬個DNA堿基對,并預測任何基因突變如何改變分子的功能。
AlphaGenome不僅限于單個基因預測,而是貫穿了整個調控基因組。
![]()
論文地址:https://www.nature.com/nature/volumes/649/issues/8099
若要回答「某個基因的活性是會增強還是減弱」這一問題,生物學家們需要在實驗室中,往往耗費數月進行重復實驗。
如今,AlphaGenome只需讀入一段DNA序列,提取調控基序與表征活性,便可對數千種分子特性高度預測。
谷歌科學家表示,這類非編碼基因組占DNA 98%,對人類健康和疾病至關重要。
![]()
AlphaGenome已在GitHub開源:https://github.com/google-deepmind/alphagenome_research
諾獎得主、DeepMind掌門人Demis Hassabis更是放出豪言:「未來十年,AI將治愈所有疾病」。
AlphaGenome的橫空出世,堪稱「基因組版AlphaGo」,正以顛覆性計算范式重構生命科學的底層邏輯。
評論區下方,網友激動表示,「自然遺留的代碼」終于有了合適的代碼檢查工具。
![]()
![]()
AlphaGenome榮登Nature封面
基因組,是深植于每個細胞核心的生命底層代碼。
這套宏大的DNA指令集,不僅精準勾勒出我們的外貌與機能,更在幕后操控著生長、繁衍乃至抵御疾病的每一處細節。
2003年,人類基因組計劃宣告完成,我們首次窺見了這本「生命之書」的全貌。

然而,那些深藏在雙螺旋間的遺傳密碼始終未被喚醒:
一個堿基的微小錯位如何引發生命的巨震,依舊是生命科學研究的核心議題。
6年前,AlphaFold的誕生以海嘯般的勢頭席卷生物界,連續斬獲Nature、Science年度十大科學突破。
從初代AlphaFold到AlphaFold 3,精準預測了98.5%人類蛋白質結構。
它更用2024年的諾貝爾獎證明了,AI正在接管生物學的未來。
![]()
最新AlphaGenome,再一次拓展了AI在DNA領域的研究。
人類基因約有30億個堿基,但其中只有不到2%的序列,用于編碼蛋白質,其余98%被稱為非編碼區。
然而,它們對調控基因的活性至關重要,并包含了大量與疾病相關的變異位點。
![]()
直到現在,生物學家實際上無法看清它是如何運作的。
AlphaGenome正是為解讀這些廣闊的非編碼序列及其內部變異,提供了全新的視角。
一次100萬對,90%精準預測
從論文角度,一起拆解下AlphaGenome背后工作原理。
![]()
總言之,AlphaFold解決了蛋白質折疊問題,AlphaGenome則研究接下來的問題——
DNA實際上是如何控制基因的?
當前,問題的核心是:98%的人類基因突變其實發生在基因之外,也就是那些負責調控基因在何時、何地、以及表達多少的「調控區」。
科學家們很清楚,這些區域至關重要。
可問題是,想要預測這些區域里的某個特定突變到底會起什么作用,難度可就直接翻倍了。

為什么會如此困難?
因為某個位置的一個小突變,可能會影響到遠在50萬個「字母」(letters)之外的基因。
以前的AI工具不得不做「單選題」:要么看得遠,但視野模糊;要么看得清,但只能盯著附近那一小部分地方。
![]()
也就是說,魚和熊掌,過去的AI還沒法兼得。還有一個問題是,目前的工具都是「專才」。
想知道突變是否影響基因表達?用一個模型剪接(Splicing),用另一個染色質(Chromatin),再換一個.....
但基因突變并不只影響單一環節,生物學是環環相扣的。
基于谷歌之前的Enformer模型,AlphaGenome這次一口氣解決了上述兩個痛點:
既能「望遠」也能「微距」:它能一次性吞掉100萬個DNA字母,而且預測精度依然能細化到每一個字母。
從「偏科生」變成「全才」:基因表達、剪接、染色質狀態、蛋白質結合——這些復雜的生物過程,現在只需這一個模型就能同時搞定。
![]()
戰果一:更擅長預測突變如何影響基因活性
在90%的準確率下,之前的最佳模型發現了19%已知變異位點,AlphaGenome直接找出了41%,性能足足提升一倍多。
![]()
戰果二:精準識別破壞「剪接」的突變
所謂的「剪接」(Splicing),其實就是細胞在給基因片段搞「剪剪貼貼」,最后拼成一份能指導生命活動的最終指令。
如果這一步搞錯了,拼出來的蛋白質就是個「報廢品」。別小看這些錯誤,它們導致了大約15%遺傳病。
而在這一領域的七項權威基準測試中,AlphaGenome在其中6項都拿到了第一,完全碾壓了現有的工具。
![]()
戰果三:更精準地預判DNA的「封裝」變化(染色質)
DNA緊緊地纏繞在蛋白質周圍,松開它,基因就能開啟。收緊它,基因就保持關閉。
在預測突變何時改變這一過程方面,AlphaGenome的表現優于專業工具。
![]()
戰果四:在「實戰」中精準預判癌癥突變
為了驗證真本事,研發團隊拿真實的癌癥突變給AlphaGenome來了場「實戰演習」。
在T細胞白血病中,某些特定的突變會像合上電閘一樣,意外激活一個極其危險的基因——TAL1。
AlphaGenome不僅準確預測出了這種激活的具體路徑,而且其預測結果與科學家在實驗室里忙活多年才得出的結論完全吻合。
![]()
和去年五月論文不同之處,研究科學家給出了以下兩點:
![]()
有網友對此表示,AlphaGenome的出現讓科學家們離讀懂人類基因組又近了一步。
![]()
破譯「生命源代碼」,2年搞定
今天,谷歌DeepMind還出了一期AlphaGenome的訪談,科學家?iga Avsec和背后團隊坐在一起,闡述了新模型背后的故事。
![]()
團隊打造一款統一的DNA序列-功能預測模型,其初衷便是預測遺傳變異的功能影響。
他們希望,AI可以最終譯被稱為「生命源代碼」的DNA序列,這對人類健康和罕見病診斷具有重要意義。
AlphaGenome的出世恰恰填補了這一空白。
![]()
AI 要做的事情之一,是把序列變化與細胞里的分子機制變化連接起來,尤其要回答「一個小小的變異會帶來什么后果」。
這背后有一個長期痛點:大量罕見遺傳病患者仍舊沒有明確診斷線索,研究和臨床經常卡在「看見變異、讀不懂影響」。
同時,人類基因組里編碼蛋白的區域只占很小部分,更多變異發生在非編碼區。
AlphaGenome把關注點放在這片「基因組的絕大部分」,試圖讓非編碼區的功能影響也能被系統地預測。

那么,為什么要做一個統一的「序列-功能」(sequence-to-function)的模型?
訪談中,他們提到過往路線:此前有Enformer,行業里也出現了不少同類工作,還有大量針對單任務的模型,分別解決剪接、可及性、3D互作等問題。
而AlphaGenome試圖解決的是「拼模型」的成本與缺口:
需要覆蓋更多模態(更多類型的生物學讀數)
輸入序列要足夠長,能看到遠距離調控
輸出要足夠細,能落到單堿基層級解釋
它把這幾件事放進一個框架里,讓研究者不用在不同模型之間來回切換,也更容易把變異影響放到更完整的上下文里理解。
更關鍵的是,AlphaGenome從午餐靈感到論文發布,周期不到兩年。
![]()
從AlphaFold揭示生命的「形態」,到AlphaGenome破譯生命的「邏輯」,我們正身處一場前所未有的范式轉移之中。
AlphaGenome把曾經一度被視為「暗物質」的98%非編碼區,變成了生命最精密的調控閥門。
這一次,人類不僅是在觀察生命,更是在理解生命的運行代碼。
參考資料:
https://x.com/GoogleDeepMind/status/2016542480955535475
https://www.nature.com/nature/volumes/649/issues/8099
https://deepmind.google/blog/alphagenome-ai-for-better-understanding-the-genome/
https://x.com/DrDominicNg/status/2016626988031889836?s=20
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.