<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepMind獨家揭秘AlphaGenome內幕:讓AI讀懂基因組98%的非編碼區

      0
      分享至

      當 2003 年人類基因組測序首次完成時,我們獲得了一本厚達 30 億個遺傳字母的“天書”,卻發現自己只能讀懂其中 2% 的“文字”(編碼區),剩下的 98% 被稱為基因組的“暗物質”。

      近日,由谷歌旗下 DeepMind 公司開發的人工智能模型 AlphaGenome 登上 Nature 封面。該模型主要用于理解 DNA 序列如何調控基因,幫助科學家發現為什么我們 DNA 中的細微差異會讓我們面臨高血壓、癡呆癥和肥胖癥等疾病的風險。

      DeepMind 于 2025 年 6 月首次在 bioRxiv 發布 AlphaGenome 的預印本,并開放 API 預覽。但模型在 Nature 正式發表后,團隊同時宣布了完全開源研究代碼和模型權重。

      AlphaGenome 是 DeepMind 繼 AlphaFold 之后的又一力作。

      該模型的核心優勢在于其統一預測能力:它能一次性輸入長達 100 萬個堿基對的 DNA 序列,以單個堿基分辨率同時輸出數千種功能基因組特征,包括基因表達水平(RNA-seq、CAGE)、RNA 剪接位點與強度、染色質開放性、組蛋白修飾、轉錄因子結合位點以及染色質三維接觸圖。通過對比突變序列與野生型序列,AlphaGenome 能在幾秒內高效評分遺傳變異的功能影響,這在過去往往需要數年濕實驗驗證。

      在 Nature 論文中,該模型在 26 個變異效應預測基準任務中,有 25 個達到或超越現有最強模型(如 Enformer、Borzoi、ChromBPNet),尤其在非編碼變異解讀上表現出色。它基于人類和小鼠的 ENCODE、GTEx 等大規模多組學數據訓練,覆蓋數百種細胞類型和組織。

      AlphaGenome 的潛在應用前景尤為廣泛。

      在癌癥研究上,AlphaGenome 已成功破解 T 細胞急性淋巴細胞白血病的致病機制,能精準找到導致癌基因異常激活的非編碼突變,還能說清這些突變是如何通過改變基因調控引發癌癥的。這能幫科學家更快鎖定癌癥驅動突變,找到新的治療靶點。

      在罕見病診斷方面,對于很多病因不明的罕見病,它能準確識別 DNA 中導致疾病的關鍵變異,比如哪些變異破壞了基因正常功能、影響了蛋白質結合。這些信息能幫醫生解讀疑難病例,給 “不知道是什么變異致病” 的情況提供明確線索。

      在合成生物學中,可以指導設計定制化的 DNA 序列,比如打造只在神經細胞里起作用、在肌肉細胞里 “沉默” 的基因開關,或是優化用于治療的核酸藥物。這能讓生物設計少走彎路,加速基因療法和生物制造的發展。

      在藥物開發和精準醫療方面,能更準確判斷基因變異對疾病的影響,幫科學家從海量基因數據中快速找到關鍵靶點,縮短藥物研發時間。還能為個性化治療提供依據,比如針對不同人的基因調控特點,設計專屬療法,不管是罕見病還是高血壓、癡呆癥這類復雜疾病,都能提升診斷和治療效率。

      此外,YouTube 上還放出一支視頻,DeepMind 產品經理 Dhavi Hariharan 與基因組學項目負責人、研究科學家 Ziga Avsec 以及 AlphaGenome 的參與者 Natasha Latysheva、Jun Cheng 和 Tom Ward 一起,分享了 AlphaGenome 背后的故事。

      他們討論了為什么開發 AlphaGenome、對模型進行了深度剖析,并分享了下一步計劃。


      (來源:YouTube)

      AlphaGenome 為何為“生命暗物質”而來?

      Dhavi:為什么要構建 AlphaGenome?它如何契合團隊的整體使命?

      Ziga:我們團隊的核心使命是構建一套能夠“破譯基因組序列”的 AI 系統。基因組(即 DNA)是進化歷程在數百萬年間、為數百萬個物種編寫的“源代碼”。它是生命的底層邏輯。破譯這一代碼將為人類健康及諸多領域帶來不可估量的益處。而衡量這一目標進展的關鍵指標,就是看我們能否準確預測 DNA 的微小變化(即突變)對讀取這些代碼的細胞分子機制產生何種影響。

      Dhavi:為什么這種能幫助我們破譯基因組的 AI 如此重要?

      Ziga:深入理解基因組對每個人的生活都有著深遠影響。目前,仍有很大一部分罕見遺傳病處于“無法診斷”的狀態。我們對基因組整體的認知其實非常匱乏,而 AI 正是讀取基因組、并對遺傳突變做出有意義預測的絕佳利器。在我看來,理解基因組并預測突變影響,是 AI 最具社會價值的應用之一。

      這群研究者為何一頭扎進基因組?

      Dhavi:你是如何對這個領域產生興趣的?

      Jun:我從博士期間就開始研究遺傳突變預測,并一直深耕至今。加入 DeepMind 后,我主導了 AlphaMissense 項目,該方法主要預測編碼區(僅占基因組 2%)的遺傳效應。但剩下的 98% 呢?這正是我們今天推出 AlphaGenome 的原因——它聚焦于占據基因組絕大部分的非編碼區,力求照亮這些未知的領域。

      從感性層面來說,我投身生物學是因為高中時讀到的一本大學教科書,書中描述了生命中那些精妙、復雜且優雅的分子機制,那份震撼讓我決定將其作為終身事業。Tom,你的經歷是怎樣的?

      Tom:身處這樣一支跨學科團隊感覺非常棒。對于非生物學背景的人來說,遺傳學是一個極具魅力的未知領域。能夠探究 DNA 中極其微小的變化如何在人類及其他物種中產生宏觀影響,這本身就令人神往。目前,尤其是機器學習與計算生物學的交叉領域,正處于爆發式增長期,這里充滿了無限可能。

      Ziga:我還記得加入 DeepMind 之前,我研究過一個叫 VPNet 的小模型。以今天的標準來看,它很“迷你”:輸入 1,000 個 DNA 堿基對,預測極高分辨率的轉錄因子結合。當時我驚嘆于這種堿基級信息的豐富與精確,但它更像是對特定生命過程的“微距攝影”。

      因此,加入 DeepMind 后,我渴望挑戰更復雜的生命過程。我們與 Calico 的 David Kelly 合作,挑戰了從 DNA 序列預測基因表達這一極難的課題。為了捕捉盡可能多的相關片段,我們必須顯著增加序列長度,但這又不得不犧牲掉 VPNet 引以為傲的高分辨率。在“序列長度”與“分辨率”之間,似乎永遠存在著一種不可兼得的權衡。

      AlphaGenome 憑什么刷新行業天花板?

      Dhavi:那么,AlphaGenome 試圖填補的行業空白是什么?

      Ziga:此前已有一些序列到功能的模型,最接近的是我們團隊的 Enformer 和 Calico 的 Basenji。此外還有許多單任務模型,如預測剪接的 SpliceAI、預測染色體接觸圖的 Akita 等。

      AlphaGenome 的突破在于,它在單一模型中集成了前所未有的多模態能力。它擁有兆堿基(Megabase)級的輸入長度,同時輸出單堿基分辨率的精準預測。這種多模態覆蓋、超長序列與精細輸出的結合,使其在變異效應預測和解讀方面異常強大。以前你可能需要多個模型才能完成的分析,現在只需這一個模型,就能從多個維度審視變異對分子生物學各層面的影響。

      一頓午餐,竟解開了技術死結?

      Dhavi:為什么“長上下文、高分辨率、多模態”同時實現如此困難?

      Tom:這類模型的工作原理是輸入 DNA 片段并預測現實世界的實驗數據。當你追求更長范圍、更高分辨率且包含多種實驗模態時,會迅速觸及計算極限和海量的顯存占用。從工程角度來看,這極具挑戰性。在開發 AlphaGenome 時,我們極其渴望打破這些權衡,將一切功能整合進同一個模型。

      Dhavi:你們最終是如何攻克這個難題的?

      Ziga:我們采用了序列切分技術,將長序列分成不同的子段,利用多個 TPU 并行處理。這種方法讓單個 TPU 的顯存壓力驟減。關鍵在于確保這些 TPU 之間依然能實時“對話”,讓序列開頭的 TPU 1 能與序列末尾的 TPU 保持通信。

      我至今記得和同事 Guido 吃午飯時分享這個靈感的場景。午飯結束時,我們都不確定這是否可行。幾天后,他跑來告訴我:他用模擬數據跑通了一個原型,速度幾乎與我們以前的訓練循環一樣快,且能處理超長序列。那一刻我激動不已,因為我知道我們從理論上打破了長序列與分辨率之間的枷鎖。但在實踐中,距離真正的成功其實還有很長的路要走,對吧 Tom?

      Tom:沒錯。搞定模型并行化后,下一個難關是海量訓練數據的吞吐。我們一度需要每秒加載 40-50 GB 的數據才能跟上訓練速度。我們有兩個核心發現:首先,生物數據其實極度稀疏(某些模態 99% 都是零值),因此我們將精力集中在極致的數據壓縮與解壓技術上,從而打破了加載瓶頸。

      其次,我們對訓練數據采取了“冷酷”的篩選標準,通過多輪質量檢查,確保數據要么具有極高質量,要么能增加模型的多樣性,從而提升泛化能力。搞定數據后,我們終于能高效迭代模型。在完善了 1D 軌跡預測后,我們轉向了更具挑戰性的 2D 數據——染色體接觸圖和 RNA 剪接。Jun,你在剪接方面投入了大量精力,那真是個棘手的問題。

      Jun:是的,非常棘手。剪接(Splicing)是基因正確表達蛋白質的關鍵過程。遺傳信息在基因組上是非連續編碼的,必須通過剪接將這些信息拼接在一起。如果發生突變導致剪接缺陷,就會引發遺傳病。我博士期間做過類似研究,但模型效果遠不如現在。在 AlphaGenome 項目中,得益于卓越的團隊、Guido 和 Tom 的工程支持,我們終于集齊了所有技術拼圖。我們要預測的是極度稀疏的 2D 陣列而非 1D 軌跡,最終攻克它時我非常欣慰。這種能力在領域內是首創的。

      Natasha:關于接觸圖(Contact Maps),它們是捕捉 DNA 區域間相互作用的 2D 矩陣。基因組在細胞核內折疊成復雜的三維形狀,這種物理距離的接近(如啟動子與增強子的互動)對基因調節至關重要。幸運的是,我們將這一 2D 模態成功引入了模型并實現了端到端訓練,且沒有犧牲其他模態的性能。

      Ziga:事后看來,這符合邏輯:所有這些模態或測量手段,本質上都在觀察同一種底層的生命過程(如轉錄或剪接)。但看到模型能同時兼容 1D 和 2D 預測且性能互不干擾,依然令人欣喜。

      從論文“巨著”到人人能用的工具

      Dhavi:隨著新模態的加入,你們如何評估模型性能?

      Natasha:我們的評估策略分為兩部分:第一是驗證模型在從未見過的 DNA 序列上的預測精度;第二,也是更具臨床意義的,是變異效應預測。即通過對比有突變和無突變的兩個序列,看模型能否重現下游的分子變化。雖然原理簡單,但技術上,11GB 的模型輸出讓評分變得極其緩慢。

      Tom:沒錯。為了解決“評分慢”的問題,幾位工程師開發了一套變異評分 API,讓聚合計算直接在運行模型的同一設備上并行完成。這極大地提升了效率,讓我們能進行論文中呈現的大規模評估。

      Natasha:我們盡可能全面地對模型進行了基準測試。早期我們面臨的問題是如何結構化這種海量任務的評估。我們再次采用了“并行化”策略:每個成員各領一個領域(如一兩個模態),獨立完成從數據提取到圖表生成的全流程。此外,我們也積極吸收了研究社區現有的基準。

      Jun:只要條件允許,我們就會進行多層次驗證:從分子的實驗讀數到機體的患病風險。我們特別驚喜地發現,在預測癌癥驅動突變方面,模型能非常出色地重現濕實驗的結果,將其從隨機對照中準確篩選出來。

      Dhavi:評估完成后,就到了寫論文的階段。

      Natasha:沒錯,那篇論文長得簡直像部小說(笑)。因為它涵蓋的范疇實在太廣了,我們希望給每個對比模型公正的評價,并深入挖掘每個模態。大家都很興奮,經常看到一篇新論文或數據集就想往里加。但我認為,這種嚴謹讓論文變得更強大。

      Dhavi:從最初的原型到論文發表,整個過程歷時多久?

      Ziga:不到兩年。團隊成員曾擠在一間屋里,桌上擺滿了顯示器一起攻堅。那是段非常令人激動的時光,我為團隊能共同發布這個模型和 API 感到自豪。

      Dhavi:在模型接近完工時,我們開始思考如何與社區共享。

      Tom:我們對目前這套 API 非常滿意。我們希望外部用戶能以最簡單、最無門檻的方式使用它。現在,你只需打開一個 Notebook(代碼筆記本),就能在沒有 GPU、無需安裝復雜驅動的情況下進行預測并可視化結果。這種易用性非常強大。

      Dhavi:Jun,你對這個工具的應用最期待什么?

      Jun:兩點。第一,作為工具幫助科學家精準定位有害突變;第二,作為理解基礎生物學的利器。希望它能幫助科學家高效利用有限的資源和經費,加速科研進程。

      社區催更,AlphaGenome 下一步玩更大?

      Dhavi:Ziga 和 Natasha,社區目前有哪些反饋?

      Natasha:請求非常多。有人問能否做多堿基變異(如插入、缺失或大結構變異)。其實針對小型插入缺失(Indel)的功能我們已經做了,只是在文檔中不夠突出。

      Ziga:還有人想要模型嵌入(Embeddings)或進行私有數據微調。在數據方面,很多人希望支持更多物種(目前僅限人與小鼠)、更多細胞類型。這些需求對我們未來的迭代方向至關重要。

      Dhavi:大家最關心的問題,下一步是什么?

      Jun:由于 API 會輸出成千上萬個原始評分,這超出了人類的直觀閱讀能力。我們正研究如何將這些評分總結為每個變異一個單一評分,幫助科學家優先篩選出最值得深入研究的變異。

      Tom:我們還計劃支持全基因組關聯分析(GWAS)等超大規模研究。目前我們正考慮預計算盡可能多的變異數據,方便用戶直接調用。

      Natasha:我們還會發布模型權重!非常期待看到社區會用它進行怎樣的創新。

      Ziga:回到團隊使命,我最期待的是利用最新的單細胞圖譜(Single Cell Atlases)。技術進步讓我們能不僅在組織層面,而是在組織內的個體細胞類型層面進行測量。如果將這些融入模型,我們將能更深入地研究與特定細胞類型病變相關的疾病。

      1.https://www.youtube.com/watch?v=V8lhUqKqzUc

      2.Avsec, ?., Latysheva, N., Cheng, J. et al. Advancing regulatory variant effect prediction with AlphaGenome. Nature 649, 1206–1218 (2026). https://doi.org/10.1038/s41586-025-10014-0

      3.http://deepmind.google/blog/alphagenome-ai-for-better-understanding-the-genome/

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      火箭軍查采購舊賬,九年問題集中爆雷,到底誰在裝備鏈上動手腳?

      火箭軍查采購舊賬,九年問題集中爆雷,到底誰在裝備鏈上動手腳?

      青煙小先生
      2026-01-28 22:22:57
      華為乾崑x奕境:安全至上,2026年家用車得聊點"硬東西"了

      華為乾崑x奕境:安全至上,2026年家用車得聊點"硬東西"了

      Autolab
      2026-01-28 21:08:19
      文班亞馬28分16板馬刺末節逆轉火箭,杜蘭特24分6助攻

      文班亞馬28分16板馬刺末節逆轉火箭,杜蘭特24分6助攻

      湖人崛起
      2026-01-29 13:03:34
      要變了?日本大選實況曝光:自民黨狂攬233席,在野黨亂成一鍋粥

      要變了?日本大選實況曝光:自民黨狂攬233席,在野黨亂成一鍋粥

      知法而形
      2026-01-29 09:46:57
      阿富汗永久禁止女性上學,就沒有世界警察能管管嗎?

      阿富汗永久禁止女性上學,就沒有世界警察能管管嗎?

      歷史總在押韻
      2026-01-28 23:33:00
      大雪、暴雪!凍雨!全國大范圍雨雪降溫天氣將“上線”!山東多地有雨雪,濟南今晚或迎小雨雪

      大雪、暴雪!凍雨!全國大范圍雨雪降溫天氣將“上線”!山東多地有雨雪,濟南今晚或迎小雨雪

      魯中晨報
      2026-01-29 14:51:27
      比普京還卷,斯塔默剛下飛機就開會:時間太短,把握中國給的機會

      比普京還卷,斯塔默剛下飛機就開會:時間太短,把握中國給的機會

      軍機Talk
      2026-01-29 15:34:49
      全是假的!涉及多個品牌,檢測結果觸目驚心!網友:老人小孩都在吃

      全是假的!涉及多個品牌,檢測結果觸目驚心!網友:老人小孩都在吃

      環球網資訊
      2026-01-27 15:41:14
      承德老年公寓重大火災事故細節披露:火災警報19分鐘無人響應,插排短路致20人遇難

      承德老年公寓重大火災事故細節披露:火災警報19分鐘無人響應,插排短路致20人遇難

      瀟湘晨報
      2026-01-29 14:50:24
      北京國安被罰5分!媒體人質疑:挨打要立正,不能揣著明白裝糊涂

      北京國安被罰5分!媒體人質疑:挨打要立正,不能揣著明白裝糊涂

      奧拜爾
      2026-01-29 13:18:52
      男護工照顧漸凍癥女子9個月,被指多次猥褻

      男護工照顧漸凍癥女子9個月,被指多次猥褻

      中國新聞周刊
      2026-01-29 15:11:31
      黃金變現業務爆了!水貝黃金回收克價突破1100元,女子賣300克黃金變現30萬!金飾克價漲破1700元,網友:還沒結婚,五金能換寶馬了

      黃金變現業務爆了!水貝黃金回收克價突破1100元,女子賣300克黃金變現30萬!金飾克價漲破1700元,網友:還沒結婚,五金能換寶馬了

      極目新聞
      2026-01-29 16:13:26
      廣州老伯監督公車私用多年,在長沙因嫖娼被抓,引發外界議論紛紛

      廣州老伯監督公車私用多年,在長沙因嫖娼被抓,引發外界議論紛紛

      文史季季紅
      2026-01-28 16:30:03
      上海申花三次被罰!新賽季被扣10分,媒體人:爭冠徹底洗洗睡

      上海申花三次被罰!新賽季被扣10分,媒體人:爭冠徹底洗洗睡

      奧拜爾
      2026-01-29 10:52:40
      劉強東返鄉發超萬件年貨,令人惡心的事卻發生,父親被人圍堵塞信

      劉強東返鄉發超萬件年貨,令人惡心的事卻發生,父親被人圍堵塞信

      寒士之言本尊
      2026-01-29 12:23:07
      五胡亂華時期,是誰救了即將滅族的漢民族?請記住我們的英雄!

      五胡亂華時期,是誰救了即將滅族的漢民族?請記住我們的英雄!

      小豫講故事
      2026-01-29 06:00:08
      曝金晨肇事逃逸照:車歪了頭發都濕了,業內倒油,逃逸原因疑曝光

      曝金晨肇事逃逸照:車歪了頭發都濕了,業內倒油,逃逸原因疑曝光

      古希臘掌管月桂的神
      2026-01-29 14:31:14
      請注意!大范圍雨雪天氣將至,上海將迎入秋以來最大降雨

      請注意!大范圍雨雪天氣將至,上海將迎入秋以來最大降雨

      縱相新聞
      2026-01-29 16:57:03
      張雨綺風波升級!被資本徹底拋棄,王玉雯獲利,知情人曝幕后推手

      張雨綺風波升級!被資本徹底拋棄,王玉雯獲利,知情人曝幕后推手

      和平聲浪
      2026-01-29 10:42:35
      上海“下車推行”惹眾怒!市民:55公斤的車配24%陡坡,誰敢推?

      上海“下車推行”惹眾怒!市民:55公斤的車配24%陡坡,誰敢推?

      據說說娛樂
      2026-01-28 12:16:13
      2026-01-29 18:11:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16197文章數 514560關注度
      往期回顧 全部

      科技要聞

      周亞輝的AI新賭局:國內太卷 出海另起爐灶

      頭條要聞

      在衡山丟失80克黃金吊墜男子已返鄉 警方證實接到報警

      頭條要聞

      在衡山丟失80克黃金吊墜男子已返鄉 警方證實接到報警

      體育要聞

      詹姆斯哭了!騎士視頻致敬41歲超巨

      娛樂要聞

      張譯不再隱瞞!公開回應退圈息影真相

      財經要聞

      崔東樹:中國汽車未來年銷或達5000萬輛

      汽車要聞

      車長超5米還帶后輪轉向 比亞迪海豹08/海獅08將亮相

      態度原創

      房產
      教育
      手機
      家居
      本地

      房產要聞

      寰島學校賣樓,二次流拍!

      教育要聞

      小學幾何思維訓練,求長方形面積

      手機要聞

      iQOO 15 Ultra行業首發王者榮耀144幀+極致+地圖旗艦級畫質

      家居要聞

      極簡輕奢 家的無限可能

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      無障礙瀏覽 進入關懷版