![]()
編輯丨王多魚
排版丨水成文
近日,DeepSeek新發布的“外掛大腦”模式在大模型圈內爆火,僅 16 天后,國內一個名叫Genos的團隊將這種模式引入了生命科學領域,提出了Gengram創新模塊,以解決當前基因組基礎模型的核心瓶頸,通過用高效的檢索替代一部分繁重的計算,實現了“超越條件計算”的目標,同時兼顧了實證性能和機制可解釋性。
簡單理解,就是不費時費力地讓模型背常識,直接裝上“外掛大腦”,需要的時候查表就行。
![]()
如果說之前的基因組大模型是在逐字認識 ATCG 的排列組合,那么 Genos 團隊此次推出的Gengram則相當于為其配備了一本“基因字典”。數據顯示,搭載 Gengram 后的大模型,不僅刷新了多項基因組任務的 SOTA 記錄,讓模型在剪接位點識別等任務上 AUC 提升16.1%,還能自己悟出 DNA 雙螺旋的物理規律。
瓶頸:只會“讀字母”的基因組模型
在生物學中,很多 DNA 的功能元件(例如啟動子、剪接位點)往往由特定的堿基組合(Motif)決定,但目前主流的基因組大模型都采用單堿基分詞的形式,也就是把 DNA 序列拆成一個個堿基來處理,這種方式雖然精準,但效率極低。
就像我們看“刻舟求劍”,是一眼看懂成語的含義,而不是先分析“刻”字有幾筆,“舟”字怎么寫,然后一個字一個字拼在一起,這不僅浪費算力,還容易讓模型在長達數億的堿基序列中迷路。
突破:給 AI 裝上“外掛記憶”與“成語詞典”
今年 1 月 13 日,DeepSeek發布的Engram論文引發熱議,其核心是減少“死記硬背”的任務,交給一個外部查表機制。受此啟發,Genos團隊提出了Gengram,成功將這一模式引入基因組學,實現了“靜態模體識別”與“動態語境推理”的結構解耦。
外置“基因字典”(顯式存儲): 團隊預構建了一個涵蓋 1-6 堿基長度的哈希字典,將生物學中常見的短序列組合存入其中。當模型讀取序列時,可以直接檢索相關的生物學先驗知識,不再需要從零推導。
動態門控機制: AI 學會了“看人下菜碟”。在編碼區或關鍵調控區,門控高度激活,積極調用記憶庫;而在廣袤的無功能背景區,門控則保持抑制,減少計算干擾。
![]()
模型結構及評估概覽示意圖
發現:神奇的 21bp
在測試過程中,研究團隊發現了一個很有意思的現象,Gengram在訓練時,會通過一個局部窗口來聚合信息。研究團隊發現,當這個窗口大小設定為 21bp (堿基對)時,模型性能達到最優。
為什么是 21?
我們知道,DNA 是雙螺旋結構,旋轉一圈大約是 10.5 個堿基,21 個堿基恰好轉了 2 圈。這意味著,相隔 21bp 的兩個堿基,在三維空間中恰好位于螺旋的同一側,面對相似的生化環境,共同決定了蛋白質(例如轉錄因子)如何結合到 DNA 上。
也就是說,Gengram 通過這種設計,讓 AI 在處理一維序列時,隱約也看見了 DNA 的三維空間。
![]()
Gengram 模塊在不同窗口大小下的驗證損失
戰績:小插件撬動大模型
Gengram是一個極輕量的插件,參數僅約 20M,相對于 100 億參數的模型微乎其微,卻對模型能力有了極大提升。
出色的模型數據能效比:在與多款主流 DNA 基礎模型的橫向測評中,集成 Gengram 的模型僅需極小規模的訓練數據,便能在核心任務上媲美乃至超越訓練數據規模領先其數倍乃至數十倍的公開模型。
這篇論文中的實驗,大多基于人類基因組基礎模型 Genos 來實現。Genos 是研發團隊于去年 10 月發布的全球首個百億級人類基因組基礎模型,目前已應用于華大基因面向遺傳病臨床檢測的大語言模型GeneT,助力提高遺傳病分析解讀的水平。
![]()
多種參數MoE模型中,Genram模塊對負載均衡的影響
幕后:杭州 AI for Science 的“特種部隊”
Gengram的發布,讓人們將目光投向了杭州 AI 版圖的另一塊重要拼圖——Genos團隊。
這支低調的團隊結合了華大生命科學研究院的組學大數據經驗,與之江實驗室的計算和模型能力。這種“數據+算力”的強強聯合,正是目前攻克AI for Science領域壁壘的關鍵配置。
如果說 DeepSeek 證明了通用 AI 的極限,那么 Genos 團隊則用行動展示了當 AI 深度對齊生物學邏輯時,我們離真正讀懂“生命之書”又近了一大步。
Paper:https://github.com/BGI-HangzhouAI/Gengram/blob/main/paper/
Github:https://github.com/BGI-HangzhouAI/Gengram
Hugging face:https://huggingface.co/BGI-HangzhouAI/Gengram
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.