撰文丨王聰
編輯丨王多魚
排版丨水成文
細菌編碼了種類繁多的抗病毒(噬菌體)免疫防御系統,已有超過 250 種系統經過實驗驗證,涵蓋了廣泛的分子機制。正在進行的計算和實驗篩選仍在不斷揭示新系統,這表明細菌的抗病毒免疫防御系統的多樣性可能遠超我們的認知,之前的發現或許只是冰山一角。但這種多樣性到底有多大,目前仍不得而知。
2026 年 4 月 2 日,法國巴斯德研究所的研究人員在國際頂尖學術期刊Science上發表了題為 : Protein and genomic language models uncover the unexplored diversity of bacterial immunity 的研究論文。
該研究開發并優化了三個互補的蛋白質語言模型和基因組語言模型,以大規模預測細菌的抗病毒功能,這些模型預測了 239 萬個抗病毒蛋白,其中相當一部分以單基因防御形式存在,而共同預測的基因定義了約 23000 個操縱子家族,其中大多數此前與抗病毒防御毫無關聯。這些預測共同勾勒出了一幅細菌抗病毒免疫圖譜,揭示出的細菌免疫的多樣性比此前所知的要大得多,也豐富得多,這些發現也為有針對性的功能探索奠定了基礎。
![]()
細菌免疫的“暗物質”問題
就像宇宙中大部分物質是看不見的暗物質一樣,細菌的抗病毒防御系統也存在大量“暗物質”,也就是那些我們尚未發現、功能未知的防御機制。傳統方法主要依賴“有罪關聯”原則:如果一個蛋白質家族經常出現在已知防御系統附近,就被推測具有防御功能。但這種方法存在明顯局限:它只能識別與已知系統相關的蛋白質,而無法發現那些獨立存在或位于非典型基因組位置的防御系統。
三大 AI 模型的協同作戰
在這項最新研究中,研究團隊開發了三種互補的深度學習模型,從不同角度“透視”細菌基因組:
ALBERTDF:專注于基因組上下文信息,將蛋白質家族視為“單詞”,將相鄰基因序列視為“句子”,學習細菌基因組的“語法規則”。
ESMDF:基于蛋白質語言模型,直接分析氨基酸序列,這個模型能夠捕捉蛋白質序列中的復雜模式,即使與已知防御系統沒有明顯同源性,也能識別出防御功能。實驗驗證顯示,它發現的系統中包含 DUF7946 等此前與抗病毒免疫無關的結構域。
GeneCLRDF:整合了序列和基因組上下文信息的“全能選手”,達到了 99% 的精確度和 92% 的召回率,成為性能最強的預測工具。這個模型通過對比學習,讓同一基因的序列表示和上下文表示相互對齊,實現了對防御蛋白的精準識別。
驚人的發現:細菌免疫比想象中豐富得多
應用這些模型,研究團隊對超過 32000 個細菌基因組進行分析后,研究得出了令人震驚的結論——
1、規模龐大:預測出 239 萬個抗噬菌體蛋白,其中 85% 此前被認為與免疫無關;
2、普遍存在:典型細菌基因組中約 1.5% 的基因專門用于抗病毒防御;
3、系統多樣:定義了約 23000 個預測的操縱子家族,大多數此前未知;
4、單基因防御:大量預測的防御蛋白以單基因形式存在,挑戰了傳統認知。
![]()
實驗驗證:從預測到實證
該研究不僅停留在計算預測,還進行了嚴格的實驗驗證。研究團隊在大腸桿菌和白色鏈霉菌中測試了模型預測的系統,成功驗證了 12 個全新的抗噬菌體防御系統。這些系統包含脫氧核糖核酸酶、肽酶等多樣結構域,甚至包括一些此前與抗噬菌體免疫完全無關的蛋白質結構域。
開放資源:細菌抗病毒免疫圖譜
為了讓科學界能夠探索這些發現,研究團隊創建了一個交互式可視化資源(https://defensefinder.mdmlab.fr/wiki/refseq_predicted)。這個“細菌抗病毒免疫圖譜”包含了超過 19000 個候選操縱子家族,為后續實驗研究提供了寶貴線索。
總的來說,這項研究表明了細菌免疫系統的多樣性遠超此前的認知,提供了一種大規模發現細菌免疫系統的深度學習框架,并構建了細菌抗病毒免疫的系統圖譜。隨著更多實驗驗證的進行,這些新發現細菌免疫系統可能為開發新型抗菌策略、理解微生物群落動態、以及設計合成生物學工具提供全新思路。
論文鏈接:
https://www.science.org/doi/10.1126/science.adv8275
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.