*僅供醫(yī)學(xué)專業(yè)人士閱讀參考
![]()
熟悉CRISPR基因編輯誕生歷史的朋友們一定知道,CRISPR其實脫胎于細(xì)菌的免疫系統(tǒng),關(guān)鍵的基因序列識別能力和切割能力都來自于與噬菌體的對抗。那么從原理上來說,其他細(xì)菌防御系統(tǒng)也同樣具有被開發(fā)成基因編輯工具的潛力。
,研究者們依照這個思路,對超過45000種已知的細(xì)菌和古細(xì)菌基因組進(jìn)行了篩選,并對有潛力的基因序列逐個進(jìn)行了功能測試,最終發(fā)現(xiàn)了10種全新的細(xì)菌免疫防御系統(tǒng)。
8年后的今天,在機(jī)器學(xué)習(xí)的加持下,科學(xué)家們已經(jīng)能夠大批量篩選細(xì)菌基因組,一口氣找到海量的防御相關(guān)蛋白了。
今日,《科學(xué)》雜志同期發(fā)表了兩篇論文,一篇來自麻省理工學(xué)院科研團(tuán)隊,研究者們開發(fā)了一個名為DefensePredictor的機(jī)器學(xué)習(xí)模型,在1000多種原核基因組中鑒定到了5000多個防御相關(guān)蛋白,且與當(dāng)前已知防御蛋白并非同源物。
![]()
另一篇論文則來自巴斯德研究所科研團(tuán)隊,研究者們開發(fā)了三個互補(bǔ)的機(jī)器學(xué)習(xí)模型,構(gòu)建了迄今為止最全面的細(xì)菌免疫圖譜,模型預(yù)測了239萬個抗噬菌體蛋白。
![]()
在細(xì)菌中,抗噬菌體免疫基因普遍傾向于彼此緊密聚集,形成名為防御島的基因簇。在2018年的《科學(xué)》論文中,科學(xué)家們采用的就是篩選已知防御基因附近功能未知基因的策略。
但是,也并非所有免疫基因都會位于防御島上,也可能存在于質(zhì)粒、前噬菌體、轉(zhuǎn)座子等可移動元件上,或零散分布在基因組其他位置。
為了識別這些潛在的防御系統(tǒng),麻省理工的研究者們基于17000個原核基因組數(shù)據(jù),標(biāo)記其中已知的防御系統(tǒng)基因和大量非防御基因,并利用蛋白質(zhì)語言模型ESM2生成防御基因及其周圍四個基因,用于訓(xùn)練DefensePredictor模型。在模擬中,DefensePredictor能識別到100個已知防御系統(tǒng)中的82個,可見模型能夠捕捉到廣泛的防御系統(tǒng)特征。
接下來,研究者在69種大腸桿菌菌株中應(yīng)用DefensePredictor,模擬得到624種防御相關(guān)蛋白簇,其中超過100個與已知防御相關(guān)蛋白簇?zé)o可檢測同源性,50%散布于沒有明顯免疫特征的位置。
研究者將94個預(yù)測到的防御系統(tǒng)克隆到易感大腸桿菌內(nèi)進(jìn)行測試,發(fā)現(xiàn)其中42個對至少一種噬菌體提供了保護(hù)作用。研究者在這42個防御系統(tǒng)中發(fā)現(xiàn)了15個此前從未鑒定到的防御性蛋白質(zhì)結(jié)構(gòu)域,看來細(xì)菌的免疫機(jī)制我們還遠(yuǎn)遠(yuǎn)沒摸透呢。
最后,研究者將DefensePredictor應(yīng)用范圍擴(kuò)大到1000余種原核基因組中,更是一口氣預(yù)測了5000多個防御蛋白簇,而且并非已知防御蛋白的明確同源物。
![]()
巴斯德研究所的研究者們采用的也是類似的思路。他們構(gòu)建的其中一個模型ESMDF基于氨基酸序列,使用蛋白質(zhì)語言模型來捕捉防御蛋白的序列特征;另一個模型ALBERTDF則不依賴具體的序列信息,而是基于局部基因鄰域來推斷防御功能;最后一個模型GeneCLRDF綜合了氨基酸序列和基因組上下文信息。
對超過32000個細(xì)菌基因組的模擬結(jié)果顯示,所有編碼基因中約1.5%用于免疫防御,超過85%防御相關(guān)蛋白此前從未與免疫關(guān)聯(lián)。模型預(yù)測了239萬個抗噬菌體蛋白,其中相當(dāng)一部分單獨(dú)存在,并鑒定到了約23000個操縱子家族。
可見細(xì)菌的防御系統(tǒng)結(jié)構(gòu)極其多樣,我們了解的只不過是冰山一角。
奇點(diǎn)小伙伴們的播客欄目開播啦!在這個欄目里,我們會分享近期熱門的藥物研發(fā)資訊和行業(yè)新鮮動態(tài),附贈奇點(diǎn)糕們(可能犀利)的銳評,歡迎大家點(diǎn)擊訂閱和奇點(diǎn)糕一起嘮嗑~
參考資料:
[1]DeWeirdt P C, Mahoney E M, Laub M T. DefensePredictor: A machine-learning model for discovering prokaryotic immune systems. Science. 2026;392(6793):eadv7924. doi:10.1126/science.adv7924
[2]Mordret E, Elwess A, Tesson F, et al. Protein and genomic language models reveal unexplored diversity of bacterial immunity. Science. 2026;392(6793):eadv8275. doi:10.1126/science.adv8275
![]()
本文作者丨代絲雨
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.