![]()
傳統監測抗菌耐藥(AMR)常靠序列比對:有相似參考就能識別,沒有就白瞎了。這種「參考驅動」的策略一方面可靠,另一方面也很脆弱——數據庫里沒有代表性的參考序列,就很容易把真正的耐藥蛋白漏掉(假陰性)——尤其是當耐藥蛋白多樣性超出已知的參考范疇。
為此,巴西圣保羅大學(University of S?o Paulo)等的研究者訓練了一個卷積神經網絡(CNN)以區分抗微生物耐藥性蛋白和非耐藥性蛋白,將其命名為 DeepSEA。它的出發點很簡單:讓模型學會直接從原始氨基酸序列里識別耐藥「信號」,不要一直靠找近親。
經過研究后的 CNN 能夠對九種蛋白質類別進行分類,并且能夠將它們與非耐藥蛋白區分開來,召回率(真陽性/相關元素)超過 0.95。
相關研究內容以「DeepSEA: an alignment-free explainable approach to annotate antimicrobial resistance proteins」為題,于 2025 年 9 月 1 日發布在《BMC Bioinformatics》
![]()
論文鏈接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-025-06256-4
把「訓練樣本」和「非耐藥樣本」都擺干凈
研究以 NCRD95(從 CARD、SARG、ARDB 等整合并用同源搜索擴展的數據庫)做為抗性蛋白的主訓練源,并限制相似度為 95% 的版本來平衡代表性與重復性
非耐藥類(NonR)則從SwissProt的經人工審校子集里篩出約 191,535 個細菌蛋白,并用 CD-HIT 限制相似度,最終從中隨機抽取與訓練集無明顯比對的約 4600 條樣例作為 NonR,以避免類內不均衡導致模型學偏。
整個數據預處理對比對閾值、類別累積曲線與子類剔除都做了細致控制,目的是把「訓練集的偏見」降到最低。
![]()
圖 1:保留測試集上的分類報告。
DeepSEA 在多類耐藥注釋任務上表現非常亮眼,基于深度學習的方式在總體召回(recall)在文章中報告均顯著高于傳統基于比對的方法(recall > 0.95),也就是說它能把更多真實的耐藥蛋白「拽出來」而不是漏過去。
RGI與 AMRFinderPlus 在檢測對糖肽類(glycopeptides)耐藥蛋白時分別把 88% 和 79% 的這類蛋白誤判為「非耐藥」,而 DeepSEA 在同類任務中僅錯判 8 個 β-內酰胺耐藥蛋白為非耐藥,這直接說明了 DeepSEA 在減少假陰性方面的優勢。與復雜、預訓練巨模型 ESM2 的比較顯示,兩者性能相當,但 DeepSEA 的架構更輕、可解釋性更好。
![]()
圖 2:CNN 類集群。
在對外部數據庫 NDARO 的拓展驗證中,DeepSEA 也表現穩健:NDARO 中的 5959 條耐藥蛋白中 98% 被 DeepSEA 正確分類;對于那些不對齊(no-hit)的 233 條蛋白,DeepSEA 只錯判了 42 條。研究者據此判斷:只要訓練集中包含該耐藥「類」的示例,模型就能較好地泛化到序列相似度低的樣本上。
把 CNN 的「黑盒」掰開看內部火花
為了便于理解模型的內部表征,研究還把全局平均池化層的向量做 t-SNE 降維,并在 holdout 集中呈現出按功能類別聚簇的清晰圖景,這既是模型「學到類間差異」的證據,也為生物學家提供了探索新子類的線索。
DeepSEA 的直接用法很明確:在元基因組或未注釋基因組的注釋流程中,遇到「無比對」的蛋白序列時,傳統工具常判 「非耐藥」,但 DeepSEA 可以補上一把火,把那些結構/功能上雖與參考不同但卻能導致耐藥性的蛋白識別出來。
![]()
圖 3:CNN 模型可解釋性。
研究者建議將 DeepSEA 用作「再注釋」(reannotation)工具,或者作為注釋流水線里對比對方法的補充,從而降低漏報率。代碼與工具已開源放在 GitHub,方便整合到現有管道。
當然,DeepSEA 也有其局限性:如果訓練集中根本沒有某個耐藥子類的代表,模型仍難以識別;非耐藥類(NonR)內部信息極其雜亂,會導致對該類的精確率下降;模型可解釋性雖然做了較多工作,但并不能替代結構生物學或功能實驗的最終判定。
結論
扼要地說,DeepSEA 提供了一個不依賴嚴格序列比對、既能高召回又便于解釋的 AMR 蛋白注釋方案。它在減少假陰性上尤其有效,對低相似度樣本也能較好泛化;同時,它也將可解釋性做成了工程化的輸出,方便生物學家把「AI 的判斷」映射回已知的功能域或活性位點。
它不是想取代比對工具,而是把注釋生態從「只看相似度」擴展為「相似度+表征學習+可解釋性」的混合范式。若把 DeepSEA 同現有注釋鏈條并用,短期內能顯著提高耐藥蛋白的檢出率;長期來看,把它和結構/功能實驗聯動,能把「預測的可信度」再往上推一檔。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.