![]()
作者丨論文團(tuán)隊
編輯丨ScienceAI
在藥物發(fā)現(xiàn)領(lǐng)域,一個長期存在的挑戰(zhàn)是活性懸崖(Activity Cliffs)現(xiàn)象,即兩個分子結(jié)構(gòu)高度相似但生物活性卻存在顯著差異,然而,由于傳統(tǒng)方法在識別活性懸崖時,會出現(xiàn)表征坍塌的問題,因此仍然難以準(zhǔn)確捕捉懸崖分子的細(xì)微差別。
近日,湖南大學(xué)等團(tuán)隊在《BMC Biology》上發(fā)表了一項研究《MaskMol: knowledge-guided molecular image pre-training framework for activity cliffs with pixel masking》,這項研究開發(fā)了名為 MaskMol 的知識引導(dǎo)分子圖像自監(jiān)督預(yù)訓(xùn)練框架,該框架能通過細(xì)粒度知識引導(dǎo)的像素掩碼策略進(jìn)行準(zhǔn)確的活性懸崖估計。
活性懸崖與傳統(tǒng)模型的局限
分子性質(zhì)預(yù)測是藥物研發(fā)的核心環(huán)節(jié),其核心假設(shè)是結(jié)構(gòu)相似則性質(zhì)相似(圖 1 左)。然而活性懸崖的存在恰恰是這一理念的例外,這類分子對結(jié)構(gòu)差異微小,生物活性卻相差顯著。
圖 1 右側(cè)可見,僅一個原子不同的分子,高活性(紅色標(biāo)注)與低活性(綠色標(biāo)注)形成鮮明對比,這種結(jié)構(gòu)近、活性遠(yuǎn)的現(xiàn)象,正是活性懸崖的典型特征,而傳統(tǒng)模型難以應(yīng)對這一挑戰(zhàn)的根源在于表征坍縮問題。
![]()
圖 1:特征空間中 SAR(左)和活性懸崖(右)的示意圖。
![]()
圖 2:特征空間中 Graph 和 Image 表征的比較。
如圖 2 所示,研究通過對比分子相似度與特征空間距離,發(fā)現(xiàn)隨著分子相似度(橫軸,Tanimoto 系數(shù))升高,圖模型(如 GCN、MPNN)的特征歐氏距離(縱軸)快速下降,這意味著結(jié)構(gòu)相似的分子在特征空間中幾乎重疊,導(dǎo)致表征坍塌,無法區(qū)分;而分子圖像的特征距離下降更平緩,保留了更多差異信息。
MaskMol框架:知識引導(dǎo)的分子圖像學(xué)習(xí)
更進(jìn)一步,活性懸崖通常由不同分子層次上的細(xì)微變化引起,例如特定原子取代、鍵修飾或官能團(tuán)取代。例如,在原子層面,將苯環(huán)上的氫原子替換為氯原子,會導(dǎo)致分子與受體的結(jié)合相互作用發(fā)生顯著變化,從而影響其生物活性。
因此,團(tuán)隊的目標(biāo)是將已有化學(xué)知識融入模型,利用這種與活性懸崖相關(guān)的知識指導(dǎo)模型學(xué)習(xí)分子。從而,文章中提出 MaskMol,以分子圖像為核心表征,通過知識引導(dǎo)的像素掩碼與細(xì)粒度知識引導(dǎo)的像素掩碼預(yù)測任務(wù)構(gòu)建從分子圖像到化學(xué)知識的映射,其完整流程如圖 3 所示。
MaskMol 框架包含兩大核心模塊:
(1)三種知識引導(dǎo)的像素掩蔽策略:具體而言,研究團(tuán)隊首先將分子 SMILES 轉(zhuǎn)換為二維圖像,然后利用 RDKit 分別對原子、化學(xué)鍵和子結(jié)構(gòu)進(jìn)行高亮標(biāo)記,利用 HSV 檢測生成掩碼集,并與原始圖像結(jié)合,生成三張不同知識層次的分子掩碼圖像。
(2)三個用于預(yù)訓(xùn)練的知識引導(dǎo)像素掩碼預(yù)測任務(wù)。訓(xùn)練一個 Vision Transformer(ViT)模型來預(yù)測被掩碼部分所代表的不同層級(原子級,化學(xué)鍵級,子結(jié)構(gòu)級)的化學(xué)知識,這種設(shè)計迫使模型從圖像的剩余上下文中學(xué)習(xí)分子結(jié)構(gòu)的深層化學(xué)語義。
![]()
圖 3:MaskMol 框架。
下游任務(wù)性能
研究團(tuán)隊在活性懸崖估計(ACE)和化合物效能預(yù)測(CPP)兩個關(guān)鍵下游任務(wù)上對 MaskMol 進(jìn)行了全面評估。在活性懸崖估計任務(wù)上,MaskMol 與 25 種先進(jìn)的深度學(xué)習(xí)和機(jī)器學(xué)習(xí)方法進(jìn)行了比較,涵蓋了基于序列、圖(2D 和 3D)、圖像及多模態(tài)的模型。如圖 4 所示,MaskMol 在 10 個不同的 ACE 數(shù)據(jù)集上取得了最低的 RMSE。
特別是在骨架劃分設(shè)置下(圖 5),MaskMol 相比圖像模型(ImageMol)均有顯著提升,平均 RMSE 提升超過了 17.0%,這證明了其優(yōu)秀的泛化能力。同時,MaskMol 在化合物效能預(yù)測任務(wù)上也表現(xiàn)出色,即使在預(yù)訓(xùn)練數(shù)據(jù)量(200 萬)遠(yuǎn)少于某些基線模型(1000 萬)的情況下,其預(yù)測精度仍優(yōu)于對比模型,顯示了框架的數(shù)據(jù)效率。
![]()
圖 4:活性懸崖估計實驗結(jié)果。
![]()
圖 5:骨架劃分實驗結(jié)果。
消融實驗
為了深入驗證 MaskMol 中各個組件的有效性,合理性,研究團(tuán)隊還進(jìn)行了系統(tǒng)的消融實驗,結(jié)果如上圖所示:圖 6c 的消融研究揭示了三個預(yù)訓(xùn)練任務(wù)的重要性,移除任何預(yù)訓(xùn)練任務(wù)都會導(dǎo)致性能下降,其中 Motif 級任務(wù)(MMPP)的影響最大,凸顯了子結(jié)構(gòu)知識對于捕捉活性懸崖關(guān)鍵細(xì)微差異的核心作用。
在圖中可以看到,與未預(yù)訓(xùn)練的模型相比,完整的預(yù)訓(xùn)練帶來了平均超過 34% 的性能增益。圖 6d 探討了像素掩碼比例的影響,與 BERT(15%)或 MAE(75%)不同,MaskMol 在分子圖像上的最佳掩碼比例為 50%,這很可能與分子圖像本身信息稀疏、有效像素占比較低的特性有關(guān)。
圖 6e 進(jìn)一步分析了圖像大小影響,結(jié)果表明分子圖像的大小對性能無顯著影響(p>0.05)。
![]()
圖 6:消融實驗。
可解釋性分析
為了理解 MaskMol 的成功機(jī)理,研究團(tuán)隊進(jìn)行了特征空間探索,注意力可視化,化學(xué)知識解釋等三方面的可解釋性分析。
特征空間探索:圖 7a-b 顯示,基于 MaskMol 學(xué)習(xí)到的分子表征,高活性和低活性分子在二維空間中形成了更清晰的邊界,而基于 ECFP 指紋的表示則混雜在一起。定量分析(圖 7c)進(jìn)一步證實,活性懸崖分子對在 MaskMol 特征空間中的距離遠(yuǎn)大于在 ECFP 空間中的距離,進(jìn)一步說明 MaskMol 有效緩解了表征坍塌。
注意力可視化:上圖 7d-e 表明,經(jīng)過知識引導(dǎo)預(yù)訓(xùn)練后,MaskMol 能夠精準(zhǔn)地將注意力集中在與任務(wù)相關(guān)的原子、鍵或子結(jié)構(gòu)上。相比之下,GNN 模型往往將注意力分散在分子的不重要區(qū)域或相同的結(jié)構(gòu)上,而未經(jīng)預(yù)訓(xùn)練的圖像模型則關(guān)注整個分子而忽略了關(guān)鍵細(xì)節(jié),這證明 MaskMol 確實學(xué)會了利用細(xì)微的結(jié)構(gòu)差異進(jìn)行活性懸崖預(yù)測。
化學(xué)知識解釋:研究采用子結(jié)構(gòu)掩碼解釋(SME)進(jìn)一步量化子結(jié)構(gòu)對 MaskMol 預(yù)測的貢獻(xiàn)。通過計算子結(jié)構(gòu)貢獻(xiàn)度,能深入理解其對分子活性的影響。如圖8a所示,添加苯環(huán)(歸因值=?1.93,Ki = 5370 nM)和乙醇(歸因值=?0.95,Ki = 758 nM)等子結(jié)構(gòu)時,歸因值均低于零,且苯環(huán)的影響顯著大于乙醇,這與分子活性值高度吻合。除生物活性外,文章中還展示了不同子結(jié)構(gòu)對毒性的分析,如圖 8c 和 d。
![]()
圖 7:特征空間和注意力可視化。
![]()
圖 8:化學(xué)知識解釋。
應(yīng)用前景:從虛擬篩選到腫瘤治療
為了驗證 MaskMol 的實際應(yīng)用潛力,研究團(tuán)隊將其應(yīng)用于前列腺癌免疫治療潛在靶點 EP4 受體的抑制劑虛擬篩選。如圖 9e-f 所示,MaskMol 不僅在內(nèi)部測試集上表現(xiàn)優(yōu)異(R2 = 0.789),在來自專利文獻(xiàn)的外部驗證集上也保持了高預(yù)測精度(R2 = 0.755),并且能識別抑制劑和非抑制劑。
更重要的是,MaskMol 成功地從專利集中識別出了 9 個已知的 EP4 抑制劑候選化合物,如 Grapiprant、CJ-042794 等,這些分子均經(jīng)過細(xì)胞實驗或臨床試驗的驗證,這充分證明了 MaskMol 在真實藥物發(fā)現(xiàn)場景下作為高效虛擬篩選工具的可靠性。
![]()
圖 9:EP4 虛擬篩選。
總結(jié)與展望
MaskMol 研究的意義在于,它首次明確指出了活性懸崖任務(wù)中深度學(xué)習(xí)模型表征坍塌的瓶頸,并開創(chuàng)性地通過知識引導(dǎo)的分子圖像自監(jiān)督學(xué)習(xí)來突破這一瓶頸。該框架不僅顯著提升了預(yù)測性能,還具備良好的可解釋性,能為藥物化學(xué)家提供有價值的結(jié)構(gòu)-活性關(guān)系見解。
未來,在多模態(tài)知識融合、3D 構(gòu)象圖像建模以及跨模態(tài)知識蒸餾等方向還能進(jìn)一步拓展 MaskMol 的能力,這也將持續(xù)推動人工智能在藥物發(fā)現(xiàn)領(lǐng)域的深入應(yīng)用。
論文地址:https://doi.org/10.1186/s12915-025-02389-3
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.