![]()
作者 | 論文團隊
編輯 | ScienceAI
想象一下,如果 AI 能擁有一位資深化學家的「化學直覺」—— 不僅能預測藥物間的相互作用,更能「看見」分子結構中那些決定其相互作用的微妙聯系,甚至揭示出那些沉睡在未知化學空間中的潛在互動,那將是怎樣一番景象?
然而,理想與現實之間存在著巨大的鴻溝。一直以來,AI 學習藥物相互作用的方式存在一個根本性的瓶頸:它嚴重依賴于已知的、有標記的藥物對數據。這種學習模式導致模型的泛化能力存在先天不足,一旦面對訓練數據之外的新藥或新組合,其預測精度就會急劇下降,難以推斷未知的相互作用規律。
最近,來自于湖南大學的團隊在 NeurIPS 2025 接收的一項新研究 ——S2VM,正是在這一背景下提出。其創新地提出了一種有效預測藥物相互作用的自監督預訓練框架,讓 AI 不再僅限于當前有限的藥物相互作用數據,而是在廣泛的藥物空間下探索藥物之間潛在關聯。
![]()
論文標題:Self-supervised Blending Structural Context of Visual Molecules for Robust Drug Interaction Prediction
論文鏈接:https://neurips.cc/virtual/2025/poster/119726
代碼鏈接:https://github.com/xiaomingaaa/S2VM
1. 引言
聯合治療,即同時使用多種藥物,是一種治療復雜疾病的有效策略。然而,這種方法也帶來了其他的問題 —— 潛在的藥物 - 藥物相互作用(drug-drug interactions,DDIs)可能會改變預期的治療效果。當患者同時服用多種藥物時,這些相互作用可能導致意外的副作用或臨床療效下降。
以往的計算方法 —— 從早期的基于分子結構相似性的模型到后來利用圖神經網絡(GNN)和知識圖譜(KG)的深度學習方法 —— 雖然能夠在在已有的藥物上得到較為理想的預測效果,但普遍依賴于有限且有偏的已知 DDI 數據。這種監督學習范式限制了模型的「視野」,導致其在應對新藥或新組合時泛化能力顯著下降。
為突破這一瓶頸,S2VM 提出以大規模未標記藥物對為核心的自監督學習框架。該方法不再依賴少量已知交互,而是從約兩億對未探索藥物中學習,捕捉分子間的結構特征與潛在關系,從而提升模型對未知藥物組合的理解與預測能力。
![]()
圖 1:S2VM 對現有藥物的配對空間進行了全面探索。
2.S2VM 方法
S2VM 的核心貢獻在于:通過在未標記藥物對上的自監督預訓練,它成功融合了分子的內在結構表征與外在交互特征,在多種實驗場景中實現了 DDI 預測的最新性能。S2VM 方法主要分為四個組件:
- 在視覺層面融合藥物信息:基于局部子結構作為不同分子的共有內在屬性這一先驗知識,以局部子結構為錨點,對藥物對的二維圖像進行細粒度視覺融合,從而將分子的內在結構與藥物間的外在關系協同編碼至一個統一的結構矩陣中。
- 視覺編解碼器:將分子的結構化標記送入一個視覺編碼器 - 解碼器網絡,通過執行編碼 - 解碼任務來學習并重建其片段間的內在關聯,從而捕捉它們深層的語義關系。
- 重建藥物信息:通過解碼融合后的統一表示并最小化像素級重建誤差,來迫使編碼器深入學習藥物對的聯合視覺結構,最終鍛造出一個強大的統一編碼器。
- 下游的 DDI 預測:在下游任務中,預訓練的編碼器作為一個強大的聯合特征提取器,它將輸入的藥物對信息直接編碼為一個高度凝練的全局特征向量,供后續的分類頭進行端到端的相互作用預測。
![]()
圖 2:S2VM 框架包含四個組件:(a) 將藥物對融合成統一的輸入,對其進行采樣并將其混合成結構標記;(b) 將結構標記輸入基于視覺的編碼器 - 解碼器,以模擬分子片段的語義關系;(c) 設置了一個重建操作來恢復輸入的藥物,以促進藥物對的結構融合;(d) 采用預訓練的編碼器來預測潛在的藥物相互作用。
3. 結果
性能評估
![]()
表 1:S2VM 在 Deng 和 Ryu 數據集上的表現。
![]()
表 2-3:S2VM 在 Deng,Ryu 兩個數據集小樣本場景下的表現。
DDI 預測模型的真正價值,不僅體現在對大規模已知數據的精準擬合上,更體現在其面對小樣本或新藥等數據稀疏場景時的預測能力。實驗結果顯示,S2VM 在各項評測中均展現出更強的性能。在 Deng 和 Ryu 兩個標準數據集上,其性能達到了當前最優水平(見表 1)。
更突出的是,在更具挑戰性的小樣本(Few-shot)預測任務中,其領先優勢進一步擴大,展現出強大的魯棒性(見表 2-3)。這表明,S2VM 通過將藥物對視為統一輸入進行結構融合,并在海量數據上預先學習精細化的視覺結構表示,不僅提升了常規預測的精度,也顯著增強了模型的泛化能力,使其在監督信息極為有限時依然能做出可靠預測。
消融研究
![]()
圖 2:S2VM 不同變體的結果。
為了客觀評估 S2VM 中各項核心設計的貢獻,其進行了一系列消融實驗,分別測試了移除自監督預訓練(w/o pretrain)和替換聯合編碼為獨立編碼(w/shared)兩種情況。實驗結果(見圖 2)清晰地表明,在兩個標準數據集上,任何核心模塊的缺失都會導致模型性能出現顯著下降。
這一發現有力地證實了兩點:首先,自監督預訓練是模型有效提取藥物間內外在結構關聯的關鍵;其次,聯合編碼策略是實現分子視覺信息深度融合的最優路徑。因此,S2VM 的卓越性能并非源于單一模塊,而是來自于其自監督學習與聯合編碼策略的緊密結合與協同作用。
有效性和可解釋性評估
![]()
圖 3:S2VM 在 TWOSIDES 數據集上的歸納場景性能。
一個真正強大的 DDI 預測模型,其價值體現在兩個層面:一是在新藥等數據稀疏場景下的泛化預測能力,二是其預測背后清晰、可信的結構化解釋。
S2VM 首先在最具挑戰性的新藥預測任務中驗證了其泛化能力,實驗結果(見圖 3)表明,在專為評估新藥設計的歸納場景(Inductive Scenario)下,S2VM 的表現全面超越了現有方法。這得益于其獨特的自監督框架能夠從海量的藥物對中有效提煉出通用的結構相互作用規律,從而對未知藥物做出精準判斷。
此外,S2VM 的預測結果更具備堅實的結構化可解釋性(見圖 4)。在對 DDI 機制的探索中,模型不僅能夠精準定位并高亮出導致藥物相互作用的關鍵分子亞結構 —— 例如,在藥物 Paroxetine 的案例中,模型成功識別出了文獻報道的已知酶抑制劑片段(如 1,3-Benzodioxole),而且進一步的量化評估也證實,模型關注的重點區域與生物學先驗知識高度吻合。
卓越泛化能力與深度可解釋性的協同作用,使得 S2VM 不僅能進行精準預測,更能提供可靠的機制洞察,使其成為一個穩健可靠的計算工具,能夠支持并深化對藥物相互作用機制的研究。
![]()
圖 4:S2VM 的結構化可解釋性。
結語
當前藥物研發領域坐擁海量分子數據,但如何將其轉化為有效的生物學洞察仍是巨大挑戰。S2VM 開辟了一條將數億級未標記藥物對直接轉化為強大預測能力的有效路徑,成功彌合了原始數據與高層知識之間的鴻溝。它使得研究范式從被動等待實驗數據的積累,向主動、大規模地從數據中直接發現知識的轉變成為可能,從而為根本性加速新藥的發現進程鋪平了道路。
參考資料:
[1] Ma, Tengfei, et al. "Self-supervised Blending Structural Context of Visual Molecules for Robust Drug Interaction Prediction." The Thirty-Ninth Annual Conference on Neural Information Processing Systems. 2025.
[2] https://github.com/xiaomingaaa/S2VM
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.