![]()
作者 | 論文團(tuán)隊(duì)
編輯 | ScienceAI
在藥物研發(fā)中,對(duì)蛋白質(zhì) - 配體結(jié)合 (PLB) 關(guān)系的預(yù)測(cè)起著關(guān)鍵作用。然而傳統(tǒng)實(shí)驗(yàn)方法在檢測(cè) PLB 關(guān)系時(shí)需要消耗大量的人力與物力;現(xiàn)在雖然擁有很多基于人工智能方法實(shí)現(xiàn) PLB 預(yù)測(cè)的模型,但其對(duì) PLB 關(guān)系預(yù)測(cè)的精確度還不能滿足藥物開發(fā)的需求。
為了提升 PLB 預(yù)測(cè)的效果,深圳職業(yè)技術(shù)大學(xué)、湖南大學(xué)等團(tuán)隊(duì)基于蛋白質(zhì)與配體結(jié)合過程進(jìn)行了建模,提出了一種基于圖像的蛋白質(zhì) - 配體結(jié)合表征學(xué)習(xí)框架 ——ImagePLB。該框架實(shí)現(xiàn)了以下目標(biāo):
1. 采用多視角圖像進(jìn)行配體特征提取,有效避免了基于圖結(jié)構(gòu)的特征提取對(duì)原子數(shù)量的敏感性問題;
2. 實(shí)現(xiàn)了對(duì)配體圖像 - 蛋白質(zhì)口袋的結(jié)合表征提取,從而獲得高質(zhì)量的 PLB 表征;
3. 基于復(fù)合物的四維柔性動(dòng)力學(xué)軌跡數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練,進(jìn)一步提升模型性能。
該研究的論文以《An Image-based Protein-Ligand Binding Representation Learning Framework via Multi-Level Flexible Dynamics Trajectory Pre-training》為題,已發(fā)表在《Bioinformatics》期刊上。
![]()
論文地址:https://doi.org/10.1093/bioinformatics/btaf535
開源地址:https://github.com/HongxinXiang/ImagePLB
團(tuán)隊(duì)采用多視角圖像作為配體特征,并基于蛋白質(zhì)與配體的動(dòng)態(tài)結(jié)合過程,提出了一種基于 Transformer 架構(gòu)的綁定表征學(xué)習(xí)器 (BRL),以實(shí)現(xiàn)配體特征與結(jié)合位點(diǎn)中各氨基酸特征的融合提取,為 PLB 分析任務(wù)提供了高質(zhì)量的蛋白質(zhì) - 配體融合特征。
同時(shí),為了提升 PLB 分析任務(wù)的自監(jiān)督學(xué)習(xí)能力,研究團(tuán)隊(duì)在相互作用過程中引入了時(shí)間概念,并通過四維柔性動(dòng)力學(xué)軌跡實(shí)現(xiàn)了對(duì) ImagePLB 的預(yù)訓(xùn)練任務(wù)。
![]()
圖 1.(a) EGNN、SE (3)-Transformer 和 ResNet18 在 PDBbind-30 數(shù)據(jù)集訓(xùn)練集、驗(yàn)證集和測(cè)試集上的 1000 個(gè)訓(xùn)練周期性能表現(xiàn)。(b) EGNN 和 ResNet18 在不同最大原子長(zhǎng)度下的 PDBbind-30 性能對(duì)比。(c) 提出的蛋白質(zhì) - 配體結(jié)合 (PLB) 表征學(xué)習(xí)框架 (ImagePLB)。
算法流程及模型結(jié)構(gòu)
為了實(shí)現(xiàn)高質(zhì)量 PLB 關(guān)系分析的任務(wù),研究團(tuán)隊(duì)構(gòu)建了 ImagePLB 框架以完成該任務(wù),并且為 ImagePLB 框架設(shè)計(jì)了預(yù)訓(xùn)練策略與訓(xùn)練策略。
![]()
圖 2.ImagePLB 總體架構(gòu)
研究團(tuán)隊(duì)在使用多視角圖像對(duì)配體特征進(jìn)行提取的基礎(chǔ)上,引入 Transformer 來(lái)對(duì)蛋白質(zhì) - 配體復(fù)合物動(dòng)態(tài)結(jié)合過程進(jìn)行模擬。同時(shí),研究團(tuán)隊(duì)還設(shè)計(jì)了基于四維數(shù)據(jù)的后續(xù)軌跡預(yù)測(cè)任務(wù) MLNTP 實(shí)現(xiàn)對(duì) ImagePLB 的預(yù)訓(xùn)練并構(gòu)建了基于指數(shù)函數(shù)的軌跡正則化機(jī)制,解決了由相鄰軌跡過于相似引起的模型坍塌問題。
實(shí)驗(yàn)結(jié)果與性能提升
為了驗(yàn)證本文工作的有效性,研究團(tuán)隊(duì)使用 ResNET18 作為 LRL 的編碼器,EGNN 作為 PRL 的編碼器。在 MISATO (~20,000 個(gè)實(shí)驗(yàn)蛋白質(zhì) - 配體復(fù)合物的分子動(dòng)力學(xué)模擬數(shù)據(jù)) 數(shù)據(jù)集上完成預(yù)訓(xùn)練之后,使用了 PDBbind-30、PDBbind-60、PDBbind-scaffold 以及 LEP 這四個(gè)常用基準(zhǔn)數(shù)據(jù)集對(duì)模型性能進(jìn)行驗(yàn)證。
![]()
圖 3.PDBind 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在 PDBind 數(shù)據(jù)集上為 ImagePLB 設(shè)置了 PLB 關(guān)系親和力預(yù)測(cè)這一回歸任務(wù),ImagePLB 及其增強(qiáng)版本 ImagePLB-P 在多個(gè)指標(biāo)上均優(yōu)于現(xiàn)有模型,充分證明了該框架的有效性。
![]()
圖 4.LEP 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
在 LEP 數(shù)據(jù)集上,研究團(tuán)隊(duì)為 ImagePLB 設(shè)計(jì)了 PLB 配體效能預(yù)測(cè)分類任務(wù)。如圖 4 所示,ImagePLB 擁有極強(qiáng)的競(jìng)爭(zhēng)力,其將為蛋白質(zhì) - 配體結(jié)合表征學(xué)習(xí)領(lǐng)域的研究范式提供新的理論基礎(chǔ)。
![]()
圖 5.PDBbind-30-nonoverlap 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
為進(jìn)一步評(píng)估模型在蛋白質(zhì)與配體對(duì)上的泛化能力,研究團(tuán)隊(duì)基于 PDBbind-30 數(shù)據(jù)集進(jìn)一步加強(qiáng)了配體非重疊性約束以構(gòu)建新的數(shù)據(jù)集 PDBbind-30-nonoverlap。圖 5 結(jié)果顯示,ImagePLB 和 ImagePLB-P 取得了最佳性能,表明了 ImagePLB 和 ImagePLB-P 框架具有較強(qiáng)泛化能力。
為了對(duì)各策略的有效性進(jìn)行驗(yàn)證,研究團(tuán)隊(duì)針對(duì) LRL 模塊、預(yù)訓(xùn)練策略以及軌跡正則化策略設(shè)計(jì)了對(duì)應(yīng)的消融實(shí)驗(yàn),比較了:
1. 使用 ResNET18 實(shí)現(xiàn)基于圖像的配體特征提取 / 使用 EGNN 實(shí)現(xiàn)基于結(jié)構(gòu)的配體特征提取;
2. (使用 / 不使用) 預(yù)訓(xùn)練策略 (ImagePLB /ImagePLB-P);
3. (使用 / 不使用) 軌跡正則化策略 (w/o TR)。
![]()
圖 6.LRL 模塊消融實(shí)驗(yàn)結(jié)果
圖 6 表明,當(dāng)用圖像替代配體結(jié)構(gòu)數(shù)據(jù)時(shí),在 PDBbind-30 和 PDBbind-60 數(shù)據(jù)集上的結(jié)果均表明了圖像能有效增強(qiáng)模型捕捉配體 - 蛋白質(zhì)相互作用的能力。
在對(duì)預(yù)訓(xùn)練策略進(jìn)行分析時(shí),研究團(tuán)隊(duì)結(jié)合圖 3 與圖 4 結(jié)果進(jìn)行了分析。如圖 3 和圖 4 顯示,ImagePLB-P 在幾乎所有數(shù)據(jù)集上都優(yōu)于 ImagePLB,充分證明了所提出的預(yù)訓(xùn)練策略的有效性。
![]()
圖 7. 軌跡預(yù)測(cè)任務(wù)在未使用和使用軌跡正則化策略時(shí)的預(yù)訓(xùn)練損失對(duì)比
![]()
圖 8.ImagePLB、ImagePLB-P 及不含軌跡正則化策略的 ImagePLB-P 對(duì)比
在驗(yàn)證軌跡正則化策略有效性時(shí),研究團(tuán)隊(duì)首先對(duì)比了引入與不引入軌跡正則化的預(yù)訓(xùn)練損失。圖 7 與圖 8 所示結(jié)果充分證明了軌跡正則化的優(yōu)勢(shì),能有效防止模型在理解蛋白質(zhì) - 配體結(jié)合的動(dòng)態(tài)過程時(shí)所出現(xiàn)的模型坍塌問題。
總結(jié)與展望
在本研究中,研究團(tuán)隊(duì)明確了基于圖的蛋白質(zhì) - 配體結(jié)合(PLB)分析面臨兩大挑戰(zhàn):一是難以獲取高質(zhì)量的蛋白質(zhì) - 配體結(jié)合表征,二是對(duì)最大原子數(shù)量敏感。為解決這些問題,團(tuán)隊(duì)提出了 ImagePLB 框架。ImagePLB 展示了將圖像表示與動(dòng)態(tài)軌跡預(yù)訓(xùn)練引入蛋白質(zhì) - 配體結(jié)合學(xué)習(xí)的新范式,克服了這兩個(gè)挑戰(zhàn),向「智能藥物設(shè)計(jì)基礎(chǔ)模型」邁出了關(guān)鍵一步。
未來(lái),研究團(tuán)隊(duì)期待將這一框架進(jìn)一步擴(kuò)展到多肽、抗體等大分子相互作用預(yù)測(cè)中,并融合結(jié)合動(dòng)力學(xué)、毒性、代謝穩(wěn)定性等多目標(biāo)屬性優(yōu)化,從而推動(dòng) AI 在虛擬篩選與先導(dǎo)化合物優(yōu)化領(lǐng)域真正走向?qū)嶋H藥物研發(fā)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.