![]()
在一張桌前有兩個(gè)人,倘若我們能讀懂他們的語言神態(tài),那我們就能推斷出下一刻他們會(huì)是爭吵亦或是握手。
現(xiàn)在,把「人」換成蛋白質(zhì),把「話」換成氨基酸序列——蛋白質(zhì)相互作用是生命過程的核心:信號傳導(dǎo)、代謝通路、病毒入侵宿主等,都依賴特定蛋白質(zhì)之間的物理接觸。倘若能讀懂其中的相互作用,也就能為接下來的一系列研究鋪平道路。
為此,格拉斯哥大學(xué)(University of Glasgow)等的研究者提出一種方法,填補(bǔ)現(xiàn)有模型在泛化能力上的缺陷。他們把單蛋白的語言模型擴(kuò)展為雙蛋白的「對話識別器」,讓大型蛋白質(zhì)語言模型學(xué)會(huì)同時(shí)聽兩條序列,從中判斷它們是否會(huì)相互作用(PPI)。
相關(guān)的研究以「PLM-interact: extending protein language models to predict protein-protein interactions」為題,于 2025 年 10 月 27 日發(fā)布在《Nature Communications》。
![]()
論文鏈接:https://www.nature.com/articles/s41467-025-64512-w
一款對接翻譯器
在病毒學(xué)中,PPIs 尤其重要,因?yàn)椴《就耆蕾囉谒拗骷?xì)胞進(jìn)行復(fù)制,主要通過與宿主蛋白質(zhì)的特異性相互作用來實(shí)現(xiàn)。倘若是能讀懂其中的相互作用,就能為開發(fā)針對性治療藥物帶來更便捷的方法。
計(jì)算算法為大規(guī)模預(yù)測 PPI 提供了一種高效的替代方案。基于大型公共蛋白質(zhì)序列數(shù)據(jù)庫訓(xùn)練的蛋白質(zhì)語言模型(PLM)被用于編碼序列組成、進(jìn)化和結(jié)構(gòu)特征,成為表示蛋白質(zhì)在最新 PPI 預(yù)測器中的首選方法。
而該研究團(tuán)隊(duì)所提出的 PLM-Interact,通過擴(kuò)展和微調(diào)預(yù)訓(xùn)練的 PLM,即 ESM-2,直接建模 PPI。它能把兩條蛋白序列拼接入模型,使 Transformer 的注意力能跨蛋白捕捉「配對」信息,而不是先各自編碼再拼特征。
![]()
圖 1:PLM-interact 與現(xiàn)有 PPI 預(yù)測架構(gòu)的比較。
在掩碼語言建模(MLM)任務(wù)之外,團(tuán)隊(duì)加入l二元分類任務(wù),直接訓(xùn)練模型判斷給定的蛋白對是否真實(shí)交互。分類損失與 MLM 損失按一定比例(paper 中選擇 1:10)混合訓(xùn)練,且模型層被全部微調(diào)以適配這一雙序列任務(wù)。
這些設(shè)計(jì)讓氨基酸殘基間的跨蛋白注意力成為可能:模型不再只學(xué)習(xí)「單句語法」,而能學(xué)習(xí)兩條序列間的「對話格局」。該方法既保留了預(yù)訓(xùn)練的結(jié)構(gòu)-進(jìn)化信息,又把相互作用信號嵌入到語言模型內(nèi)部。
跨物種提升
為了檢驗(yàn) PLM-interact 的性能,該模型在包含421,792對蛋白的訓(xùn)練集(以人類數(shù)據(jù)為主)進(jìn)行訓(xùn)練,并與其余六種方法在物種其他物種上進(jìn)行測試。
相較于六種現(xiàn)有方法,PLM-interact 在 AUPR(精確率-召回曲線下面積)上取得了最佳成績:在鼠、果蠅和線蟲上分別提升約2%、8%、6%(對比次優(yōu)方法),在更進(jìn)化上遠(yuǎn)的酵母和細(xì)菌上也有顯著增益。
![]()
圖 2:PLM-interact 與最先進(jìn)的 PPI 預(yù)測模型的基準(zhǔn)測試結(jié)果。
PLM-interact 的改進(jìn)歸因于其正確識別正 PPI 的能力:它始終將更高的相互作用概率分配給真正的陽性 PPI。相比之下,其他方法在所有保留物種中都給出了較低的相互作用概率估計(jì)。
PLM-interact 能夠準(zhǔn)確預(yù)測五個(gè)關(guān)鍵的蛋白質(zhì)相互作用,這些相互作用控制著重要的生物學(xué)功能,包括 RNA 聚合和蛋白質(zhì)運(yùn)輸。值得注意的是,其他蛋白質(zhì) AI 工具,包括由谷歌 DeepMind 支持的 AlphaFold3,只能預(yù)測五個(gè)蛋白質(zhì)相互作用中的一個(gè)。
![]()
圖 3:PLM-interact 正確預(yù)測但 TUnA 和 TT3D 未能預(yù)測的每個(gè)物種的 PPI 示例。
那么,為什么這些舉措有用?
把兩條序列放進(jìn)同一個(gè) Transformer,等于是把「對話」上下文納入模型的注意力機(jī)制:模型可以直接把一個(gè)蛋白的某個(gè)殘基與另一個(gè)蛋白的某個(gè)殘基聯(lián)系起來,形成「跨分子接觸」的隱式表示。這比先各自編碼再拼接特征更直接,也更容易捕捉到互作所需的互補(bǔ)性。
把分子當(dāng)語言來讀
PLM-interact 展示了一個(gè)清晰的理念:把序列看成「句子」,把相互作用看成「對話」,通過模型學(xué)習(xí)語言級別的跨分子關(guān)系,也可以在未見物種上實(shí)現(xiàn)高度泛化。
在超過 6.5 億個(gè)獨(dú)立參數(shù)的獨(dú)立參數(shù)的背后,是研究者對開發(fā)一個(gè)能夠以前所未有的規(guī)模和精度的,預(yù)測蛋白質(zhì)相互作用的系統(tǒng)所作出的貢獻(xiàn)。這項(xiàng)工作是「讓超級計(jì)算機(jī)學(xué)會(huì)分子語言」的一步,把序列信息轉(zhuǎn)化為可以操作的生物學(xué)推斷。
https://phys.org/news/2025-10-supercomputer-ai-intricate-language-biomolecules.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.