![]()
新智元報道
編輯:LRST
【新智元導讀】免疫系統通過識別抗原的特定片段(表位)來判斷是否啟動免疫反應,但準確預測表位的免疫原性極具挑戰。耶魯大學等將免疫原性預測拓展為多模態建模,整合序列、三維結構和生化屬性,顯著提升預測性能并增強可解釋性。該方法還針對癌癥免疫的特殊性設計對比學習策略,有效利用稀缺數據,為疫苗設計和免疫治療提供新思路。
當抗原進入人體或在體內產生時,免疫系統需要通過一套復雜機制判斷其是否為「敵人」,并據此激活免疫反應,這一可被識別并觸發反應的特性被稱為免疫原性。
然而,免疫系統并不會對所有抗原片段作出反應,它真正「看到」的往往只是少數關鍵片段,即表位(epitopes)。
疫苗設計正是利用這一機制,試圖通過人工方式呈遞特定表位來誘導免疫反應。表位是否具有免疫原性并非由單一因素決定,而是一個多階段、強依賴上下文的過程。
因此,即便序列高度相似的表位,其免疫原性也可能截然不同,使得免疫原性的準確預測本身極具挑戰。
現有主流方法往往將抗原簡化為一維氨基酸序列,并基于卷積神經網絡或語言模型進行建模,這類方法在一定程度上有效,但忽略了蛋白質在三維空間中的真實結構形態以及由此產生的空間相互作用,從而在預測精度和結果可解釋性上存在天然局限。
近日,針對這些局限,耶魯大學與霍華德·休斯醫學研究所的研究團隊提出ImmunoStruct,其核心思想是免疫原性不僅取決于序列本身,還受到空間構型、表面暴露特性以及多種生化相互作用的共同影響,ImmunoStruct將免疫原性預測從一維序列建模拓展為多模態建模問題。
![]()
論文鏈接:https://www.nature.com/articles/s42256-025-01163-y
代碼鏈接:https://github.com/KrishnaswamyLab/ImmunoStruct
從「一維序列」到「多模態結構」
ImmunoStruct的核心思想
具體而言,ImmunoStruct同時整合了三類互補信息:序列信息、由AlphaFold2預測得到的三維結構信息,以及使用物理模型從結構與序列中計算出的生化屬性(圖1)。
![]()
圖1:ImmunoStruct的框架概覽
模型通過變分自編碼器學習緊湊而連續的序列表示,通過等變圖神經網絡刻畫三維結構空間關系與相互作用,并通過多層感知機建模生化特征。
在此基礎上,它采用多模態注意力機制對不同模態的信息進行協同融合,使模型能夠根據具體樣本動態關注對免疫原性最具判別力的結構、序列或生化特征。
這種從「序列」走向「結構–序列–生化屬性」聯合建模的策略,使ImmunoStruct不僅在預測性能上顯著優于現有方法,也首次實現了對免疫原性結構決定因素的可解釋建模,為表位疫苗設計中免疫原性篩選提供了更符合生物學機制的計算框架。
另外,針對癌癥免疫數據稀缺、有效免疫信號更難獲取的問題,研究團隊進一步從癌癥免疫的基本特性出發進行了建模設計。
與感染性抗原不同,癌癥相關的突變往往源自人體自身蛋白,免疫系統在發育過程中已對「正常版本」形成耐受,因此大多數突變并不會引發免疫反應;只有當突變顯著改變了免疫系統「看到」的關鍵特征時,才可能被識別為異常并觸發反應。
基于這一差異性,ImmunoStruct引入了基于突變型與對應野生型序列的對比學習策略(圖2):當突變不具備免疫原性時,模型學習將二者在表示空間中拉近;而當突變產生免疫原性時,則學習將二者明確區分開來,從而直接圍繞「突變是否帶來有效變化」這一核心問題組織表示學習。
![]()
圖2:針對癌癥數據的「突變型/野生型」對比學習策略
同時,該對比目標還鼓勵不同特征維度捕捉互補信息,減少表示退化,使有限的癌癥免疫數據能夠被更高效地利用,并顯著提升下游預測性能。
研究團隊在多類免疫相關數據集上對ImmunoStruct進行了系統評估,涵蓋傳染病(IEDB數據集)與癌癥(CEDAR數據集)的免疫原性預測任務。
實驗結果顯示,相較于主要依賴序列信息的既有方法,ImmunoStruct在免疫原性預測性能上取得了穩定提升。
![]()
圖3: 在傳染病數據集IEDB上的表現
模型為什么會這么判斷?
結構層面的線索開始顯現
為了理解ImmunoStruct的預測依據,研究團隊進一步分析了模型中的結構注意力機制。
結果顯示,模型并非平均利用所有輸入信息,而是學會將注意力集中到少數具有判別力的空間位置。在高免疫原性樣本中,注意力顯著富集于抗原分子中部且更容易向外暴露的區域,而非主要承擔結構錨定作用的位置(圖4)。
![]()
圖4: 一些模型可解釋性的分析
進一步分析發現,這些被重點關注的位置在免疫原性樣本中呈現出更高的一致性,暗示模型捕捉到的是穩定的結構特征而非偶然的序列差異。將注意力模式映射回已知的三維結構后可以看到,模型關注的區域與真實分子識別界面高度一致,為預測結果提供了直觀的結構解釋。
這種結構感知能力也使ImmunoStruct能夠區分極其細微的突變差異,在癌癥新抗原的案例中,即便僅相差一個氨基酸,模型仍能通過捕捉局部空間構型的變化給出不同的免疫原性預測,表明其判斷是建立在可解釋的結構線索之上的。
在更接近真實生物醫學場景中的進一步驗證
為了檢驗模型在真實生物醫學任務中的有效性,研究團隊進一步在實驗數據和臨床數據上對ImmunoStruct進行了獨立驗證(圖5)。
![]()
圖5: 一些在實驗數據和臨床數據上的驗證結果
在實驗層面,作者針對一組來源于 SARS-CoV-2 的候選表位開展了體外免疫實驗。結果顯示,ImmunoStruct 在未參與實驗設計的情況下,能夠準確預測大多數實驗測得的免疫反應,整體表現與實驗結果高度一致,表明模型學到的信號具有可轉移的生物學意義。
更進一步,研究團隊將ImmunoStruct應用于接受免疫治療的癌癥患者隊列,并基于模型預測的免疫原性水平對患者進行分組。在無需任何再訓練的情況下,ImmunoStruct的預測結果能夠有效區分患者的生存期,且表現優于常用的突變負荷等指標。這表明,模型不僅能夠在受控實驗條件下做出合理判斷,也能夠在高度復雜、異質性極強的臨床數據中捕捉與治療結局相關的免疫信號,展現出潛在的臨床轉化價值。
意義與展望
總體而言,ImmunoStruct展示了一種從「一維序列建模」邁向「多模態結構感知學習」的新范式:通過聯合利用序列、空間結構與生化特征,并引入可解釋的注意力機制與對比學習策略,模型不僅提升了免疫原性預測性能,也揭示了哪些結構線索真正驅動模型決策。
這一工作表明,在復雜生物問題中,將深度學習與結構信息和領域知識相結合,能夠在有限數據條件下同時獲得更強的泛化能力與更高的可解釋性,為精準疫苗設計、蛋白功能預測以及更廣泛的結構感知機器學習任務提供了可推廣的思路。
參考資料:
https://www.nature.com/articles/s42256-025-01163-y
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.