![]()
編輯丨王多魚
排版丨水成文
蛋白質是生命的基石,從催化化學反應到傳遞細胞信號,幾乎參與了所有生命過程。長期以來,科學家們主要通過實驗方法確定蛋白質結構,但這種方法成本高昂且通常只能獲得少數靜態結構。
隨著人工智能(AI)的突破,特別是AlphaFold2的出現,讓僅依賴蛋白質的氨基酸序列準確預測蛋白質的穩定結構成為可能。然而,這些 AI 模型主要預測的是蛋白質最穩定的單一構象,就像只給一個人拍了一張標準證件照。
實際上,蛋白質在細胞內是動態變化的,它們在不同構象狀態之間轉換,這種靈活性對它們的功能至關重要。例如,酶在與底物結合時會改變形狀,受體蛋白在傳遞信號時會切換構象。因此,要全面捕捉蛋白質的構象全貌及其動態靈活性,仍頗具挑戰性。
2026 年 2 月 25 日,華東理工大學藥學院/華東師范大學藥學院/人工智能新藥創智中心李洪林團隊、華東師范大學計算機學院張凱團隊、復旦大學類腦智能科學與技術研究院張捷團隊合作(王保利、王成林、陳勁楊為論文共同第一作者),在 Nature 子刊Nature Machine Intelligence上發表了題為:Conditional diffusion with locality-aware modal alignment for generating diverse protein conformational ensembles 的研究論文。
該研究開發了一個 AI 模型——模態對齊條件擴散模型(Mac-Diff),用于生成未知蛋白質的構象集合。Mac-Diff的核心是一個注意力模塊,該模塊通過實施精妙的局部感知對齊機制,在條件視圖(蛋白質序列)與目標視圖(殘基對幾何結構)之間建立關聯,從而計算出高度語境化的特征以實現有效的結構去噪與生成。此外,Mac-Diff 利用來自 ESM-2 等蛋白質語言模型的語義豐富序列嵌入來強化蛋白質序列條件,該條件完整捕獲了進化、結構和功能信息。Mac-Diff 在生成逼真且多樣化的蛋白質結構方面展現出顯著成效:成功復原了快速折疊蛋白質的構象分布,捕捉到僅在長程分子動力學模擬軌跡中觀測到的多個亞穩態構象,并高效預測了變構蛋白的替代構象。
這項研究讓蛋白質從單一靜態結構走向多元動態集合,為增進蛋白質動力學和結構變異性認知提供了重要工具,對結構生物學、基于結構的藥物設計及蛋白質工程具有廣泛影響。
![]()
Mac-Diff:讓蛋白質“動起來”
在這項新研究中,研究團隊提出了一個名為“模態對齊條件擴散”(modal-aligned conditional diffusion,Mac-Diff)的新方法。
這項研究的關鍵在于,Mac-Diff能夠生成給定蛋白質序列的多種可能構象,形成一個完整的“構象集合”,而不僅僅是單一結構。
Mac-Diff的核心創新是一種稱為“局部感知模態對齊注意力”(locality-aware modal alignment attention,LAMA-attention)的機制。簡單來說,這個機制就像一位精準的翻譯官,在蛋白質的氨基酸序列(條件視圖)和三維結構(目標視圖)之間建立精細的對應關系。
與傳統的文本到圖像生成任務中松散的像素-詞語對齊不同,LAMA-attention 強制每個氨基酸殘基只關注其最可能相互作用的鄰近殘基,從而在序列和結構之間建立物理上更精確的對齊。
技術突破:從蛋白質語言中讀懂結構密碼
Mac-Diff的另一個關鍵特點是它使用了蛋白質語言模型(例如 ESM-2)來獲取蛋白質序列的初始表示作為條件輸入。這些模型通過無監督的掩碼語言建模在大量蛋白質序列數據上訓練,能夠捕捉從進化模式、結構基序到功能特性的廣泛信息。
這種語義豐富的序列表示作為條件,為生成多樣化的蛋白質構象提供了強大的基礎。相比之下,許多現有方法依賴于結構預測模型(例如 AlphaFold2)的序列嵌入,而這些模型在默認設置下傾向于預測單一主導結構。
Mac-Diff的架構基于分數擴散模型,采用 U-Net 結構,包含五個下采樣/上采樣階段。每個階段都有一個 ResNet 塊來整合時間步嵌入和氨基酸殘基對表示,以及一個 Transformer 塊,通過自注意力和 LAMA-attention 更新氨基酸殘基對表示。
![]()
Mac-Diff 架構概述
性能驗證:超越現有方法的卓越表現
研究團隊對Mac-Diff進行了全面評估,使用了精心策劃的訓練數據集和廣泛使用的公共基準數據集。評估分為兩個互補的任務類別:恢復構象集合的底層分布和預測蛋白質的替代構象。
在快速折疊蛋白質基準測試中,Mac-Diff在恢復構象分布方面表現出色。與現有的擴散和流基模型相比,Mac-Diff 在三個關鍵指標上均取得了競爭優勢:成對 Cα 原子距離分布的 Jensen-Shannon(JS)散度降低了約 18%,回轉半徑分布降低了 22%,基于時間滯后獨立成分分析(TICA)的 JS 散度降低了 5%。
特別值得注意的是,Mac-Diff 在多樣性和保真度之間取得了良好平衡。評估顯示,Mac-Diff 生成的構象既保持了高度的結構準確性,又展現了豐富的多樣性,在 12 個測試蛋白質中的平均得分最高。
實際應用:從理論到實踐的跨越
Mac-Diff不僅能夠恢復快速折疊蛋白質的構象分布,還能預測具有潛在生物學相關性的替代構象,即使對于訓練中未遇到的蛋白質也是如此。
例如,該模型成功恢復了牛胰蛋白酶抑制劑(BPTI)的重要構象亞狀態,這些狀態僅在 1 毫秒的長時分子動力學模擬中觀察到。同時,它還預測了腺苷酸激酶(AdK)的閉合狀態和開放狀態,這是一種參與能量代謝的變構蛋白。
在效率方面,Mac-Diff 的采樣速度比傳統分子動力學模擬快約 3000 倍(即超過三個數量級)。這種速度優勢使得大規模構象采樣成為可能,為蛋白質動力學研究提供了強大工具。
未來展望:打開蛋白質研究的新大門
Mac-Diff的成功標志著蛋白質結構預測從靜態向動態的重要轉變。這項技術不僅有助于我們更好地理解蛋白質折疊動力學,還能揭示蛋白質序列、結構和功能之間復雜關系的奧秘。
在應用層面,Mac-Diff 預測構象異質性的能力將在基于結構的藥物設計和蛋白質工程中發揮重要作用。通過更全面地了解蛋白質的可能構象,科學家可以設計更有效的藥物,開發具有新功能的蛋白質,并深入探索疾病的分子機制。
隨著人工智能技術的不斷發展,像 Mac-Diff 這樣的模型將推動結構生物學進入一個全新時代——蛋白質不再被看作靜止的結構,而是被理解為動態的、多態的生命機器。
論文鏈接:
https://www.nature.com/articles/s42256-026-01198-9
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.