撰文丨王聰
編輯丨王多魚
排版丨水成文
2020 年 11 月,DeepMind 推出了AlphaFold2,掀起了蛋白質結構預測領域革命,它幾乎解決了困擾生物學界 50 年的“蛋白質折疊問題”,實現了對蛋白質 3D 結構的快速、精準預測,并于 2024 年獲得了諾貝爾獎的認可。
然而,它仍有一個關鍵限制:AlphaFold2 需要大量的同源序列信息作為輸入,這導致計算成本居高不下。
而現在,來自中國研究團隊的一項最新研究成果有望改變這一局面,該研究提出了一個名為TDFold的新方法,能夠從單序列實現蛋白質結構的高精度預測,速度比現有方法快 10-100 倍,GPU 占用降低近一半。
2026 年 4 月 1 日,北京師范大學人工智能學院崔振教授團隊在 Nature 子刊Nature Machine Intelligence上發表了題為:Two-dimensional geometric template diffusion for boosting single-sequence protein structure prediction 的研究論文。
該研究提出了一種名為TDFold的二維幾何模板擴散方法,用于生成高質量的成對幾何特征(包括成對距離和方向),這些特征被用于實現精準高效的三維蛋白質結構預測。給定一個蛋白質序列,TDFold 通過包含兩個階段的網絡架構推斷其 3D 結構:二維幾何模板生成和序列-幾何協同學習。與現有蛋白質語言模型(例如 ESMFold、OmegaFold)及基于同源性的方法(例如 AlphaFold2、AlphaFold3 和 RoseTTAFold)相比,TDFold 具備三大優勢:更優的單序列預測性能、更低的資源消耗以及更高的推理效率。
研究團隊在同源性不足的數據集(例如 Orphan 和 Orphan25)和主流的 CASP 基準測試中驗證了TDFold的預測有效性,為單序列蛋白質結構預測提供了創新解決方案。該方案同時加速了蛋白質相關研究進程,尤其為資源有限的高校和科研機構提供了重要工具。
![]()
從單序列進行蛋白質結構預測是指僅使用蛋白質的氨基酸序列來預測其三維空間結構,而不依賴進化相關的多序列比對(MSA)信息。由于獲取同源信息的高計算成本,基于單序列的蛋白質結構預測,日益受到關注。
傳統方法的“軟肋”:同源序列依賴
要理解這項突破的意義,先得了解傳統方法的局限。
現有的頂級蛋白質結構預測模型主要分兩類——
同源信息依賴型:例如 AlphaFold2、AlphaFold3、RoseTTAFold,需要搜索大量同源序列和 3D 結構模板;
蛋白質語言模型型:例如 ESMFold、OmegaFold,僅使用氨基酸序列文本信息。
前者雖然精度高,但計算成本巨大——預測一個 500 個氨基酸組成的蛋白質,AlphaFold2 需要近1000 秒時間,占用 12GB GPU。更關鍵的是,對于“孤兒蛋白”(缺乏同源序列的蛋白質)或快速進化的病毒蛋白,這類方法的性能會大幅下降。
后者雖然擺脫了對同源序列的依賴,但模型龐大復雜,推理速度慢、資源消耗高,ESMFold 預測同樣蛋白質需要約100 秒時間,占用 20GB GPU。
核心創新:像“文生圖”一樣“序列生幾何”
TDFold的巧妙之處在于,它借鑒了當前火熱的擴散模型技術,但應用方式獨具匠心。
簡單來說,TDFold 的工作流程分為兩步——
1、二維幾何模板生成:將蛋白質序列作為“文本提示”,通過改進的擴散模型生成氨基酸殘基間的距離和方向矩陣。這就像用 Stable Diffusion 根據文字描述生成圖片一樣,TDFold 根據氨基酸序列“生成”蛋白質的幾何藍圖。
2、序列-幾何協同學習:使用輕量級圖神經網絡,同時學習氨基酸殘基級和原子級特征,最終預測出完整的三維原子坐標。
研究團隊采用了 LoRA 微調技術,只訓練少量參數,就使 Stable Diffusion 模型適應了蛋白質幾何生成任務,大大降低了訓練成本。
![]()
TDFold 的架構和二維幾何模板擴散過程
性能表現:全面超越現有方法
實驗結果顯示,TDFold 在多個基準測試中表現優異:
在孤兒蛋白數據集上:
Orphan 數據集:TM-score 達到 0.46,優于 ESMFold 的 0.42,以及 AlphaFold2(全模式)的 0.37;
Orphan25 數據集:TM-score 達到 0.61,明顯高于 ESMFold 的 0.54。
在 CASP 標準測試集上:
與 ESMFold 相比,在 CASP14、CASP15、CASP16 上分別獲得 0.02、0.01、0.02 的 TM-score 提升;
與 OmegaFold 相比,在 CASP15 和 CASP16 上分別獲得 0.07 和 0.08 的顯著提升。
更驚人的是效率優勢:
推理速度:預測 500 個氨基酸殘基的蛋白質僅需約 10 秒時間,而 ESMFold 需要 100 秒,AlphaFold3 需要 240 秒,AlphaFold2 和 RoseTTAFold 則需要近 1000秒;
內存消耗:僅需約 7GB GPU,而 AlphaFold2 需要 12GB,RoseTTAFold 需要 16GB,ESMFold 需要 20GB(AlphaFold3 的訓練權重未開源,無法獲知其所需 GPU);
訓練成本:使用單張英偉達 4090 GPU,一周內即可完成訓練。
實際意義:降低門檻,加速研究
這項研究的最大價值在于,大幅降低了蛋白質結構預測的門檻。
對于資源有限的研究機構、大學實驗室,現在可以使用消費級 GPU 在短時間內完成高質量的蛋白質結構預測,而不再需要昂貴的計算集群。
在生物醫學研究中,這意味著:
快速解析新發現蛋白質的結構,加速藥物靶點識別;
實時跟蹤病毒蛋白的變異,為疫苗設計提供支持;
大規模掃描蛋白質數據庫,發現新的功能模塊。
TDFold 的推出,證明了跨領域技術融合的威力——將計算機視覺中的擴散模型創新性地應用于結構生物學問題。
隨著技術的進一步優化,我們或許很快就能看到:
在線蛋白質結構預測服務響應時間從分鐘級降至秒級;
個人電腦也能運行高精度結構預測工具;
實時、動態的蛋白質折疊過程模擬成為可能。
這項研究不僅推動了 AI 在科學發現中的應用,更重要的是,它讓更多研究者能夠平等地獲取強大的科研工具——這或許就是技術民主化的真正意義。
論文鏈接:
https://www.nature.com/articles/s42256-026-01210-2
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.