![]()
編輯丨coisini
自 AlphaFold2 問世以來,蛋白質折疊模型取得了突破性進展。但是這些模型,往往是通過將領域專業知識融入架構設計和訓練流程而構建的。
鑒于最近幾年,生成模型在多個領域取得成功,我們不禁要問:蛋白質折疊模型的特定架構設計是否必要?
為了回答這個問題,來自蘋果的研究團隊提出首個基于流匹配(flow-matching)的蛋白質折疊模型 ——SimpleFold,該模型僅使用通用 Transformer 層,無需依賴多重序列比對、配對相互作用圖、三角更新(triangular updates)或任何等變幾何模塊,即可將蛋白質序列直接映射至其完整三維原子結構。
正如研究論文題目所述:「蛋白質折疊比你想象的更簡單」。
![]()
論文地址:https://arxiv.org/pdf/2509.18480v1
大幅簡化架構設計
研究團隊將蛋白質折疊重新定義為條件生成任務。SimpleFold 突破了當前依賴專用架構的設計范式,采用通用 Transformer 主干網絡,并通過流匹配目標進行端到端訓練。
SimpleFold 包含三大核心模塊:輕量級原子編碼器與解碼器(采用對稱設計,即模塊數量和隱藏層維度相同)以及殘差主干網絡。所有模塊均通過標準 Transformer 塊實現,并配備根據時間步長自適應調節的層結構。
![]()
SimpleFold 采用簡化的流匹配訓練目標,輔以 LDDT 損失函數進行訓練,而非組合多種蛋白質特異性損失項。這一簡化使研究團隊能夠實現模型規模和訓練數據量級的同步擴展,最終發布了從 1 億參數到 30 億參數的系列模型。
重要的是,研究團隊證明:無需顯式配對表示、三角更新或 MSA,模型也能實現強大的折疊性能。這顯著降低了架構復雜性,并對以往蛋白質折疊模型設計的必要性提出了挑戰。
![]()
值得注意的是,基于標準 Transformer 模塊的簡潔架構使 SimpleFold 可通過適配器、LoRA 等微調技術靈活適配特定蛋白質結構數據與折疊外任務。通過蒸餾技術,SimpleFold-3B 模型還能實現更快速的推理與高效部署。
實驗評估
研究團隊在兩個廣泛采用的蛋白質結構預測基準上評估 SimpleFold:CAMEO22 和 CASP14,旨在通過嚴格測試來檢驗模型的泛化能力、穩健性及原子級精度,實驗結果如下表所示。
![]()
基于其生成式訓練目標,SimpleFold 能夠對蛋白質結構分布進行建模。這意味著 SimpleFold 不僅能針對輸入氨基酸序列生成單一確定性結構,還可產生不同構象的集合。
為驗證此能力,研究團隊在 ATLAS 數據集上進行了分子動力學構象集生成性能基準測試。下表展示了 SimpleFold 與基線模型在 ATLAS 數據集上的比較結果,全面衡量了生成構象集的質量,涉及柔性預測、分布精度以及構象集可觀測值。
![]()
眾所周知,生成模型在視覺和語言等領域遵循擴展定律。類似地,研究團隊通過實證方法從模型和數據雙維度展示了 SimpleFold 的規模擴展規律,為構建強大的生物生成模型提供重要參考。
![]()
結果表明,采用更大訓練成本的大規模模型能獲得更優性能。規模最大的 SimpleFold-3B 模型(訓練數據規模近 9M)在標準折疊任務中展現出競爭優勢,并在多項生成任務中達到頂尖水平。
而輕量級 SimpleFold-100M 模型具備高效推理特性,尤其適用于計算資源受限的場景,即使在消費級設備上也能執行高效推理。
SimpleFold 代表了一種顛覆性范式,降低了對計算復雜網絡模塊的依賴,為蛋白質結構預測開辟了一條全新且重要的發展路徑。
感興趣的讀者可以閱讀論文原文,了解更多研究內容。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.