網易首頁 > 網易號 > 正文申請入駐

西湖大學發布SaprotHub，讓生物學家輕松訓練調用蛋白質語言模型

2025-10-28 13:43:10　來源: ScienceAI

北京舉報

分享至

作者 | 論文團隊

編輯 | ScienceAI

如同人類擁有語言，生命世界也有一套由氨基酸序列構成的「分子語言」—— 蛋白質。近年來，人工智能領域的蛋白質語言模型（PLMs）展現出解碼這套語言的強大能力，能夠精準預測蛋白質的結構與功能。

然而，這些尖端模型的訓練與使用，往往需要深厚的機器學習專業知識和編程能力，這在 AI 開發者與廣大生物學家之間形成了一道鴻溝。

為了打破這一壁壘，西湖大學原發杰團隊首先提出了一種新穎的蛋白質表征方法 —— 將蛋白質一維序列與三維結構相結合形成「結構感知」詞匯表并據此訓練出了蛋白質語言大模型 Saprot。

在此基礎上，團隊進一步推出了 SaprotHub 開源平臺。該平臺旨在將 Saprot 等一系列先進蛋白質語言模型的能力開放給生命科學領域研究者，它也是開放蛋白質模型聯盟（Open Protein Modeling Consortium, OPMC）為推動全球科研協作、共建開源社區而邁出的關鍵第一步。

這項研究成果已于近期發表在國際頂尖期刊《自然?生物技術》（Nature Biotechnology）上，論文題為《Democratizing Protein Language Model Training, Sharing and Collaboration》。

論文地址：https://www.nature.com/articles/s41587-025-02859-7

蛋白質研究的挑戰：從模型「孤島」到協作「藍海」

蛋白質是生命活動的基石，而近年來，以 AlphaFold2 為代表的蛋白質語言模型（PLMs）在預測蛋白質結構與功能方面取得了革命性突破。然而，這些強大的 AI 工具如同精密的專業設備，其訓練和部署通常需要深厚的機器學習知識，這為廣大從事實驗研究的生物學家設置了難以逾越的技術鴻溝。從復雜的編程環境配置，到海量數據的預處理，再到模型訓練和評估，整個流程充滿了挑戰。這不僅限制了 AI 技術的普及，也減緩了其在醫藥、生物技術等領域的創新應用進程。

圖 1. Saprot 模型架構

SaprotHub：三大支柱構建的開源協作新范式

為了應對這一挑戰，團隊構建了以 SaprotHub 為核心的一站式解決方案，它不僅是一個平臺，更是一個融合了前沿 AI 大模型技術、開源工具和全球社區的完整生態系統：

核心引擎 — Saprot 語言模型：Saprot 是本項工作的基石。它開創性地提出了一種「結構感知」（Structure-Aware）詞匯表，將蛋白質的一維氨基酸序列與其三維局部結構信息進行聯合編碼，從而構建出一種全新的蛋白質「語言」。同時，研究團隊基于 AlphaFold2 預測的數千萬個蛋白質結構，采用了 64 塊 NVIDIA A100 GPU，經過數月訓練完成了 Saprot 模型的訓練。其性能在數十項蛋白質功能預測任務中得到了充分驗證，并成功超越了如 ESM-2 等業界頂尖模型。自發布以來，Saprot 模型在學術界與工業界獲得了廣泛的關注和應用。相關論文被引用已超過 200 次，模型累計下載量逾 70 萬次，并獲得了大量來自社區的真實生物實驗驗證，彰顯了其作為基礎模型的影響力。值得一提的是，Saprot 于 2024 年 5 月登頂 ProteinGym 蛋白質突變效應預測排行榜，并在此后近半年的時間里持續排名第一。
開源工具 — 「一鍵式」蛋白質語言模型訓練平臺 ColabSaprot：為了將 Saprot 的能力釋放給生命科學領域的研究者，團隊基于免費的 Google Colab 云平臺，通過數月開發，上萬行的代碼編寫，實現了 ColabSaprot「一鍵式」開源訓練平臺。它將原本需要編寫繁瑣代碼才能進行的蛋白質語言模型微調、功能預測等任務，簡化為用戶在網頁上的幾次鼠標點擊，讓不具備編程背景的生物學家也能輕松訓練前沿蛋白質語言模型，實現從想法到驗證的快速迭代。為了方便研究者快速上手，團隊錄制了詳細的教程視頻，涵蓋了從模型訓練到使用等各個方面。

ColabSaprot鏈接：https://colab.research.google.com/github/westlake-repl/SaprotHub/blob/main/colab/SaprotHub_v2.ipynb

教程鏈接：

https://www.bilibili.com/video/BV1Y1i9YBEhv

https://www.youtube.com/watch?v=nmLtjlCI_7M

圖 2. ColabSaprot 在線平臺，具備細致的操作介紹以及簡易的使用步驟

全球協作 — OPMC 成員共建的開放社區：SaprotHub 不僅僅是蛋白質語言模型的共享中心，更是開放蛋白質模型聯盟（OPMC）理念的先行者。該聯盟匯聚了來自西湖大學、麻省理工學院（MIT）、首爾大學、哈佛大學、慕尼黑工業大學、微軟等全球數十家頂尖科研機構的研究力量，旨在共同推進蛋白質領域的蓬勃發展。為了實現開源共建的良性生態，團隊采用低秩適應矩陣（LoRA）的方式保存模型權重，并建立了 SaprotHub 模型與數據倉庫。通過將 ColabSaprot 開源平臺與 SaprotHub 進行無縫耦合，OPMC 成員和全球研究者可以便捷地分享、下載和迭代模型。目前，SaprotHub 已經存儲了數十種不同類型的蛋白質訓練數據集以及可供研究者直接預測的蛋白質語言模型。為了方便研究者快速檢索，團隊針對性地開發了相應的搜索引擎，允許研究者根據關鍵詞直接檢索到相關的數據和模型。

SaprotHub 模型與數據倉庫：https://huggingface.co/SaProtHub

搜索引擎：https://huggingface.co/spaces/SaProtHub/SaprotHub-search

圖 3. SaprotHub 利用 LoRA 技術存儲模型權重，實現模型的便利共享

從虛擬到現實：計算機模擬性能驗證與多項濕實驗驗證

SaprotHub 的價值不僅在于其便捷性，更在于其預測準確性。在團隊開展的用戶研究中，12 位沒有 AI 背景的生物學研究者使用該平臺，取得了與 AI 研究者相媲美的成果。

圖 4. 生物研究者利用平臺能夠訓練出和 AI 研究者相媲美的成果

更進一步，平臺預測的有效性在一系列生物濕實驗中得到了驗證：

工業酶改造：一家生物技術公司利用 ColabSaprot 對一種工業用木聚糖酶進行改造，成功將酶的活性提升了 2.55 倍。
基因編輯工具優化：研究人員利用該平臺對 TDG 基因編輯工具進行優化，預測出的多個新版本在實驗中展現出翻倍的編輯效率。
熒光蛋白設計：平臺還被用于設計更亮的綠色熒光蛋白（GFP），其中一個新設計的蛋白，其熒光亮度達到了原始版本的 8 倍以上。

這些成功案例證明，SaprotHub 能夠將 AI 的預測能力轉化為現實世界中的生物學功能突破。

核心突破

1.全新蛋白質語言模型：發布了具備技術創新（結構感知詞匯表）的 Saprot 蛋白質語言大模型。其在 14 項基準測試中性能超越了 ESM-2 等現有經典模型，已在該領域展現了其作為基礎模型的影響力。

2.開源協作范式：作為開放蛋白質模型聯盟（OPMC）的第一步，匯聚了來自 MIT、哈佛、牛津、首爾大學等全球頂尖機構的智慧，為蛋白質領域建立了集模型訓練、分享、合作、迭代于一體的開源社區平臺。

3.蛋白質語言模型技術民主化：通過「一鍵式」的 ColabSaprot 工具，將先進蛋白質語言模型的復雜訓練和使用流程民主化，賦能全球不具備編程背景的生物學家，使其從 AI 的「使用者」轉變為「創造者」和「貢獻者」。

4.真實場景驗證：平臺的有效性在工業酶改造、基因編輯工具優化等多個真實的濕實驗場景中得到驗證，展示了其通過計算機模擬輔助現實生物學突破的能力。

結語與展望

SaprotHub 的發布，不止是提供了一個工具。它以一個創新的自研蛋白質語言模型（Saprot）為基礎，通過開源平臺（ColabSaprot）來催化一個全球性的科研協作網絡（OPMC）。這為 AI 輔助的生命科學研究提供了一種可持續發展的「開源、共建、共享」模式。目前，該生態已進一步集成了 ESM-2、ProtT5 等更多業界主流模型，開啟了蛋白質科學的「大航海時代」。

西湖大學原發杰實驗室現有 2026 年博士研究生招生名額，有意向者可將個人簡歷（含教育背景、科研經歷、成果證明等）及相關材料投遞至指定郵箱，郵件主題請注明「2026 博士申請 + 姓名」。

投遞郵箱：yuanfajie@westlake.edu.cn

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.