![]()
近幾年來,蛋白質組學可謂是進入了「信息爆炸時代」。單次實驗可能生成上百GB的高維數據,這給傳統分析工具帶來了巨大壓力。
而機器學習,尤其是深度學習技術,本應成為加速分析的利器。但礙于數據整合、模型應用門檻等問題,機器學習結果往往缺乏直觀的物理或生物學解釋,所得結果并不能使研究者信服。
但隨著德國慕尼黑工業大學(Technical University of Munich)與美國密西根大學(University of Michigan)等推出 Koina 平臺,一個開源的、去中心化的、在線可訪問的模型庫之后,這一現狀得到了改善。
相關的研究內容以「Koina: Democratizing machine learning for proteomics research」為題,于 2025 年 11 月 11 日發布在《Nature Communications》。
![]()
論文鏈接:https://www.nature.com/articles/s41467-025-64870-5
去中心化的機器學習平臺
Koina是一個去中心化的機器學習模型平臺,旨在幫助蛋白質組學研究人員快速應用、評估并共享機器學習模型。平臺通過為研究人員提供開放式模型庫和簡單接口,解決了模型與數據間的兼容問題,極大降低了技術門檻。
![]()
圖 1:Koina 的架構概述。
Koina 簡化了新蛋白質組學機器學習模型的開發現過程,研究人員可以將自己訓練的模型上傳到平臺,供全球學者訪問、評估與使用。并且,該平臺提供簡單的 API 接口,幫助分析工具輕松集成機器學習模型。
![]()
圖 2:Koina 可以輕松集成到第三方軟件中。
此外,平臺可以根據輸入數據類型和任務目標,自動推薦最合適的機器學習模型,甚至提供簡單的模型訓練和調優功能。團隊實現了一種啟發式算法,這可以根據模型在數據子集的預測值與實驗值之間的協議來選擇模型。
優化的分析流程
為了應對不同模型支持的翻譯后修飾(PTMs)和肽長度方面的差異等加劇的繁瑣問題,團隊標準化了所有模型之間的交互與輸入格式。而輸出部分,則予以保留,以便用戶能夠將他們的預測與原始來源進行核對。
這個共享接口封裝了技術異構的模型集合及其相關的預處理和后處理步驟,以獨立計算單元的形式,為最終用戶抽象了不必要的細節,以「工作流」或「執行圖」的形式呈現。
![]()
圖 3:Prosit_2019_intensity和Prosit_2020_intensity_HCD模型的執行圖。
后續的長期使用保持則采用 GitHub actions 的持續集成(CI)流程來支持。此外,Koina 支持同時托管不同版本的模型,這些設計選擇促進了已發布模型的可重復性,促進了透明度和問責制,使其他研究人員能夠更有信心地基于現有工作進行研究。
Koina 利用機器學習模型對已有數據進行訓練,從而發現潛在的、復雜的肽段信息。在與 FragPipe 的結合使用中,它就提高了譜庫的準確率與覆蓋率。通過對比不同肽段的相似度,Koina 能自動糾正傳統方法中的誤識別。經過訓練,它還能識別更多的低豐度肽段,平臺實現了對肽段的高效檢索,特別是在復雜的樣本中。
讓AI為生物學加速
Koina 的出現,意味著 AI 與生物學之間不再是「遙遠的未來」,而是已經可以觸及的現實。在這個平臺的推動下,生物數據分析不再局限于傳統實驗,而是進入了一個可以迅速探索、驗證、創新的新時代。
Koina 的方法完全獨立于數據集的生物學或技術來源。該平臺并非本質上局限于蛋白質組學,它可以輕松擴展到其他領域。通過邀請開發者參與 Koina,研究團隊旨在營造一個協作環境,推動蛋白質組學機器學習的進步,最終惠及整個科學界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.