AI蛋白質,剛剛殺入一條鯰魚。
10月19日,合成生物學公司Anthrogen正式推出蛋白質模型Odyssey,最大參數規模達到1020億。
據介紹,Odyssey不僅能夠理解蛋白質的序列與結構,更具備多目標協同設計能力。
用戶可以為蛋白質設定多個目標,例如“高效結合靶點”、“低免疫原性”、“易于大規模生產”等,Odyssey將自動生成滿足所有條件的候選分子。
bio
R
xiv
https://www.biorxiv.org/content/10.1101/2025.10.15.682677v1
Anthrogen創始人Ankit Singhal表示,這是迄今為止最大、性能最強的蛋白質語言模型,將于不久后開源。
![]()
更令人驚訝的是,開發成員僅有6人,大部分還是來自哥倫比亞大學和杜克大學的學生。
不過,針對所謂“最大、性能最強”的表述,不少人提出了質疑。
AI蛋白質公司EvolutionaryScale的科學家Michael Hla在評論區詢問是否有用于對比的評測信息,并表示「問題很多」。
![]()
創始人給出了一些對比指標,但Arc Institute的研究員表示證據顯然還不夠。
![]()
盡管相關表述引發爭議,但該模型在架構、訓練方式上的的創新仍然值得重點關注。
Anthrogen的愿景是像設計機器一樣,精確地設計全新的分子,Odyssey正是實現這一目標的第一步。
![]()
千億大模型,多項關鍵創新
當前,許多蛋白質模型借鑒了自然語言處理(NLP)領域的自注意力機制(Self-Attention)。
這一機制允許序列中任意兩個位置直接交互。
然而,在蛋白質中,遠距離相互作用是通過三維結構和共價骨架傳遞的,依賴關系是局部協同、多體耦合的,而非任意“跳躍”。
為此,Odyssey引入了共識塊(Consensus blocks),取代自注意力機制。
該機制鼓勵相鄰氨基酸區域達成“局部一致”,再將這種一致性沿著序列和接觸圖(Contact Graph)迭代地向外傳播。
這種設計帶來了兩大優勢:
計算效率更高:自注意力的計算復雜度為序列長度的平方,而共識機制為線性,顯著降低了長蛋白質的訓練與生成成本。
訓練更穩定:隨著模型規模擴大,自注意力機制對學習率(Learning Rate,)極為敏感,稍有偏差即導致訓練失敗。而共識機制在更寬泛的學習率范圍內保持穩定,減少了訓練中斷和重啟。
![]()
圖:Odyssey整體架構示意圖
同時,為了更好地模擬生物進化過程,Odyssey采用離散擴散(discrete diffusion)作為訓練方法。
可以想象成:首先將一個完整的蛋白質序列和結構“打亂”,然后模型學習如何隨著時間的推移,一步步、有邏輯地“揭開面紗”,最終重建出完整的、合理的蛋白質。
這種方式優于傳統的掩碼語言建模(Masked Language Modeling, MLM),使模型學會進行多殘基協同修正,而非孤立預測,更符合真實蛋白質的折疊與功能機制。
此外,研究人員還引入了有限標量量化器(Finite Scalar Quantizer, FSQ)。將三維幾何信息被編碼為類似“字母”的離散符號,可與氨基酸序列一同作為模型輸入,實現序列與結構的統一處理。
Odyssey在核心機制上的創新,解決了傳統模型在處理蛋白質數據時的局限性,從而提升了性能和實用性。
![]()
圖:Odyssey展現出強大的縮放性能
其在性能上超越了許多競爭模型,而所需的訓練數據量大約減少了10倍。這對于高質量標注數據稀缺的蛋白質領域具有重大價值。
![]()
理解生物規律,可用于藥物設計與酶改造
隨后,研究團隊通過一個具體的案例,展示了Odyssey的實際應用。
他們想看看這個模型能不能理解真實蛋白質的功能,并生成符合這些功能的序列。
于是,他們選了六個真實的酶作為測試對象。
實驗中使用的是12億參數版本的Odyssey模型。采用了類似“補全”的方式。他們把酶的完整序列和結構輸入模型,但把序列中的一部分氨基酸隨機遮蓋住。
接下來,他們讓模型根據沒被遮蓋的部分和完整的結構信息,去預測并生成那些被遮蓋區域的氨基酸。
這個過程生成了數千個不同的序列變體。研究人員用兩個關鍵指標來評估這些生成結果:一個是pTM,用來衡量生成結構和原始結構的整體相似度;另一個是cRMSD,用來評估局部結構的緊密程度。
實驗結果顯示,模型生成的序列變體在pTM和cRMSD等指標上呈現出明顯的雙峰分布。
![]()
圖:針對六種未參與訓練的酶,模型的對齊性能表現良好
生成的序列可以被清晰地分為兩組:一組具有高pTM和低cRMSD(即結構高度相似且緊密),另一組則性能較差。
這種現象說明,Odyssey并非隨機生成序列,而是學習到了與蛋白質功能和穩定性相關的深層物理和結構約束。它能夠區分出“可行”和“不可行”的序列-結構組合。
這個實驗雖然沒有創造全新的蛋白質,但它證明了模型具備理解復雜生物規律的能力。它能在保持蛋白質三維結構的前提下,生成高質量、功能兼容的氨基酸序列。
這項能力非常實用,比如在藥物研發中優化抗體或在工業上改造酶的性能,為Odyssey在更多領域的應用打下堅實基礎。
![]()
在讀博士創業,知名投資人押注
Anthrogen的創始人是兩個哥倫比亞大學的博士生Ankit Singhal和ConnorLee,兩人將于2026年畢業。
![]()
圖: Ankit Singhal
Ankit Singhal 先后在哥倫比亞大學Mancia實驗室(2022–2024)和AlQuraishi實驗室(2023)從事整合膜蛋白結構解析和基于AI的蛋白質突變自由能預測研究。
![]()
圖:Connor Lee
Connor Lee是ROAM實驗室的研究員,在機器人領域擁有十多年的經驗,在FIRST機器人競賽中排名第三,入選福布斯「30 Under 30」。
Anthrogen成立于2023年,旨在利用轉基因微生物和人工智能設計的酶,直接從大氣中的二氧化碳中制造關鍵化學品和燃料。
去年,Anthrogen完成了400萬美元的種子資金,由Regen Ventures和BoxGroup領投,Y Combinator、Wayfinder和Y Combinator聯合創始人Paul Graham參投。
Ankit Singhal表示,種子輪融資將用于創造新型酶,這些酶可以捕獲二氧化碳并將其轉化為燃料、塑料、淀粉和纖維素等其他分子。
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.