![]()
合成生物學定義為設計-構建-測試-學習循環。最近機器學習的進步正在改變這一格局;因此,我們建議「學習」可以先于「設計」。
在合成生物學實驗室中,研究者設計基因序列、構建質粒、轉化菌株、驗證功能——這一整套流程被稱為DBTL 循環:Design – Build – Test – Learn。這是過去二十年生物工程的金標準。這些循環通過提供一種系統且迭代的工程框架來簡化和簡化構建生物系統的過程。
機器學習為所需蛋白質和途徑提供了新的機會,但礙于蛋白質功能的表征等問題,整體的流程其實并不盡如人意。在整個循環的最后一步「L」,也就是學習中,機器學習方法之所以占據主導地位,并不是因為它們取代了物理學,而是因為當前的生物物理模型在應用于生物分子的復雜性時計算成本高昂且范圍有限。
所以不如換個思路——把「L」提到前面來。
![]()
圖 1:當前 DBTL 工作流程的提議改進。
這就是美國德克薩斯大學奧斯汀分校(University of Texas at Austin)與西北大學(Northwestern University)、斯坦福大學(Stanford University)等共同提出的思路——新的循環LDBT — Learn → Design → Build → Test。
相關的研究內容以「LDBT instead of DBTL: combining machine learning and rapid cell-free testing」為題,于 2025 年 11 月 5 日發布在《Nature Communications》。
![]()
論文鏈接:https://www.nature.com/articles/s41467-025-65281-2
讓「學習」成為起點
如 ESM 和 ProGen 這樣的蛋白質語言模型是在所有進化樹中嵌入蛋白質序列的進化關系上進行訓練的,能夠完成預測有益突變和推斷蛋白質序列功能等任務。
但即使是在諸如零樣本設計策略等方面上,有了機器學習的增強,經典的 DBTL 循環仍然需要多次迭代才能獲得知識,而循環中的構建-測試部分尤其緩慢。本應在這個階段進行學習的的數據可能早就訓練過了。所以不如效仿零樣本預測,通過「LDBT」重新排序循環。
![]()
圖 2:Learn-design-build-test 代替 design-build-test-learn。
首先,利用深度學習模型(如蛋白語言模型 ESM-2、結構設計模型 ProteinMPNN),AI 可以在無明確模板的情況下生成全新序列或結構預測。
其次,基于模型輸出,研究者可選擇最具可行性的方案,用結構建模(AlphaFold、RosettaFold)預測折疊穩定性與活性位點分布,這種方式可以將近 10 倍地提高設計成功率。DBTL 范式的進程同樣可以借助細胞裂解物等進行體外轉錄和翻譯,這樣就無需中間的耗時克隆步驟,表達的蛋白質可以直接使用或進一步純化。
用 AI 代理進行閉環設計平臺進一步擴大了產能。細胞自由表達系統帶來了高通量處理能力,為構建用于訓練機器學習模型的大數據集和測試計算預測提供了有力工具,這其中也包括解決蛋白質表達問題的數據。
將這些進步擴展到蛋白質工程之外,需要進一步取得進展,比如說把建模擴展到更多分子、途徑。在重新構想的 LDBT 循環中,從「所需功能」到「設計序列」再到「工作蛋白質/功能」的承諾有望解鎖生物學的完整設計空間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.