摘要:
“酰胺偶聯反應是藥物發現和合成化學領域中最為關鍵的轉化之一,廣泛應用于各種藥物分子的合成。然而,由于反應條件空間的廣闊性和復雜性,如何高效地推薦最佳反應條件一直是一個巨大的挑戰。該研究通過結合高通量實驗(HTE)平臺和嵌入“中間知識”的機器學習模型,顯著提升了酰胺偶聯反應產率預測的準確性和模型的泛化能力。”
01

背景介紹
酰胺偶聯反應(Amide coupling reaction)不僅僅是化學實驗室里的一個普通反應,更是藥物發現和合成化學領域中不可或缺的“基石”。我們日常生活中使用的許多藥物,從抗癌藥到抗生素,從心血管藥物到神經系統藥物,它們的分子結構中都可能含有酰胺鍵。酰胺鍵就像是分子世界的“骨架”,將不同的功能單元連接起來,形成具有特定生物活性的復雜分子。因此,高效、精準地構建酰胺鍵,對于藥物的研發和生產至關重要。
![]()
圖1. 酰胺偶聯反應
然而,一個酰胺偶聯反應的成功與否,往往取決于一系列復雜的反應條件,包括偶聯試劑、堿、溶劑、反應溫度和反應時間等。這些條件組合起來,形成了一個龐大而復雜的“條件空間”。對于化學家而言,如何在如此廣闊的條件空間中,快速而準確地找到最佳的反應條件,以獲得高產率和高選擇性的目標產物,一直是一個令人頭疼的難題。傳統的做法是依靠化學家的經驗和大量的試錯實驗。這種方法不僅耗時耗力,而且效率低下,尤其是在面對新型底物或具有挑戰性的反應時,往往會陷入漫長的實驗篩選過程,嚴重阻礙了藥物研發的進程。該研究巧妙地結合了高通量實驗(High-Throughput Experimentation, HTE)平臺和一種創新的“中間知識嵌入”策略(圖2),顯著提升了酰胺偶聯反應產率預測模型的性能。
圖2. 酰胺偶聯反應條件推薦研究
02

圖文解析
1.數據基石:高通量實驗(HTE)與數據質量的挑戰
任何成功的機器學習模型,都離不開高質量的數據。在化學反應預測領域,數據的質量和多樣性直接決定了模型的準確性和泛化能力。傳統的化學反應數據主要來源于文獻報道。然而,文獻數據往往存在諸多局限性:首先,文獻通常只報道成功的、高產率的反應,而對低產率甚至失敗的反應鮮有提及,這導致數據集存在嚴重的“成功偏倚”,使得模型難以學習到反應失敗的原因和邊界條件。其次,不同實驗室的實驗條件、操作規程以及數據記錄方式存在差異,導致數據一致性差,難以直接用于機器學習模型的訓練(圖3)。此外,文獻數據往往缺乏對反應條件空間的系統性探索,難以全面覆蓋各種可能的反應組合。
![]()
圖3多條件模型工作流程示意圖,以甲胺與乙酸反應為例
為了克服這些挑戰,高通量實驗(High-Throughput Experimentation, HTE)應運而生。HTE是一種通過自動化和并行化技術,在短時間內進行大量實驗的方法。它能夠系統地探索反應條件空間,生成大規模、一致且包含成功與失敗案例的實驗數據。這篇研究正是利用了其內部的高通量實驗平臺,系統地收集了酰胺偶聯反應的產率數據。最終,他們收集了超過47000個產率數據點,構建了一個豐富而多樣的數據集(圖3),為后續機器學習模型的訓練奠定了堅實的基礎。
![]()
圖4. 用SMiles ARbitrary Target Specification(SMARTS)語法編寫的反應模板
2.智能預測:多條件模型開發與“中間知識”的魔力
有了高質量的數據,接下來就是構建能夠準確預測反應產率的機器學習模型。在這項研究中,研究人員探索了多種機器學習算法和深度學習方法,包括XGBoost、支持向量機(SVM)、隨機森林、AutoGluon以及基于Transformer的深度學習模型Yield-BERT和T5-Chem。這些模型的目標都是從反應物的結構和反應條件中學習規律,從而預測反應的產率。為了更嚴格地評估模型的性能,該研究采用了三種不同級別的測試集(圖5):
(1)隨機劃分(Random Split):這是最常見的劃分方式,數據集被隨機分成訓練集和測試集。雖然簡單,但如前所述,其評估結果可能過于樂觀。
(2)部分底物新穎性(Partial Substrate Novelty):在這種劃分中,測試集中的反應至少有一個底物是模型在訓練時未曾見過的。這使得評估更具挑戰性,更能反映模型在面對部分新穎情況時的表現。
(3)完全底物新穎性(Full Substrate Novelty):這是最嚴格的評估方式,測試集中的所有底物組合都是模型在訓練時完全未曾見過的。這種劃分最能模擬真實世界中化學家需要預測全新反應產率的場景,也是衡量模型泛化能力的關鍵指標。
![]()
圖5. 三個級別測試集的示意圖:隨機拆分、部分底物新穎性和完全新穎性測試
研究結果顯示,在隨機劃分和部分底物新穎性測試集上,模型的表現相對較好,但在完全底物新穎性測試集上,模型的性能普遍有所下降(圖5)。這促使研究人員思考,如何才能進一步提升模型在面對完全新穎底物時的泛化能力。
為了解決這一難題,研究團隊提出了一種創新的策略,在機器學習模型中嵌入反應中間體知識(Intermediate Knowledge Embedding)。他們觀察到,在酰胺偶聯反應中,酸在與偶聯試劑作用后,會形成一個活化的中間體,這個中間體才是真正與胺反應的關鍵。傳統的機器學習模型通常只關注反應物和最終產物,而忽略了反應過程中形成的中間體。研究人員認為,如果能將這些“中間知識”融入到模型中,模型就能更好地理解反應機理,從而更準確地預測產率。
他們選擇了六種常用的酰胺偶聯反應條件,并為每種條件設計了特定的SMARTS(SMILES ARbitrary Target Specification)模板,用于描述酸轉化為活化中間體的過程。結果令人振奮,嵌入中間知識的模型性能顯著提升,尤其是在完全底物新穎性測試集上。例如,在HATU和TBTU條件下,模型的R2值(一個衡量模型擬合優度的指標,越接近1表示擬合越好)分別從0.69和0.71飆升至0.86和0.84(圖6)。這意味著模型在理解反應的本質方面取得了重大突破,能夠更準確地預測全新反應的產率。
![]()
圖6.(a)使用HATU作為活化試劑將酸轉化為中間SMARTS模式,以及(b)所選單條件模型工作流程的示意圖
3.模型的泛化能力與實際應用:從預測到推薦
該研究通過化學信息數據庫(如SciFinder)篩選了大量與藥物發現和生物研究相關的酰胺偶聯反應,并確保這些反應的底物組合與他們自己的HTE數據集完全不同。這意味著模型在預測這些外部文獻反應的產率時,是真正面對“陌生”的挑戰。結果令人鼓舞:即使在面對這些全新的外部數據時,嵌入中間知識的BERT模型依然表現出色,R2值達到了0.71,平均絕對誤差(MAE)為7%,均方根誤差(RMSE)為10%(圖7和圖8)。考慮到訓練數據集的規模(約400個底物對),這樣的性能已經非常強大,并且研究人員指出,隨著更多數據的加入,模型的泛化能力有望進一步提升。
![]()
圖7. 257個外部文獻反應示例的預測產率與實驗產率
總而言之,這項研究不僅構建了一個高性能的酰胺偶聯反應產率預測模型,更重要的是,它通過引入“中間知識”和嚴格的評估方法,顯著提升了模型的泛化能力和實際應用價值。它從單純的“預測”走向了更具指導意義的“推薦”,為化學家提供了強大的智能工具,有望加速新藥的發現和開發進程。
![]()
圖8. 一些外部文獻反應實例的預測結果
03

總結
這項研究揭示了“中間知識”在提升模型性能和泛化能力方面所扮演的關鍵角色。它證明復雜化學反應體系中,僅僅依靠輸入和輸出數據進行模式識別是遠遠不夠的。將化學反應的內在機理,如中間體的形成和轉化,以結構化的方式嵌入到機器學習模型中,能夠極大地增強模型的理解能力和預測精度。這為未來化學人工智能的發展指明了方向:即從純粹的數據驅動走向數據與知識雙輪驅動,構建更具解釋性、更符合化學直覺的智能模型。
參考文獻
Chonghuan Zhang, Qianghua Lin, Chenxi Yang, Yaxian Kong, Zhunzhun Yu and Kuangbiao Liao Intermediate knowledge enhanced the performance of the amide coupling yield prediction model. Chemical Science, 2025, 16, 11809-11822.
聲明:
1. 版權:推送內容僅供學習交流分享使用,無任何商業用途,如有侵權,請聯系后臺刪除或修改,感謝支持。
2. 投稿:非常歡迎各位老師在公眾號上介紹課題組前沿或經典研究成果!后臺或郵箱聯系即可!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.