編者語:
“該方法避免了嚴格定義反應類型的局限性,轉而讓系統直接從Voronoi單元中發現并利用轉化模式間的相似性。”
01

背景介紹
在當今科學飛速發展的時代,化學領域正面臨著一個前所未有的挑戰:信息爆炸。每年有數十萬個新化學反應被報道,加入已經包含數百萬個已知反應的龐大知識庫。然而,手動查閱文獻變得低效且高度依賴個人經驗,這些海量信息逐漸成為了化學家的負擔。并且,傳統的化學合成依賴研究人員的專業知識和直覺,往往需要通過反復試錯來優化反應條件(圖1)。即使是經驗豐富的化學家,也難以掌握所有快速發展的實驗方法學。這種局限性也影響了自動化合成平臺,缺失的實驗方案常常需要人工干預關鍵參數。盡管大型語言模型(LLMs)在化學領域已展現出應用潛力,但現有系統難以可靠地處理各種全新化合物的復雜轉化,且在提供可重復、完整、帶可信度評估的實驗方案方面存在明顯不足。
![]()
圖1. 傳統經驗式試錯合成(AI圖)
2026年01月19日,耶魯大學Victor S. Batista與Timothy R. Newhouse團隊在Nature期刊發表題為“Collective intelligence for AI-assisted chemical synthesis”的研究論文。該研究開發了一種名為“多優化專家AI輔助化學預測”的計算框架(MOSAIC框架,Multiple Optimized Specialists for AI-assisted Chemical Prediction),旨在讓化學家能夠利用數百萬反應方案的集體知識(圖2)。MOSAIC基于Llama-3.1-8B-instruct架構構建,在Voronoi聚類劃分的空間中訓練了2,498個高度專業化的化學專家模型。該方法能夠為復雜合成提供可復現、可執行的實驗方案,并附帶置信度評估指標。實驗驗證顯示,其整體成功率達到71%,實現了 35 種以上新化合物的合成,涵蓋藥物、材料、農用化學品和化妝品等多個領域。值得注意的是,MOSAIC還能夠發現超出其訓練專家知識范圍的全新反應方法,這是推動化學合成發展的關鍵能力。通過將龐大知識領域劃分為可搜索的專家區域,這一可擴展范式為在信息增長速度超越知識獲取與應用效率的領域中實現AI輔助發現,提供了一種具有普適性的解決策略。
![]()
圖2. 圖文總覽
02

圖文解析
1.革命性設計:從通用模型到化學專家委員會
研究團隊首先開發了一種稱為核度量網絡(KMN)的系統(圖3),能夠將化學反應轉化為128維的“反應特異性指紋”。這種指紋類似于人類的指紋,能夠唯一標識每個化學反應的特征。通過FAISS相似性搜索庫,化學反應空間被劃分為2,500個Voronoi區域,每個區域由專門的專家模型負責。
這種設計的巧妙之處在于:當遇到一個新的合成問題時,系統會先確定這個問題屬于哪個化學空間區域,然后激活對應的專家提供解決方案。這就好比不是詢問一個“通才”,而是咨詢一個專門研究此類反應的“領域專家”。
MOSAIC的核心創新在于其獨特的架構設計。與傳統的單一大型語言模型不同,MOSAIC基于Llama-3.1-8B-instruct架構,訓練了2,498個專業化學專家,每個專家負責特定的化學反應空間。
![]()
圖3.MOSAIC系統框架示意圖
2.專業化優勢
研究團隊還MOSAIC與當前的主流大語言模型進行了系統比較,包括ChatGPT-4o mini、Claude 3.5 Haiku、Claude 3.5 Sonnet和ChatGPT-o1 Pro。評估涵蓋了12種重要反應類型,包括Suzuki偶聯、烯烴復分解、Buchwald-Hartwig胺化等。結果表明,盡管MOSAIC只有80億參數,遠小于ChatGPT-o1 Pro和Claude 3.5 Sonnet等模型,但其在提供明確化學合成指導方面表現更優(圖4)。這表明在專業領域,針對性的微調和化學特定的優化可以克服原始參數數量的優勢。評估還發現,遵循指令的能力與化學知識同樣重要。通用模型在相同提示下表現出顯著不同的響應一致性。例如,Claude 3.5 Haiku在一次試驗中能提供詳細回答,而在另一次試驗中則拒絕回答,聲稱信息不足。這種不一致性給尋求可靠幫助的用戶帶來了挑戰。
![]()
圖4. 提示設計與量化評估指標
3.從預測到實踐:71%的成功率驗證
實驗驗證表明,該系統在合成超過35種新化合物時達到了71%的整體成功率。這些化合物涵蓋藥物、材料、農用化學品和化妝品等多個領域(圖5和圖6)。
更為重要的是,MOSAIC展現出了強大的預測能力:當轉化反應與專家知識域距離較近(距離<100)時,成功率超過75%;即使距離較遠(>100),仍能達到約50%的成功率。這為實驗優先級提供了量化依據——研究人員可以優先嘗試高置信度的預測,同時將資源合理分配于探索性研究。
具體案例充分展示了MOSAIC的實用價值。在Buchwald-Hartwig胺化反應中(藥物分子中普遍存在的碳氮鍵形成反應),MOSAIC不僅準確預測了條件,還展示了深刻的化學洞察力,為不同底物提出了鈀催化的Buchwald-Hartwig、銅催化的Goldberg和SNAr反應作為可行替代方案(圖5)。
在合成具有臨床重要性的化合物衍生物,如抗抑郁藥去甲替林和降膽固醇藥物非諾貝特時,這種多功能性被證明非常寶貴。MOSAIC還成功指導了Heck偶聯反應,其中先前報道的轉化已被證明不成功,展示了其解決合成瓶頸的潛力。
![]()
圖5.基于計算預測指導的全新化合物合成
4.超越已知:發現全新反應方法學
MOSAIC最引人注目的能力是能夠發現訓練數據中不存在的新反應方法學。在案例研究中,研究團隊使用雜芳基二鹵化物的級聯環化來形成吲哚的生物電子等排體類似物。研究表明,5-氮雜吲哚衍生物的合成在現有方法下無法進行。基于這一局限性,MOSAIC指導開發了一種通過雜芳基二鹵化物與N-烷基烯丙胺的未報道環化反應來合成各種氮雜吲哚的新方案(圖6, 13a-d)。
對于形成目標產物的反應,最近的專家質心距離為320,遠高于典型的置信閾值(<150)。缺乏密切相關的前例反應表明,該預測遠遠超出了知識空間,從預測專家的角度來看,這是一個真正的新轉化。
![]()
圖6. 面向跨化學工業轉化應用合成的化合物
5.實際應用:從藥物開發到材料科學
MOSAIC的實際影響跨越多個化學工業領域。在藥物研發方面,它準確預測了類藥分子的合成路線;在材料科學中,精確預測了電子器件共軛化合物的合成路線;在農業化學中,實現了用于作物保護的pyrabactin變體的創建;在消費品領域,成功合成了潛在香料和抗衰老化合物(圖6)。
特別值得關注的是,在37種實現的化合物中,有35種使用排名最高的預測一次嘗試即成功,只有兩種需要較低排名的程序。這些成功應用代表了所檢查轉化的大多數,盡管并非所有預測都產生了成功的結果。
03

總結
這種利用計算搜索的方法原則隨著數據和資源的增加而有效擴展。通過將巨大的化學反應空間劃分為可搜索的Vonoroi區域并將專家分配給這些區域,MOSAIC可以隨著更多數據的可用而不斷擴展其覆蓋范圍和精度。通過FAISS的搜索機制實現了高效導航,使系統能夠快速識別任何給定查詢的最相關專家模型。MOSAIC的價值不在于取代化學專業知識,而在于快速調查廣闊的化學空間,確定有希望的實驗方向,否則這些方向需要廣泛的文獻回顧和積累的經驗。它將傳統的迭代試錯方法轉變為知情探索,加速進入以前未知的化學空間區域。
文獻信息
Haote Li, Sumon Sarkar, Wenxin Lu, Patrick O. Loftus, Tianyin Qiu, Yu Shee, Abbigayle E. Cuomo, John-Paul Webster, H. Ray Kelly, Vidhyadhar Manee, Sanil Sreekumar, Frederic G. Buono, Robert H. Crabtree, Timothy R. Newhouse & Victor S. Batista, Collective intelligence for AI-assisted chemical synthesis, Nature, 2026, https://doi.org/10.1038/s41586-026-10131-4
聲明:
1. 版權:推送內容僅供學習交流分享使用,無任何商業用途,如有侵權,請聯系后臺刪除或修改,感謝支持。
2. 投稿:非常歡迎各位老師在公眾號上介紹課題組前沿或經典研究成果!后臺或郵箱聯系即可!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.