面對科學文獻,尤其是化學反應的爆炸式增長,研究人員正面臨前所未有的信息過載挑戰。每年有數十萬個新反應被報道,然而,將這些海量知識轉化為實驗室中可執行的具體方案,卻嚴重依賴專家的個人經驗與耗時的手動檢索,效率低下且難以規模化。盡管大型語言模型(LLMs)在化學領域已展現出應用潛力,但現有系統難以可靠地處理各種全新化合物的復雜轉化,且在提供可重復、完整、帶可信度評估的實驗方案方面存在明顯不足。
為此,耶魯大學Victor S. Batista 教授與Timothy R. Newhouse教授提出了一個革命性的解決方案——MOSAIC框架。該研究開發了一種名為“多優化專家AI輔助化學預測”的計算框架,旨在讓化學家能夠利用數百萬反應方案的集體知識。MOSAIC(圖1)基于Llama-3.1-8B-instruct架構,通過在Voronoi聚類空間中訓練2,498個專項化學“專家”,能夠生成具備置信度指標、可重復且可直接執行的復雜合成實驗方案。實驗驗證取得了71%的整體成功率,實現了超過35種新化合物的合成,涵蓋藥物、材料、農用化學品和化妝品等多個領域。尤為重要的是,MOSAIC甚至能夠發現訓練數據中未曾出現過的新反應方法,這為加速化學合成發現提供了通用且可擴展的新范式。相關研究成果以題為“Collective intelligence for AI-assisted chemical synthesis”發表自最新一期《nature》上。Haote Li為本文一作。
![]()
【定量評估揭示模型精準預測能力】
研究首先對MOSAIC生成完整化學流程的能力進行了定量評估。在產率預測分析中,模型通過處理包含試劑、溶劑和過程描述的整個實驗程序來預測結果(圖2a)。盡管基于令牌的預測方式會引入系統誤差,但MOSAIC的預測區間中值與真實產率中位數仍呈現了顯著相關性( R 2 =0.811 ,圖2b),表明其能有效捕捉不同反應類型的產率模式,而非簡單記憶常見反應。
![]()
圖 1. MOSAIC框架
在試劑和溶劑預測準確性方面,研究采用差異度量(D)進行評估。結果顯示,在一次性預測中,試劑和溶劑的完全匹配率分別為22.4%和29.8%;而當聚合最多三位專家的預測結果時,試劑的完全匹配率大幅提升至43.0%。更重要的是,在多位專家預測模式下,至少能部分預測出正確試劑或溶劑的成功率高達94.8%(圖2d, e)。這證明MOSAIC幾乎總能識別出相關的反應組分,即使未能提供完全一致的條件。分析指出,在許多未匹配的情況下,模型提供的是化學上可行的替代方案(例如在硝基還原反應中預測鐵而非氯化亞錫),這恰恰體現了其細致入微的的專家知識(圖2f, g)。
為了凸顯領域專業化的價值,研究將MOSAIC與ChatGPT-4o mini、Claude 3.5系列等通用大語言模型在12類重要反應上進行了對比。評估圍繞化學理解與實驗可行性設計評分標準。結果顯示,僅擁有80億參數的MOSAIC,其性能超越了參數規模可能大數個數量級的通用模型(圖2i)。這表明在專業領域,有針對性的微調與化學特異性優化能夠克服原始參數數量的優勢。研究同時發現,遵循指令的穩定性對于實際應用至關重要,而一些通用模型在此方面表現不一致,成為其應用于實際合成的障礙。
![]()
圖 2. Promt設計和定量指標
【成功指導合成各類全新化合物】
為驗證框架的實用性、通用性與可靠性,研究進行了廣泛的實驗驗證,合成了眾多在分子或轉化層面具有新穎性的化合物。MOSAIC成功指導了布赫瓦爾德-哈特維希胺化反應,精準預測了挑戰性條件,并展示了提出鈀催化、銅催化等不同可行替代路線的化學洞察力(圖3 1a-c)。此外,在鈴木偶聯、赫克反應、烯烴復分解、Sonogashira偶聯等對藥物和材料開發至關重要的催化反應中,MOSAIC均成功預測了條件,實現了高效組裝及此前未能實現的轉化(圖3 2a-c, 3a-d, 4a,b, 5a)。
框架的能力還延伸至選擇性控制和復雜底物修飾。例如,實現了季戊四醇衍生物的可控氧化(圖3 7a),以及單萜烯香芹酮的共軛加成和L-紫蘇醛的立體選擇性烯化等(圖3 7b, c)。在復雜天然產物clearolide的異戊烯化(圖3 7e)及多功能分子hesperetin的位點選擇性硅基單保護中(圖3 7d),系統展現出了從訓練數據中捕捉既定選擇性原理的能力。
![]()
圖 3. 計算指導下的化合物從頭合成
【推動跨產業轉化應用與全新方法學發現】
MOSAIC的實踐影響通過多領域的真實應用得以體現。在制藥領域,它助力新型類藥分子設計與戰略性的治療性修飾(圖4 8a-d);在催化領域,輔助合成工業過程專用配體及新型光催化劑(圖4 9a-c);其應用還廣泛覆蓋材料科學、農業化學及消費品領域(圖4 10a,b, 11a-c, 12a,b)。
最具突破性的是,MOSAIC展示了驅動新方法學發現的潛力。一個典型案例是,針對現有方法無法合成的5-氮雜吲哚衍生物,MOSAIC引導開發了一種通過雜芳基二鹵化物與N-烷基烯丙胺進行未曾報道的環化反應來合成多種氮雜吲哚的新方案(圖4 13a-d)。該反應與最近專家質心的距離高達320,遠超典型置信閾值(<150),表明這是一個從預測專家視角看全新的轉化。通過利用集體知識,MOSAIC將傳統的試錯探索轉變為有信息的探索,加速了對化學空間未知區域的訪問。
在總計實現的37個化合物中,有35個在首次嘗試使用最高排名預測時即獲成功。研究者進一步探究了最近專家質心距離(置信度指標)與實驗成功率之間的關系(圖2j),發現了一個清晰的預測框架:距離<100時,成功率超過75%;距離增大,成功率則降至約50%。這為實驗優先級排序和資源分配提供了量化依據。
![]()
圖 4. 合成用于跨化學產業轉化應用的化合物
【總結與展望:作為化學家探索新空間的指南針】
MOSAIC的開發體現了一個核心原則:利用計算搜索的方法能夠隨著數據和資源的增加而有效擴展。通過將浩瀚的化學反應空間劃分為可搜索的Voronoi區域并分配專項專家,MOSAIC能夠持續擴展其覆蓋范圍與精度。這種架構避免了嚴格反應類型定義的局限,允許系統直接從Voronoi單元中發現和利用轉化模式間的相似性。
研究人員將MOSAIC比作現代化學合成的“指南針” 。其價值并非取代化學家的專業知識,而在于能夠快速審視廣闊的化學空間,識別出那些原本需要大量文獻調研和積累經驗才能發現的有潛力的實驗方向,將確定合適條件的繁瑣過程縮短至幾分鐘內。展望未來,盡管MOSAIC在涉及全新試劑的突破性發現和產率優化精度上存在局限,但其模型無關的框架設計使其能夠無縫融入未來更強大的語言模型與化學表征方法。通過整合實驗與建模技術,這一框架有望在縮小計算預測與實驗結果差距的同時,持續拓展合成化學可及空間的邊界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.