網狀材料(包括金屬有機框架、共價有機框架和沸石咪唑酯框架)的結晶對于構建有序多孔結構至關重要,這些結構在水收集和CO2捕獲等社會重要應用中發揮著關鍵作用。此外,結晶還使得通過單晶X射線衍射(SCXRD)實現原子級精確結構解析成為可能,從而深化了對結構-性能關系的理解,指導材料的進一步開發。然而,盡管網狀化學已發展數十年,新框架的結晶過程仍主要依賴試錯法。盡管可以基于網狀合成的幾何原理理性設計構建單元,但確定哪些組合能在何種特定條件下結晶,仍然高度依賴于經驗性探索。這種低效性導致大量化學空間未被探索,不僅可能錯失具有變革潛力的材料,也限制了對結晶景觀的基礎理解,阻礙了人類直覺和針對性機器學習預測模型的發展。系統性地探索這一空間,以在有限實驗資源下最大化發現,構成了與傳統合成優化截然不同的根本性挑戰。
![]()
鑒于此,加州大學伯克利分校Zichao Rong與Omar Yaghi教授提出了名為“算法迭代網狀合成”(AIRES)的循環系統,該體系整合了自動化合成、圖像識別、單晶X射線衍射以及定制化算法決策,旨在最大化不同晶體的發現數量,而非優化單一目標。在沸石咪唑酯框架(ZIFs)上的實驗表明,AIRES的發現效率是隨機探索的兩倍,成功將10種新連接體結晶為多樣化的ZIF拓撲結構,并將單連接體Zn-ZIF材料庫擴大了三分之一。通過將網狀合成從經驗性過程轉變為系統性探索,AIRES為加速材料發現提供了可擴展且高效的藍圖。相關研究成果以題為“Algorithmic iterative reticular synthesis of zeolitic imidazolate framework crystals”發表在最新一期《nature synthesis》上。
![]()
![]()
值得一提的是,榮子超(Zichao Rong)是Prof. Omar Yaghi課題組的四年級博士生。他畢業于北京大學材料化學專業,期間從事電催化劑和電池電極新材料開發的研究。目前研究重點是通過高通量實驗與機器學習的集成,加速新網狀材料的發現。
【初始ZIF合成數據集的構建】
在AIRES系統中,首先通過自動化平臺收集并標注了初始數據集。具體而言,反應在機器人平臺上進行,產物經過光學成像以識別晶體,隨后進行SCXRD分析和數據標注(圖1a–d)。研究聚焦于由單一連接體構成的Zn-ZIFs,選用了8種起始連接體(包括IM、2mIM、2nIM等),它們在咪唑環上具有不同位置和類型的官能團。每種連接體與六水合硝酸鋅在N,N-二甲基甲酰胺(DMF)中反應,參數空間包括總濃度、連接體與金屬的對數比值和反應溫度,共生成336組反應條件 per linker,總計2,688組反應。高通量實驗平臺包含反應/結晶和表征兩個階段:機器人液體處理系統制備反應混合物,在恒溫烘箱中加熱5天;初步篩選采用自動光學顯微鏡,識別出澄清溶液、沉淀或單晶三種結果。晶體識別基于幾何形狀、顏色均勻性和尺寸(最短維度約20 μm)等標準。
![]()
圖 1. AIRES 循環及其組成部分的示意圖
研究人員首先對光學圖像進行二分類(晶體 vs 非晶體),隨后使用EfficientNetV2-S卷積神經網絡訓練模型,其晶體檢測召回率達到0.88,顯示出高可靠性。盡管模型通過過濾無意義圖像提高了篩選效率,專家仍需對模型識別的晶體候選進行SCXRD驗證。例如,在bIM連接體案例中,SCXRD揭示了兩種不同晶體形態:已知的ZIF-7和一種新的二維結構 Zn 3 (bIm) 6 (HCOO) 4 (DMF) 2 (圖2b)。為高效整合SCXRD至高通量實驗,研究采用了兩種實用假設:形態相似的晶體來自同一連接體時結構相同;晶胞參數與已知ZIF匹配即歸類為ZIF。最終,反應結果被標注為二值標簽:“1”代表成功形成ZIF單晶,“0”代表其他結果。通過將二值結果投影至二維參數空間(圖2c),可視化了各連接體復雜且各異的結晶區域,顯示出非單調關系,突顯了機器學習方法捕捉這些復雜規律的必要性。
![]()
圖 2. 初始 ZIF 合成數據集
【機器學習引導的發現方法】
AIRES的發現方法將機器學習預測模型與自動化實驗迭代結合(圖1)。每一輪迭代包括三個步驟:模型引導選擇有前景的候選、自動化合成與表征、整合新結果以優化預測。為評估該方法,研究從48種新連接體中篩選出符合條件的候選,排除了具有配位官能團或溶解性差的連接體。連接體結構通過四類特征進行編碼:官能團數量、連接體尺寸、中性/去質子化連接體的量子力學性質,以及預核物種(Zn(II)與兩個中性連接體和兩個硝酸根配位)的量子力學性質(圖3a)。主成分分析顯示,咪唑類和苯并咪唑類連接體有一定聚類趨勢,但前兩個主成分僅解釋50.8%的方差,表明化學空間復雜性高(圖3b)。研究方法將結晶視為二值結果,結合預測模型(隨機森林分類RFC和高斯過程分類GPC)與貪婪選擇策略,始終選擇預測成功概率最高的實驗。一旦某連接體成功結晶,算法即排除其后續實驗,將資源集中于未探索候選。理論分析和實證驗證表明,該貪婪策略在晶體發現中優于傳統優化方法。為充分利用高通量能力,研究還開發了批量選擇算法,通過條件概率估計考慮實驗間依賴關系,避免冗余。與隨機搜索(RS)相比,AIRES(RFC)僅需約700次實驗即發現所有新ZIF晶體,而RS需1,400次,效率提升一倍(圖3c)。批量實驗設置下,AIRES(RFC)同樣保持高效,僅需RS一半實驗即可達成相同發現數量(圖3d)。對各成功連接體的發現實驗分布分析顯示,AIRES(RFC)通過模式識別加速了挑戰性目標(如6mbIM)的發現,而2pIM因結構獨特成為例外,RS表現更優(圖3e)。
![]()
圖 3. AIRES 在加速 ZIF 發現方面的表現
【發現的ZIF結構描述】
盡管ZIFs共享四面體構建單元幾何,其網絡拓撲多樣,由三字母代碼表示。通過AIRES,10種成功連接體產生了11種新晶體,分屬7種不同拓撲(圖4a)。其中包括前所未有的雙fcs拓撲(ZIF-A6)以及此前僅能通過混合連接體方法獲得的yth拓撲。AIRES的系統探索將過去20年發展的單連接體Zn-ZIF庫擴大了三分之一,打破了長達十年的發現停滯。此外,RFC還識別出四種新連接體(2cbIM、2mbIM等),在發現所有ZIF晶體前生成了其他類型晶體,這些結構雖保持四面體鋅配位,但配體競爭導致形成層狀ZIFs(LZIFs)而非三維框架(圖4b),表明機器學習捕捉了基本配位原理。
![]()
圖 4. AIRES 通過新連接體發現的 ZIFs 和 LZIFs 的拓撲分類及晶體結構
【總結與展望】
AIRES展示了超越單連接體Zn-ZIFs的廣泛潛力,可擴展至多連接體體系及其他結晶系統。其核心的貪婪算法具有通用性,但反應編碼需領域定制。隨著系統復雜化,需輔以PXRD等多模態表征以維持嚴謹性。在更廣的發現生態中,AIRES兼具雙重價值:其驗證的結構是構建結構-性能關系模型的寶貴數據源;其輸出成果可作為下游材料規模化開發的結構錨點。例如,它將發現的初始條件與模擬PXRD譜圖結合,能助力相識別與純度評估,進而驅動優化循環以提升結晶度,從而在材料發現與后續工藝優化之間建立起無縫橋梁。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.