在 AI 浪潮席卷全球的今天,大模型在寫詩、作畫、敲代碼上已經展現出驚人的天賦。然而,在面對嚴謹、硬核的物質科學(物理、化學、材料)時,卻常常表現得像個“偏科生”:它們能侃侃而談化學理論,卻在最基礎的分子式、晶體結構書寫和反應推理上頻繁出現不穩定輸出:說的像那么回事,寫出來卻漏洞百出。
近日,律動造物(Green Dynamics)創始人謝童領銜的新南威爾士大學(UNSW)團隊,與瑞士洛桑聯邦理工 (EPFL) Philippe Schwaller 團隊聯合發表論文:《MiST: Understanding the Role of Mid-Stage Scientific Training in Developing Chemical Reasoning Models》。這項工作為科學大模型打入了一針“工程化的清醒劑”:它不再盲目優化傳統的 next-token loss 或困惑度(Perplexity),而是提出了 MiST(中段科學預訓練)框架——一套在進入強化學習前,用于評估與塑造科學推理可解性的工程化協議。
![]()
(來源:受訪者提供)
MiST 的核心邏輯在于:在進入強化學習(RL)之前,先通過內生的診斷指標將模型的“潛在可解性”(Latent Solvability)量化為 SCS(化學語法得分)與 CCS(化學能力得分)。只有當這兩項“底座體檢指標”達標,RL 才能真正將化學推理能力解鎖。
在這條路線下,經過 MiST 和強化學習后的 CheMiST 大模型相比其基座模型的科學推理可解性分數最高可推升 1.8 倍,隨后 RL 在多類復雜的化學任務上展現出躍遷式增益:有機反應命名準確率提升約 6 倍,無機材料生成的準確率提升約 1.7 倍。MiST 的出現,標志著科學推理模型的訓練已從“經驗主義的摸索”轉向“可量化、可預測、可復現”的工程路徑。
值得注意的是,謝童團隊曾開源首個面向材料科學與化學的基礎大模型 DARWIN,在“科學大模型”主線上完成了初步探索;而洛桑聯邦理工學院(EPFL)的 Philippe Schwaller 教授則與 Andrew D. White(Future House 聯合創始人)等人共同提出了首個工具增強的化學智能體 ChemCrow,在“科學智能體”方向奠定了基礎。
![]()
圖 | 謝童(來源:受訪者提供)
為什么通用 AI 玩轉不了化學?
近年來,基于規則獎勵的在線強化學習方法(例如 GRPO 一類方法)被證明可以顯著提升數學與代碼等領域的推理表現。但一系列后續研究指出:RL 更像“放大器”——它只能放大基礎模型輸出分布中本來就存在、哪怕概率很低的正確解;如果正確解幾乎從不出現,獎勵就會極其稀疏甚至消失,訓練自然難以推進。
化學是對這一結論的“壓力測試”。化學問題不僅依賴專門的符號系統(如 SMILES、IUPAC 命名、CIF 等),還受到價態、鍵合、立體化學、相穩定性等物理化學硬約束。論文指出,通用 LLM 往往連“寫對符號”都不穩定,更難在硬約束下保持推理鏈條的一致性;當正確答案不在候選輸出里時,RL 的獎勵信號就會消失或非常稀疏。
![]()
(來源:受訪者提供)
“化學推理的本質是受物理和經驗約束的鏈式推理(Physically and empirically constrained Chain-of-Thought)。”謝童告訴 DeepTech。
以鈣鈦礦太陽能電池的研發為例,其推理邏輯鏈遵循“成分/結構→缺陷/動力學→性能”。其配方中即使僅有 1% 的離子比例微調,也會觸發一系列復雜的連鎖反應。此時,模型不僅需要預測性能走勢,更需在晶格應變、相穩定性、離子遷移等微觀維度上保持邏輯自洽。然而,目前的通用模型在面對價態守恒、立體化學、反應可行性等硬約束時,模型經常會出現看起來會說、但推不動,甚至陷入重復輸出一些奇怪內容的情況。
論文提出,RL 想在化學上成功,必須先滿足兩條必要條件。化學語法得分 (SCS),模型能穩定地產生、校驗并操縱正確的化學各個細分學科的專業表示(如 SMILES、IUPAC、CIF 等),確保輸出語法上有效、符號上自洽;化學能力得分 (CCS),底座模型的先驗分布里已經對正確解賦予了不可忽略的概率、具備一定密度的化學規律與可行解空間;否則即使引入 RL,也很難把“正確解”從幾乎為零的概率中獎勵出來、放大出來。
![]()
(來源:受訪者提供)
“這兩個指標也為 Future House 在選擇 ether0(其化學推理大模型)的底座模型時提供了一個合理解釋:在現有通用模型中,Mistral-3-24B 在化學符號穩定性(SCS)方面表現尤為突出,使其更適合作為化學推理大模型的起點。”謝童表示。
MiST 助力解鎖 AI 的化學推理能力
為了打破僵局,謝童及團隊提出了 MiST 框架。“其核心邏輯很簡單:在上 RL 之前,先把模型的‘化學語法+化學能力’補齊,讓它具備被 RL 教會的資格。”謝童補充道,“它的重點不是讓模型去死記硬背更多知識,而是先把三件事固化進模型的輸出分布:語法正確性(能寫對)、化學知識可解性(能理解)、以及推理表達方式(能穩定地推)。這樣后面的 RL 才有可優化的空間,否則正確解都進不了候選輸出,獎勵信號再強也教不動。”
MiST 將訓練分為兩個關鍵動作:持續預訓練 (Continued Pre-training)。在 2.9B tokens 的化學語料上進行針對性訓練,這讓 AI 學會了化學界的術語,能穩定操縱符號系統,確保輸出的結構自洽;監督微調 (Supervised Fine-tuning)。利用包含思維鏈 (CoT) 的數據,讓模型不僅能寫對產物,還能解釋推導過程。
![]()
(來源:上述論文)
這些步驟將 3B 和 7B 模型的潛在可解性分數(SCS)提升高達 1.8 倍,并使 RL 在多個下游任務取得跨越式提升,比如有機反應命名準確率從10.9% 升至 63.9%,無機材料生成從 40.6% 升至 67.4%;同時,輸出可解釋的推理軌跡。
“真正讓人興奮的是,這項研究并非單純實現了通過 RL 提升模型評測分數,而在于我們驗證了一個關鍵的因果鏈條:只有當通過 MiST 框架補齊了必要的模型專業前置能力后,強化學習才能真正有效地提升模型的化學與材料科學推理能力。”謝童表示。
這套結果背后代表一個范式變化,傳統方法側重于訓練模型掌握事實性知識的提取與問答能力,而本工作構建的架構能夠:在多重物理化學約束條件下生成候選分子/材料結構;執行單步及多步逆向合成設計、產物預測、官能團與骨架編輯;實現與實驗工具鏈及自動化平臺的高效閉環集成。
以研發“鈣鈦礦器件的界面添加劑”為例,CheMiST(經過 MiST+RL 訓練后的大模型)會啟動一套嚴謹的邏輯鏈條:首先,它會基于目標需求(如疏水性、缺陷鈍化、能級匹配)自主生成一批潛在結構候選;隨后對 SMILES 等化學符號進行合法性檢查;緊接著,它會結合化學先驗知識與計算工具進行快速初篩,剔除不符合官能團極性或配位邏輯的方案;最后,CheMiST 會輸出一份詳盡的推理軌跡,解釋每一個推薦結構的科學邏輯,并按優先級進行排序。
打造每一個企業的 AI CTO
2023 年創辦律動造物時,謝童的目標就已十分明確:打造全球首個“端到端閉環”的自主材料與化工品發現引擎。實驗化學與材料科學出身的他,曾“手搓”過大量材料,也與團隊取得過世界紀錄級別的新材料成果。“我從高中參加化學競賽就開始做實驗,也正因為長期在一線做實驗,我越發強烈地感受到:材料和化工研發中有大量環節可以被系統性提升,許多成本和時間,其實消耗在大量不可復用的經驗試錯上。”謝童感慨道。
“我們想做的不是一個會聊天的模型,而是給每一家化工與材料企業配一位‘AI CTO’,或者說材料化學行業的 cursor(面向研發流程的智能協作與執行工具), 把研發從經驗驅動的試錯,變成可計算、可驗證、可閉環迭代的工程系統。而且這個 CTO 會根據不同行業不同產線進行動態的推理,也就是每個公司都能基于我們的大模型和智能體擁有自己的 CTO。”
目前,律動造物有兩大 AI CTO 產品線:ByteScience(科學 AI 智能體)負責把方向找對,ByteFactory (自主化實驗室,Self-Driving Lab) 負責把驗證跑快,兩者合起來將研發閉環。
具體來說,ByteScience 用于把分散的資料、經驗和歷史實驗結果變成可用的知識,讓團隊更快定位問題、在明確約束下給出更靠譜的候選方案,減少盲試和重復踩坑, 并且提供推薦方案的可解釋性.
目前,MiST 框架也已經被整合進 ByteScience 智能體里,并應用于真實的研發流程中:保證化學結構表示的穩定性、價態與立體化學的自洽性,以及目標物性與工藝邊界的協同優化,而非僅限于榜單優化。
據謝童透露,由此帶來的直接效益體現為研發周期與成本的結構性壓縮:新材料篩選效率顯著提升(涵蓋電池、光伏、航空航天, 精細化工等領域);配方迭代速度大幅加快(涉及涂層、膠粘劑、膜材料等體系);關鍵路徑從傳統的數月甚至數年的試錯周期,縮短至以天為單位的閉環迭代周期,實現從慢速探索向可控快速迭代的模式躍遷。
ByteFactory 用于把實驗驗證環節標準化、自動化,智能化并行起來,讓實驗更快、更可復現,縮短等待時間,把幾周一輪盡量壓到更高頻的迭代。
據悉,自去年開始,律動造物便開始系統與多家上市材料化工公司展開合作,獲得了多筆具有相當規模的商業化訂單,并將其“AI CTO”嵌入到真實的材料與化工研發流程中運行。
![]()
(來源:受訪者提供)
在實際案例中,律動造物已幫助部分客戶將實驗驗證成本和研發周期最高可達百倍量級。這種降本增效并非簡單的流程加速或者暴力篩選,而是通過 AI 挖掘出了原本被埋沒在數十年經驗試錯中的寶礦。
“其中最令我印象深刻的,是來自一家客戶團隊的評價:在某些材料設計任務中,我們的智能體在候選方案的覆蓋面、約束條件的滿足度以及迭代速度方面,已經達到甚至接近其內部資深研究人員的水平。這一反饋對我觸動頗深,因為大模型和智能體不再局限于答題式的表現,而是實際參與到客戶的研發決策中,產生了直接的影響。”
具體而言,在明確性能目標與合成工藝邊界后,客戶使用 AI 智能體生成并篩選出一批候選材料,其中部分設計方向是其團隊在十多年的研究中未曾考慮過的。初步驗證結果良好,目前已推進至更接近產線的驗證階段。“這樣的落地速度與深度,實際上遠超我最初的預期。”
未來 5-10 年的勝負手:誰更會做工程化
在全球材料市場爆發式增長的背景下,中國企業憑借強大的國內需求與國家戰略支持,正處于這場材料革命的前沿。然而,在謝童看來,真正的變革不在于產能的擴張,而在于研發底層邏輯的徹底革命。
這種范式的代際跨越,預示著未來 5-10 年,材料研發將完成從經驗驅動的試錯向計算指導+智能推理+實驗驗證+閉環迭代體系的跨越。在這種新范式下,AI 的角色將發生質變:它不再僅僅是文獻檢索的“速記員”,而是深度參與假設生成、約束校驗與實驗決策的核心研發者。這種轉變將把以往極度依賴專家直覺的非標過程,沉淀為可復用、可規模化的標準化流程,讓更耐用的電池、更高效的光伏以及更低成本的化工材料能夠加速走出實驗室,進入日常生活。
但謝童也清醒地指出,這一過程并非一蹴而就。由于材料供應鏈“牽一發而動全身”的特性,從技術突破到產業普及,需要跨越漫長的工程化驗證與產線協同。真正的落地,是 AI 研發的高頻迭代與產業端快速驗證機制之間的“雙向奔赴”。
面對飛速演進的 AI 技術,謝童也為科研工作者提出了一套穿越周期的核心理念:不應僅停留于如何調用模型,而應深入學習如何將現實科學問題轉化為可驗證的約束體系。
材料化學與計算機科學有著本質差異。計算機領域通常有統一的黃金基準,而材料化學性能(如強度、穩定性)強烈依賴于環境與工藝等環境因素,不存在絕對普適的標準答案。因此,謝童建議聚焦以下三大實踐指南:精準定義約束條件,將熱力學穩定性、合成可行性、成本閾值等轉化為 AI 可理解的量化表達;同時構建閉環迭代流程,將每次驗證系統性地回寫至知識庫;并堅持做實驗證與可復現性,確保研發過程的每一環節都清晰可追溯。
“如果能建立起這套‘約束—驗證—閉環’的習慣,你會發現 AI 的迭代再快,你也不會被熱點或工具更新牽著走。因為你掌握的是材料化學研發最核心的那套方法論。”
1.https://arxiv.org/abs/2512.21231
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.