![]()
作者 | 論文團(tuán)隊(duì)
編輯 | ScienceAI
在材料科學(xué)研究中,結(jié)構(gòu)建模是探索材料特性與功能的起點(diǎn),傳統(tǒng)流程依賴研究者基于專業(yè)知識(shí)手動(dòng)搭建晶體結(jié)構(gòu)、調(diào)整原子排布,不僅耗時(shí)耗力,還受限于個(gè)人空間認(rèn)知與操作經(jīng)驗(yàn)。當(dāng)前,大語言模型(LLM)雖在文本理解與基礎(chǔ)推理領(lǐng)域展現(xiàn)潛力,開始嘗試應(yīng)用于晶體生成、坐標(biāo)解析等任務(wù),但由于缺乏標(biāo)準(zhǔn)化評(píng)估體系,其對(duì) 3D 原子結(jié)構(gòu)的空間推理能力 —— 如按指令精準(zhǔn)執(zhí)行原子添加、旋轉(zhuǎn)、替換等操作 —— 始終無法被系統(tǒng)衡量,難以滿足科研場景中自動(dòng)化建模的實(shí)際需求。
為解決這一關(guān)鍵難題,近日,中國科學(xué)技術(shù)大學(xué)蘇州高等研究院、澳大利亞新南威爾士大學(xué)(UNSW)等機(jī)構(gòu)聯(lián)合發(fā)布了「AtomWorld 材料建模基準(zhǔn)測試流程」,以晶體學(xué)信息文件(CIF)這一標(biāo)準(zhǔn)格式為核心,首次構(gòu)建了針對(duì) LLM 晶體學(xué)基礎(chǔ)技能的標(biāo)準(zhǔn)化評(píng)估框架,填補(bǔ)了大模型原子級(jí)空間推理能力評(píng)測的空白。
![]()
論文地址:https://arxiv.org/abs/2510.04704v2
項(xiàng)目代碼倉庫:https://github.com/MasterAI-EAM/atomworld
核心設(shè)計(jì):聚焦科研實(shí)用場景,以 10 類原子操作構(gòu)建標(biāo)準(zhǔn)化評(píng)測體系
![]()
AtomWorld 基準(zhǔn)測試流程圖
不同于傳統(tǒng)評(píng)測僅關(guān)注模型的文本匹配或數(shù)值計(jì)算能力,AtomWorld 深度貼合材料科研實(shí)際需求,將評(píng)測核心聚焦于「原子級(jí)結(jié)構(gòu)編輯操作」—— 這是研究者搭建晶體模型、優(yōu)化材料結(jié)構(gòu)的首要環(huán)節(jié)。通過模擬真實(shí)科研中的操作場景,AtomWorld 構(gòu)建了 10 大核心任務(wù)類別,全面覆蓋材料建模全流程中的關(guān)鍵步驟:
1.原子替換(Changing):按指令替換特定位置的原子種類,如將鈣鈦礦結(jié)構(gòu)中的鉛原子替換為錫原子;
2.原子移除(Removal):刪除結(jié)構(gòu)中冗余或特定功能的原子,模擬缺陷結(jié)構(gòu)構(gòu)建過程;
3.原子添加(Addition / Insertion-between):在指定晶格間隙或兩個(gè)原子間插入新原子,測試模型對(duì)原子間距與空間占位的理解;
4.原子交換(Swapping):交換兩個(gè)不同位置原子的坐標(biāo),驗(yàn)證模型對(duì)原子身份與空間位置關(guān)聯(lián)的認(rèn)知;
5.原子移動(dòng)(Move / Move-toward):將原子移動(dòng)至指定坐標(biāo),或向另一個(gè)原子方向移動(dòng)特定距離,評(píng)估模型的定量空間控制能力;
6.繞原子旋轉(zhuǎn)(Rotate-around):以某一原子為中心旋轉(zhuǎn)目標(biāo)原子(或原子團(tuán)),考驗(yàn)?zāi)P蛯?duì) 3D 空間旋轉(zhuǎn)幾何的推理能力;
7.表面生成(Delete-below):刪除晶體結(jié)構(gòu)中某一平面以下的原子,模擬材料表面結(jié)構(gòu)的構(gòu)建過程;
8.超胞擴(kuò)展(Supercell-creation):按指定倍數(shù)擴(kuò)展原胞形成超胞,測試模型對(duì)晶體周期性與晶格對(duì)稱性的理解。
這些任務(wù)均以 CIF 文件為輸入輸出載體,該格式是最為通用的原子結(jié)構(gòu)表示方式之一,同時(shí)可經(jīng)過簡單操作轉(zhuǎn)換為 VASP、Lammps 等主流計(jì)算材料學(xué)軟件的輸入格式,確保評(píng)測結(jié)果可直接對(duì)接真實(shí)科研流程,為后續(xù)模型優(yōu)化提供明確的方向指引。
評(píng)測結(jié)果:大模型空間推理能力存明顯短板,工具輔助提升有限
為驗(yàn)證 AtomWorld 的有效性,研究團(tuán)隊(duì)對(duì)當(dāng)前主流前沿模型(包括 Gemini 2.5 Pro、Qwen 3 等)及工具輔助型 LLM(Tool-Augmented LLMs)進(jìn)行了系統(tǒng)性測試,結(jié)果揭示了當(dāng)前大模型在原子級(jí)空間推理領(lǐng)域的核心局限:
- 基礎(chǔ)任務(wù)表現(xiàn)穩(wěn)定,但復(fù)雜操作失誤率高:模型在原子移除、簡單移動(dòng)等基礎(chǔ)任務(wù)中準(zhǔn)確率可達(dá) 70% 以上,但在「繞原子旋轉(zhuǎn)」「原子交換」等需要深度空間認(rèn)知的任務(wù)中表現(xiàn)顯著下滑 —— 其中「原子交換」任務(wù)的錯(cuò)誤率高達(dá) 85%。這將會(huì)造成真實(shí)建模場景中多部操作誤差大量累計(jì);
- 材料結(jié)構(gòu)理解能力有限,依賴死記硬背:在 CIF-Gen(生成標(biāo)準(zhǔn)結(jié)構(gòu))任務(wù)中,模型對(duì)原型結(jié)構(gòu) + 常見化合物的生成表現(xiàn)比對(duì)同一原型、非常見化合物(如 NaCl vs MgSe)更好。這有可能說明模型更多是記住例子模式,而不是真正理解基礎(chǔ)晶體結(jié)構(gòu)。
- 工具輔助提升有限,難以突破本質(zhì)瓶頸:盡管集成了 pymatgen 計(jì)算工具的 LLM 在簡單任務(wù)上有提升,尤其是插入原子操作提升了 37.4%,但對(duì)于復(fù)雜操作的理解依舊限制了性能提升。
這些結(jié)果表明,當(dāng)前 LLM 的「空間推理」更多依賴文本訓(xùn)練數(shù)據(jù)中的模式匹配,而非真正理解 3D 原子結(jié)構(gòu)的幾何規(guī)律與材料學(xué)原理 —— 這也正是 AtomWorld 基準(zhǔn)的核心價(jià)值所在:通過標(biāo)準(zhǔn)化任務(wù),精準(zhǔn)定位模型短板,為后續(xù)的微調(diào)訓(xùn)練、算法優(yōu)化提供明確目標(biāo)。
![]()
a. 在 AtomWorld、CIF-Repair、CIF-Gen 和 StructProp 數(shù)據(jù)集上的成功率指標(biāo)。b. 在 AtomWorld 和 CIF-Gen 數(shù)據(jù)集上的平均最大距離指標(biāo)。c、d. Qwen3 系列的模型尺寸效應(yīng)結(jié)果。
![]()
CIF 生成任務(wù)中每種結(jié)構(gòu)類型正確生成的 CIF 文件數(shù)量。紅色方框表示生成的單例正確結(jié)果為該結(jié)構(gòu)標(biāo)準(zhǔn)原型的情況(如巖鹽結(jié)構(gòu)對(duì)應(yīng) NaCl)。右側(cè)展示了每種類型對(duì)應(yīng)的具體三維晶體結(jié)構(gòu),其中紅色標(biāo)注的化學(xué)成分代表標(biāo)準(zhǔn)原型。
核心價(jià)值:不止于評(píng)測,更是大模型材料建模能力的「訓(xùn)練加速器」
AtomWorld 的意義遠(yuǎn)不止于「測試工具」,其創(chuàng)新性地兼具「基準(zhǔn)評(píng)測」與「數(shù)據(jù)生成器」雙重屬性,為推動(dòng) LLM 在材料科學(xué)中的落地提供關(guān)鍵支撐:
- 標(biāo)準(zhǔn)化評(píng)測,統(tǒng)一行業(yè)「能力標(biāo)尺」:此前,并未有對(duì)于 LLM 材料建模能力的標(biāo)準(zhǔn)評(píng)估方式,因此基于材料計(jì)算任務(wù)的智能體框架之間缺乏結(jié)果可比性,AtomWorld 首次建立了基礎(chǔ)操作 - 空間推理 - 材料結(jié)構(gòu)認(rèn)知的評(píng)測鏈條,讓不同模型的性能可量化、可對(duì)比,推動(dòng)行業(yè)從「定性描述」轉(zhuǎn)向「定量評(píng)估」;
- 可擴(kuò)展數(shù)據(jù)生成,支撐模型微調(diào)優(yōu)化:基于 10 大任務(wù)類別,AtomWorld 可自動(dòng)生成海量帶標(biāo)注的「操作指令 - CIF」訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)遵循 CIF 格式,可直接用于 LLM 的微調(diào)與強(qiáng)化學(xué)習(xí),幫助模型快速掌握原子操作的空間邏輯;
- 銜接科研流程,推動(dòng)建模自動(dòng)化落地:AtomWorld 的任務(wù)設(shè)計(jì)完全貼合實(shí)際科研需求,通過該基準(zhǔn)優(yōu)化后的模型,可直接對(duì)接 VASP 等主流材料計(jì)算工具,實(shí)現(xiàn)「自然語言指令→自動(dòng)生成合規(guī) CIF 文件→直接用于后續(xù)計(jì)算」的全流程自動(dòng)化,大幅降低建模門檻、提升研究效率。
未來展望:從「空間推理」到「智能建模」,加速材料科學(xué) AI 化進(jìn)程
AtomWorld 的發(fā)布,為 LLM 在材料科學(xué)領(lǐng)域的應(yīng)用開辟了新路徑。后續(xù)研究團(tuán)隊(duì)將圍繞兩大方向持續(xù)迭代:
- 任務(wù)擴(kuò)展:新增「缺陷結(jié)構(gòu)設(shè)計(jì)」、「表界面構(gòu)建」等更復(fù)雜的科研場景任務(wù),進(jìn)一步貼近高性能材料研發(fā)需求;
- 工具鏈開發(fā):基于 AtomWorld 基準(zhǔn),開發(fā)適配 LLM 的「智能建模插件」,實(shí)現(xiàn)與主流材料計(jì)算軟件的無縫集成,讓研究者通過自然語言即可完成從結(jié)構(gòu)設(shè)計(jì)到參數(shù)設(shè)置的全流程操作。
AtomWorld 正以標(biāo)準(zhǔn)化評(píng)測打破大模型原子級(jí)空間推理的能力瓶頸。未來,隨著模型優(yōu)化與工具鏈完善,LLM 有望真正成為材料研究者的「智能建模助手」,推動(dòng)材料發(fā)現(xiàn)從「手動(dòng)試錯(cuò)」走向「AI 驅(qū)動(dòng)」的新紀(jì)元。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.