網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

UNSW、中科大蘇高院等聯(lián)合發(fā)布AtomWorld材料建模基準(zhǔn)測試流程

2025-11-10 14:47:33　來源: ScienceAI

天津舉報(bào)

分享至

作者 | 論文團(tuán)隊(duì)

編輯 | ScienceAI

在材料科學(xué)研究中，結(jié)構(gòu)建模是探索材料特性與功能的起點(diǎn)，傳統(tǒng)流程依賴研究者基于專業(yè)知識(shí)手動(dòng)搭建晶體結(jié)構(gòu)、調(diào)整原子排布，不僅耗時(shí)耗力，還受限于個(gè)人空間認(rèn)知與操作經(jīng)驗(yàn)。當(dāng)前，大語言模型（LLM）雖在文本理解與基礎(chǔ)推理領(lǐng)域展現(xiàn)潛力，開始嘗試應(yīng)用于晶體生成、坐標(biāo)解析等任務(wù)，但由于缺乏標(biāo)準(zhǔn)化評(píng)估體系，其對(duì) 3D 原子結(jié)構(gòu)的空間推理能力 —— 如按指令精準(zhǔn)執(zhí)行原子添加、旋轉(zhuǎn)、替換等操作 —— 始終無法被系統(tǒng)衡量，難以滿足科研場景中自動(dòng)化建模的實(shí)際需求。

為解決這一關(guān)鍵難題，近日，中國科學(xué)技術(shù)大學(xué)蘇州高等研究院、澳大利亞新南威爾士大學(xué)（UNSW）等機(jī)構(gòu)聯(lián)合發(fā)布了「AtomWorld 材料建模基準(zhǔn)測試流程」，以晶體學(xué)信息文件（CIF）這一標(biāo)準(zhǔn)格式為核心，首次構(gòu)建了針對(duì) LLM 晶體學(xué)基礎(chǔ)技能的標(biāo)準(zhǔn)化評(píng)估框架，填補(bǔ)了大模型原子級(jí)空間推理能力評(píng)測的空白。

論文地址：https://arxiv.org/abs/2510.04704v2

項(xiàng)目代碼倉庫：https://github.com/MasterAI-EAM/atomworld

核心設(shè)計(jì)：聚焦科研實(shí)用場景，以 10 類原子操作構(gòu)建標(biāo)準(zhǔn)化評(píng)測體系

AtomWorld 基準(zhǔn)測試流程圖

不同于傳統(tǒng)評(píng)測僅關(guān)注模型的文本匹配或數(shù)值計(jì)算能力，AtomWorld 深度貼合材料科研實(shí)際需求，將評(píng)測核心聚焦于「原子級(jí)結(jié)構(gòu)編輯操作」—— 這是研究者搭建晶體模型、優(yōu)化材料結(jié)構(gòu)的首要環(huán)節(jié)。通過模擬真實(shí)科研中的操作場景，AtomWorld 構(gòu)建了 10 大核心任務(wù)類別，全面覆蓋材料建模全流程中的關(guān)鍵步驟：

1.原子替換（Changing）：按指令替換特定位置的原子種類，如將鈣鈦礦結(jié)構(gòu)中的鉛原子替換為錫原子；

2.原子移除（Removal）：刪除結(jié)構(gòu)中冗余或特定功能的原子，模擬缺陷結(jié)構(gòu)構(gòu)建過程；

3.原子添加（Addition / Insertion-between）：在指定晶格間隙或兩個(gè)原子間插入新原子，測試模型對(duì)原子間距與空間占位的理解；

4.原子交換（Swapping）：交換兩個(gè)不同位置原子的坐標(biāo)，驗(yàn)證模型對(duì)原子身份與空間位置關(guān)聯(lián)的認(rèn)知；

5.原子移動(dòng)（Move / Move-toward）：將原子移動(dòng)至指定坐標(biāo)，或向另一個(gè)原子方向移動(dòng)特定距離，評(píng)估模型的定量空間控制能力；

6.繞原子旋轉(zhuǎn)（Rotate-around）：以某一原子為中心旋轉(zhuǎn)目標(biāo)原子（或原子團(tuán)），考驗(yàn)?zāi)Ｐ蛯?duì) 3D 空間旋轉(zhuǎn)幾何的推理能力；

7.表面生成（Delete-below）：刪除晶體結(jié)構(gòu)中某一平面以下的原子，模擬材料表面結(jié)構(gòu)的構(gòu)建過程；

8.超胞擴(kuò)展（Supercell-creation）：按指定倍數(shù)擴(kuò)展原胞形成超胞，測試模型對(duì)晶體周期性與晶格對(duì)稱性的理解。

這些任務(wù)均以 CIF 文件為輸入輸出載體，該格式是最為通用的原子結(jié)構(gòu)表示方式之一，同時(shí)可經(jīng)過簡單操作轉(zhuǎn)換為 VASP、Lammps 等主流計(jì)算材料學(xué)軟件的輸入格式，確保評(píng)測結(jié)果可直接對(duì)接真實(shí)科研流程，為后續(xù)模型優(yōu)化提供明確的方向指引。

評(píng)測結(jié)果：大模型空間推理能力存明顯短板，工具輔助提升有限

為驗(yàn)證 AtomWorld 的有效性，研究團(tuán)隊(duì)對(duì)當(dāng)前主流前沿模型（包括 Gemini 2.5 Pro、Qwen 3 等）及工具輔助型 LLM（Tool-Augmented LLMs）進(jìn)行了系統(tǒng)性測試，結(jié)果揭示了當(dāng)前大模型在原子級(jí)空間推理領(lǐng)域的核心局限：

基礎(chǔ)任務(wù)表現(xiàn)穩(wěn)定，但復(fù)雜操作失誤率高：模型在原子移除、簡單移動(dòng)等基礎(chǔ)任務(wù)中準(zhǔn)確率可達(dá) 70% 以上，但在「繞原子旋轉(zhuǎn)」「原子交換」等需要深度空間認(rèn)知的任務(wù)中表現(xiàn)顯著下滑 —— 其中「原子交換」任務(wù)的錯(cuò)誤率高達(dá) 85%。這將會(huì)造成真實(shí)建模場景中多部操作誤差大量累計(jì)；
材料結(jié)構(gòu)理解能力有限，依賴死記硬背：在 CIF-Gen（生成標(biāo)準(zhǔn)結(jié)構(gòu)）任務(wù)中，模型對(duì)原型結(jié)構(gòu) + 常見化合物的生成表現(xiàn)比對(duì)同一原型、非常見化合物（如 NaCl vs MgSe）更好。這有可能說明模型更多是記住例子模式，而不是真正理解基礎(chǔ)晶體結(jié)構(gòu)。
工具輔助提升有限，難以突破本質(zhì)瓶頸：盡管集成了 pymatgen 計(jì)算工具的 LLM 在簡單任務(wù)上有提升，尤其是插入原子操作提升了 37.4%，但對(duì)于復(fù)雜操作的理解依舊限制了性能提升。

這些結(jié)果表明，當(dāng)前 LLM 的「空間推理」更多依賴文本訓(xùn)練數(shù)據(jù)中的模式匹配，而非真正理解 3D 原子結(jié)構(gòu)的幾何規(guī)律與材料學(xué)原理 —— 這也正是 AtomWorld 基準(zhǔn)的核心價(jià)值所在：通過標(biāo)準(zhǔn)化任務(wù)，精準(zhǔn)定位模型短板，為后續(xù)的微調(diào)訓(xùn)練、算法優(yōu)化提供明確目標(biāo)。

a. 在 AtomWorld、CIF-Repair、CIF-Gen 和 StructProp 數(shù)據(jù)集上的成功率指標(biāo)。b. 在 AtomWorld 和 CIF-Gen 數(shù)據(jù)集上的平均最大距離指標(biāo)。c、d. Qwen3 系列的模型尺寸效應(yīng)結(jié)果。

CIF 生成任務(wù)中每種結(jié)構(gòu)類型正確生成的 CIF 文件數(shù)量。紅色方框表示生成的單例正確結(jié)果為該結(jié)構(gòu)標(biāo)準(zhǔn)原型的情況（如巖鹽結(jié)構(gòu)對(duì)應(yīng) NaCl）。右側(cè)展示了每種類型對(duì)應(yīng)的具體三維晶體結(jié)構(gòu)，其中紅色標(biāo)注的化學(xué)成分代表標(biāo)準(zhǔn)原型。

核心價(jià)值：不止于評(píng)測，更是大模型材料建模能力的「訓(xùn)練加速器」

AtomWorld 的意義遠(yuǎn)不止于「測試工具」，其創(chuàng)新性地兼具「基準(zhǔn)評(píng)測」與「數(shù)據(jù)生成器」雙重屬性，為推動(dòng) LLM 在材料科學(xué)中的落地提供關(guān)鍵支撐：

標(biāo)準(zhǔn)化評(píng)測，統(tǒng)一行業(yè)「能力標(biāo)尺」：此前，并未有對(duì)于 LLM 材料建模能力的標(biāo)準(zhǔn)評(píng)估方式，因此基于材料計(jì)算任務(wù)的智能體框架之間缺乏結(jié)果可比性，AtomWorld 首次建立了基礎(chǔ)操作 - 空間推理 - 材料結(jié)構(gòu)認(rèn)知的評(píng)測鏈條，讓不同模型的性能可量化、可對(duì)比，推動(dòng)行業(yè)從「定性描述」轉(zhuǎn)向「定量評(píng)估」；
可擴(kuò)展數(shù)據(jù)生成，支撐模型微調(diào)優(yōu)化：基于 10 大任務(wù)類別，AtomWorld 可自動(dòng)生成海量帶標(biāo)注的「操作指令 - CIF」訓(xùn)練數(shù)據(jù)，這些數(shù)據(jù)遵循 CIF 格式，可直接用于 LLM 的微調(diào)與強(qiáng)化學(xué)習(xí)，幫助模型快速掌握原子操作的空間邏輯；
銜接科研流程，推動(dòng)建模自動(dòng)化落地：AtomWorld 的任務(wù)設(shè)計(jì)完全貼合實(shí)際科研需求，通過該基準(zhǔn)優(yōu)化后的模型，可直接對(duì)接 VASP 等主流材料計(jì)算工具，實(shí)現(xiàn)「自然語言指令→自動(dòng)生成合規(guī) CIF 文件→直接用于后續(xù)計(jì)算」的全流程自動(dòng)化，大幅降低建模門檻、提升研究效率。

未來展望：從「空間推理」到「智能建模」，加速材料科學(xué) AI 化進(jìn)程

AtomWorld 的發(fā)布，為 LLM 在材料科學(xué)領(lǐng)域的應(yīng)用開辟了新路徑。后續(xù)研究團(tuán)隊(duì)將圍繞兩大方向持續(xù)迭代：

任務(wù)擴(kuò)展：新增「缺陷結(jié)構(gòu)設(shè)計(jì)」、「表界面構(gòu)建」等更復(fù)雜的科研場景任務(wù)，進(jìn)一步貼近高性能材料研發(fā)需求；
工具鏈開發(fā)：基于 AtomWorld 基準(zhǔn)，開發(fā)適配 LLM 的「智能建模插件」，實(shí)現(xiàn)與主流材料計(jì)算軟件的無縫集成，讓研究者通過自然語言即可完成從結(jié)構(gòu)設(shè)計(jì)到參數(shù)設(shè)置的全流程操作。

AtomWorld 正以標(biāo)準(zhǔn)化評(píng)測打破大模型原子級(jí)空間推理的能力瓶頸。未來，隨著模型優(yōu)化與工具鏈完善，LLM 有望真正成為材料研究者的「智能建模助手」，推動(dòng)材料發(fā)現(xiàn)從「手動(dòng)試錯(cuò)」走向「AI 驅(qū)動(dòng)」的新紀(jì)元。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.