![]()
作者 | 論文團隊
編輯 | ScienceAI
原子級模擬為材料性質的預測與虛擬篩選提供了重要手段,其核心在于準確描述體系的勢能面(PES)。相比于傳統 PES 的計算所依賴的方法——從頭算量子化學方法(如密度泛函理論 DFT)與經驗力場而言,機器學習原子間勢函數可以更好權衡精度與效率,通過從 DFT 數據中學習原子間相互作用,對 PES 進行準確構建。
近年來,隨著數據和模型規模的擴大,基于數百萬 DFT 計算訓練的基座勢能(foundation potentials, FPs)進一步展現出跨化學空間的泛化潛力,已被廣泛用于聲子譜預測、相圖構建、催化篩選與分子動力學模擬等下游任務,為多尺度材料建模奠定了新的基礎。
然而,絕大多數 FPs 依然是在大量低精度 GGA/GGA+U 的 DFT 泛函數據上訓練的,隨著我們對于下游任務提出更高的模擬精度的需求,經低精度數據預訓練的模型亟待通過對于高精度數據(如 r2SCAN、HSE06 泛函)的遷移學習,構造為精度更高的模型。
為應對這一跨泛函遷移挑戰,來自加州大學伯克利分校(UCB)的黃旭,鄧博文,鐘佩辰及 Gerbrand Ceder 教授等,在名為 CHGNet 的基座勢能框架內分析了這一跨泛函由低精度數據到高精度數據遷移學習問題的挑戰及解決方案。
該研究以「Cross-functional transferability in foundation machine learning interatomic potentials」為題,于 2025 年 10 月 21 日刊登于《npj Computational Materials》。
![]()
論文鏈接:https://www.nature.com/articles/s41524-025-01796-y
基座勢能在當前訓練數據的局限及跨泛函遷移的挑戰
目前用于晶體材料的基座勢能(FPs)訓練的數據集主要是 GGA 和 GGA+U 水平的 DFT 泛函數據組成。
首先,GGA/GGA + U 泛函在不同化學鍵環境下的遷移能力較低,整體計算精度較低。其次,為減少 GGA 中的自相互作用誤差而施加的 Hubbard U 校正,本質上是半經驗性的且具有非普適性。「最優」U 值并沒有明確的定義,線性響應法等方法表明,這樣的最優 U 值通常依賴于具體體系。
然而,GGA/GGA + U 的 FP 數據集在生成時,對每種元素都使用相同的 U 值,而不考慮局部環境或形式價態。再次,我們通常采用一種粗粒度的方案將 GGA 與 GGA + U 混合以構建 FPs 訓練集。這樣的混合方式可能引發問題,例如在這些訓練數據之間移動時,原子間勢能可能會出現數百 meV 的突躍,這是不利于平滑勢能面構建的。
在多精度 DFT 數據集之間實現顯式或隱式的跨泛函可遷移性的主要策略有三種:遷移學習(transfer learning)、多精度學習(multi-fidelity learning)以及混合多精度訓練(mixed multi-fidelity training)。
這三種方法有各自的優勢及挑戰,其中,遷移學習指的是先在大規模的低精度數據集上對一個大型神經網絡進行預訓練,然后將該網絡的預訓練權重用于初始化在更小規模的高精度數據集上的機器學習任務。這種方法在計算和數據利用上都非常高效。然而,如果不同精度數據集之間的相關性不夠強,遷移學習的效果就會變差,甚至可能導致性能下降,這種現象被稱為「負遷移」(negative transfer)。
MP-r2SCAN 數據集
研究團隊構建了一個來自 Materials Project 數據庫的 r2SCAN 弛豫軌跡解析而成的 r2SCAN 數據集(MP-r2SCAN),用于高精度訓練任務,包含 34,927 個材料 ID 和 238,247 個結構。與 MPtrj 數據集(包含 145,923 個材料 ID 和 1,580,395 個結構)相比,MP-r2SCAN 的數據規模顯著更小。
如下圖圖 b 所示,r2SCAN 與 GGA/GGA + U 的總能量分布在不同的數值范圍上。從 GGA/GGA + U 到 r2SCAN 的能量偏移量在 0–70 eV/atom 的量級,這遠大于勢函數能量精度(約 30 meV/atom),這表明這些 r2SCAN 能量標簽若沒有合適的參考或歸一化處理,是無法直接有效遷移使用的。
![]()
使用不同原子參考能量的遷移學習及基準測試
![]()
![]()
對于在具有基于 GGA/GGA + U 總能量擬合的 AtomRef 的勢函數 FP 上進行的跨泛函遷移學習,可以重新擬合該 FP 的 AtomRef(用基于 r2SCAN 能量擬合得到的 AtomRef 替換原有的基于 GGA/GGA + U 的 AtomRef),從而將 FP 遷移前后圖神經網絡學習的能量預測部分對齊到相近的數值尺度,并提升預訓練與微調數據集之間的相關性,克服遷移學習中「負遷移」的挑戰。實際上,Pearson 相關系數 ρ 從未修正的 GGA/GGA + U 與 r2SCAN 數據集之間的 0.0917,提高到了在分別減去各自 AtomRef 后的 r2SCAN 能量與 GGA/GGA + U 能量之間的 0.9250。此外,此種方法也減少了微調開始階段梯度過大導致的訓練不穩定性。由下圖可以觀察到,不重新擬合 AtomRef 的方法的初始梯度幅值至少比重新擬合 AtomRef 的方法大一個數量級,且重新擬合 AtomRef 后,模型的訓練過程更加穩定且可靠。
![]()
在基準測試方面,該研究將重新擬合原子參考能量進行遷移學習的方法和其他幾個遷移學習方法以及從頭用 r2SCAN 數據訓練(無遷移學習)的方法進行了對比,得到在能量、原子間作用力、應力、磁矩、熱力學穩定性(形成能、分解能)、密度預測方面都更準確可靠的 FPs。如下圖所示,方法 4(即重新擬合原子參考能量的遷移學習)在密度預測(與實驗密度數據對比)方法顯著優于其他方法。此外,實驗值與預測值之比的分布顯示,基于 GGA 預訓練的 CHGNet 模型更傾向于低估密度,而方法 4 所得到的分布相比其他方法更緊密地集中在理想值(比值 = 1)附近。上述結果表明,從 GGA 向 r2SCAN 的遷移學習方法是有效的,并且使用 r2SCAN 數據、通過方法 4 訓練得到的模型在實際體積與密度預測中具有更高的精度潛力。
![]()
除了從 GGA/GGA+U 到 r2SCAN 泛函數據遷移學習,團隊也研究了從 GGA/GGA+U 到鹵化物范德華數據集和 HSE06 數據集的遷移學習(見論文中的補充信息),證明了這種遷移方法的普適有效性。
擴展定律
為評估重新擬合原子參考能量的遷移學習方法的數據效率提升,研究團隊進行了擴展定律研究(下圖)。線性擬合結果表明,無論是從頭用 r2SCAN 數據訓練(無遷移學習)還是遷移學習(藍色),都表現出線性擴展規律的行為。僅使用 1K 個高精度數據點進行遷移學習,就能超越在超過 10K 個高精度數據點上從頭訓練的模型性能,這意味著通過 GGA 預訓練步驟獲得了超過十倍的數據效率提升。有趣的是,研究團隊觀察到,即使在包含 24 萬個結構的完整 MP-r2SCAN 數據集上,遷移學習相較于從頭訓練的優勢仍未飽和,表現出出色的數據效率。
![]()
總結與展望
研究團隊通過在 MP-r2SCAN 數據集上對不同 TL 方法進行得到在能量、原子間作用力、應力、磁矩、熱力學穩定性(形成能、分解能)、密度預測方面的基準測試,證明了 FPs 遷移學習中重新擬合原子參考能量的重要性及此方法的有效性。并且,通過比較具有和不具有低精度數據集預訓練的擴展定律,研究表明了得當的遷移學習方法可以實現顯著的數據效率提升。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.