![]()
作者 | 論文團隊
編輯 | ScienceAI
在藥物設計、新材料開發(fā)等領域,精確模擬分子行為至關重要。傳統(tǒng)的機器學習力場將分子視為由原子核和化學鍵構成的“骨架”,卻忽略了真正決定分子性質的“靈魂”——電子
電子密度,這一量子化學中的核心物理量,描述了電子在空間中的分布概率,從根本上決定了分子的能量、反應活性等所有性質。然而,通過量子化學計算獲取電子密度數(shù)據(jù)成本極高,嚴重阻礙了該方向的研究。
近日,湖南大學/國家超算長沙中心聯(lián)合寧波東方理工大學、香港科技大學(廣州)AIMS Lab、華東師范大學、中國科學技術大學等團隊在國際頂會NeurIPS 2025(神經信息處理系統(tǒng)大會,AI領域頂會)上發(fā)布研究成果——大規(guī)模電子密度泛函數(shù)據(jù)集EDbench
這個涵蓋336萬分子的“電子密度數(shù)據(jù)庫”,首次填補了“電子級分子建模”的大規(guī)模數(shù)據(jù)空白,讓AI預測分子性質的精度和效率實現(xiàn)雙重突破,有望加速新藥研發(fā)、新材料設計等關鍵領域的進程。
![]()
論文主頁:https://hongxinxiang.github.io/projects/EDBench/
為什么電子密度是分子建模的“終極密碼”?
在量子化學中,分子的一切性質都藏在“電子分布”里,這是Hohenberg-Kohn定理的核心結論。打個比方:如果把分子比作“智能手機”,傳統(tǒng)AI分子建模(MLFFs)只關注“硬件零件(原子)”的排列,卻忽略了“操作系統(tǒng)(電子)”的邏輯;而電子密度(ED)就是“操作系統(tǒng)的源代碼”,能直接解鎖分子的“底層功能”。
![]()
圖(a)展示了從原子級到電子級的MLFF范式升級,其中電子密度(ED)是描述電子空間分布的量子力學中的基本物理量,可以提供分子系統(tǒng)更細致的物理表示,但是長期以來,獲取ED數(shù)據(jù)堪稱“兩難”:
- 實驗測量(如X射線衍射)依賴千萬級設備,單種分子的ED數(shù)據(jù)需數(shù)月才能獲取;
- 理論計算(DFT)雖通用,但算一個小分子要245秒,想攢“百萬級數(shù)據(jù)集”需單核心連續(xù)計算23年。
這就導致AI分子建模始終卡在“原子級”——比如預測藥物分子與靶點的結合活性時,傳統(tǒng)模型只能通過“原子間距”間接推斷,卻看不到“電子富集區(qū)”的真實作用,精度往往差強人意。
EDBench數(shù)據(jù)集:規(guī)模與質量的雙重突破
本論文中,EDBench的建成正好解決了該領域長期存在的“數(shù)據(jù)荒”問題,該數(shù)據(jù)集的創(chuàng)建并不是“簡單攢數(shù)據(jù)”,而是“精度、規(guī)模、實用性”的多重考量。
![]()
1.規(guī)模突破:336萬分子的“算力攻堅”
從細節(jié)角度來看,圖(b)展示了數(shù)據(jù)集構建中的DFT計算流程,該流程是通過自洽場(SCF)迭代來實現(xiàn)的,從宏觀角度來看,EDBench基于PCQM4Mv2數(shù)據(jù)集構建,涵蓋3,359,472個類藥分子,規(guī)模超同類成果:
- 材料領域經典ED數(shù)據(jù)MP僅含12萬條數(shù)據(jù),且無量子性質標注;
- 藥物領域最大電子相關數(shù)據(jù)集?2DFT雖有190萬條,但不含直接ED分布(僅密度矩陣)。
更重要的是,EDBench輸出的是CUBE格式的3D電子密度云圖——相當于給每個分子拍了“電子CT”,能直接看到電子在原子周圍的富集程度。
2.精度控制:從泛函到基組的“定制化方案”
為了讓ED數(shù)據(jù)符合真實量子規(guī)律,團隊基于圖(c)中Jacob’s ladder做了三重優(yōu)化:
![]()
- 泛函選擇:選用B3LYP混合泛函——這是量子化學的“萬金油”,在合成化學、藥物研發(fā)等領域經過驗證,能平衡電子相關性描述與計算效率;
- 基組適配:普通分子用6-31G基組,含硫分子追加6-31+G基組——因為硫原子的電子離域性強,普通基組會低估其ED分布;
- 自旋適配:自動切換RHF/UHF參考波函數(shù)——閉殼層分子(如甲烷)用RHF,開殼層分子(如氧分子)用UHF,避免自旋污染導致的誤差。
3.標注維度:AI建模的“全要素養(yǎng)料”
EDBench不止提供ED數(shù)據(jù),還同步輸出6類能量成分(核排斥能、交換關聯(lián)能等)、7種軌道能量(HOMO-2至LUMO+3)、4類偶極矩(X/Y/Z分量及模長)。這種“多維度標注”正是AI突破“單任務擬合”的關鍵——例如,模型可通過“ED分布→軌道能量→反應活性”的鏈式學習,實現(xiàn)更本質的性質預測。
三大基準任務:驗證AI的“電子理解能力”
為避免數(shù)據(jù)集“只存不用”,團隊設計了覆蓋ED核心應用場景的基準任務,均采用scaffold split(OOD泛化性測試),直擊AI建模的真實痛點。
1.量子性質預測:ED比原子特征強在哪?
4個子任務中,X-3D(點云模型)的表現(xiàn)印證了ED的優(yōu)勢:
- ED5-OE(軌道能量預測):HOMO能量MAE僅0.0198 eV,較原子級模型(MAE≈0.03 eV)精度提升34%——因為軌道能量與局部ED分布直接相關,AI能快速捕捉“電子富集區(qū)”的微觀特征;
- ED5-OCS(開/閉殼層分類):AUPR達61.54%,解決了傳統(tǒng)模型“分不清電子態(tài)”的核心難題——開殼層分子(如自由基)的ED分布呈“不對稱性”,AI能通過這種特征精準分類。
2.跨模態(tài)檢索:“結構-密度”雙向對齊的突破
ED5-MER任務中,模型需實現(xiàn)“分子結構→ED”和“ED→分子結構”的雙向檢索,這對藥物虛擬篩選、材料逆設計至關重要。
![]()
圖中清晰展示:EquiformerV2(分子結構編碼器)+X-3D(ED編碼器)的組合表現(xiàn)最優(yōu),ED→MS檢索Top-1準確率達78.71%,MS→ED達78.36%。這意味著:給一張實驗測得的電子云圖,AI能精準匹配對應的分子結構;反之,輸入分子結構也能快速生成ED分布,為“電子驅動的逆設計”奠定基礎。
3. ED生成:1.8萬倍提速的“DFT平替方案”
團隊提出HGEGNN異構圖模型(將原子與電子作為雙類型節(jié)點),輸入分子結構即可生成ED:
- 速度:0.013秒/分子,較DFT(245秒/分子)提速18907倍;
- 質量:生成ED的Pearson相關達99.2%,且用于下游能量預測時,MAE較DFT原始數(shù)據(jù)降低11%(209.29→186.38)——AI生成的ED因過濾了DFT計算的噪聲,反而更適合模型學習。
生成ED的質量“反超”DFT?
上述HGEGNN異構圖模型引出了一個顛覆性發(fā)現(xiàn):AI生成ED數(shù)據(jù),在下游任務中表現(xiàn)竟優(yōu)于DFT原始數(shù)據(jù)。
團隊用HGEGNN生成3組ED數(shù)據(jù)(G#1、G#2、G#3),替換ED5-EC任務中的DFT數(shù)據(jù),訓練PointVector模型后發(fā)現(xiàn):生成數(shù)據(jù)的平均MAE從209.29降至186.38,相對提升11%。
![]()
圖中藍色柱DFT數(shù)據(jù)的模型表現(xiàn),綠色柱為AI生成數(shù)據(jù)的表現(xiàn)——這并非說明AI生成的ED“更符合物理真實”,而是其“更平滑的分布”更契合深度學習模型的歸納偏好,減少了DFT計算中的數(shù)值噪聲,為“高效-高精度建模”提供了新思路。
參數(shù)玄機:閾值與采樣點如何影響性能?
ED數(shù)據(jù)的“高維度”(百萬級采樣點)可能導致模型效率低下,團隊通過消融實驗找到最優(yōu)參數(shù)。
![]()
左圖(a)顯示:隨著ED閾值ρτ從0.05增至0.2,PointVector在ED5-EC任務的MAE從346.36降至209.29;但ρτ超過0.2后,性能反而下降——因為過高的閾值會過濾掉化學鍵附近的低密度電子(化學活性區(qū)),這提示:ρτ=0.2是“信息保留與效率”的黃金平衡點。
對AI for Science的啟示:從“擬合”到“理解”
EDBench的價值遠超“一個數(shù)據(jù)集”:它首次證明了“電子級表征”在AI建模中的可行性,為幾何深度學習(GDL)開辟了新方向——過去GDL聚焦“原子間對稱關系”,現(xiàn)在可轉向“電子密度的空間連續(xù)性”建模。
目前,EDBench的全部數(shù)據(jù)(含CUBE格式電子云圖)、代碼及可視化工具已通過哈佛Dataverse開放:
https://dataverse.harvard.edu/dataverse/EDBench
正如團隊通訊作者所言:“EDBench”不是終點,而是讓AI“看懂電子”的起點——當模型能真正理解電子分布,新藥研發(fā)、新材料設計才有可能從“試錯”走向“預測”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.