網易首頁 > 網易號 > 正文申請入駐

CMPhysBench發布，評估大語言模型凝聚態物理水平邁向科研級智能

2025-11-03 15:22:14　來源: ScienceAI

北京舉報

分享至

作者 | 論文團隊

編輯 | ScienceAI

近年來，大語言模型（LLM）似乎無所不能，以驚人的速度快速應用于文本生成、編程、通用問答和科研領域。大語言模型在具體科學問題上的能力究竟如何？

凝聚態物理問題是一個很好的測試標準，它們往往涉及固體理論、多體物理、量子統計、量子場論和高等量子力學等，還與物質科學、材料科學等高維度、多場調控等復雜物性效應密切相關。在研究生級別的凝聚態物理問題上，常見的模型還能像人類專家一樣推理嗎？

近日，上海人工智能實驗室、中國科學院物理研究所及中國科學院凝聚態物質科學數據中心等多家機構聯合發布了 CMPhysBench 評測集。這是全球首個面向凝聚態物理的大模型評測基準，涵蓋磁學、超導、強關聯系統、半導體、理論基礎等六大核心領域，題目均來源于研究生水平教材與專家審核。

研究團隊還提出了適用于物理問題答案的 SEED（Scalable Expression Edit Distance）評分體系，可實現對復雜物理推理過程的細粒度評估。實驗結果顯示，即使是目前最強的大模型 Grok-4，在 CMPhysBench 上的平均 SEED 得分僅為 36，準確率不到 30%，凸顯了大模型在前沿物理推理中的顯著差距。

該工作也在中國物理學會 2025 秋季會議（CPS 2025) 上獲得最佳墻報獎。

論文鏈接：https://arxiv.org/pdf/2508.18124
項目主頁：https://cmpdc.iphy.ac.cn/benchmarks
代碼鏈接：https://github.com/CMPhysBench/CMPhysBench
數據集鏈接：https://huggingface.co/datasets/weidawang/CMPhysBench

1. 為什么需要 CMPhysBench？——AI 與硬核科學

近年來，大語言模型（LLM）在自然語言處理、數學推理、編程等任務上展現出令人矚目的能力。例如，它們能夠在奧數題、復雜編程挑戰甚至分子設計中取得接近專家的表現。這使得人們對其在科學發現中的應用寄予厚望。因此誕生了很多針對大語言模型的科學測試，但是很多測試題目偏向概念理解和多項選擇題。這使得大模型在解決需要長推導的研究生級別物理問題上的能力難以進行有效評估。

物理學 —— 尤其是凝聚態物理 —— 包含了磁性、超導、強關聯等，這些都是現代物理學最活躍和最具挑戰性的領域，這些領域的問題對模型提出了更嚴苛的要求：不僅要有復雜的邏輯推理與數學計算能力，還必須深刻理解物理概念與理論框架。凝聚態物理問題往往涉及多體理論、量子統計、量子場論和高等量子力學，這類問題帶來的挑戰超越了日常語言和基礎數學，是檢驗 LLM 是否真正「懂世界」，輔助科學研究的理想試金石?，F有的科學評測基準多聚焦在中學或本科水平（如 ScienceQA、PHYBench 等），對研究前沿的復雜問題覆蓋有限。

因此，我們仍缺乏一個能夠真正衡量大模型在研究生級別能力上的標準數據集，CMPhysBench 的誕生，正是為了填補這一空白，具體對比如下表所示：

拓展討論：為什么選擇凝聚態物理？凝聚態物理和人工智能的交匯值得更進一步的挖掘。凝聚態物理研究的是大量相互作用粒子導致的復雜物理。它的思想本源是「More is different」，「多者異也」，「量變引起質變」等多維復雜效應。凝聚態物理研究為人工智能的神經網絡提供了基本原理和初始架構，為大語言模型的智能「涌現」提供了「量變引起質變」的思維根源和物理依據。從這個角度說，凝聚態物理是「人工智能 + 科學」的交匯點和發源地。

2. 試卷如何出？一份給大模型的研究生級別的考題 ——CMPhysBench

考試目的：CMPhysBench 是一個面向凝聚態物理的全新大模型評測基準，其目標是檢驗大語言模型在真正科學領域中的推理和計算能力。CMPhysBench 共收錄 520 道研究生級別的計算類題目，所有題目均由博士生和博士后研究人員基于 17 本經典教材（如著名的朗道《理論物理學教程》、M. Peskin 與 D. Schroeder 合著的《量子場論導論》，F. Gelis 的《量子場論》與李正中的《固體理論》）精心整理與改寫，并經過專家審核，保證學術嚴謹性與可操作性。這意味著大語言模型需要掌握更復雜的推理技巧和更深厚廣博的物理知識。

考試范圍：題目體系完整，覆蓋六大核心領域：

1. 電磁學（Magnetism）

2. 超導（Superconductivity）

3. 強關聯系統（Strongly Correlated Systems）

4. 半導體（Semiconductors）

5. 理論基礎（Theoretical Foundations），涵蓋高等量子力學（如復雜薛定諤方程求解和物理體系分析），量子場論（如 Klein-Gordon 場、Dirac 場、路徑積分、自發對稱性破缺，重整化群）到統計物理（如相變、漲落理論）等廣泛主題

6. 其他（Others），包括量子力學中的基礎問題與計算技巧，如諧振子、微擾理論、自旋體系等

考試題型：CMPhysBench 全部為開放性計算題，沒有選擇題，沒有填空題，不可以投機取巧！答案形式不僅包括表達式和數值，還涉及方程、區間、元組等多樣化類型，更貼近科研人員日常需要解決的推導與計算任務。

3. 如何花式評分？涵蓋多種類型的表達式評價方法 ——SEED 評分體系

在評估大模型的物理解題能力時，由于答案具有多樣性，如何打分是一個關鍵難題。傳統做法往往采用二元判定（對 / 錯），或者依賴簡單的表達式比對，但這在凝聚態物理的復雜場景中非常有限，讓我們來理一理：

Accuracy（準確率）：只能判斷最終答案對不對，不能定量評估正確性，忽略了「差一點正確」的情況。
EED 表達式編輯距離（Expression Edit Distance）：通過比較答案的符號樹結構來衡量差異，比單純的字符串匹配更智能，但它在處理復雜的方程、多元組或區間答案時，往往表現不夠穩定。對于復雜多樣的答案，需要多種多樣的處理手法。

為解決這些問題，研究團隊提出了的 SEED（Scalable Expression Edit Distance）指標：

1.更全面的答案類型支持：SEED 不僅能處理表達式（Expression），還支持方程（Equation）、元組（Tuple）、區間（Interval）、數值（Numeric）等多種答案形式，實現了對研究生級物理問題更真實的覆蓋。

2.細粒度的部分得分：不同于傳統的對 / 錯判定，SEED 會根據答案和標準解之間的結構差異給出細粒度的部分分。比如：符號寫錯、邊界條件遺漏，SEED 都能識別并合理扣分，而不是直接判「零分」。

3.物理語義感知：SEED 在設計時還特別考慮了物理場景，支持單位換算、科學計數法、四舍五入等常見物理答案格式；能處理矩陣 / 向量、不等式等復雜符號；自動進行 LaTeX 清洗與歸一化，避免因格式差異導致的「誤判」。

4.更高的可靠性：在與專家打分的對比實驗中，SEED 的一致性最高（Spearman 相關系數 ρ=0.90），顯著優于 EED (ρ≈0.7) 和 GPT-4o 審題判分 (ρ≈0.56) 等方法。這意味著 SEED 不僅能看出對錯，還能捕捉「接近正確」的推理軌跡，更接近科研人員的思維方式。

4. 最強模型真的能完美解決研究生級別物理問題嗎，AI 離真正的「物理學家」還有多遠？

這個問題的答案可能并不樂觀，現有的大語言模型在解決研究生級別的問題時候犯的錯誤多種多樣，體現出在物理背景知識理解與數學推導等能力上的不足。

通過對 18 個主流大語言模型（包括 o3、Grok-4、Gemini-2.5-pro、deepseek-r1 等）的系統評測，CMPhysBench 揭示了幾個重要發現：

首先，大模型在凝聚態物理上的整體表現遠低于預期。即使是表現最好的 Grok-4，平均 SEED 得分也只有 36 左右（滿分 100 分），專家標注的準確率不足 30%；而多數模型徘徊在 15–25 SEED 區間，正確率更是常常低于 20%。這與它們在數學、編程等任務上的高分形成鮮明對比，說明當前最強的大模型在應對研究級物理問題時存在顯著能力鴻溝。

其次，錯誤分析顯示，大模型在凝聚態物理中最常見的錯誤是概念與物理模型的誤用（占比超過 40–50%），其次是數學與邏輯錯誤（約 20–30%）。例如，有的模型在推導中混淆物理量的定義，有的則在代數運算或近似處理上犯下低級錯誤。這些錯誤反映出模型在物理概念把握和符號操作上的雙重不足。

最后，不同領域的表現差異明顯。如下圖所示，Grok-4 在超導與理論基礎題目上領先，但在強關聯系統中顯著下滑；Gemini 2.5 Pro 在半導體問題上表現較強；而 DeepSeek-R1 在強關聯系統中反而取得了最高分。這說明不同模型在物理分支領域的能力并不均衡，凸顯了未來進行「學科定向優化」的必要性。

在未來，需要更加專門的數據和訓練方法才能讓大模型在這些實踐性強且前沿的區域成為人類的好助理。

5. CMPhysBench—— 讓大語言模型離前沿基礎科學更近一步

CMPhysBench 的意義在于三方面：

科研價值：它是首個專注于研究生級別凝聚態物理的系統性評測基準，填補了現有物理類基準「只到高中 / 本科」的空白，讓大模型真正接受更高層次級別的檢驗。
方法論突破：團隊提出的 SEED 評分體系，不僅能精確衡量復雜物理解答的對錯，還能推廣到數學、工程等其他 STEM 領域，為未來的精細化評測提供了新思路。
對 AI 社區的啟發：結果顯示，即便是最先進的大規模語言模型（LLM），其在凝聚態物理領域的問題處理能力依然欠佳。這提醒我們，大模型要真正「懂物理」，還需引入物理感知、符號工具以及科學化的監督。

未來改進的方向包括：在模型推理過程中引入物理定律約束、結合符號 / 數值計算工具、開展逐步監督訓練，并基于 SEED 提供過程化反饋進行后訓練，從而讓模型更懂物理，更加貼近科研工作。

結語

CMPhysBench 是大模型在凝聚態物理、材料科學等前沿科學領域的第一張試卷。作為「試金石」，它告訴我們大模型在具體物理問題上的智能水平；作為未來的「墊腳石」，它也展示了通用人工智能進一步改進的方向，為 AI 賦能科學 (AI for Science)，科學促進 AI (Science for AI) 提供了一個重要的示范和基準。

你認為大語言模型多久才能成為真正可靠的全科科研助理，在更復雜的「考試」中取得高分？歡迎在評論區留下自己的看法。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.