<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      CMPhysBench發布,評估大語言模型凝聚態物理水平邁向科研級智能

      0
      分享至



      作者 | 論文團隊

      編輯 | ScienceAI

      近年來,大語言模型(LLM)似乎無所不能,以驚人的速度快速應用于文本生成、編程、通用問答和科研領域。大語言模型在具體科學問題上的能力究竟如何?

      凝聚態物理問題是一個很好的測試標準,它們往往涉及固體理論、多體物理、量子統計、量子場論和高等量子力學等,還與物質科學、材料科學等高維度、多場調控等復雜物性效應密切相關。在研究生級別的凝聚態物理問題上,常見的模型還能像人類專家一樣推理嗎?

      近日,上海人工智能實驗室、中國科學院物理研究所及中國科學院凝聚態物質科學數據中心等多家機構聯合發布了 CMPhysBench 評測集。這是全球首個面向凝聚態物理的大模型評測基準,涵蓋磁學、超導、強關聯系統、半導體、理論基礎等六大核心領域,題目均來源于研究生水平教材與專家審核。

      研究團隊還提出了適用于物理問題答案的 SEED(Scalable Expression Edit Distance)評分體系,可實現對復雜物理推理過程的細粒度評估。實驗結果顯示,即使是目前最強的大模型 Grok-4,在 CMPhysBench 上的平均 SEED 得分僅為 36,準確率不到 30%,凸顯了大模型在前沿物理推理中的顯著差距。

      該工作也在中國物理學會 2025 秋季會議 (CPS 2025) 上獲得最佳墻報獎。



      • 論文鏈接:https://arxiv.org/pdf/2508.18124
      • 項目主頁:https://cmpdc.iphy.ac.cn/benchmarks
      • 代碼鏈接:https://github.com/CMPhysBench/CMPhysBench
      • 數據集鏈接:https://huggingface.co/datasets/weidawang/CMPhysBench

      1. 為什么需要 CMPhysBench?——AI 與硬核科學

      近年來,大語言模型(LLM)在自然語言處理、數學推理、編程等任務上展現出令人矚目的能力。例如,它們能夠在奧數題、復雜編程挑戰甚至分子設計中取得接近專家的表現。這使得人們對其在科學發現中的應用寄予厚望。因此誕生了很多針對大語言模型的科學測試,但是很多測試題目偏向概念理解和多項選擇題。這使得大模型在解決需要長推導的研究生級別物理問題上的能力難以進行有效評估。

      物理學 —— 尤其是凝聚態物理 —— 包含了磁性、超導、強關聯等,這些都是現代物理學最活躍和最具挑戰性的領域,這些領域的問題對模型提出了更嚴苛的要求:不僅要有復雜的邏輯推理與數學計算能力,還必須深刻理解物理概念與理論框架。凝聚態物理問題往往涉及多體理論、量子統計、量子場論和高等量子力學,這類問題帶來的挑戰超越了日常語言和基礎數學,是檢驗 LLM 是否真正 「懂世界」,輔助科學研究的理想試金石?,F有的科學評測基準多聚焦在中學或本科水平(如 ScienceQA、PHYBench 等),對研究前沿的復雜問題覆蓋有限。

      因此,我們仍缺乏一個能夠真正衡量大模型在研究生級別能力上的標準數據集,CMPhysBench 的誕生,正是為了填補這一空白,具體對比如下表所示:



      拓展討論:為什么選擇凝聚態物理?凝聚態物理和人工智能的交匯值得更進一步的挖掘。凝聚態物理研究的是大量相互作用粒子導致的復雜物理。它的思想本源是「More is different」,「多者異也」,「量變引起質變」等多維復雜效應。凝聚態物理研究為人工智能的神經網絡提供了基本原理和初始架構,為大語言模型的智能「涌現」提供了「量變引起質變」的思維根源和物理依據。從這個角度說,凝聚態物理是「人工智能 + 科學」的交匯點和發源地。

      2. 試卷如何出?一份給大模型的研究生級別的考題 ——CMPhysBench

      考試目的:CMPhysBench 是一個面向 凝聚態物理 的全新大模型評測基準,其目標是檢驗大語言模型在真正科學領域中的推理和計算能力。CMPhysBench 共收錄 520 道研究生級別的計算類題目,所有題目均由博士生和博士后研究人員基于 17 本經典教材(如著名的朗道《理論物理學教程》、M. Peskin 與 D. Schroeder 合著的《量子場論導論》,F. Gelis 的《量子場論》與李正中的《固體理論》) 精心整理與改寫,并經過專家審核,保證學術嚴謹性與可操作性。這意味著大語言模型需要掌握更復雜的推理技巧和更深厚廣博的物理知識。





      考試范圍:題目體系完整,覆蓋六大核心領域:

      1. 電磁學(Magnetism)

      2. 超導(Superconductivity)

      3. 強關聯系統(Strongly Correlated Systems)

      4. 半導體(Semiconductors)

      5. 理論基礎(Theoretical Foundations),涵蓋高等量子力學(如復雜薛定諤方程求解和物理體系分析),量子場論(如 Klein-Gordon 場、Dirac 場、路徑積分、自發對稱性破缺,重整化群)到統計物理(如相變、漲落理論)等廣泛主題

      6. 其他(Others),包括量子力學中的基礎問題與計算技巧,如諧振子、微擾理論、自旋體系等

      考試題型:CMPhysBench 全部為開放性計算題,沒有選擇題,沒有填空題,不可以投機取巧!答案形式不僅包括 表達式 和 數值,還涉及方程、區間、元組等多樣化類型,更貼近科研人員日常需要解決的推導與計算任務。



      3. 如何花式評分?涵蓋多種類型的表達式評價方法 ——SEED 評分體系

      在評估大模型的物理解題能力時,由于答案具有多樣性,如何打分是一個關鍵難題。傳統做法往往采用二元判定(對 / 錯),或者依賴簡單的表達式比對,但這在凝聚態物理的復雜場景中非常有限,讓我們來理一理:

      • Accuracy(準確率):只能判斷最終答案對不對,不能定量評估正確性,忽略了「差一點正確」的情況。
      • EED 表達式編輯距離(Expression Edit Distance):通過比較答案的符號樹結構來衡量差異,比單純的字符串匹配更智能,但它在處理復雜的方程、多元組或區間答案時,往往表現不夠穩定。對于復雜多樣的答案,需要多種多樣的處理手法。

      為解決這些問題,研究團隊提出了的 SEED(Scalable Expression Edit Distance)指標:

      1.更全面的答案類型支持:SEED 不僅能處理 表達式(Expression),還支持 方程(Equation)、元組(Tuple)、區間(Interval)、數值(Numeric) 等多種答案形式,實現了對研究生級物理問題更真實的覆蓋。

      2.細粒度的部分得分:不同于傳統的對 / 錯判定,SEED 會根據答案和標準解之間的結構差異給出細粒度的部分分。比如:符號寫錯、邊界條件遺漏,SEED 都能識別并合理扣分,而不是直接判「零分」。

      3.物理語義感知:SEED 在設計時還特別考慮了物理場景,支持單位換算、科學計數法、四舍五入等常見物理答案格式;能處理 矩陣 / 向量、不等式等復雜符號;自動進行 LaTeX 清洗與歸一化,避免因格式差異導致的「誤判」。

      4.更高的可靠性:在與專家打分的對比實驗中,SEED 的一致性最高(Spearman 相關系數 ρ=0.90),顯著優于 EED (ρ≈0.7) 和 GPT-4o 審題判分 (ρ≈0.56) 等方法。這意味著 SEED 不僅能看出對錯,還能捕捉「接近正確」的推理軌跡,更接近科研人員的思維方式。



      4. 最強模型真的能完美解決研究生級別物理問題嗎,AI 離真正的「物理學家」還有多遠?

      這個問題的答案可能并不樂觀,現有的大語言模型在解決研究生級別的問題時候犯的錯誤多種多樣,體現出在物理背景知識理解與數學推導等能力上的不足。

      通過對 18 個主流大語言模型(包括 o3、Grok-4、Gemini-2.5-pro、deepseek-r1 等)的系統評測,CMPhysBench 揭示了幾個重要發現:

      首先,大模型在凝聚態物理上的整體表現遠低于預期。即使是表現最好的 Grok-4,平均 SEED 得分也只有 36 左右(滿分 100 分),專家標注的準確率不足 30%;而多數模型徘徊在 15–25 SEED 區間,正確率更是常常低于 20%。這與它們在數學、編程等任務上的高分形成鮮明對比,說明當前最強的大模型在應對研究級物理問題時存在顯著能力鴻溝。



      其次,錯誤分析顯示,大模型在凝聚態物理中最常見的錯誤是概念與物理模型的誤用(占比超過 40–50%),其次是數學與邏輯錯誤(約 20–30%)。例如,有的模型在推導中混淆物理量的定義,有的則在代數運算或近似處理上犯下低級錯誤。這些錯誤反映出模型在物理概念把握和符號操作上的雙重不足。



      最后,不同領域的表現差異明顯。如下圖所示,Grok-4 在超導與理論基礎題目上領先,但在強關聯系統中顯著下滑;Gemini 2.5 Pro 在半導體問題上表現較強;而 DeepSeek-R1 在強關聯系統中反而取得了最高分。這說明不同模型在物理分支領域的能力并不均衡,凸顯了未來進行「學科定向優化」的必要性。

      在未來,需要更加專門的數據和訓練方法才能讓大模型在這些實踐性強且前沿的區域成為人類的好助理。



      5. CMPhysBench—— 讓大語言模型離前沿基礎科學更近一步

      CMPhysBench 的意義在于三方面:

      • 科研價值:它是首個專注于研究生級別凝聚態物理的系統性評測基準,填補了現有物理類基準「只到高中 / 本科」的空白,讓大模型真正接受更高層次級別的檢驗。
      • 方法論突破:團隊提出的 SEED 評分體系,不僅能精確衡量復雜物理解答的對錯,還能推廣到數學、工程等其他 STEM 領域,為未來的精細化評測提供了新思路。
      • 對 AI 社區的啟發:結果顯示,即便是最先進的大規模語言模型(LLM),其在凝聚態物理領域的問題處理能力依然欠佳。這提醒我們,大模型要真正「懂物理」,還需引入物理感知、符號工具以及科學化的監督。

      未來改進的方向包括:在模型推理過程中引入物理定律約束、結合符號 / 數值計算工具、開展逐步監督訓練,并基于 SEED 提供過程化反饋進行后訓練,從而讓模型更懂物理,更加貼近科研工作。

      結語

      CMPhysBench 是大模型在凝聚態物理、材料科學等前沿科學領域的第一張試卷。作為「試金石」,它告訴我們大模型在具體物理問題上的智能水平;作為未來的「墊腳石」,它也展示了通用人工智能進一步改進的方向,為 AI 賦能科學 (AI for Science),科學促進 AI (Science for AI) 提供了一個重要的示范和基準。

      你認為大語言模型多久才能成為真正可靠的全科科研助理,在更復雜的「考試」中取得高分?歡迎在評論區留下自己的看法。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      范曾發布聲明

      范曾發布聲明

      新京報政事兒
      2025-12-11 12:19:47
      北京小客車指標解讀:無車家庭積分規則與新能源配置分析

      北京小客車指標解讀:無車家庭積分規則與新能源配置分析

      右耳遠聞
      2025-12-10 17:25:43
      卡米拉泳裝鏡頭罕見曝光!面相引熱議,佩服夏洛特公主的心理素質

      卡米拉泳裝鏡頭罕見曝光!面相引熱議,佩服夏洛特公主的心理素質

      夜深愛雜談
      2025-12-11 19:34:15
      法國前總統薩科齊被判刑5年,坐牢20天后獲釋,寫213頁《囚徒日記》,爆火成預售榜第一,粉絲為見他一面排隊數小時

      法國前總統薩科齊被判刑5年,坐牢20天后獲釋,寫213頁《囚徒日記》,爆火成預售榜第一,粉絲為見他一面排隊數小時

      每日經濟新聞
      2025-12-11 18:23:26
      4-2進八強!國乒又一22歲新星崛起:00后大對決下一輪挑戰林詩棟

      4-2進八強!國乒又一22歲新星崛起:00后大對決下一輪挑戰林詩棟

      李喜林籃球絕殺
      2025-12-11 15:37:46
      綁匪現身,打臉藍戰非

      綁匪現身,打臉藍戰非

      燕梳樓頻道
      2025-12-11 14:08:02
      雨雪交加!云南新一輪大降溫來襲

      雨雪交加!云南新一輪大降溫來襲

      云南網絡廣播電視臺
      2025-12-11 23:01:52
      隨著萊斯特城2-2,英冠最新積分榜出爐:英超前冠軍10名開外

      隨著萊斯特城2-2,英冠最新積分榜出爐:英超前冠軍10名開外

      側身凌空斬
      2025-12-11 07:01:41
      2026年如果房價繼續下跌,我國有一半的家庭或將面臨三個現實壓力

      2026年如果房價繼續下跌,我國有一半的家庭或將面臨三個現實壓力

      裝修秀
      2025-12-11 11:20:03
      這次,在法庭上崩潰的張柏芝,揭開謝霆鋒的體面,原來向佐沒說謊

      這次,在法庭上崩潰的張柏芝,揭開謝霆鋒的體面,原來向佐沒說謊

      梅亭談
      2025-12-10 21:10:25
      任程偉和妻子黃雷現身聚會,55歲黃蕾頭發全白,和他站一起像母子

      任程偉和妻子黃雷現身聚會,55歲黃蕾頭發全白,和他站一起像母子

      老謝談史
      2025-12-12 06:00:01
      男子買二手寶馬發現里程被調少20萬公里 法院:車商“退一賠三”,共退賠58萬元

      男子買二手寶馬發現里程被調少20萬公里 法院:車商“退一賠三”,共退賠58萬元

      紅星新聞
      2025-12-09 17:26:12
      為什么老顧客突然不來照顧生意了?網友:為了一瓶礦泉水查監控

      為什么老顧客突然不來照顧生意了?網友:為了一瓶礦泉水查監控

      滑稽斑馬呀
      2025-11-27 17:02:09
      春晚“四馬標志”(哪里不太對)

      春晚“四馬標志”(哪里不太對)

      據說無據
      2025-12-11 08:57:26
      再見,皇馬!齊達內現身伯納烏,阿隆索下課倒計時,四大候選出爐

      再見,皇馬!齊達內現身伯納烏,阿隆索下課倒計時,四大候選出爐

      五姑娘臺球
      2025-12-11 16:33:01
      泰國和緬甸剛打起來,洪森就迫不及待喊話全國人民趕緊捐大米抗戰

      泰國和緬甸剛打起來,洪森就迫不及待喊話全國人民趕緊捐大米抗戰

      我心縱橫天地間
      2025-12-11 23:43:59
      002256,擬重要收購!

      002256,擬重要收購!

      證券時報e公司
      2025-12-11 20:39:36
      西湖邊,00后姑娘一個小動作被拍下,網友驚呆:這畫面我小時候看過!

      西湖邊,00后姑娘一個小動作被拍下,網友驚呆:這畫面我小時候看過!

      環球網資訊
      2025-12-11 17:40:16
      不焯水等于服毒,這六類蔬菜一定要焯水!

      不焯水等于服毒,這六類蔬菜一定要焯水!

      簡食記工作號
      2025-12-09 00:13:26
      湖人防守補強無望?曝鵜鶘不愿交易赫伯特-瓊斯 紫金軍籌碼有限

      湖人防守補強無望?曝鵜鶘不愿交易赫伯特-瓊斯 紫金軍籌碼有限

      羅說NBA
      2025-12-12 06:20:40
      2025-12-12 06:55:00
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1177文章數 220關注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節!

      財經要聞

      明年經濟工作怎么干 中央經濟工作會議定調

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      家居
      藝術
      教育
      公開課
      軍事航空

      家居要聞

      歐式風格 純粹優雅氣質

      藝術要聞

      嶺南畫派畫雪

      教育要聞

      5分鐘掌握函數積分三大方法!從此不再怕積分題

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      泰國海軍做好戰爭準備 特朗普要電話調停泰柬沖突

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美人与性动交α欧美精品| 安徽省| 老师破女学生处特级毛ooo片| 五级黄高潮片90分钟视频| 国产制服丝袜在线视频| 精品亚洲天堂| 亚洲中文字幕无码av永久| 特黄大片又粗又大又暴| 国产精品久久久久影院老司| 精品成a人无码| 人妻少妇精品系列一区二区| 欧美 亚洲 中文 国产 综合| 精品一区二区三区东京热| 亚洲中文在线观看| 九九国产视频| 色婷婷成人| 国模粉嫩小泬视频在线观看| 狠狠色丁香婷婷亚洲综合| 99无码精品| 一级毛片网| 午夜人成免费视频| 亚洲免费人妻| 成人肏屄视频| 69精品人人人人| 人妻内射一区二区在线视频| 久久亚洲精品无码va白人极品| 德安县| 国产免费踩踏调教视频| 99在线国产视频| 人妻少妇| 五月天中文字幕mv在线| 国产99视频精品免费视频6| 少妇一晚三次一区二区三区| 人妻第一页| 人人看av日韩国产| 亚洲精品aa| 精品人妻无码中文内容| 德江县| 欧美成人综合| 久久老司机视频| 91人人操|