網易首頁 > 網易號 > 正文申請入駐

港科大&英偉達提出NewtonBench：「平行宇宙」評估大模型發現能力

2025-10-15 13:47:51　來源: ScienceAI

北京舉報

分享至

作者 | 論文團隊

編輯 | ScienceAI

隨著大語言模型（Large Language Models, LLMs）推理能力的提升，其在自動化科學發現（Automatic Scientific Discovery）領域的潛力也引發了學術界與公眾的廣泛關注。AI 領域知名學者何愷明曾在一次訪談中提出一個引人深思的問題：「以當前大模型的智能水平，若將其置于牛頓時代，它能否獨立發現牛頓物理定律？」

然而，評估這種能力面臨諸多挑戰。首先，現實世界中的科學定律已廣泛存在于大模型的訓練語料中，直接評估難以避免數據泄漏問題。其次，當前的評估方法通常依賴于在靜態數據表格中歸納等式，無法真實反映實際科研中通過設計實驗獲取數據以進行探索性研究的本質。

為此，來自香港科技大學和英偉達的研究者提出了 NewtonBench—— 一個具備強泛化能力、旨在模擬真實實驗探索環境的科學定律發現基準（Scientific Law Discovery Benchmark）。

論文地址：https://arxiv.org/pdf/2510.07172

代碼地址：https://github.com/HKUST-KnowComp/NewtonBench

NewtonBench 覆蓋了 12 個物理領域，其核心創新在于通過「形而上學變換（metaphysical shift）」將已知物理定律轉換為全新的定律，從而有效規避了數據泄漏問題，能夠更真實地評估大模型的原始推理能力。

此外，NewtonBench 為每個物理定律的發現過程提供了沙盒化的實驗環境。大模型可以在其中自主設定實驗參數，執行不同復雜度的實驗任務，并從環境中獲取反饋數據。這種高度模擬真實科學研究流程的設計，顯著提升了評估結果的實際意義。

該研究對 11 個領先的大語言模型進行了基準測試，包括 GPT-5、Gemini-2.5-Pro、DeepSeek-R1 和 Qwen-3-235B 等。

評測結果顯示，非推理模型（如 GPT-4.1、DeepSeek-V3）表現普遍不佳。而推理模型（如 GPT-5、DeepSeek-R1）則展現出顯著差異。在復雜實驗環境下，表現最優的 GPT-5 和 Gemini-2.5-Pro 的定律發現準確率分別為 29.9% 和 13.9%，而其他模型的準確率均低于 5%。這充分凸顯了強大的推理能力對于科學定律發現的關鍵作用。

研究還深入分析發現，為模型額外提供代碼解釋器工具（Code Interpreter Tool）可以幫助能力較弱的模型突破計算瓶頸，但可能導致能力較強的模型產生過度依賴，反而抑制其自主探索的效率。

目前，NewtonBench 的評測數據集與評測代碼已全部開源。

NewtonBench 基準構建

物理法則構建

NewtonBench 包含 324 個物理定律發現任務，覆蓋力學、電磁學、熱力學等 12 個物理領域。其核心構建方法是：以真實物理定律為基礎，在「形而上學變換（metaphysical shift）」框架下，通過等式變換操作（mutation operation）生成衍生定律。根據變換步驟的復雜度及其引入的泛化需求，任務被劃分為簡單、中等、困難三個難度等級。

實驗環境構建

對于每個物理定律，NewtonBench 提供三種不同復雜度的實驗環境。在簡單實驗環境中，實驗的輸入與輸出參數完全對齊目標物理定律的表達形式，接近于理想的符號回歸（symbolic regression）場景。而在中等及復雜難度環境中，目標物理定律僅隱含于部分實驗數據中。例如：要求模型通過兩個小球沿直線相向運動的觀測數據，推導出引力與距離、質量的函數關系。

大模型可通過函數調用（function calling）機制執行實驗操作，并從環境動態獲取實驗結果。模型最多可進行 10 輪實驗交互，最終需提交其推導出的物理定律表達式。

實驗結果

研究人員對 11 個前沿大語言模型進行了系統評測，采用符號準確率（Symbolic Accuracy）和均方根對數誤差（Root Mean Squared Logarithmic Error, RMSLE）作為核心評估指標。實驗結果表明：

1.非推理模型整體表現欠佳，即使在最簡單的實驗設定下，其符號準確率也僅處于 20%-50% 的區間；

2.推理模型（如 GPT-5、DeepSeek-R1）憑借其強大的復雜推理與數學運算能力，在簡單場景下的符號準確率普遍突破 80%；

3. 隨著實驗復雜度提升，推理模型間的性能差距顯著擴大。在最具挑戰性的「困難定律 + 復雜實驗」場景下：

性能領先的 GPT-5 和 Gemini-2.5-Pro 符號準確率分別僅為 29.9% 和 13.9%；
其余模型的準確率均低于 5%，顯示出任務難度的陡增特性。

值得注意的是，代碼執行工具的輔助效果呈現出顯著的分化現象：

對于較弱模型（符號準確率 < 40%），代碼工具可帶來顯著性能提升；
然而對于較強模型，代碼輔助均產生負面效應。

這一矛盾現象促使研究人員開展了深度歸因分析。

代碼輔助效果分析

研究人員選取了四個代表性模型（GPT-4.1、Qwen-3-235B、Gemini-2.5-Flash、GPT-5-Mini），通過控制代碼調用權限數量展開對比實驗。結果顯示，當兩個高性能模型初步獲得代碼權限時，準確率均出現顯著下滑。進一步分析模型決策文本中的探索（exploration）與利用（exploitation）關鍵詞頻發現：性能驟降的 Gemini-2.5-Flash 在使用代碼后，探索類詞匯出現頻率急劇下降；而受益于代碼輔助的 Qwen-3-235B 則保持穩定的探索傾向。這表明代碼工具的引入導致部分模型發生推理范式偏移 —— 從開放探索轉向對代碼工具的過度依賴，最終削弱其定律發現能力。

此外，研究人員深度解析了 GPT-4.1 與 GPT-5-Mini 的代碼使用模式。在 GPT-4.1 中，45.4% 的代碼調用集中于數值計算環節，而該比例在 GPT-5-Mini 中降至 16.5%。與之形成鮮明對比的是，GPT-5-Mini 將 69.4% 的代碼資源投入函數擬合（function fitting）過程。這一發現印證了核心觀點：對于基礎模型，代碼工具有效突破其計算瓶頸；但高性能模型將其大量用于快速獲取局部最優解，反而抑制了對全局最優定律的探索空間。

總結

NewtonBench 的評測結果系統揭示了當前大模型科學發現能力的核心瓶頸：前沿推理模型雖能推演預設場景中的已知定律變體，但其泛化能力在面對復雜物理定律及實驗環境時呈現系統性衰減。

尤為關鍵的是，代碼工具在輔助基礎模型突破計算瓶頸的同時，卻顯著抑制了高性能模型（如 GPT-5 等）的自主探索傾向，致使其陷入局部最優陷阱。這充分表明，現有 AI 的科學發現能力存在內在脆弱性且易受工具范式干擾。

未來研究亟需構建可動態平衡探索與利用的認知架構，并將評估體系拓展至真實科研流程模擬 —— 涵蓋未知定律發現、動態實驗設計及可證偽性驗證，方有望鍛造出具備本征科學智能的新一代人工智能系統。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.