<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      港科大&英偉達提出NewtonBench:「平行宇宙」評估大模型發現能力

      0
      分享至



      作者 | 論文團隊

      編輯 | ScienceAI

      隨著大語言模型(Large Language Models, LLMs)推理能力的提升,其在自動化科學發現(Automatic Scientific Discovery)領域的潛力也引發了學術界與公眾的廣泛關注。AI 領域知名學者何愷明曾在一次訪談中提出一個引人深思的問題:「以當前大模型的智能水平,若將其置于牛頓時代,它能否獨立發現牛頓物理定律?」

      然而,評估這種能力面臨諸多挑戰。首先,現實世界中的科學定律已廣泛存在于大模型的訓練語料中,直接評估難以避免數據泄漏問題。其次,當前的評估方法通常依賴于在靜態數據表格中歸納等式,無法真實反映實際科研中通過設計實驗獲取數據以進行探索性研究的本質。

      為此,來自香港科技大學和英偉達的研究者提出了 NewtonBench—— 一個具備強泛化能力、旨在模擬真實實驗探索環境的科學定律發現基準(Scientific Law Discovery Benchmark)。



      論文地址:https://arxiv.org/pdf/2510.07172

      代碼地址:https://github.com/HKUST-KnowComp/NewtonBench

      NewtonBench 覆蓋了 12 個物理領域,其核心創新在于通過「形而上學變換(metaphysical shift)」將已知物理定律轉換為全新的定律,從而有效規避了數據泄漏問題,能夠更真實地評估大模型的原始推理能力。

      此外,NewtonBench 為每個物理定律的發現過程提供了沙盒化的實驗環境。大模型可以在其中自主設定實驗參數,執行不同復雜度的實驗任務,并從環境中獲取反饋數據。這種高度模擬真實科學研究流程的設計,顯著提升了評估結果的實際意義。

      該研究對 11 個領先的大語言模型進行了基準測試,包括 GPT-5、Gemini-2.5-Pro、DeepSeek-R1 和 Qwen-3-235B 等。

      評測結果顯示,非推理模型(如 GPT-4.1、DeepSeek-V3)表現普遍不佳。而推理模型(如 GPT-5、DeepSeek-R1)則展現出顯著差異。在復雜實驗環境下,表現最優的 GPT-5 和 Gemini-2.5-Pro 的定律發現準確率分別為 29.9% 和 13.9%,而其他模型的準確率均低于 5%。這充分凸顯了強大的推理能力對于科學定律發現的關鍵作用。

      研究還深入分析發現,為模型額外提供代碼解釋器工具(Code Interpreter Tool) 可以幫助能力較弱的模型突破計算瓶頸,但可能導致能力較強的模型產生過度依賴,反而抑制其自主探索的效率。

      目前,NewtonBench 的評測數據集與評測代碼已全部開源。

      NewtonBench 基準構建

      物理法則構建

      NewtonBench 包含 324 個物理定律發現任務,覆蓋力學、電磁學、熱力學等 12 個物理領域。其核心構建方法是:以真實物理定律為基礎,在「形而上學變換(metaphysical shift)」框架下,通過等式變換操作(mutation operation)生成衍生定律。根據變換步驟的復雜度及其引入的泛化需求,任務被劃分為簡單、中等、困難三個難度等級。



      實驗環境構建

      對于每個物理定律,NewtonBench 提供三種不同復雜度的實驗環境。在簡單實驗環境中,實驗的輸入與輸出參數完全對齊目標物理定律的表達形式,接近于理想的符號回歸(symbolic regression) 場景。而在中等及復雜難度環境中,目標物理定律僅隱含于部分實驗數據中。例如:要求模型通過兩個小球沿直線相向運動的觀測數據,推導出引力與距離、質量的函數關系。

      大模型可通過函數調用(function calling)機制執行實驗操作,并從環境動態獲取實驗結果。模型最多可進行 10 輪實驗交互,最終需提交其推導出的物理定律表達式。



      實驗結果

      研究人員對 11 個前沿大語言模型 進行了系統評測,采用符號準確率(Symbolic Accuracy) 和 均方根對數誤差(Root Mean Squared Logarithmic Error, RMSLE) 作為核心評估指標。實驗結果表明:

      1.非推理模型整體表現欠佳,即使在最簡單的實驗設定下,其符號準確率也僅處于 20%-50% 的區間;

      2.推理模型(如 GPT-5、DeepSeek-R1)憑借其強大的復雜推理與數學運算能力,在簡單場景下的符號準確率普遍突破 80%;

      3. 隨著實驗復雜度提升,推理模型間的性能差距顯著擴大。在最具挑戰性的「困難定律 + 復雜實驗」場景下:

      • 性能領先的 GPT-5 和 Gemini-2.5-Pro 符號準確率分別僅為 29.9% 和 13.9%;
      • 其余模型的準確率均低于 5%,顯示出任務難度的陡增特性。



      值得注意的是,代碼執行工具的輔助效果呈現出顯著的分化現象:

      • 對于較弱模型(符號準確率 < 40%),代碼工具可帶來顯著性能提升;
      • 然而對于較強模型,代碼輔助均產生負面效應。

      這一矛盾現象促使研究人員開展了深度歸因分析。

      代碼輔助效果分析

      研究人員選取了四個代表性模型(GPT-4.1、Qwen-3-235B、Gemini-2.5-Flash、GPT-5-Mini),通過控制代碼調用權限數量展開對比實驗。結果顯示,當兩個高性能模型初步獲得代碼權限時,準確率均出現顯著下滑。進一步分析模型決策文本中的探索(exploration)與利用(exploitation)關鍵詞頻發現:性能驟降的 Gemini-2.5-Flash 在使用代碼后,探索類詞匯出現頻率急劇下降;而受益于代碼輔助的 Qwen-3-235B 則保持穩定的探索傾向。這表明代碼工具的引入導致部分模型發生推理范式偏移 —— 從開放探索轉向對代碼工具的過度依賴,最終削弱其定律發現能力。

      此外,研究人員深度解析了 GPT-4.1 與 GPT-5-Mini 的代碼使用模式。在 GPT-4.1 中,45.4% 的代碼調用集中于數值計算環節,而該比例在 GPT-5-Mini 中降至 16.5%。與之形成鮮明對比的是,GPT-5-Mini 將 69.4% 的代碼資源投入函數擬合(function fitting)過程。這一發現印證了核心觀點:對于基礎模型,代碼工具有效突破其計算瓶頸;但高性能模型將其大量用于快速獲取局部最優解,反而抑制了對全局最優定律的探索空間。



      總結

      NewtonBench 的評測結果系統揭示了當前大模型科學發現能力的核心瓶頸:前沿推理模型雖能推演預設場景中的已知定律變體,但其泛化能力在面對復雜物理定律及實驗環境時呈現系統性衰減。

      尤為關鍵的是,代碼工具在輔助基礎模型突破計算瓶頸的同時,卻顯著抑制了高性能模型(如 GPT-5 等)的自主探索傾向,致使其陷入局部最優陷阱。這充分表明,現有 AI 的科學發現能力存在內在脆弱性且易受工具范式干擾。

      未來研究亟需構建可動態平衡探索與利用的認知架構,并將評估體系拓展至真實科研流程模擬 —— 涵蓋未知定律發現、動態實驗設計及可證偽性驗證,方有望鍛造出具備本征科學智能的新一代人工智能系統。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      柬軍副司令被殺,4名將軍戰死:柬埔寨10萬大軍,2天就要戰敗了?

      柬軍副司令被殺,4名將軍戰死:柬埔寨10萬大軍,2天就要戰敗了?

      近史博覽
      2025-12-10 16:36:10
      混雙內戰太有趣!林詩棟隨意發言逗樂莎頭,莎莎滾網再引雙方歡笑

      混雙內戰太有趣!林詩棟隨意發言逗樂莎頭,莎莎滾網再引雙方歡笑

      細話籃球
      2025-12-11 16:45:26
      兩件事得罪中國,英國首相訪華行程黃了,中方已確認將其拒之門外

      兩件事得罪中國,英國首相訪華行程黃了,中方已確認將其拒之門外

      臨云史策
      2025-12-10 23:07:06
      弄虛作假,違規拿錢!央視點名張水華,扯下“最快護士”的遮羞布

      弄虛作假,違規拿錢!央視點名張水華,扯下“最快護士”的遮羞布

      千言娛樂記
      2025-12-11 23:15:37
      大家的經濟狀況有多糟?評論區讓你笑翻天!

      大家的經濟狀況有多糟?評論區讓你笑翻天!

      特約前排觀眾
      2025-12-01 00:10:04
      表演開始!兩周連升10位,穆里尼奧不只是神奇,還有知遇之恩

      表演開始!兩周連升10位,穆里尼奧不只是神奇,還有知遇之恩

      嗨皮看球
      2025-12-11 14:54:55
      討厭一個人,其實不用翻臉的,最有水平的處理方式是:森田理論

      討厭一個人,其實不用翻臉的,最有水平的處理方式是:森田理論

      德魯克博雅管理
      2025-12-09 17:05:19
      2026央視春晚剛組建,10對明星被“點名”登臺,誰是你所期待的?

      2026央視春晚剛組建,10對明星被“點名”登臺,誰是你所期待的?

      鑫鑫愛吃糖
      2025-12-11 17:13:27
      做好隨時失去一切的準備

      做好隨時失去一切的準備

      愛吃糖的貓cat
      2025-12-11 16:10:09
      毀三觀!河北女教師出軌,肉麻聊天記錄被男方妻子曝光,信息量大

      毀三觀!河北女教師出軌,肉麻聊天記錄被男方妻子曝光,信息量大

      行走的知識庫
      2025-12-11 10:18:44
      大爺花700萬買房,4年后才發現房子有地下室,走近卻愣住了

      大爺花700萬買房,4年后才發現房子有地下室,走近卻愣住了

      小秋情感說
      2025-12-11 13:51:27
      再貴也要吃!一潤肺,二化痰,三養胃,面色紅潤精神棒,別錯過!

      再貴也要吃!一潤肺,二化痰,三養胃,面色紅潤精神棒,別錯過!

      江江食研社
      2025-12-10 20:30:04
      再無翻身路,入獄4年吳亦凡又迎壞消息,王晶一句話點中塌房根源

      再無翻身路,入獄4年吳亦凡又迎壞消息,王晶一句話點中塌房根源

      冷紫葉
      2025-12-10 21:54:00
      韓國演藝界年末丑聞不斷,多名大咖因此隱退

      韓國演藝界年末丑聞不斷,多名大咖因此隱退

      iWeekly周末畫報
      2025-12-11 17:22:59
      2025年返鄉潮爆發!你猜誰是主力軍?

      2025年返鄉潮爆發!你猜誰是主力軍?

      老特有話說
      2025-12-11 22:43:07
      壞消息,扎克·拉文因拇指受傷將無法幫國王隊再次爆冷擊敗掘金

      壞消息,扎克·拉文因拇指受傷將無法幫國王隊再次爆冷擊敗掘金

      好火子
      2025-12-12 03:33:18
      人不會無故患甲流!研究發現:得甲流的人,大概離不開這6點

      人不會無故患甲流!研究發現:得甲流的人,大概離不開這6點

      寶哥精彩賽事
      2025-12-10 14:12:25
      杭州龍井路騎行者與黃麂相撞,雙雙受傷:夜騎小伙斷了2根骨頭,黃麂仍在全力救治

      杭州龍井路騎行者與黃麂相撞,雙雙受傷:夜騎小伙斷了2根骨頭,黃麂仍在全力救治

      極目新聞
      2025-12-11 08:58:49
      北京國安這場亞冠結束后,俱樂部應該慎重選擇個別球員去留問題

      北京國安這場亞冠結束后,俱樂部應該慎重選擇個別球員去留問題

      林子說事
      2025-12-12 01:21:59
      中國手機市場最新排名:華為被反超!

      中國手機市場最新排名:華為被反超!

      EETOP半導體社區
      2025-12-10 13:26:16
      2025-12-12 06:20:49
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1177文章數 220關注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節!

      財經要聞

      明年經濟工作怎么干 中央經濟工作會議定調

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      房產
      本地
      教育
      公開課
      軍事航空

      房產要聞

      成交量漲了!海口這10個小區,二手房最好賣!

      本地新聞

      打工人夢想中的生活,寵物已經提前過上了

      教育要聞

      烏蘭察布體校竟培養奧運選手!實力揭秘

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      泰國海軍做好戰爭準備 特朗普要電話調停泰柬沖突

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 五月天激情国产综合婷婷婷| 一区二区三区国产| 99热国产成人最新精品| 丰满人妻一区二区三区视频54| 精品尤物TV福利院在线网站| 91精品国产福利尤物免费| 人与禽交av在线播放| 久久天天躁夜夜躁狠狠| jizz国产| 无码人妻少妇| 69亚洲精品| 亚洲自拍制服| 欧美日韩精品一区二区在线播放| 亚洲3p| 性爱综合网| 南郑县| 精品久久久久久久久午夜福利 | 国产性夜夜春夜夜爽1a片| 无码人妻精品一区二| 精品国产人妻一区二区三区| 色综合久久网| 国产精品一区二区香蕉| 新妺妺窝人体色7777婷婷| 又白又嫩毛又多15p| 蒙阴县| 色欲AV无码一区二区人妻| 天天躁日日躁狠狠躁av麻豆男男| 亚洲每日更新| 精品成人av| 国产一区二区波多野结衣| 国产精品无需播放器在线观看| 免费无码专区毛片高潮喷水| 日韩精品久久久肉伦网站| 国产女人18毛片水真多1| 欧美精品亚洲精品日韩专| 亚洲男女羞羞无遮挡久久丫| 超级碰碰碰| 日韩无码2020| 亚洲大尺度无码无码专线| 无尺码精品产品日韩| 老熟妇仑乱一区二区视頻|