<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      圖賓根大學揭示AI數學推理強化學習局限

      0
      分享至


      這項由德國圖賓根大學、圖賓根AI中心和馬克斯·普朗克智能系統研究所的Prasanna Mayilvahanan、Ricardo Dominguez-Olmedo、Thaddaus Wiedemer和Wieland Brendel等研究者共同完成的研究發表于2025年1月,論文編號為arXiv:2510.11653v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

      當我們談論人工智能的數學推理能力時,經常聽到一些令人振奮的消息:某個AI模型在數學競賽中取得了突破性成績,或者某種新的訓練方法讓機器的解題能力大幅提升。然而,這些看似輝煌的進步背后,可能隱藏著一個令人不安的真相。

      研究團隊發現了一個有趣的現象:當我們給現有的AI模型足夠多的嘗試機會時,比如讓它們對同一道數學題嘗試1024次,許多基礎模型其實已經能夠解決幾乎所有常用數學基準測試中的問題。這就像一個學生雖然第一次考試可能只考60分,但如果允許他考試1000多次,幾乎每道題他最終都能做對。

      這個發現揭示了當前AI數學推理領域的一個尷尬現實:那些被廣泛使用的強化學習訓練方法,實際上并沒有教會AI新的解題思路,而只是讓它們更善于找到那些本來就知道的答案。用一個形象的比喻來說,這就像一個木匠本來就有一把好刀,強化學習訓練只是讓他把刀磨得更鋒利,而不是教會他使用新的工具。

      為了驗證這個假設并推動真正的進步,研究團隊創建了一個名為MATH-Beyond(簡稱MATH-B)的全新數學基準測試。這個測試的設計理念很巧妙:它專門收集那些即使給現有開源模型1024次嘗試機會,它們依然無法解決的數學問題。

      構建這樣一個測試并不簡單。研究團隊首先從DAPO-Math-17K和DeepScaleR等數據集中篩選出53,682個候選問題。然后,他們像珠寶商挑選鉆石一樣,對這些問題進行了嚴格的質量篩選。他們去除了多項選擇題,清理了含有中文字符的問題,移除了需要參考外部圖像的題目,確保每個問題都是完整的、自包含的數學題。

      在篩選過程中,研究團隊還發現了數學驗證系統中的一些有趣問題。比如,有些驗證程序只會讀取答案中第一個或最后一個數字,而忽略了其他可能正確的答案;有些程序無法正確處理學生在解題過程中的修正,比如學生先寫了一個錯誤答案,然后改正了,但驗證程序可能仍然認為第一個答案是最終答案。這些看似微小的技術細節,實際上可能嚴重影響對AI數學能力的準確評估。

      為了確保問題的正確性,研究團隊還請來了"專家級裁判"——GPT-5-Mini和o4-mini-high這些頂級AI模型來驗證答案。只有當至少一個專家級模型能夠正確解答時,這道題才會被納入最終的測試集。

      經過層層篩選,最終的MATH-B測試包含了181個問題。這些問題在主題上與普通高中數學完全一致,涵蓋幾何、數論、代數等各個領域,但它們的特殊之處在于:即使是目前最強的開源基礎模型,在給予1024次嘗試機會的情況下,通過率也接近于零。

      研究團隊還從這181個問題中挑選出41個"終極難題",這些問題連所有被測試的基礎模型都無法解決。可以說,這41個問題代表了當前開源AI數學推理能力的絕對邊界。

      有趣的是,這些讓AI頭疼不已的問題,從人類的角度來看并不一定特別困難。研究團隊對問題進行了難度評估,發現大多數問題的人類難度評級只有4分(滿分10分),即使是那41個"終極難題",最高難度也只有6.5分。這揭示了一個重要現象:AI的困難和人類的困難是完全不同的概念。

      接下來,研究團隊用這個新的測試基準來評估各種經過強化學習訓練的AI模型。結果令人深思:那些在傳統基準測試中表現優異的強化學習模型,在MATH-B上的表現都相當糟糕。

      具體來說,基于DeepSeek-R1-Distill-Qwen2.5-1.5B訓練的三個強化學習模型,即使在1024次嘗試的情況下,也只能解決不到10%的測試問題。這就像一個在標準化考試中表現優秀的學生,面對稍微超出常規范圍的題目時就束手無策。

      不過,也有一些例外。Skywork-OR1-7B模型達到了21%的解題率,表現相對較好。研究團隊分析認為,這可能是因為該模型在訓練過程中采用了自適應熵控制和較高的溫度參數,這些技術手段鼓勵了更多的探索行為,而不是簡單地強化已有的解題模式。

      最令人印象深刻的對比來自Qwen3系列模型。Qwen3-4B和Qwen3-8B這兩個模型通過長推理鏈蒸餾訓練,在MATH-B上分別達到了58.93%和66.38%的解題率。這個結果特別有啟發性,因為它表明當AI模型能夠接觸到正確的推理步驟分布時,確實可以實現顯著的能力擴展。

      這就好比教一個學生解題:傳統的強化學習方法更像是告訴學生"這個答案對,那個答案錯",但沒有教會他新的解題思路;而長推理鏈蒸餾則像是讓學生觀看優秀教師的詳細解題過程,從中學習新的思維方法。

      研究團隊還深入分析了為什么選擇1024次嘗試作為評估標準。他們發現,雖然隨著嘗試次數增加,模型的整體成功率會持續提升,但邊際收益遞減效應非常明顯。到了1024次嘗試時,大多數模型的表現已經接近平臺期,繼續增加嘗試次數帶來的改進微乎其微。這說明1024次嘗試已經足夠充分地探索模型的能力邊界。

      這項研究對當前AI數學推理領域的發展具有重要意義。它揭示了一個不舒服的真相:許多看似先進的強化學習方法,實際上只是在優化已有能力的表達方式,而沒有真正擴展AI的推理邊界。這就像是把一個會騎自行車的人訓練得騎得更穩,而不是教會他開汽車。

      研究團隊認為,要實現真正的進步,AI研究需要從"強化已知"轉向"探索未知"。傳統的強化學習往往會讓模型在已知的解題路徑上越走越深,而真正需要的是鼓勵模型探索全新的推理方式。

      這種觀點挑戰了當前主流的研究方向。許多研究團隊專注于在現有基準測試上提升性能,但如果這些基準本身已經被現有模型"飽和",那么這種提升可能只是表面文章。MATH-B的出現,為研究者提供了一個真正具有挑戰性的測試平臺,迫使他們開發能夠突破現有邊界的新方法。

      從更廣泛的角度來看,這項研究也反映了人工智能發展中的一個普遍問題:如何區分真正的能力提升和表面的性能優化。在AI的許多應用領域,我們都可能面臨類似的困境:一個模型在訓練數據上表現優秀,但面對真正新穎的挑戰時卻顯得力不從心。

      研究團隊的工作還揭示了AI能力評估中的一些微妙之處。他們發現,不同的驗證方法可能導致完全不同的結論。一些看似嚴格的測試實際上可能存在系統性偏差,導致高估或低估模型的真實能力。這提醒我們,在評估AI系統時需要更加審慎和全面。

      值得注意的是,MATH-B雖然專門設計來"刁難"當前的AI模型,但它收錄的問題都是標準的高中數學內容,在主題和形式上與常見的數學競賽題目沒有本質區別。這說明真正的挑戰不在于問題的復雜性,而在于AI系統是否具備靈活應對變化的能力。

      這項研究的另一個重要貢獻是提出了一個明確的評估框架。研究團隊定義了"擴展率"這個概念,專門衡量一個經過訓練的模型相比其基礎版本究竟獲得了多少新能力。這個指標的價值在于,它能夠區分真正的能力擴展和簡單的性能優化。

      在傳統評估中,如果一個模型的整體準確率從70%提升到80%,我們可能會認為這是一個顯著的進步。但擴展率指標會進一步詢問:這10%的提升中,有多少來自于解決新問題的能力,有多少只是在原來能解決的問題上表現更穩定?這種細致的分析有助于研究者更準確地理解模型改進的本質。

      研究團隊也承認他們工作的一些局限性。MATH-B目前專門針對參數量在8B以下的開源模型設計,對于更大規模的模型可能不夠具有挑戰性。此外,數學推理只是AI能力的一個方面,在其他領域(如常識推理、創意寫作等)可能需要不同的評估方法。

      然而,這些局限性并不削弱這項工作的價值。相反,它為AI研究社區提供了一個重要的思考框架:我們究竟想要什么樣的AI進步?是滿足于在現有基準上的數字游戲,還是追求真正突破邊界的創新?

      從實際應用的角度來看,這項研究的啟示也很明確。如果我們希望AI系統能夠在現實世界中處理真正新穎的問題,就必須在訓練過程中引入真正的探索機制,而不是簡單地強化已有的模式。這可能需要重新思考強化學習的目標函數,或者開發全新的訓練范式。

      研究團隊已經將MATH-B公開發布,供全球研究者使用。他們希望這個工具能夠推動AI數學推理領域的真正進步,鼓勵研究者開發更具探索性的方法。正如科學研究中常見的情況,一個好的問題往往比答案更重要,而MATH-B正是這樣一個"好問題"的集合。

      說到底,這項研究提醒我們,在AI快速發展的時代,我們需要保持冷靜的判斷力。表面的性能提升并不總是意味著真正的進步,而真正的突破往往需要我們跳出舒適圈,面對那些讓我們感到不適的挑戰。MATH-B就是這樣一個不讓任何人舒適的挑戰,但正因如此,它可能成為推動AI數學推理真正進步的催化劑。對于那些真正關心AI發展方向的研究者和觀察者來說,關注這個領域如何回應MATH-B的挑戰,將是一件極有意義的事情。

      Q&A

      Q1:MATH-Beyond測試和普通數學測試有什么區別?

      A:MATH-Beyond專門收集了那些即使給AI模型1024次嘗試機會依然無法解決的數學問題。雖然這些題目在內容上都是標準的高中數學,但它們能夠暴露現有AI模型的真實能力邊界,而不像傳統測試那樣容易被現有模型"刷分"。

      Q2:為什么現有的強化學習方法在MATH-Beyond上表現這么差?

      A:研究發現,目前主流的強化學習方法主要是在"磨刀"而不是"換刀",也就是說它們只是讓AI在已知的解題思路上表現更好,而沒有教會AI新的推理方式。當面對超出原有能力范圍的問題時,這些方法就顯得力不從心了。

      Q3:這項研究對AI數學推理的發展有什么意義?

      A:這項研究揭示了當前AI數學推理領域的一個重要盲點,并提供了一個真正具有挑戰性的測試平臺。它推動研究者從追求表面的性能提升轉向開發能夠真正擴展AI推理邊界的新方法,這對整個領域的健康發展具有重要意義。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      損失1000萬!知名電競主播被綁架后報警,遭綁匪報復:裸照被曝光

      損失1000萬!知名電競主播被綁架后報警,遭綁匪報復:裸照被曝光

      念洲
      2025-12-10 08:03:45
      全球 TOP10 手機排名:iPhone 17 Pro Max 太恐怖了

      全球 TOP10 手機排名:iPhone 17 Pro Max 太恐怖了

      劉奔跑
      2025-12-09 23:39:02
      小心被打劫,火箭伊森惹多隊眼紅,聯盟三隊或將高價搶人

      小心被打劫,火箭伊森惹多隊眼紅,聯盟三隊或將高價搶人

      拾叁懂球
      2025-12-11 23:07:18
      釣魚佬的身份有多離譜?網友:我去釣魚碰到了市長,還請我吃楊梅

      釣魚佬的身份有多離譜?網友:我去釣魚碰到了市長,還請我吃楊梅

      另子維愛讀史
      2025-12-11 20:33:40
      出事了,美軍出動B52,高市已獲6國支持,中國罕見提醒特朗普

      出事了,美軍出動B52,高市已獲6國支持,中國罕見提醒特朗普

      丁丁鯉史紀
      2025-12-11 16:23:53
      出差回到家看見妻子頂著孕肚忙上忙下,我怒了:滾,給我滾出去。

      出差回到家看見妻子頂著孕肚忙上忙下,我怒了:滾,給我滾出去。

      施工員小天哥
      2025-12-10 20:31:23
      1.55米廣西“小孩姐”球技驚艷全網!面對記者采訪,她這樣說……

      1.55米廣西“小孩姐”球技驚艷全網!面對記者采訪,她這樣說……

      環球網資訊
      2025-12-11 17:40:07
      彭總在哈軍工用餐時,一學員同坐,責問陳賡:他有什么資格坐這?

      彭總在哈軍工用餐時,一學員同坐,責問陳賡:他有什么資格坐這?

      小豫講故事
      2025-12-11 06:00:10
      中組部明確:這八類人員列入公務員范圍!

      中組部明確:這八類人員列入公務員范圍!

      法律讀品
      2025-12-09 08:45:19
      全世界都在遞刀子,逼中國動手!這時候不打就是軟弱?錯!

      全世界都在遞刀子,逼中國動手!這時候不打就是軟弱?錯!

      我心縱橫天地間
      2025-12-08 15:26:20
      英媒:中國得謝謝特朗普,是他在東南亞,給中國出口找了條新活路

      英媒:中國得謝謝特朗普,是他在東南亞,給中國出口找了條新活路

      小青年淥淥
      2025-12-11 22:55:10
      本賽季歐冠迄今五大聯賽球隊積分:英超74分第一,意甲第二

      本賽季歐冠迄今五大聯賽球隊積分:英超74分第一,意甲第二

      懂球帝
      2025-12-11 11:53:26
      有些地方違規招引空殼企業搞開票經濟,稅務部門加大核查力度

      有些地方違規招引空殼企業搞開票經濟,稅務部門加大核查力度

      南方都市報
      2025-12-11 18:46:06
      記者:上海嘉定匯龍因中甲運營成本太高選擇搬遷至寧波

      記者:上海嘉定匯龍因中甲運營成本太高選擇搬遷至寧波

      懂球帝
      2025-12-11 18:04:20
      新賽季潘江指導太難了!山西男籃3大生死挑戰,全是高難度

      新賽季潘江指導太難了!山西男籃3大生死挑戰,全是高難度

      小犙拍客在北漂
      2025-12-12 01:46:24
      壞消息,扎克·拉文因拇指受傷將無法幫國王隊再次爆冷擊敗掘金

      壞消息,扎克·拉文因拇指受傷將無法幫國王隊再次爆冷擊敗掘金

      好火子
      2025-12-12 03:33:18
      再無翻身路,入獄4年吳亦凡又迎壞消息,王晶一句話點中塌房根源

      再無翻身路,入獄4年吳亦凡又迎壞消息,王晶一句話點中塌房根源

      冷紫葉
      2025-12-10 21:54:00
      羅翔談“吸毒是否入刑”

      羅翔談“吸毒是否入刑”

      南方都市報
      2025-12-11 13:18:20
      法國要重新開放妓院了?74%人支持:她們生活太難了,應該做自己的女王!

      法國要重新開放妓院了?74%人支持:她們生活太難了,應該做自己的女王!

      新歐洲
      2025-12-10 19:51:33
      絕了!臺灣頂級辣媽!果然是深藏不露

      絕了!臺灣頂級辣媽!果然是深藏不露

      吃瓜黨二號頭目
      2025-12-08 10:12:52
      2025-12-12 05:00:49
      至頂AI實驗室 incentive-icons
      至頂AI實驗室
      一個專注于探索生成式AI前沿技術及其應用的實驗室。
      751文章數 151關注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節!

      財經要聞

      明年經濟工作怎么干 中央經濟工作會議定調

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      家居
      手機
      數碼
      本地
      公開課

      家居要聞

      歐式風格 純粹優雅氣質

      手機要聞

      OPPO Reno15c現身,有望本月發布

      數碼要聞

      華為Sound X獲HarmonyOS 6.0 Beta升級,新增AI搜歌等功能

      本地新聞

      打工人夢想中的生活,寵物已經提前過上了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大胸少妇午夜三级| 久久精品女人的天堂av| 国产精品久久久久影院色| 蜜臂Av| 蓬莱市| 成熟女人特级毛片www免费| 日韩精品人妻中文字幕| 日韩激情无码免费毛片| 亚洲乱码中文字幕小综合 | 久久久久无码国产精品不卡| 国产人成亚洲第一网站在线播放| av动态| 成人色一区二区三区| 黑人巨茎大战白人美女| 五月av综合av国产av| 国产果冻豆传媒麻婆精东| 白人久久| 亚洲原创无码| 亚洲一区二区三区四区五区六| 亚洲AV网一区二区三区| 66精品人妻| 平泉县| 日本少妇xxx做受| 日韩无码一区二区三区四区| 精品国产成人a在线观看 | 亚洲高潮喷水无码AV电影| 日韩性色| 亚洲色欲精品综合网| 久无码久无码av无码| 亚洲区综合区小说区激情区| 精品国产国产2021| 人妻综合第一| 97久久超碰国产精品2021| 久久精品国产一区二区蜜芽| 上海av电影在线观看| 亚洲日本国产| 强行糟蹋人妻hd中文字幕| 男女性高爱潮免费网站| 色色91| 精品免费国产一区二区三区四区| 91偷拍视频|