<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      1.5B模型新SOTA,RL訓練新解法打破「簡單題過擬合、難題學不動」

      0
      分享至



      QuestA(問題增強)引入了一種方法,用于提升強化學習中的推理能力。通過在訓練過程中注入部分解題提示,QuestA 實現兩項重大成果:

      Pass@1 的 SOTA 性能:在 1.5B 模型上實現了最先進的結果,甚至在關鍵基準測試中超越了早期的 32B 模型。
      提升 Pass@k:在提高 Pass@1 的同時,QuestA 不會降低 Pass@k 性能 —— 事實上,它通過讓模型在多次嘗試中進行更有效的推理,從而提升了模型能力。

      這一在強化學習訓練中的發現,為開發具有更強推理能力的模型打開了大門。QuestA 使 RL 能夠高效處理不同難度的任務,消除了通常在簡單與困難問題之間存在的權衡。

      兩難:簡單任務導致熵坍縮 vs. 難任務減緩學習效率

      多年來,RL 訓練一直存在一個需要思考的數據平衡問題:簡單任務導致模型過度自信,而難任務提高推理能力,但由于樣本效率低下,學習速度變慢。

      • 簡單任務傾向于使模型過擬合,使其在特定、更簡單的問題上非常準確。然而,這導致模型變得過度自信,從而妨礙了其泛化能力,難以解決更復雜的任務。
      • 難任務提高了模型的推理能力,但具有低樣本效率,這意味著它需要更長的時間來學習和進展。稀疏的獎勵和任務的難度使得在困難問題上的訓練變得緩慢,限制了整體的學習速度。

      這個權衡一直是 RL 模型的挑戰,近日清華大學、上海期智研究院、Amazon 和斯坦福大學等機構提出的QuestA 解決了這個問題。通過在訓練困難任務時引入部分解決方案提示,QuestA 幫助模型更快地學習,同時不犧牲在簡單任務上的表現。這確保了模型能夠從簡單任務和難任務中獲益,提升其推理能力,同時避免過擬合或學習緩慢。



      • 論文標題:QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation
      • Arxiv 論文地址:https://www.arxiv.org/abs/2507.13266
      • HF 模型地址:https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
      • GitHub 地址:https://github.com/foreverlasting1202/QuestA

      研究者得出的關鍵結果是:強化學習可以提升模型能力。具體而言,QuestA 取得了以下顯著成果:

      1. Pass@1 改進:QuestA 顯著提高了Pass@1。研究者在使用 1.5B 參數模型的數學基準測試中達到了新的最先進結果:在 AIME24 上達到 72.50%(+10.73%),在 AIME25 上達到 62.29%(+12.79%),在 HMMT25 上達到 41.67%(+10.11%),甚至超越了DeepSeek-R1-Distill-32B,盡管它是一個更小的模型。這表明 QuestA 顯著提高了模型在平時使用中的表現。
      2. Pass@k 改進:與傳統的 RL 方法不同,QuestA 還提高了Pass@k,展示了模型的容量隨著 RL 訓練的進行而增加。這是一個關鍵的區別,因為它表明 QuestA 使得模型能夠持續進行探索和推理,而不像其他方法,在優化Pass@1時Pass@k性能會下降。

      X上有人評價稱,QuestA 是一種巧妙的數據增強方法,不僅加速了 pass@1 的改進,還保持/增強了pass@k,并且沒有多樣性損失。這是 1.5B 推理模型的新SOTA。



      QuestA 方法:提示即所需

      QuestA 通過「數據增強 + 迭代課程學習」的組合設計,實現對 RL 訓練的高效改進,核心邏輯如下:

      1. 聚焦高難度問題:采用兩階段過濾流程篩選訓練數據 —— 首先以 DeepSeek-R1-Distill-1.5B 為篩選模型,從 OpenR1-Math-220K 數據集中選出僅 0-1 次正確(8 次采樣)的 26K 高難度樣本;再對增強后的提示詞進行二次篩選,保留模型仍難以正確解答(0-4 次正確)的樣本,最終聚焦不超過 10K 的核心困難任務,確保訓練資源用在能力突破點上。
      2. 動態調整提示比例:為避免模型依賴提示,QuestA 設計迭代式課程學習 —— 先以 50% 比例的部分解決方案作為提示(p=50%)訓練至性能飽和,再將提示比例降至 25%(p=25%)繼續訓練,逐步引導模型從「依賴提示」過渡到 “自主推理”,實現能力的真實遷移。
      3. 輕量化集成 RL:QuestA 無需修改 RL 算法核心或獎勵函數,僅通過替換訓練數據(用增強提示詞替代原始提示詞)即可集成至現有 RL pipeline(如 GRPO、DAPO),具備「即插即用」的靈活性。



      QuestA 通過在數據集中每個原始問題前添加部分解決方案提示,對原始問題進行增強處理。



      圖 1: QuestA 是一種數據增強方法,通過注入部分解決方案,為強化學習(RL)在復雜推理問題上的訓練提供有效支撐。研究者基于 OpenR1 中的高難度樣本,構建了 2.6 萬個高質量增強提示詞(augmented prompts),并采用 32K 上下文長度的強化學習對模型進行微調。將該方法應用于 Nemotron-1.5B 模型后,QuestA 帶來了顯著的性能提升 —— 在所有數學基準測試中,均為 15 億參數模型創下了新的當前最優(SOTA)結果。

      訓練細節

      研究者使用AReaLite框架進行 RL 訓練。

      具體而言,他們應用了 GRPO 算法,并結合了來自 DAPO 的動態過濾技術,以排除訓練中顯而易見正確或錯誤的樣本。這一優化幫助聚焦于最難的問題,提升了訓練效率。

      評估

      研究者在競爭級數學基準測試上評估了 Pass@1(32 個樣本的平均值)。QuestA-Nemotron-1.5B 在 1.5B 模型中達到了最先進水平,并在多個基準測試中匹配或超過了DeepSeek-R1-Distill-32B,同時其模型體積小于20×。



      核心差異點:實現真實能力提升,而非熵坍縮

      實驗結果表明,QuestA 方法在提升模型推理能力的同時,并未損害其多樣性。如圖 2 所示,即便在問題難度持續增加的情況下,Pass@k曲線仍呈現出穩定的上升趨勢。



      圖 2:研究者比較了使用 RLVR 訓練的模型在有和沒有 QuestA 的情況下的 pass@k 曲線。作為對照實驗,我們使用易難不同的提示進行 RL 訓練。標準 RL 在易提示下(紅色)隨著 k 值增大,pass@k 顯著下降,而與基準模型(藍色)相比,表現較差。在難提示下訓練(綠色)能夠提高 pass@k,但代價是訓練時間顯著增加。這激發了他們開發 QuestA 的動機,QuestA 通過為困難問題提供框架,提升了訓練效率,并且在所有 k 值下提供了更強的結果:RL+QuestA 模型(橙色)在所有 k 值上都優于標準 RL(紅色),同時在較大的 k 值下相較于使用困難提示訓練的 RL 模型,性能也保持或有所提升。

      消融實驗

      QuestA 同時也在不同的基礎模型和不同的數據集進行了實驗,都讓模型得到了相應幅度的提升,這證明了 QuestA 這個方法的泛用性。具體細節參考 Arxiv 文章。

      結論:QuestA 方法彰顯強化學習在推理任務中的更大應用潛力

      QuestA 方法的研究結果表明,強化學習確實能夠助力模型習得新能力。通過同時提升Pass@1與Pass@k指標的性能表現,該方法證實:強化學習可在不犧牲效率與泛化能力的前提下,持續拓展模型的能力邊界。

      此外,QuestA 方法有效消除了傳統訓練中簡單任務與復雜任務之間的權衡矛盾,使模型能夠在涵蓋廣泛問題類型的場景下,實現推理能力的極大提升。


      這一技術突破對強化學習未來的應用發展具有深遠意義。依托 QuestA 方法,我們期待基于強化學習構建的模型如今可處理更多復雜且多樣的推理任務,其應用場景已從數學問題求解延伸至邏輯推理及創造性思維等領域。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      反擊戰名將廖錫龍:堅持舉報總后勤部副部長谷俊山,結果如何?

      反擊戰名將廖錫龍:堅持舉報總后勤部副部長谷俊山,結果如何?

      大運河時空
      2025-12-16 07:40:03
      沒有陽剛之氣就別演“大俠”,《鏢人》中謝霆鋒,給內娛上了一課

      沒有陽剛之氣就別演“大俠”,《鏢人》中謝霆鋒,給內娛上了一課

      糊咖娛樂
      2026-01-22 11:48:48
      詹姆斯27+15丟絕平三分天津惜敗吉林 姜偉澤助攻超朱芳雨

      詹姆斯27+15丟絕平三分天津惜敗吉林 姜偉澤助攻超朱芳雨

      醉臥浮生
      2026-01-24 21:32:56
      委內瑞拉民眾示威要求釋放馬杜羅

      委內瑞拉民眾示威要求釋放馬杜羅

      參考消息
      2026-01-24 11:54:04
      央視曝光“毒蔬菜”!0.08克便可致器官衰竭,已流竄到全國多地

      央視曝光“毒蔬菜”!0.08克便可致器官衰竭,已流竄到全國多地

      夢史
      2026-01-23 10:20:41
      全網尋鞋!男子坐臥鋪時鞋被穿錯,一只斯凱奇變Prada:新鞋第一次穿就丟了,希望能找回

      全網尋鞋!男子坐臥鋪時鞋被穿錯,一只斯凱奇變Prada:新鞋第一次穿就丟了,希望能找回

      魯中晨報
      2026-01-24 17:23:25
      株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

      株洲殺豬宴失控!央視新華社接連怒批,句句戳心窩,這下麻煩大了

      阿纂看事
      2026-01-24 15:49:11
      天津明天下雪!還有大風降溫

      天津明天下雪!還有大風降溫

      魯中晨報
      2026-01-24 19:19:04
      《紅樓夢》賈元春到底犯了什么錯?省親后就被太監用弓弦勒死了

      《紅樓夢》賈元春到底犯了什么錯?省親后就被太監用弓弦勒死了

      談史論天地
      2026-01-24 10:27:41
      反轉,官方確認董路直播違法,最高面臨1.6億元罰款,董路麻煩了

      反轉,官方確認董路直播違法,最高面臨1.6億元罰款,董路麻煩了

      體壇風之子
      2026-01-24 04:30:02
      老婆漂亮有多重要?這些長相平平的男明星,生的兒子顏值終于翻盤

      老婆漂亮有多重要?這些長相平平的男明星,生的兒子顏值終于翻盤

      大鐵貓娛樂
      2026-01-24 16:10:02
      1996年, 施瓦辛格在家中無事,和35歲200斤女傭發生不當關系

      1996年, 施瓦辛格在家中無事,和35歲200斤女傭發生不當關系

      南權先生
      2026-01-20 15:49:53
      最新任命!江蘇海洋大學黨委書記許峰轉任省教育廳副廳長(正廳級)!曾任河海大學黨委常委、副校長

      最新任命!江蘇海洋大學黨委書記許峰轉任省教育廳副廳長(正廳級)!曾任河海大學黨委常委、副校長

      海洋知圈
      2026-01-24 21:30:01
      很多中國人并不知道,高學歷的華人在美國根本就沒出路!

      很多中國人并不知道,高學歷的華人在美國根本就沒出路!

      達文西看世界
      2026-01-24 15:28:50
      李步云先生遺體告別儀式明舉行

      李步云先生遺體告別儀式明舉行

      雄韜視線
      2026-01-24 02:29:32
      欲給嫣然醫院捐2600萬卻被李亞鵬“砍”至500萬,捐款人發聲:被李亞鵬感動,沒想到捐款還有人砍價的

      欲給嫣然醫院捐2600萬卻被李亞鵬“砍”至500萬,捐款人發聲:被李亞鵬感動,沒想到捐款還有人砍價的

      極目新聞
      2026-01-23 21:26:47
      沒談攏就掀桌?當著全世界的面,印度喊出一句話,中方一點沒慣著

      沒談攏就掀桌?當著全世界的面,印度喊出一句話,中方一點沒慣著

      通文知史
      2026-01-23 20:00:03
      云南毒紅薯升級!調查組介入,網友扒出黑幕,難怪商戶敢主動投毒

      云南毒紅薯升級!調查組介入,網友扒出黑幕,難怪商戶敢主動投毒

      阿纂看事
      2026-01-24 14:51:02
      剛剛,晚間16家公司出現重大利空公告,有沒有與你相關的個股?

      剛剛,晚間16家公司出現重大利空公告,有沒有與你相關的個股?

      股市皆大事
      2026-01-24 16:59:35
      胡春華發表署名文章

      胡春華發表署名文章

      社評
      2025-10-31 10:11:37
      2026-01-24 22:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      被雪豹咬傷女子從急診轉出 目擊者:她沒有去摸豹子

      頭條要聞

      被雪豹咬傷女子從急診轉出 目擊者:她沒有去摸豹子

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      本地
      游戲
      教育
      家居
      軍事航空

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      大錘要做武術題材《使命召喚》?又是工作經歷暴露!

      教育要聞

      傅佩榮:陪伴變監工,放養又不敢,當代父母養娃焦慮,看完就好了

      家居要聞

      在家度假 160平南洋混搭宅

      軍事要聞

      俄美烏首次三方會談在阿聯酋舉行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av无码免费在线观看| 亚洲成av人片天堂网无码| 亚洲欧美综合| 人妻无码综合| 加勒比中文无码久久综合色| 国产极品高颜值美女在线| 女人夜夜春高潮爽a∨片传媒| 超碰免费公开| 国产成人专区| 亚洲色欲网| 久久综合亚洲色一区二区三区| 高淳县| 人妻丝袜一区| 久久男人av资源站| 国模av在线| 中文字幕无码无码专区| 97人妻碰碰视频免费上线| 日韩成人无码毛片| 国产精品久久久久久久专区| av一本久道久久波多野结衣| 国产又色又刺激高潮视频| 97精品视频| 国产av一区二区久久蜜臀| 亚洲国产精品一区二区久久| jizzjizz亚洲| 国产l精品国产亚洲区| 国产精品无码永久免费A片| 337p粉嫩大胆噜噜噜| 中文字幕亚洲天堂| 亚洲精品一二三四| 久久久精品94久久精品| 亚洲免费成年女性毛视频| 亚洲а∨天堂久久精品9966 | 玉树县| 国产精品成人国产乱| 一级黄视频| 中文字幕av无码一区二区三区电影| 亚洲国产欧美在线人成AAAA| 欧美视频精品免费覌看| 亚洲高清日韩heyzo| 欧美视频一区|