<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      1.5B模型新SOTA,RL訓(xùn)練新解法打破「簡(jiǎn)單題過(guò)擬合、難題學(xué)不動(dòng)」

      0
      分享至



      QuestA(問(wèn)題增強(qiáng))引入了一種方法,用于提升強(qiáng)化學(xué)習(xí)中的推理能力。通過(guò)在訓(xùn)練過(guò)程中注入部分解題提示,QuestA 實(shí)現(xiàn)兩項(xiàng)重大成果:

      Pass@1 的 SOTA 性能:在 1.5B 模型上實(shí)現(xiàn)了最先進(jìn)的結(jié)果,甚至在關(guān)鍵基準(zhǔn)測(cè)試中超越了早期的 32B 模型。
      提升 Pass@k:在提高 Pass@1 的同時(shí),QuestA 不會(huì)降低 Pass@k 性能 —— 事實(shí)上,它通過(guò)讓模型在多次嘗試中進(jìn)行更有效的推理,從而提升了模型能力。

      這一在強(qiáng)化學(xué)習(xí)訓(xùn)練中的發(fā)現(xiàn),為開(kāi)發(fā)具有更強(qiáng)推理能力的模型打開(kāi)了大門。QuestA 使 RL 能夠高效處理不同難度的任務(wù),消除了通常在簡(jiǎn)單與困難問(wèn)題之間存在的權(quán)衡。

      兩難:簡(jiǎn)單任務(wù)導(dǎo)致熵坍縮 vs. 難任務(wù)減緩學(xué)習(xí)效率

      多年來(lái),RL 訓(xùn)練一直存在一個(gè)需要思考的數(shù)據(jù)平衡問(wèn)題:簡(jiǎn)單任務(wù)導(dǎo)致模型過(guò)度自信,而難任務(wù)提高推理能力,但由于樣本效率低下,學(xué)習(xí)速度變慢。

      • 簡(jiǎn)單任務(wù)傾向于使模型過(guò)擬合,使其在特定、更簡(jiǎn)單的問(wèn)題上非常準(zhǔn)確。然而,這導(dǎo)致模型變得過(guò)度自信,從而妨礙了其泛化能力,難以解決更復(fù)雜的任務(wù)。
      • 難任務(wù)提高了模型的推理能力,但具有低樣本效率,這意味著它需要更長(zhǎng)的時(shí)間來(lái)學(xué)習(xí)和進(jìn)展。稀疏的獎(jiǎng)勵(lì)和任務(wù)的難度使得在困難問(wèn)題上的訓(xùn)練變得緩慢,限制了整體的學(xué)習(xí)速度。

      這個(gè)權(quán)衡一直是 RL 模型的挑戰(zhàn),近日清華大學(xué)、上海期智研究院、Amazon 和斯坦福大學(xué)等機(jī)構(gòu)提出的QuestA 解決了這個(gè)問(wèn)題。通過(guò)在訓(xùn)練困難任務(wù)時(shí)引入部分解決方案提示,QuestA 幫助模型更快地學(xué)習(xí),同時(shí)不犧牲在簡(jiǎn)單任務(wù)上的表現(xiàn)。這確保了模型能夠從簡(jiǎn)單任務(wù)和難任務(wù)中獲益,提升其推理能力,同時(shí)避免過(guò)擬合或?qū)W習(xí)緩慢。



      • 論文標(biāo)題:QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation
      • Arxiv 論文地址:https://www.arxiv.org/abs/2507.13266
      • HF 模型地址:https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
      • GitHub 地址:https://github.com/foreverlasting1202/QuestA

      研究者得出的關(guān)鍵結(jié)果是:強(qiáng)化學(xué)習(xí)可以提升模型能力。具體而言,QuestA 取得了以下顯著成果:

      1. Pass@1 改進(jìn):QuestA 顯著提高了Pass@1。研究者在使用 1.5B 參數(shù)模型的數(shù)學(xué)基準(zhǔn)測(cè)試中達(dá)到了新的最先進(jìn)結(jié)果:在 AIME24 上達(dá)到 72.50%(+10.73%),在 AIME25 上達(dá)到 62.29%(+12.79%),在 HMMT25 上達(dá)到 41.67%(+10.11%),甚至超越了DeepSeek-R1-Distill-32B,盡管它是一個(gè)更小的模型。這表明 QuestA 顯著提高了模型在平時(shí)使用中的表現(xiàn)。
      2. Pass@k 改進(jìn):與傳統(tǒng)的 RL 方法不同,QuestA 還提高了Pass@k,展示了模型的容量隨著 RL 訓(xùn)練的進(jìn)行而增加。這是一個(gè)關(guān)鍵的區(qū)別,因?yàn)樗砻?QuestA 使得模型能夠持續(xù)進(jìn)行探索和推理,而不像其他方法,在優(yōu)化Pass@1時(shí)Pass@k性能會(huì)下降。

      X上有人評(píng)價(jià)稱,QuestA 是一種巧妙的數(shù)據(jù)增強(qiáng)方法,不僅加速了 pass@1 的改進(jìn),還保持/增強(qiáng)了pass@k,并且沒(méi)有多樣性損失。這是 1.5B 推理模型的新SOTA。



      QuestA 方法:提示即所需

      QuestA 通過(guò)「數(shù)據(jù)增強(qiáng) + 迭代課程學(xué)習(xí)」的組合設(shè)計(jì),實(shí)現(xiàn)對(duì) RL 訓(xùn)練的高效改進(jìn),核心邏輯如下:

      1. 聚焦高難度問(wèn)題:采用兩階段過(guò)濾流程篩選訓(xùn)練數(shù)據(jù) —— 首先以 DeepSeek-R1-Distill-1.5B 為篩選模型,從 OpenR1-Math-220K 數(shù)據(jù)集中選出僅 0-1 次正確(8 次采樣)的 26K 高難度樣本;再對(duì)增強(qiáng)后的提示詞進(jìn)行二次篩選,保留模型仍難以正確解答(0-4 次正確)的樣本,最終聚焦不超過(guò) 10K 的核心困難任務(wù),確保訓(xùn)練資源用在能力突破點(diǎn)上。
      2. 動(dòng)態(tài)調(diào)整提示比例:為避免模型依賴提示,QuestA 設(shè)計(jì)迭代式課程學(xué)習(xí) —— 先以 50% 比例的部分解決方案作為提示(p=50%)訓(xùn)練至性能飽和,再將提示比例降至 25%(p=25%)繼續(xù)訓(xùn)練,逐步引導(dǎo)模型從「依賴提示」過(guò)渡到 “自主推理”,實(shí)現(xiàn)能力的真實(shí)遷移。
      3. 輕量化集成 RL:QuestA 無(wú)需修改 RL 算法核心或獎(jiǎng)勵(lì)函數(shù),僅通過(guò)替換訓(xùn)練數(shù)據(jù)(用增強(qiáng)提示詞替代原始提示詞)即可集成至現(xiàn)有 RL pipeline(如 GRPO、DAPO),具備「即插即用」的靈活性。



      QuestA 通過(guò)在數(shù)據(jù)集中每個(gè)原始問(wèn)題前添加部分解決方案提示,對(duì)原始問(wèn)題進(jìn)行增強(qiáng)處理。



      圖 1: QuestA 是一種數(shù)據(jù)增強(qiáng)方法,通過(guò)注入部分解決方案,為強(qiáng)化學(xué)習(xí)(RL)在復(fù)雜推理問(wèn)題上的訓(xùn)練提供有效支撐。研究者基于 OpenR1 中的高難度樣本,構(gòu)建了 2.6 萬(wàn)個(gè)高質(zhì)量增強(qiáng)提示詞(augmented prompts),并采用 32K 上下文長(zhǎng)度的強(qiáng)化學(xué)習(xí)對(duì)模型進(jìn)行微調(diào)。將該方法應(yīng)用于 Nemotron-1.5B 模型后,QuestA 帶來(lái)了顯著的性能提升 —— 在所有數(shù)學(xué)基準(zhǔn)測(cè)試中,均為 15 億參數(shù)模型創(chuàng)下了新的當(dāng)前最優(yōu)(SOTA)結(jié)果。

      訓(xùn)練細(xì)節(jié)

      研究者使用AReaLite框架進(jìn)行 RL 訓(xùn)練。

      具體而言,他們應(yīng)用了 GRPO 算法,并結(jié)合了來(lái)自 DAPO 的動(dòng)態(tài)過(guò)濾技術(shù),以排除訓(xùn)練中顯而易見(jiàn)正確或錯(cuò)誤的樣本。這一優(yōu)化幫助聚焦于最難的問(wèn)題,提升了訓(xùn)練效率。

      評(píng)估

      研究者在競(jìng)爭(zhēng)級(jí)數(shù)學(xué)基準(zhǔn)測(cè)試上評(píng)估了 Pass@1(32 個(gè)樣本的平均值)。QuestA-Nemotron-1.5B 在 1.5B 模型中達(dá)到了最先進(jìn)水平,并在多個(gè)基準(zhǔn)測(cè)試中匹配或超過(guò)了DeepSeek-R1-Distill-32B,同時(shí)其模型體積小于20×。



      核心差異點(diǎn):實(shí)現(xiàn)真實(shí)能力提升,而非熵坍縮

      實(shí)驗(yàn)結(jié)果表明,QuestA 方法在提升模型推理能力的同時(shí),并未損害其多樣性。如圖 2 所示,即便在問(wèn)題難度持續(xù)增加的情況下,Pass@k曲線仍呈現(xiàn)出穩(wěn)定的上升趨勢(shì)。



      圖 2:研究者比較了使用 RLVR 訓(xùn)練的模型在有和沒(méi)有 QuestA 的情況下的 pass@k 曲線。作為對(duì)照實(shí)驗(yàn),我們使用易難不同的提示進(jìn)行 RL 訓(xùn)練。標(biāo)準(zhǔn) RL 在易提示下(紅色)隨著 k 值增大,pass@k 顯著下降,而與基準(zhǔn)模型(藍(lán)色)相比,表現(xiàn)較差。在難提示下訓(xùn)練(綠色)能夠提高 pass@k,但代價(jià)是訓(xùn)練時(shí)間顯著增加。這激發(fā)了他們開(kāi)發(fā) QuestA 的動(dòng)機(jī),QuestA 通過(guò)為困難問(wèn)題提供框架,提升了訓(xùn)練效率,并且在所有 k 值下提供了更強(qiáng)的結(jié)果:RL+QuestA 模型(橙色)在所有 k 值上都優(yōu)于標(biāo)準(zhǔn) RL(紅色),同時(shí)在較大的 k 值下相較于使用困難提示訓(xùn)練的 RL 模型,性能也保持或有所提升。

      消融實(shí)驗(yàn)

      QuestA 同時(shí)也在不同的基礎(chǔ)模型和不同的數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),都讓模型得到了相應(yīng)幅度的提升,這證明了 QuestA 這個(gè)方法的泛用性。具體細(xì)節(jié)參考 Arxiv 文章。

      結(jié)論:QuestA 方法彰顯強(qiáng)化學(xué)習(xí)在推理任務(wù)中的更大應(yīng)用潛力

      QuestA 方法的研究結(jié)果表明,強(qiáng)化學(xué)習(xí)確實(shí)能夠助力模型習(xí)得新能力。通過(guò)同時(shí)提升Pass@1與Pass@k指標(biāo)的性能表現(xiàn),該方法證實(shí):強(qiáng)化學(xué)習(xí)可在不犧牲效率與泛化能力的前提下,持續(xù)拓展模型的能力邊界。

      此外,QuestA 方法有效消除了傳統(tǒng)訓(xùn)練中簡(jiǎn)單任務(wù)與復(fù)雜任務(wù)之間的權(quán)衡矛盾,使模型能夠在涵蓋廣泛?jiǎn)栴}類型的場(chǎng)景下,實(shí)現(xiàn)推理能力的極大提升。


      這一技術(shù)突破對(duì)強(qiáng)化學(xué)習(xí)未來(lái)的應(yīng)用發(fā)展具有深遠(yuǎn)意義。依托 QuestA 方法,我們期待基于強(qiáng)化學(xué)習(xí)構(gòu)建的模型如今可處理更多復(fù)雜且多樣的推理任務(wù),其應(yīng)用場(chǎng)景已從數(shù)學(xué)問(wèn)題求解延伸至邏輯推理及創(chuàng)造性思維等領(lǐng)域。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      從法國(guó)走路到中國(guó)

      從法國(guó)走路到中國(guó)

      新民周刊
      2026-03-10 16:44:38
      伊朗德黑蘭突降“黑雨”!有民眾呼吸困難 喉嚨刺痛

      伊朗德黑蘭突降“黑雨”!有民眾呼吸困難 喉嚨刺痛

      閃電新聞
      2026-03-10 19:30:10
      全智賢狀態(tài)越來(lái)越差,外媒最新高清生圖崩了,狀態(tài)疲憊白頭發(fā)搶鏡

      全智賢狀態(tài)越來(lái)越差,外媒最新高清生圖崩了,狀態(tài)疲憊白頭發(fā)搶鏡

      萌神木木
      2026-03-10 21:07:10
      不要亂吃維生素了!美國(guó)研究:長(zhǎng)期吃復(fù)合維生素,或增加死亡風(fēng)險(xiǎn)

      不要亂吃維生素了!美國(guó)研究:長(zhǎng)期吃復(fù)合維生素,或增加死亡風(fēng)險(xiǎn)

      醫(yī)學(xué)原創(chuàng)故事會(huì)
      2026-03-10 15:34:04
      震驚!網(wǎng)傳50%已婚男人活成老婆的供養(yǎng)血包者,網(wǎng)友:至少90%吧

      震驚!網(wǎng)傳50%已婚男人活成老婆的供養(yǎng)血包者,網(wǎng)友:至少90%吧

      火山詩(shī)話
      2026-03-10 15:39:53
      第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導(dǎo)彈

      第十日中東戰(zhàn)況:第8名美軍陣亡,伊朗最厲害武器竟不是導(dǎo)彈

      裝甲鏟史官
      2026-03-10 14:12:51
      那道拿捏得極有尊嚴(yán)的“跪姿”!

      那道拿捏得極有尊嚴(yán)的“跪姿”!

      胖胖說(shuō)他不胖
      2026-03-10 13:06:38
      伊朗女足已乘機(jī)回國(guó)!登機(jī)時(shí)擁抱痛哭 至少1人拒離開(kāi)+2人最終留守

      伊朗女足已乘機(jī)回國(guó)!登機(jī)時(shí)擁抱痛哭 至少1人拒離開(kāi)+2人最終留守

      我愛(ài)英超
      2026-03-10 21:10:58
      男友父母1000萬(wàn)全款買房,女友加名被拒退婚,網(wǎng)友:算盤打得太響

      男友父母1000萬(wàn)全款買房,女友加名被拒退婚,網(wǎng)友:算盤打得太響

      川渝視覺(jué)
      2026-03-10 21:05:58
      證據(jù)確鑿!導(dǎo)致伊朗小學(xué)165人喪生的那枚導(dǎo)彈不是“戰(zhàn)斧”

      證據(jù)確鑿!導(dǎo)致伊朗小學(xué)165人喪生的那枚導(dǎo)彈不是“戰(zhàn)斧”

      山間聽(tīng)雨
      2026-03-10 22:09:43
      真相大白!王曼昱爆冷慘敗大藤沙月原因曝光,真不是打不過(guò)日本人

      真相大白!王曼昱爆冷慘敗大藤沙月原因曝光,真不是打不過(guò)日本人

      曹說(shuō)體育
      2026-03-10 15:24:12
      深圳上線“政務(wù)龍蝦”,卻被發(fā)現(xiàn)政務(wù)系統(tǒng)還在用IE瀏覽器,網(wǎng)友擔(dān)心信息遭泄露

      深圳上線“政務(wù)龍蝦”,卻被發(fā)現(xiàn)政務(wù)系統(tǒng)還在用IE瀏覽器,網(wǎng)友擔(dān)心信息遭泄露

      小蘿卜絲
      2026-03-10 17:33:28
      楊冪視后夢(mèng)碎了?《生萬(wàn)物》除女主之外全員拿獎(jiǎng),秦海璐缺席都有

      楊冪視后夢(mèng)碎了?《生萬(wàn)物》除女主之外全員拿獎(jiǎng),秦海璐缺席都有

      萌神木木
      2026-03-10 11:58:28
      央視推薦“沉睡湯”,我喝了15天,沾枕頭就睡到天亮!

      央視推薦“沉睡湯”,我喝了15天,沾枕頭就睡到天亮!

      新時(shí)代的兩性情感
      2026-03-09 19:18:07
      記者:又有3名伊朗女足球員脫離球隊(duì);伊朗足協(xié)主席敦促球員回國(guó)

      記者:又有3名伊朗女足球員脫離球隊(duì);伊朗足協(xié)主席敦促球員回國(guó)

      懂球帝
      2026-03-10 12:47:21
      伊朗女足抵達(dá)機(jī)場(chǎng)!球員被困車內(nèi)+發(fā)出求救信號(hào) 家人警告:別回來(lái)

      伊朗女足抵達(dá)機(jī)場(chǎng)!球員被困車內(nèi)+發(fā)出求救信號(hào) 家人警告:別回來(lái)

      念洲
      2026-03-10 19:45:58
      董明珠對(duì)農(nóng)民養(yǎng)老金問(wèn)題有多無(wú)知?

      董明珠對(duì)農(nóng)民養(yǎng)老金問(wèn)題有多無(wú)知?

      多村來(lái)信
      2026-03-10 15:06:06
      最先看到世界的波斯女足反水,摘掉了頭巾!

      最先看到世界的波斯女足反水,摘掉了頭巾!

      家傳編輯部
      2026-03-10 16:22:24
      不怕被報(bào)復(fù)?伊朗女足5人摘下頭巾!獲準(zhǔn)留在澳洲 球員家人遭逮捕

      不怕被報(bào)復(fù)?伊朗女足5人摘下頭巾!獲準(zhǔn)留在澳洲 球員家人遭逮捕

      念洲
      2026-03-10 07:46:07
      曝伊朗女足已正式登機(jī)離開(kāi)澳洲:多人落淚+反抗未果 有2人成功留下

      曝伊朗女足已正式登機(jī)離開(kāi)澳洲:多人落淚+反抗未果 有2人成功留下

      風(fēng)過(guò)鄉(xiāng)
      2026-03-10 21:14:19
      2026-03-11 03:28:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12467文章數(shù) 142581關(guān)注度
      往期回顧 全部

      科技要聞

      全民"養(yǎng)蝦"背后:大廠集體下場(chǎng)瘋狂賣Token

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

      頭條要聞

      伊朗新最高領(lǐng)袖在襲擊中受傷未公開(kāi)發(fā)表講話 官方回應(yīng)

      體育要聞

      加蘭沒(méi)那么差,但鱸魚(yú)會(huì)用嗎?

      娛樂(lè)要聞

      《逐玉》注水風(fēng)波升級(jí)!315評(píng)論區(qū)淪陷

      財(cái)經(jīng)要聞

      “龍蝦補(bǔ)貼”密集出爐 最高1000萬(wàn)!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      家居
      健康
      公開(kāi)課

      藝術(shù)要聞

      震撼!美國(guó)油畫家約書(shū)亞·拉洛克的作品讓人驚嘆不已!

      旅游要聞

      奇花藝境展推出多次打卡票種,滬上春日花事持續(xù)煥新

      家居要聞

      自然肌理 溫度質(zhì)感婚房

      轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版