<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      兩個LLM互相對線,推理起飛:康奈爾團隊發(fā)布大模型版類GAN訓(xùn)練法

      0
      分享至



      大型語言模型(LLMs)雖然通過可驗證獎勵的強化學(xué)習(xí)(RLVR)取得了顯著進展,但仍然在很大程度上依賴外部監(jiān)督(例如人工標注的數(shù)據(jù))。自博弈(self-play)提供了一種有前景的替代方案,使模型能夠通過與自身反復(fù)對抗來學(xué)習(xí),從而減少對外部監(jiān)督的依賴。GAN 則提供了另一種更具吸引力的訓(xùn)練范式:通過對抗式地訓(xùn)練兩個模型,其中一個模型專注于生成具有挑戰(zhàn)性的任務(wù)或?qū)箻颖荆硪粋€模型則專注于解決這些任務(wù)。

      于是問題來了:LLM 是否也可以像 GAN 一樣進行訓(xùn)練?我們的希望是,通過賦予每個模型不同的專門化角色,可以促進持續(xù)的競爭與共同進化,從而讓它們能夠解決單一模型可能從根本上無法勝任的任務(wù)。

      為解決這一難題,來自康奈爾大學(xué)的 NLP 團隊提出了PasoDoble,一個面向大語言模型的全新類 GAN 訓(xùn)練框架。PasoDoble 通過對抗式地訓(xùn)練兩個幾乎相同的模型:Proposer 用于生成帶有標準答案的高難度問題,Solver 則嘗試解決這些問題。我們進一步利用高質(zhì)量的數(shù)學(xué)預(yù)訓(xùn)練語料,并引入離線訓(xùn)練范式,以緩解潛在的訓(xùn)練不穩(wěn)定性。值得注意的是,PasoDoble 在整個訓(xùn)練過程中不依賴任何監(jiān)督信號



      • 論文題目:Better LLM Reasoning via Dual-play
      • 論文鏈接:https://arxiv.org/pdf/2511.10395
      • 項目主頁:https://hcy123902.github.io/PasoDoble/
      • 作者介紹:共同一作張正鑫,黃誠瑜為康奈爾大學(xué)計算機系博士,李奡翀為主要貢獻者之一,Claire Cardie 為通訊作者以及導(dǎo)師。



      圖為使用 Qwen3-1.7B 在 MATH-500 上評估的 Solver 在不同訓(xùn)練步驟中的訓(xùn)練動態(tài)。Solver 的整體準確率在無任何監(jiān)督的情況下從 45% 提升至 67%。它在第 20 步之前就超過了基線模型,并在第 360 步達到最高的 67%。重要的是,PasoDoble 能夠在數(shù)百個更新步驟中保持持續(xù)提升,展現(xiàn)出遠強于相關(guān)工作 R-Zero 的擴展能力。



      我們?yōu)槊總€問題采樣六個回答,并報告 pass@1 的準確率。基線模型按照 Qwen 技術(shù)報告中的設(shè)置,使用 4-shot 提示進行評估;其他模型則使用 0-shot 提示進行評估。

      我們發(fā)現(xiàn),在完全無監(jiān)督的情況下,PasoDoble 使 Qwen3-1.7B-Base 的數(shù)學(xué)任務(wù)平均性能提升約13 個點,使 Qwen3-4B-Base 提升約16 個點。

      PasoDoble 方法概覽

      PasoDoble 由四個組件構(gòu)成:Proposer (π_p)、Solver (π_s)、Knowledge Base (K),以及用于離線訓(xùn)練的題目緩沖區(qū)(Question Buffer)。Proposer 和 Solver 均從同一個預(yù)訓(xùn)練模型初始化,隨后會進行初始的冷啟動訓(xùn)練。

      在在線訓(xùn)練中,每次迭代都會從知識庫中采樣一個知識片段(1),用于提示 Proposer 生成一批問答(QA)對(2)。隨后,Solver 會針對每個問題生成多個解答嘗試(3–4)。Solver 根據(jù)其答案是否與 Proposer 的標準答案一致來獲得正確性獎勵(5)。為評估問題的難度,我們計算 Solver 在該問題上的準確率(6),并將 Proposer 的難度獎勵定義為該準確率的反比(7);同時,還會加入一個多樣性獎勵以鼓勵生成新穎的問題(8)。這些獎勵被組合得到 Proposer 的最終獎勵(9)。只有那些具有非平凡難度、被判定為有效的問題才會被保留下來用于 Solver 的訓(xùn)練(10)。當至少存在一個有效問題時,兩個模型都會同步更新(11),從而形成完整的在線訓(xùn)練循環(huán)。

      在離線訓(xùn)練中,Proposer 會在 Solver 凍結(jié)的情況下首先更新若干步(11),并將生成的有效問題存入 Question Buffer(12)。隨后,將 Proposer 凍結(jié),Solver 則利用 Question Buffer 中的問題進行更新(13),從而構(gòu)建其訓(xùn)練數(shù)據(jù)集。

      Proposer Reward 是如何設(shè)計呢?

      簡而言之,Proposer 會因為生成困難(即 Solver 準確率低)且 多樣(與近期問題不相似)的問題而獲得獎勵,但前提是這些問題是有效且格式良好的。

      Proposer 的任務(wù)是生成既具有挑戰(zhàn)性又多樣化的數(shù)學(xué)問題。為引導(dǎo)這種行為,我們設(shè)計了一個由難度 reward多樣性 reward兩部分組成的 reward 機制。

      1. 難度 Reward

      我們希望 Proposer 能生成有挑戰(zhàn)性的問題 —— 即 Solver 不能輕易答對的問題。我們用 Solver 的通過率來衡量難度:



      通過率 p_i 越低,問題越難,獎勵就越高。具體地,難度獎勵為:



      即使一個問題非常簡單(例如 p_i = 1.0),獎勵仍然為 0.1,以確保 Proposer 始終傾向于生成有效的問題,而不是生成錯誤或無意義的問題。

      2. 多樣性 Reward

      我們還希望避免退化現(xiàn)象,例如 Proposer 反復(fù)生成同一種類型的問題。為此,我們將新生成的問題 q_i 與歷史緩沖區(qū) H 中的最近問題進行比較,采用 Jaccard 相似度:



      如果兩個問題過于相似,我們將其視為重復(fù):



      因此,多樣性獎勵定義為:



      簡而言之:問題越獨特,獎勵越高。

      3. Proposer 最終獎勵

      我們只有在問題既有效又具有多樣性的情況下才會對 Proposer 進行獎勵:

      • 有效性(Validity):通過率不能過低:



      • 多樣性(Diversity):不能過于重復(fù):



      最終獎勵為:



      Solver Reward 是如何設(shè)計呢?

      Solver 的訓(xùn)練僅依賴純正確性獎勵。



      其中指標函數(shù)定義為:



      實驗設(shè)置

      我們在多種模型規(guī)模上進行實驗,包括 Qwen3-0.6B-Base、Qwen3-1.7B-Base、Qwen3-4B-Base、Qwen2.5-0.5B-Base、Qwen2.5-1.5B-Base 和 Qwen2.5-3B-Base,將它們分別用作 Proposer 和 Solver,然后執(zhí)行冷啟動訓(xùn)練。在冷啟動之后,我們使用 GRPO 同時訓(xùn)練 Proposer 和 Solver,并在在線與離線兩種設(shè)置下進行實驗。更多超參數(shù)設(shè)置參見論文附錄 B。我們使用 MegaMath-Pro-Max 預(yù)訓(xùn)練數(shù)據(jù)集作為知識庫 K。

      實驗結(jié)果

      主流數(shù)學(xué) benchmark 的結(jié)果

      我們在競賽級數(shù)學(xué)基準上評估了我們的方法,包括 AIME 2024、AIME 2025、AMC、GSM8k、MATH-500 和 OlympiadBench。加粗表示最佳結(jié)果,下劃線表示第二優(yōu)。

      PasoDoble 能顯著提升模型在數(shù)學(xué)基準上的表現(xiàn),尤其是在 Qwen2.5-1.5B/3B 和 Qwen3-1.7B/4B 模型上。此外,PasoDoble 的性能提升隨著模型規(guī)模的增大而持續(xù)增強。



      Qwen2.5-0.5B-Base 模型的實驗結(jié)果。



      Qwen3-0.6B-Base 模型的實驗結(jié)果。



      Qwen2.5-1.5B-Base 模型的實驗結(jié)果。



      Qwen3-1.7B-Base 模型的實驗結(jié)果。



      Qwen2.5-3B-Base 模型的實驗結(jié)果。



      Qwen3-4B-Base 模型的實驗結(jié)果。

      Proposer 與隨機獎勵:Solver 到底學(xué)到了什么?

      先前的研究表明,即使使用隨機獎勵也可能帶來非平凡的提升。因此,我們在 Qwen3-1.7B 模型上采用在線訓(xùn)練范式進行了相關(guān)實驗。



      隨機獎勵的實驗結(jié)果。



      如上表所示,使用完全隨機獎勵進行訓(xùn)練會使 Solver 在所有數(shù)學(xué)基準上的平均準確率幾乎跌至零。即便我們強制 Solver 以正確格式作答(部分隨機獎勵),其準確率仍然大幅下降。與我們原始設(shè)置形成的鮮明對比清楚地表明:Solver 在訓(xùn)練過程中確實從 Proposer 的答案中受益匪淺

      Proposer 生成的問題是由記憶驅(qū)動的,還是由推理驅(qū)動的?



      Qwen3-1.7B-Base 在不同提示前綴比例下(即 x% 表示向 Qwen3-1.7B-Base 提示前 x% 的 問題 )對 Proposer 在第 200 個檢查點生成的問題進行評估,其 Exact Match(EM)和 ROUGE-L得分如上所示。所有評估均使用貪心解碼,并且不使用聊天模板。

      我們通過上表進行了分析。即使提示問題前綴重疊達到 80%,EM 也僅約為 12%(使用知識庫)和 31%(不使用知識庫),這表明絕大多數(shù)生成的問題來源于推理而非記憶。

      總結(jié)

      我們的研究表明,大語言模型可以通過類似 GAN 的雙模型對抗式訓(xùn)練來提升數(shù)學(xué)推理能力,并在多個數(shù)學(xué)基準上取得可量化的性能提升。該方法還通過利用預(yù)訓(xùn)練知識增強后訓(xùn)練效果,在預(yù)訓(xùn)練與后訓(xùn)練之間建立了一座橋梁。

      盡管如此,我們的方法也存在局限性,例如在 GPQA 等領(lǐng)域外任務(wù)中并未帶來性能提升。未來的研究將探索將該框架拓展到其他領(lǐng)域,如代碼與事實問答,并進一步研究更廣泛的多模型訓(xùn)練范式,包括協(xié)作式、競爭式以及角色專門化等設(shè)置。這些方向可能對于解決遠比單一模型能可靠處理的任務(wù)更加復(fù)雜的問題至關(guān)重要。

      參考文獻:

      [1] Goodfellow, Ian, et al. "Generative adversarial networks." *Communications of the ACM* 63.11 (2020): 139-144.

      [2] Huang, Chengsong, et al. "R-Zero: Self-Evolving Reasoning LLM from Zero Data." *arXiv preprint arXiv:2508.05004* (2025).

      [3] Yang, An, et al. "Qwen3 technical report." *arXiv preprint arXiv:2505.09388* (2025).

      [4] Shao, Zhihong, et al. "Deepseekmath: Pushing the limits of mathematical reasoning in open language models." *arXiv preprint arXiv:2402.03300* (2024).

      [5] Wang, Zengzhi, et al. "Octothinker: Mid-training incentivizes reinforcement learning scaling." *arXiv preprint arXiv:2506.20512* (2025).

      [6] Shao, Rulin, et al. "Spurious rewards: Rethinking training signals in rlvr." *arXiv preprint arXiv:2506.10947* (2025).

      [7] Lin, Chin-Yew, and Franz Josef Och. "Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram statistics." *Proceedings of the 42nd annual meeting of the association for computational linguistics (ACL-04)*. 2004.

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      香!港男團受傷舞蹈員最新近況曝光 三年五個月后首次走出醫(yī)院

      香!港男團受傷舞蹈員最新近況曝光 三年五個月后首次走出醫(yī)院

      桑葚愛動畫
      2025-12-08 10:04:23
      各懷鬼胎!林北放棄42萬粉絲賬號令起新號,兩人還能繼續(xù)走下去嗎

      各懷鬼胎!林北放棄42萬粉絲賬號令起新號,兩人還能繼續(xù)走下去嗎

      小椰的奶奶
      2025-12-08 15:19:17
      戴笠再牛也是軍統(tǒng)的副局長,局長是誰?他更牛,死后葬在了八寶山

      戴笠再牛也是軍統(tǒng)的副局長,局長是誰?他更牛,死后葬在了八寶山

      浩渺青史
      2025-12-07 19:52:55
      稅務(wù)嚴查高收入、高凈值人群:1818人補稅15億

      稅務(wù)嚴查高收入、高凈值人群:1818人補稅15億

      第一財經(jīng)資訊
      2025-12-08 12:14:57
      這波甲流太瘋狂!醫(yī)生朋友的一句話,讓“中招”的兒子少遭很多罪

      這波甲流太瘋狂!醫(yī)生朋友的一句話,讓“中招”的兒子少遭很多罪

      媽咪OK
      2025-12-05 17:08:45
      隊記:楊瀚森離真正立足NBA還有很長的路 臉部被打的回合爭議最大

      隊記:楊瀚森離真正立足NBA還有很長的路 臉部被打的回合爭議最大

      羅說NBA
      2025-12-08 17:45:09
      IPO 批量造富!摩爾線程誕生多位百億巨富

      IPO 批量造富!摩爾線程誕生多位百億巨富

      EETOP半導(dǎo)體社區(qū)
      2025-12-08 14:40:40
      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      科普100克克
      2025-12-07 18:20:34
      火藥味!陶漢林墊腳紀卓違體引劉維偉暴怒 沖到球場內(nèi)質(zhì)疑裁判吃T

      火藥味!陶漢林墊腳紀卓違體引劉維偉暴怒 沖到球場內(nèi)質(zhì)疑裁判吃T

      狼叔評論
      2025-12-08 16:58:02
      萬科燃盡倒計時:看透地產(chǎn)巨頭隕落,讀懂中國地產(chǎn)幾十年真相

      萬科燃盡倒計時:看透地產(chǎn)巨頭隕落,讀懂中國地產(chǎn)幾十年真相

      流蘇晚晴
      2025-12-06 19:26:50
      曾被中央通報違規(guī)聚餐飲酒致人死亡,魏栓師被開除黨籍和公職

      曾被中央通報違規(guī)聚餐飲酒致人死亡,魏栓師被開除黨籍和公職

      南方都市報
      2025-12-08 13:50:08
      南通軌道交通集團有限公司副總經(jīng)理劉祥勇接受審查調(diào)查

      南通軌道交通集團有限公司副總經(jīng)理劉祥勇接受審查調(diào)查

      極目新聞
      2025-12-08 11:06:54
      新國標電動車成 麻煩制造者?大爺爬坡摔跤索賠,商家愁白了頭

      新國標電動車成 麻煩制造者?大爺爬坡摔跤索賠,商家愁白了頭

      今朝牛馬
      2025-12-08 13:13:09
      與俱樂部隊友格格不入,朱婷被國外網(wǎng)友集體吐槽

      與俱樂部隊友格格不入,朱婷被國外網(wǎng)友集體吐槽

      體育快遞小哥哥
      2025-12-07 19:39:51
      百萬粉絲網(wǎng)紅“雪糕姐”被舉報所售果凍含瀉藥成分,其店鋪發(fā)布“關(guān)店公示”,同款產(chǎn)品網(wǎng)上仍有售,商家標注“不拉包退”

      百萬粉絲網(wǎng)紅“雪糕姐”被舉報所售果凍含瀉藥成分,其店鋪發(fā)布“關(guān)店公示”,同款產(chǎn)品網(wǎng)上仍有售,商家標注“不拉包退”

      極目新聞
      2025-12-08 11:29:59
      藏了30年!奚美娟兒子親生父親曝光?不是前夫,而是圈內(nèi)幕后大佬

      藏了30年!奚美娟兒子親生父親曝光?不是前夫,而是圈內(nèi)幕后大佬

      情感大頭說說
      2025-12-08 15:04:13
      中日戰(zhàn)機對峙創(chuàng)下3個首次,日方召見中國大使抗議,中方當場駁斥

      中日戰(zhàn)機對峙創(chuàng)下3個首次,日方召見中國大使抗議,中方當場駁斥

      時時有聊
      2025-12-08 07:19:38
      跟風被咀嚼過的《芳華》,一場庸眾的鬧劇

      跟風被咀嚼過的《芳華》,一場庸眾的鬧劇

      關(guān)爾東
      2025-12-07 12:44:17
      大廠禁用Cursor,程序員回歸“手搓時代”?

      大廠禁用Cursor,程序員回歸“手搓時代”?

      鈦媒體APP
      2025-12-08 09:19:13
      尼日爾軍政府把法國鈾礦、中國油企、澳洲金礦一口氣收歸國有

      尼日爾軍政府把法國鈾礦、中國油企、澳洲金礦一口氣收歸國有

      百態(tài)人間
      2025-10-31 15:24:14
      2025-12-08 18:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11868文章數(shù) 142510關(guān)注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      泰柬邊境近日再起爭端 阿努廷、洪森分別發(fā)聲

      頭條要聞

      泰柬邊境近日再起爭端 阿努廷、洪森分別發(fā)聲

      體育要聞

      一位大學(xué)美術(shù)生,如何用4年成為頂級跑者?

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經(jīng)要聞

      重磅!政治局會議定調(diào)明年經(jīng)濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      家居
      教育
      公開課

      藝術(shù)要聞

      一棵樹的力量

      旅游要聞

      崇明前衛(wèi)村村史館建成對外開放

      家居要聞

      有限無界 打破慣有思維

      教育要聞

      是不是只有我在內(nèi)耗?補習(xí)班,到底該不該跟別人分享?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 中文字幕在线观看亚洲| 91视频亚洲| 国产乱妇无乱码大黄aa片| 多毛老熟女| 午夜三级福利| 国产又色又爽又黄又免费| 国产美女无遮挡裸色视频| 98精品全国免费观看视频| 久久亚洲色www成人欧美| 灌南县| 久久99久国产精品66| 福利视频网址导航| 91成人在线免费观看| 国内露脸中年夫妇交换| 玉门市| 顶级欧美熟妇xx| 91在线小视频| 亚洲日韩电影久久| 九一AV| 久久精品99| 3P无码| 狠狠躁天天躁日日躁97| 亚洲av激情综合在线| 色伊人亚洲综合网站| 久久18禁| 国内精品久久人妻互换| 亚洲成A人| 亚洲成人av一区| 亚洲无码天天| 橹橹色| 牡丹江市| 亚洲男人天堂| 亚洲国语无码| wwwww黄| 国产毛a片啊久久久久久保和丸| 欧洲成人综合网| 激情五区| 狠狠躁天天躁日日躁97| AV色导航| 鄱阳县| 人妻av中文系列|