<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      LLM 僅靠自身就能增強推理?SePT 給出簡潔在線自訓練范式

      0
      分享至



      本文第一作者李夢琦為香港中文大學(深圳)計算機科學專業博士生。本項研究是與上海交通大學趙磊老師、香港中文大學蘇文藻老師合作,并在香港中文大學(深圳)孫若愚老師與李肖老師的共同指導下完成。

      在推理后訓練里,多數方法仍依賴獎勵模型、驗證器或額外教師信號。如果不依賴這些外部信號,只使用模型自身生成的答案進行自訓練,是否仍然能夠提升推理能力?是的!SePT(Self-evolving Post-Training)給出肯定答案,簡潔的自訓練方法,可在數學推理任務準確率直升10個點!



      • 論文標題:A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning
      • 論文:https://arxiv.org/pdf/2510.18814
      • 代碼:https://github.com/ElementQi/SePT



      SePT的在線自訓練循環示意:樣本以采樣溫度 τ_s 生成,訓練階段采用標準 SFT;下一輪訓練數據由更新后的模型生成。

      如流程圖所示,SePT 的核心極其簡潔:當前模型先生成答案,再用這些答案做標準 SFT,隨后由更新后的模型重新生成下一輪訓練數據。下面先看這種在線循環自訓練到底帶來了多少提升。

      數學推理上的結果:SePT vs Baseline

      主結果如圖所示。這里的 baseline 并非默認采樣設置下直接評測的基座模型,而是未做后訓練、但在推理階段經過 temperature sweep 并取最佳結果的強基線。經過 SePT 自訓練后, 在 6 個數學基準測試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG 上均有明顯提升。



      在 Qwen2.5-Math-7B 上,6 個數學基準測試集平均后的 Pass@1、Pass@8、Pass@32 和 AVG:SePT 在各項指標上均明顯高于上述 baseline。

      數學推理上的結果:SePT vs RLVR

      如果進一步與 RLVR 方法( GRPO) 比較,可以看到:自訓練方法SePT 已經能夠取得與 GRPO 較為接近的結果,尤其是在OTM數據集上。

      結合表中的結果,在 Qwen2.5-Math-7B 上,使用 OTM 時,SePT 和 GRPO 的 AVG 分別為 55.2 和 56.6,差距只有 1.4;而在 DSR 上,這一差距擴大為 4.1(55.0 vs. 59.1)。在 DeepSeek-Math-7B-Instruct 上,同樣的差距分別為 0.4(33.0 vs. 33.4)和 1.7(33.9 vs. 35.6)。甚至在 Qwen2.5-Math-7B 的 OTM 設置下,SePT 的 Pass@1 還略高于 GRPO(40.8 vs. 39.5)。

      這些結果說明,在本文的比較設置下,SePT 對訓練題集選擇表現出更小的波動,而 GRPO 在 DSR 上的增益更明顯。



      OpenThoughts-Math(OTM)和 DeepScaleR(DSR)在 Qwen2.5-Math-7B 與 DeepSeek-Math-7B-Instruct 上的平均基準比較。兩套訓練題集規模相近。Δ 表示 DSR 相對 OTM 的變化,陰影標出 DSR 至少高出 OTM 2.0 分的情形。

      SePT 算法具體流程

      SePT 有著極其簡潔的自訓練框架設計,可以概括為以下三個步驟:



      這一設計的關鍵可概括為:溫度解耦、標準SFT訓練,最新模型自生成數據。







      SePT 中的在線自生成數據

      本文進一步通過消融實驗驗證了這一設計的重要性:如果將“由最新模型逐輪生成下一輪訓練數據”改為固定數據訓練,性能會明顯下降。以 Qwen2.5-Math-7B 為例,SePT (Offline) 的 AVG 為 45.5,而在線版本的 SePT 可達到 55.0。



      SePT 與 SePT (Offline) 在 Qwen2.5-Math-7B 上的比較,括號中的數值表示相對 baseline 的變化。

      SePT 中的溫度解耦



      為什么這件事重要?本文的定理一給出了一個直觀的理論論證





      這一點在實驗上也被直接驗證了。以 Qwen2.5-Math-7B 為例,若使用 temperature coupling,Pass@1/Pass@8/Pass@32/AVG 只有 19.3/50.1/64.3/44.6,Pass@1 甚至低于 baseline;而采用 decoupling 后,四項指標可以提升到 39.5/57.7/67.9/55.0。

      也就是說,SePT 里“低溫生成 + 標準 SFT”對于數學推理的提升并不是一個經驗 trick,而是理論與實驗都支持的重要設計。



      Qwen2.5-Math-7B 在溫度耦合與解耦方案下的對比。括號內數值表示方法值與基準值的差(Method?Baseline)。





      Pass@1、Pass@8、Pass@32 以及 AVG 在基座模型上隨采樣溫度變化的結果。

      自訓練是否會損害模型通用能力?

      模型的一般能力會不會因為只在數學自生成軌跡上繼續訓練而受損?本文在 Qwen2.5-Math-7B 上的一組 general-domain benchmark正面回答了這一問題,測試基準包括 IFEval、BBH、GPQA、MuSR 和 MMLU-Pro。結果基本是幾乎不掉:基礎模型分別為 23.4/47.5/29.9/41.4/32.1,SePT 為 23.6/47.3/30.6/41.5/32.2。也就是說,SePT 在 IFEval、GPQA、MuSR、MMLU-Pro 上都有輕微提升,BBH 基本不變;GRPO 也呈現了類似模式。這表明SePT自訓練方法不會明顯損害模型的通用能力。



      Qwen2.5-Math-7B 基座模型及其 SePT、GRPO 訓練版本在通用領域的評測結果。

      代碼簡單可用



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      90%訂單消失,中東旺季沒了

      90%訂單消失,中東旺季沒了

      中國新聞周刊
      2026-04-25 07:28:04
      川普沒料到,中國動真格了,黃仁勛罕見發飆,美媒:美國危險了

      川普沒料到,中國動真格了,黃仁勛罕見發飆,美媒:美國危險了

      錯過美好
      2026-04-25 02:11:18
      東莞市民投訴“到底有沒有完?”有火鍋店因此停業!多部門回應

      東莞市民投訴“到底有沒有完?”有火鍋店因此停業!多部門回應

      南方都市報
      2026-04-25 09:10:17
      【開局之年看中國·遇見不一樣的江蘇】快快評|“最正確的決定”,是江蘇營商環境的生動注腳

      【開局之年看中國·遇見不一樣的江蘇】快快評|“最正確的決定”,是江蘇營商環境的生動注腳

      現代快報
      2026-04-24 14:42:05
      妻子去世后,遲重瑞近況曝光,他走上了陳麗華“安排的后路”

      妻子去世后,遲重瑞近況曝光,他走上了陳麗華“安排的后路”

      阿廢冷眼觀察所
      2026-04-25 05:55:28
      梅西罕見犀利評價,內馬爾技術碾壓自己,C羅短板被戳穿

      梅西罕見犀利評價,內馬爾技術碾壓自己,C羅短板被戳穿

      體育閑話說
      2026-04-24 21:32:19
      投入千萬打水漂,張慶鵬下課?公開表態,或回歸山東,接替邱彪?

      投入千萬打水漂,張慶鵬下課?公開表態,或回歸山東,接替邱彪?

      萌蘭聊個球
      2026-04-25 10:22:55
      死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

      死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

      霽寒飄雪
      2026-04-24 14:33:30
      美司法部撤銷對美聯儲及其主席鮑威爾的刑事調查

      美司法部撤銷對美聯儲及其主席鮑威爾的刑事調查

      每日經濟新聞
      2026-04-25 00:14:11
      賴清德無法竄訪,蕭美琴向大陸喊話,解放軍罕見有大動作,不簡單

      賴清德無法竄訪,蕭美琴向大陸喊話,解放軍罕見有大動作,不簡單

      DS北風
      2026-04-24 17:48:05
      神劇情!湖人40秒落后6分 火箭失誤送溫暖加時憾負 大比分0-3落后

      神劇情!湖人40秒落后6分 火箭失誤送溫暖加時憾負 大比分0-3落后

      Emily說個球
      2026-04-25 11:02:57
      一場120-107讓西部季后賽大亂!雷霆巨星傷退,湖人沖擊決賽有望

      一場120-107讓西部季后賽大亂!雷霆巨星傷退,湖人沖擊決賽有望

      古史青云啊
      2026-04-24 11:53:35
      安東尼要求給赫伊森紅牌,赫伊森隨即做了一個哭泣的手勢

      安東尼要求給赫伊森紅牌,赫伊森隨即做了一個哭泣的手勢

      懂球帝
      2026-04-25 09:50:06
      張雪機車召回事件升級!63歲技術專家:O型圈不是裝反 是位置裝錯

      張雪機車召回事件升級!63歲技術專家:O型圈不是裝反 是位置裝錯

      西莫的藝術宮殿
      2026-04-25 05:28:46
      俄羅斯譴責日本

      俄羅斯譴責日本

      魯中晨報
      2026-04-25 07:16:05
      取代伊朗踢世界杯?意大利官員回應特朗普特使“損招”:這是恥辱!

      取代伊朗踢世界杯?意大利官員回應特朗普特使“損招”:這是恥辱!

      財聯社
      2026-04-24 10:38:32
      亞馬爾賽前48小時吃麥當勞后在比賽中受傷,被主持人批不職業

      亞馬爾賽前48小時吃麥當勞后在比賽中受傷,被主持人批不職業

      懂球帝
      2026-04-25 10:22:07
      張軍被查目前僅限單一信源有待證實 或成首個被查的奧運冠軍高官

      張軍被查目前僅限單一信源有待證實 或成首個被查的奧運冠軍高官

      勁爆體壇
      2026-04-25 06:44:26
      特朗普下達“毀滅性打擊”授權,以色列揚言斬首穆杰塔巴,伊朗當即亮劍反擊

      特朗普下達“毀滅性打擊”授權,以色列揚言斬首穆杰塔巴,伊朗當即亮劍反擊

      咣當地球
      2026-04-24 16:44:13
      張雪峰多位愛將離職,真相很殘忍

      張雪峰多位愛將離職,真相很殘忍

      新浪財經
      2026-04-24 19:11:55
      2026-04-25 12:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142636關注度
      往期回顧 全部

      科技要聞

      Anthropic剛拿亞馬遜250億美元,又拿谷歌400億

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規劃為商業用地

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規劃為商業用地

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      別高估英偉達,別低估DeepSeek

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      房產
      藝術
      健康
      家居
      教育

      房產要聞

      新一輪教育大爆發來了!海口,開始瘋狂建學校!

      藝術要聞

      廈門新地標奠基!美圖立方視覺藝術中心,OPEN設計

      干細胞如何讓燒燙傷皮膚"再生"?

      家居要聞

      自然肌理 溫潤美學

      教育要聞

      農村學生迎來“好消息”!教育部新規:取消戶籍限制,9月起執行

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蓬溪县| 无码2区| 国产精品毛片一区二区| 美国特级A毛片免费网站| 色播久久人人爽人人爽人人片av | 97人人超碰国产精品最新| 97超级碰碰碰碰久久久久| 中亚成人综合在线| 国产成人精品三级麻豆| 超碰人妻97| 国产中文在线亚洲精品官网| 1024你懂的国产精品| 高清毛片aaaaaaaaa片| 国产偷窥熟妇高潮呻吟| 两个人的视频高清在线观看免费| 免费观看添你到高潮视频| 亚洲第一网站| 亚洲日韩日本中文在线| 免费在线3A级| 亚洲口爆| 日韩伦理片| 色综合久| 亚洲综合免费| AV色色色| 亚洲人成色7777在线观看不卡| 国产成人精品久久综合| 中文字幕无码传媒| 中文字幕在线看视频一区二区三区| 亚洲变态另类天堂AV手机版| 自拍口爆| 日本丰满少妇xxxx| 两个人的免费视频| 国产九色AV刺激露脸对白| 丰满诱人的人妻3| 国产成人a人亚洲精品无码| 91人人操| 国产偷国产偷亚洲清高动态图| 你懂的网址国产日韩网址| 中文字幕亚洲资源一区二区| 香蕉视频在线国产| 亚洲天堂中文字幕天天码|