<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      首個測試時共進化合成框架TTCS:在「左右互搏」中突破推理瓶頸

      0
      分享至



      在 DeepSeek-R1 和 OpenAI o1 引領的「后訓練(Post-Training)」與「測試時擴展」(Test-Time Scaling)」時代,如何利用測試時的算力進行有效訓練成為焦點。

      然而,面對極難的測試題,現有的測試時訓練(Test-Time Training, TTT)往往因偽標簽噪聲大而陷入「瞎猜」的困境。

      廈門大學 DeepLIT 課題組提出了一種全新的測試時課程合成框架 ——TTCS (Test-Time Curriculum Synthesis)。該框架不依賴任何外部人工標注,通過生成器(Synthesizer)與求解器(Solver)的共進化博弈,自動合成處于模型「能力邊界」的課程數據,解決了測試樣本過難導致的訓練坍塌問題。

      實驗顯示,在 Qwen2.5-Math-1.5B 上,TTCS 將數學推理平均分從 17.30 暴漲至 41.49,在極具挑戰的 AIME 競賽題上更是顯著超越了 TTRL 等強基線。



      • 論文標題:TTCS: Test-Time Curriculum Synthesis for Self-Evolving
      • 論文鏈接:https://arxiv.org/abs/2601.22628
      • 項目代碼:https://github.com/XMUDeepLIT/TTCS
      • HuggingFace 主頁:https://huggingface.co/papers/2601.22628

      01. 核心動機:當「題海戰術」遇到「超綱難題」

      隨著大語言模型(LLM)的發展,業界共識已從單純的「預訓練擴大參數」轉向挖掘測試時擴展(Test-Time Scaling)的潛力。

      DeepSeek-R1 等模型的成功證明了強化學習(RL)在推理任務上的巨大威力。然而,目前的 RL 范式(如 RLVR)通常依賴大量高質量的 Ground Truth 標簽,這限制了其擴展性。

      為了擺脫對標簽的依賴,測試時訓練(Test-Time Training, TTT)應運而生。其核心思想是:在測試階段,利用模型對測試題生成的偽標簽(Pseudo-labels)進行即時更新。

      但在面對高難度推理任務(如 AIME 數學競賽)時,TTT 遭遇了致命的「能力錯配」悖論

      1. 偽標簽不可靠(Noisy Rewards):面對 AIME 這種難題,由于模型本身能力不足,即使進行多次采樣(Majority Voting),大部分答案也是錯的。基于錯誤的共識進行訓練,只會讓模型「越學越偏」。(如 Intro 中 Figure 1 (a) 所示)
      2. 缺乏中間階梯(Steep Learning Curve):就像讓小學生直接做微積分,缺乏中間難度的過渡題目,模型無法跨越巨大的難度鴻溝,導致優化失敗。

      團隊思考:如果沒有老師,模型能否像人類自學者一樣,通過自己給自己出題,把一道難題拆解變為一組成梯度、可解決的練習題,從而實現螺旋上升?



      基于此,團隊提出了TTCS—— 一個基于共進化(Co-evolution)的測試時課程合成框架。

      02. 方法論:Synthesizer 與 Solver 的雙重共進化

      TTCS 的核心在于構建了一個閉環的生態系統,包含兩個共享初始權重的 Agent,它們通過迭代式的GRPO (Group Relative Policy Optimization)進行訓練:

      角色分工





      關鍵機制:如何尋找「能力邊界」?

      為了防止生成的題目太簡單(無效訓練)或太難(無效反饋),團隊設計了一套精密的能力自適應獎勵(Capability-Adaptive Reward)機制:



      閉環效應:

      Solver 能力提升后,其「能力邊界」會向更難的區域移動,感知到這一變化的 Synthesizer 為了獲得高獎勵會自動生成難度更高的問題,Solver 繼續攻克新難題。二者相互追趕,在測試時實現了動態的 Curriculum Learning。

      03. 硬核實驗結果:推理能力提升

      團隊在 AMC23、AIME24、AIME25、MATH-500、Minerva 等多個權威數學基準上進行了廣泛驗證。基礎模型涵蓋 Qwen2.5-Math (1.5B, 7B) 和 Qwen3-4B。

      1. 主流基準上的碾壓式提升

      TTCS 在所有尺寸的模型上均取得了顯著優于基線的成績(詳見 Table 1):

      • Qwen2.5-Math-1.5B:TTCS 的平均分達到,相比預訓練模型(17.30)提升了+24.19 分!即使對比測試時微調的強基線 TTRL(36.56),依然有大幅優勢。
      • Qwen2.5-Math-7B:TTCS 平均分達到,相比廣泛使用的 Self-Consistency(32.15)提升了+20.39 分,再次證明了主動的測試時訓練遠勝于被動的多路采樣。



      2. 攻克高難度競賽題 (AIME)

      在最能體現推理上限的 AIME 競賽題上,TTCS 展現了極強的攻堅能力:

      • AIME 2024:在 1.5B 模型上,TTRL 僅得 13.23 分,而 TTCS 躍升至分,提升幅度達
      • AIME 2025:在 7B 模型上,TTCS 達到了分,顯著優于 TTRL 的 14.06 分。
      • 這有力地證明了:當測試題太難導致 TTRL 的偽標簽失效時,TTCS 通過合成中間難度的課程,成功架起了通往高難度推理的橋梁。

      3. 為什么 TTCS 有效?(深度分析)

      為了探究性能提升的來源,團隊進行了多維度的分析:

      • 不僅僅是數學(泛化性)

      實驗 Q1 顯示,在 AIME 上進行測試時訓練的 TTCS 模型,在MMLU-ProSuperGPQA等通用領域推理任務上也實現了性能躍升(Figure 3a)。這說明模型學到的是通用的推理邏輯,而非簡單的過擬合。



      • 動態老師 > 靜態名師

      團隊嘗試用一個更強但固定的Qwen2.5-14B-Instruct模型作為 Synthesizer(實驗 Q3)。結果令人驚訝:共進化的 1.5B Synthesizer (TTCS) 帶來的提升 (+5.34) 竟然是靜態 14B Synthesizer (+2.66) 的兩倍

      這揭示了一個深刻的道理:適應學生當前水平的老師,比單純水平高但不懂因材施教的老師更重要。



      • 數據效率驚人

      即使只使用 10% 的測試數據(僅 3 道題),TTCS 在 AIME24 上的準確率就能達到13.33,遠超同等數據量下 TTRL 的表現(Figure 4)。這表明 TTCS 能夠高效地榨取每一個測試樣本的信息量。



      04. 總結與展望

      TTCS 框架的提出,是對「測試時計算」范式的一次重構。團隊證明了:在測試時,模型不應是被動的解題者,而應是主動的課程設計者。

      通過 Synthesizer 和 Solver 的共進化,TTCS 完美解決了測試時訓練中「數據稀缺」和「難度斷層」的兩大痛點。

      這不僅為提升大模型在復雜數學、代碼推理任務上的表現提供了新思路,也為未來自進化智能體(Self-Evolving Agents)—— 即模型能夠在完全未知的環境中通過自我博弈實現持續進化 —— 奠定了堅實基礎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      王思聰帶女友懶懶香港購物被偶遇,一身行頭上百萬,懶懶打扮時髦

      王思聰帶女友懶懶香港購物被偶遇,一身行頭上百萬,懶懶打扮時髦

      手工制作阿殲
      2026-02-10 12:57:24
      美的集團:工業機器人市場集中度高,預測全年營業收入4605.28~4949.00億元

      美的集團:工業機器人市場集中度高,預測全年營業收入4605.28~4949.00億元

      新浪財經
      2026-02-10 20:36:38
      有幸去了趟越南,實話實說,越南人的生活,簡直讓我嘆為觀止!

      有幸去了趟越南,實話實說,越南人的生活,簡直讓我嘆為觀止!

      王二哥老搞笑
      2026-02-06 15:54:51
      猝死:被誤讀的終極福報

      猝死:被誤讀的終極福報

      青蘋果sht
      2026-01-20 05:52:29
      黎智英被判20年,黎智英之子要求放人,美國要求放人,但忽略一點

      黎智英被判20年,黎智英之子要求放人,美國要求放人,但忽略一點

      DS北風
      2026-02-10 11:15:02
      NBA常規賽勇士主場114-113險勝灰熊 杰洛姆19分3板7助

      NBA常規賽勇士主場114-113險勝灰熊 杰洛姆19分3板7助

      環球體壇啄木鳥
      2026-02-10 21:06:24
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      中國經濟最強縣GDP超5600億

      中國經濟最強縣GDP超5600億

      第一財經資訊
      2026-02-09 21:02:04
      網飛特離譜的黃暴美劇,偏偏還很火,真是獨一份了

      網飛特離譜的黃暴美劇,偏偏還很火,真是獨一份了

      來看美劇
      2026-02-01 19:51:56
      太猛了,累計下載量突破12億,拿下全球第一。

      太猛了,累計下載量突破12億,拿下全球第一。

      純潔的微笑
      2026-02-09 12:16:52
      史無前例!國家突然成立一所神秘學院,信號強烈

      史無前例!國家突然成立一所神秘學院,信號強烈

      前瞻網
      2026-02-06 09:50:15
      全面洗牌!國安上賽季5外援或只留1個,馬永明清洗達萬原因曝光

      全面洗牌!國安上賽季5外援或只留1個,馬永明清洗達萬原因曝光

      體壇鑒春秋
      2026-02-10 17:32:26
      斷崖式下跌!中國人突然不愛喝酒了?真相太扎心!

      斷崖式下跌!中國人突然不愛喝酒了?真相太扎心!

      達文西看世界
      2026-01-18 20:56:11
      越來越多孩子得白血病?醫生坦言:家里4樣東西是禍根,趁早扔了

      越來越多孩子得白血病?醫生坦言:家里4樣東西是禍根,趁早扔了

      DrX說
      2025-11-19 14:42:09
      馬年給孩子發紅包,要避開2個數,用3個萬能數,免得花錢還鬧誤會

      馬年給孩子發紅包,要避開2個數,用3個萬能數,免得花錢還鬧誤會

      小書蟲媽媽
      2026-02-10 18:59:26
      已婚也逃不過!在愛潑斯坦的安排下,比爾蓋茨和安妮·海瑟薇會面

      已婚也逃不過!在愛潑斯坦的安排下,比爾蓋茨和安妮·海瑟薇會面

      全球風情大揭秘
      2026-02-09 18:41:27
      登上熱搜,國際名模克里斯蒂娜被曝在家中自然死亡,年僅21歲

      登上熱搜,國際名模克里斯蒂娜被曝在家中自然死亡,年僅21歲

      大眼妹妹
      2026-02-08 09:49:47
      蓉城逃過一劫!武里南進球被吹,VAR介入3分鐘,越位毫厘之間

      蓉城逃過一劫!武里南進球被吹,VAR介入3分鐘,越位毫厘之間

      奧拜爾
      2026-02-10 21:09:52
      親哥留宿弟弟家后續:沒被子半夜凍到跑車上去住,疑似知情人透露

      親哥留宿弟弟家后續:沒被子半夜凍到跑車上去住,疑似知情人透露

      千言娛樂記
      2026-02-09 21:30:42
      兩性關系:70歲后想多活20年,牢記這5句話,健康長壽少煩惱

      兩性關系:70歲后想多活20年,牢記這5句話,健康長壽少煩惱

      匹夫來搞笑
      2026-01-22 12:05:40
      2026-02-10 21:28:52
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12283文章數 142565關注度
      往期回顧 全部

      科技要聞

      Seedance刷屏:網友們玩瘋 影視圈瑟瑟發抖

      頭條要聞

      黎智英被判20年美英澳歐盟等國表示關切 中方回應

      頭條要聞

      黎智英被判20年美英澳歐盟等國表示關切 中方回應

      體育要聞

      NBA上演全武行,超大沖突4人驅逐!

      娛樂要聞

      章子怡和馬麗爭影后 金像獎提名太精彩

      財經要聞

      雀巢中國近千經銷商的“追債記”

      汽車要聞

      應用于190KW四驅Ultra版 方程豹鈦7搭載天神之眼5.0

      態度原創

      時尚
      本地
      親子
      房產
      手機

      冬季穿衣越簡單越實用!從這些日常穿搭中收獲靈感,大方又自然

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      親子要聞

      萌娃吃媽媽的醋,委屈巴巴的和爸爸哭訴:我比媽媽更漂亮

      房產要聞

      海南又一千億級賽道出現,京東、華潤、中石化等巨頭率先殺入!

      手機要聞

      小米17 Pro系列妙享背屏新玩法來了!手勢隔空放煙花 儀式感拉滿

      無障礙瀏覽 進入關懷版