![]()
在 DeepSeek-R1 和 OpenAI o1 引領的「后訓練(Post-Training)」與「測試時擴展」(Test-Time Scaling)」時代,如何利用測試時的算力進行有效訓練成為焦點。
然而,面對極難的測試題,現有的測試時訓練(Test-Time Training, TTT)往往因偽標簽噪聲大而陷入「瞎猜」的困境。
廈門大學 DeepLIT 課題組提出了一種全新的測試時課程合成框架 ——TTCS (Test-Time Curriculum Synthesis)。該框架不依賴任何外部人工標注,通過生成器(Synthesizer)與求解器(Solver)的共進化博弈,自動合成處于模型「能力邊界」的課程數據,解決了測試樣本過難導致的訓練坍塌問題。
實驗顯示,在 Qwen2.5-Math-1.5B 上,TTCS 將數學推理平均分從 17.30 暴漲至 41.49,在極具挑戰的 AIME 競賽題上更是顯著超越了 TTRL 等強基線。
![]()
- 論文標題:TTCS: Test-Time Curriculum Synthesis for Self-Evolving
- 論文鏈接:https://arxiv.org/abs/2601.22628
- 項目代碼:https://github.com/XMUDeepLIT/TTCS
- HuggingFace 主頁:https://huggingface.co/papers/2601.22628
01. 核心動機:當「題海戰術」遇到「超綱難題」
隨著大語言模型(LLM)的發展,業界共識已從單純的「預訓練擴大參數」轉向挖掘測試時擴展(Test-Time Scaling)的潛力。
DeepSeek-R1 等模型的成功證明了強化學習(RL)在推理任務上的巨大威力。然而,目前的 RL 范式(如 RLVR)通常依賴大量高質量的 Ground Truth 標簽,這限制了其擴展性。
為了擺脫對標簽的依賴,測試時訓練(Test-Time Training, TTT)應運而生。其核心思想是:在測試階段,利用模型對測試題生成的偽標簽(Pseudo-labels)進行即時更新。
但在面對高難度推理任務(如 AIME 數學競賽)時,TTT 遭遇了致命的「能力錯配」悖論:
- 偽標簽不可靠(Noisy Rewards):面對 AIME 這種難題,由于模型本身能力不足,即使進行多次采樣(Majority Voting),大部分答案也是錯的。基于錯誤的共識進行訓練,只會讓模型「越學越偏」。(如 Intro 中 Figure 1 (a) 所示)
- 缺乏中間階梯(Steep Learning Curve):就像讓小學生直接做微積分,缺乏中間難度的過渡題目,模型無法跨越巨大的難度鴻溝,導致優化失敗。
團隊思考:如果沒有老師,模型能否像人類自學者一樣,通過自己給自己出題,把一道難題拆解變為一組成梯度、可解決的練習題,從而實現螺旋上升?
![]()
基于此,團隊提出了TTCS—— 一個基于共進化(Co-evolution)的測試時課程合成框架。
02. 方法論:Synthesizer 與 Solver 的雙重共進化
TTCS 的核心在于構建了一個閉環的生態系統,包含兩個共享初始權重的 Agent,它們通過迭代式的GRPO (Group Relative Policy Optimization)進行訓練:
角色分工
![]()
![]()
關鍵機制:如何尋找「能力邊界」?
為了防止生成的題目太簡單(無效訓練)或太難(無效反饋),團隊設計了一套精密的能力自適應獎勵(Capability-Adaptive Reward)機制:
![]()
閉環效應:
Solver 能力提升后,其「能力邊界」會向更難的區域移動,感知到這一變化的 Synthesizer 為了獲得高獎勵會自動生成難度更高的問題,Solver 繼續攻克新難題。二者相互追趕,在測試時實現了動態的 Curriculum Learning。
03. 硬核實驗結果:推理能力提升
團隊在 AMC23、AIME24、AIME25、MATH-500、Minerva 等多個權威數學基準上進行了廣泛驗證。基礎模型涵蓋 Qwen2.5-Math (1.5B, 7B) 和 Qwen3-4B。
1. 主流基準上的碾壓式提升
TTCS 在所有尺寸的模型上均取得了顯著優于基線的成績(詳見 Table 1):
- Qwen2.5-Math-1.5B:TTCS 的平均分達到,相比預訓練模型(17.30)提升了+24.19 分!即使對比測試時微調的強基線 TTRL(36.56),依然有大幅優勢。
- Qwen2.5-Math-7B:TTCS 平均分達到,相比廣泛使用的 Self-Consistency(32.15)提升了+20.39 分,再次證明了主動的測試時訓練遠勝于被動的多路采樣。
![]()
2. 攻克高難度競賽題 (AIME)
在最能體現推理上限的 AIME 競賽題上,TTCS 展現了極強的攻堅能力:
- AIME 2024:在 1.5B 模型上,TTRL 僅得 13.23 分,而 TTCS 躍升至分,提升幅度達
- AIME 2025:在 7B 模型上,TTCS 達到了分,顯著優于 TTRL 的 14.06 分。
- 這有力地證明了:當測試題太難導致 TTRL 的偽標簽失效時,TTCS 通過合成中間難度的課程,成功架起了通往高難度推理的橋梁。
3. 為什么 TTCS 有效?(深度分析)
為了探究性能提升的來源,團隊進行了多維度的分析:
- 不僅僅是數學(泛化性)
實驗 Q1 顯示,在 AIME 上進行測試時訓練的 TTCS 模型,在MMLU-Pro和SuperGPQA等通用領域推理任務上也實現了性能躍升(Figure 3a)。這說明模型學到的是通用的推理邏輯,而非簡單的過擬合。
![]()
- 動態老師 > 靜態名師
團隊嘗試用一個更強但固定的Qwen2.5-14B-Instruct模型作為 Synthesizer(實驗 Q3)。結果令人驚訝:共進化的 1.5B Synthesizer (TTCS) 帶來的提升 (+5.34) 竟然是靜態 14B Synthesizer (+2.66) 的兩倍!
這揭示了一個深刻的道理:適應學生當前水平的老師,比單純水平高但不懂因材施教的老師更重要。
![]()
- 數據效率驚人
即使只使用 10% 的測試數據(僅 3 道題),TTCS 在 AIME24 上的準確率就能達到13.33,遠超同等數據量下 TTRL 的表現(Figure 4)。這表明 TTCS 能夠高效地榨取每一個測試樣本的信息量。
![]()
04. 總結與展望
TTCS 框架的提出,是對「測試時計算」范式的一次重構。團隊證明了:在測試時,模型不應是被動的解題者,而應是主動的課程設計者。
通過 Synthesizer 和 Solver 的共進化,TTCS 完美解決了測試時訓練中「數據稀缺」和「難度斷層」的兩大痛點。
這不僅為提升大模型在復雜數學、代碼推理任務上的表現提供了新思路,也為未來自進化智能體(Self-Evolving Agents)—— 即模型能夠在完全未知的環境中通過自我博弈實現持續進化 —— 奠定了堅實基礎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.