網易首頁 > 網易號 > 正文申請入駐

首個測試時共進化合成框架TTCS：在「左右互搏」中突破推理瓶頸

2026-02-10 17:28:32　來源: 機器之心Pro

河北舉報

分享至

在 DeepSeek-R1 和 OpenAI o1 引領的「后訓練（Post-Training）」與「測試時擴展」（Test-Time Scaling）」時代，如何利用測試時的算力進行有效訓練成為焦點。

然而，面對極難的測試題，現有的測試時訓練（Test-Time Training, TTT）往往因偽標簽噪聲大而陷入「瞎猜」的困境。

廈門大學 DeepLIT 課題組提出了一種全新的測試時課程合成框架 ——TTCS (Test-Time Curriculum Synthesis)。該框架不依賴任何外部人工標注，通過生成器（Synthesizer）與求解器（Solver）的共進化博弈，自動合成處于模型「能力邊界」的課程數據，解決了測試樣本過難導致的訓練坍塌問題。

實驗顯示，在 Qwen2.5-Math-1.5B 上，TTCS 將數學推理平均分從 17.30 暴漲至 41.49，在極具挑戰的 AIME 競賽題上更是顯著超越了 TTRL 等強基線。

論文標題：TTCS: Test-Time Curriculum Synthesis for Self-Evolving
論文鏈接：https://arxiv.org/abs/2601.22628
項目代碼：https://github.com/XMUDeepLIT/TTCS
HuggingFace 主頁：https://huggingface.co/papers/2601.22628

01. 核心動機：當「題海戰術」遇到「超綱難題」

隨著大語言模型（LLM）的發展，業界共識已從單純的「預訓練擴大參數」轉向挖掘測試時擴展（Test-Time Scaling）的潛力。

DeepSeek-R1 等模型的成功證明了強化學習（RL）在推理任務上的巨大威力。然而，目前的 RL 范式（如 RLVR）通常依賴大量高質量的 Ground Truth 標簽，這限制了其擴展性。

為了擺脫對標簽的依賴，測試時訓練（Test-Time Training, TTT）應運而生。其核心思想是：在測試階段，利用模型對測試題生成的偽標簽（Pseudo-labels）進行即時更新。

但在面對高難度推理任務（如 AIME 數學競賽）時，TTT 遭遇了致命的「能力錯配」悖論：

偽標簽不可靠（Noisy Rewards）：面對 AIME 這種難題，由于模型本身能力不足，即使進行多次采樣（Majority Voting），大部分答案也是錯的。基于錯誤的共識進行訓練，只會讓模型「越學越偏」。（如 Intro 中 Figure 1 (a) 所示）
缺乏中間階梯（Steep Learning Curve）：就像讓小學生直接做微積分，缺乏中間難度的過渡題目，模型無法跨越巨大的難度鴻溝，導致優化失敗。

團隊思考：如果沒有老師，模型能否像人類自學者一樣，通過自己給自己出題，把一道難題拆解變為一組成梯度、可解決的練習題，從而實現螺旋上升？

基于此，團隊提出了TTCS—— 一個基于共進化（Co-evolution）的測試時課程合成框架。

02. 方法論：Synthesizer 與 Solver 的雙重共進化

TTCS 的核心在于構建了一個閉環的生態系統，包含兩個共享初始權重的 Agent，它們通過迭代式的GRPO (Group Relative Policy Optimization)進行訓練：

角色分工

關鍵機制：如何尋找「能力邊界」？

為了防止生成的題目太簡單（無效訓練）或太難（無效反饋），團隊設計了一套精密的能力自適應獎勵（Capability-Adaptive Reward）機制：

閉環效應：

Solver 能力提升后，其「能力邊界」會向更難的區域移動，感知到這一變化的 Synthesizer 為了獲得高獎勵會自動生成難度更高的問題，Solver 繼續攻克新難題。二者相互追趕，在測試時實現了動態的 Curriculum Learning。

03. 硬核實驗結果：推理能力提升

團隊在 AMC23、AIME24、AIME25、MATH-500、Minerva 等多個權威數學基準上進行了廣泛驗證。基礎模型涵蓋 Qwen2.5-Math (1.5B, 7B) 和 Qwen3-4B。

1. 主流基準上的碾壓式提升

TTCS 在所有尺寸的模型上均取得了顯著優于基線的成績（詳見 Table 1）：

Qwen2.5-Math-1.5B：TTCS 的平均分達到，相比預訓練模型（17.30）提升了+24.19 分！即使對比測試時微調的強基線 TTRL（36.56），依然有大幅優勢。
Qwen2.5-Math-7B：TTCS 平均分達到，相比廣泛使用的 Self-Consistency（32.15）提升了+20.39 分，再次證明了主動的測試時訓練遠勝于被動的多路采樣。

2. 攻克高難度競賽題 (AIME)

在最能體現推理上限的 AIME 競賽題上，TTCS 展現了極強的攻堅能力：

AIME 2024：在 1.5B 模型上，TTRL 僅得 13.23 分，而 TTCS 躍升至分，提升幅度達
AIME 2025：在 7B 模型上，TTCS 達到了分，顯著優于 TTRL 的 14.06 分。
這有力地證明了：當測試題太難導致 TTRL 的偽標簽失效時，TTCS 通過合成中間難度的課程，成功架起了通往高難度推理的橋梁。

3. 為什么 TTCS 有效？（深度分析）

為了探究性能提升的來源，團隊進行了多維度的分析：

不僅僅是數學（泛化性）

實驗 Q1 顯示，在 AIME 上進行測試時訓練的 TTCS 模型，在MMLU-Pro和SuperGPQA等通用領域推理任務上也實現了性能躍升（Figure 3a）。這說明模型學到的是通用的推理邏輯，而非簡單的過擬合。

動態老師 > 靜態名師

團隊嘗試用一個更強但固定的Qwen2.5-14B-Instruct模型作為 Synthesizer（實驗 Q3）。結果令人驚訝：共進化的 1.5B Synthesizer (TTCS) 帶來的提升 (+5.34) 竟然是靜態 14B Synthesizer (+2.66) 的兩倍！

這揭示了一個深刻的道理：適應學生當前水平的老師，比單純水平高但不懂因材施教的老師更重要。

數據效率驚人

即使只使用 10% 的測試數據（僅 3 道題），TTCS 在 AIME24 上的準確率就能達到13.33，遠超同等數據量下 TTRL 的表現（Figure 4）。這表明 TTCS 能夠高效地榨取每一個測試樣本的信息量。

04. 總結與展望

TTCS 框架的提出，是對「測試時計算」范式的一次重構。團隊證明了：在測試時，模型不應是被動的解題者，而應是主動的課程設計者。

通過 Synthesizer 和 Solver 的共進化，TTCS 完美解決了測試時訓練中「數據稀缺」和「難度斷層」的兩大痛點。

這不僅為提升大模型在復雜數學、代碼推理任務上的表現提供了新思路，也為未來自進化智能體（Self-Evolving Agents）—— 即模型能夠在完全未知的環境中通過自我博弈實現持續進化 —— 奠定了堅實基礎。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.