![]()
該工作的第一作者為香港大學計算機系博士生趙學亮。螞蟻武威、關健為共同貢獻者。
在 R1 與 O1 引領「深度推理」浪潮之后,大模型推理領域正迎來新的分叉點!
大模型推理的爆發,實際源于 scaling 范式的轉變:從 train-time scaling 到 test-time scaling(TTS),即將更多的算力消耗部署在 inference 階段。典型的實現是以 DeepSeek r1 為代表的 long CoT 方法:通過增加思維鏈的長度來獲得答案精度的提升。那么 long CoT 是 TTS 的唯一實現嗎?
針對這個問題,來自螞蟻和香港大學自然語言組的研究團隊(后簡稱「團隊」)給出了 TTS 的另一種思路:讓模型不僅「想得久」,更要「想得準」。
在這一思路下,團隊提出了 DynaAct,該工作已經被 NeurIPS 2025 接收。
![]()
- Title:DynaAct: Large Language Model Reasoning with Dynamic Action Spaces
- Paper:
- https://arxiv.org/abs/2511.08043
- Code:
- https://github.com/zhaoxlpku/DynaAct
與傳統 token-by-token 式的 CoT 不同,DynaAct 提出以 Action Space Optimization 為核心的 TTS 范式:在每一步推理中動態構建可選動作集合,并通過學習算法從中選擇最優動作,從而讓推理路徑更高效、更具結構化。
![]()
為什么是 Action Space 優化?
當前主流 TTS 方法通過「更長的思維鏈」來提升性能,但隨之而來的,是搜索空間爆炸與冗余思考。團隊認為,推理效率的瓶頸并不在「算得不夠多」,而在「選得不夠好」。
DynaAct 將推理過程類比為決策序列:每一步的關鍵不是「生成什么」,而是「選擇什么去執行」。
因此,它聚焦于如何自動學習、動態構建每一步推理的動作空間,并提出兩條核心原則:
- 數據驅動——動作候選從真實推理數據中學習,而非人工規則生成;
- 完備且緊湊——既覆蓋潛在解,又避免冗余。
方法:
Submodular Optimization × MCTS
DynaAct 核心思想是將動作空間學習問題轉化為集合選擇問題,并通過子模優化(Submodular Optimization)來實現線性復雜度的算法。
子模優化的關鍵在于定義合適的子模函數(Submodular Function)。由于子模函數具備「集合越大,新增元素收益越小」的性質,因此可以貪心地構建一個子集,實現子集性質近似最優,同時算法復雜度維持在線性。
具體來說,DynaAct 定義的子模函數包括 utility 和 diversity 兩個部分。前者度量動作空間與當前狀態的相似度;而后者則刻畫動作空間中動作的冗余度:
![]()
![]()
![]()
這樣定義下的子模函數學習等價于學習動作和狀態的 embedding。DynaAct 采用 Q-learning 來優化,希望利用學到的子模函數能最終選出最大化推理回報(reward)的動作空間。
![]()
代碼亮點:
高效 MCTS 加速
在系統實現層面,團隊開源了基于 vLLM 的高性能 MCTS 框架。該實現顯著提升了節點擴展、Rollout 與 Reward 計算效率,為后續 TTS 研究提供了通用加速方案。
效果:
Smarter Space, Better Reasoning
在 6 項推理基準上,DynaAct 顯著優于 CoT、RAP 與 rStar 等方法,驗證了動態動作空間的有效性。
![]()
進一步分析顯示,隨著 MCTS Rollout 次數增加,DynaAct 呈現出穩定的 test-time scaling 趨勢:
![]()
同時動作空間更小、延遲幾乎不升:
![]()
展望:
從 Reasoning 走向 Smarter Search
DynaAct 證明了:TTS 的未來,不在更多計算,而在更聰明的搜索。
團隊計劃進一步探索:
- 將 Dynamic Action Space 擴展到 multi-agent 規劃場景;
- 將子模優化與強化學習結合,學習端到端的自適應推理策略;
- 推出更高效的 MCTS 工具包,服務開源社區。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.