<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DynaAct:DeepSeek R1之外,探索大模型推理的另一條道路

      0
      分享至



      該工作的第一作者為香港大學計算機系博士生趙學亮。螞蟻武威、關健為共同貢獻者。

      在 R1 與 O1 引領「深度推理」浪潮之后,大模型推理領域正迎來新的分叉點!

      大模型推理的爆發,實際源于 scaling 范式的轉變:從 train-time scaling 到 test-time scaling(TTS),即將更多的算力消耗部署在 inference 階段。典型的實現是以 DeepSeek r1 為代表的 long CoT 方法:通過增加思維鏈的長度來獲得答案精度的提升。那么 long CoT 是 TTS 的唯一實現嗎?

      針對這個問題,來自螞蟻和香港大學自然語言組的研究團隊(后簡稱「團隊」)給出了 TTS 的另一種思路:讓模型不僅「想得久」,更要「想得準」。

      在這一思路下,團隊提出了 DynaAct,該工作已經被 NeurIPS 2025 接收。



      • Title:DynaAct: Large Language Model Reasoning with Dynamic Action Spaces
      • Paper:
      • https://arxiv.org/abs/2511.08043
      • Code:
      • https://github.com/zhaoxlpku/DynaAct

      與傳統 token-by-token 式的 CoT 不同,DynaAct 提出以 Action Space Optimization 為核心的 TTS 范式:在每一步推理中動態構建可選動作集合,并通過學習算法從中選擇最優動作,從而讓推理路徑更高效、更具結構化。



      為什么是 Action Space 優化?

      當前主流 TTS 方法通過「更長的思維鏈」來提升性能,但隨之而來的,是搜索空間爆炸與冗余思考。團隊認為,推理效率的瓶頸并不在「算得不夠多」,而在「選得不夠好」。

      DynaAct 將推理過程類比為決策序列:每一步的關鍵不是「生成什么」,而是「選擇什么去執行」。

      因此,它聚焦于如何自動學習、動態構建每一步推理的動作空間,并提出兩條核心原則:

      • 數據驅動——動作候選從真實推理數據中學習,而非人工規則生成;
      • 完備且緊湊——既覆蓋潛在解,又避免冗余。


      方法:

      Submodular Optimization × MCTS

      DynaAct 核心思想是將動作空間學習問題轉化為集合選擇問題,并通過子模優化(Submodular Optimization)來實現線性復雜度的算法。

      子模優化的關鍵在于定義合適的子模函數(Submodular Function)。由于子模函數具備「集合越大,新增元素收益越小」的性質,因此可以貪心地構建一個子集,實現子集性質近似最優,同時算法復雜度維持在線性。

      具體來說,DynaAct 定義的子模函數包括 utility 和 diversity 兩個部分。前者度量動作空間與當前狀態的相似度;而后者則刻畫動作空間中動作的冗余度:







      這樣定義下的子模函數學習等價于學習動作和狀態的 embedding。DynaAct 采用 Q-learning 來優化,希望利用學到的子模函數能最終選出最大化推理回報(reward)的動作空間。



      代碼亮點:

      高效 MCTS 加速

      在系統實現層面,團隊開源了基于 vLLM 的高性能 MCTS 框架。該實現顯著提升了節點擴展、Rollout 與 Reward 計算效率,為后續 TTS 研究提供了通用加速方案。

      效果:

      Smarter Space, Better Reasoning

      在 6 項推理基準上,DynaAct 顯著優于 CoT、RAP 與 rStar 等方法,驗證了動態動作空間的有效性。



      進一步分析顯示,隨著 MCTS Rollout 次數增加,DynaAct 呈現出穩定的 test-time scaling 趨勢:



      同時動作空間更小、延遲幾乎不升:



      展望:

      從 Reasoning 走向 Smarter Search

      DynaAct 證明了:TTS 的未來,不在更多計算,而在更聰明的搜索。

      團隊計劃進一步探索:

      • 將 Dynamic Action Space 擴展到 multi-agent 規劃場景;
      • 將子模優化與強化學習結合,學習端到端的自適應推理策略;
      • 推出更高效的 MCTS 工具包,服務開源社區。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      生涯最艱難比賽?馬塞洛:客場0-5輸巴薩,我們甚至看不到球

      生涯最艱難比賽?馬塞洛:客場0-5輸巴薩,我們甚至看不到球

      懂球帝
      2025-12-08 02:24:05
      殺人誅心:烏克蘭禁止在所有公共場合講俄語

      殺人誅心:烏克蘭禁止在所有公共場合講俄語

      史政先鋒
      2025-12-07 21:23:50
      馬杜羅向川普開出的條件

      馬杜羅向川普開出的條件

      西樓飲月
      2025-12-07 22:38:13
      風向變了,特朗普通告全球,承認中美平起平坐,要跟中國公平競爭

      風向變了,特朗普通告全球,承認中美平起平坐,要跟中國公平競爭

      時時有聊
      2025-12-07 06:42:33
      隨著塞爾比英錦賽奪冠,大師賽16強對陣出爐!大概率以下8人晉級

      隨著塞爾比英錦賽奪冠,大師賽16強對陣出爐!大概率以下8人晉級

      小火箭愛體育
      2025-12-08 08:31:03
      湖南煙花店老板放煙花自殺事件后續來了:真相大白,令人唏噓

      湖南煙花店老板放煙花自殺事件后續來了:真相大白,令人唏噓

      復轉這些年
      2025-12-07 18:02:55
      華子調戲69分超美土耳其女籃球員 前女友嘲諷:讓你的小兄弟冷靜

      華子調戲69分超美土耳其女籃球員 前女友嘲諷:讓你的小兄弟冷靜

      Emily說個球
      2025-12-07 22:13:02
      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯系,正約時間送出禮物

      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯系,正約時間送出禮物

      極目新聞
      2025-12-07 16:35:20
      沒時間了,特朗普準備換將,中國運回大批黃金,美債恐出現拋售潮

      沒時間了,特朗普準備換將,中國運回大批黃金,美債恐出現拋售潮

      影孖看世界
      2025-12-07 19:32:25
      開拓者半場落后20分:楊瀚森首發不到8分鐘2中0 4犯規太悲催

      開拓者半場落后20分:楊瀚森首發不到8分鐘2中0 4犯規太悲催

      醉臥浮生
      2025-12-08 08:15:12
      62歲李連杰發視頻否認為年輕“換心臟換血”,關掉美顏自證清白:換這換那?不如換個心態

      62歲李連杰發視頻否認為年輕“換心臟換血”,關掉美顏自證清白:換這換那?不如換個心態

      930老友記
      2025-12-07 22:33:48
      可恥!剛剛,孟山都騙了全世界25年的論文,終于被強制撤稿了!

      可恥!剛剛,孟山都騙了全世界25年的論文,終于被強制撤稿了!

      徐德文科學頻道
      2025-12-07 19:58:11
      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡華裔男生被評“全球最丑”?本地網友怒懟:這鍋不背!

      新加坡萬事通
      2025-12-07 20:55:03
      如果《芳華》講的是那四個人,那哆啦A夢也是

      如果《芳華》講的是那四個人,那哆啦A夢也是

      熊太行
      2025-12-07 11:26:06
      姓名及排序完全吻合,六安一份《為民服務辦理事項清冊》疑照搬百度人名庫

      姓名及排序完全吻合,六安一份《為民服務辦理事項清冊》疑照搬百度人名庫

      澎湃新聞
      2025-12-08 08:46:12
      存在不當影射行為,郭德綱被約談!

      存在不當影射行為,郭德綱被約談!

      微微熱評
      2025-12-08 00:51:45
      已啟動!陜西適齡男子都要登記 →

      已啟動!陜西適齡男子都要登記 →

      西安觀察
      2025-12-07 23:01:14
      德外長“艱難”開啟訪華行程,專家:對其此行需“聽其言觀其行”

      德外長“艱難”開啟訪華行程,專家:對其此行需“聽其言觀其行”

      環球網資訊
      2025-12-08 06:56:12
      反轉!女主播被抓

      反轉!女主播被抓

      都市快報橙柿互動
      2025-12-08 00:18:44
      要是10年內經濟持續下行,普通老百姓該怎么面對?

      要是10年內經濟持續下行,普通老百姓該怎么面對?

      經濟學教授V
      2025-12-07 18:07:14
      2025-12-08 09:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11862文章數 142510關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      外媒:德外長訪華 迎來政治生涯中最艱難一次出國之旅

      頭條要聞

      外媒:德外長訪華 迎來政治生涯中最艱難一次出國之旅

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      養牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      數碼
      游戲
      旅游
      手機
      教育

      數碼要聞

      TUXEDO推出新一代“臺式機替代”Linux筆記本Gemini 17 - Gen4

      《殺戮尖塔2》創始人:我們通過拋硬幣決定制作續作

      旅游要聞

      云南騰沖:銀杏金黃入畫來

      手機要聞

      Viwoods推出彩色電紙書手機:150PPI墨水屏,4G網絡、側邊指紋

      教育要聞

      全市基礎教育質量提升暨振興縣域高中現場推進會召開

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 自拍视频在线观看成人| 页游| 久久综合给合久久狠狠97色 | 亚洲成人Aⅴ| 无码国产精品久久一区免费| 婷婷综合缴情亚洲| 免费观看羞羞视频网站| 97伦伦午夜电影理伦片| 欧美午夜精品久久久久久浪潮| 亚洲精品一区二区国产精华液| 久热超碰| 丁香婷婷中文字幕| 26uuu亚洲| 欧美丝袜另类| 成人电影c.cc| 人妖网站| 久久婷婷久久一区二区三区| 深夜福利视频在线播放| 泾源县| 日韩精品人妻在线| 99精品中文| 天天射天天日本一道| 亚洲嫩模一区二区三区| 国产人妻鲁鲁一区二区| 日本免费一区二区三区在线播放 | 欧美黑人欧美精品刺激| 绥宁县| 日日躁夜夜躁狠狠久久av| 久久人人妻人人爽人人爽| 免费看婬乱a欧美大片| 亚洲国产精选| 色伊人| 台湾佬中文娱乐网址| 美女裸体自慰在线观看| 亚洲无码人妻| 无码人妻精品一区二区在线视频| 91精品人妻一区二区三区蜜桃 | 天天操夜夜操| 午夜剧场黄色| 日本精品毛片| 99国产欧美精品久久久蜜芽|