<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DecEx-RAG:過程監督+智能剪枝,讓大模型檢索推理快6倍

      0
      分享至


      Agentic RAG 是當前 LLM 應用中一個非常火熱的方向。與傳統 RAG 不同它讓模型在推理過程中自主決定要不要檢索、什么時候檢索。這樣就相當于給模型一套工具讓它自己判斷該用哪個。

      目前訓練 Agentic RAG 的主流做法是結果監督強化學習:只在推理結束后給一個標量獎勵:對就是對、錯就是錯,而過程中完全沒有任何反饋。

      這種方式有幾個明顯的問題:

      模型必須跑完整個推理鏈才能拿到分數,中途即使跑偏了也沒法糾正;獎勵信號極其稀疏,模型根本不知道哪些步驟有用、哪些是在浪費時間;而且單一的全局分數太粗糙了,沒法告訴模型到底是哪個環節出了問題,想做細粒度優化幾乎不可能。

      DecEx-RAG 的核心思路

      DecEx-RAG 把 RAG 建模成一個馬爾可夫決策過程(MDP),分成決策和執行兩個階段。



      圖1:DecEx-RAG 框架示意圖,展示搜索樹的擴展與剪枝過程

      決策階段解決兩個問題:該停還是該繼續?如果繼續的話用內部知識還是去檢索外部信息?每一步模型都要做出終止決策 σ? 和檢索決策 δ?。

      執行階段關注的是生成質量。不管是子問題還是最終答案,都要求高質量輸出。這個階段用過程級獎勵來優化。

      而剪枝策略是 DecEx-RAG 的一大亮點:搜索樹擴展太快會導致計算量爆炸所以需要動態剪枝,每一層做多次 rollout 模擬不同決策,把結果匯總成中間獎勵;超過一半樣本認為該停就停;如果內部知識生成的答案分數夠高,直接跳過檢索。

      實測效果也是相當不錯的,平均擴展時間從 743.2 秒壓縮到 134.9 秒,快了將近 6 倍性能卻幾乎沒有損失。

      MDP 建模的技術細節

      狀態 S 是增量構建的,每一步都在歷史中累積原始問題、子問題和對應的答案或檢索文檔。動作 A 包含兩部分:終止決策 σ? 決定繼續還是停止,檢索決策 δ? 決定用內部知識還是發子查詢拿外部文檔。狀態轉移 P 也直接:停止就輸出答案,不停就把新的子問題和結果加進歷史繼續走。

      獎勵 R 的計算方式是對給定(狀態,動作)對做多次 rollout,然后取正確性分數的均值:

      R(s?, a?) = (1/n) × Σ v(rollout?)

      這里有兩個設計值得注意,子問題和子查詢是分開優化的,因為措辭上的微小差異可能導致檢索結果天差地別。另外決策和執行被解耦了:決策數據用于提升效率,執行數據用于改善輸出質量。

      剪枝機制

      生成過程監督數據非常耗時,DecEx-RAG 的剪枝機制在這里起了關鍵作用。

      終止通過采樣投票決定:每一步多次采樣模型決策超過 50% 同意停止就終止迭代,而分支評分則是對每個子問題做 rollout 模擬,算平均分,只留表現最好的分支進入下一層。還有一個省算力的設計就是如果純靠內部知識的答案分數超過預設閾值,檢索直接跳過。



      圖2:三種擴展方法對比。k 為每個決策的執行分支數,n 為 rollout 次數,l 為層深。

      理論上這種剪枝把復雜度從指數級拉到了線性級。在實際測試中單問題擴展時間從 743.2 秒降到 134.9 秒,6 倍提速而且可以保證性能不降。

      訓練流程

      第一步是監督微調(SFT):從搜索樹中抽取根到葉的最優推理鏈用來做標準監督學習。模型輸入是推理步驟序列,輸出是下一個最佳動作——可能是子問題、答案或子查詢。

      第二步是直接偏好優化(DPO):剪枝前模型會生成多組候選決策和執行結果,把這些配對保存下來用于偏好訓練,讓模型學會區分好的和不夠好的選擇。

      實驗結果

      測試在六個開放域問答數據集上進行:HotpotQA、2WikiMultiHopQA、Bamboogle、PopQA、Natural Questions(NQ)、AmbigQA。



      圖3:DecEx-RAG 與基線方法在六個數據集上的表現。最佳/次佳分數分別用粗體/下劃線標注

      DecEx-RAG 拿下了最好成績,平均 EM 43.7、F1 52.4,在所有基線中領先。

      復現所需的工程細節

      策略模型方面,檢索相關決策用 Qwen2.5–7B-Instruct,其他決策步驟跑在 Qwen3–30B-A3B 上。知識庫是 2018 年的維基百科轉儲,訓練數據從 HotpotQA 抽了 2,000 條,WikiMultiHopQA 抽了 1,000 條。

      總結

      DecEx-RAG 最值得肯定的地方在于把推理過程結構化了。決策和執行的分離、分層剪枝的引入,把搜索復雜度從指數級壓到近乎線性,對效率和擴展性都是實質性的改進。

      不過也有一些可以改進的地方,比如當前系統依賴硬編碼的啟發式規則:"超過半數 rollout 投票停止就停"、"內部答案超過固定閾值就跳過檢索"。這類規則在噪音或不確定性較大時容易出問題,可能會遇到過于激進提前終止或者過于保守浪費計算的情況。一個可能的改進方向是學習信息價值(VOI)函數,根據不確定性或預期收益動態決定是否繼續檢索而不是靠寫死的閾值。

      用多次 rollout 的平均 EM/F1 作為獎勵信號,邏輯上沒問題但存在一個不匹配:模型可能中間步驟一塌糊涂,最后碰巧蒙對了答案,照樣拿高分。這樣一來過程中的錯誤就沒機會被糾正,不過增加 rollout 次數可以緩解這個問題,但成本會快速上升。更穩健的做法是引入雙值基線或值加權 rollout,減少對最終結果的過度擬合。

      論文:

      https://avoid.overfit.cn/post/7c93c6c1703f491e8d68f8156abecfef

      作者:Florian June

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歐爾班宣布反制措施:在我們耗盡石油之前,烏克蘭人將先耗盡資金

      歐爾班宣布反制措施:在我們耗盡石油之前,烏克蘭人將先耗盡資金

      陳恧侃故事
      2026-03-07 11:31:12
      現場直擊:伊朗防空系統攔截美以目標

      現場直擊:伊朗防空系統攔截美以目標

      新華社
      2026-03-06 10:54:01
      鄭爽分享美國近況,穿搭不輸當紅明星,自曝做醫美網友直呼認不出

      鄭爽分享美國近況,穿搭不輸當紅明星,自曝做醫美網友直呼認不出

      萌神木木
      2026-03-06 17:33:33
      河南女孩六年前為救父親性命,稱誰給40萬就嫁給誰,如今過得如何

      河南女孩六年前為救父親性命,稱誰給40萬就嫁給誰,如今過得如何

      牛鍋巴小釩
      2026-03-06 19:45:04
      致敬西虹市首富?切爾西眾人開球前將球圍在中間,解說員啞然失笑

      致敬西虹市首富?切爾西眾人開球前將球圍在中間,解說員啞然失笑

      懂球帝
      2026-03-07 13:08:08
      廣西女子發現罕見青竹鯉,時不時側身蹭水底,網友:魚生天花板!

      廣西女子發現罕見青竹鯉,時不時側身蹭水底,網友:魚生天花板!

      貍貓之一的動物圈
      2026-03-06 09:38:48
      小學生實名投訴極氪 建議取消讓她寫作業的小桌板!極氪回應

      小學生實名投訴極氪 建議取消讓她寫作業的小桌板!極氪回應

      快科技
      2026-03-06 23:12:33
      王震堅決反對中顧委副主任排名,薄一波:我是常務,就這么定了

      王震堅決反對中顧委副主任排名,薄一波:我是常務,就這么定了

      芊芊子吟
      2026-03-06 09:45:07
      莫雷加德全家抵達重慶:對這座城市印象深刻,會請樊振東推薦美食

      莫雷加德全家抵達重慶:對這座城市印象深刻,會請樊振東推薦美食

      乒談
      2026-03-07 00:19:01
      中國女籃72-66再勝巴西,不是張子宇王思雨,她17+7成新核

      中國女籃72-66再勝巴西,不是張子宇王思雨,她17+7成新核

      林子說事
      2026-03-07 08:15:14
      速度滑冰世錦賽:寧忠巖收獲短距離全能、男子1000米兩項季軍

      速度滑冰世錦賽:寧忠巖收獲短距離全能、男子1000米兩項季軍

      懂球帝
      2026-03-07 07:21:57
      高市早苗被逼到絕路:派也死,不派也死

      高市早苗被逼到絕路:派也死,不派也死

      鯨探所長
      2026-03-07 12:02:36
      霍爾木茲海峽船只遭襲4死3重傷!兩萬海員被困,伊朗稱不會關閉海峽,但與以美有關船只不得通行;普京與伊總統通話:通過多種渠道保持聯系

      霍爾木茲海峽船只遭襲4死3重傷!兩萬海員被困,伊朗稱不會關閉海峽,但與以美有關船只不得通行;普京與伊總統通話:通過多種渠道保持聯系

      大風新聞
      2026-03-07 10:05:06
      霍震霆也沒想到,46歲的霍啟剛,會在兩會上憑一個舉動給霍家長臉

      霍震霆也沒想到,46歲的霍啟剛,會在兩會上憑一個舉動給霍家長臉

      攬星河的筆記
      2026-03-06 23:55:22
      結束了!整整27年生涯!曝冠軍主帥最后一舞

      結束了!整整27年生涯!曝冠軍主帥最后一舞

      籃球實戰寶典
      2026-03-06 18:57:43
      晴好周末,出游安排起來 | 天氣早知道

      晴好周末,出游安排起來 | 天氣早知道

      上觀新聞
      2026-03-07 11:57:06
      針對“不敢休、不讓休”怪圈,國家出手了!

      針對“不敢休、不讓休”怪圈,國家出手了!

      國是直通車
      2026-03-07 09:12:15
      村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

      村里紅白事從不回,男子母親離世,鄰居等著看笑話,結果長了見識

      子芫伴你成長
      2026-02-23 12:21:40
      重回國乒?塵埃落定,劉國梁發聲,崗位曝光,布局國乒男隊發展

      重回國乒?塵埃落定,劉國梁發聲,崗位曝光,布局國乒男隊發展

      卿子書
      2026-03-06 09:25:27
      比賽還沒開打,上海申花先迎來兩個壞消息,新賽季斬獲開門紅懸了

      比賽還沒開打,上海申花先迎來兩個壞消息,新賽季斬獲開門紅懸了

      零度眼看球
      2026-03-07 08:58:12
      2026-03-07 13:40:49
      deephub incentive-icons
      deephub
      CV NLP和數據挖掘知識
      1940文章數 1456關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      頭條要聞

      特朗普突然放話"先解決伊朗后解決古巴" 梅西聽懵了

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄的“JH戀” 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      游戲
      親子
      家居
      本地
      公開課

      鍵鼠不是萬能的神!外媒盤點近年適合用手柄玩的游戲

      親子要聞

      六個月寶寶查出散光,原因竟是父母長期身旁玩手機,媽媽懵了:我一直以為他閉著眼就沒事

      家居要聞

      暖棕撞色 輕法奶油風

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版