<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      人大&通義:IterResearch用40K上下文輕松實現2048輪交互不退化

      0
      分享至



      以 40K 上下文,讓 Agent 搜索 2048 輪,性能還能一路漲?這幾乎是不可想象的。

      當前主流的 Search Agent 都面臨同一個尷尬:Agent 需要反復搜索網頁、比對線索、驗證假設、回溯修正,交互輪次動輒數十上百輪。但以 ReAct 為代表的傳統范式,把每一輪的思考和工具返回結果不斷追加到同一個上下文窗口中 —— 做得越多,上下文越臃腫,留給推理的空間越少,早期的噪聲和錯誤路徑還被永久「焊死」在記憶里。

      結果就是:Agent 搜得越深入,反而「想」得越糊涂。

      能不能讓 Agent 在探索過程中不斷「清理工作臺」,始終在一個干凈的空間里思考?

      來自中國人民大學與阿里巴巴通義實驗室的研究團隊提出了 IterResearch,一種全新的迭代式深度研究范式。

      通過馬爾可夫式的工作空間重構,IterResearch 讓 Agent 在僅 40K 上下文長度下完成了 2048 次工具交互且性能不衰減,在 BrowseComp 上從 3.5% 一路攀升至 42.5%。

      目前,該論文已被 ICLR 2026 接收。



      • 論文鏈接:https://arxiv.org/pdf/2511.07327
      • 代碼鏈接:https://github.com/Chen-GX/IterResearch

      「堆上下文」為什么難以實現 Interaction Scaling?

      在 Search Agent 場景下,Agent 的工作本質上是一個與外部環境不斷交互的循環。傳統 ReAct 范式將這一過程建模為「單上下文堆疊」:每一輪的推理和工具返回被持續追加到同一個上下文窗口中,形成線性增長的記憶鏈。

      這種看似自然的設計,在長程任務中會引發兩個結構性問題:

      • 其一是上下文窒息(context suffocation):上下文窗口的總容量是有限的,歷史信息不斷堆積意味著留給后續推理的「生成預算」被持續壓縮。Agent 被迫給出更短、更淺的回答,最終滑向草率的結論;
      • 其二是噪聲污染(noise contamination):搜索過程中產生的大量網頁摘要、早期的錯誤路徑和無關線索被永久寫入上下文,對后續推理產生級聯干擾,信噪比持續走低。

      社區已經意識到了這些問題,陸續提出了 context folding、summary 等緩解策略,試圖為搖搖欲墜的上下文「續命」。但這些方法本質上是在補救,并未從根本上改變上下文線性增長的結構 —— 給 Agent 256K 甚至更長的窗口,也只是推遲崩潰,而非避免崩潰。

      不再「堆疊」,而是「重構」:IterResearch 的核心思路

      IterResearch 對這一問題的回應不是修修補補,而是從范式層面重新思考:與其不斷往上下文里塞東西,不如讓 Agent 學會「邊做邊清理」。



      研究團隊將長程研究過程形式化為一個馬爾可夫決策過程(MDP)。核心思想是:Agent 不再維護一個不斷膨脹的完整歷史,而是通過一個持續進化的「演進式報告」(evolving report)來綜合已有成果、壓縮無關信息、更新推理狀態。每一輪推理都在一個被重構過的、恒定復雜度的工作空間中展開。

      具體來說,Agent 的每一步包含兩個核心動作:

      • 決策階段:Agent 基于當前狀態,輸出三部分 —— 思考過程(Think)、更新后的演進報告(Report)和本輪工具調用請求(Action)。報告在這里扮演了「壓縮記憶」的角色,Agent 需要在每一輪主動決定哪些信息值得保留,哪些應該被丟棄。
      • 狀態轉移階段:進入下一輪時,完整的歷史軌跡被有意丟棄,Agent 僅保留更新后的報告、上一輪的工具調用及其返回結果,三者共同構成新的推理起點。

      從上下文管理的視角看,傳統 ReAct 的狀態空間隨交互輪次 t 線性增長(O (t)),而 IterResearch 的工作空間始終保持恒定(O (1))。

      研究團隊指出,這種機制與 RNN/LSTM 中的隱狀態更新有結構上的相似性 —— 都通過一個隱狀態來承載記憶并逐步更新。不同之處在于,IterResearch 的「隱狀態」是一份顯式、可解釋的研究報告,既能濃縮歷史,又能為下一步推理提供清晰的起點。



      40K 上下文,2048 輪交互不退化:Interaction Scaling 的威力

      這項工作中最核心的發現,就是 Interaction Scaling 特性 ——給 Agent 更多的交互預算,性能就能持續提升,而不會像傳統方法那樣因為上下文溢出而崩潰。



      在 BrowseComp 基準上,研究團隊將 Agent 的最大交互輪次從 2 逐步放寬到 2048。結果顯示,IterResearch 的準確率從 3.5% 一路攀升到 42.5%,且在 2048 輪時依然沒有出現明顯的退化跡象。而傳統單上下文方法在幾十輪后就已經不堪重負。

      值得強調的是,2048 并非 IterResearch 的交互上限,而僅是實驗評測范圍的終點。模型在 2048 輪時性能曲線仍保持上升趨勢,表明該范式在理論上具備進一步擴展的潛力。

      這一結果傳遞了一個重要信號:長程任務的「難」,可能并非完全來自模型推理能力不足,更有可能是探索深度受限。當 Agent 擁有一個干凈的思維空間并被允許充分探索時,它確實有能力在超長任務中持續進步。

      另一個有意思的發現是:盡管最大輪次被設置為 2048,Agent 實際上平均只用了約 80 輪。它學會了在獲取足夠信息后主動終止,而非機械地耗盡預算 —— 這說明Agent 不僅學會了「走得遠」,還學會了「知道何時停」。

      「即插即用」的推理范式:不訓練也能提升閉源模型

      如果僅把 IterResearch 的迭代邏輯作為提示策略(prompting strategy),直接應用于閉源模型而不做任何訓練,效果會怎樣?

      研究團隊在 o3 和 DeepSeek-V3.1 上做了驗證。在完全相同的任務設定下,相比傳統的 ReAct 提示范式,IterResearch 在最具挑戰性的 BrowseComp 上分別為 o3 帶來了 12.7 個百分點、為 DeepSeek-V3.1 帶來了 19.2 個百分點的提升。



      這說明IterResearch 的核心優勢在于結構性的認知機制,而非依賴特定數據或微調技巧。無論底層模型是什么架構,它觸及的都是長程推理中的共性瓶頸。

      總結

      IterResearch 提出了一個簡潔而有效的范式轉換:與其不斷修補一個注定會崩潰的線性上下文,不如從結構上讓 Agent 學會「邊做邊重構思維」。

      這一思路在訓練框架、提示策略和跨范式遷移三個層面都展現了一致的有效性,而其揭示的 Interaction Scaling 特性更是為長程 Agent 的能力邊界打開了新的想象空間。在 Agent 走向真正長期、持續運行的未來,IterResearch 提供了一個值得關注的方向。

      作者介紹

      第一作者陳國鑫,中國人民大學高瓴人工智能學院博士生,導師為趙鑫教授和宋睿華教授,研究方向為 LLM 推理與 Agent,聚焦搜索智能體與代碼智能體。曾在阿里巴巴通義實驗室等機構實習,在 ICLR、ICML、NeurIPS、ACL 等頂級會議發表多篇論文。本工作由中國人民大學與阿里巴巴通義實驗室合作完成。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      新華社消息|外交部:已有1萬余名中國旅客自阿聯酋、阿曼、沙特等國安全有序返回

      新華社消息|外交部:已有1萬余名中國旅客自阿聯酋、阿曼、沙特等國安全有序返回

      新華社
      2026-03-10 16:37:42
      67歲湯鎮業近況曝光!再婚娶小25歲青島美女,如今一家8口很幸福

      67歲湯鎮業近況曝光!再婚娶小25歲青島美女,如今一家8口很幸福

      代軍哥哥談娛樂
      2026-03-10 09:09:50
      不可錯過!3月10日晚上19:40比賽!中央5套CCTV5、CCTV5+直播表

      不可錯過!3月10日晚上19:40比賽!中央5套CCTV5、CCTV5+直播表

      皮皮觀天下
      2026-03-10 12:34:48
      3月10日俄烏:最直接的受益者

      3月10日俄烏:最直接的受益者

      山河路口
      2026-03-10 18:29:13
      心臟好不好,看臉就知道!3種“求救紋”出現,趕緊按這倆穴位!

      心臟好不好,看臉就知道!3種“求救紋”出現,趕緊按這倆穴位!

      徐孟醫生說疼痛
      2026-03-08 19:00:07
      特朗普稱對伊朗戰事“已基本結束”

      特朗普稱對伊朗戰事“已基本結束”

      每日經濟新聞
      2026-03-10 07:08:31
      偉大的2-1!德約2連勝到手,1戰創造2大紀錄,下輪PK衛冕冠軍!

      偉大的2-1!德約2連勝到手,1戰創造2大紀錄,下輪PK衛冕冠軍!

      劉姚堯的文字城堡
      2026-03-10 07:41:39
      重慶冠軍賽晚宴:石洵瑤艷壓群芳,王曼昱人緣好,莎莎獨自美好

      重慶冠軍賽晚宴:石洵瑤艷壓群芳,王曼昱人緣好,莎莎獨自美好

      余飩搞笑段子
      2026-03-10 11:20:47
      粟裕一度鎮不住許世友,四大野戰軍的幾位首長,有幾人能鎮住他?

      粟裕一度鎮不住許世友,四大野戰軍的幾位首長,有幾人能鎮住他?

      浩渺青史
      2026-03-10 18:31:00
      封神一戰!伊朗導彈把以色列命脈炸成火海,特朗普語無倫次露底牌

      封神一戰!伊朗導彈把以色列命脈炸成火海,特朗普語無倫次露底牌

      音樂時光的娛樂
      2026-03-10 12:25:27
      上海七旬老人與牌友聚餐后離世!5名同飲者遭索賠34萬元……法院判了

      上海七旬老人與牌友聚餐后離世!5名同飲者遭索賠34萬元……法院判了

      環球網資訊
      2026-03-09 20:09:28
      瞬間破防!33歲全職媽媽翻出高考成績單,哭訴曾經學習的苦白吃了

      瞬間破防!33歲全職媽媽翻出高考成績單,哭訴曾經學習的苦白吃了

      火山詩話
      2026-03-08 06:58:34
      川音“淫魔”校長:88名女音樂教師,霸占87人,細節曝光不堪入目

      川音“淫魔”校長:88名女音樂教師,霸占87人,細節曝光不堪入目

      就一點
      2026-03-08 10:54:42
      美媒公布美軍戰損,美國8年心血構建的防線,只撐了不到一個星期

      美媒公布美軍戰損,美國8年心血構建的防線,只撐了不到一個星期

      安珈使者啊
      2026-03-10 10:30:40
      炸鍋!東莞一中學取消周日晚修!家長:天塌了!

      炸鍋!東莞一中學取消周日晚修!家長:天塌了!

      東莞好生活
      2026-03-10 16:04:11
      Mac版QClaw開放下載:可用微信登錄,默認使用國產大模型

      Mac版QClaw開放下載:可用微信登錄,默認使用國產大模型

      識礁Farsight
      2026-03-10 10:27:14
      美民主黨人警告:除非魯比奧等人就對伊行動作證,否則動用一切程序性手段阻撓參議院正常運作

      美民主黨人警告:除非魯比奧等人就對伊行動作證,否則動用一切程序性手段阻撓參議院正常運作

      環球網資訊
      2026-03-10 11:46:00
      震驚!男友父母花近1000萬買新房,女子要加她的名字,然后退婚了

      震驚!男友父母花近1000萬買新房,女子要加她的名字,然后退婚了

      火山詩話
      2026-03-10 06:57:22
      恐怖!美軍的陰暗操作令世界不寒而栗

      恐怖!美軍的陰暗操作令世界不寒而栗

      補壹刀
      2026-03-09 15:41:03
      善惡到頭終有報?57歲央視女主持王小丫,已走上另一條大路

      善惡到頭終有報?57歲央視女主持王小丫,已走上另一條大路

      妙知
      2026-01-13 11:55:41
      2026-03-10 20:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142580關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      肖戰首奪SMG視帝,孫儷四封視后創歷史

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      本地
      數碼
      親子
      旅游
      手機

      本地新聞

      云游中國|候鳥高顏值亮相!沉浸式打卡青海濕地

      數碼要聞

      史上最大電池折疊屏旗艦!榮耀Magic V6圖賞

      親子要聞

      當萌娃被問:嬰兒為什么總是睡覺?她的回答太逗了

      旅游要聞

      意外邂逅金甲財神殿的人間煙火,這里可不只一年兩度的“財神會”

      手機要聞

      三星Galaxy手機新增閑置72小時自動重啟功能,提升隱私安全

      無障礙瀏覽 進入關懷版