<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      人大&通義:IterResearch用40K上下文輕松實現(xiàn)2048輪交互不退化

      0
      分享至



      以 40K 上下文,讓 Agent 搜索 2048 輪,性能還能一路漲?這幾乎是不可想象的。

      當(dāng)前主流的 Search Agent 都面臨同一個尷尬:Agent 需要反復(fù)搜索網(wǎng)頁、比對線索、驗證假設(shè)、回溯修正,交互輪次動輒數(shù)十上百輪。但以 ReAct 為代表的傳統(tǒng)范式,把每一輪的思考和工具返回結(jié)果不斷追加到同一個上下文窗口中 —— 做得越多,上下文越臃腫,留給推理的空間越少,早期的噪聲和錯誤路徑還被永久「焊死」在記憶里。

      結(jié)果就是:Agent 搜得越深入,反而「想」得越糊涂。

      能不能讓 Agent 在探索過程中不斷「清理工作臺」,始終在一個干凈的空間里思考?

      來自中國人民大學(xué)與阿里巴巴通義實驗室的研究團(tuán)隊提出了 IterResearch,一種全新的迭代式深度研究范式。

      通過馬爾可夫式的工作空間重構(gòu),IterResearch 讓 Agent 在僅 40K 上下文長度下完成了 2048 次工具交互且性能不衰減,在 BrowseComp 上從 3.5% 一路攀升至 42.5%。

      目前,該論文已被 ICLR 2026 接收。



      • 論文鏈接:https://arxiv.org/pdf/2511.07327
      • 代碼鏈接:https://github.com/Chen-GX/IterResearch

      「堆上下文」為什么難以實現(xiàn) Interaction Scaling?

      在 Search Agent 場景下,Agent 的工作本質(zhì)上是一個與外部環(huán)境不斷交互的循環(huán)。傳統(tǒng) ReAct 范式將這一過程建模為「單上下文堆疊」:每一輪的推理和工具返回被持續(xù)追加到同一個上下文窗口中,形成線性增長的記憶鏈。

      這種看似自然的設(shè)計,在長程任務(wù)中會引發(fā)兩個結(jié)構(gòu)性問題:

      • 其一是上下文窒息(context suffocation):上下文窗口的總?cè)萘渴怯邢薜模瑲v史信息不斷堆積意味著留給后續(xù)推理的「生成預(yù)算」被持續(xù)壓縮。Agent 被迫給出更短、更淺的回答,最終滑向草率的結(jié)論;
      • 其二是噪聲污染(noise contamination):搜索過程中產(chǎn)生的大量網(wǎng)頁摘要、早期的錯誤路徑和無關(guān)線索被永久寫入上下文,對后續(xù)推理產(chǎn)生級聯(lián)干擾,信噪比持續(xù)走低。

      社區(qū)已經(jīng)意識到了這些問題,陸續(xù)提出了 context folding、summary 等緩解策略,試圖為搖搖欲墜的上下文「續(xù)命」。但這些方法本質(zhì)上是在補救,并未從根本上改變上下文線性增長的結(jié)構(gòu) —— 給 Agent 256K 甚至更長的窗口,也只是推遲崩潰,而非避免崩潰。

      不再「堆疊」,而是「重構(gòu)」:IterResearch 的核心思路

      IterResearch 對這一問題的回應(yīng)不是修修補補,而是從范式層面重新思考:與其不斷往上下文里塞東西,不如讓 Agent 學(xué)會「邊做邊清理」。



      研究團(tuán)隊將長程研究過程形式化為一個馬爾可夫決策過程(MDP)。核心思想是:Agent 不再維護(hù)一個不斷膨脹的完整歷史,而是通過一個持續(xù)進(jìn)化的「演進(jìn)式報告」(evolving report)來綜合已有成果、壓縮無關(guān)信息、更新推理狀態(tài)。每一輪推理都在一個被重構(gòu)過的、恒定復(fù)雜度的工作空間中展開。

      具體來說,Agent 的每一步包含兩個核心動作:

      • 決策階段:Agent 基于當(dāng)前狀態(tài),輸出三部分 —— 思考過程(Think)、更新后的演進(jìn)報告(Report)和本輪工具調(diào)用請求(Action)。報告在這里扮演了「壓縮記憶」的角色,Agent 需要在每一輪主動決定哪些信息值得保留,哪些應(yīng)該被丟棄。
      • 狀態(tài)轉(zhuǎn)移階段:進(jìn)入下一輪時,完整的歷史軌跡被有意丟棄,Agent 僅保留更新后的報告、上一輪的工具調(diào)用及其返回結(jié)果,三者共同構(gòu)成新的推理起點。

      從上下文管理的視角看,傳統(tǒng) ReAct 的狀態(tài)空間隨交互輪次 t 線性增長(O (t)),而 IterResearch 的工作空間始終保持恒定(O (1))。

      研究團(tuán)隊指出,這種機制與 RNN/LSTM 中的隱狀態(tài)更新有結(jié)構(gòu)上的相似性 —— 都通過一個隱狀態(tài)來承載記憶并逐步更新。不同之處在于,IterResearch 的「隱狀態(tài)」是一份顯式、可解釋的研究報告,既能濃縮歷史,又能為下一步推理提供清晰的起點。



      40K 上下文,2048 輪交互不退化:Interaction Scaling 的威力

      這項工作中最核心的發(fā)現(xiàn),就是 Interaction Scaling 特性 ——給 Agent 更多的交互預(yù)算,性能就能持續(xù)提升,而不會像傳統(tǒng)方法那樣因為上下文溢出而崩潰。



      在 BrowseComp 基準(zhǔn)上,研究團(tuán)隊將 Agent 的最大交互輪次從 2 逐步放寬到 2048。結(jié)果顯示,IterResearch 的準(zhǔn)確率從 3.5% 一路攀升到 42.5%,且在 2048 輪時依然沒有出現(xiàn)明顯的退化跡象。而傳統(tǒng)單上下文方法在幾十輪后就已經(jīng)不堪重負(fù)。

      值得強調(diào)的是,2048 并非 IterResearch 的交互上限,而僅是實驗評測范圍的終點。模型在 2048 輪時性能曲線仍保持上升趨勢,表明該范式在理論上具備進(jìn)一步擴(kuò)展的潛力。

      這一結(jié)果傳遞了一個重要信號:長程任務(wù)的「難」,可能并非完全來自模型推理能力不足,更有可能是探索深度受限。當(dāng) Agent 擁有一個干凈的思維空間并被允許充分探索時,它確實有能力在超長任務(wù)中持續(xù)進(jìn)步。

      另一個有意思的發(fā)現(xiàn)是:盡管最大輪次被設(shè)置為 2048,Agent 實際上平均只用了約 80 輪。它學(xué)會了在獲取足夠信息后主動終止,而非機械地耗盡預(yù)算 —— 這說明Agent 不僅學(xué)會了「走得遠(yuǎn)」,還學(xué)會了「知道何時停」。

      「即插即用」的推理范式:不訓(xùn)練也能提升閉源模型

      如果僅把 IterResearch 的迭代邏輯作為提示策略(prompting strategy),直接應(yīng)用于閉源模型而不做任何訓(xùn)練,效果會怎樣?

      研究團(tuán)隊在 o3 和 DeepSeek-V3.1 上做了驗證。在完全相同的任務(wù)設(shè)定下,相比傳統(tǒng)的 ReAct 提示范式,IterResearch 在最具挑戰(zhàn)性的 BrowseComp 上分別為 o3 帶來了 12.7 個百分點、為 DeepSeek-V3.1 帶來了 19.2 個百分點的提升。



      這說明IterResearch 的核心優(yōu)勢在于結(jié)構(gòu)性的認(rèn)知機制,而非依賴特定數(shù)據(jù)或微調(diào)技巧。無論底層模型是什么架構(gòu),它觸及的都是長程推理中的共性瓶頸。

      總結(jié)

      IterResearch 提出了一個簡潔而有效的范式轉(zhuǎn)換:與其不斷修補一個注定會崩潰的線性上下文,不如從結(jié)構(gòu)上讓 Agent 學(xué)會「邊做邊重構(gòu)思維」。

      這一思路在訓(xùn)練框架、提示策略和跨范式遷移三個層面都展現(xiàn)了一致的有效性,而其揭示的 Interaction Scaling 特性更是為長程 Agent 的能力邊界打開了新的想象空間。在 Agent 走向真正長期、持續(xù)運行的未來,IterResearch 提供了一個值得關(guān)注的方向。

      作者介紹

      第一作者陳國鑫,中國人民大學(xué)高瓴人工智能學(xué)院博士生,導(dǎo)師為趙鑫教授和宋睿華教授,研究方向為 LLM 推理與 Agent,聚焦搜索智能體與代碼智能體。曾在阿里巴巴通義實驗室等機構(gòu)實習(xí),在 ICLR、ICML、NeurIPS、ACL 等頂級會議發(fā)表多篇論文。本工作由中國人民大學(xué)與阿里巴巴通義實驗室合作完成。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      從中國男籃驚險逆轉(zhuǎn)臺北隊的過程看:周琦在國家隊尚有一席之地

      從中國男籃驚險逆轉(zhuǎn)臺北隊的過程看:周琦在國家隊尚有一席之地

      姜大叔侃球
      2026-03-01 21:55:19
      哈梅內(nèi)伊被精準(zhǔn)斬首!當(dāng)86歲強人走出地堡:他誤判了什么?

      哈梅內(nèi)伊被精準(zhǔn)斬首!當(dāng)86歲強人走出地堡:他誤判了什么?

      大江看潮
      2026-03-02 07:49:45
      一只蒼蠅困死整個大陸?無法種地不能養(yǎng)馬,這才是非洲的窮根!

      一只蒼蠅困死整個大陸?無法種地不能養(yǎng)馬,這才是非洲的窮根!

      你是我心中最美星空
      2026-02-27 07:53:59
      基辛格直言,美國100年搞垮了4個世界老二,第五個會反手干掉美國

      基辛格直言,美國100年搞垮了4個世界老二,第五個會反手干掉美國

      文史達(dá)觀
      2024-03-07 14:02:52
      A股:漲跌不一,近4300股下跌,原因是什么?不出意外明天繼續(xù)漲

      A股:漲跌不一,近4300股下跌,原因是什么?不出意外明天繼續(xù)漲

      虎哥閑聊
      2026-03-02 15:08:57
      黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

      黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

      新游戲大妹子
      2026-02-18 09:18:57
      560名美軍傷亡,林肯號挨炸,美國爆發(fā)游行,特朗普算錯一件事!

      560名美軍傷亡,林肯號挨炸,美國爆發(fā)游行,特朗普算錯一件事!

      欽點歷史
      2026-03-02 13:53:29
      MIT 證實:科學(xué)學(xué)習(xí)順序,讓你少學(xué) 23%,成績反提 16.7%

      MIT 證實:科學(xué)學(xué)習(xí)順序,讓你少學(xué) 23%,成績反提 16.7%

      戶外阿毽
      2026-03-01 17:38:10
      他們想讓這條視頻消失,結(jié)果全網(wǎng)都在看

      他們想讓這條視頻消失,結(jié)果全網(wǎng)都在看

      文立于塵
      2026-03-01 18:16:43
      中國電網(wǎng)砸5萬億鎖死優(yōu)勢!越南被迫限電減產(chǎn),歐洲電價暴漲10倍

      中國電網(wǎng)砸5萬億鎖死優(yōu)勢!越南被迫限電減產(chǎn),歐洲電價暴漲10倍

      財經(jīng)保探長
      2026-02-23 19:10:05
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      娛樂圈的對賭協(xié)議有多恐怖?贏的人就是楊冪,輸者直接變成張國立

      娛樂圈的對賭協(xié)議有多恐怖?贏的人就是楊冪,輸者直接變成張國立

      林輕吟
      2026-03-01 19:35:00
      美媒:中日空戰(zhàn)將一邊倒!不僅靠最強4.5代殲-15,解放軍還有殺招

      美媒:中日空戰(zhàn)將一邊倒!不僅靠最強4.5代殲-15,解放軍還有殺招

      起喜電影
      2026-03-02 16:59:17
      劉孜回老家遵義為父母購百平豪宅,親自盯裝修,父母反應(yīng)令她失望

      劉孜回老家遵義為父母購百平豪宅,親自盯裝修,父母反應(yīng)令她失望

      小椰的奶奶
      2026-03-02 16:21:53
      人還沒到北京,美國先啟動調(diào)查,斷中方特殊待遇?特朗普來者不善

      人還沒到北京,美國先啟動調(diào)查,斷中方特殊待遇?特朗普來者不善

      依偎在角落
      2026-03-02 20:45:35
      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

      夜深愛雜談
      2026-02-18 20:55:58
      地球圍繞太陽旋轉(zhuǎn),那么太陽圍繞什么旋轉(zhuǎn)呢?

      地球圍繞太陽旋轉(zhuǎn),那么太陽圍繞什么旋轉(zhuǎn)呢?

      宇宙時空
      2026-03-01 19:20:03
      扎克伯格帶老婆看Prada秀,時尚圈坐C位!除老婆沒變其余全變了…

      扎克伯格帶老婆看Prada秀,時尚圈坐C位!除老婆沒變其余全變了…

      商務(wù)范
      2026-03-02 15:47:18
      汪小菲窩里橫!直播說:我知道我媽對我好,她不會和我生氣的!

      汪小菲窩里橫!直播說:我知道我媽對我好,她不會和我生氣的!

      小娛樂悠悠
      2026-03-02 13:39:43
      千萬不要小看你遇到的每一個顧客!網(wǎng)友:不到1個小時店就被封了

      千萬不要小看你遇到的每一個顧客!網(wǎng)友:不到1個小時店就被封了

      夜深愛雜談
      2025-12-06 21:39:08
      2026-03-02 22:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12395文章數(shù) 142575關(guān)注度
      往期回顧 全部

      科技要聞

      榮耀發(fā)布機器人手機、折疊屏、人形機器人

      頭條要聞

      美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

      頭條要聞

      美記者詢問就伊朗局勢中方會采取什么行動 外交部回應(yīng)

      體育要聞

      “想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經(jīng)要聞

      油價飆升 美伊沖突將如何攪動全球經(jīng)濟(jì)

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態(tài)體驗

      態(tài)度原創(chuàng)

      本地
      旅游
      房產(chǎn)
      教育
      軍事航空

      本地新聞

      津南好·四時總相宜

      旅游要聞

      視點|北京隆福寺街區(qū)掛牌“北京市商業(yè)步行街”

      房產(chǎn)要聞

      方案突然曝光!海口北師大附校,又有書包大盤殺出!

      教育要聞

      石室小學(xué)育賢分校:騏驥少年馭“機”而上 科技體育點亮校園新程

      軍事要聞

      美國中央司令部透露對伊朗動武全部武器裝備清單

      無障礙瀏覽 進(jìn)入關(guān)懷版