<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI記住失敗經(jīng)驗(yàn):微軟提出Re-TRAC框架,4B性能SOTA,30B超越358B

      0
      分享至



      想象一下,你讓 AI 助手結(jié)合搜索工具探索一個(gè)復(fù)雜問(wèn)題。它第一次探索時(shí)走錯(cuò)了方向,但第二次、第三次,它依然重復(fù)同樣的錯(cuò)誤探索路徑。雖然你可能可以從最終得到的多次探索結(jié)果中挑選出一個(gè)勉強(qiáng)滿意的答案,但是這既低效,也需要人工干預(yù)。這就是當(dāng)前大多數(shù)深度搜索智能體面臨的困境——它們無(wú)法「記住」之前的探索經(jīng)驗(yàn),每次都是從頭開(kāi)始,導(dǎo)致大量冗余搜索和資源浪費(fèi)。

      現(xiàn)有的深度搜索智能體大多基于 ReAct 框架構(gòu)建,采用線性推理方式:「思考→調(diào)用工具→觀察→再思考」。這種設(shè)計(jì)在簡(jiǎn)單任務(wù)上表現(xiàn)良好,但在需要多輪探索的深度搜索任務(wù)中,往往陷入局部最優(yōu)、重復(fù)探索和低效搜索的困境。

      來(lái)自東南大學(xué)、微軟亞洲研究院等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種全新的解決方案——Re-TRAC(REcursive TRAjectory Compression),這個(gè)框架讓 AI 智能體能夠「記住」每次探索的經(jīng)驗(yàn),在多個(gè)探索軌跡之間傳遞經(jīng)驗(yàn),實(shí)現(xiàn)漸進(jìn)式的智能搜索。



      • 論文標(biāo)題:RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents
      • 論文鏈接:
      • https://arxiv.org/abs/2602.02486
      • 項(xiàng)目鏈接:
      • https://github.com/microsoft/InfoAgent

      讓探索變成「漸進(jìn)式學(xué)習(xí)」過(guò)程

      為什么 ReAct 會(huì)失敗?

      ReAct 框架的核心問(wèn)題在于其線性設(shè)計(jì)。每個(gè)探索軌跡都是獨(dú)立的,模型無(wú)法回顧先前嘗試的狀態(tài)。在長(zhǎng)上下文場(chǎng)景下,早期制定的計(jì)劃逐漸被遺忘,關(guān)鍵線索被埋沒(méi)。

      研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn),現(xiàn)有深度搜索模型即使經(jīng)過(guò)大量強(qiáng)化學(xué)習(xí)訓(xùn)練,其 Pass@K 性能仍遠(yuǎn)高于 Pass@1。這意味著模型本身具備解決問(wèn)題的推理能力潛能,問(wèn)題在于受限于上下文長(zhǎng)度限制,單次探索難以生成足夠多樣的探索路徑,無(wú)法覆蓋足夠?qū)拸V的搜索空間。

      Re-TRAC:遞歸式軌跡壓縮

      Re-TRAC 的核心思想是將探索從一系列獨(dú)立嘗試轉(zhuǎn)變?yōu)闈u進(jìn)式學(xué)習(xí)過(guò)程。具體而言,在每個(gè)探索軌跡結(jié)束時(shí)生成一個(gè)結(jié)構(gòu)化的狀態(tài)表示,針對(duì)深度搜索任務(wù),記錄以下三個(gè)維度的信息:

      • 答案與分析結(jié)論:當(dāng)前可能性最高的答案與其關(guān)鍵推理結(jié)果——為后續(xù)推理提供錨點(diǎn)。

      • 證據(jù)庫(kù)與來(lái)源驗(yàn)證:已搜集到的證據(jù)及其來(lái)源,并標(biāo)記哪些已被查閱、已被驗(yàn)證——避免冗余的工具調(diào)用和重復(fù)檢查。

      • 不確定項(xiàng)與待探索方向:現(xiàn)階段需要繼續(xù)探索驗(yàn)證的角度、曾被遺漏的候選探索分支與曾因失敗放棄的探索方向;幫助模型在下一輪中補(bǔ)全未探索的搜索空間。

      這個(gè)結(jié)構(gòu)化狀態(tài)將被添加到下一輪探索的輸入中,確保智能體在每輪新嘗試開(kāi)始時(shí),都能清楚地了解什么已被驗(yàn)證、什么仍未解決,以及應(yīng)該將探索重點(diǎn)放在哪里。



      小模型也能「以小博大」

      研究團(tuán)隊(duì)在五個(gè)具有挑戰(zhàn)性的搜索導(dǎo)向基準(zhǔn)上評(píng)估了 Re-TRAC:BrowseComp、BrowseComp-ZH、XBench、GAIA 和 HLE。



      4B 模型性能 SOTA

      RE-TRAC-4B 在所有小于 15B 參數(shù)的基線中表現(xiàn)最佳:

      • BrowseComp上達(dá)到 30.0% 的準(zhǔn)確率;
      • BrowseComp-ZH上達(dá)到 36.1%;
      • GAIA上達(dá)到 70.4%;
      • XBench上達(dá)到 76.6%;
      • HLE上達(dá)到 22.2%。

      更令人驚訝的是,這個(gè)僅 4B 參數(shù)的模型在多個(gè)基準(zhǔn)上超越了更大規(guī)模的模型。

      • XBench基準(zhǔn)上,RE-TRAC-4B 的 76.6% 準(zhǔn)確率不僅遠(yuǎn)超 InfoAgent-14B 的 40.4%(提升了近 90%),也超過(guò)了 NestBrowse-4B 的 74.0%。

      • GAIA基準(zhǔn)上,RE-TRAC-4B 的 70.4% 準(zhǔn)確率超過(guò)了 AgentCPM-Explore-4B 的 63.9% 和 NestBrowse-4B 的 68.9%。

      30B 模型的進(jìn)一步突破

      RE-TRAC-30B 同樣表現(xiàn)出色,在除 HLE 外的所有基準(zhǔn)上都擊敗了 MiniMAX-M2-229B。

      • BrowseComp上,其準(zhǔn)確率達(dá)到 53%,甚至超過(guò)了 GLM-4.7-358B 的 52%。

      • GAIA上,RE-TRAC-30B 擊敗了所有閉源模型,在 BrowseComp 和 BrowseComp-ZH 上排名第二。

      這些結(jié)果說(shuō)明,通過(guò)軌跡壓縮與跨輪次信息傳遞,小模型在資源受限場(chǎng)景下也能獲得接近甚至超過(guò)更大模型的效果。

      更少的消耗、更高的性能的通用拓展

      Re-TRAC 不僅可以通過(guò)訓(xùn)練提升小模型性能,還可以作為無(wú)需訓(xùn)練的測(cè)試擴(kuò)展直接應(yīng)用于前沿模型。

      研究團(tuán)隊(duì)在 o4-mini、o3、GPT-5、DeepSeek-V3.2、GLM-4.7 和 MiniMax-M2.1 上實(shí)現(xiàn)了 Re-TRAC 框架,并與多數(shù)投票(Majority Voting)、加權(quán)投票(Weighted Voting)和最佳選擇(Best-of-N)等方法進(jìn)行了對(duì)比。



      結(jié)果顯示,Re-TRAC 在所有模型上都達(dá)到了最佳或具有競(jìng)爭(zhēng)力的性能。在 BrowseComp300 子集上:

      • o4-mini通過(guò) Re-TRAC 從 25.7% 提升到 46.8%;
      • o3從 54.9% 提升到 69.8%;
      • GPT-5-medium從 48.3% 提升到 66.6%;
      • DeepSeek-V3.2從 45.3% 提升到 60.8%;
      • GLM-4.7從 37.7% 提升到 60.7%。

      在傳統(tǒng)框架中,由于軌跡相互獨(dú)立,資源使用量通常隨擴(kuò)展近似線性增長(zhǎng)。Re-TRAC 會(huì)繼承之前輪次的狀態(tài),使搜索空間逐步收斂,從而減少冗余工具調(diào)用與重復(fù)探索,提升探索的效率。

      技術(shù)細(xì)節(jié):

      如何訓(xùn)練 Re-TRAC 模型

      研究團(tuán)隊(duì)開(kāi)發(fā)了一種后訓(xùn)練方法,構(gòu)建了基于結(jié)構(gòu)化狀態(tài)表示的監(jiān)督微調(diào)(SFT)數(shù)據(jù)。訓(xùn)練數(shù)據(jù)通過(guò)實(shí)體樹(shù)方法構(gòu)建:從維基百科收集大量實(shí)體作為樹(shù)根,然后遞歸搜索相關(guān)實(shí)體作為子節(jié)點(diǎn),直到樹(shù)達(dá)到預(yù)定義深度。

      通過(guò)選擇從根到葉節(jié)點(diǎn)的路徑并將邊轉(zhuǎn)換為子問(wèn)題,團(tuán)隊(duì)合成了 33K 個(gè)問(wèn)答對(duì)。然后,收集 GLM-4.7 在這些合成問(wèn)題上的 Re-TRAC(4 輪)軌跡,經(jīng)過(guò)過(guò)濾后得到 104k 個(gè)訓(xùn)練樣本,用于訓(xùn)練 RE-TRAC-4B 和 RE-TRAC-30B 模型。

      實(shí)驗(yàn)結(jié)果顯示,經(jīng)過(guò) SFT 訓(xùn)練后,Qwen3-4B-Instruct 在 BrowseComp 上的準(zhǔn)確率從 2.7% 大幅提升到 30.0%,在 BrowseComp-ZH 上從 6.9% 提升到 36.1%,在 GAIA 上從 24.4% 提升到 70.4%,在 XBench 上從 45.0% 提升到 76.6%。

      這表明通過(guò)簡(jiǎn)單的 SFT 訓(xùn)練,配合 Re-TRAC 框架,可以產(chǎn)生強(qiáng)大的搜索智能體,實(shí)現(xiàn)與通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的模型相當(dāng)甚至更好的性能。

      總結(jié):

      優(yōu)化 ReAct 的搜索框架,

      讓小模型跑出大模型表現(xiàn)

      Re-TRAC 可以看作是針對(duì)深度搜索任務(wù)優(yōu)化過(guò)的 ReAct 框架:在原有「思考→調(diào)用工具→觀察→再思考」的范式上,引入了跨輪次的軌跡壓縮和結(jié)構(gòu)化狀態(tài)表示,讓智能體在開(kāi)放網(wǎng)絡(luò)檢索、復(fù)雜信息匯總等場(chǎng)景中不再「從零開(kāi)始」,而是像人一樣復(fù)用既有證據(jù)、總結(jié)失敗教訓(xùn)并規(guī)劃未來(lái)方向。

      更重要的是,這種有針對(duì)性的框架設(shè)計(jì)讓小模型也能跑出大模型級(jí)別的效果,為資源受限場(chǎng)景(如邊緣設(shè)備、本地部署)提供了一條「用小模型做大事」的現(xiàn)實(shí)路徑。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      芒果臺(tái)踩雷!趙子琪被淘汰后直播開(kāi)撕,她的過(guò)往連張朝陽(yáng)都忌憚

      芒果臺(tái)踩雷!趙子琪被淘汰后直播開(kāi)撕,她的過(guò)往連張朝陽(yáng)都忌憚

      小徐講八卦
      2026-04-12 06:23:01
      炸鍋了!塑膠原料瘋漲50%-60%,上游拒交低價(jià)貨,下游工廠扛不住

      炸鍋了!塑膠原料瘋漲50%-60%,上游拒交低價(jià)貨,下游工廠扛不住

      尋墨閣
      2026-04-13 02:03:22
      太難了!4外援打“養(yǎng)生球”,本土球員傷了9人,僅剩3個(gè)“菜鳥(niǎo)”

      太難了!4外援打“養(yǎng)生球”,本土球員傷了9人,僅剩3個(gè)“菜鳥(niǎo)”

      金山話體育
      2026-04-12 09:04:07
      陳麗華留下的紫檀博物館到底多值錢(qián)?1根木頭能換北京一套房!

      陳麗華留下的紫檀博物館到底多值錢(qián)?1根木頭能換北京一套房!

      瓜哥的動(dòng)物日記
      2026-04-12 17:09:44
      他進(jìn)政治局沒(méi)多久靠邊站,找李富春:我不輕生,出意外你給我作證

      他進(jìn)政治局沒(méi)多久靠邊站,找李富春:我不輕生,出意外你給我作證

      談古論今歷史有道
      2026-02-24 11:35:03
      成了功勞在特朗普,搞砸怪萬(wàn)斯?從遠(yuǎn)離戰(zhàn)事到“綁定戰(zhàn)局”,萬(wàn)斯被曝處境如履薄冰

      成了功勞在特朗普,搞砸怪萬(wàn)斯?從遠(yuǎn)離戰(zhàn)事到“綁定戰(zhàn)局”,萬(wàn)斯被曝處境如履薄冰

      紅星新聞
      2026-04-12 19:37:54
      只差9次!科比保持20年的后衛(wèi)第一紀(jì)錄,即將被哈登超越

      只差9次!科比保持20年的后衛(wèi)第一紀(jì)錄,即將被哈登超越

      錢(qián)說(shuō)體育
      2026-04-12 10:27:45
      早上七點(diǎn)起床錯(cuò)了?醫(yī)生建議:過(guò)了70歲,起床要盡量做到這7點(diǎn)

      早上七點(diǎn)起床錯(cuò)了?醫(yī)生建議:過(guò)了70歲,起床要盡量做到這7點(diǎn)

      泠泠說(shuō)史
      2025-10-23 16:41:51
      美伊談判結(jié)束,特朗普給伊朗一個(gè)下馬威,內(nèi)塔:希望摧毀伊朗政權(quán)

      美伊談判結(jié)束,特朗普給伊朗一個(gè)下馬威,內(nèi)塔:希望摧毀伊朗政權(quán)

      小楊侃事
      2026-04-13 02:28:45
      巴頓孫子走進(jìn)烏克蘭指揮中心:每一次擊殺都在大屏直播

      巴頓孫子走進(jìn)烏克蘭指揮中心:每一次擊殺都在大屏直播

      桂系007
      2026-04-11 00:11:11
      6.8萬(wàn)紫貂大衣事件反轉(zhuǎn)來(lái)了?閨蜜二人都不好過(guò),網(wǎng)友:該!

      6.8萬(wàn)紫貂大衣事件反轉(zhuǎn)來(lái)了?閨蜜二人都不好過(guò),網(wǎng)友:該!

      椰青美食分享
      2026-04-12 17:47:07
      場(chǎng)均19分,年薪5960萬(wàn)卻是聯(lián)盟第一!屬于你的時(shí)代也該結(jié)束了

      場(chǎng)均19分,年薪5960萬(wàn)卻是聯(lián)盟第一!屬于你的時(shí)代也該結(jié)束了

      老梁體育漫談
      2026-04-12 22:58:01
      分清大小王?馬筱梅攜子回京,汪小菲態(tài)度大變,張?zhí)m說(shuō)了1句話

      分清大小王?馬筱梅攜子回京,汪小菲態(tài)度大變,張?zhí)m說(shuō)了1句話

      阿策聊實(shí)事
      2026-04-12 20:56:27
      有關(guān)薄一波的十個(gè)冷知識(shí)

      有關(guān)薄一波的十個(gè)冷知識(shí)

      深度報(bào)
      2026-02-13 22:45:30
      哈維·馬丁內(nèi)斯:面對(duì)梅西時(shí)的無(wú)助,我面對(duì)其他球員時(shí)從未體會(huì)過(guò)

      哈維·馬丁內(nèi)斯:面對(duì)梅西時(shí)的無(wú)助,我面對(duì)其他球員時(shí)從未體會(huì)過(guò)

      硯底沉香
      2026-04-12 18:13:03
      北京偶遇柯藍(lán)黃志忠,女方空手男方攥票,不婚15年竟處成了這樣

      北京偶遇柯藍(lán)黃志忠,女方空手男方攥票,不婚15年竟處成了這樣

      陳意小可愛(ài)
      2026-04-13 02:03:43
      新門(mén)澳開(kāi)獎(jiǎng)結(jié)果分享推薦,六叔今晚推薦兩肖四碼特碼三中三給大家

      新門(mén)澳開(kāi)獎(jiǎng)結(jié)果分享推薦,六叔今晚推薦兩肖四碼特碼三中三給大家

      雨沫文化
      2026-04-11 17:53:10
      被超模劉雯驚艷了!滿屏都是“基礎(chǔ)款搭基礎(chǔ)色”,黃金吊墜好搶眼

      被超模劉雯驚艷了!滿屏都是“基礎(chǔ)款搭基礎(chǔ)色”,黃金吊墜好搶眼

      明星私服穿搭daily
      2026-04-11 22:19:49
      財(cái)務(wù)造假,退市!300391明日將摘牌

      財(cái)務(wù)造假,退市!300391明日將摘牌

      新浪財(cái)經(jīng)
      2026-04-12 19:07:51
      年齡大了要“養(yǎng)骨”,建議常吃8種“健腿菜”,腿腳有勁又硬朗!

      年齡大了要“養(yǎng)骨”,建議常吃8種“健腿菜”,腿腳有勁又硬朗!

      美食店主
      2026-04-08 00:19:53
      2026-04-13 04:16:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12732文章數(shù) 142623關(guān)注度
      往期回顧 全部

      科技要聞

      理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

      頭條要聞

      伊媒:美驅(qū)逐艦遭革命衛(wèi)隊(duì)鎖定 距離被摧毀僅差幾分鐘

      頭條要聞

      伊媒:美驅(qū)逐艦遭革命衛(wèi)隊(duì)鎖定 距離被摧毀僅差幾分鐘

      體育要聞

      創(chuàng)造歷史!五大聯(lián)賽首位女性主教練誕生

      娛樂(lè)要聞

      賭王女兒何超蕸病逝,常年和乳癌斗爭(zhēng)

      財(cái)經(jīng)要聞

      美伊談判破裂的三大癥結(jié)

      汽車要聞

      煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

      態(tài)度原創(chuàng)

      時(shí)尚
      教育
      藝術(shù)
      健康
      本地

      被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

      教育要聞

      小班教學(xué),9月開(kāi)校,樹(shù)德派校長(zhǎng)!這所中學(xué),正在招老師

      藝術(shù)要聞

      揭開(kāi)她筆下女人的神秘面紗,豪放灑脫的魅力令人驚嘆!

      干細(xì)胞抗衰4大誤區(qū),90%的人都中招

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版