<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      全面戰勝ReAct!斯坦福全新智能體推理框架,性能提升112.5%

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】斯坦福和MIT的研究團隊推出了一種新的AI智能體推理框架ReCAP,在長上下文任務中全面超越了現有的主流框架ReAct,性能提升顯著。ReCAP通過獨特的遞歸樹結構和三大機制,解決了大語言模型在復雜任務中常見的目標漂移、上下文斷層和成本爆炸等問題。在多項基準測試中,ReCAP均取得了大幅領先的成績,展現出強大的通用性和穩定性。盡管計算成本略有增加,但其在關鍵任務中的表現使其成為極具潛力的新一代通用推理架構。

      自2022年ReAct框架提出以來,AI智能體推理領域便進入了百家爭鳴的時代,各種復雜架構如雨后春筍般涌現。

      然而,這些架構大多曇花一現,因其復雜的結構導致在更換評測基準時需要大幅修改示例,表現遠不如ReAct穩定泛用,這也使得ReAct在過去三年中,成為了該領域事實上的主流與標桿。

      但是,我們真的不能再做得更好了嗎?

      面對大模型在長上下文任務中走幾步就忘的短期記憶頑疾,業界是否只能止步于此?

      來自斯坦福大學與MIT的研究團隊給出了肯定答案,正式發布的AI Agent推理新框架——ReCAP(遞歸上下文感知推理與規劃),從真正意義上統一了序列推理和層級推理,在多種任務中全面戰勝了ReAct,且繼承了ReAct示例簡單、高通用性,和即插即用的優勢。


      論文鏈接:https://arxiv.org/pdf/2510.23822

      在嚴格遵循 pass@1(一次通過)的評測原則下,ReCAP在長序列具身任務Robotouille上相比ReAct基線取得了84.2%(同步)和112.5%(異步)的巨大性能提升。

      長上下文任務的三大「死穴」

      團隊指出,當今大語言模型在執行復雜任務時普遍有三種問題:

      • 目標漂移(Goal Drift):執行幾步后就逐漸忽略了原本的目標,使得執行結果與期望不符。

      • 上下文斷層(Context Loss):高層的規劃信息在長序列執行中丟失,導致高層思考與低層執行不協調。

      • 成本爆炸(Prompt Explosion):每次遞歸都重新鋪開上下文示例和提示詞,推理成本指數增長。


      簡單說,LLM就像一個短期記憶型天才,而主流推理框架各有局限:

      • 序列推理(例如Chain of Thoughts,ReAct)雖然上下文連貫,但常常因為任務太長導致目標漂移;

      • 層級推理(例如ADaPT,THREAD)將任務分解為子任務來明確目標,但給子任務單獨分配上下文示例和提示詞,導致上下文斷層和成本爆炸。


      ReCAP

      讓序列推理和層級推理有機結合


      ReCAP的核心在于將一個有記憶、有反饋的遞歸樹結構作為模型的工作記憶區,其三大機制環環相扣:

      • 計劃前瞻分解(Recursive Task Decomposition with Plan-Ahead):模型首先生成一個完整的子任務列表,但只執行第一個子任務,完成后再動態優化后續計劃。

      • 結構化父任務再注入(Consistent Multi-level Context and Structured Injection):整個執行流程只有一個上下文,由所有任務共享。每次子任務遞歸返回時,父任務會將自身的思考和計劃再次注入上下文,使父任務在重新計劃時可以參考上次的思維和執行結果,規劃出能真正達成任務目標的底層操作。

      • 滑動窗口記憶(Sliding Window and Scalable Memory Efficiency):通過滑動窗口機制,在統一上下文中只保留最新關鍵歷史,實現了內存占用可控的深度遞歸,從根本上杜絕了成本爆炸。


      實驗結果

      長上下文任務性能大幅躍升


      團隊在多個典型長上下文推理基準上驗證了ReCAP的效果。結果令人矚目:

      • 在Robotouille(同步)上取得70%成功率,較ReAct(38%)提升84.2%

      • 在Robotouille(異步)上取得53%成功率,較ReAct(24%)提升112.5%

      • 在ALFWorld上取得91%成功率,穩定優于ReAct(84%)

      • 在SWE-bench Verified取得44.8%的成功率,優于ReAct基線(39.58%)

      值得注意的是,團隊在實驗中始終秉持pass@1的實驗原則,即不使用樣本層面的重試、多數投票或者束搜索。這意味著ReCAP能在真實多步環境中,更好地保持目標一致性與執行連貫性——不僅「想得對」,還能「做得穩」。

      ReCAP是除ReAct之外,又一個能夠在具身推理、以及代碼編輯這兩種截然不同的任務上都取得穩健表現的通用推理架構。

      論文中排除了THREAD、Reflexion等其他基線,因其在實驗設置中難以穩定復現或與 pass@1 協議不兼容,這進一步凸顯了ReCAP作為新一代通用推理基線的潛力。

      優勢與成本的權衡

      任何強大的能力都伴隨著成本。團隊對此進行了透明分析:ReCAP的總計算成本約為ReAct的三倍。這主要來自于其核心的計劃前瞻分解機制所額外需要的LLM調用。

      然而,考慮到其在關鍵任務上帶來的性能巨幅提升與目標一致性,這種成本的增加在對準確性要求高的實際應用中是可以接受的。這為開發者提供了一個清晰的性價比權衡選項。

      遞歸,是通往通用智能的鑰匙?

      從人類思維到圖靈機,遞歸始終是智能的底層邏輯。ReCAP的提出,可視為AI邁向通用推理系統的關鍵一步。

      其潛力遠不止于論文所驗證的任務范疇。任何依賴復雜決策回路與長期上下文記憶的大型任務,都是ReCAP的理想應用場景。

      例如在深度研究中自主遍歷文獻、整合多源信息并生成洞察報告;或在復雜軟件工程中管理龐大代碼庫與依賴關系,推進需多步驗證的系統項目。

      長遠來看,ReCAP的遞歸規劃能力可以與空間智能相結合,解決更為復雜的現實世界問題。李飛飛教授近日指出,空間智能——即理解、推理并與三維世界交互的能力,是AI的下一個前沿。

      ReCAP可以為具身智能機器人規劃復雜的長期任務序列,而空間智能模型則負責處理實時感知與動作控制,二者結合實現機器人在動態環境中的自主規劃與可靠執行。

      隨著代碼的開源,一個更擅長長期規劃、穩健執行的AI時代或許即將到來。

      作者介紹

      共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均為斯坦福大學工程學院計算機系碩士研究生

      Alex Pentland教授,麻省理工學院媒體實驗室 創始人之一,美國國家工程院院士,Toshiba Professor at MIT,斯坦福大學 HAI Fellow。

      Jiaxin Pei博士,斯坦福大學博士后研究員,研究興趣集中在大語言模型、人機交互、Agentic AI,即將前往得克薩斯大學奧斯汀分校任教。

      參考資料:

      https://arxiv.org/pdf/2510.23822

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      楊瀚森首次首發:首節不到4分鐘0分2犯規 開拓者20-40落后

      楊瀚森首次首發:首節不到4分鐘0分2犯規 開拓者20-40落后

      醉臥浮生
      2025-12-08 07:45:50
      新國標電動自行車陸續到店開售 價格如何?

      新國標電動自行車陸續到店開售 價格如何?

      新京報
      2025-12-08 07:19:40
      雅迪爭議電動車已下架?記者實探線下門店仍在出售,店主介紹時直搖頭沒人買,客服:該車型正持續優化

      雅迪爭議電動車已下架?記者實探線下門店仍在出售,店主介紹時直搖頭沒人買,客服:該車型正持續優化

      極目新聞
      2025-12-06 14:36:34
      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      馬斯克被干懵了:特斯拉全球第4,前3全是中國車,小米都排第7了

      互聯網.亂侃秀
      2025-12-07 11:37:05
      新華社火力全開,痛批雷軍玩文字游戲

      新華社火力全開,痛批雷軍玩文字游戲

      熱點菌本君
      2025-12-07 16:10:29
      0-2!姆巴佩失單刀,熊皇11場0球,皇馬主場爆冷,恐遭曼城吊打

      0-2!姆巴佩失單刀,熊皇11場0球,皇馬主場爆冷,恐遭曼城吊打

      我的護球最獨特
      2025-12-08 06:06:05
      一家老小入住重慶一酒店4個月拖欠房費4000多,老板倒貼也不肯搬,進展:搬走了

      一家老小入住重慶一酒店4個月拖欠房費4000多,老板倒貼也不肯搬,進展:搬走了

      瀟湘晨報
      2025-12-07 18:59:10
      屢禁不止?又有疑似“東北雨姐”小號冒頭,視頻只聞其聲不見其人,露臉畫面不到1秒

      屢禁不止?又有疑似“東北雨姐”小號冒頭,視頻只聞其聲不見其人,露臉畫面不到1秒

      極目新聞
      2025-12-07 19:52:40
      又一巨頭暴雷!收割2400億元,百萬人資金打水漂,創始人主動投案

      又一巨頭暴雷!收割2400億元,百萬人資金打水漂,創始人主動投案

      財經八卦
      2025-12-06 17:59:27
      梅開48度!2年半,這是梅西在邁阿密的一人一城

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      體壇周報
      2025-12-07 10:30:13
      “畸形”的輪胎市場:外國人愛用的中國輪胎,國人為啥就是不買賬

      “畸形”的輪胎市場:外國人愛用的中國輪胎,國人為啥就是不買賬

      毒sir財經
      2025-12-06 22:07:18
      已確認!寧波適齡男子都要登記

      已確認!寧波適齡男子都要登記

      極目新聞
      2025-12-07 14:23:22
      日本通告聯合國,逼中國認栽,話音剛落,上合組織給東京立規矩

      日本通告聯合國,逼中國認栽,話音剛落,上合組織給東京立規矩

      時時有聊
      2025-12-07 16:48:40
      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯系,正約時間送出禮物

      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯系,正約時間送出禮物

      極目新聞
      2025-12-07 16:35:20
      6國宣布出兵!中方不低頭也得低?揚言和中方斗到底!

      6國宣布出兵!中方不低頭也得低?揚言和中方斗到底!

      花花娛界
      2025-12-06 19:38:20
      演員金晨回應妝容被嘲:我錯了,我再也不自己亂化妝了,“真的很丑”

      演員金晨回應妝容被嘲:我錯了,我再也不自己亂化妝了,“真的很丑”

      極目新聞
      2025-12-07 20:24:25
      反轉!清華學霸為300元家教費撕臉高三家長后續,網友:水平太差

      反轉!清華學霸為300元家教費撕臉高三家長后續,網友:水平太差

      火山詩話
      2025-12-06 15:40:02
      上映6天,才5個觀眾,總票房僅146元,年度最慘電影出爐

      上映6天,才5個觀眾,總票房僅146元,年度最慘電影出爐

      娛說瑜悅
      2025-12-06 13:09:08
      風向變了,特朗普通告全球,承認中美平起平坐,要跟中國公平競爭

      風向變了,特朗普通告全球,承認中美平起平坐,要跟中國公平競爭

      時時有聊
      2025-12-07 06:42:33
      推特被罰1.2億歐后馬斯克喊“解散歐盟”,波蘭外長回懟:你飛火星去吧

      推特被罰1.2億歐后馬斯克喊“解散歐盟”,波蘭外長回懟:你飛火星去吧

      新華社
      2025-12-07 14:58:17
      2025-12-08 08:51:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14044文章數 66349關注度
      往期回顧 全部

      科技要聞

      獨家|李笛再創業,炮轟大模型,再戰AI

      頭條要聞

      美國安全戰略發生重大轉變 國安報告第19頁才提及中國

      頭條要聞

      美國安全戰略發生重大轉變 國安報告第19頁才提及中國

      體育要聞

      梅開48度!2年半,這是梅西在邁阿密的一人一城

      娛樂要聞

      林俊杰AAA頒獎禮,韓娛愛豆均站起鞠躬

      財經要聞

      養牛場的秘密:每天開采數十車礦石倒賣

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      藝術
      游戲
      房產
      親子
      軍事航空

      藝術要聞

      從3萬人的“小香港”到十室九空!江西深山被廢棄的煤礦小鎮

      KeSPA杯:DK和HLE戰勝對手,T1首戰輕取日本隊

      房產要聞

      封關啟幕宜居新時代!觀嵐森嶼定義三亞旅居度假新范本

      親子要聞

      孩子差距太大,老公竟然當場淚崩!網友們樂了!

      軍事要聞

      日本稱中方雷達照射日戰機 國防部回應

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 偷拍精品一区二区三区| 亚洲精品久久一区二区三区四区| 欧美人成精品网站播放| 伊人天天色| 高白浆久久| 国产视频九九| 永久免费无码网站在线观看| 乱精品一区字幕二区| 国产喷水1区2区3区咪咪爱AV| 午夜剧场黄色| 武夷山市| 疯狂做受xxxx高潮欧美日本| 超级碰碰色偷偷免费视频| 色国产视频| 小泽玛利亚一区| 欧洲vodafone精品性| 日韩av无码久久一区二区| 91精品91久久久久久| 五月丁香六月| 91乱子伦国产乱子伦海的味道| 久久精品亚洲中文字幕无码网站 | 色婷婷久久久swag精品| 黑人av无码一区| 亚洲天堂中文字幕| 色宗网| 欧美变态口味重另类在线视频| 亚洲成人性爱| jizz网站| 灌云县| 少妇高潮喷水在线观看| 最近中文国语字幕在线播放| 伊人天天色| 东北妇女精品bbwbbw| 男人进入女人下部视频| 免费可以在线看a∨网站| 库车县| 波多野结衣一区二区三区高清| 亚洲成人影片| 国产精品香蕉| 中国av网| 无码人妻精品一区二区三区免费|