<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      新一代框架MIA:讓智能體告別「失憶式工作」,在持續(xù)進化中變強

      0
      分享至



      本文共同一作是上海創(chuàng)智學院博士生喬靜陽、孟煒程,通訊作者是華東師范大學張志忠副教授,項目主導(dǎo)人是國家優(yōu)青謝源教授。

      Never memorize something that you can look up.
      • — Albert Einstein

      如今的大多數(shù)智能體,仍然活在一種「失憶式工作」模式中:每一次檢索都是從零開始,每一條推理路徑都無法沉淀,每一次失敗也不會轉(zhuǎn)化為經(jīng)驗。它們雖能多輪交互,但很難在深度研究中持續(xù)變強。

      為了解決這個問題,已有工作嘗試基于歷史方案生成執(zhí)行規(guī)劃,但受限于預(yù)訓練范式,許多智能體仍陷入新的困境:一個不擅長規(guī)劃的「決策器」,從臃腫的記憶中檢索出零散片段,再去驅(qū)動一個缺乏規(guī)劃執(zhí)行能力的「執(zhí)行器」。結(jié)果是:記憶在增長,智能卻沒有。

      于是,浮現(xiàn)出一個關(guān)鍵問題:是否存在將經(jīng)驗轉(zhuǎn)化為能力的智能體記憶機制?

      上海創(chuàng)智學院和華東師范大學聯(lián)合團隊最近提出的 Memory Intelligence Agent (MIA),一個面向深度研究場景的新一代記憶智能體框架,給這一問題帶來了新的答案。



      • 論文地址:https://arxiv.org/abs/2604.04503
      • 代碼倉庫:https://github.com/ECNU-SII/MIA
      • 龍蝦技能:
      • 純凈版:https://clawhub.ai/jingyangqiao/mia
      • 可信版:https://clawhub.ai/sii-yucheng2002/mia-trust

      (高效版和可訓練版即將發(fā)布)

      為了解決這一問題,MIA 構(gòu)建了一套基于「Planner–Executor–Manager」架構(gòu)的記憶系統(tǒng)。其中,Planner 是戰(zhàn)術(shù)大腦,不僅能夠針對當前問題制定研究計劃,還能通過測試時的持續(xù)學習實時調(diào)整其策略。Executor 是經(jīng)過訓練的執(zhí)行專家,能夠毫無阻礙地解讀并遵循復(fù)雜的研究藍圖。Manager 是終極管理員,優(yōu)化記憶存儲以消除冗余。

      與現(xiàn)有方法相比,MIA 的核心亮點在于:

      1. 構(gòu)建雙記憶機制,非參數(shù)記憶負責沉淀經(jīng)驗,參數(shù)記憶負責吸收能力,二者相互轉(zhuǎn)化,形成持續(xù)進化的閉環(huán);
      2. 提出 Manager–Planner–Executor 多智能體結(jié)構(gòu),將記憶管理、策略規(guī)劃與任務(wù)執(zhí)行解耦,并通過交替強化學習驅(qū)動 Planner 與 Executor 的協(xié)同進化,將「會規(guī)劃」和「會執(zhí)行」對齊;
      3. 引入面向開放世界的自進化機制,結(jié)合反思與無監(jiān)督學習,讓智能體在開放世界的推理過程中持續(xù)修正策略、動態(tài)更新記憶,實現(xiàn)邊做邊學的在線進化。

      在 X 平臺上,該論文已被 DAIR.AI 的創(chuàng)始人,擁有 30 萬粉絲的 AI 論文分享博主 Elvis Saravia 所轉(zhuǎn)發(fā),并收獲了高度評價與大量關(guān)注。與此同時,該論文也入選了 Hugging Face Daily Papers 榜單。





      從「逐次推理」到「可積累的研究閉環(huán)」



      作為一個持續(xù)運行的 Planning–Execution–Memory 閉環(huán)系統(tǒng),MIA 在每一次研究任務(wù)中,都會經(jīng)歷:經(jīng)驗調(diào)用 → 協(xié)同推理 → 經(jīng)驗沉淀,并不斷反哺后續(xù)決策。

      在經(jīng)驗調(diào)用中,MIA 通過三維檢索機制調(diào)用歷史經(jīng)驗,分別是保證相關(guān)性的語義相似度,高質(zhì)量經(jīng)驗偏好的價值獎勵和激活長尾知識的頻率獎勵。

      此外,作者還引入失敗軌跡作為約束,使記憶既能提供參考,又能避免重復(fù)錯誤。在協(xié)同推理中,MIA 將推理解耦為兩個智能體的協(xié)作過程,Planner 負責拆解任務(wù)、生成步驟,而 Executor 負責按照步驟執(zhí)行。二者通過 Reflect–Replan 形成反饋閉環(huán),當執(zhí)行受阻時自動重規(guī)劃,讓智能體具備持續(xù)試錯與調(diào)整能力。

      在經(jīng)驗沉淀中,MIA 將對兩種記憶同時更新。首先對軌跡進行壓縮與提取,形成結(jié)構(gòu)化非參數(shù)記憶。其次在線更新 Planner 參數(shù),將經(jīng)驗轉(zhuǎn)化為參數(shù)記憶。最后實現(xiàn)從經(jīng)驗存儲到能力內(nèi)化的躍遷。



      讓「會規(guī)劃」和「會執(zhí)行」學會配合

      在傳統(tǒng)記憶系統(tǒng)中,Planner 和 Executor 往往只是拼在一起,并沒有真正學會協(xié)作。為此,MIA 提出了一套兩階段交替強化學習和測試時持續(xù)學習的進化機制,讓兩個模塊逐步對齊,并在真實任務(wù)中不斷變強。首先在兩階段交替強化學習中,MIA 將訓練過程拆分為:

      • 階段一:固定 Planner,讓 Executor 學會理解并嚴格執(zhí)行規(guī)劃;
      • 階段二:固定 Executor,讓 Planner 學習如何利用記憶生成更優(yōu)計劃與計劃執(zhí)行失敗時的反思與重規(guī)劃能力。

      這種「先對齊執(zhí)行,再優(yōu)化決策」的方式,解決了「規(guī)劃很好,但執(zhí)行跟不上」的問題。

      其次不同于傳統(tǒng)方法「訓練完即凍結(jié)」,MIA 在推理階段引入測試時學習,賦能智能體持續(xù)進化。其過程包括:執(zhí)行推理任務(wù)同時生成多條候選路徑。從成功與失敗路徑中提取非參數(shù)化記憶,基于成功路徑在線更新參數(shù)化記憶。推理與訓練幾乎同步完成,形成真正的在線學習閉環(huán)。



      讓智能體在開放世界中穩(wěn)定進化

      為了將 MIA 能夠真正用在開放環(huán)境的深度研究中,作者提出了一套無監(jiān)督的自進化評估機制,讓智能體在沒有外部反饋的條件下,也能持續(xù)優(yōu)化自身能力。

      其核心思路是:用「過程質(zhì)量」替代「結(jié)果標簽」,只要推理嚴謹、證據(jù)可靠、結(jié)論合理,即使沒有標準答案,也可以作為有效學習信號。

      因此,受學術(shù)評審的啟發(fā),作者將對結(jié)果的判斷拆成多個「專家視角」,包括:

      • 邏輯評審員:檢查推理鏈條是否自洽
      • 事實評審員:驗證信息來源以及是否存在幻覺
      • 結(jié)果評審員:評估任務(wù)是否真正完成

      最終由一個「領(lǐng)域主席」進行綜合決策并給出整體判斷,為 MIA 提供穩(wěn)定的優(yōu)化信號,進而助力實時進化。

      實驗結(jié)論

      在多項文本與多模態(tài)深度研究任務(wù)中,MIA 顯著提升了智能體的穩(wěn)定性與效率:





      • SOTA 性能再突破 (a & b):在 LiveVQA (多模態(tài)在線搜索) 與 HotpotQA (純文本沙盒搜索) 的對比實驗中,MIA 顯著提升了現(xiàn)有最先進 LLMs(GPT-5.4, Gemini-3-Flash, claude-sonnet-4.6)在調(diào)用搜索工具下的表現(xiàn);
      • 實現(xiàn)小尺寸模型的跨級超越 (c):基于 Qwen-2.5-VL-7B 執(zhí)行器的 MIA 模型在 7 個核心數(shù)據(jù)集上表現(xiàn)卓越,超越了在不調(diào)用工具下的 GPT-5.4,GPT-4o 和 Gemini-2.5-Pro,逼近了 Gemini-3-Flash;
      • 記憶方法的新標桿 (d):在與當前先進智能體記憶方法的橫向評測中,MIA 在 7 個數(shù)據(jù)集上均取得最佳性能表現(xiàn)。

      總結(jié)

      智能體記憶不應(yīng)該只是讓智能體記住了「結(jié)果是什么」,而是應(yīng)該讓它學會「該怎么做」。MIA 的出現(xiàn),傳遞了一個清晰的信號:決定一個智能體上限的,不再僅僅是它接入了多少外部工具,而是它能否在每一次與世界的交互中,將繁雜的「過程信息」壓縮為精煉的「執(zhí)行本能」。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      C羅首次出現(xiàn)在亞冠二級比賽,41歲老將帶病拼亞冠

      C羅首次出現(xiàn)在亞冠二級比賽,41歲老將帶病拼亞冠

      林子說事
      2026-04-20 01:21:13
      杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

      杜月笙面館吃飯,一伙地痞流氓找他要保護費,杜月笙:嫌命長嗎?

      千秋文化
      2026-04-01 20:35:51
      國乒公布出征倫敦世乒賽時間,世界排名更新,梁靖崑丟冠軍賽資格

      國乒公布出征倫敦世乒賽時間,世界排名更新,梁靖崑丟冠軍賽資格

      體育大學僧
      2026-04-20 11:20:34
      這一次,上海樓市很多人要被拋棄了

      這一次,上海樓市很多人要被拋棄了

      魔都財觀
      2026-04-20 07:41:26
      5月—9月,要上市的6款SUV

      5月—9月,要上市的6款SUV

      小怪吃美食
      2026-04-20 11:30:09
      鄭麗文判斷準確,解放軍下通牒,賴清德將登機離臺

      鄭麗文判斷準確,解放軍下通牒,賴清德將登機離臺

      謝綸郵輪攝影
      2026-04-20 12:24:39
      等不到特朗普訪華了,美國提前對華攤牌:要求秘魯把中國趕出港口

      等不到特朗普訪華了,美國提前對華攤牌:要求秘魯把中國趕出港口

      安珈使者啊
      2026-04-19 11:44:14
      破防!雷軍15小時京滬續(xù)航自證清白,懇求全網(wǎng)幫幫小米

      破防!雷軍15小時京滬續(xù)航自證清白,懇求全網(wǎng)幫幫小米

      雷科技
      2026-04-18 12:38:28
      身體亮紅燈!白鹿官宣超長休整,暫停新劇只為轉(zhuǎn)型蓄力

      身體亮紅燈!白鹿官宣超長休整,暫停新劇只為轉(zhuǎn)型蓄力

      一禾的世界
      2026-04-20 10:56:59
      過分,韓國北面歧視中國游客:“你所做的就是你國家的面貌。”

      過分,韓國北面歧視中國游客:“你所做的就是你國家的面貌。”

      設(shè)計癖
      2026-04-18 12:50:09
      這大體格 氣質(zhì)真好,40歲女性的典范,屬于萬里挑一,很大氣

      這大體格 氣質(zhì)真好,40歲女性的典范,屬于萬里挑一,很大氣

      手工制作阿殲
      2026-04-20 08:10:04
      深夜猝死的人增多!醫(yī)生反復(fù)強調(diào):吃完晚飯后,盡量少做這4件事

      深夜猝死的人增多!醫(yī)生反復(fù)強調(diào):吃完晚飯后,盡量少做這4件事

      岐黃傳人孫大夫
      2026-04-18 11:45:03
      4月20日油價變化,汽柴油下調(diào)780元/噸,今天降幅增加180元/噸!

      4月20日油價變化,汽柴油下調(diào)780元/噸,今天降幅增加180元/噸!

      豬友巴巴
      2026-04-20 09:04:16
      生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

      生育大局已定:如不出意外,2026年起中國人口將迎來3大變化

      蜉蝣說
      2026-03-17 15:58:31
      曝杜蘭特很可能G2復(fù)出!總分0-1或火線歸來 火箭將帥都盼他回歸

      曝杜蘭特很可能G2復(fù)出!總分0-1或火線歸來 火箭將帥都盼他回歸

      追球者
      2026-04-20 12:58:42
      每體:據(jù)相關(guān)人士透露,梅西收購科爾內(nèi)利亞大約花費200萬歐

      每體:據(jù)相關(guān)人士透露,梅西收購科爾內(nèi)利亞大約花費200萬歐

      懂球帝
      2026-04-19 15:11:13
      一地下黨被敵堵在屋內(nèi),房東大媽扭頭罵:死丫頭,還不趕緊倒馬桶

      一地下黨被敵堵在屋內(nèi),房東大媽扭頭罵:死丫頭,還不趕緊倒馬桶

      青史如煙
      2026-04-19 08:40:59
      李修賢談萬梓良現(xiàn)狀:酒吧駐場不丟人,為人仗義,事業(yè)婚姻都不順

      李修賢談萬梓良現(xiàn)狀:酒吧駐場不丟人,為人仗義,事業(yè)婚姻都不順

      以茶帶書
      2026-04-14 16:39:49
      愛潑斯坦文件曝光!證人實錘了:愛潑斯坦把梅拉尼婭介紹給特朗普

      愛潑斯坦文件曝光!證人實錘了:愛潑斯坦把梅拉尼婭介紹給特朗普

      街上的行人很刺眼
      2026-04-20 11:45:12
      不歡迎中國人的7個國家,不待見寫在臉上,中國游客仍蜂擁而至

      不歡迎中國人的7個國家,不待見寫在臉上,中國游客仍蜂擁而至

      史行途
      2026-04-20 00:15:27
      2026-04-20 14:31:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12809文章數(shù) 142632關(guān)注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關(guān)曉彤撕下體面

      財經(jīng)要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態(tài)度原創(chuàng)

      健康
      房產(chǎn)
      藝術(shù)
      數(shù)碼
      軍事航空

      干細胞抗衰4大誤區(qū),90%的人都中招

      房產(chǎn)要聞

      重磅!海口北站來了!多項信息曝光,過海時間將大幅縮短!

      藝術(shù)要聞

      王羲之《換鵝帖》尚在人間,驚艷無比!

      數(shù)碼要聞

      EPOMAKER推出全配列磁軸鍵盤HE108,10000mAh電池續(xù)航500hr

      軍事要聞

      特朗普:美艦向伊朗貨船開火炸出個洞

      無障礙瀏覽 進入關(guān)懷版