<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      61.3%!「人類最后一場考試」AI終于及格了,揭秘Agent自我進化新路徑

      0
      分享至

      拒絕微調(diào),告別死記硬背:MemRL如何讓大模型擁有“會思考的長期記憶”?

      01

      導(dǎo)語:跨越及格線

      “人類最后一場考試”(Humanity's Last Exam, HLE)一直被視為AI推理能力的“終極考驗”。面對這場匯聚了多學(xué)科專家級難題的極限測試,此前的大模型往往折戟沉沙。即便是強大的 Gemini-3-Pro,在沒有任何輔助的情況下,準(zhǔn)確率也僅為35.7%;在允許AI訪問google search的情況下,準(zhǔn)確率也僅為45.8% 。

      然而,一項最新的研究打破了這一僵局。上海交通大學(xué)、西安電子科技大學(xué)、上海創(chuàng)智學(xué)院與記憶張量(MemTensor)的聯(lián)合團隊提出了一種名為MemRL的新框架,在不微調(diào)模型參數(shù)的前提下,讓 AI 的成績一舉躍升至61.3%AI 終于及格了,但它做對的不僅僅是“刷題”,而是學(xué)會了像人類一樣從過往經(jīng)驗中“提煉智慧”。


      HLE 之所以被稱為“人類最后一場考試”,是因為它考驗的不再是單純的知識儲備,而是對人類資深專家級問題的深入理解和復(fù)雜推理能力。而這,恰恰擊中了當(dāng)前大模型技術(shù)棧的軟肋。

      02
      痛點:為什么傳統(tǒng)的“外掛大腦”不管用?

      在通往通用人工智能(AGI)的路上,我們一直希望 Agent 能像人類一樣持續(xù)學(xué)習(xí)。作者們嘗試過兩條路,但都很難走:

      1.微調(diào)(Fine-tuning):就像通過“做手術(shù)”來增加腦容量。成本高昂不說,還容易引發(fā)“災(zāi)難性遺忘”,學(xué)了新知識,忘了舊本領(lǐng) 。

      2.RAG(檢索增強):就像給 AI 一本“參考書”。但傳統(tǒng)的 RAG 是盲目檢索,它只看關(guān)鍵詞匹不匹配(語義相似度),卻不管檢索回來的內(nèi)容對解決問題有沒有真正的幫助。

      結(jié)果就是,Agent 往往檢索回來一堆看似相關(guān)實則無用的“噪聲”,導(dǎo)致推理失敗。

      既然“改造大腦”(微調(diào))太危險,“盲目翻書”(RAG)又不靠譜,有沒有一種方法,既能保持大腦的穩(wěn)定性,又能像人類一樣靈活地積累經(jīng)驗?

      03
      破局:MemRL 的“認(rèn)知覺醒”

      答案就藏在我們的生物本能中,MemRL的核心理念受到了人類認(rèn)知科學(xué)中構(gòu)建性情景模擬的深刻啟發(fā):將“穩(wěn)定的推理能力”與“動態(tài)的情景記憶”解耦


      這就好比一個聰明人(凍結(jié)的 LLM),他的智商是固定的,但他可以通過不斷優(yōu)化自己的“方法筆記”(進化的記憶)來解決新問題。MemRL 不再執(zhí)著于“我記得什么”,而是開始思考“過往的經(jīng)歷中哪些經(jīng)驗教訓(xùn)是值得借鑒的,如果參考過往的某種做法接下來會發(fā)生什么”,進而得到改進后的策略,并在新策略付諸實施后根據(jù)結(jié)果再更新對過往經(jīng)驗的評價 。

      1.核心機制——記憶的三元組

      傳統(tǒng)的 RAG(檢索增強生成)只看“長得像不像”(語義相似度),而 MemRL 引入了一個更像人類的機制:“Intent-Experience-Utility”(意圖-經(jīng)驗-效用)三元組。

      簡單來說,每一次Memory不僅存儲了“我想做什么”(Intent)和“我做了什么”(Experience),更關(guān)鍵的是貼上了一個“這一招好不好用”的標(biāo)簽(Utility/Q值)。這就像我們在腦海里給過去的經(jīng)驗打分,下次遇到類似問題,不僅看誰相關(guān),更看誰的參考價值更大。

      2.它是如何“思考”的?——引入“價值評估”過程

      MemRL 拋棄了傳統(tǒng)的簡單存儲,它為每一條記憶打上了一個Q值(效用分?jǐn)?shù))

      · 在檢索時,它不僅看“這條經(jīng)驗和當(dāng)前問題像不像”(階段A:語義召回);

      · 更會像一個嚴(yán)厲的批評家一樣審視:“歷史數(shù)據(jù)告訴我,用這條經(jīng)驗解決這類問題,預(yù)期的結(jié)果好嗎?”(階段B:價值感知選擇)。

      通過加權(quán)語義相似度以及效用分?jǐn)?shù),MemRL 能夠精準(zhǔn)地從海量記憶中撈出那些真正能通向成功的“金鑰匙” 。

      3.它是如何“進化”的?——無參數(shù)的自我修正

      MemRL 的核心在于讓 Agent 在運行時“記住什么是有效的”。這一過程完全在記憶空間 (Memory Space) 內(nèi)完成,不需要任何梯度傳播。

      具體的進化包含兩個并行過程:

      1.Q 值更新 (Refining Utilities): 當(dāng) Agent 完成任務(wù)并獲得環(huán)境反饋(Reward, 如成功/失敗或分?jǐn)?shù))后,我們會對剛才使用過的記憶進行“蒙特卡洛式更新”(Monte Carlo style update)。

      · 我們使用One-step MDP 形式,將當(dāng)前狀態(tài)視為終局,對記憶的Q值進行更新。

      · 通過這一規(guī)則,記憶的 Q 值會被推向“經(jīng)驗期望回報” (Empirical Expected Return)。

      · 簡單來說:如果某條記憶剛才幫了大忙,它的 Q 值會上升,預(yù)示著它在相似的場景下具備更高的“參考價值”;反之則會降低。

      2.經(jīng)驗回寫 (Experience Expansion): 除了更新舊記憶,MemRL 還會將當(dāng)前的完整軌跡(Trajectory)通過 LLM 總結(jié)為新的經(jīng)驗,并且結(jié)合意圖(intent)以及初始化的效用(Q-init)成一個新的三元組 (Intent,Experience,Q-init),寫入記憶庫。這意味著記憶庫不僅在“修正”舊知,還在不斷“擴充”新知。


      04
      實驗核心:Runtime 進化與記憶的真正價值

      1. Main Results: 驚人的 Runtime Learning 能力


      作者們在四大 Benchmark 上進行了測試:BigCodeBench(代碼生成)、ALFWorld(具身決策)、Lifelong Agent Bench(操作系統(tǒng)/數(shù)據(jù)庫交互) 和HLE(復(fù)雜推理)。 對比基線包括Standard RAGSelf-RAG以及最先進的 Agent Memory 方法 (Mem0, MemP)。結(jié)論非常硬核(Table 1)MemRL 不需要任何參數(shù)更新 (Training-free),僅靠運行時積累經(jīng)驗,就能實現(xiàn)持續(xù)的性能攀升。

      · 在ALFWorld中,MemRL 的最終準(zhǔn)確率達到69.7%,相比 MemP (45.6%) 提升了53%

      · 在HLE這種高難度基準(zhǔn)上,MemRL 同樣刷新了記錄:首次突破60%。 這證明了“非參數(shù)化強化學(xué)習(xí)”能讓 Agent 像人類一樣,通過 Trial-and-Error(試錯)在運行時持續(xù)學(xué)習(xí),越來越強。

      2. Transfer Learning: 舉一反三的泛化能力


      不僅是“熟能生巧”,MemRL 還學(xué)會了“觸類旁通”。 作者們測試了遷移學(xué)習(xí)場景 (Table 2):讓 Agent 先訓(xùn)練,然后凍結(jié)記憶庫,直接在30% 的未見任務(wù) (Held-out sets)上測試。 結(jié)果顯示: MemRL 在所有任務(wù)上都超越了 RAG 和 MemP。 這意味著 MemRL 存儲的不僅僅是具體的“答案”,更是抽象的“高價值策略”。它成功過濾掉了那些只能解決特定訓(xùn)練題的“過擬合記憶”,留下了真正能應(yīng)對未知環(huán)境的通用經(jīng)驗

      05
      深入分析:不止羅列成果,

      文章還提出了非常深入的分析與思考

      1. 軌跡驗證器:長程任務(wù)更有提升空間 (Trajectory Verifier)


      實驗數(shù)據(jù)(Table 3)揭示了一個關(guān)鍵現(xiàn)象:任務(wù)鏈路越長,MemRL 優(yōu)勢越大。

      · 在單步任務(wù) (BigCodeBench) 上提升較小 (+2.5 pp);

      · 但在多步順序任務(wù) (ALFWorld)上,提升高達+24.1 pp原因揭秘:傳統(tǒng) RAG 容易檢索到“開頭很像但結(jié)局跑偏”的錯誤經(jīng)驗。而 MemRL 因為記錄了整條軌跡的 Q 值 (Utility),它實際上充當(dāng)了一個“軌跡驗證器” (Trajectory Verifier)。它能預(yù)判這條路走下去會不會“翻車”,從而在一開始就避開那些表面看似相關(guān)、實則會導(dǎo)致失敗的路徑。

      2. 意外發(fā)現(xiàn):從“差一點”中學(xué)習(xí) (Near-misses)


      這是一個反直覺但極具深意的發(fā)現(xiàn) (Figure 8b)。 作者們在高 Q 值 (High-Utility) 的記憶庫中,發(fā)現(xiàn)了約12% 的失敗案例。 深入分析發(fā)現(xiàn),其中存在一些“Near-misses” (差一點就成功)的案例。它們雖然最終報錯(例如輸出格式微小錯誤),但整體推理邏輯是正確的。MemRL 敏銳地識別出了這些案例的“戰(zhàn)略價值”,將它們作為“糾錯指南”保留下來。這證明系統(tǒng)具備了從部分失敗中提取正確邏輯的高級能力,也符合人類從失敗中學(xué)習(xí)的認(rèn)知原理。

      3. 理論保證的穩(wěn)定性:告別災(zāi)難性遺忘 (Stability Guarantee)


      持續(xù)學(xué)習(xí)最怕“撿了芝麻丟西瓜”。 在長期訓(xùn)練動態(tài) (Figure 9) 中,作者們揭示了一個殘酷的現(xiàn)象:啟發(fā)式方法(如 MemP)往往出現(xiàn)CSR(歷史最佳)與當(dāng)前準(zhǔn)確率的脫節(jié)。這意味著新的探索無意中“覆蓋”了舊的成功策略,導(dǎo)致了災(zāi)難性遺忘。

      相比之下,MemRL 展現(xiàn)了更加一致的Synchronized Growth (同步增長)。這源于 MemRL 背后收斂穩(wěn)定性的理論保障,這也是MemRL與大多自進化智能體的核心區(qū)別

      · 蒙特卡洛式建模的收斂性 (Monte Carlo Style Modeling):基于原文 Eq. 8 的建模,作者們在原文Section 4.5中給出了相應(yīng)的理論分析,確保了算法的收斂穩(wěn)定性。

      · 變分下界約束 (Variational Lower Bound):不同于啟發(fā)式排序可能出現(xiàn)的隨機漂移,MemRL會推動策略去攀登“期望獎勵的變分下界”

      結(jié)論:這從理論層面鎖定了性能的單調(diào)不減 (Non-decreasing),確保每一次更新都是在夯實地基,而非拆東墻補西墻。從這個實驗中我們也能得到一個有價值的啟發(fā):在這個Agent爆發(fā)的時代,很多時候并不需要理論保障,僅通過直覺搭個“Agentic Pipeline”也能觀察到顯著的性能提升(如圖中藍色線條),那我們?yōu)槭裁匆パ芯坷碚撃兀ㄟ^這張圖,或許能窺見一部份答案。

      4. 數(shù)據(jù)洞察:從數(shù)據(jù)集的語義空間到記憶泛化


      在實驗的最后,作者們通過Figure 11探討了一個根本性問題:“長得像”是否意味著“更有用”?作者們的核心發(fā)現(xiàn)是:數(shù)據(jù)集內(nèi)的相似度(Intra-dataset Similarity)與 Memory Gain(記憶帶來的性能提升)呈現(xiàn)出顯著的正相關(guān)性。

      基于這一發(fā)現(xiàn),作者們進一步解析了 MemRL 的收益來源,將其歸納為兩種截然不同的模式:

      1.Positive Transfer (正向遷移):ALFWorld這類具有高相似度的任務(wù)中,MemRL 充分利用相似性快速復(fù)用歷史上的不同問題的最優(yōu)策略,從而獲得了最大的收益。

      2.Runtime Memorization (運行時記憶):HLE這類低相似度/跨學(xué)科的任務(wù)中,雖然題目之間互不相同,但 MemRL 依然獲得了+21.6%的顯著提升。這得益于其強大的“單題突破”能力——即通過“記住”特定難題的解法來應(yīng)對復(fù)雜場景。

      結(jié)論:這解釋了 MemRL 為什么既能做“舉一反三”的通用推手(依靠 Transfer),也能做“博聞強記”的特定領(lǐng)域?qū)<遥ㄒ揽?Memorization)。

      06
      結(jié)語:邁向終身學(xué)習(xí)的 Agent

      上海交大、西電、上海創(chuàng)智學(xué)院與記憶張量團隊的這項工作,為 AI 社區(qū)提供了一個優(yōu)雅的范式:我們不需要總是通過昂貴的訓(xùn)練來讓模型變強,也不需要針對問題場景去精雕細琢所謂的“agentic pipeline”

      MemRL 證明了,一個凍結(jié)的大腦,配合一個不斷自我進化的記憶系統(tǒng),就能實現(xiàn)持續(xù)的終身學(xué)習(xí)(Lifelong Learning)。這或許才是通往 AGI 更經(jīng)濟、更高效的未來之路。

      論文信息

      · 論文標(biāo)題:MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

      · 聯(lián)合團隊:上海交通大學(xué)、西安電子科技大學(xué)、上海創(chuàng)智學(xué)院、記憶張量(MemTensor)等

      · arXiv 鏈接:https://arxiv.org/abs/2601.03192

      未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

      公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      廣州男子因狗吠亂拉投毒致寵物狗死亡,法院最終判決

      愛下廚的阿釃
      2026-02-06 17:10:03
      中國農(nóng)業(yè)銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      中國農(nóng)業(yè)銀行河北省分行原黨委委員、副行長陳元良被開除黨籍

      澎湃新聞
      2026-02-06 15:45:06
      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      體面分手!哈登聲明揭露真相:我從未申請離隊,只是看不到未來

      鍵侃籃球
      2026-02-07 02:19:56
      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農(nóng)

      馬未都:我身價至少100億,但這點錢,跟我母親比,我就是個貧農(nóng)

      忠于法紀(jì)
      2026-01-15 22:08:28
      成功了!中國向世界宣布重大科技成果

      成功了!中國向世界宣布重大科技成果

      元爸體育
      2026-02-04 16:44:45
      第一批獨生子女的扎心現(xiàn)實:父母去世后,成了舉目無親的“孤兒”

      第一批獨生子女的扎心現(xiàn)實:父母去世后,成了舉目無親的“孤兒”

      千秋文化
      2026-02-01 20:31:47
      第三次世界大戰(zhàn)導(dǎo)火索如果中國攔截了美國的

      第三次世界大戰(zhàn)導(dǎo)火索如果中國攔截了美國的

      林子說事
      2026-02-07 00:57:11
      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      霍金也被愛潑斯坦檔案害慘了,都癱瘓成這樣,真的還能玩女人嗎?

      我心縱橫天地間
      2026-02-05 19:14:54
      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

      福建平子
      2026-01-28 10:52:25
      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      媒體人:申花吸金能力在中超第一檔,胸前廣告贊助額每年兩億元

      懂球帝
      2026-02-07 01:04:18
      11歲玥兒罕見穿黑衣現(xiàn)身,眼神哀傷克制:她其實什么都懂

      11歲玥兒罕見穿黑衣現(xiàn)身,眼神哀傷克制:她其實什么都懂

      橙星文娛
      2026-02-05 17:06:04
      逆行救出51人的劉海洋轉(zhuǎn)院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      逆行救出51人的劉海洋轉(zhuǎn)院至長沙,病房里向女兒重述救援過程:這就是爸爸的警察故事

      瀟湘晨報
      2026-02-06 14:57:30
      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      賴清德喊話大陸對話,提出兩岸有三大共同敵人,國臺辦:有個前提

      午夜搭車a
      2026-02-07 02:23:47
      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協(xié)”

      最新任命!查爾斯宣布由威廉王子代替,哈里王子不得不“妥協(xié)”

      夜深愛雜談
      2026-02-06 17:37:17
      大反轉(zhuǎn)!向嫣然醫(yī)院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      大反轉(zhuǎn)!向嫣然醫(yī)院捐款429.2萬元?李亞鵬哽咽:感謝董宇輝!

      小娛樂悠悠
      2026-02-06 09:09:39
      樊振東球隊三天內(nèi)三位實力隊友接連宣布離隊,冠軍陣容解體。

      樊振東球隊三天內(nèi)三位實力隊友接連宣布離隊,冠軍陣容解體。

      章民解說體育
      2026-02-06 04:33:53
      正式復(fù)出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰(zhàn)萊巴金娜

      正式復(fù)出!WTA多哈1000簽表:鄭欽文首秀對手出爐,或戰(zhàn)萊巴金娜

      大秦壁虎白話體育
      2026-02-06 20:51:54
      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當(dāng)不成了?

      訪華回國后,斯塔默日子不好過,被逼到公開道歉,首相當(dāng)不成了?

      燦若銀爛
      2026-02-07 03:20:27
      中央定調(diào),延遲退休實施后,每晚1年退休,養(yǎng)老金能增加6%嗎?

      中央定調(diào),延遲退休實施后,每晚1年退休,養(yǎng)老金能增加6%嗎?

      另子維愛讀史
      2026-02-05 17:45:59
      戲子誤國!離春節(jié)不到20天,4位明星相繼塌房,一個比一個荒唐

      戲子誤國!離春節(jié)不到20天,4位明星相繼塌房,一個比一個荒唐

      往史過眼云煙
      2026-02-06 16:40:38
      2026-02-07 04:16:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學(xué)術(shù),服務(wù)AI
      7071文章數(shù) 20728關(guān)注度
      往期回顧 全部

      科技要聞

      獨角獸版圖巨變:SpaceX奔萬億 中美差在哪

      頭條要聞

      電動車行業(yè)"老三"沖刺上市 分股東2億克扣員工社保3億

      頭條要聞

      電動車行業(yè)"老三"沖刺上市 分股東2億克扣員工社保3億

      體育要聞

      西甲射手榜第2,身價不到姆巴佩1/40

      娛樂要聞

      微博之夜搶C風(fēng)波 楊冪工作室9字討說法

      財經(jīng)要聞

      愛爾眼科董事長旗下7家精神病院騙保

      汽車要聞

      寶馬"本命年"關(guān)鍵詞:20款新車與"新世代"耐力賽

      態(tài)度原創(chuàng)

      教育
      健康
      家居
      房產(chǎn)
      旅游

      教育要聞

      為什么留學(xué)機構(gòu)沒有好的老師?

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      現(xiàn)代輕奢 溫馨治愈系

      房產(chǎn)要聞

      新春三亞置業(yè),看過這個熱盤再說!

      旅游要聞

      瑯琊古城·“文旅迎春 馬躍新程”2026河?xùn)|文旅新春聯(lián)歡晚會舉行

      無障礙瀏覽 進入關(guān)懷版