今年 26 歲的魏天心,是中國(guó)科學(xué)技術(shù)大學(xué)少年班畢業(yè)生,目前在美國(guó)伊利諾伊大學(xué)香檳分校讀博,同時(shí)也是谷歌 DeepMind 的實(shí)習(xí)生。實(shí)習(xí)期間,他與所在團(tuán)隊(duì)圍繞大模型智能體在長(zhǎng)期使用過程中如何積累和利用經(jīng)驗(yàn)這一問題,構(gòu)建了名為 Evo-Memory 的評(píng)測(cè)框架,用于系統(tǒng)性刻畫智能體在測(cè)試階段的記憶進(jìn)化行為,即如何在持續(xù)使用過程中,像人腦一樣不斷積累經(jīng)驗(yàn),并逐步提升解決問題的能力。
![]()
圖 | 魏天心(來(lái)源:魏天心)
魏天心讓 Evo-Memory 去挑戰(zhàn)數(shù)學(xué)競(jìng)賽題目、研究生級(jí)別的科學(xué)問題、甚至讓其在虛擬實(shí)驗(yàn)室里完成復(fù)雜的多步驟人物。結(jié)果發(fā)現(xiàn)在某個(gè)虛擬任務(wù)中,新型 AI 的步驟從平均 22.6 步減少到了 11.5 步,這說明其學(xué)會(huì)了更優(yōu)的路徑和方法。
即使任務(wù)的難度突然變化,或者記憶里混入了一些失敗經(jīng)驗(yàn),記憶進(jìn)化之后的 AI 也能保持穩(wěn)定的表現(xiàn),因?yàn)樗鼤?huì)主動(dòng)整理和優(yōu)化記憶,而不是被雜亂的信息干擾。
![]()
(來(lái)源:https://arxiv.org/abs/2511.20857)
有了 Evo-Memory:AI 變得會(huì)更會(huì)搜索,面對(duì)新問題的時(shí)候 AI 會(huì)迅速在記憶里找到類似的情況;AI 也會(huì)變得更會(huì)思考,不僅會(huì)查看舊有答案,還會(huì)分析此前在給出舊有答案時(shí)是怎么想的以及使用了什么方法;AI 還會(huì)變得更會(huì)自我優(yōu)化,每當(dāng)解決一個(gè)新的問題,AI 就會(huì)把這次的經(jīng)驗(yàn)比如怎么想的、怎么做的、結(jié)果如何等內(nèi)容整理好,整理好之后還會(huì)扔掉沒用的、突出有用的。
這個(gè)過程叫做測(cè)試時(shí)進(jìn)化,即每次在被使用以及每次在解決問題的時(shí)候,AI 都在實(shí)時(shí)地自我學(xué)習(xí)和自我進(jìn)化。為了測(cè)試這種能力,魏天心設(shè)計(jì)了一個(gè)名為 Evo-Memory 的基準(zhǔn)測(cè)試,把數(shù)學(xué)題、科學(xué)實(shí)驗(yàn)和虛擬世界任務(wù)等十多種不同類型的挑戰(zhàn),編成連續(xù)的任務(wù)流,讓 AI 一個(gè)一個(gè)去完成,結(jié)果發(fā)現(xiàn)它果然可以借助以往經(jīng)驗(yàn)解決新問題。
魏天心告訴 DeepTech:“我們此次成果的核心貢獻(xiàn)是系統(tǒng)性地定義、設(shè)計(jì)并評(píng)估了大模型智能體的測(cè)試時(shí)學(xué)習(xí)能力。也就是在不改變模型訓(xùn)練參數(shù)的前提下,讓智能體通過自我演化,實(shí)現(xiàn)跨任務(wù)、跨時(shí)間的持續(xù)改進(jìn)。”
![]()
(來(lái)源:https://arxiv.org/abs/2511.20857)
過去兩年,大模型和 AI 智能體的能力提升很快,但在實(shí)際部署后魏天心發(fā)現(xiàn)它們幾乎不會(huì)從經(jīng)驗(yàn)中學(xué)習(xí)。大多數(shù)評(píng)測(cè)默認(rèn)它們是一次性系統(tǒng),而在現(xiàn)實(shí)中,智能體是長(zhǎng)期運(yùn)行的。
它會(huì)不斷遇到新情況、會(huì)犯錯(cuò)、會(huì)修正,這才符合真實(shí)世界的背景。因此,本次研究不僅關(guān)注它當(dāng)下的能力,更關(guān)注它能否持續(xù)進(jìn)化、持續(xù)從經(jīng)驗(yàn)中學(xué)習(xí),并把這種進(jìn)化變成可控、可衡量的一個(gè)系統(tǒng)性過程。
為了讓 AI 學(xué)會(huì)進(jìn)化記憶,魏天心構(gòu)建了一個(gè)基準(zhǔn)測(cè)試框架,對(duì)相關(guān)方法進(jìn)行了全面評(píng)估,并在其中提出并實(shí)現(xiàn)了兩種關(guān)鍵測(cè)試方法,用于刻畫智能體在持續(xù)學(xué)習(xí)過程中的記憶進(jìn)化行為:
第一個(gè)方法叫做 ExpRAG,負(fù)責(zé)經(jīng)驗(yàn)檢索與聚合。其實(shí)它是一個(gè)錯(cuò)題本,每當(dāng) AI 遇到新題目的時(shí)候,它就會(huì)立馬去錯(cuò)題本里搜搜看,看看是否有類似的舊題目和舊答案。然后,它會(huì)把找到的舊有例子和當(dāng)前題目放在一起思考并給出新答案,最后再把這次的新經(jīng)歷記錄到錯(cuò)題本里。
第二個(gè)方法叫做 ReMem,它能讓 AI 進(jìn)行協(xié)同的推理、行動(dòng)和記憶,并能給 AI 裝上“三核處理器”。首先是思考核,專門負(fù)責(zé)分析問題和制定計(jì)劃;其次是行動(dòng)核,專門負(fù)責(zé)執(zhí)行具體的操作或者給出答案;再次是記憶整理核,這是一個(gè)全新的部分,它專門負(fù)責(zé)管理經(jīng)驗(yàn)寶箱,實(shí)時(shí)地判斷哪些記憶有用、哪些應(yīng)該合并或刪除,讓記憶庫(kù)始終保持在最佳狀態(tài)。
這三個(gè)核心協(xié)同工作,讓 AI 在解決問題的同時(shí),不僅可以思考怎么做,還能同步思考自己之前學(xué)的哪些經(jīng)驗(yàn)?zāi)軌蛴蒙稀⑦@次的新經(jīng)驗(yàn)應(yīng)該怎么存,真正實(shí)現(xiàn)了邊學(xué)邊用和越用越聰明。
![]()
(來(lái)源:https://arxiv.org/abs/2511.20857)
魏天心補(bǔ)充稱:“研究過程總體順利,但有幾個(gè)發(fā)現(xiàn)很有意思。一是如果記憶模塊設(shè)計(jì)不當(dāng),無(wú)法正確從經(jīng)驗(yàn)中學(xué)習(xí),錯(cuò)誤可能會(huì)隨時(shí)間積累,導(dǎo)致效果反而變差。二是目前很多方法難以在不同數(shù)據(jù)集上取得穩(wěn)定的提升。
這說明提升空間還很大,而且目前的方法大多只是提出了新的測(cè)試流程,尚未觸及更本質(zhì)的層面。未來(lái),我認(rèn)為會(huì)有更多工作出現(xiàn),進(jìn)行更深入的分析和分離實(shí)驗(yàn),以獲得更本質(zhì)的結(jié)論。”
談及在 DeepMind 的實(shí)習(xí)體會(huì),他表示:“首先,DeepMind 最直觀的感受是研究氛圍十分濃厚,同時(shí)內(nèi)部交流非常開放。你可以很容易地在內(nèi)部找到在相關(guān)方向有深入研究的研究人員進(jìn)行討論,無(wú)論資歷或崗位背景,都可以圍繞具體研究問題直接溝通,使想法能夠被快速反饋和打磨。
此外,公司的整體工作環(huán)境和支持條件包括食堂健身房等都非常好。在實(shí)習(xí)過程中,我還進(jìn)一步了解了公司重點(diǎn)關(guān)注的前沿研究方向和核心業(yè)務(wù),這對(duì)我后續(xù)的研究方向和發(fā)展規(guī)劃產(chǎn)生了積極影響。”
一步步走到今天,他也感恩于父母的幫助和支持。他回憶稱:“一方面,父母沒有給我很大壓力,不會(huì)因?yàn)槲夷炒慰荚嚮驙顟B(tài)的起伏而施加額外壓力。另一方面,對(duì)于一些關(guān)鍵機(jī)會(huì),比如報(bào)考中科大少年班或者參加競(jìng)賽學(xué)習(xí),都是父母建議和鼓勵(lì)我去嘗試的。
如果沒有他們的信息搜集和建議,我可能在高二時(shí)就不知道還有這樣的渠道,從而錯(cuò)過機(jī)會(huì)。所以,父母在信息搜集和長(zhǎng)遠(yuǎn)規(guī)劃上的作用非常大。作為學(xué)生,準(zhǔn)備高考和競(jìng)賽壓力大,很容易忽略這些信息,而父母從旁觀者的角度能更好地幫助梳理。”
目前,魏天心在美國(guó)伊利諾伊大學(xué)香檳分校讀博士五年級(jí),主要研究方向是大模型與智能體的高效化研究,包括長(zhǎng)期推理、自我進(jìn)化以及在推薦系統(tǒng)等領(lǐng)域的應(yīng)用。
參考資料:
相關(guān)論文 https://arxiv.org/abs/2511.20857
運(yùn)營(yíng)/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.