![]()
新智元報道
編輯:KingHZ
【新智元導讀】借鑒人類聯想記憶,嵌套學習讓AI在運行中構建抽象結構,超越Transformer的局限。谷歌團隊強調:優化器與架構互為上下文,協同進化才能實現真正持續學習。這篇論文或成經典,開啟AI從被動訓練到主動進化的大門。
「災難性遺忘」,一個困擾了AI界幾十年的幽靈,這一次或許被徹底解決了。
過去一年,AI突飛猛進,絕非夸張的修辭,僅谷歌DeepMind一年的成就,就讓人眼花繚亂:

但如果DeepMind要選2025年最重要的研究或產品,那最近火爆的嵌套學習「Nested Learning」必有一席之地。
有網友讀過論文之后,發帖表示,這篇論文就是《Attention is All you Need》的「續集」。
如果Transformer開啟了Scaling時代,那么嵌套學習,可能正在開啟真正的AGI時代。
DeepMind創始人Shane Legg更直接,AGI一路坦途,最新進展就是嵌套學習。
甚至有網友表示,如果要給未來的外星人留一篇論文,必然是這篇《嵌套學習》。
![]()
![]()
![]()
![]()
如果實現AGI需要2-3項突破,持續學習可能就是其中之一,而谷歌已發表了多篇相關論文。
![]()
然而,這些論文有一個共同的作者──
康奈爾大學計算機科學系二年級博士生、谷歌研究院(紐約)研究實習生Ali Behrouz。
![]()
Transformer的記憶之殤
在多方面,Transformer表現出色,能夠Scaling、推動AI跨越,能實現跨任務、跨領域的泛化能力。
但谷歌很早就意識到一件事:Transformer并不完美。
1. 長上下文處理效率低
2. 抽象知識層級有限
3. 適應性弱
4. 缺乏持續學習能力
特別是第四點,Ali認為那是最關鍵的問題。
當提到「持續學習」(Continual Learning),我們指的是:
沒有訓練期,也沒有測試期;
模型在使用過程中,持續塑造新的記憶和抽象結構。
人類天生如此。
但對今天的大語言模型來說,幾乎不存在任何「持續學習」。
為了說明問題有多本質,Ali用了一個醫學上的類比:順行性遺忘癥(Anterograde Amnesia)。
這種病的患者有一個非常詭異的特征:
他們的短期記憶是正常的
他們的長期記憶也還在
但問題在于:短期記憶,無法轉移為長期記憶。
![]()
于是,他們永遠活在「現在」。
新的經歷進來,過一會兒就消失; 世界在變,但他們的大腦不再更新。
現在,把這個病,套到LLM身上。
你會發現,大模型和人類患者一模一樣。
今天的大語言模型,知識主要來自兩部分:
預訓練階段學到的長期知識、
當前上下文里的短期信息。
但這兩者之間,幾乎完全沒有通道。
AI模型無法自然地把「剛剛學到的東西」,沉淀為未來可復用的知識。
想讓它真的學會?
你只能:再燒錢、再訓練、再微調。
這和順行性遺忘癥患者的狀態,本質上沒有區別。
真正的問題不是參數不夠多,不是數據不夠大,也不只是算力不夠。
問題的本質在于「短期記憶」和「長期記憶」之間,根本沒有一條自然的知識轉移通道。
如果這條通道不存在,所謂「持續學習」,就永遠只是一個口號。
這引出了一個核心問題:我們該如何構建一種機制,讓AI模型像人類一樣,將「現在」的經歷沉淀為「未來」的知識?
一切AI皆是「聯想記憶」
如果想讓AI真正具備持續學習能力,那你繞不開一個最底層的問題:
模型到底是「怎么記住東西的」?
Ali給出的答案,不是Transformer,不是參數量,而是一個更原始、更根本的概念:聯想記憶(Associative Memory)。
所謂「聯想記憶」,是人類學習機制的基石。
它的本質,是通過經驗將不同的事件或信息相互關聯。
比如,你看到一張臉,馬上想起一個名字;你聞到某個味道,喚起一段記憶。
這不是邏輯推理,而是關聯的建立。
技術上,聯想記憶就是鍵值對映射:
Key:線索
Value:與之關聯的內容
但關鍵在于,聯想記憶的映射關系不是預先寫死的,而是「學出來的」。
從某種角度來看,注意力機制本質上就是一種聯想記憶系統:它學習如何從當前上下文中提取key,并將其映射到最合適的value,從而產生輸出。
如果我們不僅優化這種映射本身,還讓系統去元學習(meta-learn)這種映射過程的初始狀態,會發生什么?
基于對聯想記憶的理解,他們提出了一個通用框架,名為MIRAS,用于系統化地設計AI模型中的記憶模塊。
這一框架的核心思想是:
幾乎所有注意力機制、本地記憶結構,乃至優化器本身,其實都可以視為聯想記憶的特例。
為了設計一套「可學習的、嵌套式的記憶系統」,我們需要對模型中的記憶結構做出四大設計決策:
記憶架構(Memory Architecture)
注意力偏置/目標函數(Attentional Bias/Objective)
保留機制(Retention Gate)
學習規則(Learning Rule)

這個框架可以用來統一解釋許多已有的注意力機制與優化器。
簡單來說:MIRAS讓我們能夠把「記憶」作為一種學習過程進行建模、組合與優化,而不僅僅是一個靜態模塊。
更進一步,優化器也可以被統一視為「將當前梯度映射到歷史信息」的聯想過程,就可以對它們進行重新建模與推廣。
優化器就是一種「記憶模塊」,是模型理解其學習歷史、進而做出更優決策的關鍵組件。
優化過程與學習算法/架構本質上是相同的概念,只是處于系統不同層級中具有不同的上下文(即梯度與數據)。
此外,它們是兩個相互連接的組件,其中學習算法/架構為優化器生成上下文(即梯度)。這支持為特定架構設計專屬優化器的理念。
由此,谷歌的團隊探討了不同層級之間的知識傳遞方式,提出了嵌套學習。
嵌套學習
專治LLM失憶癥
基于NL的觀點,谷歌團隊使用反向傳播和梯度下降訓練深度神經網絡,本質上是一個壓縮與優化問題,其目標是訓練一種聯想記憶(associative memory),以將各層的輸入映射到其預測中對應的局部誤差。
相應地,他們認為預訓練是一種上下文內學習形式,其中上下文是全部預訓練數據,而各網絡層則將該上下文壓縮進其參數之中。而其他流行的基于梯度的優化器,本質上也是旨在將梯度壓縮進其參數中的聯想記憶。
優化器與架構并不是彼此獨立的,它們應該互為上下文、協同進化。
為了正式定義Nested Learning(嵌套學習)框架,需要了解兩個核心概念:更新頻率(Update Frequency)與嵌套系統(Nested System)。
一、更新頻率
首先設定一個時間單位,通常取系統中更新最慢的模塊的一次更新作為基本時間單位。
然后,對于系統中其他組件,我們統計它們在一個時間單位內更新了多少次,就得到了它們的「更新頻率」。
![]()
舉個例子:
假設循環神經網絡(RNN),上下文長度為(L),那么在處理一段長度為(L)的文本時,RNN的狀態會更新(L)次;
而如果外層是一個只在每個文檔級別上更新的模塊(如預訓練模型),那么它的更新頻率就是1。
因此,我們可以說:RNN是「快模塊」,預訓練模型是「慢模塊」。
通過這種不同頻率的組合,我們就能構建出一個在不同時間尺度上都能學習的系統。
二、嵌套系統(Nested System)
接下來,我們定義什么是一個「嵌套系統」。
它由多個獨立的子模塊組成,每個模塊都有:
自己的參數(Parameter);
自己的上下文(Context);
自己的優化目標(Objective);
自己的梯度流(Gradient Flow)。
這些模塊之間以「更新頻率」的快慢形成嵌套關系。
![]()
如果我們把每個子模塊都視為一個聯想記憶系統,那么整個模型就可以看作是一個嵌套的聯想記憶系統(Nested Associative Memory System)。
更進一步,每一個這樣的聯想系統,本身又可以由更小的優化子過程構成,從而形成遞歸嵌套。
當構建了一個由多個層級組成的嵌套系統之后,最關鍵的問題就來了:
不同層之間的知識要如何傳遞?
知識轉移方式有以下幾種,這些機制構成了Nested Learning架構中「信息流動」的基礎:
直接條件傳遞(Direct Conditioning):慢層(外層)模型的輸出直接作為快層(內層)模型的輸入條件
非參數化條件傳遞:不依賴額外參數,模型的輸出直接依賴于上下文本身。雖然沒有顯式參數連接,但輸出依然受到內層狀態的強烈影響。
通過反向傳播傳遞(Gradient-Based Transfer):梯度本身就構成了知識的傳遞路徑——高層對目標的判斷,反向指導底層如何調整參數。
初始狀態傳遞(Meta-Learned Initialization):慢層模型生成快層模型的初始狀態。外層學習一個初始化點,使得內層可以通過少量更新迅速適應新任務。
權重生成(Hypernetwork):慢層模型直接生成快層模型的參數。這就是超網絡(Hypernetwork)的本質。
![]()
理論固然重要,但最終還是要看這些設計能否在真實任務中帶來性能提升。
結合自我修改(Self-Modifying)與連續記憶系統(Continuum Memory System),谷歌提出了嵌套學習范式下的HOPE架構。
![]()
他們將Nested Learning與HOPE架構應用于多個任務場景中,尤其聚焦在「長上下文」和「持續學習」兩個維度。
總體來看,HOPE在多個核心任務上都優于或顯著超越現有對比模型,尤其是在持續學習和長上下文方面顯示了明顯優勢。這體現了嵌套學習和連續記憶系統的潛力。
![]()
![]()
![]()
![]()
![]()
這到底意味著什么?
Nested Learning不只是一個架構框架,而是一種重新理解深度學習的范式。
谷歌DeepMind內部也傳出消息:他們已經突破了持續學習,但因為安全原因尚未發布。
![]()
如果嵌套學習解決了持續學習能力,或許將是未來最重要的事。
![]()
DeepMind的沉默,或許比他們的論文更震耳欲聾。
持續學習賦予了AI可怕的能力:它不再僅僅回應我們的指令,而是開始根據過往的經驗,篩選它認為重要的東西。也就是說,它開始有了「偏好」。
如果嵌套學習真的解決了災難性遺忘,那么我們親手打開的,可能不只是一扇通往AGI的大門,更是一個未知的潘多拉魔盒。
盒子里的東西,究竟是更聰明的工具,還是一個不僅學會了思考、更學會了「記住仇恨與偏愛」的對手?
這一次,鑰匙在谷歌手中,但未來在誰手中?
參考資料:
https://www.youtube.com/watch?v=3WqZIja7kdA
https://www.youtube.com/watch?v=uX12aCdni9Q
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.