下一個Transformer可能又被Google做出來了

2025-12-06 10:43:35　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

如果把現(xiàn)在的頂尖大模型比作一個人，那它一定患有一種罕見的神經(jīng)系統(tǒng)疾病：順行性遺忘癥（Anterograde Amnesia）。

這是 Google Research 研究員、最近最受關(guān)注的一篇論文《Nested Learning: The Illusion of Deep Learning Architectures》第一作者 Ali Behrouz 拋出的一個讓所有人陷入沉思的比喻。

看過諾蘭的電影《記憶碎片》（Memento）的人更能理解這種絕望。這種病癥的患者擁有完好的“過往記憶”（Retrograde Memory），他們記得發(fā)病前的一切，我是誰，我來自哪里，我有什么技能。但對于發(fā)病后發(fā)生的所有事情，他們永遠無法形成“新的長期記憶”。他們只能活在短暫的“當(dāng)下”，幾分鐘后，一切就會被重置。

這就是現(xiàn)在 AI 模型的真實寫照。

無論Gemini或是ChatGPT多么博學(xué)，如果不聯(lián)網(wǎng)搜索，它們都只能依靠預(yù)訓(xùn)練階段獲得的出廠知識（也就是“發(fā)病前”的記憶）來回答問題。而在對話窗口里，無論你教給它多少新公司的業(yè)務(wù)邏輯，或者糾正了它多少次代碼錯誤，這些信息都只停留在短暫的上下文窗口里。

一旦窗口關(guān)閉，或者顯存被重置，它就像金魚一樣，把剛才發(fā)生的一切忘得干干凈凈。下一次見面，它依然是那個出廠時的它，絲毫沒有因為與你的交互而變得更聰明一點。

為什么擁有超級算力的 AI，卻治不好這個健忘癥？

長期以來，行業(yè)有一種二元對立的看法，認(rèn)為 AI 的“架構(gòu)”（Architecture）和“優(yōu)化器”（Optimizer）是兩個截然不同的物種。

架構(gòu)是骨架（如 Transformer），它是靜態(tài)的，出廠即凍結(jié)，負(fù)責(zé)“推理”。“優(yōu)化器”是雕刻刀（如 Adam、SGD），它是動態(tài)的，只在工廠里用來訓(xùn)練模型，出廠后就被沒收了。

我們習(xí)慣了把 AI 當(dāng)作一個靜態(tài)產(chǎn)品，訓(xùn)練好了，打包發(fā)布，用戶只管用。

但在 Google 最新發(fā)布的 52 頁硬核論文《Nested Learning: The Illusion of Deep Learning Architectures》（嵌套學(xué)習(xí)：深度學(xué)習(xí)架構(gòu)的幻覺）中，研究團隊試圖告訴我們，這其實是一種幻覺，是我們?nèi)藶橹圃斓淖晕以O(shè)限。

如果架構(gòu)和優(yōu)化器本質(zhì)上是同一個東西呢？如果并沒有所謂的“訓(xùn)練階段”和“推理階段”之分，一切都只是不同頻率的“記憶壓縮”過程呢？

基于這個大膽的假設(shè)，Google 團隊提出了一個名為 HOPE 的新框架。他們并沒有簡單地堆砌參數(shù)，而是試圖從底層邏輯上重構(gòu) AI 的“大腦結(jié)構(gòu)”，讓它不再是一個出廠即固化的工具，而是在每一次交互中都能微調(diào)自己、擁有“快慢記憶系統(tǒng)”的動態(tài)生命體。

而這篇論文也被不少人稱為“Attention Is All You Need V2”，這篇論文提出的Transformer 架構(gòu)成就了今天大模型的火熱，而HOPE讓人們期待它成為下一個Transformer 級別的創(chuàng)新。

Ali Behrouz 在 NeurIPS 2025 現(xiàn)場講解Nested Learning。

拆解“幻覺”：被遺忘的中間地帶

要治好“健忘癥”，我們首先得看看現(xiàn)在的 AI 大腦里到底裝了什么。

在 Ali Behrouz 的解構(gòu)下，目前的 Transformer 架構(gòu)呈現(xiàn)出一種極端的“精神分裂”狀態(tài)。如果不使用復(fù)雜的數(shù)學(xué)術(shù)語，我們可以把它的內(nèi)部組件看作兩個極端：

一個是“極快”的 Attention（注意力機制）。它時刻處于亢奮狀態(tài)，對你輸入的每一個字（Token）都進行瞬時的計算和響應(yīng)。它的更新頻率幾乎是無限的，這讓模型擁有了所謂的上下文學(xué)習(xí)能力（In-Context Learning），你剛說的話，它馬上就能用。

另一個是“極慢”的 MLP（前饋神經(jīng)網(wǎng)絡(luò)）。它是模型的長期記憶庫，承載了絕大多數(shù)參數(shù)。但它的更新頻率是 0。這部分像一塊凍結(jié)的硬盤，除非你耗費巨資進行全量微調(diào)（Fine-tuning），否則它永遠不會改變。

在這兩者之間，存在著一個巨大的真空地帶。

這就是“幻覺”的根源。人類的大腦并不是這樣工作的。我們的記憶是一個連續(xù)的頻譜，我們有幾秒鐘的感官記憶，有幾小時的工作記憶，也有幾天甚至幾年的長期記憶。我們的腦突觸并不是非黑即白，而是以各種不同的頻率在不斷微調(diào)。

為了填補這個真空，Google 團隊提出了 Nested Learning（嵌套學(xué)習(xí)）的概念。我們可以把它想象成一套精密咬合的齒輪系統(tǒng)”：

最外層的小齒輪轉(zhuǎn)得飛快（處理當(dāng)前的對話）；
中間層的齒輪轉(zhuǎn)得稍慢（記住過去幾小時或幾天的任務(wù)）；
最里層的大齒輪轉(zhuǎn)得極慢（沉淀世界觀和基礎(chǔ)知識）。

為了證明這種統(tǒng)一性在生物學(xué)上的合理性，他甚至在論文中引用了一個非常硬核的神經(jīng)科學(xué)案例，半球切除術(shù)（Hemispherectomy）。

醫(yī)學(xué)發(fā)現(xiàn)，即使切掉人類的一半大腦，通常是為了治療嚴(yán)重癲癇，剩下的一半腦組織也能通過重組資源，接管幾乎所有功能，人依然能正常生活。這說明大腦并沒有什么“專門負(fù)責(zé) Attention 的模塊”或“專門負(fù)責(zé) MLP 的模塊”，神經(jīng)組織是通用的、可復(fù)用的。

同樣的道理，AI 的“架構(gòu)”和“優(yōu)化器”本質(zhì)上也是同一種東西，只是處于不同的嵌套層級：

傳統(tǒng)的模型記憶的是“數(shù)據(jù)”（Token）；
優(yōu)化器（如 Adam）記憶的是“梯度”（Gradient）。即“我上次在這個地方犯了錯，下次要修正” 。

既然都是在“記憶信息”并“更新狀態(tài)”，為什么我們要把它們?nèi)藶榈馗盍验_來？也許我們不需要在這個二元對立的框架里修修補補，可以直接設(shè)計一個全頻率覆蓋的動態(tài)系統(tǒng)。

HOPE 的三層設(shè)計

基于 Nested Learning 的理論，Google 團隊交出了一份具體的工程答卷，還起了一個充滿寓意的名字：HOPE (High-order OPtimization and Expressivity)。

如果說傳統(tǒng)的 Transformer 是一個只有短期記憶的“單核處理器”，那么 HOPE 更像是一個符合神經(jīng)科學(xué)原理的“雙重記憶大腦”。它通過兩個組件，復(fù)刻了類似生物大腦中海馬體（Hippocampus）與大腦皮層（Cortex）的協(xié)作機制。

1. 快系統(tǒng)：像海馬體一樣敏銳的 Titans

在 HOPE 的最前端，是處理即時信息的“快系統(tǒng)”。這里 Google 使用了論文一作 Ali Behrouz 之前的另一項成名作Titans。

你可以把 Titans 理解為一種“超級 RNN”。它就像人類靈活的海馬體，負(fù)責(zé)快速捕捉和編碼當(dāng)下的新知。傳統(tǒng)的 AI 模型在處理新信息時是被動的，但 HOPE 里的 Titans 模塊具有極強的“主觀能動性”，它是 Self-Modifying（自我修改）的。

它不僅是在讀取數(shù)據(jù)，更是在根據(jù)當(dāng)前的上下文，實時生成自己這一步學(xué)習(xí)所需要的 Key、Value，甚至自己決定這一次記憶的 Learning Rate（學(xué)習(xí)率）。這意味著，它能敏銳地判斷眼前信息的重要性，快速形成短期記憶。

2. 慢系統(tǒng)：像皮層一樣厚重的 CMS

這是整個架構(gòu)中最具顛覆性的設(shè)計。HOPE 引入了 Continuum Memory System (連續(xù)記憶系統(tǒng)，CMS)。CMS 就像是厚重的大腦皮層，負(fù)責(zé)將經(jīng)過篩選的知識長久地刻印在神經(jīng)元中。

Google 將人腦電波的頻率機制引入了 AI 架構(gòu)設(shè)計，構(gòu)建了不同更新頻率的層級

在 CMS 中，模型內(nèi)部的 MLP（前饋網(wǎng)絡(luò)）不再是鐵板一塊，而是被切分成了不同的層級，就像不同轉(zhuǎn)速的齒輪：

高頻層：可能每處理幾百個字就更新一次，用于捕捉剛才對話里的新定義。
中頻層：可能每處理幾萬字更新一次，用于適應(yīng)一個新的項目背景。
低頻層：幾乎不更新，用于穩(wěn)固語言的語法和常識。

左側(cè)的 HOPE 架構(gòu)擁有豐富的中間層級

這種設(shè)計避免了災(zāi)難性遺忘。當(dāng)新知識涌入時，它會被優(yōu)先存儲在高頻層，而不會去驚擾低頻層里的舊知識。隨著時間的推移，真正重要的信息才會像沙漏里的沙子一樣，慢慢沉淀到深層。

3. 優(yōu)化器也有了“記憶”

Google 的激進之處在于，他們不僅改造了大腦（架構(gòu)），還改造了老師（優(yōu)化器）。

為了配合這就這套復(fù)雜的系統(tǒng)，他們設(shè)計了一個名為 M3 (Multi-scale Momentum Muon) 的新優(yōu)化器。

既然模型分了層，優(yōu)化器為什么不能分層？普通的 Adam 優(yōu)化器只看眼前的梯度（Local Structure），容易陷入短視。而 M3 優(yōu)化器本身也被設(shè)計成了嵌套結(jié)構(gòu)，它有一層“快動量”負(fù)責(zé)看腳下的路，還有一層“慢動量”負(fù)責(zé)看遠處的山脈（全局 Loss Landscape）。

這意味著，連負(fù)責(zé)訓(xùn)練的算法本身，都擁有了更深遠的記憶力。

M3 優(yōu)化器在 ImageNet 訓(xùn)練任務(wù)中，展現(xiàn)出了更快的收斂速度和更低的 Loss

實驗數(shù)據(jù)顯示，這種設(shè)計在 ImageNet 和大語言模型訓(xùn)練上，不僅收斂更快，而且最終效果更好。

4. 給工程師的“后悔藥”

對于工業(yè)界的開發(fā)者來說，HOPE 最迷人的地方可能不是從頭訓(xùn)練一個新模型，而是它提供了一種“原地改造”的可能性。

Ali Behrouz 在分享中提到了一個名為 Ad-hoc Level Stacking 的技巧，你不需要拋棄手里現(xiàn)有的 Llama 或 Qwen 模型。你可以直接拿來一個預(yù)訓(xùn)練好的模型，人為地將它的不同層指定為不同的“更新頻率”，把淺層設(shè)為高頻，深層設(shè)為低頻。

這就像是給一輛已經(jīng)出廠的舊車，通過刷新固件就解鎖了自動駕駛功能。這一特性，讓 Nested Learning 成為了一個工程方案。

從“靜態(tài)產(chǎn)品”到“動態(tài)生命”

我們把視角從代碼行中抽離出來，會發(fā)現(xiàn) Nested Learning 真正的野心，不在于刷榜，而在于試圖完成一次 AI 領(lǐng)域的范式轉(zhuǎn)移。

在 NeurIPS 的分享最后，作者提出了一個發(fā)人深省的觀點，“深度（Depth）也許不再是唯一的答案。”

過去十年，我們一直在堆疊物理層數(shù)，把神經(jīng)網(wǎng)絡(luò)做得越來越深。這種暴力美學(xué)確實帶來了涌現(xiàn)能力，但它也制造了一個巨大的“幻覺”，誤以為智能來源于靜態(tài)的深度。而忽略了真正的深度可能來自于嵌套的優(yōu)化。

更進一步，論文中提出了一個極其激進的定義：“預(yù)訓(xùn)練本身，其實就是一種超長上下文的 In-Context Learning。”

這句話消解了 AI 領(lǐng)域最大的邊界。在 Nested Learning 的愿景里，沒有所謂的“訓(xùn)練結(jié)束”這一天。模型在與用戶交互的每一秒，都在以某種微小的頻率更新自己的突觸。它不再是一個冰冷的、出廠即固化機器，而是一個在數(shù)據(jù)流中不斷呼吸、代謝、進化的有機體。

這或許才是通往 AGI更本質(zhì)的道路，智能不是被灌輸?shù)模窃诮换ブ猩L的。

當(dāng)然，任何試圖顛覆范式的理論，注定會伴隨著巨大的爭議。這圍繞這篇論文討論區(qū)里，聲音很多樣。

樂觀者將其視為 "Attention Is All You Need V2"。社區(qū)對于自我修改這一概念尤為著迷。長期以來，我們一直詬病 LLM 只是“統(tǒng)計學(xué)的鸚鵡”，而 HOPE 讓 AI 第一次擁有了某種“元認(rèn)知”能力，即學(xué)習(xí)如何學(xué)習(xí)。這種從被動擬合到主動適應(yīng)的跨越，被認(rèn)為是 AI 產(chǎn)生質(zhì)變的關(guān)鍵。

實用主義者則看到了解決災(zāi)難性遺忘的曙光。如果這一架構(gòu)能落地，未來的企業(yè)級 AI 將不再需要為了更新一點點業(yè)務(wù)知識而耗資百萬進行全量重訓(xùn)，AI 可以在業(yè)務(wù)流中自然地學(xué)會新規(guī)章，同時不忘記舊制度。這是對降本增效是最直接的。

質(zhì)疑者也大有人在。比如有評論指出，論文中將 SGD（梯度下降）強行解釋為“聯(lián)想記憶”的數(shù)學(xué)證明雖然精彩，但更多依賴直覺，缺乏嚴(yán)謹(jǐn)?shù)氖諗啃员Ｕ稀８泄こ處煋?dān)心，這種復(fù)雜的“嵌套優(yōu)化”會讓調(diào)參難度呈指數(shù)級上升，畢竟，調(diào)一個 Adam 已經(jīng)夠頭疼了，現(xiàn)在我們要同時調(diào)好幾個不同頻率的“大腦”。

但無論如何，Google 這一次沒有在參數(shù)量上卷，而是在“學(xué)習(xí)的本質(zhì)”上開了一槍。

它用一種近乎哲學(xué)的方式提醒我們，對于一個真正的智能體來說，存在就是壓縮，活著就是學(xué)習(xí)。

點個“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.