前兩天,Google發了一個非常有趣的論文:
《Nested Learning: The Illusion of Deep Learning Architectures》
![]()
非常有意思,很多人戲稱,這篇論文,是《Attention is all you need (V2)》。
![]()
《Attention is all you need》,神中神。
這篇論文提出的Transformer架構,現在是幾乎所有大模型的底層,比如GPT、Gemini、Claude、Qwen、DeepSeek等等等等。
2017 年的論文,到了 2025 年,引用次數已經 17 萬+,進入 21 世紀被引用最多的論文前十名,被正式稱為現代 AI 的奠基工作之一。
而現在,所謂的《Attention is all you need (V2)》雖然是個純粹的戲稱,但是也能看出來,如今的大模型發展到了個瓶頸,也急需一種新方法突破的階段了。
所以,《Nested Learning: The Illusion of Deep Learning Architectures》應運而生。
有趣的是,2017年的來自于《Attention is all you need》來自于Google Research,這次,依然是Google Research。
遙相呼應了屬于是。
![]()
在我花了一些時間讀完這篇論文后。
我覺得我還是學到了非常多的東西,有一種我之前看DeepSeek-OCR那篇論文的美感。
我盡可能的用大白話,來聊聊這篇論文到底說了個啥,以及它為啥可能這么牛逼。
話不多說,直接開始。
要理解這篇論文的牛逼之處,我們得先理解現在的大模型有個非常致命的缺陷。
這個缺陷,就是:
失憶。
更準確地說,是:
順行性遺忘癥。
![]()
我們常說,人腦這東西,最厲害的一點,從來不是計算的多又快,有多省功耗,而是能記多久,又能多聰明。
你肯定見過那種經典的神經科普。
比如告訴你,大腦有短期記憶、長期記憶,短期記憶大概能同時存 7±2 個東西,然后很容易忘掉,長期記憶存得久,但寫入很慢,要反復出現、要睡覺鞏固、要和別的東西勾連,你才能記很久很久很久。
然后呢,現在的神經科學也會提到一個觀點,就是說:
記憶是分階段鞏固的,有在線的那一段,也有離線的那一段。
大概就是你白天學的東西,會先在海馬體里寫個草稿,晚上睡覺的時候,大腦會在各種腦波里反復replay,慢慢把重要的東西刻進皮層,變成真正的長期記憶。
所以啊,睡眠不好,會讓你的記憶力越來越差,不是沒有根據的,我現在就能明顯的感覺到,記憶力越來越差了。。。
但是啊,如果你的這里出問題,就會出現我們在上文說的那個很典型的病。
順行性遺忘癥。
這類病人以前的記憶都在,但從某個時間點以后,新東西統統寫不進長期記憶。
他們的世界只有“很久很久以前”和“剛剛這幾分鐘”,剩下的時間一片空白,每一天都像被困在剛剛發生的循環里。
不知道大家有沒有看過諾蘭的一個很經典的電影《記憶碎片》。
![]()
主角只能記住幾分鐘內發生的事,一旦超過這個時間,記憶就清零了,只能靠身上的紋身和紙條來提醒自己。
他知道自己是誰,知道自己過去的一切,但他無法形成新的、長久的記憶。
現在所有的大模型,GPT-5.1也好,Gemini 3 pro也好,再牛逼的模型,現在本質上都是《記憶碎片》的主角。
它們那個龐大的、包含了半個互聯網知識的模型參數,就是主角過去的人生記憶,也是他的長期記憶。
而我們跟它聊天時的那個上下文窗口,就是他那幾分鐘的短期記憶。
你在一個對話里教它一個新知識,它能記住,還能舉一反三。
但只要你關掉對話框,重新開一個,再問它,它就一臉無辜地看著你:“咱倆之前聊過這個嗎?”
這里咱們不聊ChatGPT和Gemini里面那種記憶的能力,那個本質上是RAG,不能算從模型層面,真的記住了那些你說過的知識。
所以,我們其實可以看到,大模型的知識,被永遠凍結在了預訓練結束的那一刻。
從那以后,它就失去了形成新長期記憶的能力。
每一次對話都是一場絢爛的煙火,美則美矣,但消散后,什么都不會留下。
所以,這也意味著,現在你能用到的
AI,也永遠無法真正地成長。
它無法從與你的互動中真正地了解你,也無法從解決了一個新問題后把經驗固化下來。
所以,其實我們每次跟AI開啟一個新的對話,都是在和一個全新的、只有出廠設置的AI打交道。
這里還是再強調一下,我說的一直都是模型層面,不是ChatGPT上面的那種記憶功能,那是工程層面,跟模型本身沒啥關系。
![]()
講到這里,我相信大家,都已經理解了,在現在的AI架構之下,這個致命的弊端。
就是,順行性遺忘。
所以,這篇《Nested Learning》(嵌套學習,簡稱NL)的論文,就是沖著這個根本問題來的。
他們關注到了人腦里,一個特別有意思的現象,就是腦電波。
![]()
我們的大腦里,其實是有各種不同頻率的腦電波,他們各自騎著不同的作用。
比如睡覺時的Delta波(0.5-4Hz),放松時的Alpha波(8-12Hz),專注時的Beta波(12-30Hz)等等。
這些不同程度的腦電波,其實都代表著不同的神經元在處理一些不同的任務。
比如有些神經元在飛速地處理眼前的信息,像電腦的GPU一樣,這是高頻活動。
有些則在慢悠悠地整理、歸納、存儲信息,把短期記憶變成長期記憶,這是低頻活動。
所以,我們的大腦,其實一直是一個非常復雜的多頻率多層次協同工作的系統。
我用開車這事來舉個例子,比如你正在學開車。
你的最高頻系統,是你的手腳肌肉記憶。
方向盤往左打多少,油門踩多深,這個反應得非常快,幾乎是毫秒級的。這是最表層的、最快的學習。
你的中頻系統,是你的戰術決策。
比如“前面紅燈了,我該踩剎車了”、“旁邊有車要并線,我得讓一下”。這個決策過程比肌肉反應要慢,可能是秒級的,你需要一點點時間來處理路況信息,這是中頻。
你的低頻系統,是你的戰略規劃。
比如“我今天要去A地,導航顯示這條路堵車,我應該換一條路走”。
這個學習和決策過程就更慢了,你可能在出發前就想好了,路上還會根據情況調整,這是低頻。
你的最低頻系統,是你的核心駕駛理念和能力。
通過幾個月的練習,你從一個新手變成了老司機。
這個學會開車的過程,徹底改變了你大腦中關于駕駛的神經連接,而這個變化是非常緩慢的,是以天、周、月為單位的,用AI的話說,就是,你的駕駛模型被重塑了。
從這個學會開車這么一個小事上來說,你應該能發現,
我們人類的學習,天然就是嵌套式的,也是分層次分頻率的。
我們不會用思考人生哲學的腦回路去控制踩剎車的肌肉,也不會用肌肉記憶去規劃一次長途旅行。
現在的以Transformer為首的大模型架構,問題就出在這。它雖然有很多層,但本質上,它是個單頻系統。
在訓練的時候,所有參數的更新節奏基本是一致的,訓練結束后,整個系統就被鎖死,所有頻率都歸零了。
他再也沒有辦法學習了。
而再《Nested Learning》這套框架下,論文又提出了一個新的模型模塊 ,HOPE,名字非常好聽,叫希望。
![]()
HOPE里面,混了兩個東西,一部分是會自我修改權重的序列模型,一部分是多時間尺度的連續記憶帶(Continuum Memory System)。
從而,讓HOPE,擁有了帶自我更新機制的記憶單元。
它要把一個AI模型,明確地拆分成不同更新頻率的層級。
再這套框架下,AI在跟你對話的時候:
它的高頻層,在飛速處理你說的每個詞,理解你的意圖,生成回復,這部分記憶是臨時的,對話結束可能就忘了。
它的中頻層則在以一個稍慢的速度,分析你這整個對話的主題、你的情緒、你的知識盲區,試圖形成一個關于這次互動的概要記憶。
它的低頻層則更慢,它在整合過去一段時間里,跟你的所有互動。它可能會發現:“哦,這個用戶最近總是在問關于古典音樂的問題,而且他似乎對巴赫特別感興趣。我應該把‘該用戶是古典音樂愛好者’這個標簽存入關于他的長期檔案里。”
這個過程,就非常非常像人腦的記憶鞏固機制了。
我們白天經歷了很多事,這些都是碎片化的短期記憶,儲存在我們大腦的海馬體里。
到了晚上睡覺的時候,大腦會像放電影一樣回放這些記憶片段(再論文里叫offline consolidation),把重要的信息篩選出來,然后寫入到大腦皮層,成為穩定的長期記憶。
嵌套學習,就是給了AI一個睡覺和反思的能力。
可以讓AI,成為一個可以日積月累、不斷沉淀的學習者。
講到這里,你可能立刻會有一個疑問。
就是這個ChatGPT的記憶。
![]()
你可能會說:“等等,現在的大模型不是已經有記憶了嗎?我告訴它我是一個素食主義者,它就能記住,下次會給我推薦素食餐廳。這不就是你說的那個低頻層在起作用嗎?”
但這個地方,我想說,這其實是個隨身帶個筆記本和記在了腦子里的根本區別。
你看到的ChatGPT的記憶功能,本質上就是一個筆記本,當你告訴它一個信息,比如“我是個大呆逼”,它并沒有真正把這個信息學進它那個巨大的神經網絡大腦里去。
它的核心模型,那上萬億個參數,一個子兒都沒動。
它做的是,把“用戶是個大呆逼”這個事實,提煉出來,存進一個外掛的數據庫里,這個就是非常常見的一個技術,叫檢索增強生成,也就是RAG。
下次你跟它聊天,它會先在這個數據庫里迅速翻一下,找到跟你相關的信息,然后把“已知該用戶是個大呆逼”這句話,悄悄地、自動地塞進你們對話的背景信息里,再來回答你的問題。
所以,它的大腦本身還是那個失憶的大腦。
它只是擁有了一個越來越厚的、關于你的外部參考資料庫。
它不是真的記得,而是在每次對話前,都先看一遍筆記再來回答,僅此而已。
這很強大,非常實用,但它有極限。這個極限就是,它無法將這些零散的知識點內化為真正的理解或直覺。
而《Nested Learning》提出的設想,是真正地去重塑大腦。
當它的低頻層運行時,它不是往外掛數據庫里寫一行字。
它是用你和它的互動數據,去微調和更新它自己神經網絡內部的參數。
這其實就像我們自己學習新技能,通過反復練習,大腦里負責這項技能的神經突觸被真正地加強、重塑了。
再舉個例子,一個鋼琴家。
給他一本新樂譜,他可以看著譜子(外部記憶)彈出來,彈得可能很準,但也許沒啥感情,你把樂譜拿走,他就彈不出來了,這就是現在ChatGPT的記憶。
但,如果這位鋼琴家花了一個月的時間練習這首曲子,他早就已經扔掉樂譜,曲子已經融入了他的肌肉記憶和情感理解,他的大腦和手指的神經也完全緊密連接。
他不僅能彈,還能即興變奏,還能跟你探討這首曲子背后的情感。這就是嵌套學習所追求的境界。
所以,你看,這完全是兩個層面的事。
現有記憶,是一種行為上的模擬。它通過外部工具,讓AI看起來像有記憶,但其實AI的世界觀和底層邏輯是紋絲不動的。
而這個嵌套學習的方法,是一種結構上的成長。它能讓AI的神經網絡本身發生改變,把新的信息和經驗,從零散的數據點內化成模型自身能力的一部分,從而,讓知識,真正變成了智慧。
這就是為什么這篇論文,為啥讓我如此令人興奮的原因。
這才是未來,真正的AI。
一個真正懂你的個人助理,你不用每次都跟它重復你的個人偏好和背景信息,它記得你上次跟它聊過你的寵物狗,記得你對貓毛過敏,記得你正在籌備下個月的旅行。
它跟你的互動越多,就越懂你。
這才是真正的。
Personal AI。
而在真正的評測里,論文作者拉來了Transformer++、RetNet、DeltaNet、Titans那些模型,在同樣的參數量和訓練數據下,HOPE在一串常見評測上,平均成績都是第一檔。
![]()
這條路,是有可能成功的。
萬物皆是嵌套。
一個細胞的生命周期,嵌套在一個器官的運轉中。
一個器官的運轉,嵌套在一個人的生命里。
一個人的生命,嵌套在一部家族史里。
一部家族史,又嵌套在一個文明的興衰中。
每一層都有自己的節拍和韻律,它們彼此影響,共同構成了這個復雜而美妙的世界。
也許,我們大腦幾百萬年進化出來的學習機制,可能真的,非常地道。
而AI要做的,也許不是另起爐灶,而是更謙卑地去模仿這種嵌套的、多層次的、充滿韻律感的智慧。
也許,當AI真的學會了遺忘,學會丟棄不重要的信息,學會了沉淀,學會了鞏固重要的記憶,學會了在喧囂中保持一份緩慢的思考時。
它才真正開始擁有智能的幻覺。
甚至。
靈魂的雛形。
這條路還很長,但想想就讓人激動,不是嗎?
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.