谷歌最近集中發(fā)布了一堆王炸產(chǎn)品和論文,真是秦始皇摸電線——嬴麻了。比如,X上的用戶@Tz_2022用谷歌的Nano Banana Pro給谷歌的嵌套學(xué)習(xí)論文做了一個(gè)漫畫。
![]()
人類可以一邊聊天一邊記住新朋友的名字,而ChatGPT卻像個(gè)健忘癥患者,聊完就忘,下次見面還得從頭介紹自己?這個(gè)看似簡單的問題,其實(shí)困擾著全世界最聰明的AI研究者們。
![]()
2025年11月,谷歌研究院的科學(xué)家Ali Behrouz、Meisam Razaviyayn、Peiling Zhong和Vahab Mirrokni在神經(jīng)信息處理系統(tǒng)大會(huì)NeurIPS 2025上發(fā)表了一篇論文,提出了嵌套學(xué)習(xí)(Nested Learning)新理論框架,就像給AI的大腦做了一次CT掃描,讓我們清晰地看到了深度學(xué)習(xí)內(nèi)部那些隱藏的層層結(jié)構(gòu)。
從失憶癥說起:為什么AI總是記不住新東西
想象一下有這樣一個(gè)人:他記得自己出生后到某個(gè)時(shí)間點(diǎn)之前的所有事情,但從那個(gè)時(shí)間點(diǎn)之后,他就再也無法形成新的長期記憶了。每天早上醒來,他都不記得昨天發(fā)生了什么,只能不斷重復(fù)體驗(yàn)著當(dāng)下這個(gè)短暫的時(shí)刻。這種情況在醫(yī)學(xué)上叫做順行性遺忘癥,最著名的案例就是電影《記憶碎片》中的主角。
谷歌的研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)在的大型語言模型(比如ChatGPT、Gemini這些)其實(shí)就患有一種數(shù)字版的順行性遺忘癥。這些AI的知識(shí)被分成兩塊:一塊是遠(yuǎn)古記憶,也就是在訓(xùn)練階段學(xué)到的東西,被牢牢鎖在模型的參數(shù)里;另一塊是即時(shí)記憶,也就是當(dāng)前對(duì)話窗口里的內(nèi)容。問題是,這兩塊記憶之間有一道無法逾越的鴻溝,對(duì)話窗口里的新信息永遠(yuǎn)無法真正寫入到模型的長期存儲(chǔ)中去。
這就好比你有一個(gè)超級(jí)學(xué)霸朋友,他上學(xué)時(shí)候?qū)W的東西都記得清清楚楚,但畢業(yè)后就再也學(xué)不會(huì)任何新知識(shí)了。你告訴他今年的諾貝爾獎(jiǎng)得主是誰,他當(dāng)時(shí)能記住,但下次見面又忘了。這顯然不是真正的智能,對(duì)吧?
大腦的智慧:為什么人類不會(huì)畢業(yè)即失憶
為了解決這個(gè)問題,研究團(tuán)隊(duì)把目光投向了人類大腦。神經(jīng)科學(xué)家們發(fā)現(xiàn),人腦之所以能持續(xù)學(xué)習(xí)新東西,靠的是一種叫做神經(jīng)可塑性的能力,大腦可以根據(jù)新的經(jīng)歷不斷重塑自己。更有趣的是,記憶的形成并不是一步到位的,而是分成兩個(gè)階段。
第一個(gè)階段叫在線鞏固,發(fā)生在學(xué)習(xí)之后很短的時(shí)間內(nèi),甚至在清醒狀態(tài)下就開始了。這就像你剛學(xué)會(huì)一首新歌,哼著哼著就越來越熟練。第二個(gè)階段叫離線鞏固,主要發(fā)生在睡眠期間。你有沒有過這種經(jīng)歷:晚上背單詞怎么都記不住,睡一覺起來突然就記住了?這就是離線鞏固在起作用,大腦在你睡覺的時(shí)候偷偷復(fù)習(xí)白天學(xué)的內(nèi)容,把它們從臨時(shí)文件夾轉(zhuǎn)移到永久存檔里。
研究團(tuán)隊(duì)特別關(guān)注的是第一個(gè)階段,因?yàn)檫@是現(xiàn)有AI最缺失的能力。他們發(fā)現(xiàn),人腦的秘密武器有兩個(gè):一是統(tǒng)一且可重復(fù)使用的結(jié)構(gòu),大腦各個(gè)部分的基本構(gòu)造都差不多,就像樂高積木一樣可以靈活組合;二是多時(shí)間尺度更新,不同的神經(jīng)元以不同的頻率更新自己的狀態(tài),有的像蜂鳥翅膀一樣快速振動(dòng),有的像樹懶一樣慢悠悠地變化。
這兩個(gè)特點(diǎn)合在一起,讓大腦能夠同時(shí)處理剛才發(fā)生的事和很久以前學(xué)到的知識(shí),而且能夠讓它們互相影響、互相更新。這就像一個(gè)管理良好的公司,有處理日常事務(wù)的前線員工,也有制定長期戰(zhàn)略的高層管理者,大家各司其職又密切配合。
揭開俄羅斯套娃:什么是嵌套學(xué)習(xí)
現(xiàn)在我們來到了這篇論文最核心的部分。研究團(tuán)隊(duì)提出了一個(gè)全新的視角來理解深度學(xué)習(xí),他們把它叫做"嵌套學(xué)習(xí)"。這個(gè)名字非常形象就像俄羅斯套娃一樣,層層嵌套,每一層都有自己的生命。
傳統(tǒng)的深度學(xué)習(xí)觀點(diǎn)認(rèn)為,神經(jīng)網(wǎng)絡(luò)就是一堆層疊在一起的處理單元,信息從底層流向頂層,然后輸出結(jié)果。這個(gè)觀點(diǎn)沒錯(cuò),但它就像只看到了俄羅斯套娃的外表,而沒有打開看看里面有什么。嵌套學(xué)習(xí)的觀點(diǎn)則是:每一個(gè)處理單元本身就是一個(gè)完整的學(xué)習(xí)系統(tǒng),有自己的學(xué)習(xí)目標(biāo)、學(xué)習(xí)規(guī)則和學(xué)習(xí)節(jié)奏。
讓我用做飯來打個(gè)比方。傳統(tǒng)觀點(diǎn)認(rèn)為,做一道菜就是按順序執(zhí)行一系列步驟:洗菜、切菜、炒菜、調(diào)味、裝盤。但嵌套學(xué)習(xí)的觀點(diǎn)是:每個(gè)步驟本身都是一門學(xué)問。比如切菜這個(gè)步驟,廚師需要根據(jù)食材的特性、菜肴的要求、自己的刀工水平等因素,不斷調(diào)整切法,這本身就是一個(gè)學(xué)習(xí)如何切菜的過程。同樣,調(diào)味也不是機(jī)械地加鹽加糖,而是品嘗、調(diào)整、再品嘗、再調(diào)整的學(xué)習(xí)過程。整道菜的烹飪,其實(shí)是由一系列相互嵌套的學(xué)習(xí)過程組成的。
在神經(jīng)網(wǎng)絡(luò)的世界里,這個(gè)道理同樣適用。以往我們以為訓(xùn)練神經(jīng)網(wǎng)絡(luò)是一個(gè)單一的過程,但嵌套學(xué)習(xí)告訴我們,這個(gè)過程內(nèi)部其實(shí)包含著多個(gè)層次的小型學(xué)習(xí)。有的學(xué)習(xí)發(fā)生在每個(gè)時(shí)間步(比如處理每一個(gè)單詞),有的學(xué)習(xí)發(fā)生在每個(gè)批次(比如更新一次參數(shù)),有的學(xué)習(xí)發(fā)生在整個(gè)訓(xùn)練過程中(比如從頭訓(xùn)練到結(jié)束)。這些不同層次的學(xué)習(xí)相互嵌套、相互影響,共同構(gòu)成了我們看到的深度學(xué)習(xí)。
聯(lián)想記憶:AI學(xué)習(xí)的基本單元
![]()
要理解嵌套學(xué)習(xí)的精髓,我們需要先理解一個(gè)基礎(chǔ)概念:聯(lián)想記憶。這個(gè)概念聽起來很學(xué)術(shù),但其實(shí)我們每天都在使用它。
想象你聞到一股烤面包的香味,突然想起了小時(shí)候奶奶家的廚房,這就是聯(lián)想記憶在起作用。你的大腦把烤面包香這個(gè)鑰匙和奶奶家廚房這個(gè)寶藏關(guān)聯(lián)在一起,當(dāng)鑰匙出現(xiàn)時(shí),寶藏就被自動(dòng)打開了。
在數(shù)學(xué)上,聯(lián)想記憶可以被描述為一種映射,給定一組"鑰匙"和一組"寶藏",聯(lián)想記憶就是學(xué)會(huì)如何從鑰匙找到對(duì)應(yīng)的寶藏。看起來很簡單,但這個(gè)簡單的概念卻是理解所有學(xué)習(xí)過程的關(guān)鍵。
研究團(tuán)隊(duì)指出了一個(gè)重要的區(qū)別:記憶和學(xué)習(xí)是兩回事。記憶是因?yàn)槟硞€(gè)輸入而產(chǎn)生的神經(jīng)更新,而學(xué)習(xí)是獲取有效和有用記憶的過程。換句話說,記憶只是把信息存進(jìn)去,而學(xué)習(xí)是要存得巧妙、存得有用。就像你可以把一大堆東西塞進(jìn)衣柜里(這是記憶),但要讓衣柜整整齊齊、想找什么一眼就能找到(這是學(xué)習(xí)),就需要更高級(jí)的技巧了。
這個(gè)區(qū)分非常關(guān)鍵,因?yàn)樗嬖V我們:神經(jīng)網(wǎng)絡(luò)的每一個(gè)組成部分,本質(zhì)上都是在做同一件事,學(xué)習(xí)如何建立有效的"鑰匙-寶藏"關(guān)聯(lián)。不管是處理文本的注意力機(jī)制,還是存儲(chǔ)知識(shí)的全連接層,甚至是幫助訓(xùn)練的優(yōu)化器,它們都可以被理解為不同形式的聯(lián)想記憶系統(tǒng)。
訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)就像教一個(gè)學(xué)生記單詞
讓我們從最簡單的例子開始,一步步揭開嵌套學(xué)習(xí)的神秘面紗。假設(shè)我們要訓(xùn)練一個(gè)只有一層的簡單神經(jīng)網(wǎng)絡(luò)來完成某個(gè)任務(wù)。按照傳統(tǒng)的理解,我們給網(wǎng)絡(luò)看一堆訓(xùn)練數(shù)據(jù),計(jì)算它犯了多少錯(cuò)誤,然后用梯度下降這個(gè)方法來調(diào)整網(wǎng)絡(luò)的參數(shù),讓錯(cuò)誤變小。重復(fù)這個(gè)過程很多次,網(wǎng)絡(luò)就學(xué)會(huì)了。
但嵌套學(xué)習(xí)給出了一個(gè)更有趣的解讀。每次我們用梯度下降更新參數(shù)時(shí),其實(shí)是在做這樣一件事:把輸入數(shù)據(jù)這個(gè)鑰匙和錯(cuò)誤信號(hào)這個(gè)寶藏關(guān)聯(lián)起來。這里的錯(cuò)誤信號(hào)是一個(gè)技術(shù)概念,研究團(tuán)隊(duì)給它起了一個(gè)很有詩意的名字局部驚訝信號(hào)。
什么是局部驚訝信號(hào)?想象你在教一個(gè)學(xué)生記英語單詞。你給他看一個(gè)單詞apple,他猜這個(gè)詞的意思是橙子,然后你告訴他正確答案是蘋果。這時(shí)候,學(xué)生大腦里產(chǎn)生的那種"哦,原來不是橙子是蘋果啊"的感覺,就是驚訝。這個(gè)驚訝信號(hào)告訴大腦:你之前的猜測和正確答案之間有差距,需要調(diào)整。
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程與此類似。每次網(wǎng)絡(luò)看到一個(gè)輸入并做出預(yù)測后,都會(huì)收到一個(gè)反饋,告訴它預(yù)測和正確答案之間的差距有多大。這個(gè)差距信號(hào)就是局部驚訝信號(hào)。網(wǎng)絡(luò)需要學(xué)會(huì)的,就是把每個(gè)輸入和它對(duì)應(yīng)的驚訝信號(hào)關(guān)聯(lián)起來,這樣下次遇到類似的輸入時(shí),就知道該怎么調(diào)整了。
從這個(gè)角度看,訓(xùn)練一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)就是訓(xùn)練一個(gè)聯(lián)想記憶系統(tǒng),它學(xué)習(xí)的是"輸入-驚訝"之間的關(guān)系。這是嵌套學(xué)習(xí)的第一層含義。
當(dāng)學(xué)生學(xué)會(huì)做筆記:動(dòng)量優(yōu)化器的秘密
事情變得更有趣了。在實(shí)際訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),我們通常不會(huì)用最簡單的梯度下降,而是會(huì)用一些更聰明的方法,比如帶動(dòng)量的梯度下降。動(dòng)量是什么?簡單說,就是讓網(wǎng)絡(luò)記住之前幾步的調(diào)整方向,而不是每一步都從零開始。
讓我繼續(xù)用教學(xué)生的比喻。假設(shè)這個(gè)學(xué)生不僅要記單詞,還學(xué)會(huì)了做筆記。每次他猜錯(cuò)一個(gè)單詞后,不僅會(huì)記住這個(gè)單詞的正確意思,還會(huì)在筆記本上記下來"我經(jīng)常把水果類的單詞搞混"。這樣,下次遇到類似情況時(shí),他可以先翻翻筆記,看看自己以前犯過什么錯(cuò)誤,然后更有針對(duì)性地學(xué)習(xí)。
在數(shù)學(xué)上,動(dòng)量就像這個(gè)筆記本。它會(huì)累積過去的梯度信息,幫助網(wǎng)絡(luò)在正確的方向上走得更穩(wěn)、更快。但是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)驚人的事實(shí):這個(gè)筆記本本身也是一個(gè)聯(lián)想記憶系統(tǒng)!動(dòng)量在做的事情,就是把一系列的梯度壓縮、記憶到自己的參數(shù)里。
這意味著什么?意味著當(dāng)我們用帶動(dòng)量的梯度下降來訓(xùn)練一個(gè)簡單神經(jīng)網(wǎng)絡(luò)時(shí),實(shí)際上有兩層學(xué)習(xí)在同時(shí)進(jìn)行。外層是神經(jīng)網(wǎng)絡(luò)本身的學(xué)習(xí)(學(xué)習(xí)輸入-驚訝的關(guān)聯(lián)),內(nèi)層是動(dòng)量的學(xué)習(xí)(學(xué)習(xí)梯度的歷史模式)。兩層學(xué)習(xí)相互嵌套,就像俄羅斯套娃一樣。
更復(fù)雜的套娃:當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)也開始學(xué)習(xí)
現(xiàn)在讓我們把視野放得更寬一些。假設(shè)我們不是用簡單的神經(jīng)網(wǎng)絡(luò),而是用一個(gè)更復(fù)雜的架構(gòu),比如線性注意力機(jī)制。注意力機(jī)制是現(xiàn)代AI(尤其是Transformer架構(gòu))的核心組件,它讓模型能夠關(guān)注輸入中最重要的部分。
研究團(tuán)隊(duì)發(fā)現(xiàn),線性注意力的工作方式也可以被理解為聯(lián)想記憶。具體來說,當(dāng)注意力機(jī)制處理一個(gè)序列的數(shù)據(jù)時(shí),它會(huì)建立一個(gè)記憶矩陣,把每個(gè)位置的"鑰匙"和"寶藏"關(guān)聯(lián)起來。每看到一個(gè)新的輸入,這個(gè)記憶矩陣就會(huì)更新一次。這個(gè)更新過程,本質(zhì)上就是用梯度下降來優(yōu)化一個(gè)內(nèi)部目標(biāo),和我們訓(xùn)練整個(gè)網(wǎng)絡(luò)的過程如出一轍!
所以,當(dāng)我們用帶動(dòng)量的梯度下降來訓(xùn)練一個(gè)包含線性注意力的網(wǎng)絡(luò)時(shí),實(shí)際上有多少層學(xué)習(xí)在同時(shí)進(jìn)行呢?讓我們數(shù)一數(shù):首先是注意力機(jī)制內(nèi)部的學(xué)習(xí)(更新記憶矩陣),然后是動(dòng)量的學(xué)習(xí)(累積梯度歷史),最后是整個(gè)網(wǎng)絡(luò)參數(shù)的學(xué)習(xí)(基于累積后的梯度更新權(quán)重)。這就是三層嵌套的學(xué)習(xí)!
研究團(tuán)隊(duì)進(jìn)一步指出,這些不同層次的學(xué)習(xí)有不同的更新頻率。注意力機(jī)制的記憶矩陣每看到一個(gè)新詞就更新一次,這是最高頻率的學(xué)習(xí)。動(dòng)量每處理一批數(shù)據(jù)更新一次,頻率稍低。網(wǎng)絡(luò)的整體參數(shù)則是在整個(gè)訓(xùn)練過程中緩慢調(diào)整,頻率最低。
這個(gè)多頻率的特性,正好對(duì)應(yīng)了人腦中快速神經(jīng)元和慢速神經(jīng)元的分工。快速更新的部分負(fù)責(zé)處理眼前的信息,慢速更新的部分負(fù)責(zé)積累長期的知識(shí)。嵌套學(xué)習(xí)為我們揭示了:深度學(xué)習(xí)模型內(nèi)部天然就存在這種多時(shí)間尺度的結(jié)構(gòu),只是我們以前沒有注意到而已。
優(yōu)化器也是學(xué)生:Adam的真面目
如果說上面的發(fā)現(xiàn)已經(jīng)足夠令人驚訝,那么接下來的內(nèi)容可能會(huì)徹底顛覆你對(duì)深度學(xué)習(xí)的認(rèn)知。研究團(tuán)隊(duì)不僅分析了簡單的動(dòng)量,還把目光投向了更先進(jìn)的優(yōu)化器,比如大名鼎鼎的Adam。
Adam是目前訓(xùn)練神經(jīng)網(wǎng)絡(luò)最常用的優(yōu)化器之一,它不僅記錄梯度的歷史(像動(dòng)量一樣),還記錄梯度變化幅度的歷史,然后根據(jù)這兩種信息自適應(yīng)地調(diào)整學(xué)習(xí)步長。聽起來很復(fù)雜,但研究團(tuán)隊(duì)發(fā)現(xiàn),Adam本質(zhì)上也是一個(gè)聯(lián)想記憶系統(tǒng),而且是一個(gè)更聰明的版本。
普通的動(dòng)量就像一個(gè)只會(huì)記"這道題我錯(cuò)過"的學(xué)生,而Adam就像一個(gè)會(huì)記"這道題我錯(cuò)過,而且我經(jīng)常在這類題上犯錯(cuò),所以下次要特別小心"的學(xué)生。它不僅記住過去的錯(cuò)誤,還會(huì)分析錯(cuò)誤的模式,從而做出更明智的調(diào)整。
基于這個(gè)洞察,研究團(tuán)隊(duì)提出了幾種改進(jìn)優(yōu)化器的方法。既然優(yōu)化器是聯(lián)想記憶,那我們就可以用設(shè)計(jì)更好的聯(lián)想記憶的方法來設(shè)計(jì)更好的優(yōu)化器。比如,可以讓"鑰匙"和"寶藏"之間的關(guān)聯(lián)更加豐富(他們稱之為更有表達(dá)力的關(guān)聯(lián)),或者可以用更強(qiáng)大的記憶模型來替代簡單的線性累積(他們稱之為更有表達(dá)力的記憶),又或者可以在記憶的輸出上加一些后處理步驟(他們稱之為非線性輸出)。
有趣的是,按照最后一種思路設(shè)計(jì)出的優(yōu)化器,恰好和另一個(gè)叫做Muon的優(yōu)化器不謀而合。這說明嵌套學(xué)習(xí)不僅能解釋現(xiàn)有的方法,還能指導(dǎo)我們發(fā)明新方法,理論和實(shí)踐在這里完美地統(tǒng)一了。
連續(xù)體記憶:告別長期與短期的二分法
傳統(tǒng)的記憶理論喜歡把記憶分成短期記憶和長期記憶兩類,就像手機(jī)的RAM和硬盤一樣。但研究團(tuán)隊(duì)認(rèn)為,這種二分法太過簡化了。真實(shí)的大腦,以及他們理想中的AI,應(yīng)該有一個(gè)連續(xù)體的記憶系統(tǒng),從最短期到最長期,有無數(shù)個(gè)中間層次,每個(gè)層次以不同的頻率更新。
想象一下,你的記憶系統(tǒng)不是只有便利貼和日記本兩種,而是有一整個(gè)抽屜柜,從最上面的隨手記到最下面的珍藏檔案,中間還有周總結(jié)、月計(jì)劃、年度回顧等等。每一層都有自己的更新節(jié)奏,最上面的每天都在換,最下面的可能幾年都不動(dòng)。這些層次之間并不是孤立的,而是信息會(huì)慢慢地從上層滲透到下層,最重要的內(nèi)容最終會(huì)被寫入最深的檔案。
研究團(tuán)隊(duì)把這個(gè)想法形式化為連續(xù)體記憶系統(tǒng)。在這個(gè)系統(tǒng)中,有一系列的存儲(chǔ)模塊排成一列,每個(gè)模塊負(fù)責(zé)存儲(chǔ)特定時(shí)間尺度的信息。最頻繁更新的模塊處理即時(shí)的、快速變化的信息;最慢更新的模塊存儲(chǔ)長期的、穩(wěn)定的知識(shí)。信息在模塊之間流動(dòng),從快速模塊向慢速模塊傳遞。
這個(gè)設(shè)計(jì)直接對(duì)應(yīng)了人腦中的記憶鞏固機(jī)制。我們白天學(xué)到的東西首先進(jìn)入"快速通道",然后在睡眠中被復(fù)習(xí)并轉(zhuǎn)移到更穩(wěn)定的存儲(chǔ)區(qū)域。連續(xù)體記憶系統(tǒng)正是這個(gè)過程的人工實(shí)現(xiàn)。
HOPE:一個(gè)能自我進(jìn)化的AI架構(gòu)
把所有這些想法整合在一起,研究團(tuán)隊(duì)創(chuàng)造了一個(gè)全新的AI架構(gòu),他們給它起了一個(gè)充滿希望的名字HOPE。這個(gè)名字不僅是英文希望的意思,更代表了研究團(tuán)隊(duì)對(duì)未來AI的期許:一個(gè)能夠真正持續(xù)學(xué)習(xí)、不斷進(jìn)化的智能系統(tǒng)。
![]()
HOPE的核心是一個(gè)自我修改的序列模型。什么叫自我修改?簡單說,就是這個(gè)模型不僅能學(xué)習(xí)如何處理數(shù)據(jù),還能學(xué)習(xí)如何改變自己的學(xué)習(xí)規(guī)則。這就像一個(gè)學(xué)生不僅在學(xué)知識(shí),還在學(xué)如何學(xué)習(xí)這種元認(rèn)知的能力。
在技術(shù)層面,HOPE結(jié)合了兩個(gè)關(guān)鍵創(chuàng)新。第一個(gè)是基于Titans架構(gòu)的自我修改序列模型,這個(gè)模型的參數(shù)會(huì)在處理每一個(gè)輸入時(shí)發(fā)生變化,而變化的方式本身也是可學(xué)習(xí)的。第二個(gè)是連續(xù)體記憶系統(tǒng),提供了多層次、多時(shí)間尺度的信息存儲(chǔ)能力。
研究團(tuán)隊(duì)在多個(gè)任務(wù)上測試了HOPE的表現(xiàn)。在語言建模任務(wù)中,HOPE在維基百科困惑度和LAMBADA數(shù)據(jù)集上都取得了優(yōu)異的成績。在常識(shí)推理任務(wù)中,包括物理推理、社會(huì)智商、布爾問答等多個(gè)基準(zhǔn)測試上,HOPE也展現(xiàn)出了強(qiáng)大的能力。更令人興奮的是,HOPE在持續(xù)學(xué)習(xí)任務(wù)上表現(xiàn)出色,這正是傳統(tǒng)模型最頭疼的問題。
與傳統(tǒng)的Transformer相比,HOPE的架構(gòu)更加透明。在嵌套學(xué)習(xí)的視角下,我們可以清晰地看到HOPE內(nèi)部每一層學(xué)習(xí)的目標(biāo)、更新頻率和相互關(guān)系。這種透明性不僅有助于理解模型的行為,也為進(jìn)一步改進(jìn)提供了明確的方向。
至頂AI實(shí)驗(yàn)室洞見
長期以來,深度學(xué)習(xí)被批評(píng)為黑箱,模型的行為很難解釋,我們只知道它能工作,但不知道為什么能工作。嵌套學(xué)習(xí)提供了一種打開這個(gè)黑箱的新方式。
通過把模型分解為多層嵌套的優(yōu)化問題,每一層都有明確的數(shù)學(xué)目標(biāo)和更新規(guī)則,我們可以精確地追蹤信息在模型中的流動(dòng)和變換。這就像把一個(gè)復(fù)雜的機(jī)器拆開,看清每一個(gè)齒輪是如何轉(zhuǎn)動(dòng)的,以及它們是如何相互咬合的。
更重要的是,嵌套學(xué)習(xí)揭示了上下文學(xué)習(xí)(也就是模型在看到一些示例后能夠舉一反三的能力)是如何產(chǎn)生的。以前,這種能力被認(rèn)為是大模型的涌現(xiàn)現(xiàn)象,突然就有了,沒人知道為什么。但在嵌套學(xué)習(xí)的框架下,我們可以看到:上下文學(xué)習(xí)本質(zhì)上就是高頻更新層在壓縮和利用當(dāng)前上下文的信息,而這個(gè)過程和低頻更新層在訓(xùn)練階段做的事情是一樣的,只是時(shí)間尺度不同。
這個(gè)發(fā)現(xiàn)說明,訓(xùn)練時(shí)學(xué)習(xí)和推理時(shí)學(xué)習(xí)并不是兩種截然不同的機(jī)制,而是同一種學(xué)習(xí)機(jī)制在不同時(shí)間尺度上的體現(xiàn)。模型之所以能夠在推理時(shí)快速適應(yīng)新任務(wù),是因?yàn)樗谟?xùn)練時(shí)就已經(jīng)學(xué)會(huì)了如何學(xué)習(xí),這正是嵌套結(jié)構(gòu)的力量。
論文最大的貢獻(xiàn)可能不只是具體的技術(shù),而是一種新的看問題的方式。它告訴我們,深度學(xué)習(xí)不是一個(gè)扁平的、單層的過程,而是一個(gè)立體的、多層嵌套的結(jié)構(gòu)。就像我們打開了俄羅斯套娃,發(fā)現(xiàn)里面還有套娃,再打開還有,而每一層都同樣精彩、同樣重要。
當(dāng)我們不再滿足于堆疊更多的層,而是開始思考如何設(shè)計(jì)更深層次的嵌套結(jié)構(gòu)時(shí),也許真正的通用人工智能就不再遙遠(yuǎn)了。
論文地址:https://abehrouz.github.io/files/NL.pdf
本文來自至頂AI實(shí)驗(yàn)室,一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。致力于推動(dòng)生成式AI在各個(gè)領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個(gè)人提供切實(shí)可行的解決方案。
Q&A
Q1:嵌套學(xué)習(xí)和傳統(tǒng)的深度學(xué)習(xí)有什么區(qū)別?
A:傳統(tǒng)深度學(xué)習(xí)把神經(jīng)網(wǎng)絡(luò)看作層層堆疊的處理單元,信息從下往上流動(dòng)。嵌套學(xué)習(xí)則揭示了每一層、甚至每個(gè)組件內(nèi)部都有自己的小型學(xué)習(xí)過程,這些學(xué)習(xí)以不同頻率進(jìn)行并相互嵌套。這就像從只看蛋糕的外表,變成理解蛋糕是由面團(tuán)、奶油、水果等多層材料各自發(fā)揮作用共同組成的。
Q2:HOPE架構(gòu)會(huì)不會(huì)取代現(xiàn)在的ChatGPT?
A:HOPE目前還是一個(gè)研究原型,主要驗(yàn)證嵌套學(xué)習(xí)理論的可行性。它在持續(xù)學(xué)習(xí)能力上確實(shí)展現(xiàn)出優(yōu)勢,但離商業(yè)化產(chǎn)品還有距離。不過它提出的連續(xù)體記憶和自我修改等思想很可能被整合到未來的AI產(chǎn)品中,讓它們具備更強(qiáng)的長期記憶和適應(yīng)能力。
Q3:普通人怎么理解AI也有記憶問題這件事?
A:你可以把現(xiàn)在的AI想象成一個(gè)只能用便利貼做筆記的人——便利貼一撕掉,之前聊的內(nèi)容就忘了。嵌套學(xué)習(xí)試圖給AI一個(gè)真正的記憶系統(tǒng),從臨時(shí)便簽到永久檔案,讓AI能像人一樣積累經(jīng)驗(yàn)、持續(xù)成長。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.