<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      終結(jié)Transformer統(tǒng)治!清華姚班校友出手,劍指AI「災(zāi)難性遺忘」

      0
      分享至

      大模型「災(zāi)難性遺忘」問題或?qū)⒂瓉硗黄啤=眨?/strong>NeurIPS 2025收錄了谷歌研究院的一篇論文,其中提出一種全新的「嵌套學(xué)習(xí)(Nested Learning)」架構(gòu)。實驗中基于該框架的「Hope」模型在語言建模與長上下文記憶任務(wù)中超越Transformer模型,這意味著大模型正邁向具備自我改進能力的新階段。

      「災(zāi)難性遺忘」,是神經(jīng)網(wǎng)絡(luò)最根深蒂固的毛病之一,比如:

      ·剛學(xué)會減法,就忘記了以前學(xué)到的加法;

      ·切換到一個新游戲,模型在前一游戲的得分就會掉到隨機水平;

      ·微調(diào)大模型,常出現(xiàn)「風(fēng)格漂移」與「舊知識遺忘」現(xiàn)象

      它的存在,使得大模型難以像人類那樣持續(xù)學(xué)習(xí)。

      在過去十年中,得益于強大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其訓(xùn)練算法,機器學(xué)習(xí)取得了驚人的進步。

      但「災(zāi)難性遺忘」的老毛病并沒有被根治。

      為破解這一難題,來自谷歌的研究人員提出了一種持續(xù)學(xué)習(xí)的全新范式——嵌套學(xué)習(xí)(Nested Learning),并且已被NeurIPS 2025接收。


      論文地址:https://abehrouz.github.io/files/NL.pdf

      「嵌套學(xué)習(xí)」將模型視為一系列更小的、相互嵌套的優(yōu)化問題,每個問題都有其獨立的內(nèi)部工作流程。

      這樣的設(shè)計旨在緩解甚至完全避免大模型的「災(zāi)難性遺忘」。


      破解「災(zāi)難性遺忘」根源

      在「持續(xù)學(xué)習(xí)」與「自我改進」方面,人類大腦無疑是黃金標(biāo)準(zhǔn)。

      它通過「神經(jīng)可塑性」不斷重構(gòu)自身結(jié)構(gòu),以應(yīng)對新的經(jīng)驗、記憶與學(xué)習(xí)任務(wù)。

      缺乏這種能力的人,會陷入類似「順行性遺忘」的狀態(tài)——只能依賴即時情境而無法積累知識。

      當(dāng)前的大模型同樣存在類似局限:

      它們的知識要么局限于輸入窗口的即時上下文,要么被固定在預(yù)訓(xùn)練階段學(xué)到的靜態(tài)信息中。

      這正是大模型出現(xiàn)「災(zāi)難性遺忘」的根源——在學(xué)習(xí)新任務(wù)時會犧牲對舊任務(wù)的掌握能力。

      這也是長期困擾機器學(xué)習(xí)的核心問題。

      簡單地不斷用新數(shù)據(jù)更新模型參數(shù)的方法,往往會導(dǎo)致「災(zāi)難性遺忘」。

      研究者通常通過修改網(wǎng)絡(luò)結(jié)構(gòu)(Architecture Tweaks)或優(yōu)化算法(Optimization Rules)來緩解這種問題。

      然而這樣做,長期存在一個誤區(qū):我們一直將模型結(jié)構(gòu)(網(wǎng)絡(luò)架構(gòu))與優(yōu)化算法視作兩個獨立的部分。

      這阻礙了統(tǒng)一且高效學(xué)習(xí)系統(tǒng)的構(gòu)建。

      在論文中,研究人員提出了「嵌套學(xué)習(xí)」,打破了結(jié)構(gòu)與算法的界限,以彌合二者之間的鴻溝。

      也就是說「嵌套學(xué)習(xí)」不再將機器學(xué)習(xí)模型視作一種單一、連續(xù)的過程,而是一個由多層相互關(guān)聯(lián)的優(yōu)化問題組成的系統(tǒng),這些問題同時進行優(yōu)化。

      研究人員認為,「模型結(jié)構(gòu)」與「訓(xùn)練規(guī)則」本質(zhì)上是同一概念,只是處于不同的「優(yōu)化層級」上,每個層級都有獨立的信息流動與更新速率。

      通過識別這種內(nèi)在結(jié)構(gòu),使得我們能夠構(gòu)建更深層的學(xué)習(xí)組件,從而解決像「災(zāi)難性遺忘」這類長期難題。

      為了驗證這一理論假設(shè),研究人員提出了一個概念驗證型的自我修正架構(gòu),命名為「Hope(希望)」。

      該模型在語言建模任務(wù)中表現(xiàn)出色,并在長上下文記憶管理上優(yōu)于當(dāng)前最先進的模型。

      嵌套學(xué)習(xí)的新范式

      在嵌套學(xué)習(xí)的框架下,一個復(fù)雜的機器學(xué)習(xí)模型,是由多個一致且相互連接的優(yōu)化問題組成的系統(tǒng)。

      這些優(yōu)化問題可以是層層嵌套的,也可以并行運行。


      每個內(nèi)部優(yōu)化子問題,都有自己獨立的信息,即其學(xué)習(xí)所依賴的信息集合。

      這一視角意味著:現(xiàn)有的深度學(xué)習(xí)方法,從本質(zhì)上是在壓縮其內(nèi)部信息流。

      嵌套學(xué)習(xí)允許我們設(shè)計出具備更深計算深度的學(xué)習(xí)組件。

      為了說明這一范式,研究人員以「聯(lián)想記憶」為例,這是一種能夠通過一個刺激喚起另一個記憶的能力,就像我們看到一張臉就想起一個名字。

      研究人員推論,在訓(xùn)練過程中,尤其是「反向傳播」階段,可以被建模為一種聯(lián)想記憶。該模型學(xué)習(xí)將數(shù)據(jù)點映射到其對應(yīng)的局部誤差值,該局部誤差值衡量了該數(shù)據(jù)點的「驚奇度」或「意外性」。

      根據(jù)前人研究,研究人員發(fā)現(xiàn)關(guān)鍵的網(wǎng)絡(luò)結(jié)構(gòu)組件,比如Transformer模型的「注意力機制」,也可形式化為簡單的聯(lián)想記憶模塊,用于學(xué)習(xí)序列中各個token之間的映射關(guān)系。


      如上圖所示,大腦中統(tǒng)一且可重用的結(jié)構(gòu)以及多時間尺度的更新是人類持續(xù)學(xué)習(xí)的關(guān)鍵組成部分。

      嵌套學(xué)習(xí)允許大腦的每個組成部分進行多時間尺度的更新,同時表明諸如Transformer等眾所周知的架構(gòu),實際上是具有不同更新頻率的線性層。

      嵌套學(xué)習(xí)模型中的統(tǒng)一結(jié)構(gòu)與多頻率更新機制,與人腦的神經(jīng)波動與神經(jīng)可塑性結(jié)構(gòu)十分相似。

      它使我們能夠在人工模型中定義「多時間尺度更新」:每個學(xué)習(xí)組件可在不同頻率下更新參數(shù)。

      通過定義「更新頻率」,即每個組件參數(shù)被調(diào)整的頻率,我們可以將這些優(yōu)化問題組織成有序的層級結(jié)構(gòu)。

      這一結(jié)構(gòu)正是嵌套學(xué)習(xí)范式的核心。

      嵌套學(xué)習(xí)的應(yīng)用

      嵌套學(xué)習(xí)視角,為我們提供了改進現(xiàn)有算法和架構(gòu)的原則性方法:

      深度優(yōu)化器(Deep Optimizers)

      嵌套學(xué)習(xí)將優(yōu)化器(Optimizer,例如基于動量的優(yōu)化器)視為一種聯(lián)想記憶模塊。

      這使我們能從聯(lián)想記憶的角度重新設(shè)計優(yōu)化算法。

      傳統(tǒng)優(yōu)化器通常依賴「點積相似度」來衡量樣本間相似性,但這一機制無法考慮樣本間的復(fù)雜關(guān)系。

      通過將優(yōu)化目標(biāo)改為標(biāo)準(zhǔn)損失函數(shù),研究人員提出了新的動量更新公式,使優(yōu)化過程對不完美數(shù)據(jù)更具魯棒性。

      連續(xù)記憶系統(tǒng)(Continuum Memory Systems)

      在標(biāo)準(zhǔn)的Transformer模型中,序列建模層承擔(dān)短期記憶,保存當(dāng)前上下文信息;而前饋神經(jīng)網(wǎng)絡(luò)層則充當(dāng)長期記憶,存儲訓(xùn)練前的知識。

      嵌套學(xué)習(xí)擴展了這一思想,提出「連續(xù)記憶系統(tǒng)」,這是一種由多個模塊組成的記憶譜系,每個模塊以不同頻率進行更新,這為持續(xù)學(xué)習(xí)創(chuàng)建了一個更加豐富、高效的記憶系統(tǒng)。

      Hope:具備連續(xù)記憶的自我修正架構(gòu)

      研究人員基于以上嵌套學(xué)習(xí)原則設(shè)計了「Hope」模型,它是「Titans架構(gòu)」的改進版本。

      Titans架構(gòu)是一種長期記憶機制,會根據(jù)記憶的「驚奇度」來優(yōu)先保留信息。

      但它僅支持兩層參數(shù)更新,因此只能實現(xiàn)一階的「上下文內(nèi)學(xué)習(xí)」。


      上圖比較了Hope與Transformers的架構(gòu)主干。

      相比之下,Hope是一種可自我修改的遞歸架構(gòu),能實現(xiàn)無限層級的上下文內(nèi)學(xué)習(xí)。

      它還結(jié)合了連續(xù)記憶系統(tǒng)(CMS),能夠擴展到更大的上下文窗口。

      換言之,Hope可以通過自指過程優(yōu)化自身記憶,形成具有無限嵌套學(xué)習(xí)層級的架構(gòu)。

      研究人員進行了多組實驗,來評估深度優(yōu)化器與Hope架構(gòu)在語言建模、長上下文推理、持續(xù)學(xué)習(xí)及知識整合等任務(wù)上的表現(xiàn)。

      實驗結(jié)果顯示:

      在常用的語言建模與常識推理任務(wù)上,Hope相較現(xiàn)代遞歸模型與標(biāo)準(zhǔn)Transformer模型展現(xiàn)出更低的困惑度與更高的準(zhǔn)確率。


      在長上下文任務(wù)中,Hope與Titans模型均顯著優(yōu)于TTT與Mamba2,證明連續(xù)記憶系統(tǒng)能更高效地處理超長序列信息。


      Hope框架在標(biāo)準(zhǔn)基準(zhǔn)上表現(xiàn)優(yōu)于現(xiàn)有模型,印證了當(dāng)架構(gòu)與算法被統(tǒng)一后,學(xué)習(xí)系統(tǒng)可以變得更具表現(xiàn)力、更高效、更具自我改進能力。

      這意味著,我們對深度學(xué)習(xí)的理解邁出了新的一步。

      通過將「模型結(jié)構(gòu)」與「優(yōu)化過程」統(tǒng)一為一個連貫的、層層嵌套的優(yōu)化系統(tǒng),Hope框架為模型設(shè)計提供了一種新范式。

      這一發(fā)現(xiàn),為彌合當(dāng)前大模型遺忘特性與人腦持續(xù)學(xué)習(xí)能力之間的差距奠定了堅實基礎(chǔ),或許將有助于破解大模型「災(zāi)難性遺忘」的根源性問題。

      作者介紹

      Peilin Zhong


      Peilin Zhong

      Peilin Zhong是谷歌紐約(Google NYC)算法與優(yōu)化團隊的一名研究科學(xué)家,該團隊由Vahab Mirrokni領(lǐng)導(dǎo)。

      他的博士畢業(yè)于哥倫比亞大學(xué),師從Alex Andoni、Cliff Stein及Mihalis Yannakakis教授,本科畢業(yè)于清華大學(xué)交叉信息研究院(姚班)。

      Peilin Zhong致力于理論計算機科學(xué),尤其側(cè)重于算法的設(shè)計與分析。他的具體研究方向有并行與大規(guī)模并行算法、Sketching算法、流式算法、圖算法、機器學(xué)習(xí)、高維幾何、度量嵌入等。

      參考資料:

      https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/

      文章來源:新智元。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      “最風(fēng)流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      “最風(fēng)流”央視女主持:將2個有婦之夫玩弄于股掌,如今幸福嗎

      優(yōu)趣紀史記
      2025-11-29 17:22:29
      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      一口氣看完四集郭京飛新劇《老舅》,我感慨萬千,寫下這篇文章

      晴晴的娛樂日記
      2025-12-15 22:06:55
      何晴去世不到24小時,惡心事發(fā)生!私生活被詬病,網(wǎng)友:紅顏薄命

      何晴去世不到24小時,惡心事發(fā)生!私生活被詬病,網(wǎng)友:紅顏薄命

      徐徐道史
      2025-12-14 18:28:32
      廣西54歲李某甘蔗地殺2女后續(xù)!10萬懸賞追逃,當(dāng)?shù)厝似馗鄡?nèi)幕

      廣西54歲李某甘蔗地殺2女后續(xù)!10萬懸賞追逃,當(dāng)?shù)厝似馗鄡?nèi)幕

      奇思妙想草葉君
      2025-12-14 21:46:07
      醫(yī)生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      醫(yī)生苦勸:長期吃降壓藥的人,千萬要牢記,多補充這3種維生素!

      紙上的心語
      2025-12-15 21:32:22
      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      中方一句“東倭”,嚇壞日本右翼?前駐華大使急呼:該臥薪嘗膽了

      近史博覽
      2025-12-15 14:43:10
      突發(fā)!澤連斯基,妥協(xié)了!一切結(jié)束了!

      突發(fā)!澤連斯基,妥協(xié)了!一切結(jié)束了!

      財經(jīng)要參
      2025-12-15 13:18:38
      人社部定調(diào)!穩(wěn)步提高社會保障待遇水平,2026年養(yǎng)老金雙增長嗎?

      人社部定調(diào)!穩(wěn)步提高社會保障待遇水平,2026年養(yǎng)老金雙增長嗎?

      財話連篇
      2025-12-15 18:35:49
      亞運三金王王莉?qū)嵜e報:基地主任索要15萬 體罰辱罵下跪是常事

      亞運三金王王莉?qū)嵜e報:基地主任索要15萬 體罰辱罵下跪是常事

      醉臥浮生
      2025-12-15 08:01:17
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      張藝興發(fā)文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      張藝興發(fā)文致歉:因參加國家話劇院重要活動而趕回北京,此前SM娛樂臨時公告張藝興將缺席EXO粉絲見面會,已入場觀演門票不可退款

      極目新聞
      2025-12-14 18:51:00
      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現(xiàn)狀

      張文宏直言:不管你信不信,老人過了80歲,基本都有如下7個現(xiàn)狀

      黃河新流域
      2025-09-28 13:34:43
      被全網(wǎng)瘋傳的“雙頂流”戀愛瓜,竟是他倆?結(jié)果大反轉(zhuǎn)!

      被全網(wǎng)瘋傳的“雙頂流”戀愛瓜,竟是他倆?結(jié)果大反轉(zhuǎn)!

      毒舌八卦
      2025-12-15 22:52:12
      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      央視一哥畢福劍再婚生子,次子已上幼兒園,生活近況曝光

      復(fù)轉(zhuǎn)這些年
      2025-12-07 15:39:25
      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      U23亞洲杯最終23人名單確定,6人無緣參賽或被淘汰

      凡人說體育
      2025-12-15 13:55:06
      何晴離世消息曝光不到24小時,惡心的一幕出現(xiàn)了!

      何晴離世消息曝光不到24小時,惡心的一幕出現(xiàn)了!

      叨嘮
      2025-12-15 01:57:05
      撒切爾夫人在回憶錄中坦言:當(dāng)年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

      撒切爾夫人在回憶錄中坦言:當(dāng)年并不想歸還香港,考慮過發(fā)動戰(zhàn)爭

      泠泠說史
      2025-12-15 18:05:17
      西方內(nèi)訌升級:英銀行家集體反水威脅撤出俄資產(chǎn)

      西方內(nèi)訌升級:英銀行家集體反水威脅撤出俄資產(chǎn)

      夢想的現(xiàn)實
      2025-12-15 10:41:52
      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      賺大陸錢捐給“臺獨”的集團:民進黨的頭號金主,終于被殺雞儆猴

      被誤解的時候能微微一笑
      2025-12-15 08:54:45
      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      變臉?亞歷山大賽前曾表示想追73勝紀錄,輸馬刺后稱破紀錄毫無意義

      懂球帝
      2025-12-15 15:24:06
      2025-12-16 06:44:49
      算法與數(shù)學(xué)之美 incentive-icons
      算法與數(shù)學(xué)之美
      分享知識,交流思想
      5267文章數(shù) 64595關(guān)注度
      往期回顧 全部

      科技要聞

      大佬冷酷預(yù)言:未來15年 人形機器人成廢鐵

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內(nèi)部人士回應(yīng)

      頭條要聞

      小米車主第1天提車在交付中心撞人 小米內(nèi)部人士回應(yīng)

      體育要聞

      戰(zhàn)勝完全體雷霆,馬刺“瘋狂動物城”只是半成品

      娛樂要聞

      何晴告別式現(xiàn)場,前夫許亞軍雙眼泛紅?

      財經(jīng)要聞

      新農(nóng)合漲到400元 農(nóng)民斷繳背后的扎心真相

      汽車要聞

      主駕配按摩還可選6座 新款捷途X90PRO售13.59萬起

      態(tài)度原創(chuàng)

      藝術(shù)
      本地
      教育
      公開課
      軍事航空

      藝術(shù)要聞

      從木匠到巨匠,大師是如何煉成的

      本地新聞

      云游安徽|阜陽三朝風(fēng)骨,傳承千年墨香

      教育要聞

      12月13日雅思大作文示范寫作 | 探索未開發(fā)景點的利與弊

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基稱烏方已妥協(xié)不加入北約 俄方發(fā)聲

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产一区二区三区视频| 亚洲成人大香蕉| 97无码精品人妻免費一区二区| 永久免费无码网站在线观看| 人妻无码第一区二区三区| 国产成人a在线观看视频| 亚洲自拍另类| 亚洲欧美成人综合| 美女黄频视频大全免费的国内| 免费无码av片在线观看播放| 亚洲少妇人妻无码视频| 在线观看视频91| 最近免费中文字幕中文高清百度| 日本高清aⅴ毛片免费| 久久精品国产久精国产果冻传媒| 免费3?P视频久久| 亚洲中出无码| 日韩精品毛片无码一区到三区| 国产精品亚洲一区二区| 99在线免费观看| 基隆市| 亚洲国产精品无码av| 亚洲欧美日本韩国| 中国少妇人妻xxxxx| 潞西市| 中文字幕无码不卡一区二区三区| 国产精品无码人妻一区二区在线| 日日猛噜噜狠狠扒开双腿小说| 国模无码在线| 激情亚洲一区国产精品| 六月婷婷久香在线视频| 国内少妇人妻偷人精品视频| 国产九九| 亚洲女初尝黑人巨| 亚洲熟妇无码一区二区三区| 亚洲无码在线播放| 亚洲色Www永久网站| 亚洲人成网7777777国产| 久久精品国产亚洲av热一区| 国产?熟女| 婷婷99狠狠躁天天躁|