<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Transformer已死?DeepMind正在押注另一條AGI路線

      0
      分享至


      新智元報道

      編輯:KingHZ

      【新智元導讀】借鑒人類聯想記憶,嵌套學習讓AI在運行中構建抽象結構,超越Transformer的局限。谷歌團隊強調:優化器與架構互為上下文,協同進化才能實現真正持續學習。這篇論文或成經典,開啟AI從被動訓練到主動進化的大門。

      「災難性遺忘」,一個困擾了AI界幾十年的幽靈,這一次或許被徹底解決了。

      過去一年,AI突飛猛進,絕非夸張的修辭,僅谷歌DeepMind一年的成就,就讓人眼花繚亂:


      但如果DeepMind要選2025年最重要的研究或產品,那最近火爆的嵌套學習「Nested Learning」必有一席之地。

      有網友讀過論文之后,發帖表示,這篇論文就是《Attention is All you Need》的「續集」。

      如果Transformer開啟了Scaling時代,那么嵌套學習,可能正在開啟真正的AGI時代。

      DeepMind創始人Shane Legg更直接,AGI一路坦途,最新進展就是嵌套學習。

      甚至有網友表示,如果要給未來的外星人留一篇論文,必然是這篇《嵌套學習》。





      如果實現AGI需要2-3項突破,持續學習可能就是其中之一,而谷歌已發表了多篇相關論文。


      然而,這些論文有一個共同的作者──

      康奈爾大學計算機科學系二年級博士生、谷歌研究院(紐約)研究實習生Ali Behrouz。


      Transformer的記憶之殤

      在多方面,Transformer表現出色,能夠Scaling、推動AI跨越,能實現跨任務、跨領域的泛化能力。

      但谷歌很早就意識到一件事:Transformer并不完美。

      1. 長上下文處理效率低

      2. 抽象知識層級有限

      3. 適應性弱

      4. 缺乏持續學習能力

      特別是第四點,Ali認為那是最關鍵的問題。

      當提到「持續學習」(Continual Learning),我們指的是:

      沒有訓練期,也沒有測試期;

      模型在使用過程中,持續塑造新的記憶和抽象結構。

      人類天生如此。

      但對今天的大語言模型來說,幾乎不存在任何「持續學習」。

      為了說明問題有多本質,Ali用了一個醫學上的類比:順行性遺忘癥(Anterograde Amnesia)。

      這種病的患者有一個非常詭異的特征:

      • 他們的短期記憶是正常的

      • 他們的長期記憶也還在

      但問題在于:短期記憶,無法轉移為長期記憶。


      于是,他們永遠活在「現在」。

      新的經歷進來,過一會兒就消失; 世界在變,但他們的大腦不再更新

      現在,把這個病,套到LLM身上。

      你會發現,大模型和人類患者一模一樣。

      今天的大語言模型,知識主要來自兩部分:

      預訓練階段學到的長期知識、

      當前上下文里的短期信息。

      但這兩者之間,幾乎完全沒有通道

      AI模型無法自然地把「剛剛學到的東西」,沉淀為未來可復用的知識。

      想讓它真的學會?

      你只能:再燒錢、再訓練、再微調。

      這和順行性遺忘癥患者的狀態,本質上沒有區別。

      真正的問題不是參數不夠多,不是數據不夠大,也不只是算力不夠。

      問題的本質在于「短期記憶」和「長期記憶」之間,根本沒有一條自然的知識轉移通道

      如果這條通道不存在,所謂「持續學習」,就永遠只是一個口號。

      這引出了一個核心問題:我們該如何構建一種機制,讓AI模型像人類一樣,將「現在」的經歷沉淀為「未來」的知識?

      一切AI皆是「聯想記憶」

      如果想讓AI真正具備持續學習能力,那你繞不開一個最底層的問題:

      模型到底是「怎么記住東西的」?

      Ali給出的答案,不是Transformer,不是參數量,而是一個更原始、更根本的概念:聯想記憶(Associative Memory)

      所謂「聯想記憶」,是人類學習機制的基石。

      它的本質,是通過經驗將不同的事件或信息相互關聯。

      比如,你看到一張臉,馬上想起一個名字;你聞到某個味道,喚起一段記憶。

      這不是邏輯推理,而是關聯的建立

      技術上,聯想記憶就是鍵值對映射:

      • Key:線索

      • Value:與之關聯的內容

      但關鍵在于,聯想記憶的映射關系不是預先寫死的,而是「學出來的」。

      從某種角度來看,注意力機制本質上就是一種聯想記憶系統:它學習如何從當前上下文中提取key,并將其映射到最合適的value,從而產生輸出。

      如果我們不僅優化這種映射本身,還讓系統去元學習(meta-learn)這種映射過程的初始狀態,會發生什么?

      基于對聯想記憶的理解,他們提出了一個通用框架,名為MIRAS,用于系統化地設計AI模型中的記憶模塊。

      這一框架的核心思想是:

      幾乎所有注意力機制、本地記憶結構,乃至優化器本身,其實都可以視為聯想記憶的特例。

      為了設計一套「可學習的、嵌套式的記憶系統」,我們需要對模型中的記憶結構做出四大設計決策:

      1. 記憶架構(Memory Architecture)

      2. 注意力偏置/目標函數(Attentional Bias/Objective)

      3. 保留機制(Retention Gate)

      4. 學習規則(Learning Rule)


      這個框架可以用來統一解釋許多已有的注意力機制與優化器

      簡單來說:MIRAS讓我們能夠把「記憶」作為一種學習過程進行建模、組合與優化,而不僅僅是一個靜態模塊。

      更進一步,優化器也可以被統一視為「將當前梯度映射到歷史信息」的聯想過程,就可以對它們進行重新建模與推廣。

      優化器就是一種「記憶模塊」,是模型理解其學習歷史、進而做出更優決策的關鍵組件。

      優化過程與學習算法/架構本質上是相同的概念,只是處于系統不同層級中具有不同的上下文(即梯度與數據)。

      此外,它們是兩個相互連接的組件,其中學習算法/架構為優化器生成上下文(即梯度)。這支持為特定架構設計專屬優化器的理念。

      由此,谷歌的團隊探討了不同層級之間的知識傳遞方式,提出了嵌套學習。

      嵌套學習

      專治LLM失憶癥

      基于NL的觀點,谷歌團隊使用反向傳播和梯度下降訓練深度神經網絡,本質上是一個壓縮與優化問題,其目標是訓練一種聯想記憶(associative memory),以將各層的輸入映射到其預測中對應的局部誤差。

      相應地,他們認為預訓練是一種上下文內學習形式,其中上下文是全部預訓練數據,而各網絡層則將該上下文壓縮進其參數之中。而其他流行的基于梯度的優化器,本質上也是旨在將梯度壓縮進其參數中的聯想記憶。

      優化器與架構并不是彼此獨立的,它們應該互為上下文、協同進化。

      為了正式定義Nested Learning(嵌套學習)框架,需要了解兩個核心概念:更新頻率(Update Frequency)嵌套系統(Nested System)

      一、更新頻率

      首先設定一個時間單位,通常取系統中更新最慢的模塊的一次更新作為基本時間單位。

      然后,對于系統中其他組件,我們統計它們在一個時間單位內更新了多少次,就得到了它們的「更新頻率」。


      舉個例子:

      假設循環神經網絡(RNN),上下文長度為(L),那么在處理一段長度為(L)的文本時,RNN的狀態會更新(L)次;

      而如果外層是一個只在每個文檔級別上更新的模塊(如預訓練模型),那么它的更新頻率就是1。

      因此,我們可以說:RNN是「快模塊」,預訓練模型是「慢模塊」。

      通過這種不同頻率的組合,我們就能構建出一個在不同時間尺度上都能學習的系統。

      二、嵌套系統(Nested System)

      接下來,我們定義什么是一個「嵌套系統」。

      它由多個獨立的子模塊組成,每個模塊都有:

      自己的參數(Parameter);

      自己的上下文(Context);

      自己的優化目標(Objective);

      自己的梯度流(Gradient Flow)。

      這些模塊之間以「更新頻率」的快慢形成嵌套關系。


      如果我們把每個子模塊都視為一個聯想記憶系統,那么整個模型就可以看作是一個嵌套的聯想記憶系統(Nested Associative Memory System)

      更進一步,每一個這樣的聯想系統,本身又可以由更小的優化子過程構成,從而形成遞歸嵌套。

      當構建了一個由多個層級組成的嵌套系統之后,最關鍵的問題就來了:

      不同層之間的知識要如何傳遞?

      知識轉移方式有以下幾種,這些機制構成了Nested Learning架構中「信息流動」的基礎:

      • 直接條件傳遞(Direct Conditioning)慢層(外層)模型的輸出直接作為快層(內層)模型的輸入條件

      • 非參數化條件傳遞:不依賴額外參數,模型的輸出直接依賴于上下文本身。雖然沒有顯式參數連接,但輸出依然受到內層狀態的強烈影響。

      • 通過反向傳播傳遞(Gradient-Based Transfer)梯度本身就構成了知識的傳遞路徑——高層對目標的判斷,反向指導底層如何調整參數。

      • 初始狀態傳遞(Meta-Learned Initialization):慢層模型生成快層模型的初始狀態。外層學習一個初始化點,使得內層可以通過少量更新迅速適應新任務。

      • 權重生成(Hypernetwork):慢層模型直接生成快層模型的參數。這就是超網絡(Hypernetwork)的本質。


      理論固然重要,但最終還是要看這些設計能否在真實任務中帶來性能提升。

      結合自我修改(Self-Modifying)與連續記憶系統(Continuum Memory System),谷歌提出了嵌套學習范式下的HOPE架構。


      他們將Nested Learning與HOPE架構應用于多個任務場景中,尤其聚焦在「長上下文」和「持續學習」兩個維度。

      總體來看,HOPE在多個核心任務上都優于或顯著超越現有對比模型,尤其是在持續學習和長上下文方面顯示了明顯優勢。這體現了嵌套學習和連續記憶系統的潛力。






      這到底意味著什么?

      Nested Learning不只是一個架構框架,而是一種重新理解深度學習的范式

      谷歌DeepMind內部也傳出消息:他們已經突破了持續學習,但因為安全原因尚未發布。


      如果嵌套學習解決了持續學習能力,或許將是未來最重要的事。


      DeepMind的沉默,或許比他們的論文更震耳欲聾。

      持續學習賦予了AI可怕的能力:它不再僅僅回應我們的指令,而是開始根據過往的經驗,篩選它認為重要的東西。也就是說,它開始有了「偏好」。

      如果嵌套學習真的解決了災難性遺忘,那么我們親手打開的,可能不只是一扇通往AGI的大門,更是一個未知的潘多拉魔盒。

      盒子里的東西,究竟是更聰明的工具,還是一個不僅學會了思考、更學會了「記住仇恨與偏愛」的對手?

      這一次,鑰匙在谷歌手中,但未來在誰手中?

      參考資料:

      https://www.youtube.com/watch?v=3WqZIja7kdA

      https://www.youtube.com/watch?v=uX12aCdni9Q

      秒追ASI

      ?點贊、轉發、在看一鍵三連?

      點亮星標,鎖定新智元極速推送!


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      驚人的兩倍電力鴻溝,讓所有制裁成了笑話

      驚人的兩倍電力鴻溝,讓所有制裁成了笑話

      李榮茂
      2026-01-20 08:45:13
      日本版水滸傳公開最新宣傳照,將于2月15日正式開播

      日本版水滸傳公開最新宣傳照,將于2月15日正式開播

      隨波蕩漾的漂流瓶
      2026-01-21 22:28:29
      1斤315元!黑草莓成水果新“刺客”!有店鋪銷售超3000單,業內人士:黑草莓的糖度更高,基本都在15度以上

      1斤315元!黑草莓成水果新“刺客”!有店鋪銷售超3000單,業內人士:黑草莓的糖度更高,基本都在15度以上

      大象新聞
      2026-01-21 13:45:03
      國內媒體:向余望打進關鍵一球,其父親喝酒慶祝到早上

      國內媒體:向余望打進關鍵一球,其父親喝酒慶祝到早上

      懂球帝
      2026-01-21 16:30:14
      多只牛股業績出爐!002636,預計盈利增長超6倍!

      多只牛股業績出爐!002636,預計盈利增長超6倍!

      證券時報e公司
      2026-01-21 21:12:47
      被打服!越媒:中國U23不按常理出牌,越南隊本自信卻輸得慘痛

      被打服!越媒:中國U23不按常理出牌,越南隊本自信卻輸得慘痛

      足球大腕
      2026-01-21 10:33:39
      事做太絕了!徐帆回應離婚5個月近況曝光,體面被馮小剛徹底撕碎

      事做太絕了!徐帆回應離婚5個月近況曝光,體面被馮小剛徹底撕碎

      李橑在北漂
      2026-01-21 22:26:50
      80年前費孝通的《生育制度》神預言,如今被最新出生人口數據證實

      80年前費孝通的《生育制度》神預言,如今被最新出生人口數據證實

      齊天候
      2026-01-21 15:45:18
      聚焦|林肯的年終總結:品牌、產品、體驗三大標簽與穩步前行

      聚焦|林肯的年終總結:品牌、產品、體驗三大標簽與穩步前行

      桑之未
      2026-01-21 12:19:17
      滴滴 AI 叫車,用了幾天我發現這才是打車該有的樣子

      滴滴 AI 叫車,用了幾天我發現這才是打車該有的樣子

      愛范兒
      2026-01-20 12:09:40
      嫣然醫院房東身份遭深扒:疑是醫美機構老板,不賣樓或想重操舊業

      嫣然醫院房東身份遭深扒:疑是醫美機構老板,不賣樓或想重操舊業

      古希臘掌管月桂的神
      2026-01-21 15:21:20
      拳王鄒市明創業失敗后,妻子自曝家庭節儉開支:水費每月100元,兒子午飯39.5元

      拳王鄒市明創業失敗后,妻子自曝家庭節儉開支:水費每月100元,兒子午飯39.5元

      紅星新聞
      2026-01-21 17:10:09
      日本U23主帥:球員們經受住了考驗,用任何陣容出戰我們都能贏球

      日本U23主帥:球員們經受住了考驗,用任何陣容出戰我們都能贏球

      懂球帝
      2026-01-21 11:43:35
      非洲杯奪冠!總統宣布:球員12萬美元+1500平米土地 全國放假

      非洲杯奪冠!總統宣布:球員12萬美元+1500平米土地 全國放假

      葉青足球世界
      2026-01-21 20:17:50
      女子拍攝姑姑偷玉米被姑父棒殺!姑姑哀求出諒解書,女兒絕不原諒

      女子拍攝姑姑偷玉米被姑父棒殺!姑姑哀求出諒解書,女兒絕不原諒

      葉公子
      2026-01-21 18:50:53
      “回國禍害人了?”女留子畢業美圖被群嘲,網友:看過牢A就懂了

      “回國禍害人了?”女留子畢業美圖被群嘲,網友:看過牢A就懂了

      妍妍教育日記
      2026-01-20 19:09:20
      “女生遭4170元天價開鎖”事件:開鎖商戶屢查屢犯,被罰款9550元并吊銷營業執照

      “女生遭4170元天價開鎖”事件:開鎖商戶屢查屢犯,被罰款9550元并吊銷營業執照

      紅星新聞
      2026-01-21 18:02:27
      取消臨停,銀川一小區千余車位被“包銷”,車主回家擁堵6小時;住建部門介入

      取消臨停,銀川一小區千余車位被“包銷”,車主回家擁堵6小時;住建部門介入

      大風新聞
      2026-01-21 16:11:07
      新榮記張勇對暴風雨中的賈國龍伸出援手

      新榮記張勇對暴風雨中的賈國龍伸出援手

      界面新聞
      2026-01-21 19:40:41
      猛料!嫣然醫院房東拒1.6億愛心收購,卻死磕2600萬欠租?

      猛料!嫣然醫院房東拒1.6億愛心收購,卻死磕2600萬欠租?

      小徐講八卦
      2026-01-21 08:19:44
      2026-01-22 07:28:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14380文章數 66521關注度
      往期回顧 全部

      科技要聞

      給機器人做仿真訓練 這家創企年營收破億

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      丹麥打響第一槍 歐洲用資本保衛格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      手機
      教育
      本地
      公開課
      軍事航空

      手機要聞

      蘋果殺瘋了!iPhone17e僅3999元起,8GB+MagSafe碾壓同價位安卓

      教育要聞

      某高中電話旁邊墻上的兩個字,刺痛多少家長的心?

      本地新聞

      云游遼寧|漫步千年小城晨昏,“康”復好心情

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:對美國的真正威脅是聯合國和北約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一级淫片免费看| 四虎永久在线精品国产馆v视影院| 久久国产一区二区三区| 亚洲草原天堂| 国产一区二区三区四区五区vm | 亚洲国产精品日韩av专区| 中文字幕无码乱码人妻系列蜜桃| 久久久久久久久久久久无码| 一卡二卡三卡| 影音先锋成人在线| 成人又黄又爽又色的网站| 亚洲欧美激情在线一区| 国产人无码a在线西瓜影音| 成人国产AV| 国产又色又爽又黄的网站免费| 天堂√最新版中文在线地址| 伊人成人社区| 公车上拨开她湿润的内裤的视频 | 少妇宾馆粉嫩10p| 亚洲爱婷婷色婷婷五月| 高潮添下面视频免费看| 色综合色狠狠天天综合色| 国产白丝无码免费视频| 马尔康县| 丰满岳乱妇一区二区三区| 国产精品被???熟女| 国产白浆一区二区三区| 亚洲天堂自拍| 人妻少妇偷人精品久久久任期| 天堂网亚洲综合在线| 亚洲成人av在线资源| 精品久久久久久无码专区| 无码日韩精品一区二区免费96| 色噜噜人妻丝袜AⅤ资源| 丝袜老师办公室里做好紧好爽| 国产精品人成视频免| 情侣作爱视频网站| 久久夜色精品国产噜噜亚洲sv| 污污内射在线观看一区二区少妇| 河源市| 亚洲精品久久|