<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Transformer已死?DeepMind正在押注另一條AGI路線

      0
      分享至


      文章轉載于新智元

      「災難性遺忘」,一個困擾了AI界幾十年的幽靈,這一次或許被徹底解決了。

      過去一年,AI突飛猛進,絕非夸張的修辭,僅谷歌DeepMind一年的成就,就讓人眼花繚亂:


      但如果DeepMind要選2025年最重要的研究或產品,那最近火爆的嵌套學習必有一席之地。

      有網友讀過論文之后,發帖表示,這篇論文就是《Attention is All you Need》的「續集」。

      如果Transformer開啟了Scaling時代,那么嵌套學習,可能正在開啟真正的AGI時代。

      DeepMind創始人Shane Legg更直接,AGI一路坦途,最新進展就是嵌套學習。

      甚至有網友表示,如果要給未來的外星人留一篇論文,必然是這篇《嵌套學習》。


      如果實現AGI需要2-3項突破,持續學習可能就是其中之一,而谷歌已發表了多篇相關論文。


      然而,這些論文有一個共同的作者──

      康奈爾大學計算機科學系二年級博士生、谷歌研究院(紐約)研究實習生Ali Behrouz。


      1

      Transformer的記憶之殤

      在多方面,Transformer表現出色,能夠Scaling、推動AI跨越,能實現跨任務、跨領域的泛化能力。

      但谷歌很早就意識到一件事:Transformer并不完美。

      1. 長上下文處理效率低

      2. 抽象知識層級有限

      3. 適應性弱

      4. 缺乏持續學習能力

      特別是第四點,Ali認為那是最關鍵的問題。

      當提到「持續學習」(Continual Learning),我們指的是:

      沒有訓練期,也沒有測試期;

      模型在使用過程中,持續塑造新的記憶和抽象結構。

      人類天生如此。

      但對今天的大語言模型來說,幾乎不存在任何「持續學習」。

      為了說明問題有多本質,Ali用了一個醫學上的類比:順行性遺忘癥(Anterograde Amnesia)。

      這種病的患者有一個非常詭異的特征:

      • 他們的短期記憶是正常的

      • 他們的長期記憶也還在

      但問題在于:短期記憶,無法轉移為長期記憶。


      于是,他們永遠活在「現在」。

      新的經歷進來,過一會兒就消失; 世界在變,但他們的大腦不再更新

      現在,把這個病,套到LLM身上。

      你會發現,大模型和人類患者一模一樣。

      今天的大語言模型,知識主要來自兩部分:

      預訓練階段學到的長期知識、

      當前上下文里的短期信息。

      但這兩者之間,幾乎完全沒有通道

      AI模型無法自然地把「剛剛學到的東西」,沉淀為未來可復用的知識。

      想讓它真的學會?

      你只能:再燒錢、再訓練、再微調。

      這和順行性遺忘癥患者的狀態,本質上沒有區別。

      真正的問題不是參數不夠多,不是數據不夠大,也不只是算力不夠。

      問題的本質在于「短期記憶」和「長期記憶」之間,根本沒有一條自然的知識轉移通道。

      如果這條通道不存在,所謂「持續學習」,就永遠只是一個口號。

      這引出了一個核心問題:我們該如何構建一種機制,讓AI模型像人類一樣,將「現在」的經歷沉淀為「未來」的知識?

      1

      一切AI皆是「聯想記憶」

      如果想讓AI真正具備持續學習能力,那你繞不開一個最底層的問題:

      模型到底是「怎么記住東西的」?

      Ali給出的答案,不是Transformer,不是參數量,而是一個更原始、更根本的概念:聯想記憶(Associative Memory)

      所謂「聯想記憶」,是人類學習機制的基石。

      它的本質,是通過經驗將不同的事件或信息相互關聯。

      比如,你看到一張臉,馬上想起一個名字;你聞到某個味道,喚起一段記憶。

      這不是邏輯推理,而是關聯的建立

      技術上,聯想記憶就是鍵值對映射:

      • Key:線索

      • Value:與之關聯的內容

      但關鍵在于,聯想記憶的映射關系不是預先寫死的,而是「學出來的」。

      從某種角度來看,注意力機制本質上就是一種聯想記憶系統:它學習如何從當前上下文中提取key,并將其映射到最合適的value,從而產生輸出。

      如果我們不僅優化這種映射本身,還讓系統去元學習(meta-learn)這種映射過程的初始狀態,會發生什么?

      基于對聯想記憶的理解,他們提出了一個通用框架,名為MIRAS,用于系統化地設計AI模型中的記憶模塊。

      這一框架的核心思想是:

      幾乎所有注意力機制、本地記憶結構,乃至優化器本身,其實都可以視為聯想記憶的特例。

      為了設計一套「可學習的、嵌套式的記憶系統」,我們需要對模型中的記憶結構做出四大設計決策:

      1. 記憶架構(Memory Architecture)

      2. 注意力偏置/目標函數(Attentional Bias/Objective)

      3. 保留機制(Retention Gate)

      4. 學習規則(Learning Rule)


      這個框架可以用統一解釋許多已有的注意力機制與優化器

      簡單來說:MIRAS讓我們能夠把「記憶」作為一種學習過程進行建模、組合與優化,而不僅僅是一個靜態模塊。

      更進一步,優化器也可以被統一視為「將當前梯度映射到歷史信息」的聯想過程,就可以對它們進行重新建模與推廣。

      優化器就是一種「記憶模塊」,是模型理解其學習歷史、進而做出更優決策的關鍵組件。

      優化過程與學習算法/架構本質上是相同的概念,只是處于系統不同層級中具有不同的上下文(即梯度與數據)。

      此外,它們是兩個相互連接的組件,其中學習算法/架構為優化器生成上下文(即梯度)。這支持為特定架構設計專屬優化器的理念。

      由此,谷歌的團隊探討了不同層級之間的知識傳遞方式,提出了嵌套學習。

      1

      嵌套學習 專治LLM失憶癥

      基于NL的觀點,谷歌團隊使用反向傳播和梯度下降訓練深度神經網絡,本質上是一個壓縮與優化問題,其目標是訓練一種聯想記憶(associative memory),以將各層的輸入映射到其預測中對應的局部誤差。

      相應地,他們認為預訓練是一種上下文內學習形式,其中上下文是全部預訓練數據,而各網絡層則將該上下文壓縮進其參數之中。而其他流行的基于梯度的優化器,本質上也是旨在將梯度壓縮進其參數中的聯想記憶。

      優化器與架構并不是彼此獨立的,它們應該互為上下文、協同進化。

      為了正式定義Nested Learning(嵌套學習)框架,需要了解兩個核心概念:更新頻率(Update Frequency)嵌套系統(Nested System)

      一、更新頻率

      首先設定一個時間單位,通常取系統中更新最慢的模塊的一次更新作為基本時間單位。

      然后,對于系統中其他組件,我們統計它們在一個時間單位內更新了多少次,就得到了它們的「更新頻率」。


      舉個例子:

      假設循環神經網絡(RNN),上下文長度為(L),那么在處理一段長度為(L)的文本時,RNN的狀態會更新(L)次;

      而如果外層是一個只在每個文檔級別上更新的模塊(如預訓練模型),那么它的更新頻率就是1。

      因此,我們可以說:RNN是「快模塊」,預訓練模型是「慢模塊」。

      通過這種不同頻率的組合,我們就能構建出一個在不同時間尺度上都能學習的系統。

      二、嵌套系統(Nested System)

      接下來,我們定義什么是一個「嵌套系統」。

      它由多個獨立的子模塊組成,每個模塊都有:

      自己的參數(Parameter);

      自己的上下文(Context);

      自己的優化目標(Objective);

      自己的梯度流(Gradient Flow)。

      這些模塊之間以「更新頻率」的快慢形成嵌套關系。


      如果我們把每個子模塊都視為一個聯想記憶系統,那么整個模型就可以看作是一個嵌套的聯想記憶系統(Nested Associative Memory System)

      更進一步,每一個這樣的聯想系統,本身又可以由更小的優化子過程構成,從而形成遞歸嵌套。

      當構建了一個由多個層級組成的嵌套系統之后,最關鍵的問題就來了:

      不同層之間的知識要如何傳遞?

      知識轉移方式有以下幾種,這些機制構成了Nested Learning架構中「信息流動」的基礎:

      • 直接條件傳遞(Direct Conditioning)慢層(外層)模型的輸出直接作為快層(內層)模型的輸入條件

      • 非參數化條件傳遞:不依賴額外參數,模型的輸出直接依賴于上下文本身。雖然沒有顯式參數連接,但輸出依然受到內層狀態的強烈影響。

      • 通過反向傳播傳遞(Gradient-Based Transfer)梯度本身就構成了知識的傳遞路徑——高層對目標的判斷,反向指導底層如何調整參數。

      • 初始狀態傳遞(Meta-Learned Initialization):慢層模型生成快層模型的初始狀態。外層學習一個初始化點,使得內層可以通過少量更新迅速適應新任務。

      • 權重生成(Hypernetwork):慢層模型直接生成快層模型的參數。這就是超網絡(Hypernetwork)的本質。


      理論固然重要,但最終還是要看這些設計能否在真實任務中帶來性能提升。

      結合自我修改(Self-Modifying)與連續記憶系統(Continuum Memory System),谷歌提出了嵌套學習范式下的HOPE架構。


      他們將Nested Learning與HOPE架構應用于多個任務場景中,尤其聚焦在「長上下文」和「持續學習」兩個維度。

      總體來看,HOPE在多個核心任務上都優于或顯著超越現有對比模型,尤其是在持續學習和長上下文方面顯示了明顯優勢。這體現了嵌套學習和連續記憶系統的潛力。






      1

      這到底意味著什么?

      Nested Learning不只是一個架構框架,而是一種重新理解深度學習的范式

      谷歌DeepMind內部也傳出消息:他們已經突破了持續學習,但因為安全原因尚未發布。


      如果嵌套學習解決了持續學習能力,或許將是未來最重要的事。


      DeepMind的沉默,或許比他們的論文更震耳欲聾。

      持續學習賦予了AI可怕的能力:它不再僅僅回應我們的指令,而是開始根據過往的經驗,篩選它認為重要的東西。也就是說,它開始有了「偏好」。

      如果嵌套學習真的解決了災難性遺忘,那么我們親手打開的,可能不只是一扇通往AGI的大門,更是一個未知的潘多拉魔盒。

      盒子里的東西,究竟是更聰明的工具,還是一個不僅學會了思考、更學會了「記住仇恨與偏愛」的對手?

      這一次,鑰匙在谷歌手中,但未來在誰手中?

      參考資料:

      https://www.youtube.com/watch?v=3WqZIja7kdA

      https://www.youtube.com/watch?v=uX12aCdni9Q

      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歷史上只有五個球員踢皇馬有滿分10分!梅西領銜!

      歷史上只有五個球員踢皇馬有滿分10分!梅西領銜!

      氧氣是個地鐵
      2026-01-29 23:34:57
      個人股東分紅,不用繳個稅了!

      個人股東分紅,不用繳個稅了!

      審計之家
      2026-01-28 19:58:41
      風向變了,委代總統軍權到手,美國立即歸還油輪,馬杜羅有救了?

      風向變了,委代總統軍權到手,美國立即歸還油輪,馬杜羅有救了?

      墨山看客
      2026-01-30 11:00:38
      不等春節?美航母或1天內開戰,中方不許3事發生,俄英法已選邊站

      不等春節?美航母或1天內開戰,中方不許3事發生,俄英法已選邊站

      阿傖說事
      2026-01-28 15:22:57
      伊朗國際互聯網服務已恢復

      伊朗國際互聯網服務已恢復

      財聯社
      2026-01-29 00:05:46
      立政客:中國必須明白,立陶宛經濟離不開中國,中立關系必須恢復

      立政客:中國必須明白,立陶宛經濟離不開中國,中立關系必須恢復

      知法而形
      2026-01-03 10:40:12
      和訊投顧鄭鎮華:突發大跌,發生了什么?調整目標在哪里?市場將有新主線!

      和訊投顧鄭鎮華:突發大跌,發生了什么?調整目標在哪里?市場將有新主線!

      和訊網
      2026-01-30 11:51:07
      那黃金有沒有可能突然有一天暴跌,然后一下套你30年呢?

      那黃金有沒有可能突然有一天暴跌,然后一下套你30年呢?

      流蘇晚晴
      2025-11-12 19:04:01
      張雨綺大瓜爆出!

      張雨綺大瓜爆出!

      微微熱評
      2026-01-27 00:09:43
      紫光國微:暫無收購英偉達的計劃

      紫光國微:暫無收購英偉達的計劃

      映射生活的身影
      2026-01-30 00:34:31
      中國陸軍火力要變天,電磁火箭炮千公里打擊真的要來了?

      中國陸軍火力要變天,電磁火箭炮千公里打擊真的要來了?

      楊風
      2026-01-28 22:30:13
      法國貓徒步5個月從西班牙回家!只為再蹭蹭主人的手

      法國貓徒步5個月從西班牙回家!只為再蹭蹭主人的手

      新歐洲
      2026-01-28 21:37:40
      新華社消息|伊朗最高領袖顧問:美若動武 伊朗將打擊“特拉維夫的心臟”

      新華社消息|伊朗最高領袖顧問:美若動武 伊朗將打擊“特拉維夫的心臟”

      新華社
      2026-01-29 09:24:27
      導彈還沒等點火,幾萬公里外的屏幕上,紅點就亮了“目標已鎖定”

      導彈還沒等點火,幾萬公里外的屏幕上,紅點就亮了“目標已鎖定”

      南權先生
      2026-01-28 15:54:10
      趙本山沒想到,愛徒宋曉峰因為女兒閨蜜的爆料,體面被撕得粉碎!

      趙本山沒想到,愛徒宋曉峰因為女兒閨蜜的爆料,體面被撕得粉碎!

      叨嘮
      2026-01-29 02:13:44
      被禁足球員李帥發文后刪除:贏球去看守所,中國足球太找樂

      被禁足球員李帥發文后刪除:贏球去看守所,中國足球太找樂

      懂球帝
      2026-01-29 13:13:07
      德央行行長:別和中國人講仁義,我們對中國仁慈,就是對歐洲殘忍

      德央行行長:別和中國人講仁義,我們對中國仁慈,就是對歐洲殘忍

      探史
      2026-01-30 11:17:25
      吉林省副省長楊安娣任吉林省政協副主席

      吉林省副省長楊安娣任吉林省政協副主席

      澎湃新聞
      2026-01-29 19:33:09
      現貨黃金日內漲幅擴大至1%,突破5440美元/盎司

      現貨黃金日內漲幅擴大至1%,突破5440美元/盎司

      每日經濟新聞
      2026-01-30 07:16:04
      中子彈有多厲害?連美國都承認它是中國殺手锏,殺傷比氫彈還強

      中子彈有多厲害?連美國都承認它是中國殺手锏,殺傷比氫彈還強

      千秋文化
      2026-01-29 21:28:25
      2026-01-30 13:11:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2830文章數 10433關注度
      往期回顧 全部

      科技要聞

      單季狂賺3000億;iPhone 17 全球賣瘋了!

      頭條要聞

      英國、法國、加拿大、日本等11國聯合發聲:強烈譴責

      頭條要聞

      英國、法國、加拿大、日本等11國聯合發聲:強烈譴責

      體育要聞

      敢揍多爾特,此子必成大器?

      娛樂要聞

      金晨出事前 曾靈魂發問未收到春晚邀請

      財經要聞

      血鉛超標工人,擋在“勞動關系”門檻外

      汽車要聞

      全面科技化 新款梅賽德斯-奔馳S級發布

      態度原創

      藝術
      健康
      數碼
      本地
      公開課

      藝術要聞

      風景畫選刊 | 中國油畫學會三十年藝術展

      耳石癥分類型,癥狀大不同

      數碼要聞

      英偉達GeForce NOW云游戲服務正式推出Linux原生應用

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版