<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      預(yù)測(cè)編碼擴(kuò)展深度神經(jīng)網(wǎng)絡(luò):理論與實(shí)踐

      0
      分享至

      預(yù)測(cè)編碼擴(kuò)展深度神經(jīng)網(wǎng)絡(luò):理論與實(shí)踐

      Towards Scaling Deep Neural Networks with Predictive Coding:Theory and Practice

      https://arxiv.org/pdf/2510.23323



      摘要

      反向傳播(BP)是訓(xùn)練驅(qū)動(dòng)現(xiàn)代人工智能(包括大語言模型)的深度神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)算法。然而,BP 能效低下,且不太可能被生物大腦所實(shí)現(xiàn)。本論文研究了一種替代性、可能更高效的、受大腦啟發(fā)的算法——預(yù)測(cè)編碼(PC)。與 BP 不同,預(yù)測(cè)編碼網(wǎng)絡(luò)(PCN)在學(xué)習(xí)或權(quán)重更新之前,需通過神經(jīng)元活動(dòng)的迭代均衡來完成推理過程。近期研究表明,這種迭代推理機(jī)制相比 BP 具有多項(xiàng)潛在優(yōu)勢(shì),例如訓(xùn)練速度更快。然而,這些優(yōu)勢(shì)尚未被一致復(fù)現(xiàn);PCN 的推理與學(xué)習(xí)動(dòng)力學(xué)機(jī)制仍知之甚少;且深層 PCN 在實(shí)踐中仍難以訓(xùn)練。

      本文通過基于優(yōu)化理論的理論分析,為拓展 PCN 的規(guī)模取得了重要進(jìn)展:第一,我們證明:盡管 PC 顯式僅使用一階梯度的局部更新,但其學(xué)習(xí)動(dòng)力學(xué)可被理解為一種使用二階信息的近似信賴域(trust-region)方法;第二,超越該近似框架,我們進(jìn)一步證明:原則上,PC 能夠利用任意高階信息;特別地,對(duì)于全連接網(wǎng)絡(luò),PC 實(shí)際優(yōu)化的有效景觀遠(yuǎn)比(均方誤差)損失景觀更平緩、對(duì)梯度消失更具魯棒性;第三,受對(duì) PCN 推理動(dòng)力學(xué)研究的啟發(fā),我們提出一種新型參數(shù)化方法——“μPC”,首次實(shí)現(xiàn)了在幾乎無需調(diào)參的情況下,穩(wěn)定訓(xùn)練超過 100 層的網(wǎng)絡(luò),并在簡單分類任務(wù)上取得與 BP 相當(dāng)?shù)男阅堋N覀冞€開源了一個(gè)基于 JAX 的 PCN 訓(xùn)練 Python 庫。

      總體而言,本論文顯著深化了我們對(duì) PCN 推理與學(xué)習(xí)動(dòng)力學(xué)的基礎(chǔ)理解;同時(shí)指出:若要使 PC 在規(guī)模上與 BP 競爭,未來研究亟需聚焦于硬件協(xié)同設(shè)計(jì)更具表達(dá)能力的網(wǎng)絡(luò)架構(gòu)。

      1 引言
      1.1 論文概述

      本論文探討了一種訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)(DNN)的替代方法,而DNN是現(xiàn)代人工智能(AI)的基礎(chǔ)模型 [79]。當(dāng)前神經(jīng)網(wǎng)絡(luò)訓(xùn)練的標(biāo)準(zhǔn)方法是所謂的“誤差反向傳播”算法 [129](BP)。本質(zhì)上,BP是一種高效計(jì)算復(fù)雜函數(shù)導(dǎo)數(shù)的方法,其依賴于專用硬件(如圖形處理器GPU)和軟件庫(如PyTorch [113] 和JAX [18])。然而,BP存在若干固有局限。例如,BP需要存儲(chǔ)模型的前向計(jì)算圖,導(dǎo)致內(nèi)存和能耗效率低下 [38, 154, 150]。此外,BP是一種無法在模型各層之間并行化的串行算法 [69]。這些局限源于BP內(nèi)在的非局部性:任意權(quán)重的更新都依賴于網(wǎng)絡(luò)中所有下游層的信息。基于上述及其他原因,BP也被廣泛認(rèn)為“生物學(xué)上不可信”,即不太可能在大腦中實(shí)現(xiàn) [28, 89]。

      本論文研究的替代算法稱為預(yù)測(cè)編碼(Predictive Coding,PC)[157, 131, 98, 99]。PC屬于一大類受大腦啟發(fā)、具有生物學(xué)合理性的學(xué)習(xí)算法,其中包括平衡傳播(equilibrium propagation)[138, 177]、目標(biāo)傳播(target propagation)[96]、前向?qū)W習(xí)(forward learning)[58] 等 [30, 114, 111, 88]。盡管這些算法在許多方面有所不同,但它們都共享一個(gè)區(qū)別于BP的關(guān)鍵特征:局部的、“類赫布式”(Hebbian-like)的權(quán)重更新,僅依賴相鄰神經(jīng)元之間的相互作用。

      從高層次來看,PC基于這樣一個(gè)基本思想:大腦的運(yùn)作方式是通過一個(gè)關(guān)于環(huán)境的生成模型,不斷最小化其預(yù)測(cè)誤差。這一思想在計(jì)算神經(jīng)科學(xué)中有著悠久歷史。最初作為視網(wǎng)膜功能理論被提出 [147],后來發(fā)展為一種更通用的大腦信息處理原則 [104, 124, 42, 43, 44]。近年來,自 [21, 14] 的開創(chuàng)性教程起,PC開始被探索作為一種可替代BP、且具有生物學(xué)合理性的學(xué)習(xí)算法。使用PC訓(xùn)練的DNN在分類、生成和記憶聯(lián)想等簡單機(jī)器學(xué)習(xí)任務(wù)上已展現(xiàn)出與BP相當(dāng)?shù)男阅?[131, 98, 99]。此外,PC被認(rèn)為相較于BP具有一系列優(yōu)勢(shì) [146],包括更快的學(xué)習(xí)收斂速度,以及在在線學(xué)習(xí)和持續(xù)學(xué)習(xí)等更具生物學(xué)現(xiàn)實(shí)性的任務(wù)中表現(xiàn)更佳。PC網(wǎng)絡(luò)(PCNs)還支持任意計(jì)算圖 [133, 22],可執(zhí)行混合推理與因果推理 [132, 155],并可擴(kuò)展至處理時(shí)序任務(wù) [102]。

      然而,本論文試圖解決的主要挑戰(zhàn)是:如何將PC及其他局部學(xué)習(xí)算法擴(kuò)展到非常深(10層以上)的網(wǎng)絡(luò),并應(yīng)用于ImageNet [32] 等大規(guī)模數(shù)據(jù)集(更不用說在萬億級(jí)token上訓(xùn)練的大語言模型)。局部算法很可能只有在模擬或神經(jīng)形態(tài)等非傳統(tǒng)數(shù)字硬件上才能實(shí)現(xiàn)實(shí)際擴(kuò)展(即在具備競爭力的計(jì)算與內(nèi)存資源條件下)。我們將在結(jié)論部分(§7)再次討論這一點(diǎn)。盡管如此,本論文將表明,即使在標(biāo)準(zhǔn)GPU上研究PC,我們?nèi)阅茉诖四繕?biāo)上取得顯著進(jìn)展。

      我們應(yīng)對(duì)PC擴(kuò)展挑戰(zhàn)的方式是理論與實(shí)驗(yàn)相結(jié)合。借鑒新興的深度學(xué)習(xí)理論領(lǐng)域 [90, 54, 127, 151, 119, 176],我們將采用優(yōu)化理論視角,并以深度線性網(wǎng)絡(luò)(DLNs)作為主要理論模型。事實(shí)上,本論文的許多貢獻(xiàn)在于將針對(duì)DLNs的優(yōu)化理論分析適配到PC框架中。該模型不僅將為實(shí)用PCN的推斷與學(xué)習(xí)動(dòng)態(tài)提供最具解釋力和預(yù)測(cè)力的理論(第4–5章),而且首次使我們能夠以極少調(diào)參、在簡單任務(wù)上達(dá)到有競爭力性能的前提下,將PC擴(kuò)展至100多層的網(wǎng)絡(luò)(第5章)。其他貢獻(xiàn)(詳見下文§1.2)包括:對(duì)PC作為信賴域優(yōu)化器(trust-region optimiser)的新穎詮釋(第3章),以及一個(gè)用于在JAX中訓(xùn)練PCN的開源Python軟件包(第6章)。

      1.1.1 結(jié)構(gòu)

      本論文結(jié)構(gòu)如下:本章余下部分將詳細(xì)闡述本博士研究的各項(xiàng)貢獻(xiàn)。第2章回顧預(yù)測(cè)編碼網(wǎng)絡(luò)(PCNs),為后續(xù)章節(jié)奠定基礎(chǔ)。除結(jié)論和附錄外,其余各章均對(duì)應(yīng)不同的研究論文。第3章提出了一個(gè)近似理論,將預(yù)測(cè)編碼(PC)解釋為一種二階信賴域方法。第4章在此理論基礎(chǔ)上大幅推進(jìn),對(duì)PCN的學(xué)習(xí)景觀與動(dòng)態(tài)特性進(jìn)行了刻畫,并得出了令人驚訝且富有洞見的發(fā)現(xiàn)。在此基礎(chǔ)上,第5章對(duì)PCN的推斷景觀與動(dòng)態(tài)進(jìn)行了類似分析,并提出了“μPC”——一種新的PCN參數(shù)化方法,使得100多層網(wǎng)絡(luò)的穩(wěn)定訓(xùn)練成為可能。第6章介紹了JPC,這是一個(gè)為訓(xùn)練多種PCN而開發(fā)的開源Python庫,本論文中的許多實(shí)驗(yàn)均基于此庫完成。每一章均配有詳盡的附錄,通常包括相關(guān)文獻(xiàn)綜述、技術(shù)推導(dǎo)、實(shí)驗(yàn)細(xì)節(jié)和補(bǔ)充圖表。最后,第7章總結(jié)全文,討論本論文的主要啟示與局限,并提出一些推測(cè)性展望。

      1.2 貢獻(xiàn)聲明

      本論文的主要貢獻(xiàn)如下,每一項(xiàng)均對(duì)應(yīng)一章及一篇論文(詳見表1.1的摘要):


      • 第3章 [63]:我們表明,盡管預(yù)測(cè)編碼(PC)顯式地僅使用一階(梯度)信息,其學(xué)習(xí)動(dòng)態(tài)可被理解為一種隱式的近似二階信賴域方法。該理論(i)比以往工作做出更少的假設(shè),(ii)為PC的工作機(jī)制提供了新的洞見,(iii)并提出了一些新穎的神經(jīng)科學(xué)解釋。此項(xiàng)工作發(fā)表于[63],并在ICML 2023“局部學(xué)習(xí)”(Localized Learning)研討會(huì)上榮獲最佳論文獎(jiǎng)。相關(guān)ICML報(bào)告視頻可在此處觀看。
      • 第4章 [61]:在上述工作的基礎(chǔ)上大幅推進(jìn),我們通過刻畫PC實(shí)際學(xué)習(xí)所依賴的有效損失景觀的幾何結(jié)構(gòu),發(fā)展出一套更為精確的PCN學(xué)習(xí)動(dòng)態(tài)理論。針對(duì)全連接(非殘差)網(wǎng)絡(luò),我們證明PC實(shí)際上是在一個(gè)重縮放后的均方誤差損失上進(jìn)行學(xué)習(xí),該損失在特定條件下比原始損失更容易優(yōu)化。我們的理論(i)糾正了文獻(xiàn)中先前的一個(gè)錯(cuò)誤,(ii)對(duì)看似矛盾的已有發(fā)現(xiàn)提供了統(tǒng)一解釋,(iii)并提出了若干新預(yù)測(cè),且已通過實(shí)驗(yàn)驗(yàn)證。該工作已被NeurIPS 2024接收[61],并隨后作為“機(jī)器學(xué)習(xí)2025”特刊的一部分,發(fā)表于《統(tǒng)計(jì)力學(xué)雜志:理論與實(shí)驗(yàn)》(Journal of Statistical Mechanics: Theory and Experiment)。
      • 第5章 [60]:我們發(fā)展了一套類似的PCN推斷景觀與動(dòng)態(tài)理論,證明(i)隨著模型規(guī)模(寬度,尤其是深度)和訓(xùn)練時(shí)間的增加,推斷景觀會(huì)變得越來越病態(tài)(ill-conditioned);(ii)標(biāo)準(zhǔn)PCN的前向傳播隨深度增加趨于消失或爆炸。受這些發(fā)現(xiàn)啟發(fā),我們提出了μPC——一種新的PCN參數(shù)化方法,首次實(shí)現(xiàn)了在極少調(diào)參的情況下穩(wěn)定訓(xùn)練100多層的網(wǎng)絡(luò),并在簡單分類任務(wù)上達(dá)到有競爭力的性能。據(jù)我所知,此前尚無任何局部性或受腦啟發(fā)的學(xué)習(xí)算法成功訓(xùn)練過如此深度的網(wǎng)絡(luò)。這項(xiàng)工作為未來擴(kuò)展PC奠定了基礎(chǔ),已被NeurIPS 2025接收。
      • 第6章 [62]:我們推出了JPC [62]——一個(gè)基于JAX、用于訓(xùn)練多種PCN的Python庫。JPC已在 https://github.com/thebuckleylab/jpc 開源,包含大量示例和詳細(xì)文檔。

      盡管本論文作者是上述所有工作的主要貢獻(xiàn)者,但為明確起見,各章末尾均包含一個(gè)專門說明具體作者貢獻(xiàn)的小節(jié)。此外,我們還指出一項(xiàng)未納入本論文的博士期間成果:“A Simple Generalisation of the Implicit Dynamics of In-Context Learning”,該論文已被NeurIPS 2025 “What Can(’t) Transformers Do?” 研討會(huì)接收。

      總體而言,本論文顯著深化了我們對(duì)PCN中推斷與學(xué)習(xí)及其相互作用機(jī)制的理解,并對(duì)擴(kuò)展PC及其他基于能量的學(xué)習(xí)算法具有明確的實(shí)際意義(詳見第7章討論)。任何未來試圖進(jìn)一步擴(kuò)展或深入理解PCN的工作都將受益于本研究。

      2 預(yù)測(cè)編碼網(wǎng)絡(luò)(PCNs)

      在本章中,我們將回顧預(yù)測(cè)編碼網(wǎng)絡(luò)(PCNs),作為后續(xù)章節(jié)的基礎(chǔ)。但請(qǐng)注意,我們的目標(biāo)是使每一章都自成體系,因此關(guān)鍵方程將被重新呈現(xiàn)。



      其中,B 是批大小,或在訓(xùn)練過程中任意時(shí)刻擬合的數(shù)據(jù)點(diǎn)數(shù)量。為簡化起見,我們通常會(huì)省略數(shù)據(jù)索引 i。公式 2.1 并非可寫出的最通用形式的 PC 能量函數(shù),因?yàn)槿藗円部梢约僭O(shè)不同的層間函數(shù)(而非全連接)、每層多個(gè)變換以及非單位協(xié)方差。然而,本論文將專注于此公式化形式(及其細(xì)微變體),以忠實(shí)于實(shí)踐中訓(xùn)練的典型 PCN。另請(qǐng)注意,公式 2.1 可被重寫,以定義每個(gè)神經(jīng)元的能量,這不可避免地會(huì)導(dǎo)致關(guān)于活動(dòng)和權(quán)重的局部梯度。我們將使用來表示所有權(quán)重,其中 p 為參數(shù)總數(shù);并用 表示所有自由變化的活動(dòng),其中 H = L - 1 為隱層數(shù)量。我們還將根據(jù)上下文使用下標(biāo)來索引層或時(shí)間步。

      出于理論研究目的,我們通常(但并非總是)會(huì)研究深度線性網(wǎng)絡(luò)(DLNs)1,假設(shè)每一層 ? 的激活函數(shù)均為恒等函數(shù) φ? = I。選擇這一模型有兩個(gè)主要原因:首先,線性特性使數(shù)學(xué)分析在許多方面更易于處理;其次,正如 [137] 最初著名地展示的那樣,DLNs 已被證明是研究非線性網(wǎng)絡(luò)的一個(gè)有用模型。正如我們將在第 4 和第 5 章看到的,盡管 DLNs 只能學(xué)習(xí)線性表示,但它們具有與非線性對(duì)應(yīng)物相似的非凸損失景觀和非線性學(xué)習(xí)動(dòng)態(tài)。

      PCN 訓(xùn)練。要訓(xùn)練一個(gè) PCN,生成模型的觀測(cè)值需要被鉗制到某些目標(biāo)數(shù)據(jù)上,即 zL := y ∈ ???。這可以是一個(gè)用于分類的標(biāo)簽,或一張用于生成的圖像,這兩種設(shè)置通常分別被稱為判別式 PC 和生成式 PC。在監(jiān)督學(xué)習(xí)(相對(duì)于無監(jiān)督學(xué)習(xí))中,第一層也被固定為某個(gè)輸入,即 z0 := x ∈ ???。本論文的實(shí)驗(yàn)將聚焦于(監(jiān)督)判別式設(shè)置,但該理論通常可推廣至任何設(shè)置。請(qǐng)注意,不同論文會(huì)根據(jù)所關(guān)注的具體設(shè)置而使用不同的符號(hào)和術(shù)語。

      一旦網(wǎng)絡(luò)輸出(以及可選的輸入)被鉗制到某些數(shù)據(jù)上,能量(公式 2.1)會(huì)以一種雙層期望最大化的方式被最小化 [31],我們將在下文詳細(xì)解釋。

      推斷。在第一階段,給定某些權(quán)重 θ?,我們針對(duì)網(wǎng)絡(luò)的活動(dòng)(activities)來最小化能量:




      其中,?θF 是能量關(guān)于權(quán)重的梯度,Pt 是某個(gè)預(yù)條件矩陣,η 是全局學(xué)習(xí)率。請(qǐng)注意,通過選擇單位預(yù)條件矩陣 Pt = I,可以恢復(fù)標(biāo)準(zhǔn)的梯度下降法(GD)。這一階段被稱為“學(xué)習(xí)”,原因顯而易見,在實(shí)踐中通常使用 Adam 優(yōu)化器 [76] 來執(zhí)行。在一次權(quán)重更新后,我們用一個(gè)新的數(shù)據(jù)批次重新開始優(yōu)化循環(huán)(為簡化起見,此處未展示),并重復(fù)此過程,通常直到我們?cè)谝恍╊A(yù)留樣本上對(duì)測(cè)試或泛化性能感到滿意為止。參見算法1以獲取部分偽代碼。這種雙層優(yōu)化的執(zhí)行方式反映了這樣一種直覺:神經(jīng)元(活動(dòng))動(dòng)力學(xué)(公式2.2)比突觸(權(quán)重)動(dòng)力學(xué)(公式2.3)運(yùn)行在更快的時(shí)間尺度上。


      正如上文所提及的,與BP不同,能量的活動(dòng)梯度和權(quán)重梯度都是局部的,僅需相鄰神經(jīng)元的信息。毫不夸張地說,本論文的重點(diǎn)在于理解(并改進(jìn))當(dāng)能量參數(shù)化標(biāo)準(zhǔn)DNN時(shí),這些耦合優(yōu)化問題(公式2.2 & 2.3)。特別是,第3章和第4章關(guān)注學(xué)習(xí),而第5章則聚焦于推斷。需要特別指出的是,以往試圖理解PC的研究主要依賴于對(duì)能量的功能性分析 [101, 4],忽略了DNN豐富的結(jié)構(gòu)。正如我們將在第4章和第5章看到的,這種結(jié)構(gòu)對(duì)于解釋、預(yù)測(cè)和控制PCN的推斷與學(xué)習(xí)動(dòng)態(tài)至關(guān)重要。

      PCN 測(cè)試。根據(jù)具體場景和任務(wù)目標(biāo)的不同,PCN 可以通過多種方式進(jìn)行測(cè)試。在任何監(jiān)督設(shè)置下(分類或生成),我們都可以像使用反向傳播(BP)一樣,通過對(duì)給定輸入執(zhí)行一次前向傳播來獲得預(yù)測(cè)結(jié)果。此外,由于 PCN 實(shí)現(xiàn)了一個(gè)生成模型,原則上我們可以將網(wǎng)絡(luò)的任意部分鉗制(clamp),并讓其推斷或“補(bǔ)全”所有未被固定的節(jié)點(diǎn)或?qū)拥幕顒?dòng)狀態(tài) [133]。這種方法可用于記憶聯(lián)想任務(wù)中補(bǔ)全被遮蔽的圖像、在給定圖像的情況下推斷標(biāo)簽(從而使單個(gè)網(wǎng)絡(luò)能夠同時(shí)執(zhí)行生成和分類任務(wù)),或在無監(jiān)督設(shè)置中推斷某種潛在表征 [157, 131, 98, 99]。

      3 預(yù)測(cè)編碼作為信賴域優(yōu)化


      3.1 摘要

      預(yù)測(cè)編碼(Predictive Coding, PC)是一種受大腦啟發(fā)的局部學(xué)習(xí)算法,最近被認(rèn)為在具有生物學(xué)意義的任務(wù)中相比反向傳播(Backpropagation, BP)具有一定優(yōu)勢(shì)。盡管已有理論工作主要聚焦于PC在何種條件下可以近似或等同于BP,但標(biāo)準(zhǔn)PC與BP之間的差異仍缺乏深入理解。本文提出一種理論,將PC視為一種使用二階信息的近似自適應(yīng)信賴域(Trust-Region, TR)方法。我們證明,PC的權(quán)重梯度可被解釋為將BP損失梯度朝向由PC推斷動(dòng)態(tài)所計(jì)算出的信賴域方向進(jìn)行偏移。該理論表明,PC應(yīng)比BP更快地逃離鞍點(diǎn)——這一預(yù)測(cè)我們?cè)跍\層線性模型中予以證明,并通過深度網(wǎng)絡(luò)實(shí)驗(yàn)加以支持。本工作為理解PC其他被提出的優(yōu)點(diǎn)奠定了理論基礎(chǔ)。

      3.2 引言

      近年來,大量研究致力于探索預(yù)測(cè)編碼(PC)在何種條件下可退化為反向傳播(BP)。這項(xiàng)工作始于 [160],其指出:在全連接網(wǎng)絡(luò)(或多層感知機(jī),MLP)上,當(dāng)先驗(yàn)(輸入)相對(duì)于觀測(cè)(輸出)被賦予更高權(quán)重時(shí),PC可近似BP所計(jì)算的梯度。[103] 將該結(jié)果推廣至任意計(jì)算圖,包括卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。隨后,一種在特定推斷時(shí)刻更新權(quán)重的PC變體被證明在MLP上與BP完全等價(jià) [145],該結(jié)論又被 [134] 和 [128] 進(jìn)一步推廣。最終,[100] 在基于能量模型(EBM)的某些平衡性質(zhì)下,統(tǒng)一了上述及其他近似結(jié)果。

      另一方面,標(biāo)準(zhǔn)PC(未經(jīng)任何修改)與BP之間的差異遠(yuǎn)未被充分理解。[146] 提出,PC(以及更廣義的EBM)實(shí)現(xiàn)了一種根本不同的信用分配原則,稱為“前瞻性配置”(prospective configuration)。根據(jù)該原則,神經(jīng)元首先調(diào)整其活動(dòng)以更好地預(yù)測(cè)目標(biāo),然后更新權(quán)重以鞏固該活動(dòng)模式;這與BP中權(quán)重優(yōu)先于活動(dòng)的做法形成鮮明對(duì)比?;趶V泛的實(shí)證結(jié)果,[146] 指出PC相比BP可帶來一系列優(yōu)勢(shì),包括更快的學(xué)習(xí)收斂速度,以及在更具生物學(xué)現(xiàn)實(shí)性的場景(如在線學(xué)習(xí)和持續(xù)學(xué)習(xí))中表現(xiàn)更佳。

      部分受到這一概念性原則的啟發(fā),近期研究開始發(fā)展針對(duì)標(biāo)準(zhǔn)預(yù)測(cè)編碼(PC)的理論。例如,[101] 證明了:(i) 在線性情形下,PC 推斷的平衡點(diǎn)可被解釋為反向傳播(BP)前向傳播值與目標(biāo)傳播(Target Propagation, TP)[96] 所計(jì)算的局部目標(biāo)之間的平均;(ii) PC 能量函數(shù)的任意臨界點(diǎn)同時(shí)也是 BP 損失函數(shù)的臨界點(diǎn)。在在線設(shè)置下(即數(shù)據(jù)批次大小為1),[4] 表明:通過對(duì)各層活動(dòng)和參數(shù)學(xué)習(xí)率進(jìn)行特定重縮放,PC 可近似隱式梯度下降。在我撰寫本章所基于的論文期間,[3] 進(jìn)一步指出:當(dāng)該近似成立時(shí),PC 對(duì) Hessian 信息敏感(尤其在小學(xué)習(xí)率情況下)。盡管有這些成果,標(biāo)準(zhǔn) PC 與 BP 之間的根本關(guān)系仍未被完全闡明。

      在上述研究基礎(chǔ)上,本文進(jìn)一步表明:PC 可被有效地理解為一種利用二階信息的近似自適應(yīng)信賴域(Trust-Region, TR)算法。具體而言,我們指出 PC 的推斷階段可被視為在 BP 損失上求解一個(gè)信賴域問題,其信賴域由生成模型的 Fisher 信息定義(見 §3.5)。隨后,PC 的權(quán)重梯度可被解釋為將 BP 計(jì)算出的損失梯度朝向該信賴域推斷解的方向偏移。我們的理論表明,PC 應(yīng)比 BP 更快地逃離鞍點(diǎn)——這是信賴域方法的一個(gè)廣為人知的特性 [27, 29, 167, 85, 105]。我們?cè)谝粋€(gè)簡化模型中驗(yàn)證了這一預(yù)測(cè)(§3.4),并在深度網(wǎng)絡(luò)上提供了支持性實(shí)驗(yàn)(§3.6)。

      本章其余部分結(jié)構(gòu)如下:在簡要介紹 PC 與信賴域方法的相關(guān)背景之后(§3.3),我們通過一個(gè)簡化模型來建立對(duì) PC 與 BP 差異的直觀理解(§3.4)。接著,§3.5 提出我們將 PC 視為信賴域方法的理論分析,隨后是與該理論一致的實(shí)驗(yàn)結(jié)果(§3.6)。最后,我們討論本工作的意義與局限性(§3.7)。所有推導(dǎo)、實(shí)驗(yàn)細(xì)節(jié)及補(bǔ)充圖表均移至附錄 A。

      3.3 預(yù)備知識(shí)





      3.4 一個(gè)簡化模型



      即使在這個(gè)簡單設(shè)定中,我們也能觀察到兩種算法之間顯著的定性和定量差異。特別是,預(yù)測(cè)編碼(PC)似乎能夠避開原點(diǎn)處的鞍點(diǎn),采取一條更直接的路徑通向最近的解流形。這一點(diǎn)體現(xiàn)在平衡態(tài)能量景觀的幾何結(jié)構(gòu)中:該景觀在朝向鞍點(diǎn)的方向上呈現(xiàn)出更平坦的“陷阱”,而在朝向解谷的方向上則具有更強(qiáng)的負(fù)曲率(即“逃逸”方向)。對(duì)于這個(gè)簡化模型,可以很容易地證明:使用(隨機(jī))梯度下降法(SGD)時(shí),PC 比反向傳播(BP)更快地逃離該鞍點(diǎn)(見定理 A.1)。

      更一般地,平衡態(tài)能量的梯度場似乎比損失函數(shù)的梯度場更貼近解的方向。事實(shí)上,圖 3.2 顯示,平均而言,PC 的更新方向比 BP 更接近且更可靠地指向最優(yōu)方向(即朝向最近的解)。


      我們還觀察到,PC 的梯度下降(GD)動(dòng)態(tài)在接近極小值時(shí)似乎會(huì)變慢。在 1MLP 情形下,可以證明這是因?yàn)槠胶鈶B(tài)能量的極小值流形比損失函數(shù)的極小值流形更平坦(見定理 A.2)。一個(gè)推論是,在訓(xùn)練過程中,PC 在接近極小值時(shí)對(duì)權(quán)重?cái)_動(dòng)更具魯棒性(參見圖 A.2),這在更具生物學(xué)意義的在線學(xué)習(xí)場景中可能尤為重要。

      總之,在這個(gè)簡化示例中,我們表明 PC 的推斷(公式 3.1)有效地重塑了權(quán)重景觀的幾何結(jié)構(gòu),使得 GD:(i) 能更快地逃離原點(diǎn)處的鞍點(diǎn);(ii) 在接近極小值時(shí)收斂更慢,但對(duì)擾動(dòng)更具魯棒性。接下來,我們將提出一個(gè)理論來解釋這些現(xiàn)象。然而,對(duì)這些觀察結(jié)果更精確、更具洞察力的解釋及其推廣,將在下一章中呈現(xiàn)。

      3.5 PC 作為一種近似的二階信賴域方法




      這一由推斷動(dòng)力學(xué)所求得的 TR 解,如何影響 PC 的權(quán)重梯度及其學(xué)習(xí)動(dòng)力學(xué)?回顧可知,在 PC 中權(quán)重通常是在活動(dòng)收斂后才進(jìn)行更新(§3.3.1)。因此,我們計(jì)算在上述剛推導(dǎo)出的近似推斷解處評(píng)估的能量的權(quán)重梯度(詳見 §A.3):



      3.6 實(shí)驗(yàn)

      本節(jié)報(bào)告了一些與假設(shè)一致的實(shí)驗(yàn)結(jié)果,該假設(shè)已在1MLP模型中被證明(定理 A.1),并由我們將PC視為信賴域(TR)方法的理論分析所提出(§3.5)——即當(dāng)使用(S)GD時(shí),PC比BP能更快地逃離鞍點(diǎn)。

      3.6.1 深層鏈?zhǔn)骄W(wǎng)絡(luò)


      梯度消失/爆炸。我們將在第5章再次討論這一點(diǎn)。

      根據(jù)先前的工作 [4, 146],在每次實(shí)驗(yàn)中我們都進(jìn)行了學(xué)習(xí)率網(wǎng)格搜索,以確保結(jié)果的任何差異并非源于PC與BP固有的不同最優(yōu)學(xué)習(xí)率(詳見 §A.1.2)。下文我們繪制的是訓(xùn)練過程中的損失動(dòng)態(tài),而非測(cè)試結(jié)果,因?yàn)槲覀冴P(guān)注的是優(yōu)化動(dòng)力學(xué),而非泛化性能。盡管如此,測(cè)試損失結(jié)果在圖 A.3 中有報(bào)告。

      驗(yàn)證我們的主要預(yù)測(cè),我們發(fā)現(xiàn):使用SGD時(shí),PC能夠比BP顯著更快地訓(xùn)練更深的鏈?zhǔn)骄W(wǎng)絡(luò)(圖3.3)。請(qǐng)注意,只要損失停止下降,訓(xùn)練即被終止。對(duì)于線性與Tanh激活函數(shù),我們觀察到BP的收斂速度會(huì)隨著層數(shù)增加而顯著變慢。我們還觀察到在深度增加時(shí)出現(xiàn)相變現(xiàn)象——這一現(xiàn)象也在深層線性網(wǎng)絡(luò)的損失動(dòng)力學(xué)中被觀察到 [137, 68]。最后,我們注意到BP和PC均無法訓(xùn)練非常深的鏈?zhǔn)骄W(wǎng)絡(luò)(H=15),這可能歸因于梯度消失/爆炸問題。




      3.7 討論

      總之,我們表明,盡管預(yù)測(cè)編碼(PC)顯式地僅使用一階更新,但它可被理解為一種利用二階信息的近似自適應(yīng)信賴域方法。

      3.7.1 啟示

      我們的理論表明,使用 SGD 時(shí),PC 應(yīng)比 BP 更快地逃離鞍點(diǎn)——這一預(yù)測(cè)我們?cè)诤喕P椭械玫搅蓑?yàn)證,并通過深度網(wǎng)絡(luò)實(shí)驗(yàn)提供了支持。這些結(jié)果與先前報(bào)道的 PC 相較于 BP 的加速現(xiàn)象一致 [146, 4]。例如,[146] 發(fā)現(xiàn),在使用 Adam 優(yōu)化器訓(xùn)練 Fashion-MNIST 數(shù)據(jù)集的 15 層 LeakyReLU 網(wǎng)絡(luò)( N = 64
      )時(shí),PC 的收斂速度遠(yuǎn)快于 BP。在在線學(xué)習(xí)設(shè)置下(批次大小為 1),[4] 也在相對(duì)較淺( L = 3 )但更寬( N = 1024
      )的 ReLU 網(wǎng)絡(luò)上進(jìn)行 CIFAR-10 分類與重建任務(wù)時(shí)觀察到了類似的加速效果。我們的理論從“更快逃離鞍點(diǎn)”的角度為這些結(jié)果提供了一種潛在解釋。下一章將對(duì)此預(yù)測(cè)進(jìn)行形式化并加以細(xì)化。

      更一般地,我們的結(jié)果表明,PC 所利用的二階信息包含了損失景觀曲率的相關(guān)信息。與此相關(guān),[3] 表明在在線學(xué)習(xí)設(shè)置下,PC 可近似信賴域牛頓法(TRN)。然而需注意,我們的理論不依賴于批次大小,且實(shí)驗(yàn)證據(jù)表明,即使在大批次情況下,PC 也能利用二階信息。盡管如此,正如我們下文所述,下一章將揭示該理論的局限性。

      雖然我們未深入探討這一點(diǎn),但我們的理論也可復(fù)現(xiàn)已有的關(guān)于 PC 近似 BP 或目標(biāo)傳播(TP)的結(jié)果——這些結(jié)果依賴于自下而上與自上而下信息之間的比例 [160, 101]。具體而言,調(diào)節(jié)這一比例可被視為調(diào)整信賴域的不同軸向,或等價(jià)地,調(diào)整逐參數(shù)的學(xué)習(xí)率(參見圖 A.5 的示意圖)。事實(shí)上,由于信賴域方法與線搜索方法之間存在對(duì)偶性 [27],我們的理論還可將 PC 解釋為一種自適應(yīng)梯度方法,在概念上類似于 Adam [76] 等當(dāng)前最先進(jìn)的深度學(xué)習(xí)優(yōu)化器。值得注意的是,已有研究表明,自適應(yīng)方法相比標(biāo)準(zhǔn) SGD 也能更快地逃離鞍點(diǎn) [148, 112]。

      [122] 的近期工作表明,我們的理論或許可通過生物數(shù)據(jù)進(jìn)行檢驗(yàn)。作者指出,在某些假設(shè)下,權(quán)重更新的幾何結(jié)構(gòu)可從權(quán)重分布中推斷出來,并提出標(biāo)準(zhǔn) GD 所定義的歐幾里得幾何與突觸權(quán)重經(jīng)驗(yàn)觀測(cè)到的對(duì)數(shù)正態(tài)分布不一致。這與我們的結(jié)果相符:PC 使用的是非歐幾里得(自然)幾何,其度量由 Fisher 信息給出。然而,要區(qū)分不同的非歐幾里得幾何,似乎需要學(xué)習(xí)前后的實(shí)驗(yàn)數(shù)據(jù),因?yàn)?[122] 表明,不同的幾何結(jié)構(gòu)在不同初始分布下可能導(dǎo)致相同的學(xué)后分布。

      與此相關(guān),我們的研究也觸及了“大腦是否可能近似梯度下降(GD)”這一問題。目前廣泛認(rèn)為,大腦會(huì)在某種目標(biāo)或損失函數(shù)上估計(jì)梯度 [93, 126, 89, 57, 125]。[125] 建議可通過考察突觸變化與特定任務(wù)損失的真實(shí)梯度之間的相關(guān)性來實(shí)驗(yàn)檢驗(yàn)這一主張。無論 PC 是否是大腦學(xué)習(xí)的良好模型,我們的結(jié)果表明:對(duì)局部目標(biāo)之和(此處為 PC 能量)執(zhí)行一階梯度更新,可導(dǎo)致對(duì)全局目標(biāo)的二階更新。這引出一種可能性:大腦或許可以通過對(duì)局部目標(biāo)之和執(zhí)行 GD 來利用損失的曲率信息。若果真如此,突觸變化可能不會(huì)與損失梯度直接相關(guān),而應(yīng)與二階更新進(jìn)行比較。

      最后,我們的理論可被視為為“前瞻性配置”(prospective configuration)這一概念性原則 [146] 及其關(guān)聯(lián)的實(shí)證優(yōu)勢(shì)提供更堅(jiān)實(shí)理論基礎(chǔ)的重要一步。將此框架擴(kuò)展以解釋(甚至發(fā)現(xiàn))PC 的其他優(yōu)缺點(diǎn)(如對(duì)小批次的魯棒性、權(quán)重干擾減少等)將十分有趣。然而,在接下來的章節(jié)中,我們將論證:任何對(duì) PCN 推斷與學(xué)習(xí)動(dòng)態(tài)的嚴(yán)肅理論,都必須考慮神經(jīng)網(wǎng)絡(luò)豐富的架構(gòu)結(jié)構(gòu)。

      3.7.2 局限性

      如上所述,本理論的一個(gè)重要局限在于它僅在二階近似下成立(公式 3.4)。事實(shí)上,下一章我們將證明,PC 不僅利用了損失景觀的曲率信息,還利用了任意高階的信息。該理論的另一個(gè)弱點(diǎn)是:盡管適用于任意能量函數(shù),但它未考慮網(wǎng)絡(luò)的結(jié)構(gòu)或架構(gòu)——而下一章將表明這一點(diǎn)至關(guān)重要。此外,盡管本工作突顯了 PC 推斷機(jī)制的潛在優(yōu)勢(shì),但其計(jì)算成本仍然是一個(gè)主要限制,使其比 BP(至少在標(biāo)準(zhǔn) GPU 上)高出數(shù)個(gè)數(shù)量級(jí)。我們的結(jié)果通過揭示 Fisher 矩陣的隱式計(jì)算與求逆過程,為這一高昂的推斷成本提供了合理解釋。在這方面,我們注意到已有研究提出了攤銷式(amortised)PC 方案 [155],未來工作可進(jìn)一步探究是否能在采用攤銷策略的同時(shí)保留迭代推斷所帶來的優(yōu)勢(shì)。

      原文鏈接: https://arxiv.org/pdf/2510.23323

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      1月27日北京&東方衛(wèi)視放大招!8部大劇任你挑

      1月27日北京&東方衛(wèi)視放大招!8部大劇任你挑

      情感大頭說說
      2026-01-28 03:12:32
      美企CEO:如果東方大國突破了先進(jìn)光刻機(jī),對(duì)我們就是致命一擊!

      美企CEO:如果東方大國突破了先進(jìn)光刻機(jī),對(duì)我們就是致命一擊!

      達(dá)文西看世界
      2026-01-27 16:00:39
      ICE指揮官被撤職,“黨衛(wèi)軍”暫時(shí)偃旗息鼓?

      ICE指揮官被撤職,“黨衛(wèi)軍”暫時(shí)偃旗息鼓?

      勝研集
      2026-01-27 12:59:03
      8000萬少一分不賣!英超球隊(duì)想報(bào)價(jià)20歲射手,國米設(shè)置護(hù)城河

      8000萬少一分不賣!英超球隊(duì)想報(bào)價(jià)20歲射手,國米設(shè)置護(hù)城河

      里芃芃體育
      2026-01-27 12:00:07
      兩年了,為何許家印遲遲不判刑?真相比你想象的更復(fù)雜!

      兩年了,為何許家印遲遲不判刑?真相比你想象的更復(fù)雜!

      苗苗情感說
      2026-01-27 01:34:47
      她14歲已是“人間尤物”,被首富看中花10億娶回家,8年生了四胎

      她14歲已是“人間尤物”,被首富看中花10億娶回家,8年生了四胎

      LULU生活家
      2026-01-16 18:50:49
      21歲白血病女生尋親新進(jìn)展:已轉(zhuǎn)運(yùn)至蘇州治療,有人主動(dòng)認(rèn)親核對(duì)時(shí)間后表示年份不符

      21歲白血病女生尋親新進(jìn)展:已轉(zhuǎn)運(yùn)至蘇州治療,有人主動(dòng)認(rèn)親核對(duì)時(shí)間后表示年份不符

      瀟湘晨報(bào)
      2026-01-27 11:47:28
      1939年,外蒙古處決了6.8萬名喇嘛,背后是有何隱情嗎?

      1939年,外蒙古處決了6.8萬名喇嘛,背后是有何隱情嗎?

      深度報(bào)
      2025-12-12 22:43:56
      馬筱梅親媽來北京幫帶孩子,馬媽媽稱:暖氣太熱,晚上都把暖氣關(guān)

      馬筱梅親媽來北京幫帶孩子,馬媽媽稱:暖氣太熱,晚上都把暖氣關(guān)

      天啟大世界
      2026-01-28 03:52:52
      中超轉(zhuǎn)會(huì)新消息:泰山、蓉城各添1名猛將,申花隊(duì)放棄2000萬國腳

      中超轉(zhuǎn)會(huì)新消息:泰山、蓉城各添1名猛將,申花隊(duì)放棄2000萬國腳

      何老師呀
      2026-01-27 22:54:17
      12歲玥兒穿價(jià)值7000元外套,很貴氣!越長越像大S

      12歲玥兒穿價(jià)值7000元外套,很貴氣!越長越像大S

      大眼妹妹
      2026-01-27 08:40:10
      想跑沒門!新疆富豪夫婦套現(xiàn)7億,沒等錢到賬,老板娘先被帶走了

      想跑沒門!新疆富豪夫婦套現(xiàn)7億,沒等錢到賬,老板娘先被帶走了

      陳博世財(cái)經(jīng)
      2026-01-27 17:04:14
      藥師提醒:銀杏葉片、血塞通、復(fù)方丹參片,心腦血管用藥別再選錯(cuò)

      藥師提醒:銀杏葉片、血塞通、復(fù)方丹參片,心腦血管用藥別再選錯(cuò)

      蜉蝣說
      2026-01-17 18:36:03
      中央和國家機(jī)關(guān)黨的工作暨紀(jì)檢工作會(huì)議在京召開

      中央和國家機(jī)關(guān)黨的工作暨紀(jì)檢工作會(huì)議在京召開

      農(nóng)民日?qǐng)?bào)
      2026-01-27 20:56:03
      狂飆1034.71%!國產(chǎn)半導(dǎo)體最大贏家現(xiàn)身

      狂飆1034.71%!國產(chǎn)半導(dǎo)體最大贏家現(xiàn)身

      半導(dǎo)體產(chǎn)業(yè)縱橫
      2026-01-27 18:26:51
      Dior紅毯太真實(shí)!劉嘉玲臉好腫,溫碧霞戴假發(fā)片老氣,王玉雯贏麻

      Dior紅毯太真實(shí)!劉嘉玲臉好腫,溫碧霞戴假發(fā)片老氣,王玉雯贏麻

      洲洲影視娛評(píng)
      2026-01-27 12:08:04
      委內(nèi)瑞拉變局:特朗普昔日“傀儡”為何反水?

      委內(nèi)瑞拉變局:特朗普昔日“傀儡”為何反水?

      冒泡泡的魚兒
      2026-01-28 03:51:45
      楊鳴被曝離任不到24小時(shí),令人擔(dān)心的事發(fā)生,烏戈、郭士強(qiáng)被牽連

      楊鳴被曝離任不到24小時(shí),令人擔(dān)心的事發(fā)生,烏戈、郭士強(qiáng)被牽連

      不寫散文詩
      2026-01-27 15:17:57
      楊廣荒唐到什么程度?在皇宮內(nèi)立下奇葩規(guī)矩,讓妃子宮女十分難堪

      楊廣荒唐到什么程度?在皇宮內(nèi)立下奇葩規(guī)矩,讓妃子宮女十分難堪

      銘記歷史呀
      2026-01-06 01:08:47
      警惕!當(dāng)白銀、銅都和黃金一起講故事,你的財(cái)富可能正被悄悄轉(zhuǎn)移

      警惕!當(dāng)白銀、銅都和黃金一起講故事,你的財(cái)富可能正被悄悄轉(zhuǎn)移

      藍(lán)色海邊
      2026-01-28 03:42:22
      2026-01-28 06:15:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1182文章數(shù) 18關(guān)注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會(huì)講話透露了哪些關(guān)鍵信息

      頭條要聞

      美報(bào)告稱中國是其19世紀(jì)以來面對(duì)過的最強(qiáng)大國家

      頭條要聞

      美報(bào)告稱中國是其19世紀(jì)以來面對(duì)過的最強(qiáng)大國家

      體育要聞

      冒充職業(yè)球員,比賽規(guī)則還和對(duì)手現(xiàn)學(xué)?

      娛樂要聞

      張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

      財(cái)經(jīng)要聞

      多地對(duì)壟斷行業(yè)"近親繁殖"出手了

      汽車要聞

      標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

      態(tài)度原創(chuàng)

      藝術(shù)
      手機(jī)
      親子
      數(shù)碼
      公開課

      藝術(shù)要聞

      14位西方著名畫家的女性肖像畫!

      手機(jī)要聞

      蘋果連發(fā)4版系統(tǒng):從iPhone 5s到iOS 26,果粉福音來了!

      親子要聞

      雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨(dú)立帶娃嗎?

      數(shù)碼要聞

      這事你怎么看 索尼與TCL簽署意向備忘錄 網(wǎng)友:Sony變Tony了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版