<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      深度學習概覽:統計學視角

      0
      分享至

      A Brief Tour of Deep Learning from a Statistical Perspective

      深度學習概覽:統計學視角

      https://www.annualreviews.org/docserver/fulltext/statistics/10/1/annurev-statistics-032921-013738.pdf?expires=1766237847&id=id&accname=guest&checksum=81838A5A29F907040B16D76350C4555B


      關鍵詞:深度學習,神經網絡,模式識別,優化

      摘要

      我們揭示深度學習的統計學基礎,旨在促進深度學習與統計學界之間的對話。我們強調二者交叉領域的核心主題;概述關鍵神經網絡模型,包括前饋神經網絡、序列神經網絡及神經隱變量模型;并將這些思想追溯至其在概率論與統計學中的根源。此外,我們還指出深度學習中若干有望獲得統計學貢獻的研究方向。

      1. 引言近年來,被稱為深度學習(Deep Learning, DL)(Hinton & Salakhutdinov 2006;LeCun 等 2015;Schmidhuber 2015;Goodfellow 等 2016)的一系列技術,在計算機視覺(Krizhevsky 等 2012)、語音識別(Dahl 等 2012)以及自然語言處理(NLP)(Manning 2015)等領域的預測問題上取得了顯著進展。此類成功通常歸因于以下因素:具有數百萬參數的高度表達性模型、大規模標注數據集、可擴展的優化算法、支持自動微分的軟件以及硬件創新。然而,深度學習的諸多基礎與統計學中廣為人知的概念密切相關,例如對數似然函數、分層建模、潛變量及正則化方法。盡管存在這種概念上的重疊,統計學界與深度學習界仍相對割裂。其中一個原因可能是:統計思維在深度學習中的作用尚未得到廣泛承認或宣傳。工業界利益相關者往往更強調工程技術成就與技術進步,這可能使統計學者誤以為自身缺乏推動研究前沿所需的專業能力。此外,深度學習文獻承襲了其認知科學根源所遺留的術語(如“神經元”“激活函數”),并發展出自身特有的行話(如“注意力機制”)。這種缺乏共通語言的現狀,可能勸退那些雖有好奇心、卻試圖閱讀深度學習論文的統計學者。

      本文旨在通過揭示深度學習的統計學基礎,為兩大領域搭建溝通橋梁。具體目標有二:

      1. 以廣大具備統計學背景的讀者易于理解的方式,闡釋深度學習的概念、方法與研究趨勢;
      2. 識別深度學習中統計研究者可貢獻新理論、新模型與新方法的潛在研究方向。

      過去已有諸多文獻致力于建立此類聯系。例如:20世紀90年代至21世紀初,有若干論文聚焦于非深度神經網絡(NN)(White 1989;MacKay 1992;Cheng & Titterington 1994;Neal 1994;Ripley 1996;Stern 1996;Lee 2004);近期則有專門關聯深度學習的綜述(Mohamed 2015;Efron & Hastie 2016;Polson & Sokolov 2017;Yuan 等 2020;Bartlett 等 2021;Fan 等 2021)。盡管所有此類綜述(包括本文)不可避免地存在一定程度的內容重疊,但本文通過在廣度與深度之間取得平衡(即一次“簡明巡覽”),對現有文獻形成有益補充。鑒于深度學習領域工作極為龐雜,試圖進行全面綜述并不現實——例如,本文未涵蓋深度強化學習。希望深入了解深度學習的讀者,可進一步閱讀 Goodfellow 等(2016)或 Murphy(2022)等教科書。

      深度學習與統計學不僅在術語和方法論上不同,更重要的是在視角上存在差異。深度學習強調以數據驅動的預測準確性來驗證模型,而統計學則更注重模型的可解釋性和不確定性量化。這一區別并非新近提出:Breiman(2001)曾著名地論證過這一點,Welling(2015)為深度學習時代更新了該論點,Efro(2020)則提供了最新視角。在統計學背景下自然的問題,如漸近一致性或后驗集中性,在深度學習中則遠不那么相關(甚至可以說完全無關),因為深度學習模型通常擁有成千上萬、甚至數百萬個參數。本質上,深度學習者傾向于關注預測值 ?,而非參數估計值 θ?。

      深度學習之所以側重預測,至少部分可追溯至其模式識別的起源及對表征學習的強調:在高維輸入情形下,通常需將其轉換為有助于預測的(中間)表征(即特征)。例如,在圖像分類與語音識別領域,研究者長期采用兩階段流程構建分類器:首先人工設計有用的函數(如濾波器、模板)以從信號中提取特征;繼而基于預定義特征訓練分類模型。深度學習的一項重大貢獻在于,以端到端訓練的單一模型取代該兩階段流程——模型直接從原始信號(像素、音頻)出發,經由逐層變換得到中間表征,并最終映射至輸出。深度學習最顯著的成功案例,即出現在此類依賴特征提取的感知型低層信號(圖像、語音、文本)預測任務中。

      此外,“通過組合簡單構建模塊來構建模型”這一思想,在深度學習與統計學中均為基礎性概念,但兩領域對“組合性”(compositionality)的理解與實現路徑迥異。在統計學中,存在悠久傳統——將隨機變量作為基本構件,從而可構建似然函數以表征復雜的數據生成機制;實現組間與層級間統計信息共享;刻畫動態時序過程;或捕捉隨機效應與交互作用。相較之下,深度學習中盡管深度模型的輸入–輸出映射可具有概率含義,其內部構建模塊通常為確定性函數,并以分層方式組合,輔以卷積等運算操作。此類確定性兼具優勢與局限:一方面,它賦予建模者更大靈活性,免除了對分布假設的依賴;另一方面,則使不確定性量化更具挑戰性。值得注意的例外是深度潛變量模型(見第4節討論),其內部表征結合了隨機變量與確定性變換。

      兩領域在規模層面亦存在顯著差異:模型復雜度的規模、數據集的規模,以及計算的規模。對內部表征學習的需求,促使深度學習研究者采用包含海量可學習權重的復雜神經網絡架構;而此類復雜性又進一步催生了對更大規模數據集的需求。更多數據有助于學習更復雜(且潛在預測性能更優)的內部表征,因此當前圖像、語音與語言建模領域的前沿模型,往往需在數百萬至數十億數據點上進行訓練(Bommasani 等 2022)。相比之下,在諸多典型統計分析問題中(尤其如醫學等應用領域),如此規模的數據集常常完全不可得。此外,為應對模型與數據的極大尺度,深度學習還需依賴重大的工程進展:支持高層模型定義的自動微分技術、用于高效優化的隨機梯度方法,以及用于高效線性代數計算的圖形處理器(GPU)。這些技術對深度學習的實用性均起到了關鍵作用。

      1. 基于前饋架構的視覺模式識別

      人工神經網絡(NN)的早期發展深受認知神經科學及人類視覺感知思想的影響(McCulloch & Pitts, 1943)。到20世紀80年代末至90年代初,神經網絡轉向更具實用性的應用方向,其中手寫數字識別成為一項具有挑戰性的基準任務,并引發了美國郵政署的關注(LeCun 等, 1989)。進入21世紀后,進展一度放緩;但在2012年ImageNet基準競賽中,深度學習取得突破性實證成功(Krizhevsky 等, 2012),加之2010年代初期其他一系列實證成果,再度引發學界廣泛關注。自此,深度神經網絡(DNN)已成為眾多系統中的關鍵組成部分,廣泛應用于語言建模(Devlin 等, 2019)、自動駕駛(Grigorescu 等, 2020)、圍棋對弈(Silver 等, 2017)以及蛋白質折疊預測(Jumper 等, 2021)等問題中,從而鞏固了深度學習在過去十年中作為機器學習與人工智能領域核心方法論的主導地位。

      因此,我們從視覺模式識別入手展開討論,特別是將圖像分類為 K 個類別或類別的任務。我們假設最簡單的設定:每張圖像僅包含 K 個候選對象中的一個(且僅一個)。作為示例,我們采用著名的美國國家標準與技術研究院改進版(MNIST)圖像分類數據集(LeCun 等,1998)。該數據集常用于教學目的,因其規模較小,可在普通筆記本電腦上輕松完成模型的訓練與評估。每張 MNIST 圖像 x n
      的分辨率為 28 × 28 像素,可表示為一個二維矩陣,其中每個元素為一個像素值,其強度 x ∈ [ 0 , 1 ] 。圖 1a 展示了該數據集中每個數字類別的樣本圖像。標準數據集共包含 N = 70,000 張圖像–標簽對,通常劃分為 50,000 張訓練圖像和 10,000 張測試圖像,其中 10,000 張圖像用于超參數調優與驗證。


      2.1 前饋神經網絡








      我們可以將隱藏層 b 解釋為自適應的非線性基函數。這些允許模型自身將原始特征空間轉換為更適合分類任務的表示。這種內部表示學習的概念(Bengio et al. 2013a)可以說是NN成功的最重要特征。圖2b展示了在MNIST上訓練的四隱藏層NN的第一個隱藏層學習的特征。這種可視化類似于圖2a中的GLM。NN學習的是局部邊緣檢測器的特征,而不是GLM的全局模板。這使得模型能夠逐層構建特征層次結構。第二個隱藏層將這些特征組合起來,依此類推。這種行為使NN在低級原始信號上最有效,因為隱藏層可以逐漸將信息聚合到更高層次的抽象中,例如,在分類的背景下,學習在輸出層預測中有用的區分特征。


      2.2. 最大似然和隨機優化

      在定義了前饋NN之后,我們現在轉向模型擬合。DL模型通常使用最大似然估計進行訓練,通常對于分類問題,假設獨立同分布。對數似然可以寫成



      盡管有這種正則化,統計學家可能仍會擔心神經網絡(NNs)的過擬合問題,因為它們參數過多。在小數據集情境下,使用保留驗證數據集(或采用多折交叉驗證)是防止過擬合最有效的策略。例如,一個有用的策略是提前停止:當使用迭代優化過程訓練網絡時,我們持續訓練神經網絡,直到驗證集的準確率開始下降——這表明過擬合已經開始。然而,即使沒有大量保留數據可用,神經網絡仍可避免過擬合。這是因為,正如經典偏差-方差理論先前所暗示的那樣,過參數化對泛化能力的危害并不像人們想象的那么嚴重。我們在第5.1節中將對此進行更深入的討論,但即使在過參數化的線性模型中,也能觀察到良好的泛化能力(Hastie等,2022)。

      回到對數似然函數,最大化 ?(W?, ..., W?) 是一個非凸優化問題,由于不變性和不可識別性,其權重參數沒有唯一解。盡管面臨這些挑戰,基于梯度的相對簡單的方法仍是訓練神經網絡最廣泛使用且經驗上最成功的方法。梯度上升是一種一階迭代方法,用于最大化(或等價地,若在負目標函數上執行,則為梯度下降),它通過更新一組初始參數(隨機初始化)并朝著目標函數增長最快的方向邁出一步來實現。給定一個對數似然函數 ?,單個參數 w 從第 t 次迭代到第 t+1 次迭代的更新通過以下方式執行:


      其中 α 是一個標量學習率(即步長)。

      計算上述完整梯度需要對 N 個數據點中的每一個求梯度之和,對于包含數百萬高維數據點的訓練集而言,這可能代價高昂。然而,可以通過僅在數據的一個子集(可能非常小)上評估似然函數來獲得梯度的一個有噪聲的估計值。定義一個隨機小批量數據集 ? 為從完整觀測集中抽?。ɡ?,無放回抽樣)的 B 個數據點組成的子集。然后,我們可以使用小批量似然函數 ?? 代替完整梯度(基于全部 N 個數據點),執行隨機梯度下降(SGD)(Robbins & Monro 1951, Bottou 2010):


      該方法被稱為“隨機”方法,因為梯度估計現在是一個隨機變量。我們將導數乘以 N/B,以便使似然函數的尺度與完整數據集的情況相同,這也可以被視為對學習率 α 的一種調整。SGD 背后的關鍵思想是,當 B 遠小于 N 時,人們可以進行多次有噪聲(但計算成本更低)的參數更新,在每一步都沿著一個有噪聲的梯度方向移動,并且在實際運行時間上可能比使用完整梯度的步驟收斂得更快。

      圖3展示了使用100、10和1個數據點計算梯度更新所訓練的神經網絡的優化過程。雖然這三種變體從相同的對數似然值(y軸)開始,但對于1個和10個數據點的曲線,其作為優化算法所看到的總數據點數量(x軸)的函數,能夠更快地取得進展。盡管它們使用的是有噪聲的梯度估計,但估計中仍包含足夠的信號,使得計算上的收益超過了估計中的噪聲。在這種情況下,最終所有方法都收斂到大致相同的對數似然值(超過圖表右側邊界),盡管在其他情況下,不同的噪聲水平可能會引入不同的歸納偏差。


      雖然將一種粗糙的一階方法應用于深度網絡的訓練看似天真得毫無希望,但經驗上發現SGD是一種可靠的優化策略。事實上,深度學習(DL)的成功證明了SGD或許更令人驚訝的成功。在2012年之前,人們曾推測神經網絡的實用性會因其受SGD局限性的制約而受限(Cheng & Titterington 1994)。對于為什么隨機梯度下降有效及其作用機制的更全面理解,目前仍是活躍的研究領域,但初步證據表明,梯度估計中引入的噪聲實際上可能是有益的——例如,有助于逃離鞍點,而鞍點構成了神經網絡優化曲面上的大多數臨界點(Pascanu等,2014)。

      很自然會問,為什么深度學習依賴一階信息而非二階信息(即Hessian矩陣)。事實上,在神經網絡研究的早期,二階方法就曾受到關注(Parker 1987, Becker & LeCun 1989),并且當然在統計學中以Fisher評分的形式被廣泛應用。然而,現代神經網絡中龐大的參數數量使得計算和存儲所有二階導數變得不切實際。此外,條件矩陣通??赡苁瞧娈惖摹3鲇谶@些原因,一階隨機梯度方法,特別是其自適應變體,已成為訓練深度神經網絡(DNNs)的默認實用選擇(Duchi等,2011;Kingma & Ba 2014)。這類方法有多種不同的變體,但大多數通過存儲梯度的經驗矩(通常是第一階和第二階)并利用這些矩來調整下一步的更新。盡管SGD取得了成功,但優化神經網絡并非沒有障礙。為了進一步闡明優化機制,假設 w 是位于神經網絡某中間層的一個參數。通過鏈式法則展開似然函數關于 w 的導數,我們得到


      該導數是通過將信息從對數似然函數 ? 乘法式地向后傳遞,經過隱藏表示 b?,直至待更新的參數 w 而得到的。由于這一直觀認識——即信息在神經網絡中向后傳播——基于梯度的神經網絡優化方法被稱為“誤差反向傳播”(backpropagation of errors),或簡稱“反向傳播”(backprop)(Parker 1985, Le Cun 1986, Rumelhart等 1986)。隨著神經網絡變得越來越深[例如,He等(2016)訓練了具有1000多層的神經網絡],中間導數 ?b?/?b??? 保持良好條件至關重要。例如,如果僅有一個項趨近于零,則由于反向傳播的乘法構造,神經網絡中所有較淺層的參數都將接收到一個零梯度。這個特定問題被稱為“梯度消失”,它可能導致最理想情況下收斂緩慢。

      對于較大的值,也存在相反的問題,稱為“梯度爆炸”。

      回到我們對激活函數 σ(·) 的討論,邏輯函數曾是一種流行的選擇,但近年來已不再受青睞。要理解其原因,請注意邏輯函數的導數為 σ' = σ(1 - σ),因此當 σ ≈ 0 或 σ ≈ 1 時,梯度信號開始消失,這種效應被稱為飽和。像修正線性單元(ReLUs)這樣的修正型激活函數(Maas等 2013)在單個或兩個方向上都沒有有界范圍,從而避免了導致梯度消失的那種飽和現象。然而,僅改變激活函數通常不足以緩解優化中的病理問題。對隱藏單元或其預激活值進行歸一化也已成為常見做法(Ba等 2016, Salimans & Kingma 2016, Klambauer等 2017)。這種正則化的最流行實例被稱為“批量歸一化”(batch normalization)(Ioffe & Szegedy 2015)(簡稱 batch norm)。粗略地說,該方法將標準 z 變換 (a - μ?)/σ? 應用于每個內部層的預激活值 a,其中 μ? 和 σ? 是當前訓練批次在特定層上的經驗均值和標準差。

      2.3. 不確定性量化

      鑒于神經網絡中參數數量龐大,值得考慮如何量化和控制模型不確定性。到目前為止,在我們的討論中,我們關注的是諸如隨機梯度方法等框架,它們尋求參數的點估計——即,優化一個目標函數。一個顯而易見的替代方案是轉向貝葉斯方法,即對參數設置先驗分布,獲得后驗分布,并利用后驗預測分布進行預測


      其中 x* 是一個新觀測值,D 是訓練集。這是一種非常有吸引力的方法,用于解決因模型欠定而帶來的幾乎不可避免的模型不確定性問題。然而,貝葉斯方法在深度學習(DL)中的有效實現面臨兩個障礙(Izmailov等,2021)。第一個障礙是為權重設置有意義的先驗分布。鑒于權重缺乏可識別性,甚至缺乏語義解釋,很難設置一個超越簡單鼓勵稀疏性或收縮性的先驗。第二個主要障礙是,即使找到了一個好的先驗,對于任何實際規模的神經網絡,后驗推斷都是具有挑戰性的。變分方法可以擴展到相當大的神經網絡,但由于變分族通常被錯誤指定,因此存在固有的偏差。將馬爾可夫鏈蒙特卡洛(MCMC)方法擴展到大型深度網絡,目前仍是貝葉斯深度學習研究的一個活躍焦點(Izmailov等,2021)。

      基于頻率學派的推斷方法也可以應用。自助法(bootstrap)可能首先浮現在腦海中,但研究表明,簡單地訓練一組具有不同初始化的網絡,在不確定性量化方面比自助法更有效(Lakshminarayanan等,2017)。事后校準技術(Guo等,2017)也常用于糾正模型誤設。第三種有前景的方法是共形預測(Shafer & Vovk 2008, Angelopoulos等,2020),它提供了構建關于真實標簽(邊際)覆蓋率的無分布保證的工具。圖4通過一個一維回歸任務(在此背景下比分類更適合可視化)展示了這些推斷過程的一些情況。圖4比較了一個點估計的神經網絡(圖4a)與一個通過MCMC獲得后驗的貝葉斯神經網絡(圖4b)。圖中顯示了預測方差,正如預期的那樣,MCMC解在數據被觀測到的地方會縮小其不確定性,而在其他地方則會擴大不確定性。圖4c和圖4d展示了近似模型不確定性的常用策略。


      盡管并不完美,變分推斷(variational inference)與集成方法(ensembling)是目前為數不多能夠擴展到大型神經網絡的不確定性量化方法。

      2.4 卷積層及其他層類型

      為求簡潔,我們此前僅介紹了全連接(fully connected)的權重變換方式,用于計算每一層的隱藏激活。然而,不出所料,其他多種網絡架構也已被提出。其中尤為流行的一類是卷積層(convolutional layer):對于圖像形式的輸入,采用二維權重矩陣(稱為濾波器,filters),在輸入圖像上進行空間卷積操作,從而保證對輸入信號的平移不變性(translation invariance)。每個不同的隱藏單元各自擁有一個專屬的卷積濾波器——換言之,各自對應一種特征檢測器。

      卷積層廣泛用于目標檢測任務,尤其適用于假設目標可能出現在輸入圖像任意位置的情形。以 MNIST 數據集為例,其中所有數字均居中放置;即便如此,若數字可能出現在圖像的其他區域,那么采用卷積神經網絡(CNN)便是必不可少的。盡管在 MNIST 上,良好的性能并不嚴格依賴平移不變性,但使用卷積神經網絡仍可將測試錯誤率降至約 0.3%,相較之下,非卷積的前饋神經網絡約為 1%,而邏輯回歸廣義線性模型(logistic GLM)則高達約 7.6%。

      當然,其他類型的數據也需要采用不同的層結構設計。例如,我們可能希望將神經網絡應用于天文學中的某項任務:將星系分類為橢圓星系、旋渦星系和不規則星系等類型。由于空間中的天體并無天然的朝向,因此在此類任務中常采用旋轉等變神經網絡(rotationally equivariant NNs)(Cohen 等,2018)。再舉一例,對關系型數據建模時,使用圖神經網絡(graph NN)可顯著獲益(Wu 等,2020);該方法已被應用于諸多領域,包括量子化學(Gilmer 等,2017)、計算機程序合成(Allamanis 等,2017)以及蛋白質折疊(Jumper 等,2021)。

      3. 序列模型

      接下來,我們將注意力轉向用于序列數據的深度學習(DL)模型,這擴展了上一節中討論的前饋模型。我們主要關注對形如 y?, ..., y?, ..., y? 的類別序列進行建模,其中 t 可以表示相對位置或時間。每個 y? = (y??, ..., y?K) 是一個 K 維指示向量。從預測的角度來看,我們感興趣的是自回歸分解形式 p(y?, ..., y?) = Π???? p(y? | y <?),其中 p(y? | y<?) 是在位置 t 處、基于序列歷史 y<?="y?," ..., y??? 條件下的 k 個類別的分布。盡管下文的主要焦點是類別序列,但正如我們后文將討論的,序列深度模型的一般思想也適用于其他序列和時間序列建模問題。< pan>

      在機器學習中,類別序列建模的一個非常常見的應用是在自然語言處理(NLP)領域,其中類別代表字符或單詞。在此背景下,深度學習模型被稱為語言模型,近年來已徹底革新了 NLP 領域(Brown 等,2020;McClelland 等,2020)。常見的應用包括:根據前面的上下文 y <??? 預測下一個字符或單詞 y???;根據先前的上下文生成新文本 y'???, y'???, ...;對整段文本進行分類;或將一個句子從一種語言翻譯成另一種語言。盡管針對這些任務的深度學習方法在細節上有所不同,但它們有許多共同的特點。< pan>

      3.1 示例:在字符級別建模文本

      為了說明序列深度學習模型中的一些基本概念,我們首先聚焦于一個相對簡單的問題:學習一個能夠預測英文文本中下一個字符,并能根據部分序列生成新文本的神經網絡模型。對于這個問題,K 個類別對應小寫和大寫字母 a-z/A-Z、數字 0-9、標點符號以及各種其他符號,具體類別數通常在 K=50 到 100 之間,取決于特定模型詞匯表中包含的符號種類。3 作為下文討論中的運行示例,我們采用由知名統計學研究者撰寫的若干公開可用的 arXiv LaTeX 文件的合集作為文本來源,該數據集包含 96 個唯一字符,總長度超過 150,000 個字符。

      對這類數據建模的一種簡單的傳統方法是使用 m 階馬爾可夫模型,其參數數量為 O(K?),在 NLP 中被稱為 n-gram 模型,其中 n = m + 1。歷史上,這類 n-gram 模型的變體被廣泛用于文本建模(Halevy 等,2009),但在捕捉高階依賴關系方面顯然存在局限性。另一種選擇是使用狀態空間模型,可能配備一個實值的低維狀態變量 z?,其動力學為關于 t 的線性高斯函數,并與

      在每個位置 t 上從狀態空間到類別觀測的變換相耦合。然而,高斯動力學的參數化假設很可能缺乏足夠的靈活性,無法有效表示自然語言序列中出現的各類依賴關系。

      在這種背景下,深度學習的一項關鍵創新是循環神經網絡(RNN)[也稱為 Elman RNN (Elman 1990)] 的發展,它作為一種改進優于諸如 n-gram 這樣的觀測空間模型。RNN 建立在狀態空間模型的概念之上,標準 RNN 的狀態方程和觀測方程通常定義為


      其中,x? 是模型在位置 t 的輸入,在自回歸建模情境下,x? = y???(例如,前一個字符或單詞),而 z? ∈ ?? 是一個維度為 b × 1 的隱藏狀態向量。輸入 x? 和輸出 y??? 均為維度 K × 1 的指示向量;例如,對于上述 K=96 的字符數據集,每個向量中對應特定字符的分量值為 1,其余所有分量值為 0。一個標準慣例是將初始隱藏狀態向量 z? 定義為全零向量,因此序列的第一個 RNN 計算單元的輸入為 x? = y?,隱藏狀態向量為 z? = σ(Wx?),輸出為 p(y?|y?) = g?1(Az?)。

      該 RNN 模型的參數是維度分別為 b × K、K × b 和 b × b 的權重矩陣 W、A 和 H。類似于前饋網絡中的隱藏單元,σ(·) 是一個非線性遞歸激活函數(例如,logistic 或 ReLU),它賦予模型非線性動力學特性,而 g?1 是一個輸出鏈接函數,它將隱藏(確定性)狀態 z? 的線性變換映射到輸出域(通常是一個多項式 logit,與具有類別輸出的前饋模型相同)。更一般地,對于實值觀測,g?1 可以映射到某個參數形式 p 的 p(y? | y <?) 的均值,并附加一個噪聲項 v?,這類似于標準的狀態空間建模方法。< pan>

      圖5a 提供了在位置 t 處 RNN 狀態方程和觀測方程的可視化表示。RNN 與第2節中的前饋模型有一些相似之處,但關鍵區別在于,隱藏變量 z? 現在既是當前輸入 x? 的函數,也是來自前一位置的隱藏狀態變量 z??? 的函數,從而基于序列的歷史以遞歸方式為當前預測提供上下文。通過在每個輸入和輸出之間垂直堆疊額外的隱藏遞歸層,可以創建圖5a 中簡單 RNN 單元的深層版本。


      圖5b 展示了一個應用于我們字符建模問題的 RNN 示例。具體而言,對于部分序列 “pred”,我們看到在每個位置,模型結合了來自前一位置的隱藏狀態和觀測字符,以生成當前隱藏狀態,進而產生模型輸出。觀測數據(在此例中,是單詞 “predict” 的一個子序列)顯示在頂部,表示模型的真實目標輸出。參數(權重矩陣)θ = W, A, H 在模型的不同位置 t 上共享。該模型的個體權重數量按 O(Kb + b2) 的規模增長,避免了諸如 n-gram 等觀測層面模型的 O(K?) 參數爆炸問題——當類別數 K 很大時(例如,詞級語言模型中 K ≈ O(10?)),即使 n 相對較小,這類模型也會變得不切實際。

      一旦我們知道了 RNN 模型的參數,就可以以生成式自回歸的方式使用它來模擬序列:在每個時間步 t,從當前條件分布中采樣一個輸出 y'?,然后將其作為位置 t+1 的輸入,與 z? 結合以生成下一個隱藏狀態向量 z???,再從 t+1 時刻的新條件輸出分布中采樣 y'???,依此類推。觀測層面的動力學 p?(y??? | y?, z?) 并不是關于 t 的齊次函數,而是歷史(由 z? 總結)的函數,這與(例如)固定階馬爾可夫模型不同。

      3.2 估計循環神經網絡的參數

      圖5b 中 RNN 模型的未知參數 W、A 和 H 的學習方式與深度學習前饋模型中類別輸出的學習方式類似,即通過最大化一個類別條件對數似然:


      該求和通常針對多個序列(例如,多個句子)進行,其中每個序列被視為條件獨立于其他序列——此處為簡化起見,我們將對數似然寫作一個長度為 T 的單一序列。與訓練前饋模型類似,正則化項通常也會被添加到對數似然中。在深度學習中,鑒于 RNN 模型通常包含大量參數,使用一階梯度方法來訓練序列深度模型也是一種常見做法。由于在許多自然語言處理應用中,模型是在海量文本數據上進行訓練的——例如,整個維基百科或大規模公共網頁爬取數據——這導致在模型訓練過程中會使用數十億個詞,因此使用小批量的隨機梯度下降(SGD)同樣被廣泛采用。

      從圖5b 我們可以看到,原則上,對數似然相關的梯度(每個參數)可以通過將相關信息從后續預測反向傳播(即“隨時間反向傳播”)至模型的早期部分來計算(例如,參見 Jurafsky & Martin 2022, 第9章)。在實踐中,為了使這種方法切實可行,長文本序列通常會被劃分為多個較短的片段。然而,與前饋模型一樣,在基于梯度的 RNN 模型訓練中也可能出現顯著的數值問題(例如,不穩定的梯度)。這促使了改進的 RNN 計算單元的發展,這些單元能對信息沿隱藏單元鏈傳遞的方式施加更直接的控制。例如,Hochreiter & Schmidhuber (1997b) 通過引入更復雜的RNN 計算單元提出了長短期記憶(LSTM)單元,該單元可以控制或門控信息向前和向后傳遞的數量(與圖5a 中所示的標準單元相比)。除了改善 RNN 的優化特性外,LSTMs 還能提高隱藏狀態表示過去序列信息的有效性。目前,深度學習中大多數現代 RNN 應用都使用 LSTM 單元或類似的門控信息思想(Cho 等,2014)。

      為了說明這些概念,我們使用之前描述的 LaTeX 文本擬合了一個 RNN,該文本包含 K=96 個唯一字符和一個長度為 152,499 個字符的文本序列,隱藏層維度 b=128,并使用 SGD 優化條件對數似然。圖6 展示了該模型在不同歷史子序列條件下生成的條件分布的示例 [即預測]。隨著序列歷史的推進,RNN 能夠捕捉到預測不確定性,從單詞 “prediction” 開始時的高不確定性,逐漸過渡到末尾的低不確定性。


      我們也可以以生成式方式從該模型中模擬字符序列,例如:


      我們看到,雖然訓練好的 RNN 已經捕捉到了字符依賴性的許多局部特征(包括一些 LaTeX 語法),但生成的較長文本缺乏句法和語義連貫性,讀者無需擔心 RNNs 很快就能撰寫統計學論文。然而,隨著更多訓練數據的使用以及超越相對簡單的 RNN 的更先進模型的出現,現代深度語言模型現在已能夠生成令人驚訝地連貫的文本(Brown 等,2020)。

      3.3 循環神經網絡概念的推廣

      上述基本的 RNN 模型可以通過多種方式進行擴展和泛化。其中一種變體是輸入序列 x 和輸出序列 y 之間存在一對一對應關系,但它們來自不同的詞匯表。例如,在自然語言處理(NLP)中,輸入是一個詞序列,而輸出序列則對應于每個詞的預測詞性(名詞、動詞、形容詞等)。另一個常見的 NLP 任務是構建一個模型,為整個序列 x?, ..., x? 分配一個類別標簽 y,其中訓練數據由(序列,標簽)對組成,例如,為一篇評論分配正面、中性或負面標簽 [即情感分析問題 (Wang 等,2018)]。一個更具挑戰性的 NLP 任務涉及將

      一個序列映射到另一個序列,其中兩個序列的長度可以不同 [也稱為序列轉導 (sequence transduction) (Graves 2012)]。這類序列映射問題正是諸如機器翻譯(將一種語言中的句子映射到另一種語言中的句子)或自動化聊天機器人(在對話中根據人類生成的句子生成回應句)等問題的核心。針對此類問題的一種著名深度學習方法是使用兩個耦合的 RNN [即序列到序列(seq-to-seq)方法 (Sutskever 等,2014)],其中一個 RNN(編碼器)在 RNN 鏈末端生成第一個序列的隱藏表示 z,第二個 RNN(解碼器)則以該編碼后的表示 z 作為輸入,并生成第二個(輸出)序列。盡管上述各種模型的建模細節有所不同,但這些模型的訓練過程在很大程度上與前文所述的標準自回歸 RNN 類似:使用隨機梯度方法最小化負對數似然(或其某種正則化變體),同時需密切關注與序列長度和梯度消失相關的計算及數值問題。

      像 RNNs 這樣的執行序列處理的模型,在記憶相關信息方面(例如,跨多個句子)可能會遇到困難??紤]對文本 “Rose lives in the Netherlands... She enjoys speaking [X],” 進行建模,其中 [X] 是待預測的詞?!癗etherlands” 是預測下一個詞(即她講荷蘭語)的一個強線索,但對于一個模型而言,要檢索該信息可能很困難,這取決于“...”部分序列包含多少內容。注意力(attention)的概念 (Bahdanau 等,2015) 旨在通過允許神經網絡直接訪問先前時間步的信息來打破這種依賴。然而,僅靠注意力本身并不一定能打破 RNN 計算的序列性質。為了實現并行化計算,Vaswani 等 (2017) 引入了 Transformer 模型。其核心思想是使用掩碼——指示變量,允許某些輸入被納入計算,而其他輸入則不被納入——從而保留自回歸結構。如物體識別所描述的常規架構設計決策同樣適用,因為人們必須選擇例如序列順序、層數、層寬度等。

      雖然 RNNs 和基于注意力的模型主要針對文本等類別序列開發,但這些模型背后的基本概念適用于更廣泛的涉及序列和時間的預測問題。例如,RNNs 已被調整用于開發統計學家熟悉的模型,如時間序列預測 (Wang 等,2019b;Hewamalage 等,2021;Lim & Zohren 2021)、連續時間點過程 (Mei & Eisner 2017;Chen 等,2020) 以及生存分析 (Ranganath 等,2016;Wang 等,2019a)。此外,還有一系列不斷增長的研究工作,致力于彌合 RNNs 與更傳統的統計模型之間的差距,例如隨機 RNNs (Krishnan 等,2017)、深度狀態空間模型 (Rangapuram 等,2018) 以及貝葉斯 RNNs (McDermott & Wikle 2019),以及使用由神經網絡參數化的常微分方程模型來處理連續時間和不規則采樣時間序列的方法 (Chen 等,2018)。在這些領域,深度學習模型的發展尚未看到伴隨文本數據 DL 模型發展而出現的那種預測性能上的顯著提升,部分原因是許多典型應用領域(如醫學、經濟學和氣候學)無法獲得用于構建深度學習模型的海量數據。

      4. 潛變量模型與圖像生成

      到目前為止,我們的重點一直放在監督學習上。但自神經網絡研究早期以來,無監督學習就一直備受關注,其動機主要源于人工智能和認知科學領域的思想。例如,神經網絡能否模仿人類從周圍世界的感知信號(如音頻、視覺)中學習結構的能力?作為一個具體例子,請看圖7a中顯示的數字圖像。這些圖像看起來像MNIST數據集中的圖像嗎?(可參考圖1a)。盡管它們在視覺上與MNIST相似,但它們并非來自該數據集,而是由一個擬合了MNIST數據的神經網絡生成的樣本。

      接下來請看圖7b。這些圖像并非真實人物的照片。相反,這些圖像也是由一個神經網絡生成的,該網絡是在一個名為CelebA的名人圖像數據集上訓練的。這些都是深度學習中所謂的“生成式建?!钡陌咐浩渲饕繕耸巧尚路f的樣本,這些樣本在外觀上應足以令人信服地成為訓練集的一部分。該任務類似于(非參數)密度估計,我們希望盡可能忠實地捕捉真實的分布 P(x)。正如我們將看到的,對于這類模型中的一些,我們確實可以訪問一個密度估計器;而對于另一些,則無法訪問。然而,通常更強調的是從模型中抽取樣本的質量,因為密度估計和樣本質量并不總是相關聯(Theis等,2016)。

      基于無監督學習的模型應用范圍廣泛,從降維到數據合成不等,盡管該領域內的許多興奮點源于構建智能系統的愿望。其直覺是,如果我們的模型能夠完美地捕捉訓練分布,那么它們必然理解了數據。相比之下,僅執行判別功能(例如分類器)的模型則在執行一項較簡單的認知任務——就像識別高質量藝術作品比創作它更容易一樣。雖然統計學領域也試圖構建能盡可能高保真度表示數據的模型,但一個主要區別在于,這些神經生成模型是建立在完全“數據不可知”(data agnostic)的基礎上的。很少(甚至沒有)會做出專門定制的建模決策,而是設計基于神經網絡的模型,使其能力盡可能強大和豐富,以適應計算能力的限制。

      4.1 基于自編碼器的降維

      為引入這一類模型,我們考慮降維(dimensionality reduction)任務:即希望學習數據的一種新表示,以去除噪聲及其他無關信息。主成分分析(PCA)、流形學習(manifold learning)和聚類等,都是此類任務中廣為人知且已被深入研究的方法。正如第2節中所討論的,深度神經網絡(DNNs)本質上也通過其隱藏層的學習過程完成降維。但在此情境下,降維是針對監督信號(例如類別標簽)進行的,其目標是保留對預測有用的信息,而非對數據本身作一般性概括。

      自編碼器(autoencoder, AE),亦稱“迪亞波羅網絡”(diablo network)或“自聯想器”(auto-associator)(Bourlard & Kamp 1988;Baldi & Hornik 1989;Cottrell 1989;Hinton & Salakhutdinov 2006),是為無監督學習與降維設計的最簡單神經網絡架構。自編碼器的目標是:從對原始數據的一種有損表示出發,重建出原始數據本身。具體而言,該模型以一個觀測值 x 為輸入,計算至少一個隱藏層 h,再嘗試僅根據 h 重構出原始觀測 x。

      含多個隱藏層的自編碼器可形式化定義如下:


      其中,x? 是輸入 x 的預測重構結果。g?1 再次是一個鏈接函數,用于將輸出映射到數據的定義域。W、b 和 σ 的定義與前饋神經網絡中的相同。自編碼器通過最小化 x 與 x? 之間的一個適當重構損失(例如,||x - x?||)來擬合參數 W?, ..., W?。一個簡單的單隱藏層自編碼器的示意圖可見于圖8a。


      盡管自編碼器缺乏概率解釋,但可以通過注意到在特定條件下它們等價于主成分分析(PCA)來為其提供理論基礎(Baldi & Hornik 1989)。當滿足以下條件時:(a) 重構誤差為平方損失,(b) σ 是恒等函數,且 (c) 只有一個隱藏層,并且權重矩陣滿足 W? = W??——即權重矩陣被綁定在一起——此時,自編碼器執行的就是 PCA。在這種受限情況下,隱藏單元的數量作為信息瓶頸的角色是明確的:它對應于相應 PCA 中所使用的特征向量數量。

      4.2 用于生成式建模的概率自編碼器

      如果自編碼器(AE)能被賦予概率解釋,那么它將既能執行降維,又能生成樣本。后者對于合成數據以及向用戶說明信息損失程度而言非常有用。一種為自編碼器提供概率化表述的簡單變體是去噪自編碼器(denoising autoencoder, DAE)(Vincent 等,2008, 2010)。與直接將 x 輸入第一層不同,DAE 的輸入是 x 的一個擾動版本:x' ~ P(x'|x),其中 P(x'|x) 是噪聲模型。高斯噪聲就是一個例子:x' ~ N(x, Σ)。Bengio 等(2013b)表明,DAE 可以被解釋為一個轉移算子,它生成一個遍歷性的馬爾可夫鏈,該鏈的漸近分布即為數據生成分布 P(x)。Vincent (2011) 還通過分數匹配(score matching)提供了另一種概率解釋。

      更直接的概率解釋可以通過將類似自編碼器的架構視為潛變量模型來獲得。這一方向上最早的工作是密度網絡(density network)(MacKay & Gibbs 1999),可以將其視為一種非線性因子分析,其中神經網絡作為非線性部分(McDonald 1962; Yalcin & Amemiya 2001)。MacKay & Gibbs (1999) 定義了一個潛變量 z,并假設數據由一個由神經網絡參數化的條件分布生成:

      其中 p(z) 表示潛變量的先驗分布。一個具有 L 層參數 W = {W?, ..., W?} 的神經網絡以 z 為輸入,輸出條件分布的均值。MacKay & Gibbs (1999) 使用重要性抽樣(importance sampling)來估計邊際似然 p(x; W) = ∫zp(x|z; W)p(z)dz,并以此目標擬合神經網絡權重。

      然而,MacKay & Gibbs (1999) 的方法無法擴展到大型神經網絡。這類模型一度失寵,直到 Kingma & Welling (2014) 和 Rezende 等 (2014) 注意到,神經網絡也可用于對潛變量進行推斷,并且整個架構可以通過端到端微分進行訓練。這一洞見催生了一種統一的模型,稱為變分自編碼器(variational autoencoder, VAE)。其核心思想是定義一個推斷網絡,以形成后驗近似:

      其中 φ(x) 是后驗近似的參數(作為給定 x 的函數),U?, ..., U? 是推斷神經網絡的參數。兩個網絡(生成網絡和推斷網絡)均可使用重參數化隨機證據下界(reparameterized stochastic evidence lower bound)同時進行訓練:


      其中,s 索引蒙特卡洛期望中的樣本,KLD[q(z; φ)||p(z)] 表示近似后驗分布與先驗分布之間的 Kullback-Leibler 散度。最關鍵的是,r(ε; φ(x)) 代表一種重參數化方法,它允許我們通過一個固定的分布 q(ε) 從 q(z; φ(x)) 中抽取樣本。此類函數的一個例子是正態分布的位置-尺度形式:? = r(ê; μφ(x), σφ(x)) = μφ(x) + σφ(x) ⊙ ê,其中 ê ~ N(0, 1)。另一個例子是使用 q(z) 的累積分布函數(CDF)進行逆變換抽樣。以這種方式表示隨機變量 z 使得端到端微分成為可能,因為我們現在可以訪問關于推斷網絡參數的偏導數:??/?U? = (??/?φ)(?φ/?b'?)...(?b'?/?U?)。圖8b 展示了 VAE 的結構圖,其中推斷網絡和生成網絡通過 r(ê; φ(x)) 組合在一起。當將推斷過程和生成過程視為一個統一的計算管道時,所得到的結構類似于傳統的自編碼器(AE),這也是 VAE 得名的原因。VAE 是最早展示出能夠生成高保真樣本能力的現代生成模型之一,如圖7a 所示。VAE 也可以執行密度估計,但僅能通過蒙特卡洛積分實現近似。


      4.3 其他類型的神經生成模型

      目前已發展出多種其他深度生成模型,我們在此簡要概述其中幾類。

      其中最受歡迎的一種是生成對抗網絡(Generative Adversarial Network, GAN)(Goodfellow 等,2014)。

      GANs 將密度建模任務重新表述為一個對抗性博弈,其中生成器神經網絡(generator NN)試圖模擬數據,使得判別器神經網絡(discriminator NN)無法區分生成的樣本與真實觀測樣本。其基本假設是:如果判別器無法區分兩者,則生成器必定是一個良好的數據模型。該概念在精神上類似于近似貝葉斯計算(ABC)(Rubin 1984),后者通過某種統計量或度量將模擬數據與觀測數據進行比較,并保留那些生成模擬的參數——前提是該統計量在某個閾值之內。在 GANs 中,判別器充當了比較虛假數據與真實數據的度量工具。ABC 與 GANs 的主要區別在于,GANs 是通過對對抗過程進行微分訓練的,將其視為一個優化目標。Mohamed & Lakshminarayanan (2017) 從一個廣義框架的角度討論了 GANs,展示了各種適當的評分規則可導致有效的判別器。GAN 框架也可用于模型參數的近似推斷(Mescheder 等,2017;Tran 等,2017),盡管由于 GANs 無法提供密度估計,使其用于推斷變得困難。



      5. 深度學習研究前沿的若干選題

      以上綜述涵蓋了深度學習(DL)中一些較為成熟確立的方面。在本文的最后一節中,我們將討論深度學習中若干涉及開放性研究問題的課題,這些課題可能對統計學者尤為相關。

      5.1 深度學習理論

      嘗試從理論上刻畫深度神經網絡(DNNs)的工作,主要聚焦于以下三個方面:其表達能力(expressive power)、優化景觀(optimization landscape)的特性,以及其對未見數據的泛化能力(generalization ability)。

      關于表達能力,Cybenko(1989)曾證明:采用S型(sigmoidal)激活函數的網絡架構具有萬能近似(universal approximation)性質。然而,這類近似結果可能要求神經網絡擁有指數級數量的隱藏單元;近年來,研究者們正嘗試刻畫實現特定近似精度所需的深度(Yarotsky, 2017)與寬度(Lu 等,2017)。此外,還有平行方向的研究致力于理解深層網絡與淺層網絡所能表示的函數類之間的差異。例如,Baldi & Vershynin(2019)與 Eldan & Shamir(2016)等人的結果表明:相較于淺層網絡,深層網絡所能表示的函數總量可能更少,但其函數結構更復雜、更“高級”。

      盡管DNNs作為萬能近似器的性質早已被證實,但該結論并不保證通過隨機梯度下降(SGD)這一優化方法所能實際到達的函數類別。因此,對DNN優化景觀的研究引起了廣泛興趣。多年來,人們曾擔憂神經網絡優化會不可避免地陷入大量局部極小值(Cheng & Titterington, 1994)。然而,隨著近期研究提出一種觀點——即損失曲面的臨界點主要由鞍點(saddle points)而非局部極小值構成(Dauphin 等,2014;Kawaguchi, 2016)——這一擔憂在一定程度上得以緩解。其直覺依據在于:要構成一個真正的局部極小值,優化曲面需在所有維度上同時上升,這在高維空間中極不可能;相比之下,鞍點則更為常見。因此,如何高效逃離鞍點成為研究重點(Jin 等,2017)。

      除對臨界點進行分類外,極小值本身的性質也備受關注——尤其是極小值是平坦寬闊型(wide and flat)還是陡峭狹窄型(narrow and sharp)(Hochreiter & Schmidhuber, 1997a;Keskar 等,2017)。其背后直覺是:平坦極小值區域對應著一大片在性能上近似等價的參數集合,因此更可能對新數據具有良好泛化能力。

      最后,理解DNN泛化性能之“謎”仍是當前極為活躍的研究課題:盡管DNN作為模型具有強大表達能力,并可通過優化擬合復雜函數,但它們如何避免過擬合?傳統通過參數數量計數(如信息準則)來衡量模型復雜度的方法,在判斷神經網絡是否過擬合訓練集時明顯失效。事實上,經典的偏差–方差權衡在神經網絡中已被證實不再成立。最新研究表明,存在一種雙下降(double descent)曲線現象:考慮將一個深度網絡的泛化誤差(測試誤差)繪制成模型復雜度(例如參數總數)的函數。當模型復雜度增加時(x軸),泛化誤差(y軸)起初呈現預期的偏差–方差U形曲線(欠擬合→最佳擬合→過擬合)。然而,一旦模型復雜度達到足以完全插值(interpolate)訓練數據的程度(即訓練誤差為零),泛化誤差反而可能再次下降(故稱“雙下降”),并可降至最低點——此時最優模型(按泛化誤差衡量)的參數數量遠超訓練樣本數。

      此類現象過去在過參數化模型中已有觀察(Duin, 2000);當前,“雙下降”已成為深度學習領域一個極為活躍的研究方向(Belkin 等,2020;Nakkiran 等,2021;Viering & Loog, 2021)。盡管如此,理論進展(毫不意外地)仍主要集中于更簡單的非神經模型上(Hastie 等,2022;Bartlett 等,2020;Mei & Montanari, 2022)。

      5.2 可解釋性、因果性、公平性與可信性

      深度神經網絡(DNNs)常被批評是“黑箱”(black boxes)。典型DNN的復雜性使得人們難以理解其預測機制、難以判斷其在何時或為何表現不佳,以及難以厘清模型所隱含的假設(Lipton, 2018)。近期關于可解釋性(interpretability)的研究(Doshi-Velez & Kim, 2017;Guidotti 等, 2018)大體可歸為三個主要方向:

      1. 開發理解既有架構的方法
      2. 設計結構上更易解釋的模型
      3. 設計探究影響模型擬合之數據模式的方法

      作為第一類的例證,可通過考察神經網絡輸出對其輸入特征的梯度,來理解各特征對預測的重要性(Simonyan 等, 2014)。第二類的一個例子是,用決策樹近似神經網絡所編碼的知識,以期同時獲得前者的預測能力與后者的可解釋性(Letham 等, 2015)。第三類中,Aamodt & Plaza(1994)與 Kim 等(2016)利用統計工具開展模型批評(model criticism),以發現未被典型樣例解釋的數據模式,從而揭示輸入空間中缺乏良好解釋的區域。

      與可解釋性密切相關的是因果推斷(causal inference)(Pearl, 2009)。由于因果推斷依賴于靈活的函數逼近能力,深度學習為現有半參數推斷框架提供了極具吸引力的工具箱。例如,在潛在結果(potential outcomes)框架下,Shi 等(2019)提出一種用于估計處理效應(treatment effects)的神經網絡;在結構方程框架下,Xia 等(2021)提出了基于神經網絡的結構因果模型。展望未來,Sch?lkopf 等(2021)強調了若干發展方向,包括利用神經網絡的表示學習能力,從低層次觀測中識別高層次因果變量。

      深度學習模型的公平性(fairness)也引發廣泛關注,其目標在于確保決策過程中的非歧視性、正當程序與可理解性(Zemel 等, 2013;Mehrabi 等, 2021)。政策制定者、監管機構與權益倡導者已對機器學習可能帶來的歧視性影響表達了擔憂,并呼吁加強技術研究,以防范在自動化決策中無意嵌入偏見。近期工作傾向于在因果推斷框架下形式化公平性問題(Kusner 等, 2017):例如,將模型公平性評估轉化為對反事實的推理——如若被預測個體的種族或性別不同,分類器的預測結果會如何變化?

      對深度學習尤為相關的是偏差(bias)問題,即因某些人口群體在訓練數據中代表性不足,導致模型預測出現系統性差異。鑒于圖像與文本領域的深度學習模型通?;跀蛋偃f甚至數十億樣本訓練,此類偏差可能隱含于數據集中,難以察覺與消除,由此催生了對深度學習去偏方法(debiasing methodologies)的近期研究興趣(Savani 等, 2020)。此外,差分隱私(differential privacy)(Dwork, 2011)與差分公平性(differential fairness)(Foulds 等, 2020)的概念亦具相關性——二者分別旨在約束單個數據點或特征對模型擬合結果的影響上限。

      由于DNN絕大多數用于參數化條件分布,人們更深切擔憂的是:模型是否僅接收“適當”的輸入——即與原始訓練集同分布的輸入。自1990年代初起,神經網絡的驗證(verification,亦稱 validation)已受到關注(Bishop, 1994);該問題的主流方法多采用可滿足性(satisfiability)視角(Zakrzewski, 2001),以證明DNN的誤差是有界的。另一類方法則致力于在輸入特征空間的特定區域內,為模型的魯棒性(robustness)——通常表現為類別預測的不變性——提供理論保證(Wong & Kolter, 2018;Zhang 等, 2019)。此類工作對抵御對抗樣本(adversarial examples)尤為關鍵:對抗樣本指人為設計的、微?。ǔ2豢刹煊X)的輸入擾動,其意圖是導致模型做出錯誤預測(Goodfellow 等, 2015)。

      另一個流行趨勢是:向模型暴露與訓練集差異顯著的樣本,并優化模型,使其在此類樣本上的預測分布具有高熵(即高度不確定性),以此增強模型對外分布(out-of-distribution)輸入的識別能力(Malinin & Gales, 2018;Hafner 等, 2019;Hendrycks 等, 2019)。

      5.3 層級建模與元學習

      如同在統計學中(例如貝葉斯層級建模),發展層級建??蚣?/strong>(hierarchical modeling frameworks)——即允許跨數據集與子任務共享知識與統計信息強度的框架——也是深度學習(DL)中一個活躍的研究方向。鑒于神經網絡本質上只是非線性函數,它們可通過如下方式被整合進貝葉斯層級建模:用神經網絡將某一層次的隨機變量參數化為更高層次隨機變量的函數。我們在第4.2節中討論的變分自編碼器(VAE)或許是這一思想最簡單的實例。Johnson 等(2016)進一步拓展了該思路,使得可利用一般圖結構來定義潛變量。

      深度學習中的元學習(meta-learning)(Finn, 2018)與學會學習(learning to learn)(Heskes, 2000;Andrychowicz 等, 2016)概念,雖與統計學中的層級建模聯系尚不夠嚴格,但仍具有相似之處。以其中一種變體為例:情景式元學習(episodic meta-learning)(Lake 等, 2015;Santoro 等, 2016;Finn 等, 2017;Ravi & Larochelle, 2017),其目標是定義并估計一類模型,使其能泛化到多個任務上——包括數據極少的任務,或不同于訓練任務(但仍存在某些概念重疊)的新任務。元學習方法通常采用任務特異性模型,而這些專用模型通過某種參數綁定機制實現跨任務的信息共享。生成此類任務特異性模型的一種途徑是使用超網絡(hypernetwork)(Ha 等, 2017):即一個神經網絡,其輸出是另一個神經網絡的參數。

      6. 結論

      在對深度學習的簡要巡覽中,我們介紹了前饋、序列與無監督架構的基礎知識。盡管具體技術細節必將隨時間演進,但只要預測是核心任務、且需借助多層次表示從數據中提取信號,深度學習就將持續蓬勃發展。

      盡管已取得巨大成功,深度學習仍需進一步創新,以滿足現代應用場景對可解釋性、不確定性量化、可靠性與安全性等方面的嚴苛要求。從自動駕駛、金融到醫療健康,統計學中那些經受檢驗的方法——如模型驗證與模型批評——在確保深度學習模型可信部署過程中,很可能發揮關鍵作用。

      鑒于深度學習在模型規模與數據規模上已達到統計學尚未普遍應對的新高度,統計學界正迎來一個自我豐富與拓展的契機——通過直面這些新興挑戰,推動學科前沿發展。我們希望本文能促進相關討論,在統計學、數據科學與深度學習的交叉地帶催生新的創新。

      原文: https://www.annualreviews.org/docserver/fulltext/statistics/10/1/annurev-statistics-032921-013738.pdf?expires=1766237847&id=id&accname=guest&checksum=81838A5A29F907040B16D76350C4555B

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1月27日北京&東方衛視放大招!8部大劇任你挑

      1月27日北京&東方衛視放大招!8部大劇任你挑

      情感大頭說說
      2026-01-28 03:12:32
      美企CEO:如果東方大國突破了先進光刻機,對我們就是致命一擊!

      美企CEO:如果東方大國突破了先進光刻機,對我們就是致命一擊!

      達文西看世界
      2026-01-27 16:00:39
      ICE指揮官被撤職,“黨衛軍”暫時偃旗息鼓?

      ICE指揮官被撤職,“黨衛軍”暫時偃旗息鼓?

      勝研集
      2026-01-27 12:59:03
      8000萬少一分不賣!英超球隊想報價20歲射手,國米設置護城河

      8000萬少一分不賣!英超球隊想報價20歲射手,國米設置護城河

      里芃芃體育
      2026-01-27 12:00:07
      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      苗苗情感說
      2026-01-27 01:34:47
      她14歲已是“人間尤物”,被首富看中花10億娶回家,8年生了四胎

      她14歲已是“人間尤物”,被首富看中花10億娶回家,8年生了四胎

      LULU生活家
      2026-01-16 18:50:49
      21歲白血病女生尋親新進展:已轉運至蘇州治療,有人主動認親核對時間后表示年份不符

      21歲白血病女生尋親新進展:已轉運至蘇州治療,有人主動認親核對時間后表示年份不符

      瀟湘晨報
      2026-01-27 11:47:28
      1939年,外蒙古處決了6.8萬名喇嘛,背后是有何隱情嗎?

      1939年,外蒙古處決了6.8萬名喇嘛,背后是有何隱情嗎?

      深度報
      2025-12-12 22:43:56
      馬筱梅親媽來北京幫帶孩子,馬媽媽稱:暖氣太熱,晚上都把暖氣關

      馬筱梅親媽來北京幫帶孩子,馬媽媽稱:暖氣太熱,晚上都把暖氣關

      天啟大世界
      2026-01-28 03:52:52
      中超轉會新消息:泰山、蓉城各添1名猛將,申花隊放棄2000萬國腳

      中超轉會新消息:泰山、蓉城各添1名猛將,申花隊放棄2000萬國腳

      何老師呀
      2026-01-27 22:54:17
      12歲玥兒穿價值7000元外套,很貴氣!越長越像大S

      12歲玥兒穿價值7000元外套,很貴氣!越長越像大S

      大眼妹妹
      2026-01-27 08:40:10
      想跑沒門!新疆富豪夫婦套現7億,沒等錢到賬,老板娘先被帶走了

      想跑沒門!新疆富豪夫婦套現7億,沒等錢到賬,老板娘先被帶走了

      陳博世財經
      2026-01-27 17:04:14
      藥師提醒:銀杏葉片、血塞通、復方丹參片,心腦血管用藥別再選錯

      藥師提醒:銀杏葉片、血塞通、復方丹參片,心腦血管用藥別再選錯

      蜉蝣說
      2026-01-17 18:36:03
      中央和國家機關黨的工作暨紀檢工作會議在京召開

      中央和國家機關黨的工作暨紀檢工作會議在京召開

      農民日報
      2026-01-27 20:56:03
      狂飆1034.71%!國產半導體最大贏家現身

      狂飆1034.71%!國產半導體最大贏家現身

      半導體產業縱橫
      2026-01-27 18:26:51
      Dior紅毯太真實!劉嘉玲臉好腫,溫碧霞戴假發片老氣,王玉雯贏麻

      Dior紅毯太真實!劉嘉玲臉好腫,溫碧霞戴假發片老氣,王玉雯贏麻

      洲洲影視娛評
      2026-01-27 12:08:04
      委內瑞拉變局:特朗普昔日“傀儡”為何反水?

      委內瑞拉變局:特朗普昔日“傀儡”為何反水?

      冒泡泡的魚兒
      2026-01-28 03:51:45
      楊鳴被曝離任不到24小時,令人擔心的事發生,烏戈、郭士強被牽連

      楊鳴被曝離任不到24小時,令人擔心的事發生,烏戈、郭士強被牽連

      不寫散文詩
      2026-01-27 15:17:57
      楊廣荒唐到什么程度?在皇宮內立下奇葩規矩,讓妃子宮女十分難堪

      楊廣荒唐到什么程度?在皇宮內立下奇葩規矩,讓妃子宮女十分難堪

      銘記歷史呀
      2026-01-06 01:08:47
      警惕!當白銀、銅都和黃金一起講故事,你的財富可能正被悄悄轉移

      警惕!當白銀、銅都和黃金一起講故事,你的財富可能正被悄悄轉移

      藍色海邊
      2026-01-28 03:42:22
      2026-01-28 06:15:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1182文章數 18關注度
      往期回顧 全部

      科技要聞

      馬化騰3年年會講話透露了哪些關鍵信息

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      頭條要聞

      美報告稱中國是其19世紀以來面對過的最強大國家

      體育要聞

      冒充職業球員,比賽規則還和對手現學?

      娛樂要聞

      張雨綺風波持續發酵,曝多個商務被取消

      財經要聞

      多地對壟斷行業"近親繁殖"出手了

      汽車要聞

      標配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗車下線

      態度原創

      旅游
      游戲
      親子
      房產
      公開課

      旅游要聞

      紅燈籠映北海:皇家園林里的年味,藏著中國人的精神原鄉!

      LPL春季賽:決絕讓一追二,AL三局擊潰IG,大家的排名都不變

      親子要聞

      雙職工家庭,孩子上幼兒園后,無老人幫忙,夫妻倆能獨立帶娃嗎?

      房產要聞

      實景兌現在即!綠城,在海棠灣重新定義終極旅居想象!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版