Modeling rapid language learning bydistilling Bayesian priors into artificial neuralnetworks
貝葉斯先驗提煉到人工神經網絡中建模快速語言學習
https://www.nature.com/articles/s41467-025-59957-y
![]()
![]()
人類能夠從極其有限的經驗中學習語言。在認知科學中,開發能夠解釋這種能力的計算模型一直是一項重大挑戰。現有方法在解釋人類如何在受控環境中快速泛化方面取得了成功,但通常過于受限,難以有效處理自然主義(真實世界)的數據。我們表明,通過一種彌合兩種主流建模傳統之間鴻溝的方法,可以從有限的自然主義數據中進行學習:即貝葉斯模型與神經網絡。該方法將貝葉斯模型的歸納偏置(即指導泛化的因素)提煉到一個具有靈活表征能力的神經網絡中。與貝葉斯模型類似,該系統能夠從有限數據中學習形式化的語言模式;與神經網絡類似,它也能從自然出現的句子中學習英語句法的某些方面。因此,該模型提供了一個統一的系統,既能快速學習,又能處理自然主義數據。
在極其廣泛的情境中,人們能夠從有限的經驗中做出豐富的泛化。這種能力在語言領域尤為明顯,使語言成為關于學習機制爭論的經典場景。僅憑少量例子,人們就能學習新詞的含義1?3、新的句法結構???以及新的音系規則??11。認知科學的一個核心挑戰,就是理解人們如何能從如此稀少的證據中推斷出如此豐富的語言知識12,13。這一難題已被廣泛討論,因而積累了多個不同的名稱,包括“刺激貧乏論”(poverty of the stimulus)1?、“柏拉圖問題”(Plato’s problem)1?,以及“語言習得的邏輯問題”(the logical problem of language acquisition)1?。
解釋快速學習的一種流行方法是使用基于貝葉斯推理的概率模型1??21。這些模型對假設如何被表征和選擇做出了明確的假設,從而產生強烈的歸納偏置(inductive biases)——即決定學習者如何超越自身經驗進行泛化的因素22。因此,貝葉斯模型特別適合刻畫“從少量樣本中學習”的能力。例如,Yang 和 Piantadosi 最近提出的一個貝葉斯模型23表明,僅憑 10 個或更少的例子,就有可能學會句法的許多重要方面。然而,當貝葉斯模型被應用于更大規模的數據集時,它們在假設的設定上面臨重大挑戰:這些假設既要足夠靈活以捕捉數據,又要保持計算上的可處理性。
另一種有影響力的建模方法是使用神經網絡2??2?。這類方法很少對高層結構做出預設,從而具備捕捉現實數據細微差別所需的靈活性。這些系統用數值連接權重的矩陣來表示假設,并通過數據驅動的學習過程,找到最適合當前任務的連接權重。當數據充足時,這種方法極為成功,產生了諸如近期語言模型 ChatGPT2? 等最先進的系統。然而,神經網絡的這種靈活性伴隨著較弱的歸納偏置,使其在數據稀缺的情境中表現不佳。
我們認為,要解釋從自然主義(真實世界)數據中進行快速學習的能力,需要將表征(representations)與歸納偏置(inductive biases)解耦。原則上,這兩個因素是相互獨立的,但在歷史上,特定類型的歸納偏置總是與特定類型的表征捆綁在一起(見圖 1a):適用于快速學習的強歸納偏置,歷來伴隨著對表征形式的強約束(如貝葉斯模型);而弱表征約束(即能靈活處理復雜的自然主義數據)則歷來伴隨著弱歸納偏置(如神經網絡)。原則上,將這兩個因素解耦,就有可能構建一個兼具強歸納偏置和弱表征約束的系統,使其像人類一樣,在不犧牲構建更復雜假設能力的前提下實現快速學習。然而在實踐中,究竟什么樣的系統能同時具備這兩種特性,目前仍遠非顯而易見。
![]()
在本研究中,我們展示了如何將貝葉斯模型的歸納偏置“蒸餾”(distill)到神經網絡中。我們的方法利用了元學習(meta-learning)領域近期2?,2?的技術進展。元學習是一種機器學習技術,系統通過接觸多種任務,自動發現一種歸納偏置,從而更輕松地學習新任務3?,31。在我們的元學習應用中,這些任務是從一個貝葉斯模型中采樣的,從而將該貝葉斯模型的歸納偏置蒸餾到神經網絡中。我們將這一過程稱為“歸納偏置蒸餾”(inductive bias distillation),其結果是一個兼具貝葉斯模型強歸納偏置和神經網絡靈活性的系統。
我們使用這種方法構建了一個語言學習模型。之所以選擇這一案例,是因為語言學習是一個經典問題,長期以來被認為需要結構化的符號表征,因此對基于神經網絡的方法構成了嚴峻的考驗。在數據有限的情境下(例如從小量例子中學習人工形式語言),我們模型的表現接近 Yang & Piantadosi 的貝葉斯學習器——該模型是首個被證明能在未針對特定語言現象進行大量定制的情況下,僅憑有限數據學會此類語言的模型。因此,盡管我們的模型是一個神經網絡,但其蒸餾而來的歸納偏置使其在神經網絡通常難以勝任的環境中取得了成功,達到了此前只有使用符號表征的模型才能實現的性能水平。此外,由于我們的模型本質上是神經網絡,它還足夠靈活,能夠處理貝葉斯模型難以應對的情境:從一個包含 860 萬詞的語料庫中學習英語句法的某些方面。我們的結果表明,融合貝葉斯模型與神經網絡各自優勢不僅是可能的,而且具有顯著益處。
結果
模型:歸納偏置蒸餾
如圖 1b 所示,歸納偏置蒸餾通過三個步驟將一種歸納偏置(稱為“目標偏置”)蒸餾到一個模型(稱為“學生模型”)中。
第一步,用一個貝葉斯模型來定義目標偏置,該模型的先驗分布(prior)給出一個任務分布。
第二步,從該分布中采樣大量任務。
第三步,學生模型通過元學習(meta-learning)從這些采樣任務中學習,從而獲得有助于更輕松學習新任務的歸納偏置。
通過控制貝葉斯模型,我們就能控制學生模型通過元學習所獲得的歸納偏置。
這種方法具有高度通用性:目標偏置可以由任何可采樣的分布來刻畫,而學生模型可以是任何能夠進行元學習的系統。在我們的具體案例中,每個任務都是一種語言,因此被蒸餾的歸納偏置是在語言空間上的一個先驗分布32。我們的學生模型是一個神經網絡,這意味著我們將貝葉斯模型中的語言先驗蒸餾到了神經網絡中。該方法擴展了我們此前的概念驗證工作33:此處我們使用一個結構化的概率模型來定義歸納偏置,并在人工語言和自然主義語言兩種情境下對模型進行了測試。在本節余下部分,我們將詳細描述在語言學習案例中所采用的具體形式的歸納偏置蒸餾方法。
步驟 1:刻畫歸納偏置
我們的起點是 Yang 和 Piantadosi 提出的用于在形式語言(formal languages)上構建先驗的模型23。形式語言3??3? 是由抽象規則定義的一組字符串。例如,集合 {AB, ABAB, ABABAB, …} 就是一個形式語言,由表達式 (AB)+ 定義,表示一個或多個 AB 的重復。用于定義形式語言的機制受到自然語言結構的啟發。(AB)+ 的情形類似于英語中嵌套介詞短語所體現的尾遞歸(tail recursion):如果我們將 A 視為一個介詞,B 視為一個名詞短語,那么 (AB)+ 就能捕捉介詞與名詞短語交替出現的字符串,例如 “under the vase on the table in the library”(在圖書館桌子上的花瓶下)。通過將語言結構轉化為精確的抽象形式,形式語言長期以來為語言的數學分析提供了便利3???1。
在我們的研究中,形式語言的數學特性使其非常適合用于定義語言上的分布。遵循 Yang 和 Piantadosi 所采用的一般方法,我們指定了一個形式化的基本元素(primitives)集合,并構建了一個模型,該模型以概率方式組合這些基本元素,從而生成語言的定義。我們所使用的基本元素主要取自正則表達式(regular expressions)?2 中的標準組件——正則表達式是一種特定的形式語言表示法。這些基本元素的例子包括“拼接”(concatenation)和前述的“遞歸”基本元素“plus”(表示一個或多個重復)。例如,由我們基本元素定義的一種語言是 concat(A, plus(C), or(F,B)),它表示由一個 A 開頭,后接一個或多個 C,再接 F 或 B 的字符串集合:{ACF, ACB, ACCF, ACCB, ACCCF, …}。正則表達式的表達能力是有限的:已有證明表明,它們無法捕捉自然語言句法的某些方面?3。為克服這些限制,我們以增強系統表達能力的方式對基本正則表達式基本元素進行了擴充。有關我們所用基本元素的完整描述,請參見“方法”部分和補充方法(Supplementary Methods)。
我們對語言的完整分布是通過一個概率模型(其結構類似于概率上下文無關文法)來指定的,該模型定義了對我們所有可能的基本元素組合的概率分布。這種方法為使用較少基本元素定義的語言分配較高的概率,而為描述更復雜的語言分配較低的概率。因此,我們希望通過該模型蒸餾的歸納偏置,是傾向于那些能用我們選定的基本元素簡潔表達的語言。通過使用概率模型來指定目標偏置,我們使該偏置具備了可解釋性和可控性——如果像 Abnar 等人??所做的那樣,用神經網絡來定義目標偏置(即在不同類型神經網絡之間遷移歸納偏置),這些性質將無法保證。
步驟 2:采樣數據
既然我們已將歸納偏置刻畫為一個語言上的分布,下一步就是從該分布中采樣語言,以便學生模型能夠從這些語言中進行元學習。這一步是直接的,因為該分布是作為一個生成模型定義的,這自然允許我們從中采樣語言,然后從每種語言中進一步采樣具體的字符串。盡管操作簡單,但這一步在概念上至關重要:它通過將目標偏置具體化為數據,彌合了我們的概率模型與神經網絡之間的鴻溝——數據成為兩種本截然不同的模型之間的共同基礎。
步驟 3:應用元學習
歸納偏置蒸餾的最后一步是讓學生模型從我們采樣的數據中進行元學習,從而賦予其目標偏置。我們所使用的學生模型是一種長短期記憶神經網絡(LSTM;參考文獻 45)。已有形式化研究證明,LSTM 能夠處理多種類型的形式語言??,并且在自然語言處理任務中也取得了顯著的實證成功?????。我們也嘗試使用 Transformer??——另一種在語言任務中表現優異的神經網絡——但我們發現,對于 Transformer,蒸餾效果不如 LSTM 顯著,很可能是因為在捕捉我們基本元素所依賴的某些形式語言機制方面,LSTM 的表現優于 Transformer?1。
我們的 LSTM 執行的任務是“下一個詞預測”(next-word prediction)?2,也稱為語言建模:給定一個序列,LSTM 的目標是根據前面的詞預測序列中的每一個詞。例如,若序列為 ABA,模型首先需預測第一個詞(A);然后在已知第一個詞為 A 的條件下預測第二個詞(B);接著在前綴 AB 的條件下預測第三個詞(A);最后在前綴 ABA 的條件下生成一個特殊的序列結束符。對于大多數語言而言,該任務無法被完美解決;例如在英語中,“The” 之后可能跟隨許多不同的詞。因此,模型對下一個詞的預測是一個在所有可能詞符(tokens)上的概率分布(理想情況下,為最可能的后續詞分配最高概率)。我們選擇下一個詞預測任務,是因為先前研究發現,該任務在教會神經網絡掌握語言的語法特性方面非常有效?3???,并且有觀點認為它在人類語言處理中扮演著核心角色??,??。
在描述元學習之前,有必要先說明標準學習(standard learning)。神經網絡由大量數值參數(如連接權重)定義。在標準學習中,網絡從某些初始參數值(通常是隨機值)開始,然后被提供大量目標任務的示例。每處理一個示例后,網絡的參數都會進行調整,使得若再次看到相同示例,其表現會略有提升。經過多次這樣的更新后,網絡應獲得能夠有效執行該任務的參數值。
已有多種元學習方法被證明可提升神經網絡的泛化能力?????。我們所采用的形式是“模型無關元學習”(Model-Agnostic Meta-Learning, MAML;參考文獻 28)。MAML 可被視為一種層次化貝葉斯建模的方式??,因此非常契合我們蒸餾貝葉斯先驗的目標。直觀地說,在我們的 MAML 應用中,網絡會接觸多種語言,從而學會如何更輕松地學習新語言。MAML 過程中被更新的,是網絡的初始化參數(即在學習特定語言之前所采用的初始參數值)。如果 MAML 成功,那么最終得到的初始化參數應編碼了一種歸納偏置,使模型能夠從相對少量的例子中學會我們分布中的任意語言。由于我們控制了語言的分布,也就控制了元學習所獲得的歸納偏置。圖 2 更詳細地展示了這一過程,完整的 MAML 算法見補充方法(Supplementary Methods)。我們將經過歸納偏置蒸餾的神經網絡稱為“先驗訓練神經網絡”(prior-trained neural network),因為它通過訓練獲得了特定的先驗。先驗訓練(prior-training)表面上類似于另一種稱為“預訓練”(pre-training)的方法,但兩者在實現目標上存在重要差異;詳見“討論”部分。
![]()
需要強調的是,在歸納偏置蒸餾中,元學習并非關于人類如何獲得其歸納偏置的假設。盡管人類在某些情況下確實進行元學習?????,但我們并不聲稱人類的語言歸納偏置必定通過元學習產生,也不聲稱這些偏置是以 MAML 所采用的形式(即通過連接權重的初始設置)編碼的。相反,我們純粹將元學習作為一種工具,用于構建具有特定歸納偏置的模型。關于元學習作為人類先驗來源的討論,參見參考文獻 69。
我們使用歸納偏置蒸餾的目標,是將貝葉斯模型的強歸納偏置與神經網絡的表征靈活性結合起來。為了檢驗我們的模型是否融合了兩種方法的優勢,我們在兩種情境下對其進行了評估:一種是傳統上貝葉斯模型表現良好而神經網絡表現不佳的情境;另一種則恰恰相反。
學習形式語言
我們首先評估模型從少量樣本中學習形式語言的能力——這是貝葉斯模型表現良好而標準神經網絡表現較差的領域。我們使用了 Yang 和 Piantadosi 用于評估其貝葉斯學習器的相同 56 種形式語言。對于每種評估語言,我們用從該語言中抽取的 n 個字符串對模型進行訓練,n 的取值范圍從 1 到 10,000,按對數尺度分布。為了量化訓練后的模型對目標語言的掌握程度,我們計算模型的 F 分數(F-score)——這與 Yang 和 Piantadosi 使用的指標相同。F 分數衡量的是:模型賦予高概率的字符串集合,與真實語言中高概率字符串集合之間的匹配程度(參見“方法”部分)。我們還將先驗訓練網絡(prior-trained networks)與標準神經網絡進行比較:后者具有與先驗訓練網絡完全相同的架構,但其權重是隨機初始化的,而非通過歸納偏置蒸餾獲得。
這一情境對神經網絡構成了重大挑戰,因為這些形式語言是以離散符號方式定義的。長期以來,神經網絡被認為在本質上與符號處理截然不同。事實上,認知科學中的一個核心難題正是:人類心智雖以神經網絡為基礎,卻能夠執行符號功能?????——這一現象如此令人困惑,以至于 Smolensky 和 Legendre 將其稱為“認知的核心悖論”(the central paradox of cognition)??。因此,該情境為“強歸納偏置可以被蒸餾進神經網絡”這一主張提供了一個嚴峻的檢驗。
盡管我們的模型是一個神經網絡,但其數據效率與 Yang 和 Piantadosi 的符號化貝葉斯學習器相當(見圖 3)。相比之下,標準神經網絡對數據的需求要大得多:要達到相同性能水平,它所需的樣本數量約為貝葉斯學習器的 10 倍。標準神經網絡與先驗訓練神經網絡在架構和學習特定形式語言的程序上完全相同,唯一的區別在于:前者未經過歸納偏置蒸餾,而后者經過了。因此,蒸餾過程成功地賦予了我們的模型對學習形式語言有用的歸納偏置。盡管神經網絡通常被認為學習緩慢,但這些結果表明,“學習緩慢”并非神經網絡的固有屬性。
![]()
除了在數據效率上接近貝葉斯學習器外,先驗訓練網絡在時間效率上甚至更優。貝葉斯學習器學習一種形式語言所需時間從 1 分鐘到 7 天不等;而我們的神經網絡最多只需 5 分鐘,有時甚至僅需 10 毫秒。貝葉斯學習器本身并非緩慢——考慮到其假設空間的復雜性,它在同類學習器中堪稱極快,Yang 與 Piantadosi 的軟件包恰當地命名為 “Fleet”(意為“迅捷”)。然而,神經網絡所具備的靈活并行處理能力,使其即使面對如此高效的貝葉斯學習器,也能實現顯著加速。有關這些時間對比的更多細節,參見補充方法(Supplementary Methods)。
學習自然語言
接下來,我們評估模型從一個包含 860 萬詞的英語文本語料庫??中學習自然語言的能力。該語料庫取自 CHILDES 數據庫??,由英語母語父母對其子女所說的話語組成,因此代表了人類在習得英語語法結構時所接收的語言輸入類型。由于該數據集的規模和自然語言的復雜性,Yang 與 Piantadosi 的貝葉斯學習器在此情境下無法在計算上可行地應用。然而,由于我們的模型具有更高的時間效率,加之神經網絡本就適用于處理大規模自然主義數據集(近期如 ChatGPT2?等大型語言模型的成功即是明證),處理該數據集成為可能。
我們通過在保留的測試集上計算“困惑度”(perplexity)來評估模型在此語料庫上的表現。困惑度是評估下一個詞預測任務的標準指標:困惑度越低,表示模型在給定上下文條件下預測下一個詞的能力越強。困惑度的絕對數值難以解釋,因此為了更清晰地定位我們模型的性能,我們采用了一個強有力的基線:平滑的 5-gram 模型(這是目前性能最好的非神經網絡系統,用于下一個詞預測)。據文獻??報道,在該數據集上,平滑 5-gram 模型的困惑度為 24.4。
我們的先驗訓練神經網絡達到了 19.66 的困惑度,顯著優于 5-gram 基線。如圖 4a 所示,這一困惑度(19.66)略優于標準神經網絡所達到的 19.75(雙側 t 檢驗,自由度 = 77.4,t = 13.87,p < 0.001,Cohen’s d = 3.10,均值差異的 95% 置信區間為 [0.073, 0.097]),也優于此前文獻中報道的最佳神經網絡模型的困惑度 19.69??。這些結果表明,盡管我們的模型具有強歸納偏置,它仍然保留了從自然主義數據集中高效學習所需的靈活性。
![]()
那么,我們模型的強歸納偏置是否對自然語言學習產生了人類可解釋的影響?前一段落可能讓人覺得答案是否定的,因為先驗訓練網絡的困惑度僅比標準網絡略好。然而,即便蒸餾而來的歸納偏置對學習產生了實質性影響,前述評估也很可能無法體現這一點。歸納偏置的作用是在訓練數據不足時引導學習者。而在前述評估中,測試集與訓練集來自同一分布,且訓練集規模龐大(860 萬詞),因此訓練數據本身可能已提供了足夠強的信號來處理測試集,使得歸納偏置幾乎沒有發揮作用的空間。
為了更準確地揭示歸納偏置的作用,我們應在訓練數據信息不足的情境下評估模型。本節余下部分討論兩種此類情境:一是學習者可獲得的訓練數據更少;二是學習者必須進行分布外泛化(out-of-distribution generalization),即泛化到與訓練集分布不同的新樣本。
限制訓練數據量
為檢驗當 CHILDES 訓練數據量減少時,蒸餾而來的歸納偏置是否會產生更明顯的效果,我們在數據集的不同比例上訓練模型——從完整數據集的 1/64 到全部數據。在神經網絡中,數據量會與模型規模相互作用,共同決定模型性能:通常情況下,參數更多的模型泛化能力更強,但在訓練數據過少、不足以讓大型模型為其所有參數學習到有效值的情況下,較小的模型有時表現反而更好。因此,我們還通過改變隱藏層大小(即網絡內部向量表征的維度)來調整模型參數數量。
結果(圖 4b)表明,在許多情況下,歸納偏置蒸餾顯著改善了在英語數據上訓練的模型的困惑度,且從未顯著降低性能。整體結果模式較為復雜,呈現出一條大致呈對角線的條帶區域,在該區域內歸納偏置蒸餾帶來的收益最大:它在“小模型+少量數據”或“大模型+大量數據”的組合中效果最為顯著。關于這一模式的詳細討論,參見補充討論(Supplementary Discussion)。
測試分布外泛化能力
人類語言習得的一個顯著特征是:我們能夠學會那些經驗中幾乎未提供直接證據的規則。考慮以下句子。在英語中,一個陳述句,如 (1a),可以通過將句中的某個短語(如 the banker)替換為 who 并將其移至句首,轉化為疑問句,如 (1b)。這一普遍規則存在例外??:當 who 對應的詞位于一個并列結構(conjunction)內部時,以這種方式構成的疑問句是不合語法的,如 (2b) 所示。盡管在日常對話中幾乎不會出現像 (2b) 這樣的語境,但英語母語者仍能可靠地習得這一限制規則。
(1)
a. The judge and the spy will visit the banker.
b. Who will the judge and the spy visit?
(2)
a. The judge will visit the spy and the banker.
b. *Who will the judge visit the spy and?
我們此前使用的評估集是自然發生文本的一個樣本。因此,對于許多語言現象而言,該評估集中可能包含極少能體現這些現象重要性的句子。結果就是,模型在該評估集上的表現并不能告訴我們它是否真正學會了語言學家通常關注的語言現象。
為了檢驗模型是否學到了特定的語言現象,之前的研究??,?? 提出了一種基于“最小對”(minimal pairs)的評估范式——即成對的句子,用于突出所考察的語法規則。例如,如果一個學習者能識別出句子 (1b) 比 (2b) 更合乎語法,這就表明該學習者已掌握上述疑問句的約束規則。本文所考慮的神經網絡是下一個詞預測模型,會對所有可能的詞序列分配一個概率。因此,我們可以通過比較模型對最小對中兩個句子所分配的概率高低,來應用最小對評估:若模型賦予合語法句子更高的概率,則說明它可能已學到相關規則。
我們使用了四個最小對數據集(詳見“方法”部分)。每個數據集都針對若干語言現象,包括上述的疑問句約束等。在本分析中,我們回到標準網絡與先驗訓練網絡均取得最佳困惑度的設定下進行評估——即在完整數據集上訓練,且隱藏層大小為 1024。
在全部四個最小對數據集上,先驗訓練神經網絡相比標準網絡均取得了雖小但具有統計顯著性的提升(見圖 5a)。補充說明 4(Supplementary Note 4)提供了每個數據集中各項具體語言現象的結果;總體而言,有些現象上先驗訓練網絡明顯優于標準網絡,但在另一些現象上則相反,且難以辨識出清晰的規律來說明哪些現象更適合哪種模型(有一個例外——遞歸(recursion)——將在下一小節討論)。
![]()
遞歸與啟動效應(Recursion and priming)
上一小節中的最小對結果在解釋上存在一定困難。這一情況或許并不令人意外,因為那些評估中測試的大多數語言現象與我們所蒸餾的歸納偏置并無明確關聯。因此,我們并沒有充分理由預期蒸餾過程會在這些現象上帶來幫助或損害。
在本小節中,我們轉而考察兩種與我們的目標偏置聯系更明確的現象:遞歸(recursion)和啟動效應(priming)。
我們使用的基本元素之一——“plus” 基本元素——通過允許結構單元無限制地重復,從而支持句法遞歸。例如,plus(AB) 描述了包含一個或多個 AB 的字符串集合:{AB, ABAB, ABABAB, …}。因此,我們可以合理預期,蒸餾而來的歸納偏置應能改善模型對英語中遞歸結構的處理能力,例如處理多重強化副詞(如 “the mountain is very very very tall”)或多重所有格(如 “my cousin’s friend’s sister’s neighbor”)。(注:一些學者根據假設生成相關句子所依賴的不同機制,將重復區分為“遞歸”和“迭代”兩類?1,?2。在本研究中,我們僅討論表層字符串,而不涉及生成它們的算法,因此將這兩類重復統一歸入“遞歸”范疇下進行討論。)
兩個最小對評估集(SCaMP: Plausible 和 SCaMP: Implausible)包含了針對遞歸的刺激項,例如以下例子(更多示例見補充說明 5)。每組刺激項包含一對句子,其結尾部分相同(以下劃線標出),但在其中一個例子中(每對中的第一個),該下劃線部分是合法的句子結尾,而在另一個例子中則不是。我們計算每個模型對下劃線部分所分配的概率;若模型對合法情形分配的概率高于非法情形,則視為正確。每對句子都涉及某種程度的遞歸(在以下例子中,每增加一層就添加一個額外的介詞短語)。如果一個模型能很好地處理遞歸,那么當遞歸層級增加時,其準確率不應顯著下降。
![]()
在我們進行的十二項遞歸評估中,大多數情況下,先驗訓練網絡對深層遞歸的處理優于標準網絡(見圖 5c),這支持了如下假設:蒸餾而來的歸納偏置有助于模型學習英語中的遞歸結構。事實上,SCaMP 數據集中針對遞歸的子集,正是圖 5a 中先驗訓練網絡在這些數據集上整體優于標準網絡的主要原因。當排除這些遞歸子集后,SCaMP-Plausible 數據集上的得分變為:先驗訓練網絡為 0.731,標準網絡為 0.733(p = 0.237);而 SCaMP-Implausible 數據集上的得分變為:先驗訓練網絡為 0.718,標準網絡為 0.713(p < 0.001)。有關這些統計結果的更多細節,參見“方法”部分。
我們在此考慮的另一個基本元素是同步基本元素(synchrony primitive),它能夠使序列中的多個部分保持同步。與我們的分析最相關的是,該基本元素可以捕捉一類形式語言:其中每個序列包含某個字符串的兩次重復——例如 ACCDACCD 或 BDABDA。英語單個句子的句法中并不存在此類模式,但這種模式確實出現在相鄰句子對中:在我們的語料庫中,有 2.8% 的句子與其前一句完全相同。(請記住,該語料庫包含父母對孩子所說的話語;顯然,父母經常重復句子。)例如,語料庫中的前 6 個句子是:
![]()
這類重復傾向不僅僅是語料庫的統計特性;語言使用者在句子加工過程中也會利用這種重復,這一點已被“啟動效應”(priming)所證實——即語言使用者傾向于產出?3,??并預期??,??那些與他們最近遇到的句子相似的句子。與人類一樣,神經網絡語言模型也表現出啟動效應?????。
由于我們的同步基本元素(synchrony primitive)促進了支撐啟動效應的那種平行結構(parallelism),我們假設:蒸餾而來的歸納偏置應能增強模型表現出啟動效應的程度。為檢驗這一假設,我們計算模型在兩種情境下對句子(以下劃線標出)所分配的困惑度:
- 無啟動情境(unprimed setting):句子孤立出現,如 (7a);
- 有啟動情境(primed setting):句子前有一遍完全相同的重復,如 (7b)。
模型的啟動效應越強,其困惑度從無啟動情境到有啟動情境的下降幅度就應越大。本分析專為檢驗我們關于啟動效應的假設而設計,并不屬于圖 5a 中所用的任何最小對數據集。
![]()
我們發現,在我們研究的全部四個條件下,先驗訓練的神經網絡比標準網絡表現出更大的啟動效應(priming)程度(圖5b)。這一結果支持了我們的假設,即我們提煉的歸納偏差使模型更傾向于被啟動。
分析提煉的歸納偏差
我們的歸納偏差提煉目標是賦予神經網絡與目標貝葉斯模型相匹配的歸納偏差。我們迄今的實驗表明,提煉過程確實賦予了有用的歸納偏差,但仍存在一種可能性:這些偏差可能有用,但并非我們預期的那些——它們可能在不匹配貝葉斯模型的情況下仍有作用。為了探究這種可能性,我們進行了額外實驗,通過改變目標偏差來觀察先驗訓練網絡的行為是否相應變化。我們考慮了三種不同的目標偏差。第一種是貫穿全文使用的“所有原語”情況,其中神經網絡在使用包含遞歸和同步等原語集定義的形式語言上進行元訓練。另外兩種是基于修改版本去除一個原語的情況:“無遞歸”設置使用除遞歸外的所有原語,“無同步”設置使用除同步外的所有原語。
當我們在學習形式語言的任務上評估這三種先驗訓練網絡時,結果以與它們元訓練分布差異平行的方式變化(圖6a)。首先,我們在需要遞歸但不需要同步的8種形式語言集合上評估這些系統;這8種語言是前面評估的56種形式語言的子集。“無遞歸”情況的表現遠差于“所有原語”和“無同步”情況,體現在它需要更多訓練樣本才能達到較高的F分數。隨后,我們在需要同時具備遞歸和同步的8種形式語言集合上評估這些系統。此時,“無遞歸”和“無同步”表現相似,且均顯著差于“所有原語”。(注:我們也考慮過在只需要同步而不需要遞歸的語言上評估,但評估集合中沒有此類語言,且實際困難阻礙了該集合的擴展;見補充方法)。這些結果支持了如下結論:歸納偏差提煉確實賦予了目標偏差,因為從目標偏差中移除某個原語會導致先驗訓練系統在包含該原語的語言上表現更差。
![]()
隨后,我們通過重復前述自然語言遞歸和啟動評估,將這些修改后的先驗訓練系統應用于自然語言。在遞歸評估中,正如預期,“無遞歸”情況的平均表現差于“所有原語”情況(圖6b),盡管在某些個別遞歸評估中“無遞歸”優于“所有原語”(見補充圖S1)。出乎意料的是,“無同步”情況的表現也差于“所有原語”情況,這表明同步原語對這些遞歸評估有幫助;這可能是因為遞歸評估不僅涉及遞歸,還涉及短語之間的長距離關系(例如在上文例(5)的句子中,the book與is blue之間的關系),而同步可能有助于此類長距離關系,因為同步創造了序列中相隔甚遠元素相互依賴的機會。
在啟動評估中,我們發現三種先驗訓練網絡的表現彼此相似,且均優于標準網絡(圖6c)。這一結果表明,先驗訓練系統中觀察到的啟動效應增強并非如我們先前假設的那樣源于同步原語,而是源于先驗訓練分布的其他方面,例如(舉例來說)對離散、符號模式的普遍傾向。
總之,當我們在形式語言上評估先驗訓練模型時,目標偏差的性質以完全符合預期的形式調控了性能。當我們在自然語言上評估時,結果則不那么清晰:遞歸結果基本符合預期,但啟動結果并非如此。需要注意的是,我們的目標偏差是在形式語言上定義的,這意味著自然語言遠遠超出元訓練階段使用的分布。我們認為這些結果與以下結論一致:歸納偏差提煉在元訓練過程使用的分布內(在我們的案例中,即形式語言分布)穩健地賦予了目標偏差,但當該目標偏差被應用于元訓練分布之外時(例如在我們對系統進行自然語言評估時),其效果則較難預測——這一結論與先前研究發現一致,即神經網絡在其訓練分布內表現一致,但在分布外泛化時較不可預測90,91。
我們已經證明,先驗訓練的神經網絡(通過將貝葉斯先驗提煉到神經網絡中創建)能夠從少量樣本或復雜自然主義數據中有效學習。標準的貝葉斯模型和標準的神經網絡僅在其中一種設置中有效,而在另一種中無效。我們的結果說明了將歸納偏差的強度與表征承諾的強度分離的可能性和重要性:我們的模型具有以連續向量表征實例化的強大歸納偏差,這種組合使它們——如同人類一樣——能夠既快速又靈活地學習。
歸納偏差提煉提供了一種橋接認知分析不同層次的方法。Marr92提出認知科學應考慮三個分析層次:計算層次,提供心靈所解決問題的抽象特征以及它所使用解決方案的描述;算法層次,描述心靈用于執行該解決方案的算法;以及實現層次,描述該算法如何被實現。貝葉斯模型通常被視為計算層次的提案,刻畫人們擁有的歸納偏差(即給定哪些數據,人們選擇哪些假設?),但對這些歸納偏差如何實現保持不可知93–95。神經網絡則更多與算法層次(在某些情況下,與實現層次)對齊。因此,我們的實驗展示了歸納偏差提煉如何將計算層次上提出的歸納偏差連接到算法層次上提出的模型。
在我們的案例研究中,Yang和Piantadosi23的工作為我們提煉的歸納偏差提供了自然的靈感。在更一般的情況下,我們應如何識別適合轉移到神經網絡的適當偏差?一個有價值的歸納偏差來源是認知的貝葉斯模型,它們通過明確定義捕捉人類歸納偏差的先驗分布來捕捉人類學習的方面17。從這些先驗中采樣元學習任務,提供了一種簡單的路徑來提取人類歸納偏差并將其轉移到機器中。Binz等人96最近指出,元學習可用于使神經網絡適應其環境,從而將理性認知模型擴展到更復雜的設置。歸納偏差提煉提供了一種實現這一目標的互補策略,在其中我們通過先驗分布定義歸納偏差,然后通過將該先驗提煉到神經網絡中來創建理性模型的近似。
還有幾種與其他歸納偏差提煉相關的建模方法。我們在這里簡要提及這些方法;詳細討論見補充討論。首先,先驗訓練表面上類似于流行的現有預訓練方法,在預訓練中,網絡先在大規模通用數據上訓練,然后在特定任務上進一步訓練97,98。預訓練確實會影響模型的歸納偏差99–102,但我們發現預訓練在我們的設置中表現不佳;見補充筆記1。有些大型預訓練模型(如ChatGPT)可能在我們的評估中表現良好,但這些系統作為語言學習模型并不合適,因為它們在不現實的大量自然語言上進行預訓練。其次,先驗數據擬合網絡(PFNs;參考文獻103–106)是一種訓練用于近似貝葉斯推理的神經網絡;然而,PFNs與我們的方法不同,因為它們基于學習而非元學習,并且尚未應用于序列化、符號化領域如語言。在同時發展的工作中,Lake和Baroni63以及Zhou等人64也使用元學習作為將概率模型的歸納偏差融入神經網絡的方式。我們的工作與這些方法的不同在于我們使用的元學習類型(基于梯度的,而非基于記憶的元學習)、我們研究的領域(語言而非指令或視覺概念),以及我們提供了一個通用配方,用于使用元學習將概率模型的歸納偏差提煉到神經網絡中;Lake和Baroni以及Zhou等人展示了特定任務分布的元學習如何導致特定歸納偏差,但并未提供這種通用框架。最后,稱為貝葉斯神經網絡和貝葉斯深度學習的方法107–110聽起來與歸納偏差提煉相關,但它們實際上有不同的目標——即通過對模型參數的不確定性明確估計來增強神經網絡。
通過歸納偏差提煉,我們證明了將神經網絡的表征與貝葉斯模型的歸納偏差相結合是可能的。與貝葉斯模型一樣,所得到的系統能夠從少量樣本中學習形式語言模式。與神經網絡一樣,它也能以比標準貝葉斯方法高得多的時間效率進行學習,使我們能夠在比以往可能更大的規模設置中研究目標歸納偏差(即從數百萬詞的自然語言中學習英語句法的方面)。我們希望橋接這些建模方法之間的分歧,將使我們能夠解釋人類學習的快速性和靈活性。
方法形式語言原語
我們對形式語言的分布主要使用標準正則表達式原語42定義:
原子字母表符號(A, B, …)
Σ:字母表中的任意符號
ε:空串
concat:連接
or:隨機選擇兩個串中的一個
plus:Kleene plus,它產生一個表達式的一個或多個實例
為了克服正則表達式在表達能力上的形式限制34,我們對基本正則表達式原語進行了兩項增強。首先,標準的Kleene plus原語啟用尾遞歸,其中一個表達式的多個實例依次連接(例如,重復AB以產生ABAB)。然而,它并不啟用嵌套遞歸(也稱為中心嵌入),在其中多個實例的一個表達式被嵌套插入到每個其他實例中(例如,將AB嵌套插入AB以產生AABB)。我們通過引入一個索引參數來泛化Kleene plus,從而指定遞歸材料插入的位置:plus(AB, 0, 0.5) 在索引0(串的起始)處插入AB的新副本,從而產生尾遞歸:{AB, ABAB, ABABAB, …}。表達式plus(AB, 1, 0.5) 則通過在現有A和B之間插入AB的新副本來創建嵌套遞歸:{AB, AABB, AAABBB, …}。該表達式的最后一個參數是插入AB新副本的繼續概率;將此值設置為0.5意味著,在該語言中,串AB的概率為0.5,串AABB的概率為0.5 × 0.5 = 0.25,等等。
我們對原語集進行的第二項增強是添加一種同步機制——受同步文法11–13啟發——它允許序列的不同部分被同步。例如,以下定義了一種語言,其中每個序列具有三個部分:
![]()
同步模式顯示,第一部分和第三部分被同步(ID為0),而中間部分獨立(ID為1)。中間部分始終是字符串CC。第一部分和第三部分是由A、B和D組成的序列,其中第一部分中每一個A的位置,在第三部分對應位置為B;第一部分中每一個B的位置,在第三部分對應位置為D。該語言中的示例字符串包括ACCB和AABACCBBDB。
在定義了這些原語之后,我們可以通過概率性地組合原語來形成語言描述,從而采樣一種形式語言,其概率選擇方式受Chi114的啟發。
具體使用的概率模型詳見補充方法。
我們使用了與Yang和Piantadosi不同的原語集,因為我們發現,雖然他們的原語在Yang和Piantadosi所用場景(在假設之間進行選擇)中非常有效,但它們并不適合歸納偏差提煉。具體來說,在歸納偏差提煉中,語言分布通過向學習者展示來自該分布的樣本而被提煉到學習者中。在從Yang和Piantadosi的先驗分布中采樣的10,000種語言中,我們發現大多數語言是退化的:94.4%的語言僅包含一個唯一字符串,98.6%的語言不包含長度大于1的字符串。因此,將這一分布提煉到學習者中需要不現實的大量樣本,才能展示足夠多的非平凡語言示例,故我們選擇了能產生更高比例非平凡語言的原語。
我們嘗試用我們的原語運行Yang和Piantadosi的代碼,但發現其性能在使用這些原語時比使用Yang和Piantadosi的原語時更差,可能是因為我們的同步機制使假設空間對他們的學習者來說難以搜索。因此,為了以最有利的方式呈現每種方法,我們呈現的Yang和Piantadosi模型結果使用了他們的原語集;對于每種語言,我們使用了其補充材料中列出的四個候選假設中后驗概率最高的那個。
元訓練
![]()
![]()
請注意,我們對MAML的使用并沒有遵循這個基本方程,因為我們采用了三種額外的優化技術,這些技術在之前的工作中被發現能夠使訓練更快地收斂,即多步損失、AdamW優化器和基于余弦的學習率調度器。有關我們使用的MAML算法的完整定義(包括這些優化技術),請參見補充方法。
![]()
該模型是一個具有0.1的dropout的2層LSTM,輸入和輸出詞表示之間有權重共享,隱藏層大小為1024(除非另有說明)。我們還嘗試了簡單地在相同的數據集上預訓練我們的模型(即將所有25,000種語言合并為一個單一的下一個詞預測數據集),但我們發現這種方法的性能遠不如使用MAML;見補充說明1。我們在PyTorch版本2.2.1+cu121120中實現了我們的模型,元訓練由higher版本0.2.1121的包促進,一些訓練函數基于Transformers庫版本4.38.2122的代碼。
![]()
![]()
我們使用F分數作為我們的衡量標準,以便能夠將預先訓練的網絡的性能與Yang和Piantadosi報告的他們貝葉斯學習者的數據進行比較,因為F分數是Yang和Piantadosi使用的衡量標準。為了從我們的模型中產生,我們在相關數據集上訓練了模型,然后從中抽取了100萬個序列。在某些情況下,我們使用0.5的溫度重新加權這些概率,作為優先考慮模型最有信心的序列的一種措施,并且在某些情況下我們還使用了核采樣來截斷每個下一個令牌的分布,使其達到前0.99概率質量,作為減少噪聲的另一種措施(有關這些措施使用時間的詳細信息,請參見補充方法)。這些超參數是在不在56種語言評估集中的語言驗證集上進行調整的。
自然語言數據:倫理考慮
我們在自然語言上的實驗涉及兩個數據集——參考文獻76中的訓練語料庫和Zorro數據集124——它們又基于CHILDES數據庫77,該數據庫包含父母與孩子之間自然對話的記錄。由于CHILDES可能包含私人數據的可能性,我們咨詢了普林斯頓機構審查委員會的一名成員,以獲得使用該數據集的追溯性倫理批準。他回應說,CHILDES數據庫可以在網上自由獲取,因此不符合私人(即個人為特定目的提供的信息,并且個人可以合理地期望這些信息不會被公開)的定義。
自然語言訓練
在我們的元訓練階段,模型僅使用了10的詞匯量大小,但我們的英語語料庫的詞匯量大小為17,096。因此,為了將我們的模型應用于英語,我們丟棄了其初始嵌入層和最終輸出層,用適當大小的隨機初始化層替換它們。盡管我們在元訓練的每個情節中使用的優化器是隨機梯度下降,但我們在所有自然語言訓練中(包括在先前訓練的網絡中元學習后的自然語言訓練階段)使用了AdamW優化器,因為在初步實驗中,我們發現它的表現優于隨機梯度下降。為了選擇在此數據集上訓練模型的超參數,對于圖4b中的每個單元格,我們對學習率、dropout和周期數的超參數進行了廣泛的搜索。我們分別對先前訓練的網絡和標準網絡進行了這種超參數搜索(對每種類型的網絡使用完全相同的搜索,以確保公平),并使用最適合它的超參數訓練每種類型的模型。有關這些超參數的值,請參見補充方法,有關超參數的進一步討論,請參見補充說明3。
為了評估模型在下一個詞預測上的表現,我們使用困惑度。困惑度定義如下,其中W是用于評估模型的詞序列,N是W的長度:
![]()
針對性的語言評估
Zorro評估集未作修改,直接使用了參考文獻124中的版本。原始的BLiMP數據集125包含許多不在我們模型詞匯表中的單詞,因此我們使用作者的代碼僅使用在模型訓練集中至少出現10次的詞匯表中的單詞重新生成數據集,生成了我們標記為BLiMPCH(BLiMPCHILDES的縮寫)的數據集。 我們還想比較我們的模型在合理與不合理的句子上的表現。在Zorro數據集中,句子被故意設計成語義上不合理的,而BLiMP句子往往是語義上合理的。然而,這些數據集在許多其他方面也有所不同,因此它們不能在合理性維度上提供受控的比較。相反,我們生成了兩個新的數據集,它們在結構上是相同的,但在單詞選擇上有所不同,以確保更大或更小程度的合理性。結果是一個新的數據集SCaMP(選擇性類別最小對立),它有一個語義上合理的版本和一個語義上不合理的版本。我們針對遞歸和啟動的額外評估是從生成這兩個新最小對立數據集的同一代碼庫中生成的。
統計
所有統計數據都是使用R(版本4.1.3)計算的。對于圖5a中顯示的p值,我們使用了兩種方法:模型級測試和項目級測試。如下所述,兩種類型的測試都同意在所有情況下都得到p < 0.001(圖5a中顯示的結果)。 模型級p值基于雙側雙樣本t檢驗。對于四個數據集中的每一個,我們獲得了每種模型類型的40次重新運行在該數據集上的準確性,結果得到兩個向量,每個向量都包含40個準確性值;然后使用t檢驗比較這兩個向量。Zorro比較得到的t值(77.9自由度)= 5.30,p < 0.001,Cohen’s d = 1.19,平均差異的95%置信區間= [0.007, 0.016]。BLiMPCH比較得到的t值(77.9自由度)= 3.62,p < 0.001,Cohen’s d = 0.810,平均差異的95%置信區間= [0.0016, 0.0054]。SCaMP:合理比較得到的t值(73.4自由度)= 4.41,p < 0.001,Cohen’s d = 0.986,平均差異的95%置信區間= [0.006, 0.016];移除遞歸子集后,這些結果變為t值(74.4自由度)= -1.19,p = 0.237,Cohen’s d = -0.267,平均差異的95%置信區間= [-0.004, 0.001]。SCaMP:不合理比較得到的t值(68.2自由度)= 5.35,p < 0.001,Cohen’s d = 1.20,平均差異的95%置信區間= [0.008, 0.019];移除遞歸子集后,這些結果變為t值(77.1自由度)= 3.79,p < 0.001,Cohen’s d = 0.847,平均差異的95%置信區間= [0.003, 0.008]。 項目級p值基于配對雙側雙樣本t檢驗。對于四個數據集中的每一個,我們獲得了每種模型類型的40次重新運行在該數據集中每個項目上的正確比例,結果得到兩個向量,其長度等于數據集中的項目數;然后使用配對t檢驗比較這兩個向量。Zorro比較得到的t值(45,999自由度)= 17.75,p < 0.001,Cohen’s d = 0.037,平均差異的95%置信區間= [0.010, 0.013]。BLiMPCH比較得到的t值(68,999自由度)= 6.49,p < 0.001,Cohen’s d = 0.0092,平均差異的95%置信區間= [0.0024, 0.0045]。SCaMP:合理比較得到的t值(66,999自由度)= 22.72,p < 0.001,Cohen’s d = 0.033,平均差異的95%置信區間= [0.010, 0.012];移除遞歸子集后,這些結果變為t值(48,999自由度)= -3.06,p = 0.002,Cohen’s d = -0.005,平均差異的95%置信區間= [-0.003, -0.001]。SCaMP:不合理比較得到的t值(66,999自由度)= 27.11,p < 0.001,Cohen’s d = 0.041,平均差異的95%置信區間= [0.013, 0.014];移除遞歸子集后,這些結果變為t值(48,999自由度)= 8.70,p < 0.001,Cohen’s d = 0.014,平均差異的95%置信區間= [0.004, 0.006]。
原文:https://www.nature.com/articles/s41467-025-59957-y
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.