清華聯(lián)手千問重塑歸一化范式，讓 Transformer 回歸「深度」學(xué)習(xí)

2026-02-10 18:50:12　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在十九世紀(jì)的暹羅王國曾誕生過這樣一對連體兄弟：他們分別擁有完整的四肢和獨(dú)立的大腦，但他們六十余年的人生被腰部相連著的一段不到十厘米的組織帶永遠(yuǎn)綁定在了一起。他們的連體曾帶來無盡的束縛，直到他們離開暹羅，走上馬戲團(tuán)的舞臺。十年間，兩兄弟以近乎合二為一的默契巡演歐美，獲得巨大成功。

此后，人們曾用他們的故鄉(xiāng)之名，將這種連體現(xiàn)象稱作 Siamese Twins（暹羅雙胞胎）。后來，這一命名跨越了生物學(xué)的邊界。1993 年，Yann LeCun 將其引入神經(jīng)網(wǎng)絡(luò)，創(chuàng)造了共享權(quán)重的 Siamese Network（孿生網(wǎng)絡(luò)），用于衡量輸入的相似性。

時(shí)光流轉(zhuǎn)，在二十一世紀(jì)的今天，人工智能領(lǐng)域也有一對 “雙胞胎”——Pre-Norm（前置歸一化）和 Post-Norm（后置歸一化）。他們?yōu)榻鉀Q大模型訓(xùn)練穩(wěn)定性而生，迅速成為 Transformer 架構(gòu)中用于穩(wěn)定信號流的關(guān)鍵范式。

然而，歸一化帶來的訓(xùn)練穩(wěn)定性并非沒有代價(jià)，兩種歸一化范式之間似乎面臨著難以調(diào)和的權(quán)衡取舍。

盡管近年來 Pre-Norm 被 GPT-3、LLaMA、DeepSeek、Qwen 等知名開源基座所采用，但多項(xiàng)研究共同指向了一個(gè)嚴(yán)峻事實(shí)：Pre-Norm 架構(gòu)存在嚴(yán)重的 “深度失效” 問題 —— 大量深層參數(shù)雖在參與計(jì)算，卻無法拓展模型的表征能力，致使模型的 “有效深度” 嚴(yán)重受限。

與之相對的，盡管從表征能力角度 Post-Norm 擁有更高潛力，但其訓(xùn)練不穩(wěn)定性在現(xiàn)代 Transformer 的預(yù)訓(xùn)練范式下是毀滅性的。于是，Pre-Norm 與 Post-Norm 這一對為解決同一難題而誕生的雙胞胎，在各自追求 “穩(wěn)定” 與 “深度” 的道路上分道揚(yáng)鑣。

難道穩(wěn)定與深度，注定是一場無法調(diào)和的零和博弈嗎？

近日，清華大學(xué)黃高 Leap Lab 團(tuán)隊(duì)聯(lián)合千問 C 端團(tuán)隊(duì)給出了一份全新的答案 —— SiameseNorm。

論文標(biāo)題：SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm
論文鏈接：https://arxiv.org/abs/2602.08064

這一創(chuàng)新的孿生雙流架構(gòu)，巧妙地解耦了優(yōu)化動力學(xué)：它并未在 Pre-Norm 與 Post-Norm 之間做二選一的取舍，而是構(gòu)建了兩條參數(shù)共享的平行通路。

在這一架構(gòu)下，一條流通過 Pre-Norm 機(jī)制保證訓(xùn)練的穩(wěn)定性，另一條流則利用 Post-Norm 特性極大地釋放模型的表征潛力。這種設(shè)計(jì)讓每個(gè)殘差塊都能接收到來自兩種范式的組合梯度，在幾乎不增加計(jì)算開銷的前提下，實(shí)現(xiàn)了高學(xué)習(xí)率下的穩(wěn)定訓(xùn)練。這一精巧的雙流協(xié)作，恰如默契的暹羅雙胞胎，將兩種范式的對立轉(zhuǎn)化為深度融合的協(xié)同優(yōu)勢。

可以看到，SiameseNorm 可以被看做 Pre-Norm 和 Post-Norm 的耦合

1. 困境：單主干架構(gòu)的先天缺陷與范式對立

前置還是后置？這仿佛是 Transformer 世界的 “魚與熊掌”。研究者不得不在 “訓(xùn)練穩(wěn)定但可能平庸” 的 Pre-Norm 與 “潛力巨大卻難以駕馭” 的 Post-Norm 之間做出艱難抉擇。更令人困擾的是，任何試圖在單主干（Single-Stream）架構(gòu) —— 即在共享同一條信息主干線的經(jīng)典設(shè)計(jì)中調(diào)和二者的努力，都遭遇了數(shù)學(xué)上的根本性障礙。

痛點(diǎn) 1：Pre-Norm 的 “稀釋” 與 Post-Norm 的 “畸變”

Transformer 的設(shè)計(jì)核心在于殘差連接。然而，現(xiàn)有的兩種主流范式都存在致命的結(jié)構(gòu)性缺陷：

Pre-Norm (稀釋問題):為了保證梯度暢通，Pre-Norm 保留了一條干凈的恒等路徑（Identity Path）。但這導(dǎo)致主干流的信號幅度隨深度巨幅增長。到了深層，層歸一化（LN）后的輸入相對于巨大的主干流來說微乎其微，導(dǎo)致深層網(wǎng)絡(luò)的貢獻(xiàn)被 “稀釋”，模型實(shí)際上退化成了 “淺層” 網(wǎng)絡(luò)。最直觀的實(shí)驗(yàn)證據(jù)來自于層剪枝（Layer Pruning）實(shí)驗(yàn)：將 Pre-Norm 模型 30% 的層直接移除，在零微調(diào)的情況下，其評估指標(biāo)竟幾乎沒有損失。

Post-Norm (畸變問題):Post-Norm 強(qiáng)制在殘差相加后進(jìn)行歸一化，保證了表示的效率，理論上限更高。但這也意味著它在每一步都在強(qiáng)行 “壓縮” 信號，導(dǎo)致梯度的傳導(dǎo)被破壞，容易引發(fā)梯度消失或爆炸。

痛點(diǎn) 2：兩大范式的不可兼容性

目前的混合方案（Hybrid）試圖在兩者間尋找平衡，但論文深刻地揭示了，這兩種結(jié)構(gòu)在單主干設(shè)計(jì)中本質(zhì)上是互斥的：

梯度的 “無損傳輸” vs. 信號的 “尺度束縛”： Pre-Norm 的穩(wěn)定性依賴于保留嚴(yán)格的恒等路徑（Identity Path），這意味著必須允許信號幅度在主干中自然增長，以確保梯度能夠無損傳播。相反，Post-Norm 的高效性依賴于嚴(yán)格規(guī)范（Regulation），即在主干中通過歸一化限制信號幅度，以維持特征的表達(dá)效率。
單主干的理論極限：論文指出，在共享同一條主干路徑的前提下，在數(shù)學(xué)上不可能同時(shí)做到兩件事：既保留一條完全干凈、不受阻礙的梯度通道（Pre-Norm 的要求），又同時(shí)對主干信號強(qiáng)制施加嚴(yán)格的幅度約束（Post-Norm 的要求）。

因此，任何試圖在單主干結(jié)構(gòu)內(nèi)強(qiáng)行融合兩者的嘗試（如交替使用或混合歸一化），最終都只能是一種 “妥協(xié)”：它們不僅無法兼得二者之長，反而繼承了 Post-Norm 的不穩(wěn)定性，導(dǎo)致在高學(xué)習(xí)率下訓(xùn)練崩潰。要打破這個(gè)僵局，必須從結(jié)構(gòu)上進(jìn)行徹底的解耦（Decoupling）。

2. 破局：SiameseNorm 的雙流解耦之道

兩條流擁有相同的輸入，而通過不同的 LayerNorm 位置，兩條流隨后分化。

SiameseNorm 的核心洞察在于：我們無法在單一信號流中同時(shí)滿足 “梯度傳導(dǎo)” 和 “表示規(guī)范” 這兩個(gè)互斥的需求。

因此，SiameseNorm 引入了 “孿生雙流”（Siamese）機(jī)制：

1. Pre-Norm 流（Y 流）：負(fù)責(zé) “穩(wěn)”。它保留未歸一化的狀態(tài)，確保擁有一條干凈的梯度高速公路。

2. Post-Norm 流（X 流）：負(fù)責(zé) “強(qiáng)”。它時(shí)刻保持歸一化，確保特征表示不會發(fā)生坍塌或發(fā)散。

從圖中也可以看出，把下一半遮住，它退化成 post-norm；把上一半遮住，它退化成 pre-norm。而在訓(xùn)練過程中，LayerNorm 的可學(xué)習(xí)權(quán)重可以調(diào)整兩條流的大小關(guān)系。通過將支流上的 LayerNorm 調(diào)整為 0，可以退化成現(xiàn)有的 Pre-Norm、Post-Norm、Mix-LN 范式。

這一架構(gòu)的核心在于高效的 “參數(shù)共享” 機(jī)制：雙流路徑并非獨(dú)立存在，而是共享殘差塊（Attention/MLP）的權(quán)重。這意味著 SiameseNorm 幾乎沒有帶來參數(shù)量與計(jì)算的增長。為降低這種耦合結(jié)構(gòu)的訓(xùn)練難度，架構(gòu)中進(jìn)一步引入了 Normalized Input（歸一化輸入）與 Depth-wise Scaling（深度縮放），有效解決了參數(shù)共享的雙流架構(gòu)帶來的優(yōu)化對齊挑戰(zhàn)。

3. 硬核實(shí)測：拯救 Post-Norm，數(shù)學(xué)任務(wù)暴漲 40%

在 1.3B 參數(shù)模型、100B/350B tokens、總計(jì)算成本超過 50,000 A100 GPU 小時(shí)的預(yù)訓(xùn)練實(shí)驗(yàn)中，SiameseNorm 展現(xiàn)了驚人的統(tǒng)治力：

直面公平對比的挑戰(zhàn)：研究者首先在不同的學(xué)習(xí)率下對比了現(xiàn)有各種 Pre-Norm 和 Post-Norm/HybridNorm 變體的表現(xiàn)，發(fā)現(xiàn)兩類范式的最優(yōu)學(xué)習(xí)率存在顯著差異，這揭示了一個(gè)長期被忽視的問題：超參（尤其學(xué)習(xí)率）的選擇足以改變架構(gòu)對比的結(jié)論。

換言之，過往許多研究因未能適配 Pre-Norm 的最優(yōu)配置，實(shí)際上人為地壓低了基線的性能天花板，從而制造了 “性能顯著提升” 的假象。因此，一個(gè)公平的比較應(yīng)該對不同方法分別做超參搜索，而這在大模型預(yù)訓(xùn)練中成本極高。在本篇論文中，研究者直接沿用了主流 Pre-Norm 的訓(xùn)練超參。這一策略旨在證明，SiameseNorm 無需依賴特定的參數(shù)微調(diào)，即可展現(xiàn)出超越基線的魯棒性與性能。

無懼高學(xué)習(xí)率：實(shí)驗(yàn)表明，當(dāng)學(xué)習(xí)率激進(jìn)地提升至2e-3時(shí)，傳統(tǒng)的 Post-Norm 及 HybridNorm 架構(gòu)均出現(xiàn)了不可逆的訓(xùn)練發(fā)散（Divergence）。相比之下，SiameseNorm 展現(xiàn)了卓越的優(yōu)化穩(wěn)定性，不僅成功收斂，其訓(xùn)練 Loss 更是顯著優(yōu)于 Pre-Norm 基線，實(shí)現(xiàn)了高達(dá) 0.41 的 PPL 收益。

進(jìn)一步的消融實(shí)驗(yàn)揭示了其內(nèi)在的協(xié)同增益機(jī)制：在同等實(shí)驗(yàn)設(shè)置下，通過 Siamese 拓?fù)鋵?“易發(fā)散” 的 HybridNorm 流與 “基線級” 的 Pre-Norm 流（PPL 10.84）進(jìn)行無任何輔助機(jī)制的直接耦合，模型取得了 10.68 的更優(yōu) PPL。這一結(jié)果有力地證明，Siamese 設(shè)計(jì)并非簡單的堆砌，而是成功實(shí)現(xiàn)了兩大范式的互補(bǔ)，從而突破了單一范式的性能天花板。

通用基準(zhǔn)的全面提升與推理能力的質(zhì)變：SiameseNorm 不僅在通用語言理解任務(wù)上確立了領(lǐng)先地位，更在邏輯推理中實(shí)現(xiàn)了突破。在 HellaSwag、OpenBookQA、PIQA 等涵蓋常識與知識問答的廣泛基準(zhǔn)測試中，該模型均取得了最佳成績。

尤為引人注目的是，在最依賴模型有效深度的算術(shù)任務(wù)（Arithmetic）上，Pre-Norm 的準(zhǔn)確率僅為 28.1%，而 SiameseNorm 躍升至 39.6%，相對提升高達(dá) 40.9%。這一結(jié)果有力地證明，雙流架構(gòu)在保持通用能力全面領(lǐng)先的同時(shí)，成功喚醒了 Transformer 深層網(wǎng)絡(luò)的潛能，顯著修復(fù)了模型的鏈?zhǔn)酵评砟芰Α?/p>

實(shí)驗(yàn)結(jié)果一覽，* 表示訓(xùn)練 loss 出現(xiàn)顯著尖峰

4. 機(jī)制探究：各流的貢獻(xiàn)分析

研究人員首先通過提取兩條流中 LayerNorm 的可學(xué)習(xí)縮放參數(shù)，計(jì)算了它們對模塊輸入的相對貢獻(xiàn)比例。實(shí)驗(yàn)結(jié)果顯示，在絕大多數(shù)殘差塊中，兩條流均保持了顯著的權(quán)重占比。這表明網(wǎng)絡(luò)并未出現(xiàn)單側(cè)退化現(xiàn)象，而是有效地利用了來自兩端的隱藏表征進(jìn)行聯(lián)合特征提取。

通過 Logit Lens 技術(shù)分析，研究人員發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：在 SiameseNorm 的最終輸出中，Post-Norm 流（X 流）占據(jù)了主導(dǎo)地位，其對最終預(yù)測的貢獻(xiàn)度顯著高于 Pre-Norm 流。

上述現(xiàn)象支持了一種直觀的解釋：Pre-Norm 流主要充當(dāng)了 “訓(xùn)練腳手架” 的角色，負(fù)責(zé)在訓(xùn)練初期保障穩(wěn)定性；而一旦模型步入正軌，具有更強(qiáng)特征表達(dá)能力的 Post-Norm 流的潛力便被釋放出來，在形成最終決策時(shí)發(fā)揮主導(dǎo)作用。

結(jié)語

長期以來，為了 “跑得通”，我們不得不接受 Pre-Norm 對有效深度的犧牲；而 Post-Norm 雖然更具表達(dá)潛力，卻又常因不穩(wěn)定而難以進(jìn)入大規(guī)模預(yù)訓(xùn)練的主流配置。

SiameseNorm 給出了一個(gè)優(yōu)雅的答案：不再做選擇題。它以近乎不增加成本的方式，把 Pre-Norm 的優(yōu)化魯棒性與 Post-Norm 的表征潛力統(tǒng)一在同一個(gè)框架內(nèi)。對于追求更高學(xué)習(xí)率、更深網(wǎng)絡(luò)、更強(qiáng)推理能力的大模型研發(fā)者而言，SiameseNorm 指明了一條清晰的路徑：讓 Transformer 走出 “淺層困境”，回歸原始意義上的 “深度學(xué)習(xí)”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.