Bengio團隊找到了一種超越Transformer的硬件對齊方案

2026-01-07 15:02:29　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

Transformer 已經(jīng)改變了世界，但也并非完美，依然還是有競爭者，比如線性遞歸（Linear Recurrences）或狀態(tài)空間模型（SSM）。這些新方法希望能夠在保持模型質(zhì)量的同時顯著提升計算性能和效率。

然而，現(xiàn)有的線性遞歸或狀態(tài)空間模型雖然在理論上具有線性復(fù)雜度，但在高性能 GPU 上的實際表現(xiàn)往往并不如人意，會受限于內(nèi)存帶寬和全局同步帶來的高昂通信成本。

近日，Radical Numerics 與蒙特利爾大學 Yoshua Bengio 團隊找了一個新思路，為 LLM 的效率進化提供了一個極具啟發(fā)性的工程視角。該團隊通過將線性遞歸重新定義為硬件對齊的矩陣運算，提出了一套能夠相當完美契合 GPU 內(nèi)存層級的算法框架。

論文標題：Sliding Window Recurrences for Sequence Models
論文地址：https://arxiv.org/abs/2512.13921

該研究有三位共一作者：Dragos Secrieru、Garyk Brixi 和 Stefano Massaroli。他們都是 Radical Numerics 的成員，這家旨在打造科學超級智能的創(chuàng)業(yè)公司已經(jīng)取得了一些亮眼的突破性進展，包括首批使用百萬級上下文窗口訓練的模型以及 Evo 和 Evo 2 這兩個生成式基因組學模型。

核心挑戰(zhàn)：打破線性遞歸的「內(nèi)存墻」

該團隊首先指出，盡管并行掃描（Parallel Scan）算法在邏輯上能以 O（log n）的深度并行化處理遞歸，但它們在現(xiàn)代分級內(nèi)存硬件上表現(xiàn)得并不理想。

傳統(tǒng)的并行掃描算法，如 Kogge-Stone，具有極低的算法深度，但其數(shù)據(jù)訪問模式往往跨越全局地址空間，導(dǎo)致頻繁的全局內(nèi)存同步和洗牌操作。

在 GPU 這種具有多級緩存（寄存器、共享內(nèi)存、顯存）的架構(gòu)中，這種「扁平化」的算法策略不僅無法有效利用數(shù)據(jù)局部性，更無法發(fā)揮 Tensor Core 等專用矩陣乘法硬件的計算峰值。

這種由于數(shù)據(jù)移動而非計算本身導(dǎo)致的瓶頸，正是長文本大模型訓練和推理中亟待解決的「內(nèi)存墻」問題。

為了從數(shù)學層面拆解這一問題，論文引入了轉(zhuǎn)移算子（Transfer Operator）的矩陣理論。

這一分解揭示了一個關(guān)鍵點：跨塊通信的本質(zhì)是秩 - 1（Rank-one）的低秩更新。這為消除全局同步提供了理論上的切入點。

解決方案：滑動窗口循環(huán)與 B2P 算法

該論文最核心的貢獻是提出了滑動窗口循環(huán)（SWR），這是一種通過策略性截斷計算視界來換取極高吞吐量的原語。

為了將這一理論落地，作者開發(fā)了塊兩步（Block Two-Pass, B2P）算法及其對應(yīng)的 CUDA 內(nèi)核。

該算法將計算過程分為兩個階段：

在第一階段，每個線程束（Warp）并行處理一個大小為 16 的本地塊（與 Warp 大小對齊），利用 Tensor Core 通過 GEMM 方式完成高效的本地遞歸求解。

在第二階段，算法通過 GPU 片上的共享內(nèi)存（SMEM）或分布式共享內(nèi)存（DSMEM）在相鄰塊之間傳遞狀態(tài)載體，并進行即時的秩-1 補償。

這種設(shè)計確保了輸入數(shù)據(jù)只需從顯存讀取一次，所有中間通信均發(fā)生在芯片內(nèi)部，實現(xiàn)了接近恒定的 O (1) 算法深度和極佳的硬件利用率。

Phalanx 層設(shè)計與層級架構(gòu)集成

基于 B2P 算法，作者設(shè)計了名為Phalanx的新型計算層，它可以作為滑動窗口注意力或線性遞歸層的無縫替代品。在層參數(shù)化方面，Phalanx 遵循極簡原則，通過 Sigmoid 激活函數(shù)將遞歸系數(shù) a_i 限制在 (0, 1) 的穩(wěn)定區(qū)間內(nèi)，從而保證了長序列處理時的數(shù)值穩(wěn)定性。

同時，該層采用了基于頭（Head）的參數(shù)共享模式，每個頭共享一套遞歸系數(shù)，這與 Tensor Core 處理 16×16 矩陣瓦片的計算模型完美契合。

Phalanx 被定位為混合架構(gòu)中的「局部專家」，專門負責高效捕獲短程令牌互動，而將長程路由任務(wù)交給全局注意力層。這種職能分工使得模型能夠在不損失精度的前提下，大幅減少跨內(nèi)存層級的數(shù)據(jù)移動。

更多細節(jié)請訪問原論文。

實驗結(jié)果：速度與質(zhì)量的雙重突破

在針對 1.3B 參數(shù)規(guī)模模型的系統(tǒng)性測試中，Phalanx 展現(xiàn)出了顯著的性能優(yōu)勢。在 FineWeb-Edu 數(shù)據(jù)集上，Phalanx+Attention 混合模型在多個維度上超越了優(yōu)化的 Transformer 和滑動窗口注意力（SWA）基準。

在訓練吞吐量方面，當上下文長度在 4K 到 32K 之間時，Phalanx 混合模型實現(xiàn)了 10% 到 40% 的端到端提速。

在 8K 上下文的訓練任務(wù)中，Phalanx 混合模型的訓練速度比傳統(tǒng)的 SWA/Attention 混合架構(gòu)快 28%，甚至在短序列長度下也表現(xiàn)卓越，在 Hopper GPU 上比純注意力模型提升了 10% 的訓練吞吐量。

在模型精度方面，實驗數(shù)據(jù)顯示 Phalanx 在匹配 Transformer++ 基準性能的同時，甚至在特定比例下取得了更低的困惑度。

例如，在 1:1 的混合比下，Phalanx 達到了 10.85 的困惑度，優(yōu)于 Transformer++ 的 10.95。

此外，通過對衰減系數(shù)和門控機制的消融實驗，作者證明了其精心設(shè)計的參數(shù)化方案對于維持模型表現(xiàn)的關(guān)鍵作用。更多詳情請參閱原論文。

總結(jié)與行業(yè)意義

《Sliding Window Recurrences for Sequence Models》為下一代長文本模型架構(gòu)指明了一個方向：真正的效率并非僅僅來自算法復(fù)雜度的降低，更來自于對底層計算硬件物理特性的深刻理解與對齊。

通過將數(shù)學上的線性遞歸轉(zhuǎn)化為硬件友好的塊級矩陣運算，Phalanx 層成功在訓練速度與模型質(zhì)量之間找到了一個更優(yōu)的平衡點。

隨著 2025 年之后 LLM 繼續(xù)向超大規(guī)模上下文和實時具身智能演進，這種硬件感知的算子設(shè)計將成為構(gòu)建更綠色、更強大 AI 系統(tǒng)的核心基石。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.