<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Bengio團隊找到了一種超越Transformer的硬件對齊方案

      0
      分享至

      編輯|Panda

      Transformer 已經(jīng)改變了世界,但也并非完美,依然還是有競爭者,比如線性遞歸(Linear Recurrences)或狀態(tài)空間模型(SSM)。這些新方法希望能夠在保持模型質(zhì)量的同時顯著提升計算性能和效率。

      然而,現(xiàn)有的線性遞歸或狀態(tài)空間模型雖然在理論上具有線性復(fù)雜度,但在高性能 GPU 上的實際表現(xiàn)往往并不如人意,會受限于內(nèi)存帶寬和全局同步帶來的高昂通信成本。

      近日,Radical Numerics 與蒙特利爾大學 Yoshua Bengio 團隊找了一個新思路,為 LLM 的效率進化提供了一個極具啟發(fā)性的工程視角。該團隊通過將線性遞歸重新定義為硬件對齊的矩陣運算,提出了一套能夠相當完美契合 GPU 內(nèi)存層級的算法框架。



      • 論文標題:Sliding Window Recurrences for Sequence Models
      • 論文地址:https://arxiv.org/abs/2512.13921

      該研究有三位共一作者:Dragos Secrieru、Garyk Brixi 和 Stefano Massaroli。他們都是 Radical Numerics 的成員,這家旨在打造科學超級智能的創(chuàng)業(yè)公司已經(jīng)取得了一些亮眼的突破性進展,包括首批使用百萬級上下文窗口訓練的模型以及 Evo 和 Evo 2 這兩個生成式基因組學模型。

      核心挑戰(zhàn):打破線性遞歸的「內(nèi)存墻」

      該團隊首先指出,盡管并行掃描(Parallel Scan)算法在邏輯上能以 O(log n)的深度并行化處理遞歸,但它們在現(xiàn)代分級內(nèi)存硬件上表現(xiàn)得并不理想。

      傳統(tǒng)的并行掃描算法,如 Kogge-Stone,具有極低的算法深度,但其數(shù)據(jù)訪問模式往往跨越全局地址空間,導(dǎo)致頻繁的全局內(nèi)存同步和洗牌操作。



      在 GPU 這種具有多級緩存(寄存器、共享內(nèi)存、顯存)的架構(gòu)中,這種「扁平化」的算法策略不僅無法有效利用數(shù)據(jù)局部性,更無法發(fā)揮 Tensor Core 等專用矩陣乘法硬件的計算峰值。

      這種由于數(shù)據(jù)移動而非計算本身導(dǎo)致的瓶頸,正是長文本大模型訓練和推理中亟待解決的「內(nèi)存墻」問題。

      為了從數(shù)學層面拆解這一問題,論文引入了轉(zhuǎn)移算子(Transfer Operator)的矩陣理論。





      這一分解揭示了一個關(guān)鍵點:跨塊通信的本質(zhì)是秩 - 1(Rank-one)的低秩更新。這為消除全局同步提供了理論上的切入點。

      解決方案:滑動窗口循環(huán)與 B2P 算法

      該論文最核心的貢獻是提出了滑動窗口循環(huán)(SWR),這是一種通過策略性截斷計算視界來換取極高吞吐量的原語。





      為了將這一理論落地,作者開發(fā)了塊兩步(Block Two-Pass, B2P)算法及其對應(yīng)的 CUDA 內(nèi)核。



      該算法將計算過程分為兩個階段:

      在第一階段,每個線程束(Warp)并行處理一個大小為 16 的本地塊(與 Warp 大小對齊),利用 Tensor Core 通過 GEMM 方式完成高效的本地遞歸求解。

      在第二階段,算法通過 GPU 片上的共享內(nèi)存(SMEM)或分布式共享內(nèi)存(DSMEM)在相鄰塊之間傳遞狀態(tài)載體,并進行即時的秩-1 補償。

      這種設(shè)計確保了輸入數(shù)據(jù)只需從顯存讀取一次,所有中間通信均發(fā)生在芯片內(nèi)部,實現(xiàn)了接近恒定的 O (1) 算法深度和極佳的硬件利用率。





      Phalanx 層設(shè)計與層級架構(gòu)集成

      基于 B2P 算法,作者設(shè)計了名為Phalanx的新型計算層,它可以作為滑動窗口注意力或線性遞歸層的無縫替代品。在層參數(shù)化方面,Phalanx 遵循極簡原則,通過 Sigmoid 激活函數(shù)將遞歸系數(shù) a_i 限制在 (0, 1) 的穩(wěn)定區(qū)間內(nèi),從而保證了長序列處理時的數(shù)值穩(wěn)定性。



      同時,該層采用了基于頭(Head)的參數(shù)共享模式,每個頭共享一套遞歸系數(shù),這與 Tensor Core 處理 16×16 矩陣瓦片的計算模型完美契合。

      Phalanx 被定位為混合架構(gòu)中的「局部專家」,專門負責高效捕獲短程令牌互動,而將長程路由任務(wù)交給全局注意力層。這種職能分工使得模型能夠在不損失精度的前提下,大幅減少跨內(nèi)存層級的數(shù)據(jù)移動。

      更多細節(jié)請訪問原論文。

      實驗結(jié)果:速度與質(zhì)量的雙重突破

      在針對 1.3B 參數(shù)規(guī)模模型的系統(tǒng)性測試中,Phalanx 展現(xiàn)出了顯著的性能優(yōu)勢。在 FineWeb-Edu 數(shù)據(jù)集上,Phalanx+Attention 混合模型在多個維度上超越了優(yōu)化的 Transformer 和滑動窗口注意力(SWA)基準。



      在訓練吞吐量方面,當上下文長度在 4K 到 32K 之間時,Phalanx 混合模型實現(xiàn)了 10% 到 40% 的端到端提速。



      在 8K 上下文的訓練任務(wù)中,Phalanx 混合模型的訓練速度比傳統(tǒng)的 SWA/Attention 混合架構(gòu)快 28%,甚至在短序列長度下也表現(xiàn)卓越,在 Hopper GPU 上比純注意力模型提升了 10% 的訓練吞吐量。

      在模型精度方面,實驗數(shù)據(jù)顯示 Phalanx 在匹配 Transformer++ 基準性能的同時,甚至在特定比例下取得了更低的困惑度。

      例如,在 1:1 的混合比下,Phalanx 達到了 10.85 的困惑度,優(yōu)于 Transformer++ 的 10.95。



      此外,通過對衰減系數(shù)和門控機制的消融實驗,作者證明了其精心設(shè)計的參數(shù)化方案對于維持模型表現(xiàn)的關(guān)鍵作用。更多詳情請參閱原論文。

      總結(jié)與行業(yè)意義

      《Sliding Window Recurrences for Sequence Models》為下一代長文本模型架構(gòu)指明了一個方向:真正的效率并非僅僅來自算法復(fù)雜度的降低,更來自于對底層計算硬件物理特性的深刻理解與對齊。

      通過將數(shù)學上的線性遞歸轉(zhuǎn)化為硬件友好的塊級矩陣運算,Phalanx 層成功在訓練速度與模型質(zhì)量之間找到了一個更優(yōu)的平衡點。

      隨著 2025 年之后 LLM 繼續(xù)向超大規(guī)模上下文和實時具身智能演進,這種硬件感知的算子設(shè)計將成為構(gòu)建更綠色、更強大 AI 系統(tǒng)的核心基石。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      網(wǎng)紅小姐姐這身職業(yè)裝既有高級感又女人味十足

      網(wǎng)紅小姐姐這身職業(yè)裝既有高級感又女人味十足

      美女穿搭分享
      2026-01-06 17:40:39
      越南少將阮德輝吐實情:中國軍隊回撤途中黎筍下了道死命令

      越南少將阮德輝吐實情:中國軍隊回撤途中黎筍下了道死命令

      磊子講史
      2025-12-23 20:13:04
      即日起正式執(zhí)行,大陸懲罰準時啟動,臺民調(diào):僅2成臺灣人愿參戰(zhàn)

      即日起正式執(zhí)行,大陸懲罰準時啟動,臺民調(diào):僅2成臺灣人愿參戰(zhàn)

      科普100克克
      2026-01-08 11:26:36
      日本巨頭中國工廠停產(chǎn),3.5萬員工鐵飯碗破滅

      日本巨頭中國工廠停產(chǎn),3.5萬員工鐵飯碗破滅

      似水流年忘我
      2025-12-08 10:56:29
      支付寶調(diào)級氣炸中產(chǎn),代言人梁朝偉被誤傷了

      支付寶調(diào)級氣炸中產(chǎn),代言人梁朝偉被誤傷了

      ZAKER新聞
      2026-01-06 13:59:33
      別人一夜成名,他一輩子排練,如今48歲的他,搭檔郭京飛終于紅了

      別人一夜成名,他一輩子排練,如今48歲的他,搭檔郭京飛終于紅了

      徐幫陽
      2026-01-01 23:31:32
      A股:央行加碼釋放流動性,證監(jiān)會最新發(fā)布,AI應(yīng)用持續(xù)迎來利好!

      A股:央行加碼釋放流動性,證監(jiān)會最新發(fā)布,AI應(yīng)用持續(xù)迎來利好!

      深析古今
      2026-01-08 09:25:16
      烏軍2025年傷亡15萬人,川普“奪取格陵蘭島”聲東擊西

      烏軍2025年傷亡15萬人,川普“奪取格陵蘭島”聲東擊西

      史政先鋒
      2026-01-07 21:59:13
      醫(yī)生從瀕死患者動脈掏血栓如同掏碎肉,因為嚴重的肺動脈栓塞,導(dǎo)致血氧極低無法自主呼吸

      醫(yī)生從瀕死患者動脈掏血栓如同掏碎肉,因為嚴重的肺動脈栓塞,導(dǎo)致血氧極低無法自主呼吸

      觀威海
      2026-01-06 10:46:23
      三星掌門人北京逛街,穿“老頭馬甲”秒售罄!有錢男人為啥愛馬甲

      三星掌門人北京逛街,穿“老頭馬甲”秒售罄!有錢男人為啥愛馬甲

      商務(wù)范
      2026-01-07 17:57:48
      沈陽今晚大雪!10個違停點位重點整治!

      沈陽今晚大雪!10個違停點位重點整治!

      沈陽公交網(wǎng)小林
      2026-01-09 00:14:06
      一光年有多遠?為什么它會讓科學家絕望,答案出乎你的意料

      一光年有多遠?為什么它會讓科學家絕望,答案出乎你的意料

      觀察宇宙
      2026-01-08 20:10:26
      女子開車不慎掉進池塘,71歲大爺跳河救人,事后女子上門感謝,竟在大爺家中看見自己小時候的照片.....

      女子開車不慎掉進池塘,71歲大爺跳河救人,事后女子上門感謝,竟在大爺家中看見自己小時候的照片.....

      喬話
      2026-01-06 22:36:58
      隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

      隱忍24年,陳婷終于撕下完美偽裝,她給所有“已婚女人”上了一課

      洲洲影視娛評
      2026-01-04 12:27:25
      為何中國軍力嚇不倒日本,石破茂說得一針見血,還會走老路的

      為何中國軍力嚇不倒日本,石破茂說得一針見血,還會走老路的

      瑛派兒老黃
      2025-12-02 21:11:13
      早餐為什么不能喝粥?醫(yī)生:不止是粥,這幾類食物,請嘴下留情

      早餐為什么不能喝粥?醫(yī)生:不止是粥,這幾類食物,請嘴下留情

      健康之光
      2025-12-31 07:25:03
      新年第一瓜,老王的小嬌妻留不住了!

      新年第一瓜,老王的小嬌妻留不住了!

      仕道
      2026-01-07 10:29:10
      廣東今日早報!杜鋒深夜發(fā)聲,徐杰新身份曝光,麥考爾復(fù)刻馬尚

      廣東今日早報!杜鋒深夜發(fā)聲,徐杰新身份曝光,麥考爾復(fù)刻馬尚

      多特體育說
      2026-01-08 06:40:03
      越南不恨美國,不恨日本,連殖民幾十年的法國都不恨,就只恨中國

      越南不恨美國,不恨日本,連殖民幾十年的法國都不恨,就只恨中國

      我心縱橫天地間
      2026-01-07 19:17:18
      索爾斯克亞救急只要5萬周薪?

      索爾斯克亞救急只要5萬周薪?

      體壇周報
      2026-01-09 00:25:35
      2026-01-09 02:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12080文章數(shù) 142533關(guān)注度
      往期回顧 全部

      科技要聞

      智譜拿下“全球大模型第一股”,憑什么

      頭條要聞

      采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

      頭條要聞

      采用俄羅斯的防空系統(tǒng) 委內(nèi)瑞拉防空體系因何失效

      體育要聞

      世乒賽銀牌得主,說自己夢里都是孫穎莎

      娛樂要聞

      抗戰(zhàn)劇《馬背搖籃》首播,獲觀眾好評

      財經(jīng)要聞

      微軟CTO韋青:未來人類會花錢"戒手機"

      汽車要聞

      從量變到"智"變 吉利在CES打出了五張牌

      態(tài)度原創(chuàng)

      教育
      本地
      時尚
      手機
      公開課

      教育要聞

      一覺醒來,全球傳播學倒退100年(無限流)

      本地新聞

      1986-2026,一通電話的時空旅程

      珍珠專場|| 無論18歲還是80歲,總是會為它再一次心動

      手機要聞

      1699一加Turbo6首發(fā)測評丨 9000mAh 大電池165超高幀

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: AV成人| 麻豆国产97在线 | 欧洲| 国产自在自线午夜精品| 国产va免费精品观看| 亚洲无码成人电影| 一二三四视频社区3在线高清| 成人毛片18女人毛片免费| 原阳县| 日韩人妻无码一区二区三区综合部| 色综合久| 无码中文字幕| 亚洲狠狠| 欧美人与动zozo在线播放| 免费无码黄十八禁网站| 亚洲国产日韩精品久久| 久久久无码精品国产一区| 日本道专区无码中文字幕| 久久精品www人人爽人人| 国产性猛交xxxx乱大的交 | 久久婷婷激情| 中文字幕亚洲天堂| 525f| 人人妻人人澡人人爽国产一区| 一区二区三区av天堂| 亚洲视频一区| 在线观看视频一区二区三区| 国产九色AV刺激露脸对白| 91婷婷| 中文字幕佐山爱一区二区免费| 男人用嘴添女人私密视频| 免费人妻无码不卡中文字幕18禁| 国产精品理论片| 新泰市| 亚洲精品乱码久久久久久蜜桃| 国产一级AAAAA片免费| 国精产品一区一区三区有限公司杨| 夫妻拳交自拍| 小婕子伦流澡到高潮h| 国产精品老熟女400部| 中文字幕成人网| 9l精品国产一区二区|