<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      唯快不破:上海AI Lab 82頁綜述帶你感受LLM高效架構的魅力

      0
      分享至



      作者:孫偉高上海人工智能實驗室

      近年來,大語言模型(LLMs)展現出強大的語言理解與生成能力,推動了文本生成、代碼生成、問答、翻譯等任務的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已經深刻改變了人機交互方式。LLMs 的邊界也不止于語言和簡單問答。隨著多模態(VLMs)與推理能力(LRMs)的興起,LLMs 正不斷擴展到多模態理解、生成與復雜推理場景。

      但模型性能持續提升的背后,是模型尺寸、數據規模、RL 推理長度的快速 Scaling,是算力和存儲資源的急劇消耗。大模型的訓練與推理的成本居高不下,成為制約其廣泛落地和應用的現實瓶頸。

      本文從 LLM 架構角度出發,帶你剖析大模型的效率秘訣。這一切的核心在于 Transformer 架構。Transformer 的自注意力機制雖帶來了遠距離建模的突破,卻因O(N2)的復雜度在長序列任務中成本高昂。而在 RAG、智能體、長鏈推理、多模態等新興場景下,長序列需求愈發突出,進一步放大了效率與性能之間的矛盾。同時 Transformer 的 FFN 部分采用密集的 MLP 層,同樣面臨模型規模放大后的訓練和推理效率問題。

      近年來針對 Transformer 架構改進的創新工作層出不窮,卻一直缺乏一篇全面深入的綜述文章進行總結。



      圖 1:常見長序列場景

      近期,上海 AI Lab聯合港科廣、澳門大學、中科院自動化所、蘇州大學、瑞典 KTH、北大、港中文等多家機構,總結 440 余篇相關論文,深入探討了當前LLM 高效結構的最新進展,形成這篇 82 頁的綜述論文:



      • 論文標題:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
      • 論文地址:
      • https://arxiv.org/pdf/2508.09834
      • 項目倉庫:
      • https://github.com/weigao266/Awesome-Efficient-Arch



      圖 2:大語言模型高效架構概覽

      該綜述將目前 LLM 高效架構總結分類為以下 7 類:

      • 線性序列建模:降低注意力訓練和推理復雜度,無需 KV Cache 開銷。
      • 稀疏序列建模:通過稀疏化注意力矩陣,降低計算與顯存需求。
      • 高效全注意力:在保持完整注意力的前提下優化內存訪問與 KV 存儲。
      • 稀疏專家模型:通過條件激活部分專家,大幅提升模型容量而不增加等比例計算成本。
      • 混合模型架構:結合線性/稀疏序列建模與全注意力,兼顧效率與性能。
      • 擴散語言模型:利用非自回歸的擴散模型進行語言生成。
      • 其他模態應用:將這些高效架構應用于視覺、語音、多模態模型。

      這些方向的探索不僅關乎 LLM 的未來效率,也關乎如何在算力受限的條件下,持續推動 AI 走向更強的智能的關鍵選擇。綜述涉及的方法類別和代表性論文可見如下樹狀圖:



      圖 3:綜述完整組織架構

      線性序列建模

      線性序列建模是近年來研究相當火熱的一個方向,代表性工作像Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架構方向都引起過廣泛關注。我們將這類技術細分為以下幾個類別:

      • 線性注意力
      • 線性 RNN
      • 狀態空間模型
      • 測試時推理 RNN

      并且正如在多篇文獻里已經提出的,這些線性序列建模方法可以概括為統一建模的數學形式,并且能夠通過線性化過程將預訓練模型權重的 Softmax Attention 架構轉為 Linear Sequence Modeling 架構,從而獲得模型效率的大幅提升,如下圖所示。



      圖 4:線性序列建模方法

      我們將已有的線性序列建模方法從記憶視角和優化器視角分別進行梳理和對比,詳細形式可見下表:



      表 1:線性序列建模方法統一建模的 Memory 視角和 Optimizer 視角

      其中線性化技術可以進一步細分為基于微調的線性化,和基于蒸餾的線性化,如下圖所示:



      圖 5:線性化方法

      綜述還進一步總結歸納了目前在線性序列建模領域常見的硬件高效實現方法,可以歸納為 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences,如下圖所示:



      圖 6:線性序列建模方法的硬件高效實現

      稀疏序列建模

      稀疏序列建模是另一類有代表性的高效注意力機制,通過利用 Attention Map 天然具有的稀疏性加速注意力的計算,這類方法可以進一步細分為:

      • 靜態稀疏注意力
      • 動態稀疏注意力
      • 免訓練稀疏注意力

      代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等,及其工作原理如下圖所示:



      圖 7:稀疏注意力的幾種經典形式

      高效全注意力

      另一類高效注意力算法可以統一歸納為高效全注意力,這類方法可以根據算法思路進一步細分為如下幾類:

      • IO-Aware Attention
      • Grouped Attention
      • Mixture of Attention
      • Quantized Attention

      其中 IO-Aware Attention 指代目前使用非常廣泛的Flash Attention系列工作,Grouped Attention 則包含廣為使用的 GQA、MLA等全注意力變體,幾種代表性方法如下圖所示。



      圖 8:Grouped Attention 的幾種代表性方法

      稀疏混合專家

      稀疏混合專家是對 Transformer 架構中另一個重要模塊 FFN 做的一類重要改進,已經逐漸成為(語言和多模態)大模型架構的事實標準。綜述中將相關文獻按以下三個方向進行分類:

      • Routing Mechanisms
      • Expert Architectures
      • MoE Conversion

      路由機制包括 Token-choice 和 Expert-choice 兩類,其原理如下圖所示:



      圖 9:MoE 路由機制

      專家結構的創新工作包括:共享專家、細粒度專家、零專家、深度路由等,其作用和原理可見下圖:



      圖 10:MoE 專家架構

      另外一個重要的方向是 MoE 轉換,已有的工作包括通過 Split、Copy、Merge 等手段對專家進行構造,如下圖所示:



      圖 11:MoE 轉化機制

      混合架構

      混合架構是近年來出現的一種實用的新型架構,可以在線性/稀疏注意力和全注意力之間取得微妙的 Trade-off,也在效率和效果間找到了最佳甜蜜點。具體可細分為:

      • 層間混合
      • 層內混合



      圖 12:混合架構形式

      擴散大語言模型

      擴散大語言模型是近期出現的一個熱門方向,創新性地將擴散模型從視覺生成任務遷移至語言任務,從而在語言生成速度上取得大幅進步。相關工作可以細分為:

      • Non-Autoregressive Diffusion LLM
      • Bridging Diffusion LLM and Autoregressive
      • Extending Diffusion LLM to Multimodality



      圖 13:擴散大語言模型機制

      應用至其他模態

      最后一個重要的部分是高效架構在其他模態上的應用,涵蓋視覺、音頻和多模態。以 Mamba 為代表的線性模型被廣泛應用至多種模態任務上,并取得了優秀的表現,綜述將這類模型總結梳理至如下表格:



      寄語

      最后正如帝國時代 3 中這條神奇代碼「Speed Always Wins」能讓游戲世界「Increases build, research,shipment, and gather rates by 100 times for all players」一樣,我們希望綜述中的 Efficient Architectures 可以真被用來 100x 加速 AI 世界的構建,更快更便宜地訓練出更強更實用的大模型。請記住這條神奇代碼:「Speed Always Wins」

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      邁阿密奪冠夜,貝克漢姆成最大贏家!15年堅守終圓老板冠軍夢

      邁阿密奪冠夜,貝克漢姆成最大贏家!15年堅守終圓老板冠軍夢

      許侶很機智
      2025-12-08 08:18:15
      詹姆斯:馬克西現在跑得比我快得多,我很欣賞他的球技更欣賞他這個人

      詹姆斯:馬克西現在跑得比我快得多,我很欣賞他的球技更欣賞他這個人

      懂球帝
      2025-12-08 14:50:10
      72歲曾志偉和紅顏知己現身日本大阪逛商場購物,手牽手很親密

      72歲曾志偉和紅顏知己現身日本大阪逛商場購物,手牽手很親密

      陳意小可愛
      2025-12-06 01:59:29
      身高152cm的華人毒王:年入180億$,8個保鏢隨身,跨國帝國崩塌記

      身高152cm的華人毒王:年入180億$,8個保鏢隨身,跨國帝國崩塌記

      最英國
      2025-12-08 18:55:48
      苦相臉、觀眾緣差的藍盈瑩,這次亮相尖叫之夜,竟被網友紛紛怒贊

      苦相臉、觀眾緣差的藍盈瑩,這次亮相尖叫之夜,竟被網友紛紛怒贊

      流云隨風去遠方
      2025-12-07 18:33:34
      盧克文工作室被封:一個“地攤戰略家”的破產

      盧克文工作室被封:一個“地攤戰略家”的破產

      智識漂流
      2025-12-08 14:09:40
      退學北大又考上清華小伙被白嫖300元家教費,當事人:已掌握學生信息但不會曝光,錢要不要也無所謂,希望他和家長能向我道歉

      退學北大又考上清華小伙被白嫖300元家教費,當事人:已掌握學生信息但不會曝光,錢要不要也無所謂,希望他和家長能向我道歉

      極目新聞
      2025-12-07 17:55:32
      朱孝天現身機場,沖網友黑臉翻白眼,他一手扯爛了偶像圈的遮羞布

      朱孝天現身機場,沖網友黑臉翻白眼,他一手扯爛了偶像圈的遮羞布

      甜檸聊史
      2025-12-08 13:19:39
      再見字母哥!史詩級3方交易方案 尼克斯組3巨頭沖冠 湖人趁火打劫

      再見字母哥!史詩級3方交易方案 尼克斯組3巨頭沖冠 湖人趁火打劫

      毒舌NBA
      2025-12-08 15:08:48
      肅順的下場為什么這么慘?得罪慈禧太后是假,動了八旗利益才是真

      肅順的下場為什么這么慘?得罪慈禧太后是假,動了八旗利益才是真

      銘記歷史呀
      2025-12-08 13:55:38
      曾風靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      曾風靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      小柱解說游戲
      2025-12-07 10:04:13
      不少人誤判了?我們等的不是動手,而是讓美國自己棄牌的時刻

      不少人誤判了?我們等的不是動手,而是讓美國自己棄牌的時刻

      策略述
      2025-12-08 16:17:31
      山東人能有多硬核?網友:白酒放好幾年了我都喝,沒事

      山東人能有多硬核?網友:白酒放好幾年了我都喝,沒事

      帶你感受人間冷暖
      2025-12-08 00:05:10
      真的沒想到,劉亦菲這一刀下去,給整個娛樂圈整不會了

      真的沒想到,劉亦菲這一刀下去,給整個娛樂圈整不會了

      小娛樂悠悠
      2025-12-06 11:33:37
      4+5+2!楊瀚森把221cm埃迪搞麻了,拓記說后悔選小楊,隨后遭打臉

      4+5+2!楊瀚森把221cm埃迪搞麻了,拓記說后悔選小楊,隨后遭打臉

      多多體育
      2025-12-08 09:49:06
      巴勒斯坦感謝中方1億美元無償援助,稱贊此舉體現支持正義立場

      巴勒斯坦感謝中方1億美元無償援助,稱贊此舉體現支持正義立場

      環球熱點快評
      2025-12-05 09:27:27
      77年出生的黃曉明喊72年出生的王鶴棣爸爸“叔叔”,叫完才發現不對勁!王鶴棣:我叫你大哥,你叫我爸大哥

      77年出生的黃曉明喊72年出生的王鶴棣爸爸“叔叔”,叫完才發現不對勁!王鶴棣:我叫你大哥,你叫我爸大哥

      極目新聞
      2025-12-08 08:26:33
      拿下特斯拉大單,手握2家上市公司!“中國最大忽悠”要翻身了?

      拿下特斯拉大單,手握2家上市公司!“中國最大忽悠”要翻身了?

      品牌觀察官
      2025-12-07 20:49:20
      風向突變!450億顆芯片斷供,荷蘭突然宣布光刻機決定,外媒:這是滅頂之災

      風向突變!450億顆芯片斷供,荷蘭突然宣布光刻機決定,外媒:這是滅頂之災

      V記錄號
      2025-12-08 00:46:27
      0-2大冷門!14億豪門主場轟然倒下5輪1勝 兩大邊后衛染紅中衛重傷

      0-2大冷門!14億豪門主場轟然倒下5輪1勝 兩大邊后衛染紅中衛重傷

      狍子歪解體壇
      2025-12-08 06:28:49
      2025-12-08 19:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11873文章數 142510關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      房產
      親子
      旅游
      本地
      藝術

      房產要聞

      碧桂園,開始甩賣海口家底!

      親子要聞

      這屆家長,花5000元讓孩子“離8米遠看書”,有用嗎?

      旅游要聞

      “趣唱、趣跑、趣逛” 豐富游園體驗,世紀公園持續探索“公園+”

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      藝術要聞

      一棵樹的力量

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品人妻一区二区三区奶水| 精精国产xxxx视频在线播放| 丝袜伊人网| 亚洲精品国产成人无码区在线| 风流老熟女一区二区三区| 岛国在线无码| 亚洲成人aⅤ| 亚洲欧洲美洲在线观看| 国产女人18毛片水真多1| 丰满大肥婆肥奶大屁股| 日本熟女视频| 亚洲日本韩国欧美云霸高清| 成人福利网站导航秘?涩涩屋| 四平市| av人摸人人人澡人人超碰下载 | 国产一区二区三区黄色片 | 国产精品集合| 视频| 精品国产日韩亚洲一区| 人人妻人人澡人人爽人人精品97| 国产成人欧美一区二区三区在线| 宫西光在线| 天天躁日日躁狠狠躁av麻豆| 成人黃色A片免费看三更小说| 国产人妖乱国产精品人妖| 欧美性猛交99久久久久99按摩| 成人视频在线观看18| 亚洲国产精品成人网站| 阿拉尔市| 精品国精品无码自拍自在线| 日本免费一区二区三区在线播放| 美女一区二区三区亚洲麻豆| 青青综合网| 日韩人妻系列无码专区| 婷婷久久香蕉五月综合加勒比| 国产成人a在线观看视频| 69xxx国产| 国产精品乱子乱xxxx| 性饥渴艳妇性色生活片在线播放| 色九九视频| 91视频免费网站|