<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      唯快不破:上海AI Lab 82頁綜述帶你感受LLM高效架構的魅力

      0
      分享至



      作者:孫偉高上海人工智能實驗室

      近年來,大語言模型(LLMs)展現出強大的語言理解與生成能力,推動了文本生成、代碼生成、問答、翻譯等任務的突破。代表性模型如 GPT、Claude、Gemini、DeepSeek、Qwen 等,已經深刻改變了人機交互方式。LLMs 的邊界也不止于語言和簡單問答。隨著多模態(VLMs)與推理能力(LRMs)的興起,LLMs 正不斷擴展到多模態理解、生成與復雜推理場景。

      但模型性能持續提升的背后,是模型尺寸、數據規模、RL 推理長度的快速 Scaling,是算力和存儲資源的急劇消耗。大模型的訓練與推理的成本居高不下,成為制約其廣泛落地和應用的現實瓶頸。

      本文從 LLM 架構角度出發,帶你剖析大模型的效率秘訣。這一切的核心在于 Transformer 架構。Transformer 的自注意力機制雖帶來了遠距離建模的突破,卻因O(N2)的復雜度在長序列任務中成本高昂。而在 RAG、智能體、長鏈推理、多模態等新興場景下,長序列需求愈發突出,進一步放大了效率與性能之間的矛盾。同時 Transformer 的 FFN 部分采用密集的 MLP 層,同樣面臨模型規模放大后的訓練和推理效率問題。

      近年來針對 Transformer 架構改進的創新工作層出不窮,卻一直缺乏一篇全面深入的綜述文章進行總結。



      圖 1:常見長序列場景

      近期,上海 AI Lab聯合港科廣、澳門大學、中科院自動化所、蘇州大學、瑞典 KTH、北大、港中文等多家機構,總結 440 余篇相關論文,深入探討了當前LLM 高效結構的最新進展,形成這篇 82 頁的綜述論文:



      • 論文標題:Speed Always Wins: A Survey on Efficient Architectures for Large Language Models
      • 論文地址:
      • https://arxiv.org/pdf/2508.09834
      • 項目倉庫:
      • https://github.com/weigao266/Awesome-Efficient-Arch



      圖 2:大語言模型高效架構概覽

      該綜述將目前 LLM 高效架構總結分類為以下 7 類:

      • 線性序列建模:降低注意力訓練和推理復雜度,無需 KV Cache 開銷。
      • 稀疏序列建模:通過稀疏化注意力矩陣,降低計算與顯存需求。
      • 高效全注意力:在保持完整注意力的前提下優化內存訪問與 KV 存儲。
      • 稀疏專家模型:通過條件激活部分專家,大幅提升模型容量而不增加等比例計算成本。
      • 混合模型架構:結合線性/稀疏序列建模與全注意力,兼顧效率與性能。
      • 擴散語言模型:利用非自回歸的擴散模型進行語言生成。
      • 其他模態應用:將這些高效架構應用于視覺、語音、多模態模型。

      這些方向的探索不僅關乎 LLM 的未來效率,也關乎如何在算力受限的條件下,持續推動 AI 走向更強的智能的關鍵選擇。綜述涉及的方法類別和代表性論文可見如下樹狀圖:



      圖 3:綜述完整組織架構

      線性序列建模

      線性序列建模是近年來研究相當火熱的一個方向,代表性工作像Mamba、Lighting Attention、RWKV、GLA、TTT 等在模型架構方向都引起過廣泛關注。我們將這類技術細分為以下幾個類別:

      • 線性注意力
      • 線性 RNN
      • 狀態空間模型
      • 測試時推理 RNN

      并且正如在多篇文獻里已經提出的,這些線性序列建模方法可以概括為統一建模的數學形式,并且能夠通過線性化過程將預訓練模型權重的 Softmax Attention 架構轉為 Linear Sequence Modeling 架構,從而獲得模型效率的大幅提升,如下圖所示。



      圖 4:線性序列建模方法

      我們將已有的線性序列建模方法從記憶視角和優化器視角分別進行梳理和對比,詳細形式可見下表:



      表 1:線性序列建模方法統一建模的 Memory 視角和 Optimizer 視角

      其中線性化技術可以進一步細分為基于微調的線性化,和基于蒸餾的線性化,如下圖所示:



      圖 5:線性化方法

      綜述還進一步總結歸納了目前在線性序列建模領域常見的硬件高效實現方法,可以歸納為 Blelloch Scan、Chunk-wise Parallel 和 Recurrent for Inferences,如下圖所示:



      圖 6:線性序列建模方法的硬件高效實現

      稀疏序列建模

      稀疏序列建模是另一類有代表性的高效注意力機制,通過利用 Attention Map 天然具有的稀疏性加速注意力的計算,這類方法可以進一步細分為:

      • 靜態稀疏注意力
      • 動態稀疏注意力
      • 免訓練稀疏注意力

      代表性的稀疏注意力方法如 Global Attention、Window Attention、Dilated Attention 等,及其工作原理如下圖所示:



      圖 7:稀疏注意力的幾種經典形式

      高效全注意力

      另一類高效注意力算法可以統一歸納為高效全注意力,這類方法可以根據算法思路進一步細分為如下幾類:

      • IO-Aware Attention
      • Grouped Attention
      • Mixture of Attention
      • Quantized Attention

      其中 IO-Aware Attention 指代目前使用非常廣泛的Flash Attention系列工作,Grouped Attention 則包含廣為使用的 GQA、MLA等全注意力變體,幾種代表性方法如下圖所示。



      圖 8:Grouped Attention 的幾種代表性方法

      稀疏混合專家

      稀疏混合專家是對 Transformer 架構中另一個重要模塊 FFN 做的一類重要改進,已經逐漸成為(語言和多模態)大模型架構的事實標準。綜述中將相關文獻按以下三個方向進行分類:

      • Routing Mechanisms
      • Expert Architectures
      • MoE Conversion

      路由機制包括 Token-choice 和 Expert-choice 兩類,其原理如下圖所示:



      圖 9:MoE 路由機制

      專家結構的創新工作包括:共享專家、細粒度專家、零專家、深度路由等,其作用和原理可見下圖:



      圖 10:MoE 專家架構

      另外一個重要的方向是 MoE 轉換,已有的工作包括通過 Split、Copy、Merge 等手段對專家進行構造,如下圖所示:



      圖 11:MoE 轉化機制

      混合架構

      混合架構是近年來出現的一種實用的新型架構,可以在線性/稀疏注意力和全注意力之間取得微妙的 Trade-off,也在效率和效果間找到了最佳甜蜜點。具體可細分為:

      • 層間混合
      • 層內混合



      圖 12:混合架構形式

      擴散大語言模型

      擴散大語言模型是近期出現的一個熱門方向,創新性地將擴散模型從視覺生成任務遷移至語言任務,從而在語言生成速度上取得大幅進步。相關工作可以細分為:

      • Non-Autoregressive Diffusion LLM
      • Bridging Diffusion LLM and Autoregressive
      • Extending Diffusion LLM to Multimodality



      圖 13:擴散大語言模型機制

      應用至其他模態

      最后一個重要的部分是高效架構在其他模態上的應用,涵蓋視覺、音頻和多模態。以 Mamba 為代表的線性模型被廣泛應用至多種模態任務上,并取得了優秀的表現,綜述將這類模型總結梳理至如下表格:



      寄語

      最后正如帝國時代 3 中這條神奇代碼「Speed Always Wins」能讓游戲世界「Increases build, research,shipment, and gather rates by 100 times for all players」一樣,我們希望綜述中的 Efficient Architectures 可以真被用來 100x 加速 AI 世界的構建,更快更便宜地訓練出更強更實用的大模型。請記住這條神奇代碼:「Speed Always Wins」

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      女子違停豎中指被撞,交警最新回應來了!責任劃分引全網熱議

      女子違停豎中指被撞,交警最新回應來了!責任劃分引全網熱議

      天天熱點見聞
      2026-01-23 12:57:06
      深入緬甸廢棄詐騙園區后,我發現這里最殘酷的真相

      深入緬甸廢棄詐騙園區后,我發現這里最殘酷的真相

      伯利塔BERITA
      2026-01-23 19:29:46
      千萬網紅“一栗小莎子”確診癌癥,不良惡習害了她,兒子不到兩歲

      千萬網紅“一栗小莎子”確診癌癥,不良惡習害了她,兒子不到兩歲

      以茶帶書
      2026-01-22 19:35:35
      尺度大到變態,這新劇太重口了

      尺度大到變態,這新劇太重口了

      天天美劇吧
      2026-01-23 20:37:50
      特朗普通告全球,不許減持美國國債;中方還剩6830億,游戲已結束

      特朗普通告全球,不許減持美國國債;中方還剩6830億,游戲已結束

      妙知
      2026-01-24 12:34:23
      46歲藍正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

      46歲藍正龍悉尼被偶遇!造型邋遢似流浪漢,手提臺灣LV太搶眼

      史行途
      2026-01-23 15:57:57
      TOP14位身高170以上的女神,有顏有燈有演技

      TOP14位身高170以上的女神,有顏有燈有演技

      素然追光
      2026-01-02 02:45:02
      澳網女單16強全出爐:王欣瑜首進第二周,前8號種子僅1人掉隊

      澳網女單16強全出爐:王欣瑜首進第二周,前8號種子僅1人掉隊

      全景體育V
      2026-01-24 19:28:55
      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      21-15,24-22!陳雨菲KO手下敗將,2026年首進決賽,打破冠軍荒?

      劉姚堯的文字城堡
      2026-01-24 14:43:42
      云南省公安廳情報指揮中心合成作戰支隊支隊長袁滿榮接受紀律審查和監察調查

      云南省公安廳情報指揮中心合成作戰支隊支隊長袁滿榮接受紀律審查和監察調查

      昆明信息港
      2026-01-24 14:55:58
      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      胡宗南明知熊向暉是中共臥底卻不抓他,沈醉晚年回憶說出背后原因

      飯小妹說歷史
      2026-01-07 09:30:45
      四大名著,終于有人敢說,這本,該踢出四大名著了

      四大名著,終于有人敢說,這本,該踢出四大名著了

      長風文史
      2026-01-22 15:17:46
      挪威求救:每多吃一只帝王蟹都是在拯救地球!泛濫成災還這么貴?

      挪威求救:每多吃一只帝王蟹都是在拯救地球!泛濫成災還這么貴?

      北緯的咖啡豆
      2026-01-24 14:14:11
      上千艘中國船集結!長達467公里,日右翼恍然大悟,石破茂是對的

      上千艘中國船集結!長達467公里,日右翼恍然大悟,石破茂是對的

      boss外傳
      2026-01-23 20:00:03
      記者調查江蘇洪澤湖、駱馬湖非法捕撈:小魚直接被電死,不法分子用電舀擊打執法人員致腦震蕩

      記者調查江蘇洪澤湖、駱馬湖非法捕撈:小魚直接被電死,不法分子用電舀擊打執法人員致腦震蕩

      網絡易不易
      2026-01-24 12:50:51
      牛股業績出爐!300475、688233、300503,預計盈利大增

      牛股業績出爐!300475、688233、300503,預計盈利大增

      證券時報e公司
      2026-01-24 14:43:33
      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      6000米深海!日本重金開采稀土,剛動手就被中國一紙禁令“掐喉”

      素衣讀史
      2026-01-23 17:20:48
      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      比恒大還慘!中國第二大民企倒了,負債7500億,創始人被帶走

      芳芳歷史燴
      2025-12-25 20:32:52
      46名學者學術不端,被集中通報批評

      46名學者學術不端,被集中通報批評

      新京報政事兒
      2026-01-24 14:50:35
      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      顧史
      2026-01-21 21:04:39
      2026-01-24 21:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12179文章數 142549關注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      安徽女教師校內宿舍病亡2天后才被發現 學校:建議起訴

      頭條要聞

      安徽女教師校內宿舍病亡2天后才被發現 學校:建議起訴

      體育要聞

      當家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現身馬年春晚

      財經要聞

      “百年老字號”張小泉遭60億債務壓頂

      汽車要聞

      有增程和純電版可選 日產NX8或于3-4月間上市

      態度原創

      手機
      教育
      本地
      旅游
      公開課

      手機要聞

      iOS 26.4前瞻匯總:Siri接入谷歌AI,并擁有多項實用功能!

      教育要聞

      高三生注意!2026年四川高校體育單招簡章發布

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      旅游要聞

      在積木王國感受中國年味,上海樂高樂園新春主題盛典即將啟幕

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 常宁市| 超碰w| 日本熟妇人妻右手影院| 麻豆乱码国产一区二区三区| 人妻无码熟妇乱又伦精品视频| 五大连池市| 欧洲美女黑人粗性暴交视频| 亚洲熟女字幕| 日韩,制服,变态,综合,中文,人妻| 久久久精品人妻一区二区三区| 欧美第一黄网免费网站| 免费国产女王调教在线视频| 67194欧洲女人| 国模肉肉视频一区二区三区| 成人片黄网站色大片免费毛片| 91人人人| 成人乱人伦精品小说| 久久熟女| 日韩av东京热| 麻豆国产| 国产91麻豆免费观看| 搡老熟女老女人一区二区| 精品亚洲一区二区视频| 中文字幕久久久久人妻中出| 色妺妺视频网| 日韩欧美2| 亚洲男人天堂网| 亚洲日韩乱码中文无码蜜桃臀网站| 性色在线视频精品| 毛片内射久久久一区| 亚洲精品国产av一区二区| 欧美日韩人妻精品一区二区三区 | 欧美人精品人妻在线| 高级艳妇交换俱乐部小说| 无码熟妇人妻AV在线影片免费| 无码内射中文字幕岛国片| 国产乱子伦精品视频| 91精品国产综合久久久不打电影| 亚洲国产精品福利片在线观看| 香蕉久久av一区二区三区| 国产H片无码不卡在线视频|