![]()
編輯|+0
站在 2026 年的開端回望,LLM 的架構之爭似乎進入了一個新的微妙階段。過去幾年,Transformer 架構以絕對的統治力橫掃了人工智能領域,但隨著算力成本的博弈和對推理效率的極致追求,挑戰者們從未停止過腳步。
知名 AI 研究員 Sebastian Raschka 的最新洞察中,他不僅回應了關于「Transformer 是否會被取代」的年度終極之問,更敏銳地捕捉到了近期業界的一個重要轉向:從單純追求模型參數的「大力出奇跡」,轉向了混合架構與效率微調的精細化戰爭。
同時,文章還探討了一個極具潛力的變量:擴散語言模型。這類模型在 Google 等巨頭的布局下會有怎樣的表現?它們在「工具調用」上的天然缺陷是否會成為阿喀琉斯之踵?而在高質量數據日益枯竭的今天,擴散模型又是否能憑借「超級數據學習者」的特性,成為打破數據墻的關鍵?
以下內容編譯自 Sebastian Raschka 的最新博文,并結合文中提及的前沿論文及往期深度分析進行了系統性拓展,以便讀者獲取更完整的上下文視角。
![]()
- 博客地址:https://x.com/rasbt/status/2010376305720594810
最近幾周,我經常被問到的一個問題是:在 2026 年,我們是否會看到自回歸 Transformer 架構(即標準的 LLM)的替代方案。
就目前而言,我堅信Transformer 在未來(至少一到幾年內)仍將保持其在 SOTA 性能方面的地位。它是當前 AI 生態系統的基石,擁有最成熟的工具鏈和優化方案。
但是,情況確實會發生一些微調。這并不是說架構會一成不變,而是這種變化更多體現在「效率」和「混合」上,而非徹底的推倒重來。
效率戰爭:
混合架構與線性注意力的崛起
臨近去年年底,我們看到業界更加關注混合架構以及如何提高其效率。當然,這并不是什么新想法,但近期來自頂尖實驗室的發布表明,目前的側重點已明顯向此傾斜。
我們回顧一下 DeepSeek V3 以及隨后的 R1,它們展示了混合專家模型(MoE)和多頭潛在注意力(MLA)的強大之處。DeepSeek V3 通過 MLA 顯著減少了推理時的 KV Cache 占用,而 MoE 架構則允許模型在擁有 6710 億參數的同時,每次推理僅激活 370 億參數。這種在保持模型巨大容量的同時極致壓縮推理成本的設計思路,正是 2025 年末到 2026 年的主旋律。
但這還不是全部。除了 MoE,我們看到了更激進的效率嘗試,例如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3,以及采用了稀疏注意力機制的 DeepSeek V3.2。(如果您對更多細節感興趣,我在之前的《Big LLM Architecture Comparison》一文中對此進行了報道。)
![]()
帶有這類效率調整的 Transformer 架構示意圖。
- 相關鏈接:https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison
為什么大家都在卷「線性注意力」或「稀疏注意力」?
標準的 Transformer 注意力機制(Scaled Dot-Product Attention)具有 O(N^2) 的復雜度,這意味著隨著上下文長度的增加,計算成本呈二次方爆炸式增長。
- Qwen3-NextKimi Linear采用了一種混合策略:它們并非完全拋棄標準注意力,而是將高效的線性層(如 Gated DeltaNet)與全注意力層以一定比例(如 3:1)混合。這種設計試圖在捕捉長距離依賴(全注意力的強項)和推理速度(線性層的強項)之間找到最佳平衡點。
- DeepSeek V3.2則引入了稀疏注意力,通過只計算最重要的 Token 之間的相互作用,進一步降低了計算開銷。
這些「微調」表明,2026 年的競爭不再僅僅是看誰的模型更聰明,而是看誰能在更長的上下文、更低的延遲下提供同等的智能。
擴散語言模型:
速度與代價的博弈
話說回來,除了 Transformer 的變體,擴散語言模型怎么樣?
擴散語言模型之所以具有吸引力,是因為它們能夠以相對快速且低廉的成本生成 Token。與自回歸模型(AR)那種「一個字接一個字」的串行生成不同,擴散模型采用的是并行生成。
想象一下,自回歸模型像是一個人在打字,必須打完上一個字才能打下一個;而擴散模型更像是在沖洗一張照片,整段文字從模糊的噪聲中同時顯現,經過數次「去噪」迭代后變得清晰。
我前陣子在《Beyond Standard LLMs》一文中對此多寫了一些。簡而言之,我認為 2026 年我們會看到更多相關內容,Google 可能會推出Gemini Diffusion作為其更便宜的 Flash 模型的替代品。Google 已經在其技術博客中暗示了這一點,強調其生成速度「明顯快于我們目前最快的模型」。
- 相關鏈接:https://magazine.sebastianraschka.com/p/beyond-standard-llms
然而,雖然擴散語言模型的優勢在于它們可以并行生成 Token,但這同時也是一個巨大的缺點。因為由于并行生成的特性,它們無法在響應鏈中原生地整合工具調用。
在自回歸模型中,模型可以生成「調用計算器」的指令,暫停,等待結果,然后再繼續生成。而在擴散模型中,整個響應是同時生成的,很難在中間插入一個外部工具的交互步驟。這使得它們在作為智能體使用時面臨巨大挑戰。

文本擴散過程示例。
此外,雖然眾所周知文本擴散推理效率更高,但最近的研究也表明,如果你為了提升質量而增加去噪步數以匹配自回歸模型的性能,那么最終的計算預算其實是相差無幾的。
數據枯竭時代的「超級學習者」
那么,我想表達什么呢?既然擴散模型有這些缺陷,為什么我還認為它值得關注?
我原本計劃討論一月份發布的近期一系列有趣的研究,但我還是想簡要重點介紹一篇我在「待讀論文」清單上的、2025 年 11 月的有趣論文,它強調了擴散語言模型的一個有趣優勢:《Diffusion Language Models are Super Data Learners》。
- 論文地址:https://arxiv.org/abs/2511.03276
![]()
來自論文《Diffusion Language Models are Super Data Learners》的帶注釋圖表。
這篇論文提出了一個在 2026 年至關重要的觀點:當高質量數據變得稀缺時,擴散模型可能是更好的學習者。
眾所周知,互聯網上的高質量文本數據正在接近枯竭。對于自回歸(AR)模型來說,通常我們只讓模型把數據「看」一遍(1 Epoch)。如果讓 AR 模型反復在同一份數據上訓練,它們很容易過擬合,即死記硬背訓練數據,導致在未見過的新任務上表現下降。
然而,上述論文表明,當進行多 Epoch 訓練時,文本擴散模型的表現可能優于標準的自回歸(AR)大語言模型。
根據論文的研究結果,在嚴格控制的預訓練設置下,當唯一數據量有限時,通過增加訓練輪數,擴散語言模型的表現持續超越了自回歸模型。
這一現象被稱為「Crossover(交叉點)」:
- 當數據量充足時,AR 模型學得更快。
- 但當數據受限時,DLM 是最終的贏家。例如,一個 10 億參數的 DLM 模型,僅僅通過反復訓練 10 億個 Token(這在今天看是非常小的數據量),在 HellaSwag 和 MMLU 基準測試上分別達到了 >56% 和 >33% 的準確率,且沒有使用任何特殊技巧。
為什么會這樣?論文歸結為三個因素:
- 任意順序建模:AR 模型被迫只能從左到右學習,而擴散模型可以學習文本中任意位置之間的依賴關系。
- 超高密度計算:通過迭代的雙向去噪,DLM 在訓練時實際上對每個樣本進行了更深度的壓榨。
- 內置的蒙特卡洛增強:擴散過程本身就是一種數據增強。同一個句子,每次加噪的方式都不一樣,相當于把一條數據變成了無數條變體。
更有趣的是,論文發現,對于 DLM 來說,驗證集損失的上升并不意味著下游能力的下降。即便模型在驗證集上看起來「過擬合」了,它在實際任務(如代碼生成、推理)上的表現仍在提升。
由于成本原因,過去沒有人會在多個 Epoch 上訓練大語言模型。但在數據枯竭的今天,如果我們不得不進行多 Epoch 訓練,擴散模型似乎提供了一條新出路。
這確實是有趣的結果!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.