網易首頁 > 網易號 > 正文申請入駐

Sebastian Raschka 2026預測:Transformer統治依舊,擴散模型崛起

2026-01-14 14:41:17　來源: 機器之心Pro

北京舉報

分享至

編輯｜+0

站在 2026 年的開端回望，LLM 的架構之爭似乎進入了一個新的微妙階段。過去幾年，Transformer 架構以絕對的統治力橫掃了人工智能領域，但隨著算力成本的博弈和對推理效率的極致追求，挑戰者們從未停止過腳步。

知名 AI 研究員 Sebastian Raschka 的最新洞察中，他不僅回應了關于「Transformer 是否會被取代」的年度終極之問，更敏銳地捕捉到了近期業界的一個重要轉向：從單純追求模型參數的「大力出奇跡」，轉向了混合架構與效率微調的精細化戰爭。

同時，文章還探討了一個極具潛力的變量：擴散語言模型。這類模型在 Google 等巨頭的布局下會有怎樣的表現？它們在「工具調用」上的天然缺陷是否會成為阿喀琉斯之踵？而在高質量數據日益枯竭的今天，擴散模型又是否能憑借「超級數據學習者」的特性，成為打破數據墻的關鍵？

以下內容編譯自 Sebastian Raschka 的最新博文，并結合文中提及的前沿論文及往期深度分析進行了系統性拓展，以便讀者獲取更完整的上下文視角。

博客地址：https://x.com/rasbt/status/2010376305720594810

最近幾周，我經常被問到的一個問題是：在 2026 年，我們是否會看到自回歸 Transformer 架構（即標準的 LLM）的替代方案。

就目前而言，我堅信Transformer 在未來（至少一到幾年內）仍將保持其在 SOTA 性能方面的地位。它是當前 AI 生態系統的基石，擁有最成熟的工具鏈和優化方案。

但是，情況確實會發生一些微調。這并不是說架構會一成不變，而是這種變化更多體現在「效率」和「混合」上，而非徹底的推倒重來。

效率戰爭：

混合架構與線性注意力的崛起

臨近去年年底，我們看到業界更加關注混合架構以及如何提高其效率。當然，這并不是什么新想法，但近期來自頂尖實驗室的發布表明，目前的側重點已明顯向此傾斜。

我們回顧一下 DeepSeek V3 以及隨后的 R1，它們展示了混合專家模型（MoE）和多頭潛在注意力（MLA）的強大之處。DeepSeek V3 通過 MLA 顯著減少了推理時的 KV Cache 占用，而 MoE 架構則允許模型在擁有 6710 億參數的同時，每次推理僅激活 370 億參數。這種在保持模型巨大容量的同時極致壓縮推理成本的設計思路，正是 2025 年末到 2026 年的主旋律。

但這還不是全部。除了 MoE，我們看到了更激進的效率嘗試，例如Qwen3-Next、Kimi Linear、Nvidia Nemotron 3，以及采用了稀疏注意力機制的 DeepSeek V3.2。（如果您對更多細節感興趣，我在之前的《Big LLM Architecture Comparison》一文中對此進行了報道。）

帶有這類效率調整的 Transformer 架構示意圖。

相關鏈接：https://magazine.sebastianraschka.com/p/the-big-llm-architecture-comparison

為什么大家都在卷「線性注意力」或「稀疏注意力」？

標準的 Transformer 注意力機制（Scaled Dot-Product Attention）具有 O(N^2) 的復雜度，這意味著隨著上下文長度的增加，計算成本呈二次方爆炸式增長。

Qwen3-NextKimi Linear采用了一種混合策略：它們并非完全拋棄標準注意力，而是將高效的線性層（如 Gated DeltaNet）與全注意力層以一定比例（如 3:1）混合。這種設計試圖在捕捉長距離依賴（全注意力的強項）和推理速度（線性層的強項）之間找到最佳平衡點。
DeepSeek V3.2則引入了稀疏注意力，通過只計算最重要的 Token 之間的相互作用，進一步降低了計算開銷。

這些「微調」表明，2026 年的競爭不再僅僅是看誰的模型更聰明，而是看誰能在更長的上下文、更低的延遲下提供同等的智能。

擴散語言模型：

速度與代價的博弈

話說回來，除了 Transformer 的變體，擴散語言模型怎么樣？

擴散語言模型之所以具有吸引力，是因為它們能夠以相對快速且低廉的成本生成 Token。與自回歸模型（AR）那種「一個字接一個字」的串行生成不同，擴散模型采用的是并行生成。

想象一下，自回歸模型像是一個人在打字，必須打完上一個字才能打下一個；而擴散模型更像是在沖洗一張照片，整段文字從模糊的噪聲中同時顯現，經過數次「去噪」迭代后變得清晰。

我前陣子在《Beyond Standard LLMs》一文中對此多寫了一些。簡而言之，我認為 2026 年我們會看到更多相關內容，Google 可能會推出Gemini Diffusion作為其更便宜的 Flash 模型的替代品。Google 已經在其技術博客中暗示了這一點，強調其生成速度「明顯快于我們目前最快的模型」。

相關鏈接：https://magazine.sebastianraschka.com/p/beyond-standard-llms

然而，雖然擴散語言模型的優勢在于它們可以并行生成 Token，但這同時也是一個巨大的缺點。因為由于并行生成的特性，它們無法在響應鏈中原生地整合工具調用。

在自回歸模型中，模型可以生成「調用計算器」的指令，暫停，等待結果，然后再繼續生成。而在擴散模型中，整個響應是同時生成的，很難在中間插入一個外部工具的交互步驟。這使得它們在作為智能體使用時面臨巨大挑戰。

文本擴散過程示例。

此外，雖然眾所周知文本擴散推理效率更高，但最近的研究也表明，如果你為了提升質量而增加去噪步數以匹配自回歸模型的性能，那么最終的計算預算其實是相差無幾的。

數據枯竭時代的「超級學習者」

那么，我想表達什么呢？既然擴散模型有這些缺陷，為什么我還認為它值得關注？

我原本計劃討論一月份發布的近期一系列有趣的研究，但我還是想簡要重點介紹一篇我在「待讀論文」清單上的、2025 年 11 月的有趣論文，它強調了擴散語言模型的一個有趣優勢：《Diffusion Language Models are Super Data Learners》。

論文地址：https://arxiv.org/abs/2511.03276

來自論文《Diffusion Language Models are Super Data Learners》的帶注釋圖表。

這篇論文提出了一個在 2026 年至關重要的觀點：當高質量數據變得稀缺時，擴散模型可能是更好的學習者。

眾所周知，互聯網上的高質量文本數據正在接近枯竭。對于自回歸（AR）模型來說，通常我們只讓模型把數據「看」一遍（1 Epoch）。如果讓 AR 模型反復在同一份數據上訓練，它們很容易過擬合，即死記硬背訓練數據，導致在未見過的新任務上表現下降。

然而，上述論文表明，當進行多 Epoch 訓練時，文本擴散模型的表現可能優于標準的自回歸（AR）大語言模型。

根據論文的研究結果，在嚴格控制的預訓練設置下，當唯一數據量有限時，通過增加訓練輪數，擴散語言模型的表現持續超越了自回歸模型。

這一現象被稱為「Crossover（交叉點）」：

當數據量充足時，AR 模型學得更快。
但當數據受限時，DLM 是最終的贏家。例如，一個 10 億參數的 DLM 模型，僅僅通過反復訓練 10 億個 Token（這在今天看是非常小的數據量），在 HellaSwag 和 MMLU 基準測試上分別達到了 >56% 和 >33% 的準確率，且沒有使用任何特殊技巧。

為什么會這樣？論文歸結為三個因素：

任意順序建模：AR 模型被迫只能從左到右學習，而擴散模型可以學習文本中任意位置之間的依賴關系。
超高密度計算：通過迭代的雙向去噪，DLM 在訓練時實際上對每個樣本進行了更深度的壓榨。
內置的蒙特卡洛增強：擴散過程本身就是一種數據增強。同一個句子，每次加噪的方式都不一樣，相當于把一條數據變成了無數條變體。

更有趣的是，論文發現，對于 DLM 來說，驗證集損失的上升并不意味著下游能力的下降。即便模型在驗證集上看起來「過擬合」了，它在實際任務（如代碼生成、推理）上的表現仍在提升。

由于成本原因，過去沒有人會在多個 Epoch 上訓練大語言模型。但在數據枯竭的今天，如果我們不得不進行多 Epoch 訓練，擴散模型似乎提供了一條新出路。

這確實是有趣的結果！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.