網易首頁 > 網易號 > 正文申請入駐

小眾架構贏麻了：讓100B擴散模型飆出892 tokens/秒的速度！

2026-02-11 10:05:18　來源: 量子位

北京舉報

分享至

金磊發自凹非寺
量子位 | 公眾號 QbitAI

誰能想到啊，在自回歸模型（Autoregressive，AR）當道的現在，一個非主流架構的模型突然殺了回馬槍——

被長期視為學術玩具的擴散語言模型，直接在復雜編程任務中飆出了892 tokens/秒的速度！

你沒看錯，當主流大模型還在以幾十token的速度逐字蹦詞時，這個非主流模型已經在100B參數規模上，跑出了如此的速度。

2025年，螞蟻集團資深技術專家趙俊博曾經帶著LLaDA2.0登上量子位MEET大會的舞臺，而如今，他們的最新版本LLaDA2.1來了，螞蟻技術研究院重磅開源！

三個月前，在LLaDA2.0時代，這更多是一個充滿挑戰的研究性模型。

而這一次，LLaDA2.1的誕生，標志著這個路線的歷史性轉折。它不再只是一個“學術研究”，而是真正可用、甚至在效率上更為優越的強大工具。

那么在整個行業都在卷更大的自回歸模型時，螞蟻到底是怎么低調修了另一條“能跑通的高速公路”的？

接下來，我們就再一起扒一扒這個非共識技術背后的原理。

怎么做到的？

在深入技術之前，我們先得聊聊為什么現在的ChatGPT、Claude們總是慢條斯理。

因為它們幾乎全部采用自回歸架構，這種模式如同一個不能打草稿的考生，必須從左到右、一字一句地生成文本，寫完即定稿，無法回頭修改。

而擴散模型的理論優勢在于并行，可以同時處理所有文本位置，理論上能一次成篇，擁有巨大的速度潛力。

但擴散語言模型在早期一直有個致命傷，那就是容易胡說八道，且缺乏全局一致性。因為并行生成時，各個部分可能是各玩各的，導致前后文邏輯不通。

為此，螞蟻的LLaDA2.1先亮出了第一個技術殺手锏：

一個模型兩種模式設計，把怎么用模型的權力交給用戶

基于可糾錯編輯的底層能力，LLaDA2.1引入了靈活的雙模式解碼策略，實現了單個模型，同時支持極速與質量兩種模式：

Speedy Mode（極速模式）：大幅降低τ_mask閾值，激進并行生成初稿，依賴T2T編輯進行后期修正。適合代碼草稿、快速推理、多輪試探式生成等對吞吐量敏感的場景。
Quality Mode（質量模式）：采用保守閾值，減少編輯次數，優先保障輸出準確性。適合正式文檔生成、高精度推理等對結果質量要求嚴苛的場合。

在此之前，LLaDA-MoE和LLaDA2.0需要二次開發提供額外的加速版本，比如基于路徑蒸餾的加速等；這類加速版本因為非聯合訓練優化，雖然實現了對基礎版本的一定加速，但是精度掉點普遍嚴重；同時一個模型多個版本，也增加用戶選擇的難度以及模型管理的成本。

單模型雙模式，避免了上述問題。用戶可以根據具體需求，僅需一條config就能實現模式切換。

這種設計標志著LLaDA系列從研究模型向實用產品的關鍵轉變。

技術報告顯示，在HumanEval+編程基準上，LLaDA2.1-flash（100B）在Speedy Mode下達到892 TPS的峰值速度，而Quality Mode則在多項推理任務上超越了前代模型。

可糾錯編輯，讓模型像人類一樣“寫作+修改”

為了更好的理解雙模式背后的機制，我們可以回憶一下自己寫作的流程。

自回歸模型像是一個不允許帶草稿紙、不允許帶提綱的作者，它下筆無悔，不允許修改自己寫好的內容。

但現實中，大部分情況下我們可能是先有了想法去寫草稿，哪怕有錯別字，先動筆寫著；寫完之后，我們再回頭細讀一遍，把不通順的、有錯別字的地方改掉。

LLaDA2.1工作原理正是如此，引入的機制叫做可糾錯編輯（Error-Correcting Editable，ECE）。

它的推理過程被分為了兩個階段：

階段一（M2T, Mask-to-Token）：模型以極高的速度，并行生成一個草稿。這個階段可能會有一些噪聲和錯誤，但速度極快。
階段二（T2T, Token-to-Token）：立即啟動編輯模式。模型站在全局視角，對剛才生成的草稿進行檢查。如果發現某些token置信度低或者邏輯不通，就直接進行回溯式修正。

技術報告中的一個例子生動說明了其價值。

當模型嘗試補全赫拉克利特名言“No man ever steps in the same river twice”時，傳統擴散模型在早期步驟錯誤生成了“walks”，由于狀態凍結，最終輸出錯誤的“walks in the same river twice”。

而LLaDA2.1在后續步驟中檢測到“steps”的置信度更高，果斷將“walks”替換為“steps”，成功恢復正確引文。

這種允許自我修正的能力，從根本上解決了擴散模型的曝光偏差問題。它讓模型敢于在初稿階段追求速度，再通過編輯階段保障質量。

它在毫秒級的閃電采樣中完成了“草稿”到“正卷”的華麗轉身，不再被困在序列的起點，而是直接站在全局的高度，去編輯、去重塑、去定義AGI時代的推理新范式。

這是第一次在擴散架構上實現了速度與質量的解耦。

首次在100B擴散語言模型上跑通強化學習

如果說可糾錯編輯解決了怎么生成的問題，那么強化學習則是解決了生成得好不好的問題。

但此前，在擴散模型上應用RL曾被視為不可能的任務。

原因在于，自回歸模型的序列似然可直接分解為token級概率乘積，而擴散模型基于塊狀采樣（block-diffusion），序列級似然難以直接計算，導致傳統策略梯度方法失效。

LLaDA2.1團隊為此定制了EBPO（ELBO-based Block-level Policy Optimization）算法：

以證據下界（ELBO）作為序列似然的代理目標；
通過向量化似然估計技術，并行計算多時間步的塊條件概率；
設計專門的梯度穩定機制，適配擴散模型的編輯特性。

這是業界首次在100B規模擴散模型上成功實施大規模RL訓練。

結果顯而易見：LLaDA2.1在IFEval（指令遵循評估）、BFCL（函數調用）等對齊類任務上顯著提升，證明擴散模型不僅能快，更能懂你。

魚和熊掌，可以兼得

正如我們剛才提到的，LLaDA2.1百億參數版本在處理HumanEval+等復雜編程任務時，實現了892 tokens/秒的峰值速度。

在同級別的基準測試中，這一速度表現已經對主流自回歸架構形成了顯著優勢。

更值得關注的是，這種速度并非以犧牲質量為代價。

在涵蓋知識、推理、代碼、數學及指令遵循的33個權威基準測試中，LLaDA2.1在質量模式下全面超越了前代LLaDA2.0。

即使在追求速度的極速模式下，其性能下降也微乎其微，真正做到了 “魚與熊掌可以兼得”。

除此之外，團隊還開源了16B的Mini版本，其在部分任務上的峰值速度甚至超過1500 tokens/秒，為更輕量化的部署提供了可能。

最后，LLaDA2.1背后的哲學也是值得說道說道。

它證明了一件事：

在大模型時代，有敢把非共識走到底的耐心，亦可取得勝利。

技術報告：
https://huggingface.co/papers/2602.08676

GitHub地址：
https://github.com/inclusionAI/LLaDA2.X

項目權重：
https://huggingface.co/collections/inclusionAI/llada21
https://modelscope.cn/collections/inclusionAI/LLaDA21

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.