網易首頁 > 網易號 > 正文申請入駐

里程碑時刻！100B擴散語言模型892 Tokens /秒，AI另一條路走通了

2026-02-11 10:06:48　來源: 機器之心Pro

北京舉報

分享至

機器之心編輯部

擴散語言模型（dLLM），這個曾被認為是「小眾賽道」的研究方向，如今終于迎來了質變。

本周一，LLaDA2.1 在 HuggingFace 上悄悄上線，距離上一版本 LLaDA2.0 發布僅僅過去了兩個月。本次發布共包含兩個版本：LLaDA2.1-Mini（16B）與 LLaDA2.1-Flash（100B）

作為這一賽道的標桿，LLaDA 的每一次迭代都牽動著整個方向的走向。而這一次，LLaDA2.1 幾乎憑一己之力完成了擴散語言模型的「成人禮」——892 Tokens / 秒的峰值速度讓理論上的效率優勢第一次照進現實；邊生成邊糾錯的機制，打破了「快則不準」的魔咒；再加上可切換的雙模式、首次跑通的強化學習后訓練…… 這些信號再明確不過：這條曾被視為小眾的學術路線，已經長成了真正可用、甚至在效率上更為優越的強大工具。

時至今日，逐個生成下一個 Token 的自回歸模型仍是主流。但長文本生成里，計算成本高、推理速度慢只是明面上的麻煩；真正棘手卻鮮被正視的是模型只能單向往前猜，看不到后文語境，寫錯了也沒法回頭改，誤差像滾雪球一樣越積越重。這些困境就像房間里的大象，始終橫亙在規模化應用的門口。

LLaDA2.1 的解法很直接：與其在舊框架里修修補補，不如換一套底層邏輯 —— 讓模型像「完形填空」一樣并行生成、反復打磨，把「下筆無悔」變成「邊寫邊改」。

這套機制具體如何運轉，我們可以在螞蟻集團、浙江大學、西湖大學、南方科技大學聯合撰寫的技術報告中找到答案。

論文地址：https://github.com/inclusionAI/LLaDA2.X/blob/main/llada2_1_tech_report.pdf
Hugging Face：https://huggingface.co/collections/inclusionAI/llada21
ModelScope 魔搭社區：https://modelscope.cn/collections/inclusionAI/LLaDA21
GitHub：https://github.com/inclusionAI/LLaDA2.X
Tech Report：https://huggingface.co/papers/2602.08676

自回歸之外的另一條路

要理解 LLaDA2.1 的突破，必須從當前 AI 模型的「底層邏輯沖突」看起。

在主流 AI 大模型（如 GPT、Claude）的世界里，自回歸架構是絕對的主宰。

它遵循逐 Token 生成的嚴苛范式：每一步輸出都會固化為下一步的條件，生成路徑如同單向延伸的鐵軌，一旦落筆便不可回溯。比如寫到「人不能兩次走入同一條河流」，即使模型后來意識到應該是「踏入」而不是「走入」，也只能錯到底。

這種方式在穩定性與可控性上具備天然優勢，但代價同樣明顯。由于推理過程本質上是串行的，模型難以進行大規模并行解碼，生成延遲隨著上下文長度與輸出規模不斷放大，逐漸成為制約推理效率和部署成本的重要因素。更關鍵的是，這一范式在結構上默認慢而穩，并未為速度與吞吐的數量級提升預留太多空間。

基于此，擴散語言模型開始被視為一條具有潛在突破意義的替代路線，它不再執著于從左到右，而是嘗試在全局空間內同時生成多個 Token。

然而，高并行往往伴隨著高錯誤率。早期的擴散模型通常采用「掩碼到 Token」（M2T）的固定路徑，這種機制雖然快，卻存在劣勢：一旦某個生成的 Token 信心不足，模型無法在后續步驟中修正它，最終拖慢整體推理速度并降低輸出質量。

這一「速度 — 質量」之間的結構性矛盾，使擴散語言模型長期停留在研究階段，而難以真正進入應用系統。

在這一背景下，螞蟻團隊此前提出的 LLaDA2.0 已經證明了百億參數級擴散語言模型在規模化和并行解碼上的可行性，但論文也坦率指出：如何在速度和生成質量之間取得可控、穩定的平衡，仍然是尚未解決的問題。

LLaDA2.1 正是對這一核心矛盾的直接回應。他們不是繼續堆參數、刷榜單，而是通過解碼機制、訓練范式與工程體系的系統性調整，讓擴散語言模型真正跨過能跑和能用之間的門檻。

dLLM 的路走通了

我們先看一下結果：LLaDA2.1 在處理復雜的編程任務時，其100B（千億）參數版本，實現了 892 Tokens / 秒的驚?峰值速度

這一結果真正值得關注的前提在于，這是一個 100B 規模的模型。

對于很多研究者來說，怎么把 dLLM「做大做強」是一個公認的難題。業界主流做法包括從頭訓練、從自回歸模型遷移能力，以及后訓練階段的性能與效率優化。前兩條路線受限于數據規模、訓練效率和計算成本，模型規模普遍停留在幾十億到三百億參數以內；而后訓練方向雖在代碼、規劃和推理加速上取得初步突破，但整體仍處于早期階段，如何協同放大并擴展到千億參數規模，依然是懸而未決的問題。

也正因為如此，LLaDA2.1 的 100B 規模本身，就已經突破了這條路線長期存在的規模天花板。也正是在這一前提下，892 Tokens / 秒的結果才顯得格外關鍵 —— 它并不是在一個容易加速的小模型上取得的，而是在擴散模型最難、最重的規模區間里跑出來的。

更重要的是，這一速度并非來自簡化任務或短文本生成，而是出現在 HumanEval+ 這樣的復雜編程基準中。在這一場景下，模型不僅需要處理長上下文，還必須保持邏輯一致性與語法正確性，推理效率往往是最先被犧牲的指標。

這背后藏著螞蟻團隊圍繞擴散語言模型長期瓶頸所做的一整套系統性調整。

像人類專家一樣「起草 - 編輯」

首先，LLaDA2.1 創新性的提出了可糾錯編輯機制 (Error-Correcting Editable, ECE)。它可以在毫秒級的閃電采樣中起草整個答案，然后回過頭來檢查、修正。

我們還是以上面的「人不能兩次走入同一條河流」為例，當模型發現「走入」用詞不當時，會立即修改成「踏入」。而這種能力是自回歸模型無法做到的，LLaDA2.1 擺脫了那種「一寫到底」的死板模式，而是分為兩步：

第一步：快速起草。模型以極高的速度并行生成一個「草稿」，這個階段允許一定程度的不確定性。
第二步：智能編輯。立即啟動「編輯」模式，對草稿進行全局重新評估和自我修正。發現錯誤？回溯修改。發現更好的表達？即刻替換。

這一范式涵蓋了兩類操作：從掩碼到 Token 的直接解碼，以及從一個 Token 到另一個 Token 的編輯。這種策略使模型能夠在生成過程中直接精煉自身輸出，從而有效解決并行解碼中常見的局部不一致性。為了培養這種編輯能力，團隊在持續預訓練（CPT）和指令微調（SFT）階段將模型同時暴露于掩碼位置和隨機噪聲中，激勵其不僅生成新內容，還能識別并修正現有錯誤。

關鍵在于，這一架構將原本時延與生成質量之間的剛性權衡關系，轉化為一種可由用戶靈活配置的連續空間。通過允許模型對生成結果進行回溯式糾錯，得以在不導致生成質量崩塌的前提下，大幅降低初始 Mask-to-Token（M2T）階段的置信度閾值。

單模型雙模式，把選擇權交還給用戶

LLaDA2.1 還做了一個更大膽的設計：一個模型支持質量和極速兩種模式：

Speedy Mode（極速模式）：激進地降低初始生成的置信度閾值，快速產出草稿，依靠后續編輯來保證質量。適合代碼生成、快速迭代、頭腦風暴等場景。
Quality Mode（質量模式）：采用保守策略，提高初始生成的質量要求，減少需要修正的錯誤。適合正式文檔、學術寫作、高精度任務。

在此之前，LLaDA-MoE 和 LLaDA 2.0 需要二次開發提供額外的加速版本，比如基于路徑蒸餾的加速等；這類加速版本因為非聯合訓練優化，雖然實現了對基礎版本的一定加速，但是精度掉點普遍嚴重；同時一個多個版本，也增加用戶選擇的難度以及模型管理的成本。單模型雙模式，避免了上述問題。用戶根據實際需求，僅需一條 config 就能實現質量和極速模式的切換。

讓模型聽得懂話

如果說可糾錯編輯讓模型變得可用，那么強化學習則讓模型變得更聰明、更可靠 —— 體感更強。

為進一步提升模型能力，團隊在訓練流程中引入了強化學習階段。盡管近期已有研究工作（如 SPG、TraceRL 與 ESPO）證明了強化學習在提升擴散語言模型性能方面的潛力，但由于序列級對數似然難以精確計算，將策略梯度方法應用于塊自回歸模型仍然面臨顯著挑戰。

針對這一問題，螞蟻團隊提出并采用了一種基于 ELBO 的塊級策略優化方法（ELBO-based Block-level Policy Optimization，EBPO），該框架專門針對可編輯解碼結構進行了設計與適配。

更重要的是，團隊還第一次把強化學習真正用到了百億參數級的擴散模型上，讓模型學會更好地理解指令、對齊人的意圖，而不是只追求速度。

可以「邊寫邊改」的 LLaDA2.1，效果到底如何？

技術上的創新，最終轉化為實實在在的能力提升。在 LLaDA2.1 的實驗評估中，這種從架構邏輯到執行效率的進化得到了淋漓盡致的體現。

表 1 和表 2 報告了 LLaDA2.1-flash 與 LLaDA2.1-mini 相對于其他模型的對比結果，包括性能得分以及 TPF（每次前向推理生成的 token 數）。實驗結果顯示，在 S 模式下，LLaDA2.1 的任務得分相較于 LLaDA2.0 略有下降，但 TPF 獲得了顯著提升；而在 Q 模式下，LLaDA2.1 在 mini 與 flash 兩個規模上均全面超越了 LLaDA2.0 的表現。

表 3 進一步聚焦于 LLaDA2.1 在 S 模式下的速度性能。可以觀察到，該模型在不同任務領域之間呈現出明顯的速度差異，其中代碼類任務的吞吐率最高，而指令遵循類任務相對較低。具體而言，在量化之后，LLaDA2.1-flash 在 HumanEval+ 基準上達到了891.74 TPS 的峰值速度，而 LLaDA2.1-mini 的峰值TPS 則高達 1586.93，展現出顯著的推理效率優勢。

如表 4 所示，在相同的 S 模式設置下，引入多塊編輯（Multi-Block Editing，MBE）能夠在 Flash 與 Mini 兩個模型版本上，跨多個基準穩定提升性能，代價僅為吞吐率的小幅下降。

圖 3 進一步展示了在表 3 所涵蓋的五類任務領域中，LLaDA2.1 與 LLaDA2.0、Ling 以及 Qwen-3 等模型在吞吐率（tokens per second）上的對比結果。整體來看，LLaDA2.1 在 S 模式下展現出極為突出的速度優勢：在僅犧牲極少輸出質量的前提下，實現了顯著更快的推理速度

AI 架構會范式轉移嗎？

LLaDA2.1 的意義，可能不在于某一次指標刷新，而在于它重新把一個被擱置已久的問題擺回了臺面。

過去幾年里，自回歸模型幾乎構成了大語言模型發展的唯一現實路徑。它可靠、成熟，也足夠好用，以至于行業更多是在這條路上繼續加碼，而很少真正停下來討論：語言模型的底層形態，是否還有其他選擇。

LLaDA2.1 并沒有試圖否定自回歸范式，而是用一種更務實的方式證明，擴散語言模型并非只能停留在理論或實驗室層面。通過可糾錯編輯，它解決了并行生成中最棘手的錯誤固化問題；通過雙模式設計，它把速度與質量的取舍變成一種可以被配置的工程決策；而在百億參數規模下跑出 892 TPS 的結果，則讓「擴散模型能不能真的跑快」不再只是推測。

語言模型的發展，可能不會很快走向某種范式的徹底更替，但路徑的單一性正在被打破。LLaDA2.1 至少說明了一點：在自回歸之外，確實存在另一條可以被持續推進、也值得投入資源的方向。

而這條路，顯然還遠沒有走到終點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.