金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
誰能想到啊,在自回歸模型(Autoregressive,AR)當道的現在,一個非主流架構的模型突然殺了回馬槍——
被長期視為學術玩具的擴散語言模型,直接在復雜編程任務中飆出了892 tokens/秒的速度!

你沒看錯,當主流大模型還在以幾十token的速度逐字蹦詞時,這個非主流模型已經在100B參數規模上,跑出了如此的速度。
2025年,螞蟻集團資深技術專家趙俊博曾經帶著LLaDA2.0登上量子位MEET大會的舞臺,而如今,他們的最新版本LLaDA2.1來了,螞蟻技術研究院重磅開源!
![]()
三個月前,在LLaDA2.0時代,這更多是一個充滿挑戰的研究性模型。
而這一次,LLaDA2.1的誕生,標志著這個路線的歷史性轉折。它不再只是一個“學術研究”,而是真正可用、甚至在效率上更為優越的強大工具。
那么在整個行業都在卷更大的自回歸模型時,螞蟻到底是怎么低調修了另一條“能跑通的高速公路”的?
接下來,我們就再一起扒一扒這個非共識技術背后的原理。
怎么做到的?
在深入技術之前,我們先得聊聊為什么現在的ChatGPT、Claude們總是慢條斯理。
因為它們幾乎全部采用自回歸架構,這種模式如同一個不能打草稿的考生,必須從左到右、一字一句地生成文本,寫完即定稿,無法回頭修改。
而擴散模型的理論優勢在于并行,可以同時處理所有文本位置,理論上能一次成篇,擁有巨大的速度潛力。
但擴散語言模型在早期一直有個致命傷,那就是容易胡說八道,且缺乏全局一致性。因為并行生成時,各個部分可能是各玩各的,導致前后文邏輯不通。
為此,螞蟻的LLaDA2.1先亮出了第一個技術殺手锏:
一個模型兩種模式設計,把怎么用模型的權力交給用戶
基于可糾錯編輯的底層能力,LLaDA2.1引入了靈活的雙模式解碼策略,實現了單個模型,同時支持極速與質量兩種模式:
- Speedy Mode(極速模式):大幅降低τ_mask閾值,激進并行生成初稿,依賴T2T編輯進行后期修正。適合代碼草稿、快速推理、多輪試探式生成等對吞吐量敏感的場景。
- Quality Mode(質量模式):采用保守閾值,減少編輯次數,優先保障輸出準確性。適合正式文檔生成、高精度推理等對結果質量要求嚴苛的場合。
在此之前,LLaDA-MoE和LLaDA2.0需要二次開發提供額外的加速版本,比如基于路徑蒸餾的加速等;這類加速版本因為非聯合訓練優化,雖然實現了對基礎版本的一定加速,但是精度掉點普遍嚴重;同時一個模型多個版本,也增加用戶選擇的難度以及模型管理的成本。
單模型雙模式,避免了上述問題。用戶可以根據具體需求,僅需一條config就能實現模式切換。
這種設計標志著LLaDA系列從研究模型向實用產品的關鍵轉變。
技術報告顯示,在HumanEval+編程基準上,LLaDA2.1-flash(100B)在Speedy Mode下達到892 TPS的峰值速度,而Quality Mode則在多項推理任務上超越了前代模型。
![]()
可糾錯編輯,讓模型像人類一樣“寫作+修改”
為了更好的理解雙模式背后的機制,我們可以回憶一下自己寫作的流程。
自回歸模型像是一個不允許帶草稿紙、不允許帶提綱的作者,它下筆無悔,不允許修改自己寫好的內容。
但現實中,大部分情況下我們可能是先有了想法去寫草稿,哪怕有錯別字,先動筆寫著;寫完之后,我們再回頭細讀一遍,把不通順的、有錯別字的地方改掉。
LLaDA2.1工作原理正是如此,引入的機制叫做可糾錯編輯(Error-Correcting Editable,ECE)。
它的推理過程被分為了兩個階段:
- 階段一(M2T, Mask-to-Token):模型以極高的速度,并行生成一個草稿。這個階段可能會有一些噪聲和錯誤,但速度極快。
- 階段二(T2T, Token-to-Token):立即啟動編輯模式。模型站在全局視角,對剛才生成的草稿進行檢查。如果發現某些token置信度低或者邏輯不通,就直接進行回溯式修正。
技術報告中的一個例子生動說明了其價值。
![]()
當模型嘗試補全赫拉克利特名言“No man ever steps in the same river twice”時,傳統擴散模型在早期步驟錯誤生成了“walks”,由于狀態凍結,最終輸出錯誤的“walks in the same river twice”。
而LLaDA2.1在后續步驟中檢測到“steps”的置信度更高,果斷將“walks”替換為“steps”,成功恢復正確引文。
這種允許自我修正的能力,從根本上解決了擴散模型的曝光偏差問題。它讓模型敢于在初稿階段追求速度,再通過編輯階段保障質量。
它在毫秒級的閃電采樣中完成了“草稿”到“正卷”的華麗轉身,不再被困在序列的起點,而是直接站在全局的高度,去編輯、去重塑、去定義AGI時代的推理新范式。
這是第一次在擴散架構上實現了速度與質量的解耦。
首次在100B擴散語言模型上跑通強化學習
如果說可糾錯編輯解決了怎么生成的問題,那么強化學習則是解決了生成得好不好的問題。
但此前,在擴散模型上應用RL曾被視為不可能的任務。
原因在于,自回歸模型的序列似然可直接分解為token級概率乘積,而擴散模型基于塊狀采樣(block-diffusion),序列級似然難以直接計算,導致傳統策略梯度方法失效。
LLaDA2.1團隊為此定制了EBPO(ELBO-based Block-level Policy Optimization)算法:
- 以證據下界(ELBO)作為序列似然的代理目標;
- 通過向量化似然估計技術,并行計算多時間步的塊條件概率;
- 設計專門的梯度穩定機制,適配擴散模型的編輯特性。
這是業界首次在100B規模擴散模型上成功實施大規模RL訓練。
結果顯而易見:LLaDA2.1在IFEval(指令遵循評估)、BFCL(函數調用)等對齊類任務上顯著提升,證明擴散模型不僅能快,更能懂你。
![]()
魚和熊掌,可以兼得
正如我們剛才提到的,LLaDA2.1百億參數版本在處理HumanEval+等復雜編程任務時,實現了892 tokens/秒的峰值速度。
在同級別的基準測試中,這一速度表現已經對主流自回歸架構形成了顯著優勢。
更值得關注的是,這種速度并非以犧牲質量為代價。
在涵蓋知識、推理、代碼、數學及指令遵循的33個權威基準測試 中,LLaDA2.1在質量模式下全面超越了前代LLaDA2.0。
即使在追求速度的極速模式下,其性能下降也微乎其微,真正做到了 “魚與熊掌可以兼得”。
除此之外,團隊還開源了16B的Mini版本,其在部分任務上的峰值速度甚至超過1500 tokens/秒,為更輕量化的部署提供了可能。
最后,LLaDA2.1背后的哲學也是值得說道說道。
它證明了一件事:
在大模型時代,有敢把非共識走到底的耐心,亦可取得勝利。
技術報告:
https://huggingface.co/papers/2602.08676
GitHub地址:
https://github.com/inclusionAI/LLaDA2.X
項目權重:
https://huggingface.co/collections/inclusionAI/llada21
https://modelscope.cn/collections/inclusionAI/LLaDA21
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.