![]()
機器之心報道
編輯:杜偉、張倩
萬萬沒想到,年初還是個小眾方向的「擴散語言模型(dLLM)」,現在已經被擴展到千億參數的規模了。
前段時間,我們在 HuggingFace 頁面發現了兩個新模型:LLaDA2.0-mini 和 LLaDA2.0-flash。它們來自螞蟻集團與人大、浙大、西湖大學組成的聯合團隊,都采用了 MoE 架構。前者總參數量為 16B,后者總參數量則高達 100B——在「擴散語言模型」這個領域,這是從未見過的規模。
![]()
更令人欣慰的是,模型變大了,也確實變強了:在涵蓋知識、推理、編碼、數學、智能體與對齊幾大維度的 47 個基準測試中,LLaDA2.0-flash 平均得分 73.18,與強 AR(自回歸)模型 Qwen3-30B-A3B-Instruct-2507(73.60)持平,在編碼(如 HumanEval、MBPP)、智能體(BFCL)等復雜任務上優勢顯著。
![]()
長期以來,自回歸生成范式在大模型領域始終占據主導地位,這種從前到后依次生成下一個 token 的方法曾被寄予厚望。然而,其固有弊端也逐漸顯現:長文本生成的計算成本較高、推理速度較慢,且難以捕捉 token 之間的雙向依賴關系。一旦前期生成的內容出現錯誤,不僅無法直接修正,后續輸出也會受到干擾,最終導致誤差累積。

dLLM 的成功擴展讓人們看到了另一條路的可行性。更值得注意的是,這類模型的快速演進并不是沿著單一路線不斷推高規模,而是來自研究者們「多線并進」的探索。
就在今年 9 月,LLaDA 系列模型的研究者剛剛驗證了 MoE 架構下從頭訓練 dLLM 的可行性,推出了 7B 的 LLaDA-MoE,這為擴散范式提供了新的實現方式。而僅僅三個月后,團隊又在另一條路線 ——從成熟的 AR 模型平滑遷移到擴散框架—— 上取得突破,直接將模型規模擴展到了 100B。

LLaDA2.0 生成效果演示。可以看到,模型會在多個位置并行生成,而且已生成內容可以修改。
這背后涉及哪些關鍵的技術選擇?哪些方法在 dLLM 中能 work?在最近發布的技術報告中,LLaDA2.0 幕后團隊披露了很多細節。
![]()
- 報告標題:LLaDA2.0: Scaling Up Diffusion Language Models to 100B
- 報告鏈接:https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf
- HuggingFace 鏈接:https://hf.co/collections/inclusionAI/llada-20
將 dLLM 擴展到 100B
—— 一個公認的難題
最近,有研究發現,在數據不夠多的情況下,dLLM 會越訓越強,最后反超傳統自回歸模型。訓練得越久,優勢越明顯。如果數據更豐富或質量更高,這個「反超」會來得更晚;如果模型更大,反超會來得更早。
![]()
這些證據的出現讓「訓練 dLLM」這件事變得越來越有吸引力。但是,怎么把 dLLM「做大做強」卻是一個公認的難題。在過去的一兩年間,研究者們已經嘗試了不少方法。
首先是從頭開始訓練。此前的 LLaDA、LLaDA-MoE 都是這一方向的成功嘗試,證明了從頭訓練的 dLLM 性能可以接近同尺寸的 AR 模型,并且在加入 MoE 后,dLLM 還能更高效、更強。不過,受限于可用數據量、基礎設施成熟度、計算成本、訓練周期等因素,從頭訓練的 dLLM 通常規模較小(≤8B),在整體性能上仍落后于最先進的 AR 模型。
其次是從已經訓練好的 AR 模型出發,讓 dLLM 繼承其知識與能力,從而減少訓練成本并縮小性能差距。這一方向已經出現了多個代表性工作,包括 DiffusionLLaMA、Dream-7B、RND1、Block DLM 等。它們通過掩碼退火、block diffusion 等方法,將 AR 模型預訓練好的語言能力「挪」到擴散結構中。但這類嘗試也沒有突破 30B 的規模。再加上 block diffusion 本身的訓練效率不高,很難把這種方法直接擴展到大規模模型的海量語料訓練中。
最后是后訓練階段的努力。微調方面,已有工作證明 dLLM 經過 SFT 后可以在代碼生成、復雜規劃等任務上媲美頂級 AR 模型。強化學習方面,由于 dLLM 的對數似然難以計算,研究者不得不另辟蹊徑設計新算法,甚至訓出了首個具備長鏈思維推理能力的 dLLM。推理加速方面,通過動態剪枝或混合 AR - 擴散范式,dLLM 的推理速度已首次超越同規模 AR 模型。但總體而言,后訓練研究仍處于起步階段,這些技術如何協同、如何擴展到千億參數規模,都還是開放問題。
LLaDA2.0 模型的出現,給這些問題提供了一個解決思路。
千億級擴散模型的穩定訓練
LLaDA2.0 給出了更優解
和之前的 LLaDA-MoE 等模型不同,LLaDA2.0 沒有選擇從頭訓練 dLLM,而是把已有的 AR 模型「平滑地」轉化成擴散模型,并在這個基礎上做大規模訓練與對齊。
為了完成這種轉化,LLaDA2.0 提出了一套系統性的解決方案。從訓練范式的重構、預訓練與后訓練流程的強化協同,到訓練與推理基礎設施的適配與優化,給出了區別于以往方法的獨特實現路徑。
整體來講,LLaDA2.0 通過構建一個分段式、可擴展的訓練體系,高效完成了從 AR 模型轉化為 dLLM 的目標。
如下圖 2 所示,首先通過持續預訓練(CPT)將一個 AR 基座模型重建為掩碼擴散語言模型(MDLM),并使其能夠學習雙向去噪能力,從而在保持原 AR 模型表征幾何結構的前提下平滑過渡到擴散范式。
接下來,在已訓練的 MDLM 基礎上引入了塊擴散預訓練(Block Diffusion Pre-training)。此時,模型不再針對單個 token,而是訓練其對連續文本片段(即塊)的去噪。從 token 到塊的轉變,顯著增強了生成的長程一致性,并帶來更高的計算效率。
最后,在兼具 token 與塊兩級 AR 生成能力之后,模型通過后訓練(包括 SFT 與 DPO)具備了更強的人類意圖與指令遵從特性,并更能滿足下游任務的需求。經過這一階段,擴散預訓練過程中獲得的強大生成能力可以高效地轉化為實際任務中的性能表現。
![]()
LLaDA2.0 訓練流程圖。
接下來,我們將逐一剖析這些關鍵環節。
持續預訓練
由于 AR 模型的因果建模方式與 dLLM 的雙向去噪機制存在天然差異,前者到后者的轉化并不是簡單替換訓練目標就能完成。為此,LLaDA2.0 采取了Warmup–Stable–Decay(WSD)的持續預訓練策略
其中在Warmup(熱身)階段,團隊將 Ling-mini-2.0(16B)等 AR 基座模型視為塊大小 = 1 的塊擴散語言模型(BDLM)起點,并按照「1→4→32 → 64 → 4096」逐步增加塊大小。塊大小的每次調整在中等規模數據上進行訓練,以確保模型平穩過渡。在塊大小達到最大 4096 時,BDLM 轉化為標準的掩碼擴散語言模型(MDLM),完成從因果生成向全局雙向去噪的結構性遷移。
接下來是Stable(穩定)階段。在塊大小固定為 4096 且模型轉化為全局雙向去噪范式之后,在大規模語料上進行 MDLM 訓練,以掌握擴散式生成與雙向上下文建模能力。
完成 MDLM 訓練之后,進入到Decay(衰減)階段。團隊逐步將塊大小從 4096 減少到更適合推理的尺寸(如 32),從而轉換回高效的 BDLM。這樣一來,模型在 MDLM 階段學到的全局上下文知識被蒸餾回更緊湊的塊級結構中,讓擴散式的雙向語義能力與塊級生成的推理效率二者兼得。
此外,由于訓練過程中會將多個文檔拼接成長序列,這會在語義無關的文本之間造成長程依賴。為此,團隊引入了文檔級注意力掩碼(Document-level Attention Mask),可以避免這種跨文檔干擾,防止語義污染,并確保雙向建模穩定性。
為了進一步增強 BDLM 的泛化性和穩健性,團隊又采用了Top-k 檢查點融合策略。在預訓練結束后,根據困惑度等驗證指標選取表現最優的 k 個模型檢查點,并對它們的權重、偏置等參數進行算數平均,得到了更穩健的 BDLM 初始化。
一整套流程走下來,LLaDA2.0 為行業內千億規模的擴散模型訓練提供了可借鑒的穩定解決方案。
后訓練
在完成從 AR 到 dLLM 范式的持續預訓練之后,LLaDA2.0 還進行了系統化的后訓練,主要包括以下三個核心環節。
一是 SFT(監督微調):在預訓練階段完成之后,通過 SFT 來對齊用戶指令。過程中引入多項關鍵改進:對序列長度進行塊對齊,確保與塊級注意力結構兼容;利用「Mask ratio bandwidth」避免近乎無噪聲和過度噪聲樣本造成的訓練無效與梯度不穩定;利用「Complementary Masking」,保證同一序列的所有 token 在一個訓練 batch 中至少被學習一次,大幅提升樣本利用率與收斂速度;通過覆蓋推理、通用與工業三類數據,確保模型能力分布均衡而不偏科。
二是 CAP(置信度感知并行訓練):通過在訓練中添加額外置信度損失,CAP 為正確預測的 token 引入了熵最小化目標,提升模型預測置信度,并實現更快并行解碼,生成質量與推理速度之間取得了良好權衡。
三是 DPO(直接偏好對齊):使模型更好地對齊人類偏好。團隊構建了涵蓋通用、數學、指令遵循等多個領域的偏好數據集,共包含 150 萬對偏好樣本。另外將重構損失的證據下界(Evidence Lower Bound,ELBO)作為對數似然替代,構建出適配擴散模型的 DPO 框架。
通過三項后訓練技術的協同,LLaDA2.0 在能力塑造、推理效率提升與人類偏好對齊之間形成了完善的優化體系,使其從通用的擴散式生成模型進一步邁向高性能實用型大模型。
訓練與推理基礎設施
為了進一步解決訓練穩定性、大規模可擴展性和推理效率問題,LLaDA2.0 分別在預訓練、后訓練與推理階段進行了針對性的工程優化與機制設計。
在預訓練階段,團隊將 Megatron-LM 用作訓練后端,并結合數據并行(DP)、流水線并行(PP)、張量并行(TP)、上下文并行(CP)與專家并行(EP)的多并行策略,使得千億級模型在長序列與復雜注意力結構下仍能保持高吞吐與強擴展性。
此外,團隊通過引入基于 cuDNN 的注意力實現,為任意塊擴散訓練帶來顯著加速。在訓練 LLaDA2.0-mini 時,相較于 TransformerEngine 中未融合的注意力實現,這一做法實現了 1.3 倍 + 的端到端加速,以及 90%+ 的注意力層顯存節省。團隊還通過在「masked token embedding」輸出中添加獨立高斯噪聲,解決了擴散訓練初期的數值不穩定問題。
![]()
預訓練階段的多并行策略
在后訓練階段,團隊通過專為 dLLM 提供高效訓練范式的開源庫 dFactory 實現了復雜的并行化策略。同時采用「數據打包」策略,將多個短序列拼接在一起,提升數據吞吐與硬件利用率。
在推理階段,團隊對原為 dLLM 推理框架的 dInfer 進行改造,使其能夠支持塊擴散推理,并在能力實現上更接近 AR 模型。關鍵優化包括有效復用 KV-cache,大幅降低 prefill 開銷;另外,在 SGLang 中加入塊擴散支持,使得 dLLM 也能享受 AR 模型的成熟推理優化生態。
下圖 3 的結果顯示,在 HumanEval、MBPP、GSM8K、CRUXEval 等基準測試中,LLaDA2.0-flash-CAP 達到了 535 TPS(Token/s),相較于基線 AR 模型(Ling-flash-2.0 與 Qwen3-30B-A3B-Inst-2507)實現最高 2.1 倍推理加速。
![]()
通過大規模訓練、穩定性保障、分布式并行、高效推理框架的適配等多個工程環節的全面優化,LLaDA2.0 有望成為擴散模型實現真正工業級可用的關鍵轉折點。
性能比肩 AR
dLLM 的路走通了?
說了這么多,LLaDA2.0 到底表現如何?
整體來看,該系列模型不僅具備競爭力,而且在一些關鍵領域展現出接近甚至超越 AR 模型的趨勢。
先看 LLaDA2.0-mini。它的綜合得分為 64.34,接近同級別 AR 模型 Ling-mini-2.0 的 65.77,證明了擴散路線的基本可行性。值得一提的是,它在一些復雜任務上已經超過了直接對標的 Qwen3-8B,比如 SQuAD 2.0 閱讀理解(86.50)、代碼生成 HumanEval(86.59)。
![]()
再看更大的 LLaDA2.0-flash。它的綜合得分為 73.18,與 Qwen3-30B-A3B-Instruct-2507(73.60)基本持平。而在編碼任務上,它開始展現出更明顯的優勢:HumanEval 94.51、MBPP 88.29、MultiPL-E 74.87,均高于 AR 對手。這一趨勢也延伸到了 Agent 能力(BFCL v3: 75.43)上。
![]()
一個值得關注的現象是:隨著模型規模增大,擴散架構在結構化生成和工具調用上的優勢似乎愈發明顯。
LLaDA 2.0 的性能表明,擴散語言模型是一條可擴展且有競爭力的技術路線。它在通用基準上快速縮小了與 AR 模型的差距,同時在代碼生成、工具使用等復雜任務上展現出超越的潛力。
100B 之后
dLLM 未來可期
作為業內首個沖刺到 100B 參數規模的 dLLM,LLaDA2.0 系列模型的出現無疑給整個領域注入了一針強心劑。
除了規模本身,LLaDA2.0「將成熟 AR 大模型平滑過渡到擴散框架」的思路同樣值得關注。它表明,不同生成范式并非非此即彼的對立關系,而是可以串聯、融合、相互繼承。這為擴散語言模型的規模化探索提供了一條切實可行的工程路徑,打開了一片更廣闊的設計空間。
與此同時,越來越多的玩家正在入場,其中不乏馬斯克旗下 xAI 這樣的科技巨頭。
![]()
當然,dLLM 距離真正成熟還有很長的路要走。更大的參數規模、更高效的強化學習與推理范式、更快的解碼速度…… 每一項都是待攻克的難題。但方向已經明確,剩下的只是時間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.