網易首頁 > 網易號 > 正文申請入駐

JustGRPO：擴散語言模型的極簡主義回歸

2026-01-29 12:09:40　來源: 機器之心Pro

河北舉報

分享至

擴散語言模型（Diffusion LLMs, dLLMs）因支持「任意順序生成」和并行解碼而備受矚目。直覺上，打破傳統自回歸（AR）「從左到右」的束縛，理應賦予模型更廣闊的解空間，從而在數學、代碼等復雜任務上解鎖更強的推理潛力。

然而，本研究揭示了一個反直覺的現實：當前的任意順序生成，反而通過「規避不確定性」收窄了模型的推理邊界。

基于此，本文提出了一種回歸極簡的方法——JustGRPO。實驗表明，在 RL 階段讓模型自回歸生成，并直接用標準的 GRPO 進行訓練，即可超越當前各類針對 dLLM 設計的 RL 算法表現。更重要的是，這種訓練方式在提升推理表現的同時，并未犧牲dLLM 引以為傲的并行解碼能力。

論文標題：The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
論文鏈接：https://huggingface.co/papers/2601.15165
項目主頁：https://nzl-thu.github.io/the-flexibility-trap
論文代碼：https://github.com/LeapLabTHU/JustGRPO

「靈活性陷阱」：

為什么選擇多反而考不好？

為了探究「靈活性是否等同于推理潛力」，本文引入了 Pass@k 作為核心衡量指標。該指標量化了在 k 次采樣中至少生成一個正確答案的概率，能夠有效反映模型解空間的覆蓋廣度以及 RL 訓練可激發的推理潛力上限（Yue et al., 2025）。

對比實驗涵蓋了兩種主要的解碼模式：

任意順序（Arbitrary Order）：允許模型根據置信度動態選擇生成順序，這是擴散語言模型的標準解碼方式。
AR 順序（AR Order）：約束模型遵循傳統 LLM 從左到右的生成順序。

實驗結果揭示了一個值得深思的趨勢：雖然任意順序在 k=1 時表現尚可，但隨著采樣次數 k 的增加，AR 順序的 Pass@k 曲線不僅攀升速率更快，且最終達到的上限顯著更高。這表明，在涉及復雜推理時，AR 順序實際上可幫助模型覆蓋更廣闊的正確解空間。

圖：限制 dLLM 使用標準的 AR 順序，反而比靈活的任意順序擁有更高的推理上限。

熵坍塌現象

為何看似受限的 AR 順序反而更具潛力？這與兩種順序如何處理不確定性有關。

在自回歸模式下，模型被迫直面第一個未知 Token；而在任意順序模式下，模型則有跳過（bypass）當前不確定 Token、優先填充后續更確定的內容的「特權」。統計顯示，被頻繁跳過的往往是諸如「Therefore」、「Thus」、「To」等邏輯銜接詞（下圖左）：

圖左：任意順序下，模型傾向于跳過不確定token而先填后續token，且這些被跳過的token往往是一些邏輯銜接詞；圖右：這些邏輯銜接詞解碼時的entropy顯著低于自回歸順序（虛線代表average token entropy）。以上結果為LLaDA-Instruct在MATH-500數據集的結果。

已有工作（Wang et al., 2025）表明，這些邏輯銜接詞往往起到通往不同推理路徑的功能，且將這些詞保持高熵狀態對模型探索豐富的解空間至關重要。而在任意順序下，這些銜接詞被解碼時的熵（Entropy）顯著低于自回歸順序（上圖右）。

我們將這種現象稱為「熵降級」（Entropy Degradation）。形象地說，模型利用了任意順序的靈活性進行了一種「局部貪婪優化」：它跳過了艱難的推理決策點，試圖通過先生成后續上下文來「湊」出邏輯連接。雖然這在單次生成中可能有效，但卻犧牲了對多樣化推理路徑的有效探索。

圖：任意順序生成傾向于繞過高熵的邏輯連接詞，導致解空間過早坍縮。

返璞歸真：

JustGRPO

既然「任意順序」反而可能限制推理路徑的探索，本文提出了一種回歸極簡的方法——JustGRPO。不同于現有 RL 算法，JustGRPO 不再試圖用各種近似處理以顯式保留任意順序特性，而是選擇了一條更為徹底的路徑：

在 RL 訓練階段，直接摒棄對任意順序的執念，強制擴散語言模型采用自回歸（AR）順序生成。這樣不僅保持了更廣闊的推理路徑，同時也讓我們得以直接復用成熟的 GRPO 算法進行優化。這種「生成軌跡的確定性」也自然使得強化學習時的信用分配（Credit Assignment）更加清晰，有助于模型更有效地學習魯棒的聯合分布。

值得一提的是：「訓練時的約束」≠「推理時的退化」

自回歸的約束僅存在于訓練階段。它的目的是為了讓模型更有效地進行 RL 階段的探索與信用分配，模型本身的雙向注意力機制并未被破壞。一旦訓練完成，我們依然可以在推理階段無損地應用并行解碼，在享受 AR 訓練帶來的更優推理表現的同時，保留擴散模型引以為傲的生成速度。

實驗結果：

簡單，但極其有效

性能大幅提升

在數學推理和代碼生成這兩類通用的推理任務上，JustGRPO 均有優秀的表現：

數學推理：在 GSM8K 和 MATH-500 上，模型展現了極高的推理上限，準確率最高分別可達 89.8% 和 45.2%，相比之前的最佳方法（SPG）顯著提升。

代碼生成：在 HumanEval 與 MBPP 數據集上，準確率分別達到 49.4% 和 52.4%。

表：JustGRPO在多個基準測試中超越了現有的 dLLM 強化學習方法，基座模型：LLaDA-Instruct。注：LLaDA-1.5使用了大規模私有數據集訓練、LLaDOU在訓練中引入了額外模塊，因此未列入對比。

并行能力不僅沒丟，還更強了

一個可能的擔憂是：用 AR 方式訓練是否會讓 dLLM 退化，失去其并行優勢？實驗結果恰恰相反。使用現成的 training-free 并行采樣器（Ben-Hamu et al., 2025），JustGRPO 訓練后的模型在并行解碼下表現更佳。例如在 MBPP 數據集上，當每步并行解碼 5 個 Token 時，JustGRPO 相比基座模型（LLaDA-Instruct）的準確率優勢從單步的 10.6% 擴大到了25.5%。

這表明訓練后的模型學到了更魯棒的聯合分布，使其更能適應并行采樣過程中的近似誤差。

圖：JustGRPO 訓練后的模型在并行解碼時表現出更好的速度-精度權衡。

結語：

少即是多

這篇工作挑戰了該領域的一個普遍假設，即「必須在 RL 中保留任意順序靈活性」。事實證明，通過限制訓練時的生成順序，迫使模型直面邏輯分叉點的高不確定性，反而能更有效地激發 dLLMs 的推理潛能。

JustGRPO以一種極簡的方式，實現了推理能力的大幅提升，同時未犧牲擴散模型標志性的推理速度。也希望借此工作啟發社區重新審視「任意順序生成」在通用推理任務中的真實價值。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.