網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek-V3.2巨「吃」Token，竟然是被GRPO背刺了

2025-12-04 16:46:47　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：冷貓、陳陳

DeepSeek 一發(fā)布模型，總會引起業(yè)內(nèi)的高度關(guān)注與廣泛討論，但也不可避免的暴露出一些小 Bug。

比如老外用英文詢問，它卻在思考過程中切回「神秘的東方文字」。當(dāng)然，DeepSeek 模型對漢字「情有獨鐘」的情況早已出現(xiàn)，「極」字 Bug 就是典型例子。

而這一次，隨著新模型 DeepSeek-V3.2 的發(fā)布，大家又發(fā)現(xiàn)了 DeepSeek 需要優(yōu)化的地方：其長思考版本（Speciale）暴露出一些 Token 使用效率不佳的問題。

根據(jù)多位研究者反饋，DeepSeek-V3.2 Speciale 在處理復(fù)雜任務(wù)時出現(xiàn)明顯的 Token 消耗異常。具體表現(xiàn)為：

在相同任務(wù)上，Gemini 只消耗 2 萬 Token，DeepSeek-V3.2 Speciale 卻用了 7.7 萬，也就是說，它需要 3 倍以上的 Token 才能輸出類似質(zhì)量的結(jié)果。

另外，Speciale 版本出現(xiàn)輸出內(nèi)容又長又啰嗦的問題，但最終仍然錯的情況，這并不是新問題，而是 GRPO 算法本身的固有缺陷。

來源：https://x.com/Compute_King/status/1996179050012794968

實際上，DeepSeek-V3.2 在 Token 消耗方面的異常表現(xiàn)，已經(jīng)被不少用戶與研究者觀察到。有社區(qū)網(wǎng)友指出，Speciale 版本的確具備極強的推理能力，但在實際使用中 Token 消耗速度如喝水般迅速，顯著高于同類模型。他們評價，如果 DeepSeek-V3.2 Speciale 的生成速度能夠從當(dāng)前的大約 30 tokens/s 提升至 100 tokens/s 左右，那么其綜合可用性和使用體驗都將獲得大幅改善。

獨立分析 AI 模型和托管服務(wù)提供商 Artificial Analysis 則表示：「DeepSeek V3.2 在推理模式下比上一代更啰嗦，在運行 AAII（Artificial Analysis Intelligence Index）基準(zhǔn)測試時，輸出 Token 消耗明顯增加，達(dá) 8600 萬，而上一版本僅為 6200 萬?！?/p>

來源：https://x.com/ArtificialAnlys/status/1996110264102781332

「即使是和 Grok 和 Mistral 對比，也是明顯看到 DeepSeek V3.2 輸出 Token 的延遲?！?/p>

來源：https://x.com/kurtqian/status/1995728391115362529

這種情況，DeepSeek 也在技術(shù)報告中很坦誠的承認(rèn)并且做出了數(shù)據(jù)對比。

報告中提及，DeepSeek-V3.2-Speciale 的 token 使用效率明顯低于 Gemini-3.0-Pro。

為了降低部署成本并減少推理時延，官方版 DeepSeek-V3.2 的訓(xùn)練過程中施加了更為嚴(yán)格的 token 約束，以期在性能與成本之間取得更優(yōu)的權(quán)衡。DeepSeek 研究者們表示，token 效率仍將是未來一個至關(guān)重要的研究方向。

DeepSeek 技術(shù)報告：https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

輸出內(nèi)容又長又啰嗦，GRPO 算法存在缺陷

GRPO 算法隨著 DeepSeek 的誕生而成為強化學(xué)習(xí)的黃金范式，相信讀者們早就不陌生了。

我們對 GRPO 的方法基本原理曾有過系統(tǒng)的介紹，建議讀者參考我們的科普文章。科普向：一文解構(gòu)大模型后訓(xùn)練，GRPO 和它的繼任者們的前世今生

早在今年三月份公開的論文《Understanding R1-Zero-Like Training: A Critical Perspective》中，來自 Sea AI Lab 和 NUS 等的研究者們，揭示了 GRPO 算法的兩大問題，認(rèn)為 GRPO 會導(dǎo)致模型有偏置的優(yōu)化。

論文標(biāo)題：Understanding R1-Zero-Like Training: A Critical Perspective
論文鏈接：https://arxiv.org/pdf/2503.20783
Github 鏈接：https://github.com/sail-sg/understand-r1-zero

在 DeepSeek-R1-Zero 的訓(xùn)練過程中，就已有模型的響應(yīng)長度在整個訓(xùn)練階段持續(xù)增長的現(xiàn)象，而在 DeepSeek-V3.2 Speciale 中仍然存在。

以下公式是經(jīng)典的 GRPO 損失函數(shù)，論文作者很貼心地把影響優(yōu)化過程的部分標(biāo)紅了：

GRPO 的目標(biāo)函數(shù)結(jié)構(gòu)中存在了：

1. 長度偏置（Length Bias）

當(dāng)優(yōu)勢函數(shù)為正值時（表示對應(yīng)的響應(yīng)是正確的）：較短的響應(yīng)會產(chǎn)生更大的梯度更新幅度，從而使策略在優(yōu)化過程中更傾向于生成簡短的正確答案。
當(dāng)優(yōu)勢函數(shù)為負(fù)值時（表示對應(yīng)的響應(yīng)是錯誤的）：較長的錯誤響應(yīng)所受到的懲罰反而更弱，從而導(dǎo)致策略在錯誤樣本中偏向于生成更長的回答。

這解釋了：即便不引入任何「顯式鼓勵長推理鏈」的機制，GRPO 訓(xùn)練出的模型也會自然呈現(xiàn)出響應(yīng)長度不斷增長的趨勢，躲避懲罰，生成又錯又長的回復(fù)。

2. 難度偏置（Difficulty Bias）

該偏置來源于優(yōu)勢函數(shù)中對優(yōu)勢函數(shù)進行標(biāo)準(zhǔn)化時所使用的分母：

這會導(dǎo)致當(dāng)某些問題的回報標(biāo)準(zhǔn)差較小，尤其是題目過于困難，幾乎所有回報都為 0 的時候，在策略更新過程中將被賦予更大的梯度權(quán)重，忽視了那些難度適中的實際問題。

我們從 DeepSeek-V3.2 的技術(shù)報告中發(fā)現(xiàn)，難度偏置已經(jīng)被優(yōu)化了，而長度偏置仍然被保留。這或許是 DeepSeek-V3.2 Speciale 超級耗 token 的罪魁禍?zhǔn)住?/p>

上述「長度偏置」問題其實由來已久，在 GRPO 的前身 PPO 方法中就早已存在。但是，在 PPO 的損失函數(shù)公式中其實并沒有「長度偏置」這一項，而在 PPO 的大多開源實現(xiàn)中，卻大都加入了這一項。

作者推測，這種不一致性可能源自預(yù)訓(xùn)練階段：

所有 token 會被打包進一個固定長度的上下文窗口，通過對上下文長度進行歸一化可以有效提升數(shù)值穩(wěn)定性。

但在 RL 微調(diào)階段保持相同的實現(xiàn)方式會，按照響應(yīng)長度對損失進行歸一化。但響應(yīng)長度不是常數(shù)且在不同樣本之間變化劇烈，從而無意中引入了一個長度偏置。

由此可見，理論和實際實現(xiàn)之間總有些許的差別。等到 DeepSeek-V4 的上線，這個問題會不會就此解決呢？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.