<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek-V3.2巨「吃」Token,竟然是被GRPO背刺了

      0
      分享至



      機器之心報道

      編輯:冷貓、陳陳

      DeepSeek 一發(fā)布模型,總會引起業(yè)內(nèi)的高度關(guān)注與廣泛討論,但也不可避免的暴露出一些小 Bug。

      比如老外用英文詢問,它卻在思考過程中切回「神秘的東方文字」。當(dāng)然,DeepSeek 模型對漢字「情有獨鐘」的情況早已出現(xiàn),「極」字 Bug 就是典型例子。

      而這一次,隨著新模型 DeepSeek-V3.2 的發(fā)布,大家又發(fā)現(xiàn)了 DeepSeek 需要優(yōu)化的地方:其長思考版本(Speciale)暴露出一些 Token 使用效率不佳的問題。

      根據(jù)多位研究者反饋,DeepSeek-V3.2 Speciale 在處理復(fù)雜任務(wù)時出現(xiàn)明顯的 Token 消耗異常。具體表現(xiàn)為:

      在相同任務(wù)上,Gemini 只消耗 2 萬 Token,DeepSeek-V3.2 Speciale 卻用了 7.7 萬,也就是說,它需要 3 倍以上的 Token 才能輸出類似質(zhì)量的結(jié)果。

      另外,Speciale 版本出現(xiàn)輸出內(nèi)容又長又啰嗦的問題,但最終仍然錯的情況,這并不是新問題,而是 GRPO 算法本身的固有缺陷。



      來源:https://x.com/Compute_King/status/1996179050012794968

      實際上,DeepSeek-V3.2 在 Token 消耗方面的異常表現(xiàn),已經(jīng)被不少用戶與研究者觀察到。有社區(qū)網(wǎng)友指出,Speciale 版本的確具備極強的推理能力,但在實際使用中 Token 消耗速度如喝水般迅速,顯著高于同類模型。他們評價,如果 DeepSeek-V3.2 Speciale 的生成速度能夠從當(dāng)前的大約 30 tokens/s 提升至 100 tokens/s 左右,那么其綜合可用性和使用體驗都將獲得大幅改善。



      獨立分析 AI 模型和托管服務(wù)提供商 Artificial Analysis 則表示:「DeepSeek V3.2 在推理模式下比上一代更啰嗦,在運行 AAII(Artificial Analysis Intelligence Index)基準(zhǔn)測試時,輸出 Token 消耗明顯增加,達(dá) 8600 萬,而上一版本僅為 6200 萬?!?/p>



      來源:https://x.com/ArtificialAnlys/status/1996110264102781332

      「即使是和 Grok 和 Mistral 對比,也是明顯看到 DeepSeek V3.2 輸出 Token 的延遲?!?/p>



      來源:https://x.com/kurtqian/status/1995728391115362529

      這種情況,DeepSeek 也在技術(shù)報告中很坦誠的承認(rèn)并且做出了數(shù)據(jù)對比。





      報告中提及,DeepSeek-V3.2-Speciale 的 token 使用效率明顯低于 Gemini-3.0-Pro。

      為了降低部署成本并減少推理時延,官方版 DeepSeek-V3.2 的訓(xùn)練過程中施加了更為嚴(yán)格的 token 約束,以期在性能與成本之間取得更優(yōu)的權(quán)衡。DeepSeek 研究者們表示,token 效率仍將是未來一個至關(guān)重要的研究方向。

      DeepSeek 技術(shù)報告:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2/resolve/master/assets/paper.pdf

      輸出內(nèi)容又長又啰嗦,GRPO 算法存在缺陷

      GRPO 算法隨著 DeepSeek 的誕生而成為強化學(xué)習(xí)的黃金范式,相信讀者們早就不陌生了。

      我們對 GRPO 的方法基本原理曾有過系統(tǒng)的介紹,建議讀者參考我們的科普文章。科普向:一文解構(gòu)大模型后訓(xùn)練,GRPO 和它的繼任者們的前世今生

      早在今年三月份公開的論文《Understanding R1-Zero-Like Training: A Critical Perspective》中,來自 Sea AI Lab 和 NUS 等的研究者們,揭示了 GRPO 算法的兩大問題,認(rèn)為 GRPO 會導(dǎo)致模型有偏置的優(yōu)化。



      • 論文標(biāo)題:Understanding R1-Zero-Like Training: A Critical Perspective
      • 論文鏈接:https://arxiv.org/pdf/2503.20783
      • Github 鏈接:https://github.com/sail-sg/understand-r1-zero

      在 DeepSeek-R1-Zero 的訓(xùn)練過程中,就已有模型的響應(yīng)長度在整個訓(xùn)練階段持續(xù)增長的現(xiàn)象,而在 DeepSeek-V3.2 Speciale 中仍然存在。

      以下公式是經(jīng)典的 GRPO 損失函數(shù),論文作者很貼心地把影響優(yōu)化過程的部分標(biāo)紅了:



      GRPO 的目標(biāo)函數(shù)結(jié)構(gòu)中存在了:

      1. 長度偏置(Length Bias)



      • 當(dāng)優(yōu)勢函數(shù)為正值時(表示對應(yīng)的響應(yīng)是正確的):較短的響應(yīng)會產(chǎn)生更大的梯度更新幅度,從而使策略在優(yōu)化過程中更傾向于生成簡短的正確答案。
      • 當(dāng)優(yōu)勢函數(shù)為負(fù)值時(表示對應(yīng)的響應(yīng)是錯誤的):較長的錯誤響應(yīng)所受到的懲罰反而更弱,從而導(dǎo)致策略在錯誤樣本中偏向于生成更長的回答。

      這解釋了:即便不引入任何「顯式鼓勵長推理鏈」的機制,GRPO 訓(xùn)練出的模型也會自然呈現(xiàn)出響應(yīng)長度不斷增長的趨勢,躲避懲罰,生成又錯又長的回復(fù)。

      2. 難度偏置(Difficulty Bias)

      該偏置來源于優(yōu)勢函數(shù)中對優(yōu)勢函數(shù)進行標(biāo)準(zhǔn)化時所使用的分母:



      這會導(dǎo)致當(dāng)某些問題的回報標(biāo)準(zhǔn)差較小,尤其是題目過于困難,幾乎所有回報都為 0 的時候,在策略更新過程中將被賦予更大的梯度權(quán)重,忽視了那些難度適中的實際問題。

      我們從 DeepSeek-V3.2 的技術(shù)報告中發(fā)現(xiàn),難度偏置已經(jīng)被優(yōu)化了,而長度偏置仍然被保留。這或許是 DeepSeek-V3.2 Speciale 超級耗 token 的罪魁禍?zhǔn)住?/p>



      上述「長度偏置」問題其實由來已久,在 GRPO 的前身 PPO 方法中就早已存在。但是,在 PPO 的損失函數(shù)公式中其實并沒有「長度偏置」這一項,而在 PPO 的大多開源實現(xiàn)中,卻大都加入了這一項。

      作者推測,這種不一致性可能源自預(yù)訓(xùn)練階段:

      所有 token 會被打包進一個固定長度的上下文窗口,通過對上下文長度進行歸一化可以有效提升數(shù)值穩(wěn)定性。

      但在 RL 微調(diào)階段保持相同的實現(xiàn)方式會,按照響應(yīng)長度對損失進行歸一化。但響應(yīng)長度不是常數(shù)且在不同樣本之間變化劇烈,從而無意中引入了一個長度偏置。

      由此可見,理論和實際實現(xiàn)之間總有些許的差別。等到 DeepSeek-V4 的上線,這個問題會不會就此解決呢?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      王志文:不要對水平太低的人太好,認(rèn)知水平越低,越不懂你的好

      王志文:不要對水平太低的人太好,認(rèn)知水平越低,越不懂你的好

      杏花煙雨江南的碧園
      2025-12-03 13:10:03
      王晶終于坦白!陳百強英年早逝主因不是何超瓊,原來我們都被騙了

      王晶終于坦白!陳百強英年早逝主因不是何超瓊,原來我們都被騙了

      白面書誏
      2025-12-07 13:06:30
      蘇群:楊瀚森下半場及時調(diào)整到位,這場球值得他牢牢記住

      蘇群:楊瀚森下半場及時調(diào)整到位,這場球值得他牢牢記住

      懂球帝
      2025-12-08 10:13:11
      前11個月稅務(wù)部門查處1818名包括明星網(wǎng)紅在內(nèi)的“雙高”人員

      前11個月稅務(wù)部門查處1818名包括明星網(wǎng)紅在內(nèi)的“雙高”人員

      新華社
      2025-12-08 10:52:27
      反轉(zhuǎn)!清華學(xué)霸為300元家教費撕臉高三家長后續(xù),網(wǎng)友:水平太差

      反轉(zhuǎn)!清華學(xué)霸為300元家教費撕臉高三家長后續(xù),網(wǎng)友:水平太差

      火山詩話
      2025-12-06 15:40:02
      多地機關(guān)事業(yè)單位大整頓啟動,這幾類人受沖擊最大,來看看

      多地機關(guān)事業(yè)單位大整頓啟動,這幾類人受沖擊最大,來看看

      好賢觀史記
      2025-12-08 10:27:26
      官方通報44歲男子在公園摟抱女童:刑拘

      官方通報44歲男子在公園摟抱女童:刑拘

      界面新聞
      2025-12-08 09:02:55
      同學(xué)聚會每人交1萬,我借口媳婦快生了沒去,誰料次日警方找上門

      同學(xué)聚會每人交1萬,我借口媳婦快生了沒去,誰料次日警方找上門

      罪案洞察者
      2025-12-05 14:31:53
      10-8!塞爾比英錦賽奪冠,集齊3套大滿貫!斯諾克世界排名更新了

      10-8!塞爾比英錦賽奪冠,集齊3套大滿貫!斯諾克世界排名更新了

      球場沒跑道
      2025-12-08 07:26:07
      王晶終于坦白!陳百強英年早逝主因不是何超瓊,原來我們都被騙了

      王晶終于坦白!陳百強英年早逝主因不是何超瓊,原來我們都被騙了

      王楔曉
      2025-12-07 19:36:26
      絕了!C羅撩金姐加時90個月,金姐點贊陰陽手讓全球吃瓜成主隊

      絕了!C羅撩金姐加時90個月,金姐點贊陰陽手讓全球吃瓜成主隊

      羅氏八卦
      2025-12-08 10:18:19
      奎因大贊廣東隊1人:不管是傳球,還是進攻都非常出色

      奎因大贊廣東隊1人:不管是傳球,還是進攻都非常出色

      體育哲人
      2025-12-08 11:12:45
      《瘋狂動物城2》爆火,一輩子怎么活,被一只兔子和狐貍說透了

      《瘋狂動物城2》爆火,一輩子怎么活,被一只兔子和狐貍說透了

      洞見
      2025-12-07 21:13:19
      轉(zhuǎn)身暴扣!楊瀚森NBA生涯首次首發(fā),拿下4分5籃板2助攻

      轉(zhuǎn)身暴扣!楊瀚森NBA生涯首次首發(fā),拿下4分5籃板2助攻

      齊魯壹點
      2025-12-08 12:12:45
      院士撕開了5G專利遮羞布,數(shù)量多但含金量不高,導(dǎo)致專利費凈支出

      院士撕開了5G專利遮羞布,數(shù)量多但含金量不高,導(dǎo)致專利費凈支出

      柏銘銳談
      2025-12-06 23:32:43
      曾風(fēng)靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      曾風(fēng)靡一時,又突然消失的7件家電:科技進步太快,難怪被淘汰

      小柱解說游戲
      2025-12-07 10:04:13
      演員金晨回應(yīng)妝容被嘲:我錯了,我再也不自己亂化妝了,“真的很丑”

      演員金晨回應(yīng)妝容被嘲:我錯了,我再也不自己亂化妝了,“真的很丑”

      極目新聞
      2025-12-07 20:24:25
      飛天茅臺跌破1400元!有經(jīng)銷商發(fā)帖哭訴,我們是在割自己的肉…

      飛天茅臺跌破1400元!有經(jīng)銷商發(fā)帖哭訴,我們是在割自己的肉…

      火山詩話
      2025-12-07 11:09:34
      馬克龍的保鏢都看懵了!早上成都晨跑下午四川大學(xué),現(xiàn)場圍滿了人

      馬克龍的保鏢都看懵了!早上成都晨跑下午四川大學(xué),現(xiàn)場圍滿了人

      樂悠悠娛樂
      2025-12-06 11:51:13
      邵佳一首秀時間敲定,新國足大換血,00后挑大梁,武磊或?qū)⒌?>
    </a>
        <h3>
      <a href=綠茵舞著
      2025-12-07 23:40:04
      2025-12-08 12:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      11862文章數(shù) 142510關(guān)注度
      往期回顧 全部

      科技要聞

      萬億蘋果,正在經(jīng)歷一場嚴(yán)重的“大失血”

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛(wèi)何其多 想想還少了哪一個

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財經(jīng)要聞

      養(yǎng)牛場未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰(zhàn)深圳地獄級路況 魏牌藍(lán)山VLA上車會思考聽得懂人話

      態(tài)度原創(chuàng)

      房產(chǎn)
      健康
      數(shù)碼
      公開課
      軍事航空

      房產(chǎn)要聞

      碧桂園,開始甩賣海口家底!

      甲狀腺結(jié)節(jié)到這個程度,該穿刺了!

      數(shù)碼要聞

      狼途推出T87系列燈箱三模機械鍵盤:12000mAh電池,可選8kHz

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      日本稱中方雷達(dá)照射日戰(zhàn)機 國防部回應(yīng)

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 91在线精品视频| 亚洲成人久久躁狠狠躁| 色爱区成人综合网| 色无码日韩无码精品| 美女裸体十八禁免费网站| 欧美18videosex性欧美黑吊| 欧美最猛性xxxxx大叫| 乌克兰少妇videos高潮| 亚洲性无码一区二区三区| 痉挛高潮喷水av无码免费| 精品在免费线中文字幕久久| 亚洲都市激情| 91碰碰| 岛国无码av| 亚洲人妻系列无码专区| 久久精品夜夜夜夜夜久久| 极品人妻videosss人妻| 久久精品国产中国久久| 欧美日韩欧美| 日日碰狠狠躁久久躁| 日本精品极品视频在线| 蜜桃视频在线观看18| 二区av| 综合色小说| 中文字幕无码色综合网| 精品人妻系列无码人妻免费视频| 国产精品无码午夜福利| 视频一区二区三区中文字幕狠狠| 超碰123| 日日夜夜撸免费视频| 另类小说av| 欧美va天堂在线电影| 伊人色综合久久天天五月婷| 性欧美视频| 日本a在线播放| 黄色www| 亚洲男女羞羞无遮挡久久丫| 免费无码黄十八禁网站| www.色色色.com| 宝鸡市| 人妻久久Aⅴ|