<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      V3→R1→V3.2|一文看懂 DeepSeek 技術(shù)演進(jìn)

      0
      分享至

      DeepSeek,喜歡過節(jié)發(fā)模型


      DeepSeek 發(fā)布時(shí)間線,紅色是主要版本

      這點(diǎn),老美也很抱怨
      “去年感恩節(jié)發(fā) V3,今年后發(fā) V3.2”

      但每個(gè)人,也深有期待
      V3.2 的性能已經(jīng)追平 GPT-5 和 Gemini 3.0 Pro,而且開源


      V3.2 和頂級(jí)閉源模型的 benchmark 對(duì)比,來自 DeepSeek V3.2 技術(shù)報(bào)告

      接下來,讓我們一起完整看看 DeepSeek 從 V3 到 V3.2 的演進(jìn)過程中,看看每個(gè)版本改了什么,為什么改,以及怎么實(shí)現(xiàn)的

      內(nèi)容基于 Sebastian Raschka 的技術(shù)分析,也是用了大量來自于他的插圖;當(dāng)然,更多的是我自己的補(bǔ)充

      時(shí)間線

      去年12月,DeepSeek-V3 發(fā)布
      只用了 500 多萬美金的成本,帶來了不輸 Claude 3.5 的成績(jī),并開源

      今年 1 月的,DeepSeek R1 發(fā)布
      這是個(gè)推理模型,對(duì)標(biāo) OpenAI 的 o1,價(jià)格只有 OpenAI 的幾十分之一

      R1V3 用的是同一個(gè)架構(gòu),區(qū)別在訓(xùn)練方法


      V3/R1 的架構(gòu)圖

      R1 之后,DeepSeek 沉寂了大半年

      中間他們?cè)谔幚韽?NVIDIA 換到華為芯片的事,據(jù)公開信息,后來又換回了 NVIDIA

      這一年也不是完全沒動(dòng)靜,陸續(xù)發(fā)了 V3.1V3.2

      其中V3.2-Exp 發(fā)的benchmark 并不突出,關(guān)注度有限
      但這個(gè)版本其實(shí)是在給 V3.2 的 DSA 鋪路,讓各種推理框架和部署工具支持起來

      V3.2 前幾天正式發(fā)布,用的就是同樣的架構(gòu)

      到這里,再讓我們回顧下發(fā)布圖


      DeepSeek 發(fā)布時(shí)間線,紅色是主要版本 幾個(gè)概念

      在講具體技術(shù)之前,先把幾個(gè)基礎(chǔ)概念說清楚

      大模型訓(xùn)練的兩個(gè)階段

      預(yù)訓(xùn)練
      用海量文本訓(xùn)練,產(chǎn)出 base model(基座模型)
      base model 能續(xù)寫文本,但不太會(huì)對(duì)話,不太會(huì)按指令做事

      后訓(xùn)練
      base model 基礎(chǔ)上繼續(xù)訓(xùn)練,讓模型學(xué)會(huì)對(duì)話、遵循指令、拒絕有害請(qǐng)求
      后訓(xùn)練通常包含 SFT(監(jiān)督微調(diào),用人工標(biāo)注數(shù)據(jù)訓(xùn)練)和 RL(強(qiáng)化學(xué)習(xí),用獎(jiǎng)勵(lì)信號(hào)優(yōu)化)

      V3 和 R1 的關(guān)系

      DeepSeek 當(dāng)下的 base modelDeepSeek-V3-Base

      DeepSeek V3、R1 都是經(jīng)過后訓(xùn)練的,其中

      • ? V3 走的是標(biāo)準(zhǔn)流程:預(yù)訓(xùn)練 → SFT → RL

      • ? R1 有兩個(gè)版本:

        • ? R1-Zero :拿 V3 的預(yù)訓(xùn)練版本(V3-Base),跳過 SFT,直接用純 RL 訓(xùn)練

        • ? R1 :先用幾千條高質(zhì)量數(shù)據(jù)做「冷啟動(dòng)」微調(diào),再做 RL,比 R1-Zero 更好

      推理模型 vs 普通模型

      普通模型(比如 ChatGPT 默認(rèn)模式)收到問題后直接給答案

      推理模型(比如 o1、R1)會(huì)先「思考」一段,把推理過程寫出來,再給最終答案

      這個(gè)「思考」過程通常會(huì)用特殊標(biāo)簽包起來,比如 ...

      用戶能看到模型在想什么,而且這種逐步推理的方式在數(shù)學(xué)、代碼、邏輯題上效果更好

      專用模型 vs 混合模型

      今年行業(yè)里出現(xiàn)了兩種做法:

      專用模型
      推理是推理,聊天是聊天,分開訓(xùn)練成兩個(gè)模型
      用戶想做數(shù)學(xué)題就用推理模型,想閑聊就用聊天模型
      好處是每個(gè)模型在自己的領(lǐng)域做到最好

      混合模型
      一個(gè)模型同時(shí)具備推理能力和普通聊天能力
      用戶可以通過 prompt 或特殊 token 切換模式
      比如加上 標(biāo)簽就進(jìn)入推理模式,不加就是普通聊天

      好處是一個(gè)模型搞定所有場(chǎng)景,用起來方便


      今年推理模型和混合模型的發(fā)布時(shí)間線

      Qwen3 一開始是混合模型,用 標(biāo)簽切換模式
      后來發(fā)現(xiàn)分開訓(xùn)練效果更好,又拆成了 instruct 和 reasoning 兩個(gè)版本

      OpenAI 的 gpt-oss 是混合模型,用 system prompt 控制推理強(qiáng)度
      GPT-5 和 GPT-5.1 應(yīng)該也是類似的處理方式

      DeepSeek 的路徑

      根據(jù)已經(jīng)發(fā)布的信息,DeepSeek 的當(dāng)前路徑為:

      • ? V3:base model

      • ? R1:專用推理模型(在 V3 基礎(chǔ)上 post-training)

      • ? V3.1、V3.2:混合模型(同時(shí)支持推理和普通聊天)

      R1 更多是研究性質(zhì),用來探索推理訓(xùn)練方法
      V3.2 是面向各種場(chǎng)景的產(chǎn)品級(jí)模型

      DeepSeek 團(tuán)隊(duì)可能還在做專門的 R2

      V3 的核心:MLA 機(jī)制

      現(xiàn)在開始講具體技術(shù)
      V3 架構(gòu)有兩個(gè)重點(diǎn):MoEMLA

      更為具體的介紹,可以看我之前的拆解

      MoE 簡(jiǎn)介

      MoE 是 Mixture of Experts 的縮寫,中文叫「專家混合」,普通模型的每一層,所有參數(shù)都會(huì)參與計(jì)算

      MoE 模型的每一層有多個(gè)「專家」(就是多組參數(shù)),每次只激活其中幾個(gè)
      比如一個(gè)模型有 256 個(gè)專家,每次只用 8 個(gè)

      這樣模型參數(shù)總量可以很大(能力強(qiáng)),但每次計(jì)算只用一部分(效率高)

      DeepSeek V3 用的就是 MoE 架構(gòu)

      MLA 是什么

      MLA 是 Multi-Head Latent Attention 的縮寫,中文叫「多頭潛在注意力」

      這是 DeepSeek 自己設(shè)計(jì)的一種注意力機(jī)制,目的是省顯存

      為什么要省顯存

      大模型推理時(shí)有個(gè)東西叫 KV Cache

      簡(jiǎn)單說,模型生成每個(gè)新 token 時(shí),需要用到之前所有 token 的信息

      這些信息存在 key 和 value 兩個(gè)向量里

      為了避免重復(fù)計(jì)算,通常會(huì)把這些向量緩存起來,這就是 KV Cache

      問題是,序列越長(zhǎng),KV Cache 越大,顯存占用越高

      長(zhǎng)文本場(chǎng)景下,顯存很容易不夠用

      MLA 怎么省顯存

      正常做法是把完整的 key 和 value 向量存進(jìn) KV Cache

      MLA 的做法是:
      先把 key 和 value 壓縮到一個(gè)低維空間,存壓縮后的版本

      推理的時(shí)候再解壓回來


      MLA 原理圖,key 和 value 先壓縮再存儲(chǔ)

      具體流程:

      1. 1. 輸入的 key 和 value 通過一個(gè)下投影矩陣(down-projection),從高維壓縮到低維

      2. 2. 壓縮后的向量存入 KV Cache

      3. 3. 推理時(shí),從 KV Cache 取出壓縮向量

      4. 4. 通過上投影矩陣(up-projection)還原到原始維度

      5. 5. 用還原后的向量做正常的注意力計(jì)算

      這個(gè)思路和 LoRA 類似:先降維再升維,中間存小的

      代價(jià)是多了一次矩陣乘法(還原那一步),但顯存省了

      query 也會(huì)壓縮,但只在訓(xùn)練時(shí),推理時(shí)不需要

      MLA 不是 V3 才有的,DeepSeek V2 就引入了這個(gè)機(jī)制

      R1 的核心:RLVR 訓(xùn)練

      R1 和 V3 架構(gòu)完全一樣,區(qū)別在訓(xùn)練方法

      R1 用的是 RLVR(Reinforcement Learning with Verifiable Rewards,可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí))

      更為具體的介紹,可以看我之前的拆解

      什么是強(qiáng)化學(xué)習(xí)訓(xùn)練

      大模型的 post-training 階段通常會(huì)用強(qiáng)化學(xué)習(xí)

      基本思路是:

      1. 1. 給模型一個(gè)問題

      2. 2. 模型生成一個(gè)回答

      3. 3. 用某種方式給這個(gè)回答打分(reward)

      4. 4. 根據(jù)分?jǐn)?shù)調(diào)整模型參數(shù),讓高分回答更容易出現(xiàn)

      關(guān)鍵問題是:怎么給回答打分?

      傳統(tǒng)做法:RLHF

      ChatGPT 使用的便是 RLHF
      全稱:Reinforcement Learning from Human Feedback

      先收集人類對(duì)不同回答的偏好數(shù)據(jù)

      然后訓(xùn)練一個(gè) reward model,讓它模擬人類的打分

      最后用這個(gè) reward model 給模型的回答打分

      這里有一個(gè)問題
      reward model 本身可能不準(zhǔn),人類標(biāo)注成本也高

      RLVR 的思路

      RLVR 的想法是:
      有些任務(wù)的答案,可以被程序自動(dòng)驗(yàn)證

      數(shù)學(xué)題有標(biāo)準(zhǔn)答案,代碼能跑通就是對(duì)的

      這類任務(wù)不需要人工標(biāo)注,直接用程序判斷對(duì)錯(cuò)


      可驗(yàn)證任務(wù)的例子

      比如模型做一道數(shù)學(xué)題:

      • ? 如果最終答案和標(biāo)準(zhǔn)答案一致,reward = 1

      • ? 如果不一致,reward = 0

      不需要 reward model,不需要人工標(biāo)注

      GRPO 算法

      具體的強(qiáng)化學(xué)習(xí)算法,R1 用的是 GRPO
      全稱:Group Relative Policy Optimization

      這是 PPO 的簡(jiǎn)化版


      RLHF、GRPO、RLVR 的對(duì)比

      三種方法的區(qū)別:

      • ? 傳統(tǒng) RLHF + PPO :需要一個(gè) reward model(根據(jù)人類偏好訓(xùn)練)和一個(gè) critic model(估計(jì)價(jià)值的輔助模型)

      • ? GRPO :去掉了 critic model,只保留 reward model,簡(jiǎn)化了訓(xùn)練流程

      • ? RLVR + GRPO :連 reward model 也不要了,直接用程序驗(yàn)證(計(jì)算器驗(yàn)證數(shù)學(xué)答案、編譯器驗(yàn)證代碼)

      R1 的 reward 設(shè)計(jì)

      R1 用了三種 reward:

      • ? format reward :檢查答案格式是否正確(比如推理過程是否用了指定的標(biāo)簽)

      • ? language consistency reward :防止模型在回答過程中切換語言(比如問題是中文,回答一會(huì)中文一會(huì)英文)

      • ? verifier reward :最核心的,數(shù)學(xué)或代碼答案是否正確

      V3.1:成為混合模型

      V3.1 變成了混合模型,用戶可以通過 prompt template 切換推理模式和普通聊天模式

      但這里的架構(gòu)沒變,以及 V3.1 基于 DeepSeek V3.1-Base,后者在 V3 基礎(chǔ)上額外訓(xùn)練了 840B tokens

      V3.1 的具體發(fā)布,可以看這里:

      R1-0528 版本升級(jí)

      R1-0528 是 R1 的小版本升級(jí),架構(gòu)和 V3/R1 完全一樣

      改進(jìn)來自 post-training pipeline 的優(yōu)化

      性能追上了當(dāng)時(shí)的 OpenAI o3 和 Gemini 2.5 Pro

      具體怎么做的沒有詳細(xì)披露,推測(cè)是在推理時(shí)使用了更多計(jì)算資源(讓模型「思考」更長(zhǎng)時(shí)間)

      V3.2-Exp:DSA 稀疏注意力

      V3.2-Exp 是今年 9 月發(fā)的,架構(gòu)上有實(shí)質(zhì)變化

      核心創(chuàng)新是 DSA(DeepSeek Sparse Attention,DeepSeek 稀疏注意力)

      問題:標(biāo)準(zhǔn)注意力太慢

      標(biāo)準(zhǔn)的 causal attention(因果注意力),當(dāng)前 token 需要關(guān)注所有之前的 token

      計(jì)算復(fù)雜度是 O(L2),L 是序列長(zhǎng)度

      意思是:
      序列長(zhǎng)度翻倍,計(jì)算量變成 4 倍

      長(zhǎng)文本場(chǎng)景下,這個(gè)計(jì)算量非常大

      一種解決方案:Sliding Window Attention

      Sliding Window Attention(滑動(dòng)窗口注意力)是一種常見的優(yōu)化方法

      當(dāng)前 token 不關(guān)注所有之前的 token,只關(guān)注最近的 N 個(gè)

      比如 N=4096,那每個(gè) token 只關(guān)注前面 4096 個(gè) token


      Sliding window attention,只關(guān)注固定窗口

      Gemma 3 和 Olmo 3 用的是這個(gè)方案

      優(yōu)點(diǎn)是簡(jiǎn)單,復(fù)雜度從 O(L2) 降到 O(L×N)

      缺點(diǎn)是窗口大小固定,可能漏掉重要信息

      DSA 的思路

      DSA 不用固定窗口,讓模型自己學(xué)習(xí)應(yīng)該關(guān)注哪些 token

      每個(gè) token 只關(guān)注之前的一部分 token,但這個(gè)「一部分」是模型學(xué)出來的,不是固定的


      DSA,模型自己選擇要關(guān)注哪些 token

      看上圖,關(guān)注的 token 位置不是連續(xù)的,是「跳著」選的

      DSA 怎么實(shí)現(xiàn)

      DSA 有兩個(gè)組件:Lightning IndexerToken Selector

      Lightning Indexer:計(jì)算相關(guān)性分?jǐn)?shù)

      對(duì)每個(gè)新的 query token,計(jì)算它和之前所有 token 的相關(guān)性

      用的是 MLA 里壓縮后的向量(前面講過,MLA 會(huì)把 key 和 value 壓縮存儲(chǔ)),做點(diǎn)積然后過 ReLU

      相關(guān)性分?jǐn)?shù)的計(jì)算公式:


      DSA 相關(guān)性分?jǐn)?shù)公式

      公式里的符號(hào):

      • ? w:學(xué)習(xí)到的每頭權(quán)重系數(shù),決定每個(gè) indexer head 對(duì)最終分?jǐn)?shù)的貢獻(xiàn)

      • ? q:query 向量

      • ? k:key 向量

      • ? t:當(dāng)前 token 位置

      • ? s:之前的 token 位置(0 ≤ s < t)

      • ? j:indexer head 的索引(DSA 有多個(gè) head,類似多頭注意力)

      indexer 只處理 query,不處理 key

      因?yàn)?key 已經(jīng)壓縮存在 KV Cache 里了,不需要再算

      ReLU 函數(shù)會(huì)把負(fù)值變成 0,但因?yàn)橛卸鄠€(gè) head 的求和,最終分?jǐn)?shù)通常不會(huì)是 0

      真正的稀疏性來自下一步的 Token Selector

      Token Selector:選擇 top-k

      根據(jù) Lightning Indexer 算出的分?jǐn)?shù),選分?jǐn)?shù)最高的 k 個(gè) token

      其他 token 被 mask 掉,不參與注意力計(jì)算

      k 在 DeepSeek 公開的代碼里設(shè)的是 2048


      DSA 的完整流程 DSA 的效果

      復(fù)雜度從 O(L2) 降到 O(L×k)

      k 是選擇的 token 數(shù)量(比如 2048),遠(yuǎn)小于 L(序列長(zhǎng)度可能是幾萬甚至幾十萬)

      V3.2-Exp 的目標(biāo)不是提升性能,是在保持性能的前提下提升效率

      DeepSeekMath V2:自驗(yàn)證和自改進(jìn)

      V3.2 發(fā)布前 4 天(11 月 27 日,美國(guó)感恩節(jié)),DeepSeek 發(fā)了 DeepSeekMath V2

      這是一個(gè)數(shù)學(xué)專用模型,基于 V3.2-Exp-Base

      在數(shù)學(xué)競(jìng)賽上達(dá)到了金牌水平

      更重要的是,它驗(yàn)證了兩個(gè)關(guān)鍵技術(shù):Self-Verification(自驗(yàn)證)和 Self-Refinement(自改進(jìn))

      這兩個(gè)技術(shù)后來用到了 V3.2 里

      RLVR 的問題

      前面講過,RLVR 用程序驗(yàn)證答案對(duì)不對(duì)

      但 DeepSeek 團(tuán)隊(duì)指出了兩個(gè)問題:

      問題一:correct answers don't guarantee correct reasoning

      正確答案不等于正確推理

      模型可能靠錯(cuò)誤的邏輯或者運(yùn)氣得到正確答案

      比如做一道數(shù)學(xué)題,中間步驟全是錯(cuò)的,但最后答案碰巧對(duì)了

      按 RLVR 的邏輯,這個(gè)回答會(huì)得到正向 reward

      模型會(huì)學(xué)到錯(cuò)誤的推理方式

      問題二:有些任務(wù)沒法只看最終答案

      比如定理證明,要求嚴(yán)格的逐步推導(dǎo)

      你不能只驗(yàn)證結(jié)論對(duì)不對(duì),中間每一步都要對(duì)

      最終結(jié)論對(duì)了,但中間步驟錯(cuò)了,這個(gè)證明就是無效的

      自驗(yàn)證怎么做

      為了解決上面的問題,DeepSeek 訓(xùn)練了三個(gè)模型:

      LLM 1:證明生成器(Proof Generator)

      生成數(shù)學(xué)證明

      LLM 2:證明驗(yàn)證器(Proof Verifier)

      檢查證明是否正確

      不只看最終答案,會(huì)檢查每一步推理

      用一個(gè)評(píng)分標(biāo)準(zhǔn)打分:

      • ? 1 分:完整嚴(yán)謹(jǐn),所有邏輯步驟都有清晰理由

      • ? 0.5 分:整體邏輯正確,但有小錯(cuò)誤或遺漏細(xì)節(jié)

      • ? 0 分:有根本性邏輯錯(cuò)誤或關(guān)鍵缺失

      證明生成器和驗(yàn)證器的結(jié)構(gòu)

      LLM 3:元驗(yàn)證器(Meta-Verifier)

      驗(yàn)證「驗(yàn)證器」是否正確

      驗(yàn)證器可能會(huì)產(chǎn)生幻覺,錯(cuò)誤地指出不存在的問題

      元驗(yàn)證器就是用來檢查驗(yàn)證器的


      Meta-verifier 檢查驗(yàn)證器是否正確

      這個(gè)設(shè)置有點(diǎn) GAN(生成對(duì)抗網(wǎng)絡(luò))的意思:

      驗(yàn)證器推動(dòng)生成器進(jìn)步,生成器生成更好的證明,又推動(dòng)驗(yàn)證器進(jìn)步

      訓(xùn)練細(xì)節(jié)

      證明驗(yàn)證器(LLM 2)的訓(xùn)練:

      • ? 基于 DeepSeek V3.2-Exp-SFT(在 V3.2-Exp 上做了監(jiān)督微調(diào)的版本)

      • ? 用強(qiáng)化學(xué)習(xí)訓(xùn)練

      • ? 兩種 reward:format reward(格式正確)+ score reward(預(yù)測(cè)分?jǐn)?shù)和人工標(biāo)注分?jǐn)?shù)的接近程度)

      元驗(yàn)證器(LLM 3)的訓(xùn)練方式類似

      效果

      使用 meta-verifier 后,驗(yàn)證器的證明分析質(zhì)量從 0.85 提升到 0.96

      同時(shí)保持了證明分?jǐn)?shù)預(yù)測(cè)的準(zhǔn)確率

      meta-verifier 只在訓(xùn)練時(shí)用,推理時(shí)不需要

      自改進(jìn)怎么做

      Self-Refinement(自改進(jìn))是一種推理時(shí)的技術(shù)

      讓模型根據(jù)驗(yàn)證結(jié)果修改自己的答案

      傳統(tǒng) Self-Refinement

      用同一個(gè) LLM 做三件事:

      1. 1. 生成初始答案

      2. 2. 評(píng)估這個(gè)答案有沒有問題

      3. 3. 根據(jù)評(píng)估結(jié)果改進(jìn)答案

      傳統(tǒng) self-refinement,同一個(gè)模型生成、評(píng)估、改進(jìn)

      DeepSeek 發(fā)現(xiàn)的問題

      技術(shù)報(bào)告原文:

      when prompted to both generate and analyze its own proof in one shot, the generator tends to claim correctness even when the external verifier easily identify flaws.

      用同一個(gè)模型既生成又驗(yàn)證,模型會(huì)自己騙自己

      讓模型評(píng)估自己生成的東西,它傾向于說「沒問題」

      但如果用外部驗(yàn)證器,很容易發(fā)現(xiàn)問題

      看起來應(yīng)該用兩個(gè)模型

      一個(gè)生成,一個(gè)驗(yàn)證


      用獨(dú)立驗(yàn)證器的 self-refinement

      但實(shí)際做法不同

      技術(shù)報(bào)告說:

      All experiments used a single model, our final proof generator, which performs both proof generation and verification.

      最終版本還是用了同一個(gè)模型

      關(guān)鍵在于:訓(xùn)練時(shí)用了獨(dú)立的驗(yàn)證器和元驗(yàn)證器來「教」這個(gè)模型

      模型學(xué)會(huì)了用同樣的評(píng)分標(biāo)準(zhǔn)評(píng)估自己的輸出

      和 naive 的單模型 self-refinement 的區(qū)別是:這個(gè)模型被更強(qiáng)的驗(yàn)證器「教過」了

      推理時(shí)用 2-in-1 的模型,省資源

      迭代次數(shù)

      self-refinement 可以做多輪

      生成初始答案 → 評(píng)估 → 改進(jìn) → 再評(píng)估 → 再改進(jìn)...

      DeepSeek 測(cè)到了 8 輪,效果還沒飽和


      迭代次數(shù)和準(zhǔn)確率的關(guān)系

      更多迭代 = 更高準(zhǔn)確率 = 更貴

      這是推理時(shí)計(jì)算量和效果的 trade-off

      V3.2:完整拆解

      先放個(gè) DeepSeek V3.2 的跑分


      DeepSeek V3.2

      我之前寫過一個(gè)技術(shù)報(bào)告拆解:

      架構(gòu)

      和 V3.2-Exp 完全一樣:MoE + MLA + DSA

      技術(shù)報(bào)告原文:

      DeepSeek-V3.2 uses exactly the same architecture as DeepSeek-V3.2-Exp
      V3.2 架構(gòu)

      訓(xùn)練目標(biāo):

      • ? 數(shù)學(xué)達(dá)到金牌水平

      • ? 支持 tool-use(讓模型學(xué)會(huì)調(diào)用外部工具,比如搜索引擎、計(jì)算器、代碼解釋器)

      • ? 代碼和 agent 任務(wù)表現(xiàn)好

      同時(shí)保持計(jì)算效率

      DSA 的效果
      DSA 帶來的推理成本節(jié)省

      這里,用了 H800

      RL 訓(xùn)練的變化

      這個(gè)是 R1 的 reward 設(shè)計(jì)

      • ? format reward:格式正確

      • ? language consistency reward:語言一致

      • ? verifier reward:答案正確

      這個(gè)是 V3.2 的 reward 設(shè)計(jì):

      • ? rule-based outcome reward:基于規(guī)則的結(jié)果 reward

      • ? length penalty:懲罰過長(zhǎng)的輸出(控制 agent 任務(wù)的輸出長(zhǎng)度)

      • ? language consistency reward:語言一致

      對(duì)于通用任務(wù):

      • ? generative reward model:用另一個(gè) LLM 打分,每個(gè) prompt 有自己的評(píng)分標(biāo)準(zhǔn)(rubric)

      變化總結(jié):

      • ? 去掉了 format reward

      • ? 加了 length penalty

      • ? 通用任務(wù)用 LLM-as-a-judge(因?yàn)橥ㄓ萌蝿?wù)沒法用程序驗(yàn)證)

      數(shù)學(xué)領(lǐng)域用的是 DeepSeekMath V2 的數(shù)據(jù)和方法(前面講的自驗(yàn)證、自改進(jìn))

      所以:V3.2 不再是純 RLVR
      應(yīng)該是:RLVR + LLM-as-a-judge

      GRPO 的改進(jìn)

      過去幾個(gè)月,業(yè)內(nèi)有很多 GRPO 的改進(jìn)版本

      比較知名的是 DAPO 和 Dr. GRPO

      DAPO 的主要改進(jìn)

      • ? 非對(duì)稱 clipping:上下界不一樣

      • ? 動(dòng)態(tài)采樣:保持 batch size

      • ? token-level loss:用 token 數(shù)量而不是樣本數(shù)量歸一化 loss

      • ? 顯式的基于長(zhǎng)度的 reward shaping

      Dr. GRPO 的主要改進(jìn)

      • ? 去掉 GRPO 目標(biāo)函數(shù)里的長(zhǎng)度歸一化

      • ? 去掉標(biāo)準(zhǔn)差歸一化

      這兩個(gè)改進(jìn)都認(rèn)為原版 GRPO 有 bias,會(huì)偏向過長(zhǎng)的錯(cuò)誤答案,或者過度加權(quán)太難/太簡(jiǎn)單的問題

      Olmo 3 采用的改進(jìn)(和 DAPO/Dr. GRPO 類似):

      • ? Zero Gradient Signal Filtering:去掉 reward 全相同的樣本組(這種樣本提供不了梯度信號(hào))

      • ? Active Sampling:維持 batch size

      • ? Token-level loss:用 token 數(shù)量歸一化 loss

      • ? No KL Loss:去掉 KL 損失(KL 損失是為了防止模型偏離原始模型太遠(yuǎn),但很多團(tuán)隊(duì)發(fā)現(xiàn)去掉效果更好)

      • ? Clip Higher:上界 clipping 比下界稍高

      • ? Truncated Importance Sampling:調(diào)整 log probability 差異

      • ? No standard deviation normalization:計(jì)算 advantage 時(shí)不除以標(biāo)準(zhǔn)差

      V3.2 的改進(jìn)比較保守,更接近原版 GRPO:

      Domain-specific KL strengths
      不同領(lǐng)域用不同的 KL 權(quán)重
      數(shù)學(xué)領(lǐng)域可以很弱甚至為 0
      但不是完全去掉 KL,而是把它變成超參數(shù)

      Unbiased KL estimate
      用 importance ratio 重新加權(quán) KL term
      讓 KL 梯度真正匹配「樣本來自舊策略」這個(gè)事實(shí)

      Off-policy sequence masking
      跨多個(gè)梯度步驟重用 rollout 數(shù)據(jù)時(shí)
      測(cè)量當(dāng)前策略和生成這些數(shù)據(jù)的舊策略的偏離程度
      丟棄那些 advantage 為負(fù)且偏離太遠(yuǎn)的序列
      防止模型從過時(shí)或偏離的數(shù)據(jù)中學(xué)習(xí)

      Keep routing for MoE
      記錄 rollout 時(shí)激活了哪些 expert
      訓(xùn)練時(shí)強(qiáng)制用同樣的 routing pattern
      讓梯度更新作用于真正產(chǎn)生了采樣答案的 expert

      Keep sampling mask for top-p/top-k
      如果 rollout 用了 top-p 或 top-k 采樣
      存儲(chǔ) selection mask
      計(jì)算 GRPO loss 和 KL 時(shí)重新應(yīng)用這個(gè) mask
      讓訓(xùn)練時(shí)的 action space 和采樣時(shí)一致

      Keep original GRPO advantage normalization
      Dr. GRPO 認(rèn)為 GRPO 的長(zhǎng)度歸一化和標(biāo)準(zhǔn)差歸一化有問題
      V3.2 保留了原版 GRPO 的歸一化,通過上面的其他修改來處理問題

      V3.2-Speciale:極端推理模式

      V3.2 還有一個(gè) Speciale 版本
      針對(duì)推理場(chǎng)景的極端優(yōu)化

      訓(xùn)練差異

      • ? RL 階段只用推理數(shù)據(jù)(不用通用聊天數(shù)據(jù))

      • ? 減弱 length penalty,允許更長(zhǎng)的輸出

      這個(gè)是效果


      Speciale 版本的 token 數(shù)量和準(zhǔn)確率

      更長(zhǎng)的輸出 -> 更多推理步驟 -> 更高準(zhǔn)確率 -> 更貴

      這是個(gè)取舍

      最后

      總結(jié)一下,從 V3 到 V3.2 的技術(shù)演進(jìn):

      V3MoE + MLA
      MoE 讓模型參數(shù)大但計(jì)算量小
      MLA 通過壓縮 KV Cache 省顯存

      R1RLVR + GRPO
      用可驗(yàn)證的 reward(數(shù)學(xué)答案對(duì)不對(duì)、代碼能不能跑)訓(xùn)練推理能力
      GRPO 是 PPO 的簡(jiǎn)化版

      V3.1變成混合模型
      支持推理和普通聊天切換

      V3.2-Exp加入 DSA 稀疏注意力
      不用固定窗口,讓模型學(xué)習(xí)應(yīng)該關(guān)注哪些 token
      復(fù)雜度從 O(L2) 降到 O(L×k)

      DeepSeekMath V2自驗(yàn)證 + 自改進(jìn)
      訓(xùn)練時(shí)用獨(dú)立驗(yàn)證器檢查推理過程
      推理時(shí)用同一個(gè)模型,因?yàn)橐呀?jīng)學(xué)會(huì)了驗(yàn)證能力

      V3.2整合所有技術(shù)
      架構(gòu):MoE + MLA + DSA
      訓(xùn)練:RLVR + LLM-as-a-judge 混合
      GRPO 做了穩(wěn)定性改進(jìn)
      支持 Thinking in Tool-Use 這樣的工程內(nèi)容

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      筱梅提前報(bào)喜:小寶貝迫不及待,奔赴新年與溫暖

      筱梅提前報(bào)喜:小寶貝迫不及待,奔赴新年與溫暖

      觀察鑒娛
      2026-02-12 11:53:34
      訂單與股價(jià)齊飛!AI引爆需求,這個(gè)傳統(tǒng)板塊成了“香饃饃”

      訂單與股價(jià)齊飛!AI引爆需求,這個(gè)傳統(tǒng)板塊成了“香饃饃”

      證券時(shí)報(bào)
      2026-02-15 18:14:05
      國(guó)防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國(guó)防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權(quán)先生
      2026-02-12 15:38:28
      52歲龍丹妮上熱搜,網(wǎng)友:舞是龍丹妮跳的,面子是前男友李維丟的

      52歲龍丹妮上熱搜,網(wǎng)友:舞是龍丹妮跳的,面子是前男友李維丟的

      她時(shí)尚丫
      2026-02-13 22:55:36
      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個(gè)字

      古天樂被追問旗下女演員周秀娜被告事件,他非常平靜地說了三個(gè)字

      黃河新聞網(wǎng)呂梁頻道
      2026-02-15 10:43:54
      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      2026是赤馬年,60年一遇,記得:1躲,2穿,3注意

      讀書文史
      2026-02-15 16:24:49
      中戲風(fēng)波持續(xù)發(fā)酵!王鑫在職期間3人免試入編,易烊千璽飽受質(zhì)疑

      中戲風(fēng)波持續(xù)發(fā)酵!王鑫在職期間3人免試入編,易烊千璽飽受質(zhì)疑

      法老不說教
      2026-02-15 23:24:29
      “把瓦房當(dāng)紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      “把瓦房當(dāng)紫禁城了?”老年人在飯桌上說教,被00后懟到啞口無言

      妍妍教育日記
      2026-02-15 08:15:08
      太遺憾了!短道速滑女子3000米接力最后時(shí)刻被單吃無緣A組決賽!

      太遺憾了!短道速滑女子3000米接力最后時(shí)刻被單吃無緣A組決賽!

      籃球資訊達(dá)人
      2026-02-15 05:35:04
      美媒重排24年選秀!狀元暴跌至13名 火箭隊(duì)謝潑德第5馬刺成大贏家

      美媒重排24年選秀!狀元暴跌至13名 火箭隊(duì)謝潑德第5馬刺成大贏家

      鍋?zhàn)踊@球
      2026-02-15 22:35:02
      農(nóng)村到底蕭條到了啥程度?我在村里住了三個(gè)月,說幾句刺耳的話

      農(nóng)村到底蕭條到了啥程度?我在村里住了三個(gè)月,說幾句刺耳的話

      復(fù)轉(zhuǎn)這些年
      2026-02-11 23:59:46
      男子花80塊錢請(qǐng)人畫畫,付款時(shí),要了張收據(jù),50年后,這張收據(jù)賣了180萬

      男子花80塊錢請(qǐng)人畫畫,付款時(shí),要了張收據(jù),50年后,這張收據(jù)賣了180萬

      霹靂炮
      2026-02-14 20:47:47
      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認(rèn)真打

      小卡開炮全明星賽!萊昂納德直言:這賽制根本沒人想認(rèn)真打

      體育閑話說
      2026-02-15 14:19:21
      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

      以色列已經(jīng)告訴世界:日本若敢擁有核武器,美國(guó)并不會(huì)第一個(gè)翻臉

      八斗小先生
      2025-12-26 09:33:27
      除夕三不擺,來年不惹災(zāi)”,這3樣水果別上桌,易鬧笑話壞彩頭

      除夕三不擺,來年不惹災(zāi)”,這3樣水果別上桌,易鬧笑話壞彩頭

      小陸搞笑日常
      2026-02-13 05:58:45
      男人別碰四五十歲的女人,她們有2個(gè)地方你“惹不起”!

      男人別碰四五十歲的女人,她們有2個(gè)地方你“惹不起”!

      加油丁小文
      2026-01-16 22:16:00
      【微特稿】不顧法院保護(hù)令 美國(guó)將9人秘密驅(qū)逐至喀麥隆

      【微特稿】不顧法院保護(hù)令 美國(guó)將9人秘密驅(qū)逐至喀麥隆

      新華社
      2026-02-15 20:38:11
      布朗尼情人節(jié)曬與女友合影!兩人都是星二代 已見過雙方父母

      布朗尼情人節(jié)曬與女友合影!兩人都是星二代 已見過雙方父母

      Emily說個(gè)球
      2026-02-15 20:40:18
      “學(xué)習(xí)學(xué)傻了吧?”女孩曬滿墻獎(jiǎng)狀,挑釁有錢人被嘲:頭腦不清醒

      “學(xué)習(xí)學(xué)傻了吧?”女孩曬滿墻獎(jiǎng)狀,挑釁有錢人被嘲:頭腦不清醒

      妍妍教育日記
      2026-02-14 17:00:28
      中烏極罕見一幕發(fā)生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      中烏極罕見一幕發(fā)生,普京和特朗普全都沒想到:澤連斯基敢這樣說

      牛鍋巴小釩
      2026-02-16 02:38:23
      2026-02-16 05:12:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      293文章數(shù) 36關(guān)注度
      往期回顧 全部

      科技要聞

      發(fā)春節(jié)紅包的大廠都被約談了

      頭條要聞

      大學(xué)生寒假為媽媽店鋪當(dāng)中老年服裝模特 撞臉明星

      頭條要聞

      大學(xué)生寒假為媽媽店鋪當(dāng)中老年服裝模特 撞臉明星

      體育要聞

      NBA三分大賽:利拉德帶傷第三次奪冠

      娛樂要聞

      2026央視春晚最新劇透 重量級(jí)嘉賓登場(chǎng)

      財(cái)經(jīng)要聞

      誰在掌控你的胃?起底百億"飄香劑"江湖

      汽車要聞

      奔馳中國(guó)換帥:段建軍離任,李德思接棒

      態(tài)度原創(chuàng)

      房產(chǎn)
      藝術(shù)
      教育
      游戲
      公開課

      房產(chǎn)要聞

      三亞新機(jī)場(chǎng),又傳出新消息!

      藝術(shù)要聞

      168米!廣州“翠竹”摩天大樓復(fù)工?

      教育要聞

      點(diǎn)贊收藏轉(zhuǎn)發(fā)這條視頻,我不怕小日子

      LPL第一賽段還未結(jié)束,亞運(yùn)會(huì)已有3隊(duì)退出LOL比賽,包括東道主

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版