<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      DeepSeek V3到V3.2的進(jìn)化之路,一文看全

      0
      分享至



      機(jī)器之心編譯

      作者:Sebastian Raschka

      12 月 1 日,DeepSeek 一口氣發(fā)布了兩款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

      幾天過(guò)去,熱度依舊不減,解讀其技術(shù)報(bào)告的博客也正在不斷涌現(xiàn)。知名 AI 研究者和博主 Sebastian Raschka 發(fā)布這篇深度博客尤其值得一讀,其詳細(xì)梳理了 DeepSeek V3 到 V3.2 的進(jìn)化歷程。



      機(jī)器之心編譯了這篇深度技術(shù)博客,以饗讀者:



      • 博客標(biāo)題:A Technical Tour of the DeepSeek Models from V3 to V3.2
      • 博客地址:https://sebastianraschka.com/blog/2025/technical-deepseek.html

      與 DeepSeek V3 的發(fā)布策略如出一轍,DeepSeek 團(tuán)隊(duì)再次選擇在一個(gè)美國(guó)主要節(jié)假日周末發(fā)布了他們的新旗艦?zāi)P汀?/p>

      鑒于 DeepSeek V3.2 展現(xiàn)出了極佳的性能水平(在基準(zhǔn)測(cè)試中對(duì)標(biāo) GPT-5 和 Gemini 3.0 Pro),加之它本身也是一個(gè)開(kāi)放權(quán)重模型,這無(wú)疑值得重點(diǎn)關(guān)注。



      圖 1:DeepSeek V3.2 與專(zhuān)有旗艦?zāi)P椭g的基準(zhǔn)測(cè)試對(duì)比。來(lái)自 DeepSeek V3.2 報(bào)告 并加上了注釋。

      我曾在文章《大型 LLM 架構(gòu)對(duì)比》的開(kāi)篇介紹過(guò)它的前身 ——DeepSeek V3。隨著新架構(gòu)的不斷涌現(xiàn),我在過(guò)去幾個(gè)月里一直在持續(xù)更新那篇文章。

      原本,我剛和家人度完感恩節(jié)假期回來(lái),計(jì)劃「只是」在原文章中增加一個(gè)新章節(jié)來(lái)簡(jiǎn)單介紹這次新發(fā)布的 DeepSeek V3.2。但隨后我意識(shí)到,這次更新包含太多有趣的信息和細(xì)節(jié),僅僅一個(gè)章節(jié)無(wú)法涵蓋。因此,我決定將其寫(xiě)成一篇篇幅較長(zhǎng)的獨(dú)立文章。

      他們的技術(shù)報(bào)告中涵蓋了大量有趣的領(lǐng)域和值得學(xué)習(xí)的知識(shí),讓我們開(kāi)始吧!

      目錄

      1. DeepSeek 發(fā)布時(shí)間線

      2. 混合推理模型與專(zhuān)用推理模型

      3. 從 DeepSeek V3 到 V3.1

      3.1 DeepSeek V3 概覽與多頭潛在注意力 (MLA)

      3.2 DeepSeek R1 概覽與帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí) (RLVR)

      3.3 DeepSeek R1-0528 版本升級(jí)

      3.4 DeepSeek V3.1 混合推理

      4. DeepSeek V3.2-Exp 與稀疏注意力機(jī)制

      5. 采用自我驗(yàn)證與自我修正的 DeepSeekMath V2

      5.1 自我驗(yàn)證

      5.2 自我修正

      6. DeepSeek V3.2 (2025 年 12 月 1 日)

      6.1 DeepSeek V3.2 架構(gòu)

      6.2 強(qiáng)化學(xué)習(xí)更新

      6.3 GRPO 更新

      6.4 DeepSeek V3.2-Speciale 與擴(kuò)展思維

      7. 總結(jié)

      1. DeepSeek 發(fā)布時(shí)間線

      雖然 DeepSeek V3 在 2024 年 12 月剛發(fā)布時(shí)并沒(méi)有立刻引起轟動(dòng),但隨后推出的 DeepSeek R1 推理模型(基于相同的架構(gòu),使用 DeepSeek V3 作為基礎(chǔ)模型)改變了局面。它幫助 DeepSeek 成為了最受歡迎的開(kāi)放權(quán)重模型之一,并成為了 OpenAI、Google、xAI 和 Anthropic 等公司專(zhuān)有模型的有力替代方案。



      圖 2:2024 年 12 月發(fā)布的 DeepSeek V3 和 R1 架構(gòu)。我們將在稍后的章節(jié)中重溫并討論這些架構(gòu)細(xì)節(jié)。

      那么,自 V3/R1 以來(lái)有什么新變化嗎?我相信 DeepSeek 團(tuán)隊(duì)今年一定非常忙碌。然而,自 DeepSeek R1 發(fā)布后的過(guò)去 10 到 11 個(gè)月里,并沒(méi)有出現(xiàn)重大的版本發(fā)布。

      就我個(gè)人而言,我認(rèn)為花大約一年的時(shí)間來(lái)發(fā)布一個(gè)主要的 LLM 版本是合理的,因?yàn)檫@涉及海量的工作。然而,我在各種社交媒體平臺(tái)上看到人們宣稱(chēng)該團(tuán)隊(duì)已經(jīng)「涼了」。

      最后,這并不代表他們什么都沒(méi)發(fā)布。今年其實(shí)陸續(xù)有一些較小的發(fā)布,例如 DeepSeek V3.1 和 V3.2-Exp。



      圖 3:自去年以來(lái)的 DeepSeek 發(fā)布情況。主要模型以紅色顯示。

      正如我在九月份所預(yù)測(cè)的那樣,DeepSeek V3.2-Exp 的發(fā)布旨在為托管剛剛發(fā)布的 V3.2 模型準(zhǔn)備生態(tài)系統(tǒng)和推理基礎(chǔ)設(shè)施。

      V3.2-Exp 和 V3.2 使用了一種非標(biāo)準(zhǔn)的稀疏注意力(Sparse Attention)變體,這需要定制代碼,我們稍后會(huì)詳細(xì)介紹這種機(jī)制。

      2. 混合推理模型與專(zhuān)用推理模型

      在進(jìn)一步討論模型細(xì)節(jié)之前,有必要先探討一下整體的模型類(lèi)型。最初,DeepSeek V3 是作為一個(gè)基礎(chǔ)模型發(fā)布的,而 DeepSeek R1 則增加了額外的后訓(xùn)練,以開(kāi)發(fā)成一個(gè)專(zhuān)用的推理模型。這一過(guò)程總結(jié)在下圖中。



      圖 4:DeepSeek R1 訓(xùn)練流程概覽

      這里值得注意的是,DeepSeek V3 是基礎(chǔ)模型,而 DeepSeek R1 是專(zhuān)用的推理模型。

      在 DeepSeek 推進(jìn)的同時(shí),其他團(tuán)隊(duì)今年也發(fā)布了許多非常強(qiáng)大的開(kāi)放權(quán)重推理模型。今年最強(qiáng)的開(kāi)放權(quán)重模型之一是 Qwen3。最初,它是作為一個(gè)混合推理模型發(fā)布的,這意味著用戶可以在同一個(gè)模型中切換推理模式和非推理模式。(在 Qwen3 的案例中,這種切換是通過(guò)分詞器添加 / 省略標(biāo)簽來(lái)實(shí)現(xiàn)的。)

      從那時(shí)起,LLM 團(tuán)隊(duì)發(fā)布了專(zhuān)用推理模型和指令 / 推理混合模型(有些團(tuán)隊(duì)甚至在這兩者之間反復(fù)橫跳),如下圖的時(shí)間線所示。



      圖 5:今年發(fā)布的部分推理模型和混合模型的時(shí)間線。

      例如,Qwen3 最初是混合模型。但隨后,Qwen 團(tuán)隊(duì)分別發(fā)布了獨(dú)立的指令(Instruct)模型和推理(Reasoning)模型,因?yàn)檫@兩種模型開(kāi)發(fā)起來(lái)更容易,且在各自的用例中性能表現(xiàn)更好。

      有些模型(如 OpenAI 的 gpt-oss)僅提供混合變體,用戶可以通過(guò)系統(tǒng)提示詞(System Prompt)選擇推理力度(我懷疑 GPT-5 和 GPT-5.1 也是類(lèi)似的處理方式)。

      而在 DeepSeek 的案例中,他們似乎反其道而行之,從專(zhuān)用推理模型(R1)轉(zhuǎn)向了混合模型(V3.1 和 V3.2)。不過(guò),我懷疑 R1 主要是作為一個(gè)研究項(xiàng)目,旨在開(kāi)發(fā)推理方法和驗(yàn)證當(dāng)時(shí)最好的推理模型。V3.2 的發(fā)布可能更多是為了開(kāi)發(fā)針對(duì)不同用例的最佳整體模型。(在這里,R1 更像是一個(gè)測(cè)試平臺(tái)或原型模型。)

      我也猜想,雖然 DeepSeek 團(tuán)隊(duì)開(kāi)發(fā)了具有推理能力的 V3.1 和 V3.2,但他們可能仍在開(kāi)發(fā)專(zhuān)門(mén)的 R2 模型。

      3. 從 DeepSeek V3 到 V3.1

      在更詳細(xì)地討論新的 DeepSeek V3.2 發(fā)布之前,我認(rèn)為先概述一下從 V3 到 V3.1 的主要變化會(huì)很有幫助。

      3.1 DeepSeek V3 概覽與多頭潛在注意力 (MLA)

      我已經(jīng)在其他幾篇文章中非常詳細(xì)地討論了 DeepSeek V3 和 R1。

      總結(jié)一下要點(diǎn),DeepSeek V3 是一個(gè)基礎(chǔ)模型,它使用了兩個(gè)值得注意的架構(gòu)特性:混合專(zhuān)家模型(MoE)多頭潛在注意力(MLA)

      我想你此時(shí)可能已經(jīng)對(duì) MoE 非常熟悉了,所以我這里跳過(guò)介紹。

      另一個(gè)值得注意的亮點(diǎn)是 MLA 的使用。MLA 已被用于 DeepSeek V2、V3 和 R1,它提供了一種節(jié)省內(nèi)存的策略,特別適合與 KV 緩存搭配使用。MLA 的核心思想是在將鍵(Key)和值(Value)張量存儲(chǔ)到 KV 緩存之前,先將它們壓縮到一個(gè)低維空間中。

      在推理時(shí),這些壓縮的張量在使用前會(huì)被投影回其原始大小,如下圖所示。這雖然增加了一次額外的矩陣乘法,但顯著減少了內(nèi)存使用。

      (順便提一下,查詢 Query 也會(huì)被壓縮,但僅在訓(xùn)練期間,推理期間不會(huì)。)



      圖 6:DeepSeek V3 和 R1 中的多頭潛在注意力 (MLA)。為簡(jiǎn)單起見(jiàn),未顯示查詢向量的壓縮空間。

      上圖闡述了 MLA 背后的主要思想:鍵和值首先被投影到一個(gè)潛在向量中,該向量可以存儲(chǔ)在 KV 緩存中以減少內(nèi)存需求。這需要稍后進(jìn)行向上投影(Up-projection)回到原始的鍵 - 值空間,但總體上它提高了效率(類(lèi)比一下,你可以將其想象為 LoRA 中的降維和升維投影)。

      順便說(shuō)一句,正如前面提到的,MLA 在 DeepSeek V3 中并不是新事物,因?yàn)樗那吧?DeepSeek V2 也使用了(甚至引入了)它。

      3.2 DeepSeek R1 概覽與帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí) (RLVR)

      DeepSeek R1 使用了與上述 DeepSeek V3 相同的架構(gòu)。區(qū)別在于訓(xùn)練配方。即,使用 DeepSeek V3 作為基礎(chǔ)模型,DeepSeek R1 專(zhuān)注于「帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)」(RLVR)方法,以提高模型的推理能力。

      RLVR 的核心思想是讓模型從可以進(jìn)行符號(hào)化或編程驗(yàn)證的響應(yīng)中學(xué)習(xí),例如數(shù)學(xué)和代碼(但這當(dāng)然也可以擴(kuò)展到這兩個(gè)領(lǐng)域之外)。



      圖 7:一個(gè)可驗(yàn)證任務(wù)的示例。

      GRPO算法,全稱(chēng)「群相對(duì)策略優(yōu)化」(Group Relative Policy Optimization),本質(zhì)上是「近端策略優(yōu)化」(PPO)算法的一個(gè)簡(jiǎn)化變體。PPO 在用于 LLM 對(duì)齊的「帶人類(lèi)反饋的強(qiáng)化學(xué)習(xí)」(RLHF)中非常流行。



      圖 8:LLM 訓(xùn)練中強(qiáng)化學(xué)習(xí)設(shè)置的比較。傳統(tǒng)的帶 PPO 的 RLHF 使用獎(jiǎng)勵(lì)模型(基于人類(lèi)偏好訓(xùn)練)和評(píng)論家(價(jià)值模型)來(lái)指導(dǎo)學(xué)習(xí)。GRPO 取消了評(píng)論家模型。帶 GRPO 的 RLVR 更進(jìn)一步,移除了獎(jiǎng)勵(lì)模型,轉(zhuǎn)而依賴來(lái)自符號(hào)工具(如計(jì)算器或編譯器)的可驗(yàn)證獎(jiǎng)勵(lì)。

      3.3 DeepSeek R1-0528 版本升級(jí)

      正如 DeepSeek 團(tuán)隊(duì)自己所述,DeepSeek R1-0528 基本上是一個(gè)「小版本升級(jí)」。

      架構(gòu)與 DeepSeek V3/R1 保持一致,改進(jìn)主要在訓(xùn)練方面,以使其達(dá)到當(dāng)時(shí) OpenAI o3 和 Gemini 2.5 Pro 的水平。

      遺憾的是,DeepSeek 團(tuán)隊(duì)沒(méi)有發(fā)布任何具體信息來(lái)描述這是如何實(shí)現(xiàn)的;然而,他們表示這部分源于后訓(xùn)練流程的優(yōu)化。此外,根據(jù)已分享的信息,我認(rèn)為該模型的托管版本在推理時(shí)可能會(huì)使用更多的計(jì)算資源(即進(jìn)行更長(zhǎng)時(shí)間的推理)。

      3.4 DeepSeek V3.1 混合推理

      DeepSeek V3.1 是一個(gè)兼具通用聊天(指令)和推理能力的混合模型。也就是說(shuō),不再開(kāi)發(fā)兩個(gè)獨(dú)立的模型,而是現(xiàn)在有一個(gè)模型,用戶可以通過(guò)聊天提示模板切換模式(類(lèi)似于最初的 Qwen3 模型)。

      DeepSeek V3.1 基于 DeepSeek V3.1-Base,而后者又基于 DeepSeek V3。它們都共享相同的架構(gòu)。

      4. DeepSeek V3.2-Exp 與稀疏注意力機(jī)制

      DeepSeek V3.2-Exp (2025 年 9 月) 開(kāi)始變得更有趣了。

      最初,DeepSeek V3.2-Exp 在發(fā)布時(shí)并沒(méi)有霸榜基準(zhǔn)測(cè)試,這也是為什么當(dāng)時(shí)圍繞這個(gè)模型的興奮度不高的原因。然而,正如我在九月份推測(cè)的那樣,這很可能是一個(gè)早期的實(shí)驗(yàn)性發(fā)布,旨在為更大規(guī)模的發(fā)布準(zhǔn)備基礎(chǔ)設(shè)施(特別是推理和部署工具),因?yàn)?DeepSeek V3.2-Exp 中有一些架構(gòu)上的變化。更大的發(fā)布是 DeepSeek V3.2(不是 V4),這一部分稍后會(huì)詳細(xì)介紹。

      那么,DeepSeek V3.2-Exp 有什么新東西?首先,DeepSeek V3.2-Exp 是基于 DeepSeek V3.1-Terminus 作為基礎(chǔ)模型訓(xùn)練的。什么是 DeepSeek V3.1-Terminus?它只是上一節(jié)提到的 DeepSeek V3.1 檢查點(diǎn)的一個(gè)小幅改進(jìn)版。

      技術(shù)報(bào)告指出:

      DeepSeek-V3.2-Exp,一個(gè)實(shí)驗(yàn)性的稀疏注意力模型,它通過(guò)持續(xù)訓(xùn)練為 DeepSeek-V3.1-Terminus 配備了 DeepSeek 稀疏注意力 (DSA)。憑借由 Lightning Indexer 驅(qū)動(dòng)的細(xì)粒度稀疏注意力機(jī)制 DSA,DeepSeek-V3.2-Exp 在訓(xùn)練和推理方面都實(shí)現(xiàn)了顯著的效率提升,特別是在長(zhǎng)上下文場(chǎng)景中。

      如上段所述,這里的主要?jiǎng)?chuàng)新是他們?cè)趯?duì) DeepSeek V3.1-Terminus 進(jìn)行進(jìn)一步訓(xùn)練之前,添加了DeepSeek 稀疏注意力 (DSA)機(jī)制。

      這個(gè) DSA 由 (1) 一個(gè) lightning indexer 和 (2) 一個(gè) Token 選擇器(token-selector)組成,目標(biāo)是有選擇地減少上下文以提高效率。

      為了解釋它是如何工作的,讓我們從滑動(dòng)窗口注意力開(kāi)始。例如,滑動(dòng)窗口注意力這種技術(shù)(最近被 Gemma 3 和 Olmo 3 使用)會(huì)將注意力窗口限制為固定大小,如下圖所示。



      圖 9:在滑動(dòng)窗口注意力中,當(dāng)前的查詢 Token 不關(guān)注所有之前的 Token,而只關(guān)注一個(gè)子集。

      DSA 基于與滑動(dòng)窗口注意力相同的想法:只能關(guān)注一部分過(guò)去的 Token。然而,DSA 不是通過(guò)固定寬度的滑動(dòng)窗口來(lái)選擇可關(guān)注的 Token,而是擁有一個(gè)索引器和 Token 選擇器來(lái)決定哪些過(guò)去的 Token 可以被關(guān)注。換句話說(shuō),可被關(guān)注的 Token 選擇更加隨機(jī),如下圖所示。



      圖 10:在 DSA 中,當(dāng)前 Token 可以關(guān)注一組選定的過(guò)去 Token,而不是像常規(guī)因果注意力那樣關(guān)注所有過(guò)去 Token。

      然而,雖然我上面說(shuō)了「隨機(jī)」,但選擇哪些過(guò)去 Token 的模式實(shí)際上并不是隨機(jī)的,而是學(xué)習(xí)得到的。

      實(shí)際上,DSA 使用其所謂的 lightning indexer 基于所有先前的 Token 為每個(gè)新的查詢 Token 計(jì)算相關(guān)性分?jǐn)?shù)。對(duì)于此計(jì)算,lightning indexer 使用 DeepSeek 多頭潛在注意力 (MLA) 中的壓縮 Token 表示,并計(jì)算與其他 Token 的相似度。相似度分?jǐn)?shù)基本上是通過(guò) ReLU 函數(shù)的查詢向量和鍵向量之間的縮放點(diǎn)積。

      如果你對(duì)數(shù)學(xué)細(xì)節(jié)感興趣,下面展示了(摘自論文的)該 lightning indexer 相似度分?jǐn)?shù)的方程:



      這里,w 是一個(gè)學(xué)習(xí)得到的每頭(per-head)加權(quán)系數(shù),決定每個(gè)索引器頭對(duì)最終相似度分?jǐn)?shù)的貢獻(xiàn)程度。q 指的是查詢向量,k 指的是鍵向量。下面是不同下標(biāo)的列表:

      • t:當(dāng)前查詢 Token 的位置;
      • s:序列中先前 Token 的位置 (0 ≤ s < t);
      • j:不同索引器頭的索引(為了簡(jiǎn)單起見(jiàn),圖 10 僅顯示了一個(gè)頭),所以 q_{t,j} 意思是「索引器頭 j 中當(dāng)前 Token t 的查詢向量」。

      你可能會(huì)注意到索引器僅針對(duì)查詢,而不針對(duì)鍵。這是因?yàn)槟P椭恍枰獩Q定每個(gè)新查詢應(yīng)該考慮哪些過(guò)去的 Token。鍵已經(jīng)被壓縮并存儲(chǔ)在 KV 緩存中,因此索引器不需要再次對(duì)它們進(jìn)行評(píng)分或壓縮。

      這里的 ReLU 函數(shù),因?yàn)樗?f(x) = max(x, 0),會(huì)將負(fù)的點(diǎn)積位置歸零,這理論上可以實(shí)現(xiàn)稀疏性。但由于存在對(duì)不同頭的求和,索引器分?jǐn)?shù)實(shí)際上為 0 的可能性很小。稀疏性主要來(lái)自于單獨(dú)的 Token 選擇器。

      單獨(dú)的 Token 選擇器僅保留少量高分 Token(例如,top-k 位置),并構(gòu)建一個(gè)稀疏注意力掩碼,掩蓋掉未包含在選定子集中的其他 Token。(注意這里的 k 是 top-k 中的 k,不要與上面方程中用于鍵的 k 混淆,這是一個(gè)超參數(shù),在 DeepSeek 團(tuán)隊(duì)分享的模型代碼中設(shè)置為 2048。)

      下圖以流程圖的形式說(shuō)明了整個(gè)過(guò)程。



      圖 11:DeepSeek V3.2 稀疏注意力機(jī)制的可視化總結(jié)。

      總結(jié)一下,索引器和 Token 選擇器的結(jié)果是,每個(gè) Token 只關(guān)注模型習(xí)得的認(rèn)為最相關(guān)的幾個(gè)過(guò)去 Token,而不是所有 Token 或固定的局部窗口。

      這里的目標(biāo)不是為了超越 DeepSeek V3.1-Terminus 的性能,而是在減少性能衰減(由于稀疏注意力機(jī)制)的同時(shí),受益于效率的提升。

      總的來(lái)說(shuō),DSA 將注意力機(jī)制的計(jì)算復(fù)雜度從二次的 O(L2) 降低到了線性的 O(Lk),其中 L 是序列長(zhǎng)度,k 是選定 Token 的數(shù)量。

      5. 采用自我驗(yàn)證與自我修正的 DeepSeekMath V2

      討論完 DeepSeek V3.2-Exp,我們?cè)絹?lái)越接近本文的主題:DeepSeek V3.2。然而,還有一個(gè)拼圖需要先討論。

      2025 年 11 月 27 日(美國(guó)的感恩節(jié)),就在 DeepSeek V3.2 發(fā)布前 4 天,DeepSeek 團(tuán)隊(duì)發(fā)布了基于DeepSeek V3.2-Exp-Base的 DeepSeekMath V2。

      該模型是專(zhuān)門(mén)為數(shù)學(xué)開(kāi)發(fā)的,并在多個(gè)數(shù)學(xué)競(jìng)賽中獲得了金牌級(jí)的分?jǐn)?shù)。本質(zhì)上,我們可以將其視為 DeepSeek V3.2 的概念驗(yàn)證模型,它引入了另一項(xiàng)技術(shù)。

      這里的關(guān)鍵在于,推理模型(如 DeepSeek R1 和其他模型)是使用外部驗(yàn)證器訓(xùn)練的,模型學(xué)會(huì)了在得出最終答案之前自行編寫(xiě)解釋。然而,這些解釋可能是不正確的。

      正如 DeepSeek 團(tuán)隊(duì)簡(jiǎn)潔指出的那樣,常規(guī) RLVR 的缺點(diǎn)是:

      […] 正確的答案并不保證正確的推理。
      […] 模型可能通過(guò)有缺陷的邏輯或幸運(yùn)的錯(cuò)誤得出正確的答案。

      他們旨在解決的 DeepSeek R1 RLVR 方法的另一個(gè)局限性是:

      […] 許多數(shù)學(xué)任務(wù)(如定理證明)需要嚴(yán)格的逐步推導(dǎo)而不是數(shù)值答案,這使得最終答案獎(jiǎng)勵(lì)并不適用。

      因此,為了改善上述兩個(gè)缺點(diǎn),他們訓(xùn)練了兩個(gè)模型:

      1. 一個(gè)用于定理證明的基于 LLM 的驗(yàn)證器(Verifier)。
      2. 主模型,一個(gè)證明生成器(Proof-Generator),它使用基于 LLM 的驗(yàn)證器作為獎(jiǎng)勵(lì)模型(而不是符號(hào)驗(yàn)證器)。

      除了上述通過(guò) LLM 進(jìn)行自我驗(yàn)證外,他們還使用了自我修正,讓 LLM 迭代地改進(jìn)其自己的答案。

      5.1 自我驗(yàn)證

      擁有一個(gè)對(duì)中間步驟進(jìn)行評(píng)分的 LLM 并不是什么新鮮事。有不少關(guān)于所謂「過(guò)程獎(jiǎng)勵(lì)模型」(Process Reward Models)的研究專(zhuān)注于此。例子包括:Solving Math Word Problems With Process- and Outcome-based Feedback (2022) 或 Let’s Verify Step by Step (2023),還有更多。

      過(guò)程獎(jiǎng)勵(lì)模型的挑戰(zhàn)在于,檢查中間獎(jiǎng)勵(lì)是否正確并不容易,這也可能導(dǎo)致獎(jiǎng)勵(lì)黑客攻擊(reward hacking)。

      在 2025 年 1 月的 DeepSeek R1 論文中,他們沒(méi)有使用過(guò)程獎(jiǎng)勵(lì)模型,因?yàn)樗麄儼l(fā)現(xiàn):

      在我們的實(shí)驗(yàn)中,與其在大規(guī)模強(qiáng)化學(xué)習(xí)過(guò)程中引入的額外計(jì)算開(kāi)銷(xiāo)相比,它的優(yōu)勢(shì)是有限的。

      在此文中,他們以自我驗(yàn)證的形式成功地重新審視了這一點(diǎn)。其動(dòng)機(jī)是,即使不存在參考答案,人類(lèi)在閱讀證明和發(fā)現(xiàn)問(wèn)題時(shí)也能進(jìn)行自我糾正。

      因此,為了開(kāi)發(fā)一個(gè)更好的撰寫(xiě)數(shù)學(xué)證明的模型(下圖中的 LLM 1),他們開(kāi)發(fā)了一個(gè)證明驗(yàn)證器(下圖中的 LLM 2),它可以用作「LLM 即裁判」(LLM-as-a-judge)來(lái)對(duì)證明者(LLM 1)的輸出進(jìn)行評(píng)分。



      圖 12:通用的數(shù)學(xué)證明生成器 (LLM 1) 和驗(yàn)證器 (LLM 2) 設(shè)置。

      驗(yàn)證器 LLM (LLM 2) 接收一個(gè)評(píng)分標(biāo)準(zhǔn)來(lái)對(duì)生成的證明進(jìn)行評(píng)分,分?jǐn)?shù)規(guī)則如下:

      • 「1 分:完整且嚴(yán)謹(jǐn)?shù)淖C明,所有邏輯步驟都有清晰的論證;」
      • 「0.5 分:證明整體邏輯合理,但有微小錯(cuò)誤或遺漏細(xì)節(jié);」
      • 「0 分:證明存在根本性缺陷,包含致命的邏輯錯(cuò)誤或關(guān)鍵缺失。」

      對(duì)于證明驗(yàn)證器模型,他們從 DeepSeek V3.2-Exp-SFT 開(kāi)始,這是他們基于 DeepSeek V3.2-Exp 通過(guò)在推理數(shù)據(jù)(數(shù)學(xué)和代碼)上進(jìn)行監(jiān)督微調(diào)而創(chuàng)建的模型。然后,他們使用格式獎(jiǎng)勵(lì)(檢查解決方案是否符合預(yù)期格式)和基于預(yù)測(cè)分?jǐn)?shù)與實(shí)際分?jǐn)?shù)(由人類(lèi)數(shù)學(xué)專(zhuān)家標(biāo)注)接近程度的分?jǐn)?shù)獎(jiǎng)勵(lì),對(duì)該模型進(jìn)行進(jìn)一步的強(qiáng)化學(xué)習(xí)訓(xùn)練。

      證明驗(yàn)證器 (LLM 2) 的目標(biāo)是檢查生成的證明 (LLM 1),但誰(shuí)來(lái)檢查證明驗(yàn)證器呢?為了使證明驗(yàn)證器更加穩(wěn)健并防止其產(chǎn)生幻覺(jué)問(wèn)題,他們開(kāi)發(fā)了第三個(gè) LLM,即元驗(yàn)證器(Meta-verifier)。



      圖 13:元驗(yàn)證器 (LLM 3) 檢查驗(yàn)證器 (LLM 2) 是否正確評(píng)估了生成器 (LLM 1)。

      元驗(yàn)證器 (LLM 3) 也是通過(guò)強(qiáng)化學(xué)習(xí)開(kāi)發(fā)的,類(lèi)似于 LLM 2。雖然使用元驗(yàn)證器不是必須的,但 DeepSeek 團(tuán)隊(duì)報(bào)告稱(chēng):

      由元驗(yàn)證器評(píng)估的驗(yàn)證器證明分析的平均質(zhì)量得分從 0.85 提高到了 0.96,同時(shí)保持了相同的證明評(píng)分預(yù)測(cè)準(zhǔn)確性。

      這實(shí)際上是一個(gè)相當(dāng)有趣的設(shè)置。如果你熟悉生成對(duì)抗網(wǎng)絡(luò) (GAN),你可能會(huì)在這里看到類(lèi)比。例如,證明驗(yàn)證器(將其視為 GAN 判別器)改進(jìn)了證明生成器,而證明生成器生成了更好的證明,進(jìn)一步推動(dòng)了證明驗(yàn)證器的進(jìn)步。

      元分?jǐn)?shù)(Meta score)用于驗(yàn)證器 (LLM 2) 和生成器 (LLM 1) 的訓(xùn)練期間。它并不用于推理時(shí)的自我修正循環(huán),我們將在下一節(jié)討論這一點(diǎn)。

      5.2 自我修正

      在上一節(jié)中,我們談到了自我驗(yàn)證,即分析解決方案的質(zhì)量。其目的是為了實(shí)現(xiàn)自我修正,這意味著 LLM 可以根據(jù)反饋采取行動(dòng)并修改其答案。

      傳統(tǒng)上,在自我修正這種成熟且流行的推理擴(kuò)展技術(shù)中,我們會(huì)使用同一個(gè) LLM 來(lái)生成解決方案并對(duì)其進(jìn)行驗(yàn)證,然后再進(jìn)行修正。換句話說(shuō),在前面的圖 12 和 13 中,LLM 1 和 LLM 2 將是同一個(gè) LLM。因此,傳統(tǒng)的自我修正過(guò)程如下所示:



      圖 14:一個(gè)經(jīng)典的自我修正迭代,同一個(gè) LLM 生成初始響應(yīng)(Output 1),對(duì)其進(jìn)行評(píng)估(Eval),并生成修正后的答案(Output 2)。

      然而,DeepSeek 團(tuán)隊(duì)觀察到在實(shí)踐中使用同一個(gè) LLM 既進(jìn)行生成又進(jìn)行驗(yàn)證存在一個(gè)關(guān)鍵問(wèn)題:

      當(dāng)被提示一次性生成并分析其自己的證明時(shí),生成器往往會(huì)聲稱(chēng)正確,即使外部驗(yàn)證器很容易發(fā)現(xiàn)缺陷。換句話說(shuō),雖然生成器可以根據(jù)外部反饋修正證明,但它無(wú)法像專(zhuān)用驗(yàn)證器那樣嚴(yán)謹(jǐn)?shù)卦u(píng)估自己的工作。

      作為邏輯推論,人們會(huì)假設(shè)他們使用獨(dú)立的證明生成器 (LLM 1) 和證明驗(yàn)證器 (LLM 2)。因此,這里使用的自我修正循環(huán)變得類(lèi)似于下圖所示。請(qǐng)注意,我們省略了 LLM 3,它僅在開(kāi)發(fā)驗(yàn)證器 (LLM 2) 期間使用。



      圖 15:使用獨(dú)立驗(yàn)證器 LLM (LLM 2) 的自我修正。

      然而,在實(shí)踐中,與圖 15 不同的是,DeepSeek 團(tuán)隊(duì)使用的生成器和驗(yàn)證器 LLM 與圖 14 中的經(jīng)典自我修正循環(huán)是同一個(gè):

      「所有實(shí)驗(yàn)都使用了一個(gè)單一模型,即我們的最終證明生成器,它同時(shí)執(zhí)行證明生成和驗(yàn)證。」

      換句話說(shuō),獨(dú)立的驗(yàn)證器對(duì)于訓(xùn)練是必不可少的——可用于改進(jìn)生成器,但在生成器足夠強(qiáng)大之后,在推理期間就不再使用(或不需要)它了。與簡(jiǎn)單的單模型自我修正的關(guān)鍵區(qū)別在于,最終的證明者是在更強(qiáng)大的驗(yàn)證器和元驗(yàn)證器的指導(dǎo)下訓(xùn)練出來(lái)的,因此它學(xué)會(huì)了將這些評(píng)分標(biāo)準(zhǔn)應(yīng)用于自己的輸出。

      此外,在推理期間使用這種合二為一的 DeepSeekMath V2 驗(yàn)證器在資源和成本方面也是有利的,因?yàn)樗冗\(yùn)行第二個(gè) LLM 進(jìn)行證明驗(yàn)證增加了更少的復(fù)雜性和計(jì)算需求。

      回到圖 14 和 15 中展示的一般自我修正概念,這兩張圖都顯示了 2 次迭代的自我修正(初始迭代和修正后的答案)。當(dāng)然,我們可以向此過(guò)程添加更多迭代。這是一個(gè)經(jīng)典的推理擴(kuò)展權(quán)衡:我們添加的迭代越多,生成答案的成本就越高,但整體準(zhǔn)確性也會(huì)越高。

      在論文中,DeepSeek 團(tuán)隊(duì)使用了多達(dá) 8 次迭代,看起來(lái)準(zhǔn)確性尚未飽和。



      圖 16:額外的自我修正迭代提高了準(zhǔn)確性。來(lái)自 DeepSeekMath V2 論文,并加上了注釋。Best@32 多數(shù)投票方法也被稱(chēng)為自我一致性(Self-consistency)。

      6. DeepSeek V3.2 (2025 年 12 月 1 日)

      我們?cè)谏弦还?jié)花了這么多時(shí)間討論 DeepSeekMath V2 的原因是:

      • 它是一個(gè)非常有趣的概念驗(yàn)證,通過(guò)自我驗(yàn)證和自我修正技術(shù)進(jìn)一步推動(dòng)了「帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)」(RLVR)理念;
      • 自我驗(yàn)證和自我修正技術(shù)也被用于 DeepSeek V3.2 中。

      但在我們進(jìn)入這部分之前,先來(lái)看看 DeepSeek V3.2 的總體概況。這個(gè)模型之所以重要,是因?yàn)樗c當(dāng)前的旗艦?zāi)P拖啾缺憩F(xiàn)非常出色。



      圖 17:DeepSeek V3.2 與專(zhuān)有旗艦?zāi)P椭g的基準(zhǔn)測(cè)試對(duì)比。來(lái)自 DeepSeek V3.2 報(bào)告,并加上了注釋。

      與 DeepSeek 的其他幾款模型類(lèi)似,V3.2 也附帶了一份很棒的技術(shù)報(bào)告,我將在接下來(lái)的章節(jié)中進(jìn)行討論。

      6.1 DeepSeek V3.2 架構(gòu)

      當(dāng)然,該模型的主要?jiǎng)訖C(jī)是提高整體模型性能。例如,像 DeepSeekMath V2 一樣,它在數(shù)學(xué)基準(zhǔn)測(cè)試中獲得了金牌級(jí)的表現(xiàn)。然而,該模型在訓(xùn)練時(shí)也考慮到了工具的使用,并且在其他任務(wù)(例如代碼和智能體任務(wù))上也表現(xiàn)良好。

      同時(shí),DeepSeek 團(tuán)隊(duì)將計(jì)算效率視為一個(gè)巨大的驅(qū)動(dòng)因素。這就是為什么他們使用了 V2 和 V3 中的多頭潛在注意力 (MLA) 機(jī)制,以及他們?cè)?V3.2 中添加的 DeepSeek 稀疏注意力 (DSA) 機(jī)制。事實(shí)上,論文中提到「DeepSeek-V3.2 使用了與 DeepSeek-V3.2-Exp 完全相同的架構(gòu)」,這我們?cè)谇懊娴恼鹿?jié)中已經(jīng)討論過(guò)了。



      圖 18:DeepSeek V3.2 架構(gòu)。

      正如我之前提到的,DeepSeek V3.2-Exp 的發(fā)布很可能是為了讓生態(tài)系統(tǒng)和推理基礎(chǔ)設(shè)施準(zhǔn)備好托管剛剛發(fā)布的 V3.2 模型。



      圖 19:由 DeepSeek 稀疏注意力 (DSA) 實(shí)現(xiàn)的推理成本節(jié)省。來(lái)自 DeepSeek V3.2 報(bào)告,并加上了帶注釋。

      由于架構(gòu)與 DeepSeek V3.2-Exp 相同,有趣的細(xì)節(jié)在于訓(xùn)練方法,我們將在接下來(lái)的章節(jié)中討論。

      6.2 強(qiáng)化學(xué)習(xí)更新

      總的來(lái)說(shuō),DeepSeek 團(tuán)隊(duì)采用了類(lèi)似于 DeepSeek R1 的「帶可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)」(RLVR)程序,使用了群體相對(duì)策略優(yōu)化(GRPO)算法。但是,有一些有趣的更新值得討論。

      最初,DeepSeek R1 使用了:

      • 格式獎(jiǎng)勵(lì)(確保答案格式正確);
      • 語(yǔ)言一致性獎(jiǎng)勵(lì)(確保模型在編寫(xiě)回復(fù)時(shí)不會(huì)在不同語(yǔ)言之間切換);
      • 主要的驗(yàn)證者獎(jiǎng)勵(lì)(數(shù)學(xué)或代碼問(wèn)題中的答案是否正確)。

      對(duì)于 DeepSeek V3.2,他們更改了獎(jiǎng)勵(lì):

      對(duì)于推理和智能體任務(wù),我們采用基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)、長(zhǎng)度懲罰和語(yǔ)言一致性獎(jiǎng)勵(lì)。對(duì)于通用任務(wù),我們采用生成式獎(jiǎng)勵(lì)模型,其中每個(gè)提示都有自己的評(píng)估標(biāo)準(zhǔn)。

      例如,他們移除了格式獎(jiǎng)勵(lì),但為智能體任務(wù)添加了長(zhǎng)度懲罰。然后,對(duì)于沒(méi)有符號(hào)驗(yàn)證器(數(shù)學(xué))或代碼解釋器來(lái)驗(yàn)證答案的通用任務(wù),他們使用獎(jiǎng)勵(lì)模型(另一個(gè)訓(xùn)練用于輸出獎(jiǎng)勵(lì)分?jǐn)?shù)的 LLM)。

      所以,聽(tīng)起來(lái)這個(gè)流程不再是像 DeepSeek R1 那樣純粹的基于驗(yàn)證器的 RLVR,而是 RLVR(用于可驗(yàn)證領(lǐng)域)和更標(biāo)準(zhǔn)的「LLM 即裁判」獎(jiǎng)勵(lì)建模(用于其他所有領(lǐng)域)的混合體。

      對(duì)于數(shù)學(xué)領(lǐng)域,他們表示額外「整合了來(lái)自 DeepSeekMath-V2 的數(shù)據(jù)集和獎(jiǎng)勵(lì)方法」,這我們?cè)诒疚那懊嬉呀?jīng)討論過(guò)了。

      6.3 GRPO 更新

      關(guān)于 RLVR 流程內(nèi)部的學(xué)習(xí)算法 GRPO 本身,自 DeepSeek R1 論文中的原始版本以來(lái),他們也做了一些更改。

      在過(guò)去的幾個(gè)月里,數(shù)十篇論文提出了對(duì) GRPO 的修改建議,以提高其穩(wěn)定性和效率。

      如果不深入 GRPO 的數(shù)學(xué)細(xì)節(jié),簡(jiǎn)單來(lái)說(shuō),DAPO 修改了 GRPO,采用了非對(duì)稱(chēng)裁剪、動(dòng)態(tài)采樣、Token 級(jí)損失和顯式的基于長(zhǎng)度的獎(jiǎng)勵(lì)整形。Dr. GRPO 更改了 GRPO 目標(biāo)本身,以移除長(zhǎng)度和標(biāo)準(zhǔn)差歸一化。

      最近的 Olmo 3 論文也采用了類(lèi)似的變更,我引用如下:

      • 零梯度信號(hào)過(guò)濾: 我們移除獎(jiǎng)勵(lì)完全相同的實(shí)例組(即優(yōu)勢(shì)標(biāo)準(zhǔn)差為零的批次),以避免在提供零梯度的樣本上進(jìn)行訓(xùn)練,類(lèi)似于 DAPO (Yu et al., 2025)。[DAPO]
      • 主動(dòng)采樣: 盡管進(jìn)行了零梯度過(guò)濾,我們?nèi)允褂靡环N新穎、更高效的動(dòng)態(tài)采樣版本維持一致的批次大小 (Yu et al., 2025)。詳見(jiàn) OlmoRL Infra。[DAPO]
      • Token 級(jí)損失: 我們使用 Token 級(jí)損失,通過(guò)批次中的 Token 總數(shù)進(jìn)行歸一化 (Yu et al., 2025),而不是按樣本歸一化,以避免長(zhǎng)度偏差。[DAPO]
      • 無(wú) KL 損失: 作為一種常見(jiàn)做法,我們移除了 KL 損失 (GLM-4.5 Team et al., 2025; Yu et al., 2025; Liu et al., 2025b),因?yàn)樗试S更少限制的策略更新,并且移除它不會(huì)導(dǎo)致過(guò)度優(yōu)化或訓(xùn)練不穩(wěn)定。[DAPO 和 Dr. GRPO]
      • 更高裁剪閾值: 我們將損失中的上限裁剪項(xiàng)設(shè)置為比下限略高的值,以允許對(duì) Token 進(jìn)行更大的更新,正如 Yu et al. (2025) 提議的那樣。[DAPO]
      • 截?cái)嘀匾圆蓸?/strong>: 為了調(diào)整推理引擎和訓(xùn)練引擎之間對(duì)數(shù)概率的差異,我們將損失乘以截?cái)嗟闹匾圆蓸颖嚷剩裱?Yao et al. (2025)。
      • 無(wú)標(biāo)準(zhǔn)差歸一化: 在計(jì)算優(yōu)勢(shì)時(shí),我們不對(duì)組的標(biāo)準(zhǔn)差進(jìn)行歸一化,遵循 Liu et al. (2025b)。這消除了難度偏差,即獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差低的問(wèn)題(例如太難或太容易)其優(yōu)勢(shì)會(huì)被歸一化項(xiàng)顯著放大。[Dr. GRPO]

      DeepSeek V3.2 中的 GRPO 修改稍微不那么激進(jìn),我用類(lèi)似于 Olmo 3 的風(fēng)格總結(jié)如下:

      • 特定領(lǐng)域的 KL 強(qiáng)度(包括數(shù)學(xué)為零): DeepSeek V3.2 沒(méi)有像 DAPO 和 Dr. GRPO 那樣對(duì)數(shù)學(xué)類(lèi) RL 總是放棄 KL,而是在目標(biāo)中保留 KL 項(xiàng),但根據(jù)每個(gè)領(lǐng)域調(diào)整其權(quán)重。然而,他們也指出,非常弱甚至為零的 KL 通常對(duì)數(shù)學(xué)效果最好。(但不是完全移除它,而是變成了一個(gè)超參數(shù)。)
      • 無(wú)偏 KL 估計(jì): 如上所述,DeepSeek V3.2 沒(méi)有移除 KL 懲罰。除了將其視為調(diào)節(jié)旋鈕外,他們還提出了對(duì) GRPO 中 KL 懲罰估計(jì)方式的修正,即用用于主損失的相同重要性比率重新加權(quán) KL 項(xiàng),因此 KL 梯度實(shí)際上與樣本來(lái)自舊策略而不是當(dāng)前策略的事實(shí)相匹配。
      • 異策略序列掩碼(Off-policy sequence masking): 當(dāng)他們?cè)谠S多梯度步驟中重用 rollout 數(shù)據(jù)(rollout 只是模型生成的完整序列的術(shù)語(yǔ))時(shí),DeepSeek V3.2 測(cè)量當(dāng)前策略在每個(gè)完整答案上偏離 rollout 策略的程度,并簡(jiǎn)單地丟棄那些既具有負(fù)優(yōu)勢(shì)又「過(guò)于偏離策略」的序列。因此,這防止了模型從過(guò)度偏離策略或陳舊的數(shù)據(jù)中學(xué)習(xí)。
      • 保留 MoE 模型的路由: 對(duì)于混合專(zhuān)家骨干網(wǎng)絡(luò),他們記錄了 rollout 期間激活了哪些專(zhuān)家,并在訓(xùn)練期間強(qiáng)制使用相同的路由模式,以便梯度更新針對(duì)那些產(chǎn)生采樣答案的專(zhuān)家。
      • 保留 top-p /top-k 的采樣掩碼: 當(dāng) rollout 使用 top-p 或 top-k 采樣時(shí),DeepSeek V3.2 存儲(chǔ)選擇掩碼并在計(jì)算 GRPO 損失和 KL 時(shí)重新應(yīng)用它,以便訓(xùn)練時(shí)的動(dòng)作空間與采樣期間實(shí)際可用的動(dòng)作空間相匹配。
      • 保留原始 GRPO 優(yōu)勢(shì)歸一化: Dr. GRPO 表明 GRPO 的長(zhǎng)度和每組標(biāo)準(zhǔn)差歸一化項(xiàng)會(huì)使優(yōu)化偏向于過(guò)長(zhǎng)的錯(cuò)誤答案,并過(guò)度加權(quán)非常容易或非常難的問(wèn)題。Dr. GRPO 通過(guò)移除這兩個(gè)項(xiàng)并回到無(wú)偏的 PPO 風(fēng)格目標(biāo)來(lái)解決這個(gè)問(wèn)題。相比之下,DAPO 轉(zhuǎn)向 Token 級(jí)損失,這也改變了長(zhǎng)答案與短答案的加權(quán)方式。然而,DeepSeek V3.2 保留了原始的 GRPO 歸一化,而是專(zhuān)注于其他修正,例如上面的那些。

      所以,總的來(lái)說(shuō),DeepSeek V3.2 比最近的其他一些模型更接近原始的 GRPO 算法,但增加了一些邏輯上的微調(diào)。

      6.4 DeepSeek V3.2-Speciale 與擴(kuò)展思維

      DeepSeek V3.2 還有一個(gè)極端的、擴(kuò)展思維(extended-thinking)的變體,稱(chēng)為DeepSeek V3.2-Speciale,它在 RL 階段僅在推理數(shù)據(jù)上進(jìn)行訓(xùn)練(更類(lèi)似于 DeepSeek R1)。除了僅在推理數(shù)據(jù)上訓(xùn)練外,他們還在 RL 期間減少了長(zhǎng)度懲罰,允許模型輸出更長(zhǎng)的響應(yīng)。

      生成更長(zhǎng)的響應(yīng)是一種推理擴(kuò)展形式,為了獲得更好的結(jié)果,響應(yīng)因長(zhǎng)度增加而變得更加昂貴。



      圖 20:擴(kuò)展思維的 Speciale 模型實(shí)現(xiàn)了更高的準(zhǔn)確性,但也生成了更多的 Token。

      7. 總結(jié)

      在這篇文章中,我沒(méi)有涵蓋 DeepSeek V3.2 訓(xùn)練方法的所有細(xì)節(jié),但我希望與之前的 DeepSeek 模型的比較有助于闡明主要觀點(diǎn)和創(chuàng)新。

      簡(jiǎn)而言之,有趣的要點(diǎn)是:

      • DeepSeek V3.2 使用了自 DeepSeek V3 以來(lái)與其所有前身相似的架構(gòu);
      • 主要的架構(gòu)調(diào)整是他們添加了來(lái)自 DeepSeek V3.2-Exp 的稀疏注意力機(jī)制以提高效率;
      • 為了提高數(shù)學(xué)性能,他們采用了來(lái)自 DeepSeekMath V2 的自我驗(yàn)證方法;
      • 訓(xùn)練流程有幾項(xiàng)改進(jìn),例如 GRPO 穩(wěn)定性更新(注意論文還涉及圍繞蒸餾、長(zhǎng)上下文訓(xùn)練、集成類(lèi)似于 gpt-oss 的工具使用等其他幾個(gè)方面,我們?cè)诒疚闹袥](méi)有涵蓋)。

      無(wú)論 DeepSeek 模型與其他較小的開(kāi)放權(quán)重模型或像 GPT-5.1 或 Gemini 3.0 Pro 這樣的專(zhuān)有模型相比的市場(chǎng)份額如何,有一件事是肯定的:DeepSeek 的發(fā)布總是很有趣,而且從隨開(kāi)放權(quán)重模型檢查點(diǎn)一起發(fā)布的技術(shù)報(bào)告中總有很多值得學(xué)習(xí)的東西。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      原來(lái)有這么多不體面但掙錢(qián)的小生意!原來(lái)都是悶聲發(fā)大財(cái)啊!

      原來(lái)有這么多不體面但掙錢(qián)的小生意!原來(lái)都是悶聲發(fā)大財(cái)啊!

      另子維愛(ài)讀史
      2025-12-06 22:09:07
      【橙色預(yù)警】十二星座2025年12月9號(hào)運(yùn)勢(shì):阻力大,壓力也大

      【橙色預(yù)警】十二星座2025年12月9號(hào)運(yùn)勢(shì):阻力大,壓力也大

      YAO叔星座
      2025-12-08 22:06:42
      隨著塞爾比英錦賽奪冠,大師賽16強(qiáng)對(duì)陣出爐!大概率以下8人晉級(jí)

      隨著塞爾比英錦賽奪冠,大師賽16強(qiáng)對(duì)陣出爐!大概率以下8人晉級(jí)

      小火箭愛(ài)體育
      2025-12-08 08:31:03
      147:5!中俄反對(duì)無(wú)效,聯(lián)大通過(guò)決議,日本要求中國(guó)“自廢武功”

      147:5!中俄反對(duì)無(wú)效,聯(lián)大通過(guò)決議,日本要求中國(guó)“自廢武功”

      混沌錄
      2025-12-05 22:20:08
      大生意人:蘇紫軒愛(ài)而不得!才知蘇紫軒為何將貼身丫鬟送給古平原

      大生意人:蘇紫軒愛(ài)而不得!才知蘇紫軒為何將貼身丫鬟送給古平原

      阿訊說(shuō)天下
      2025-12-07 21:50:18
      “中國(guó)行,我也行”,印尼模仿中國(guó)慘敗,誰(shuí)給他們的勇氣?

      “中國(guó)行,我也行”,印尼模仿中國(guó)慘敗,誰(shuí)給他們的勇氣?

      毒sir財(cái)經(jīng)
      2025-12-07 17:06:58
      WTT香港總決賽簽表出爐:王楚欽獨(dú)守上半?yún)^(qū),孫穎莎將戰(zhàn)王藝迪

      WTT香港總決賽簽表出爐:王楚欽獨(dú)守上半?yún)^(qū),孫穎莎將戰(zhàn)王藝迪

      全景體育V
      2025-12-08 16:33:00
      苗原:韋世豪是玉昆邊路補(bǔ)強(qiáng)第一目標(biāo),第一波接觸已失敗

      苗原:韋世豪是玉昆邊路補(bǔ)強(qiáng)第一目標(biāo),第一波接觸已失敗

      懂球帝
      2025-12-08 18:15:36
      今夕是何年?央視更新CBA節(jié)目單,大部分比賽為圖文直播

      今夕是何年?央視更新CBA節(jié)目單,大部分比賽為圖文直播

      懂球帝
      2025-12-08 21:03:08
      起底“全網(wǎng)最忙五人組” 已被挖出十余起“鬧劇”

      起底“全網(wǎng)最忙五人組” 已被挖出十余起“鬧劇”

      吉刻新聞
      2025-12-07 20:54:09
      師徒變死敵?刀郎撤回版權(quán)不到一年,云朵終于反擊,結(jié)果大快人心

      師徒變死敵?刀郎撤回版權(quán)不到一年,云朵終于反擊,結(jié)果大快人心

      凡知
      2025-09-29 10:37:29
      2026年經(jīng)濟(jì)工作怎么干?中央政治局會(huì)議重磅定調(diào)

      2026年經(jīng)濟(jì)工作怎么干?中央政治局會(huì)議重磅定調(diào)

      21世紀(jì)經(jīng)濟(jì)報(bào)道
      2025-12-08 20:45:04
      遭遇皇馬球員背叛,阿隆索心灰意冷,穆里尼奧緊急救火?

      遭遇皇馬球員背叛,阿隆索心灰意冷,穆里尼奧緊急救火?

      濤哥聊球
      2025-12-08 14:27:34
      網(wǎng)友曝?fù)P州一音樂(lè)節(jié)上40余部手機(jī)丟失 多部定位深圳華強(qiáng)北

      網(wǎng)友曝?fù)P州一音樂(lè)節(jié)上40余部手機(jī)丟失 多部定位深圳華強(qiáng)北

      大象新聞
      2025-12-08 18:14:02
      強(qiáng)冷空氣要來(lái)了!強(qiáng)勢(shì)回暖之后,浙江將迎大風(fēng)降溫!風(fēng)寒+濕冷,最低-4℃

      強(qiáng)冷空氣要來(lái)了!強(qiáng)勢(shì)回暖之后,浙江將迎大風(fēng)降溫!風(fēng)寒+濕冷,最低-4℃

      魯中晨報(bào)
      2025-12-08 17:23:15
      亞朵大戰(zhàn)全季,傳統(tǒng)五星級(jí)酒店輸麻了

      亞朵大戰(zhàn)全季,傳統(tǒng)五星級(jí)酒店輸麻了

      IC實(shí)驗(yàn)室
      2025-11-13 15:50:52
      網(wǎng)友們把當(dāng)下國(guó)企的內(nèi)幕說(shuō)得明明白白

      網(wǎng)友們把當(dāng)下國(guó)企的內(nèi)幕說(shuō)得明明白白

      清暉有墨
      2025-11-21 19:56:40
      4+5+2!楊瀚森把221cm埃迪搞麻了,拓記說(shuō)后悔選小楊,隨后遭打臉

      4+5+2!楊瀚森把221cm埃迪搞麻了,拓記說(shuō)后悔選小楊,隨后遭打臉

      多多體育
      2025-12-08 09:49:06
      中日關(guān)系日益緊張之際,高市早苗向北約告狀,伊朗與日本達(dá)成一致

      中日關(guān)系日益緊張之際,高市早苗向北約告狀,伊朗與日本達(dá)成一致

      議紀(jì)史
      2025-12-07 12:20:07
      《大生意人》要不是白依梅找上門(mén)!古平原到死不知常玉兒的另一面

      《大生意人》要不是白依梅找上門(mén)!古平原到死不知常玉兒的另一面

      廚房里的神
      2025-12-08 14:15:15
      2025-12-08 23:00:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      11873文章數(shù) 142510關(guān)注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋(píng)果亂成了一鍋粥

      頭條要聞

      "00后"在上海跑外賣(mài)5年攢112萬(wàn):除了吃飯睡覺(jué)都在接單

      頭條要聞

      "00后"在上海跑外賣(mài)5年攢112萬(wàn):除了吃飯睡覺(jué)都在接單

      體育要聞

      一位大學(xué)美術(shù)生,如何用4年成為頂級(jí)跑者?

      娛樂(lè)要聞

      章子怡被說(shuō)拜高踩低 主動(dòng)和卡梅隆熱聊

      財(cái)經(jīng)要聞

      百億金融爆雷 浙商大佬"朋友圈"也不靈了

      汽車(chē)要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報(bào)圖曝光

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      親子
      游戲
      健康

      家居要聞

      有限無(wú)界 打破慣有思維

      房產(chǎn)要聞

      全球征集方案!涉及2400畝,秀英港又有新動(dòng)作!

      親子要聞

      爸爸說(shuō)今天帶孩子們一起自制下午茶

      德杯爆改!全新賽制曝光:盲選模式回歸,教練可實(shí)時(shí)“打電話”

      甲狀腺結(jié)節(jié)到這個(gè)程度,該穿刺了!

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧美亚洲综合成人a∨在线| 亚洲中文无码av永久不收费| 无码av最新无码av专区| 亚洲精品一区二区三区蜜臀| 国产亚洲第一精品| 中文无码日| 孟州市| 精品人妻午夜一区二区三区四区| 久久人搡人人玩人妻精品首页 | 成人免费看黄网站yyy456| 久久久久国产精品熟女影院| 精品无码成人片一区二区98| 白银市| 阿城市| 成人午夜精品无码区久久 | 亚洲国产日韩a在线播放| 亚卅AV| 97人妻精品无码| 又黄又爽又色又刺激的视频| 色噜噜一区二区三区| 国产成人无码A区在线观看视频| 国产亚洲一二三区精品| 精品国产乱码久久久久久1区2区| 18禁美女裸体无遮挡网站| 熟妇人妻一区二区三区四区| 国产极品美女高潮无套| 精品人妻人人做人人爽| 亚洲中文字幕乱码av波多ji| 日本天天躁天天搡久久| 98人妻| 国产一区二区波多野结衣| 亚洲AV无码一二区三区在线播放| 日本视频一两二两三区| 免费av网站| 成在线人av免费无码高潮喷水| 久久精品一区二区三区中文字幕| 亚洲精品亚洲人成在线| 国产3P视频| 日韩色区| 超碰福利导航| 91色色网|