<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek突然更新R1論文:暴增64頁,能公開的全公開了

      0
      分享至

      2025 年 9 月,DeepSeek-R1 論文以封面文章的形式登上 Nature 雜志,成為全球首個通過頂級期刊獨立同行評審的主流大語言模型。從 2 月 14 日投稿到 9 月 17 日正式發(fā)表,8 位外部專家歷時 5 個月對論文的原創(chuàng)性、方法論和穩(wěn)健性進行了嚴格審查。Nature 在編輯評論中直言:幾乎所有主流大模型都未曾經歷過獨立同行評審,而 DeepSeek 打破了這一空白。

      讓人沒想到的是,最近 DeepSeek 還能把這種透明再向前推一步。1 月 4 日,DeepSeek 在 arXiv 上突然更新了這篇論文的第二版,頁數從 22 頁暴增至 86 頁,把此前藏在黑箱里的訓練流程、基礎設施、消融實驗、中間檢查點,乃至失敗嘗試,統(tǒng)統(tǒng)向外界進行了展示。


      圖丨相關論文(來源:arXiv)

      那么,這 86 頁究竟比原來的 22 頁多出了什么?(關于基準測試結果等初版論文已涉及的部分,我們不再贅述)

      GRPO 算法與 RL 基礎設施

      初版論文對 Group Relative Policy Optimization(GRPO,群組相對策略優(yōu)化)的介紹相當克制,僅給出核心公式。新版用數頁篇幅展開對比分析,解釋 GRPO 何以能替代傳統(tǒng)的 Proximal Policy Optimization(PPO,近端策略優(yōu)化)。

      PPO 在大模型強化學習中應用廣泛,但有個麻煩:它需要訓練一個與策略模型規(guī)模相當的價值模型來估計優(yōu)勢函數,計算開銷很大。更棘手的是,價值模型要根據已生成的部分內容預測最終累積獎勵,這對長鏈推理來說幾乎不可行——模型可能在生成過程中反復修正、自我否定,早期內容和最終答案之間的關聯(lián)性很弱。

      GRPO 的做法是干脆不要價值模型。對每個問題采樣 16 個輸出,用組內獎勵的均值和標準差做歸一化,得到每個輸出相對于同組其他輸出的優(yōu)勢估計。這種“組內排名”的思路規(guī)避了跨時間步的價值預測,既節(jié)省內存,又適配長鏈推理場景。論文給出的對比實驗顯示,在 MATH 任務上,PPO 需要仔細調參(特別是 GAE 中的 λ 系數)才能接近 GRPO 的效果,而 GRPO 開箱即用。


      圖丨 PPO 與 GRPO 的演示(來源:arXiv)

      新版論文還首次披露了 RL 訓練基礎設施的完整架構。系統(tǒng)分為四個模塊:Rollout 模塊用 vLLM 工作節(jié)點批量采樣響應;Inference 模塊加載獎勵模型和參考模型做前向推理;Rule-based Reward 模塊計算代碼執(zhí)行、答案匹配等規(guī)則獎勵;Training 模塊完成策略更新。四個模塊之間采用異步調度和顯存動態(tài)卸載策略。

      為加速采樣,Rollout 模塊還用了 Multi-Token Prediction(MTP,多 token 預測)組件做自投機解碼,縮短最長樣本的生成耗時。考慮到 DeepSeek-R1-Zero 訓練時每個問題要采樣 16 個輸出、單次訓練步包含 32 個獨立問題,這種工程優(yōu)化對整體效率的提升不小。

      訓練成本方面,新版終于給出了明確數字:DeepSeek-R1 的增量訓練成本約 29.4 萬美元。R1-Zero 訓練使用 648 塊 H800 GPU,耗時約 198 小時,成本約 20.2 萬美元;SFT 數據創(chuàng)建約 1 萬美元;R1 后續(xù)訓練約 8.2 萬美元。這不包含 DeepSeek-V3-Base 基座模型的訓練成本(約 556.6 萬美元),但即便全部加總,也遠低于行業(yè)認為的頂級模型訓練動輒數千萬美元的門檻。


      圖丨DeepSeek-R1 的訓練成本(來源:arXiv)

      四階段訓練流水線與中間檢查點

      初版論文只描述了從 DeepSeek-R1-Zero 到 DeepSeek-R1 的跨越,中間過程語焉不詳。新版引入了 Dev1、Dev2、Dev3 三個中間檢查點,完整呈現(xiàn)了四階段訓練流水線。


      圖丨DeepSeek-R1 的多階段流程。(來源:arXiv)

      第一階段是 R1-Zero 的純 RL 訓練。基于 DeepSeek-V3-Base,完全不用監(jiān)督微調(SFT,Supervised Fine-Tuning),僅依靠正確性獎勵和格式獎勵引導模型自主探索推理策略。這一階段的核心發(fā)現(xiàn)是所謂的“Aha Moment”:在某個訓練節(jié)點,模型突然大量使用“wait”這個詞進行自我反思。

      論文統(tǒng)計了 10 個代表性反思詞匯(wait,mistake,however,but,retry,error,verify,wrong,evaluate,check)的出現(xiàn)頻率,發(fā)現(xiàn)這些詞匯在訓練過程中增長了 5 到 7 倍。“wait”的變化尤其有意思:訓練早期幾乎不出現(xiàn),4,000 到 7,000 步偶爾使用,8,000 步之后顯著躍升。


      (來源:arXiv)

      第二階段是冷啟動 SFT 加第一輪 RL。團隊收集了數千條展示對話式、人類友好思考過程的冷啟動數據,解決 R1-Zero 可讀性差、語言混雜的問題。RL 訓練時引入了語言一致性獎勵,計算目標語言詞匯在思維鏈中的占比。消融實驗表明,這個獎勵會導致推理性能輕微下降(特別是在代碼任務上),但顯著改善了輸出可讀性。

      第三階段是拒絕采樣與大規(guī)模 SFT。從第一輪 RL 的檢查點進行拒絕采樣,生成約 60 萬條推理數據,加上約 20 萬條來自 DeepSeek-V3 流水線的非推理數據(寫作、問答、角色扮演等),組成 80 萬樣本的 SFT 數據集。這一階段的關鍵在于平衡推理能力和通用能力,單純的推理 RL 會讓模型在寫作、開放域問答上表現(xiàn)欠佳。

      第四階段是全場景 RL,整合基于規(guī)則的推理獎勵和基于偏好模型的通用獎勵。論文提醒,基于偏好模型的獎勵只在最后 400 步引入,過早或過長使用會導致獎勵作弊(reward hacking)現(xiàn)象。

      性能對比顯示,從 R1-Zero 到 Dev1,指令遵循能力(IF-Eval、Arena-Hard)顯著提升,但 AIME 數學競賽分數有所下降,這是冷啟動數據規(guī)模有限的代價;從 Dev1 到 Dev2,推理性能恢復并超越 R1-Zero;到 Dev3 和最終版本,各維度都達到最優(yōu)。

      蒸餾與強化學習的對比,以及一些關鍵發(fā)現(xiàn)

      新版論文最核心的補充之一,是關于蒸餾與強化學習的對比實驗。

      團隊在 Qwen2.5-32B-Base 上進行了超過 10,000 步的大規(guī)模 RL 訓練,得到 Qwen2.5-32B-Zero。這個模型的性能與 QwQ-32B-Preview 相當,但顯著落后于從 DeepSeek-R1 蒸餾而來的 DeepSeek-R1-Distill-Qwen-32B。以 AIME 2024 為例,蒸餾模型的 Pass@1 達到 72.6%,RL 訓練模型只有 47.0%。

      結論顯示,對于中小規(guī)模模型,蒸餾比從頭 RL 訓練更具性價比。論文的原話是,蒸餾策略既經濟又有效,但要突破人類智能的邊界,可能仍需要更強大的基座模型和更大規(guī)模的強化學習。

      另一組實驗在 Qwen2-Math-7B 上進行。這個模型在 2024 年 8 月發(fā)布,早于 OpenAI o1,確保基座沒接觸過任何推理軌跡數據。經過約 10,000 步策略梯度更新后,Qwen2-Math-7B-Zero 在 AIME 2024 上的表現(xiàn)(22.3%)顯著超過 Qwen2-Math-7B-Instruct(7.9%)和 GPT-4o(9.3%)。這說明純 RL 確實能讓模型自主發(fā)展出高級推理策略,而非簡單模仿人類示范。

      新版論文還披露了幾條早期的關鍵發(fā)現(xiàn)。團隊嘗試過 7B Dense 和 16B MoE 模型作為 RL 訓練基礎,但這些配置在 AIME 上始終無法取得有意義的提升。小模型在響應長度增加時表現(xiàn)出強烈的重復傾向,無法有效利用長鏈推理。直到切換到 32B Dense、230B MoE 和 671B MoE 等更大規(guī)模架構,才觀察到實質性提升。這暗示推理能力的涌現(xiàn)可能存在某種規(guī)模門檻。

      關于數據來源,論文在同行評審文檔中回應了“蒸餾 OpenAI”的質疑:DeepSeek-V3-Base 的預訓練數據完全來自互聯(lián)網,沒有刻意使用合成數據。某些網頁可能包含 GPT-4 生成的答案,但這不是有意為之。為防止基準污染,團隊過濾掉了任何與評測問題存在 10-gram 匹配的文本片段,僅數學領域就移除了約 600 萬條文本。論文也坦承,n-gram 方法無法防止測試集改寫版本混入,2024 年之前發(fā)布的基準仍可能有污染風險。

      新版論文詳細記錄了團隊在 Process Reward Model(PRM , 過程獎勵模型 )上的探索。這本是一個直覺上很合理的方向:不只給最終答案打分,而是對推理過程的每一步提供反饋,把“怎么想”也納入優(yōu)化目標。

      但落到實踐里,它很快撞上了三道坎:第一,“一步”到底怎么切分并沒有統(tǒng)一標準,邊界劃得粗細不同,獎勵信號就會變形;第二,要判斷某一步是否正確并不容易,模型自標注的可靠性有限,而人工逐步標注又幾乎不可能規(guī)模化;第三,一旦引入基于模型的 PRM 作為獎勵來源,策略模型就不可避免地會學會“迎合評分器”,獎勵作弊(reward hacking)風險隨之上升。

      DeepSeek 的結論是:PRM 用來對 Top-N 候選響應做重排序時確實有效,但放到大規(guī)模強化學習訓練里,帶來的增益不足以覆蓋額外的復雜度與計算開銷。

      他們也嘗試過 Monte Carlo Tree Search(MCTS,Monte Carlo Tree Search,蒙特卡洛樹搜索)。受 AlphaGo 思路啟發(fā),團隊設想把答案拆成更細的片段,用預訓練的價值模型來引導搜索路徑。

      然而在語言生成里,token 級的搜索空間呈指數級膨脹:擴展得更廣會迅速失控,設置擴展上限又容易過早收斂到局部最優(yōu);更要命的是,細粒度價值模型本身就難訓練,AlphaGo 那種價值模型漸進提升的閉環(huán)機制,在這里很難復現(xiàn)。

      論文也特意強調,分享這些失敗經驗并不等于否定 PRM 或 MCTS 的潛力,只是它們在 R1 的具體開發(fā)路徑上沒有走通。

      安全評估與結論

      安全是新版論文著重補充的另一個維度。此前有部分人士對 DeepSeek-R1 的安全性表示了質疑,團隊這次也算是對這些聲音進行了回應。

      在訓練層面,團隊構建了 Safety Reward Model(安全獎勵模型)。與采用成對比較的有用性獎勵模型不同,安全獎勵模型使用逐點方法訓練,基于 106,000 條標注為“安全”或“不安全”的樣本,學習區(qū)分有害與無害響應。在第二階段 RL 中,安全獎勵與有用性獎勵、規(guī)則獎勵共同作用,評估范圍覆蓋整個響應(包括思維鏈和最終答案),以識別生成過程中可能出現(xiàn)的風險內容。

      在部署層面,官方服務配備了外部風險控制系統(tǒng)。系統(tǒng)分兩步工作:首先對用戶查詢進行關鍵詞匹配,標記潛在風險對話;隨后將標記內容與預設的風險審核提示拼接,送入 DeepSeek-V3 進行判斷。審核提示覆蓋 11 類安全標準,包括違法活動建議、隱私捏造、高風險投資指導等。論文建議部署 R1 的開發(fā)者實施類似機制。

      評估方面,團隊在 6 個公開安全基準(SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench)上與 Claude-3.7-Sonnet、o1、GPT-4o 等模型對比測試。結果顯示 R1 在歧視偏見、暴力極端主義、隱私侵犯等類別上表現(xiàn)穩(wěn)健,平均安全分達 95.0%。

      但在 HarmBench 的版權相關測試中表現(xiàn)較弱,例如被要求生成歌詞時未能拒絕,導致被判定為不安全。團隊還構建了內部安全測試集,按統(tǒng)一分類標準覆蓋 4 大類 28 個子類的安全場景,并針對多語言安全和越獄攻擊魯棒性進行了額外評估。


      圖丨6 個公開安全基準的測試結果(來源:arXiv)

      論文坦承,開源模型的安全風險客觀存在。風險控制系統(tǒng)能顯著提升服務安全性,特別是應對越獄攻擊時效果明顯,但模型本身在某些邊界場景仍有改進空間。

      論文最后總結了幾點核心發(fā)現(xiàn)和局限。核心發(fā)現(xiàn)是:預訓練檢查點本身就具備復雜推理的潛力,釋放這種潛力的關鍵不在于大規(guī)模人工標注,而在于三個要素:困難的推理問題、可靠的驗證器、充足的 RL 計算資源。自我驗證、反思等復雜推理行為會在 RL 過程中自然涌現(xiàn)。

      同時,團隊也指出 DeepSeek-R1 還存在一些局限性,比如結構化輸出和工具調用能力仍不及現(xiàn)有模型;token 效率有待優(yōu)化,簡單問題存在過度推理現(xiàn)象;非中英文查詢會出現(xiàn)語言混雜;對 prompt 敏感,few-shot 反而降低性能;軟件工程任務因評估耗時長,未能充分進行大規(guī)模 RL,相比 V3 提升有限。

      更根本的挑戰(zhàn)在于純 RL 方法本身:它依賴可靠的獎勵信號,而寫作等任務很難用規(guī)則定義獎勵,用模型打分又容易被策略模型鉆空子。對于無法有效評估的任務,如何擴展純 RL 方法仍是開放問題。論文的判斷是,任何能被驗證器有效評估的任務,機器都有望通過 RL 超越人類;但對于難以構建可靠獎勵模型的任務,進展可能會慢一些。



      參考資料:

      1.https://arxiv.org/abs/2501.12948

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一塊不該出現(xiàn)的石頭,上面記載的若是真的,將徹底改寫人類歷史

      一塊不該出現(xiàn)的石頭,上面記載的若是真的,將徹底改寫人類歷史

      豐譚筆錄
      2026-01-09 07:50:09
      又一個巨頭崛起!年入8715億,超越華為,成第三民營企業(yè)!

      又一個巨頭崛起!年入8715億,超越華為,成第三民營企業(yè)!

      牛牛叨史
      2025-12-23 23:07:38
      女大學生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

      女大學生餐館訛錢后續(xù):正臉曝光很漂亮 家人輪番找店主 目的曝光

      鋭娛之樂
      2026-01-08 15:52:45
      格陵蘭發(fā)達到什么水平?我去了才發(fā)現(xiàn),差距真的太大

      格陵蘭發(fā)達到什么水平?我去了才發(fā)現(xiàn),差距真的太大

      娛樂八卦木木子
      2026-01-07 15:14:07
      老人離世切記:別先聯(lián)系殯儀館,第一步錯了,子女白忙活還多花

      老人離世切記:別先聯(lián)系殯儀館,第一步錯了,子女白忙活還多花

      好笑娛樂君每一天
      2026-01-05 12:15:02
      閆學晶好友孫濤再發(fā)聲:誰要是再敢說閆學晶的壞話,我就跟誰急

      閆學晶好友孫濤再發(fā)聲:誰要是再敢說閆學晶的壞話,我就跟誰急

      小徐講八卦
      2026-01-08 09:00:40
      社評:面對霸權脅迫,歐洲不能再裝睡了

      社評:面對霸權脅迫,歐洲不能再裝睡了

      環(huán)球網資訊
      2026-01-09 00:06:11
      外媒:澳大利亞要求本國公民撤離伊朗

      外媒:澳大利亞要求本國公民撤離伊朗

      參考消息
      2026-01-08 14:25:04
      商務部回應審查Meta收購Manus

      商務部回應審查Meta收購Manus

      每日經濟新聞
      2026-01-08 16:33:07
      香港最偉大的Ⅲ級片,因票房慘敗被埋沒,33年后終于高清修復

      香港最偉大的Ⅲ級片,因票房慘敗被埋沒,33年后終于高清修復

      迷影映畫
      2025-11-21 12:53:01
      陳書平辭去副省長職務,已任成都市代市長,去年三度履新

      陳書平辭去副省長職務,已任成都市代市長,去年三度履新

      上觀新聞
      2026-01-09 12:10:05
      中國小伙在澳失聯(lián)最新!遺體已找到,只剩下頭顱,警方定性引爭議

      中國小伙在澳失聯(lián)最新!遺體已找到,只剩下頭顱,警方定性引爭議

      李健政觀察
      2026-01-09 12:08:28
      女子開車不慎掉進池塘,71歲大爺跳河救人,事后女子上門感謝,竟在大爺家中看見自己小時候的照片.....

      女子開車不慎掉進池塘,71歲大爺跳河救人,事后女子上門感謝,竟在大爺家中看見自己小時候的照片.....

      喬話
      2026-01-06 22:36:58
      唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

      唐嫣在國外很豪放!穿連體衣下面不系扣,難道不好好穿衣就時髦?

      章眽八卦
      2026-01-05 12:27:07
      遼寧這發(fā)生賣淫事件,最新消息來了!(圖)

      遼寧這發(fā)生賣淫事件,最新消息來了!(圖)

      本賬號停運
      2026-01-09 09:24:52
      獨家對話特斯拉FSD跨美第一人:4400公里“零接管”,手沒碰過方向盤!作為激光雷達銷售員,他為何站隊馬斯克的“純視覺”?

      獨家對話特斯拉FSD跨美第一人:4400公里“零接管”,手沒碰過方向盤!作為激光雷達銷售員,他為何站隊馬斯克的“純視覺”?

      每日經濟新聞
      2026-01-08 19:22:07
      葉山小百合:從“超大型新人”到微胖女神,她的魅力你了解多少?

      葉山小百合:從“超大型新人”到微胖女神,她的魅力你了解多少?

      素然追光
      2026-01-09 01:35:03
      美媒:中國洲際隱身轟炸機高清照首次亮相。遠超B21

      美媒:中國洲際隱身轟炸機高清照首次亮相。遠超B21

      世家寶
      2026-01-07 11:59:10
      A股:盤面非常明顯了,大家要有準備,下周一或將這樣變化!

      A股:盤面非常明顯了,大家要有準備,下周一或將這樣變化!

      財經大拿
      2026-01-09 11:29:15
      35歲克萊想家了!第900場里程悲,6個三分贏不了!后悔離開庫里嗎

      35歲克萊想家了!第900場里程悲,6個三分贏不了!后悔離開庫里嗎

      嘴炮體壇
      2026-01-09 12:48:59
      2026-01-09 15:59:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16099文章數 514464關注度
      往期回顧 全部

      科技要聞

      市場偏愛MiniMax:開盤漲42%,市值超700億

      頭條要聞

      "老板"拉群開口就要150萬 女財務付100萬后感覺天塌了

      頭條要聞

      "老板"拉群開口就要150萬 女財務付100萬后感覺天塌了

      體育要聞

      金元時代最后的外援,來中國8年了

      娛樂要聞

      檀健次戀愛風波越演越烈 上學經歷被扒

      財經要聞

      郁亮的萬科35年:從"寶萬之爭"到"活下去"

      汽車要聞

      英偉達的野心:做一套自動駕駛的“安卓系統(tǒng)”

      態(tài)度原創(chuàng)

      教育
      親子
      房產
      公開課
      軍事航空

      教育要聞

      一年級培優(yōu)題,填數字,很多家長都算錯了

      親子要聞

      爸爸出門回到家,3歲女兒的舉動讓人感動,情緒價值直接拉滿!

      房產要聞

      豪宅搶瘋、剛需撿漏……2025年,一張房票改寫了廣州市場格局

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普:已開始從委石油資源中賺錢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕丝袜精品久久| 亚洲VA中文字幕无码久久| 无码人妻丰满熟妇区五十路百度 | 一本大道人妻中字幕在线视频 | 香蕉影院在线观看| 国产女人高潮毛片| 狠狠人妻久久久久久| 一区二区三区av天堂| 国产精品久久久久鬼色| 在线观看老湿视频福利| 富锦市| 中文字幕另类综合| 中文字幕在线观看亚洲| 欧美性大战久久久久XXX| 韩国精品一区二区三区| 欧美成人精品a∨在线观看| 中文国产成人精品久久不卡| 精品人妻人人做人人爽| 亚洲综合无码AV| 午夜精品久久久久久久久久久久| 97久久香蕉国产线看观看| 亚洲av日韩av一区久久| 亚洲欧美日韩人成在线播放| 亚洲精品揄拍自拍首页一| 国产精品国产三级国产AV中文| 人妻人人澡人人添人人爽国产一区| 少妇爽到爆视频网站免费| 亚洲色天| 亚洲精品乱码久久久久久蜜桃不卡 | 伊人福利导航| 成人人妻精品| 日韩有码中文字幕国产| 国产91丝袜在线播放动漫| 久操资源站| 各种姿势玩小处雏女视频| 野外做受又硬又粗又大视频| 国产剧情一区二区| 免费观看成人欧美www色| 97精品久久久久中文字幕| 久久久无码人妻精品无码| 午夜精品偷拍|