<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek突然更新R1論文:暴增64頁,能公開的全公開了

      0
      分享至


      來源:DeepTech深科技

      運營/排版:何晨龍

      2025 年 9 月,DeepSeek-R1 論文以封面文章的形式登上 Nature 雜志,。從 2 月 14 日投稿到 9 月 17 日正式發(fā)表,8 位外部專家歷時 5 個月對論文的原創(chuàng)性、方法論和穩(wěn)健性進行了嚴格審查。Nature 在編輯評論中直言:幾乎所有主流大模型都未曾經歷過獨立同行評審,而 DeepSeek 打破了這一空白。

      讓人沒想到的是,最近 DeepSeek 還能把這種透明再向前推一步。1 月 4 日,DeepSeek 在 arXiv 上突然更新了這篇論文的第二版,頁數從 22 頁暴增至 86 頁,把此前藏在黑箱里的訓練流程、基礎設施、消融實驗、中間檢查點,乃至失敗嘗試,統(tǒng)統(tǒng)向外界進行了展示。


      圖丨相關論文(來源:arXiv)

      那么,這 86 頁究竟比原來的 22 頁多出了什么?(關于基準測試結果等初版論文已涉及的部分,我們不再贅述)

      GRPO 算法與 RL 基礎設施

      初版論文對 Group Relative Policy Optimization(GRPO,群組相對策略優(yōu)化)的介紹相當克制,僅給出核心公式。新版用數頁篇幅展開對比分析,解釋 GRPO 何以能替代傳統(tǒng)的 Proximal Policy Optimization(PPO,近端策略優(yōu)化)。

      PPO 在大模型強化學習中應用廣泛,但有個麻煩:它需要訓練一個與策略模型規(guī)模相當的價值模型來估計優(yōu)勢函數,計算開銷很大。更棘手的是,價值模型要根據已生成的部分內容預測最終累積獎勵,這對長鏈推理來說幾乎不可行——模型可能在生成過程中反復修正、自我否定,早期內容和最終答案之間的關聯(lián)性很弱。

      GRPO 的做法是干脆不要價值模型。對每個問題采樣 16 個輸出,用組內獎勵的均值和標準差做歸一化,得到每個輸出相對于同組其他輸出的優(yōu)勢估計。這種“組內排名”的思路規(guī)避了跨時間步的價值預測,既節(jié)省內存,又適配長鏈推理場景。論文給出的對比實驗顯示,在 MATH 任務上,PPO 需要仔細調參(特別是 GAE 中的 λ 系數)才能接近 GRPO 的效果,而 GRPO 開箱即用。


      圖丨 PPO 與 GRPO 的演示(來源:arXiv)

      新版論文還首次披露了 RL 訓練基礎設施的完整架構。系統(tǒng)分為四個模塊:Rollout 模塊用 vLLM 工作節(jié)點批量采樣響應;Inference 模塊加載獎勵模型和參考模型做前向推理;Rule-based Reward 模塊計算代碼執(zhí)行、答案匹配等規(guī)則獎勵;Training 模塊完成策略更新。四個模塊之間采用異步調度和顯存動態(tài)卸載策略。

      為加速采樣,Rollout 模塊還用了 Multi-Token Prediction(MTP,多 token 預測)組件做自投機解碼,縮短最長樣本的生成耗時。考慮到 DeepSeek-R1-Zero 訓練時每個問題要采樣 16 個輸出、單次訓練步包含 32 個獨立問題,這種工程優(yōu)化對整體效率的提升不小。

      訓練成本方面,新版終于給出了明確數字:DeepSeek-R1 的增量訓練成本約 29.4 萬美元。R1-Zero 訓練使用 648 塊 H800 GPU,耗時約 198 小時,成本約 20.2 萬美元;SFT 數據創(chuàng)建約 1 萬美元;R1 后續(xù)訓練約 8.2 萬美元。這不包含 DeepSeek-V3-Base 基座模型的訓練成本(約 556.6 萬美元),但即便全部加總,也遠低于行業(yè)認為的頂級模型訓練動輒數千萬美元的門檻。


      圖丨DeepSeek-R1 的訓練成本(來源:arXiv)

      四階段訓練流水線與中間檢查點

      初版論文只描述了從 DeepSeek-R1-Zero 到 DeepSeek-R1 的跨越,中間過程語焉不詳。新版引入了 Dev1、Dev2、Dev3 三個中間檢查點,完整呈現了四階段訓練流水線。


      圖丨DeepSeek-R1 的多階段流程。(來源:arXiv)

      第一階段是 R1-Zero 的純 RL 訓練。基于 DeepSeek-V3-Base,完全不用監(jiān)督微調(SFT,Supervised Fine-Tuning),僅依靠正確性獎勵和格式獎勵引導模型自主探索推理策略。這一階段的核心發(fā)現是所謂的“Aha Moment”:在某個訓練節(jié)點,模型突然大量使用“wait”這個詞進行自我反思。

      論文統(tǒng)計了 10 個代表性反思詞匯(wait,mistake,however,but,retry,error,verify,wrong,evaluate,check)的出現頻率,發(fā)現這些詞匯在訓練過程中增長了 5 到 7 倍。“wait”的變化尤其有意思:訓練早期幾乎不出現,4,000 到 7,000 步偶爾使用,8,000 步之后顯著躍升。


      圖丨DeepSeek-R1-Zero 在 MATH 數據集中不同難度問題上的性能表現(來源:arXiv)

      第二階段是冷啟動 SFT 加第一輪 RL。團隊收集了數千條展示對話式、人類友好思考過程的冷啟動數據,解決 R1-Zero 可讀性差、語言混雜的問題。RL 訓練時引入了語言一致性獎勵,計算目標語言詞匯在思維鏈中的占比。消融實驗表明,這個獎勵會導致推理性能輕微下降(特別是在代碼任務上),但顯著改善了輸出可讀性。

      第三階段是拒絕采樣與大規(guī)模 SFT。從第一輪 RL 的檢查點進行拒絕采樣,生成約 60 萬條推理數據,加上約 20 萬條來自 DeepSeek-V3 流水線的非推理數據(寫作、問答、角色扮演等),組成 80 萬樣本的 SFT 數據集。這一階段的關鍵在于平衡推理能力和通用能力,單純的推理 RL 會讓模型在寫作、開放域問答上表現欠佳。

      第四階段是全場景 RL,整合基于規(guī)則的推理獎勵和基于偏好模型的通用獎勵。論文提醒,基于偏好模型的獎勵只在最后 400 步引入,過早或過長使用會導致獎勵作弊(reward hacking)現象。

      性能對比顯示,從 R1-Zero 到 Dev1,指令遵循能力(IF-Eval、Arena-Hard)顯著提升,但 AIME 數學競賽分數有所下降,這是冷啟動數據規(guī)模有限的代價;從 Dev1 到 Dev2,推理性能恢復并超越 R1-Zero;到 Dev3 和最終版本,各維度都達到最優(yōu)。

      蒸餾與強化學習的對比,以及一些關鍵發(fā)現

      新版論文最核心的補充之一,是關于蒸餾與強化學習的對比實驗。

      團隊在 Qwen2.5-32B-Base 上進行了超過 10,000 步的大規(guī)模 RL 訓練,得到 Qwen2.5-32B-Zero。這個模型的性能與 QwQ-32B-Preview 相當,但顯著落后于從 DeepSeek-R1 蒸餾而來的 DeepSeek-R1-Distill-Qwen-32B。以 AIME 2024 為例,蒸餾模型的 Pass@1 達到 72.6%,RL 訓練模型只有 47.0%。

      結論顯示,對于中小規(guī)模模型,蒸餾比從頭 RL 訓練更具性價比。論文的原話是,蒸餾策略既經濟又有效,但要突破人類智能的邊界,可能仍需要更強大的基座模型和更大規(guī)模的強化學習。

      另一組實驗在 Qwen2-Math-7B 上進行。這個模型在 2024 年 8 月發(fā)布,早于 OpenAI o1,確保基座沒接觸過任何推理軌跡數據。經過約 10,000 步策略梯度更新后,Qwen2-Math-7B-Zero 在 AIME 2024 上的表現(22.3%)顯著超過 Qwen2-Math-7B-Instruct(7.9%)和 GPT-4o(9.3%)。這說明純 RL 確實能讓模型自主發(fā)展出高級推理策略,而非簡單模仿人類示范。

      新版論文還披露了幾條早期的關鍵發(fā)現。團隊嘗試過 7B Dense 和 16B MoE 模型作為 RL 訓練基礎,但這些配置在 AIME 上始終無法取得有意義的提升。小模型在響應長度增加時表現出強烈的重復傾向,無法有效利用長鏈推理。直到切換到 32B Dense、230B MoE 和 671B MoE 等更大規(guī)模架構,才觀察到實質性提升。這暗示推理能力的涌現可能存在某種規(guī)模門檻。

      關于數據來源,論文在同行評審文檔中回應了“蒸餾 OpenAI”的質疑:DeepSeek-V3-Base 的預訓練數據完全來自互聯(lián)網,沒有刻意使用合成數據。某些網頁可能包含 GPT-4 生成的答案,但這不是有意為之。為防止基準污染,團隊過濾掉了任何與評測問題存在 10-gram 匹配的文本片段,僅數學領域就移除了約 600 萬條文本。論文也坦承,n-gram 方法無法防止測試集改寫版本混入,2024 年之前發(fā)布的基準仍可能有污染風險。

      新版論文詳細記錄了團隊在 Process Reward Model(PRM , 過程獎勵模型 )上的探索。這本是一個直覺上很合理的方向:不只給最終答案打分,而是對推理過程的每一步提供反饋,把“怎么想”也納入優(yōu)化目標。

      但落到實踐里,它很快撞上了三道坎:第一,“一步”到底怎么切分并沒有統(tǒng)一標準,邊界劃得粗細不同,獎勵信號就會變形;第二,要判斷某一步是否正確并不容易,模型自標注的可靠性有限,而人 工逐步標注又幾乎不可能規(guī)模化;第三,一旦引入基于模型的 PRM 作為獎勵來源,策略模型就不可避免地會學會“迎合評分器”,獎勵作弊(reward hacking)風險隨之上升。

      DeepSeek 的結論是:PRM 用來對 Top-N 候選響應做重排序時確實有效,但放到大規(guī)模強化學習訓練里,帶來的增益不足以覆蓋額外的復雜度與計算開銷。

      他們也嘗試過 Monte Carlo Tree Search(MCTS,Monte Carlo Tree Search,蒙特卡洛樹搜索)。受 AlphaGo 思路啟發(fā),團隊設想把答案拆成更細的片段,用預訓練的價值模型來引導搜索路徑。

      然而在語言生成里,token 級的搜索空間呈指數級膨脹:擴展得更廣會迅速失控,設置擴展上限又容易過早收斂到局部最優(yōu);更要命的是,細粒度價值模型本身就難訓練,AlphaGo 那種價值模型漸進提升的閉環(huán)機制,在這里很難復現。

      論文也特意強調,分享這些失敗經驗并不等于否定 PRM 或 MCTS 的潛力,只是它們在 R1 的具體開發(fā)路徑上沒有走通。

      安全評估與結論

      安全是新版論文著重補充的另一個維度。此前有部分人士對 DeepSeek-R1 的安全性表示了質疑,團隊這次也算是對這些聲音進行了回應。

      在訓練層面,團隊構建了 Safety Reward Model(安全獎勵模型)。與采用成對比較的有用性獎勵模型不同,安全獎勵模型使用逐點方法訓練,基于 106,000 條標注為“安全”或“不安全”的樣本,學習區(qū)分有害與無害響應。在第二階段 RL 中,安全獎勵與有用性獎勵、規(guī)則獎勵共同作用,評估范圍覆蓋整個響應(包括思維鏈和最終答案),以識別生成過程中可能出現的風險內容。

      在部署層面,官方服務配備了外部風險控制系統(tǒng)。系統(tǒng)分兩步工作:首先對用戶查詢進行關鍵詞匹配,標記潛在風險對話;隨后將標記內容與預設的風險審核提示拼接,送入 DeepSeek-V3 進行判斷。審核提示覆蓋 11 類安全標準,包括違法活動建議、隱私捏造、高風險投資指導等。論文建議部署 R1 的開發(fā)者實施類似機制。

      評估方面,團隊在 6 個公開安全基準(SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench)上與 Claude-3.7-Sonnet、o1、GPT-4o 等模型對比測試。結果顯示 R1 在歧視偏見、暴力極端主義、隱私侵犯等類別上表現穩(wěn)健,平均安全分達 95.0%。

      但在 HarmBench 的版權相關測試中表現較弱,例如被要求生成歌詞時未能拒絕,導致被判定為不安全。團隊還構建了內部安全測試集,按統(tǒng)一分類標準覆蓋 4 大類 28 個子類的安全場景,并針對多語言安全和越獄攻擊魯棒性進行了額外評估。


      圖丨6 個公開安全基準的測試結果(來源:arXiv)

      論文坦承,開源模型的安全風險客觀存在。風險控制系統(tǒng)能顯著提升服務安全性,特別是應對越獄攻擊時效果明顯,但模型本身在某些邊界場景仍有改進空間。

      論文最后總結了幾點核心發(fā)現和局限。核心發(fā)現是:預訓練檢查點本身就具備復雜推理的潛力,釋放這種潛力的關鍵不在于大規(guī)模人工標注,而在于三個要素:困難的推理問題、可靠的驗證器、充足的 RL 計算資源。自我驗證、反思等復雜推理行為會在 RL 過程中自然涌現。

      同時,團隊也指出 DeepSeek-R1 還存在一些局限性,比如結構化輸出和工具調用能力仍不及現有模型;token 效率有待優(yōu)化,簡單問題存在過度推理現象;非中英文查詢會出現語言混雜;對 prompt 敏感,few-shot 反而降低性能;軟件工程任務因評估耗時長,未能充分進行大規(guī)模 RL,相比 V3 提升有限。

      更根本的挑戰(zhàn)在于純 RL 方法本身:它依賴可靠的獎勵信號,而寫作等任務很難用規(guī)則定義獎勵,用模型打分又容易被策略模型鉆空子。對于無法有效評估的任務,如何擴展純 RL 方法仍是開放問題。論文的判斷是,任何能被驗證器有效評估的任務,機器都有望通過 RL 超越人類;但對于難以構建可靠獎勵模型的任務,進展可能會慢一些。

      參考資料:

      1.https://arxiv.org/abs/2501.12948

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蕭美娘乳白寫真合集(2)

      蕭美娘乳白寫真合集(2)

      情感大頭說說
      2026-01-24 15:26:40
      金門炮戰(zhàn)三位中將副司令喪生,其中一位是吉鴻昌侄子,可惜了

      金門炮戰(zhàn)三位中將副司令喪生,其中一位是吉鴻昌侄子,可惜了

      混沌錄
      2026-01-28 22:49:07
      每體關注中國足壇反賭:離譜的中超,一半球隊將負分開始聯(lián)賽

      每體關注中國足壇反賭:離譜的中超,一半球隊將負分開始聯(lián)賽

      懂球帝
      2026-01-31 11:53:20
      美國已入死局!現在 打,立馬死,不打,過幾年死,只差咱們掀桌子

      美國已入死局!現在 打,立馬死,不打,過幾年死,只差咱們掀桌子

      漫川舟船
      2026-01-31 11:55:19
      1949年,毛主席想和平解放新疆,陶峙岳回應:行,但我有一個條件

      1949年,毛主席想和平解放新疆,陶峙岳回應:行,但我有一個條件

      簡史檔案館
      2026-01-30 11:05:03
      海南省市場監(jiān)督管理局、省知識產權局原黨組書記、局長鐵剛被“雙開”

      海南省市場監(jiān)督管理局、省知識產權局原黨組書記、局長鐵剛被“雙開”

      界面新聞
      2026-01-31 12:07:18
      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      兩年了,為何許家印遲遲不判刑?真相比你想象的更復雜!

      李云飛Afey
      2026-01-20 11:43:34
      央視實錘!成本2元賣價19800元!不少人被騙,趕緊別用了

      央視實錘!成本2元賣價19800元!不少人被騙,趕緊別用了

      素衣讀史
      2026-01-28 17:22:30
      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      女孩當小姐,一晚要提供4到5次上門服務,2015年被親人點到不赴約

      漢史趣聞
      2025-11-08 09:27:32
      屠殺!湖人142-111奇才,誰是本場比賽的功臣,數據不會說謊!

      屠殺!湖人142-111奇才,誰是本場比賽的功臣,數據不會說謊!

      梅亭談
      2026-01-31 10:26:10
      樊振東歐冠辣評炸場,多特官博急著解釋,跨界聯(lián)動火爆歐洲!

      樊振東歐冠辣評炸場,多特官博急著解釋,跨界聯(lián)動火爆歐洲!

      羅納爾說個球
      2026-01-31 00:37:39
      國外留學生的生活有多炸裂?網友:給我這個農村人看笑了

      國外留學生的生活有多炸裂?網友:給我這個農村人看笑了

      帶你感受人間冷暖
      2026-01-25 00:20:06
      春節(jié)前到賬!4億黨費發(fā)放,5類黨員符合條件就有

      春節(jié)前到賬!4億黨費發(fā)放,5類黨員符合條件就有

      夜深愛雜談
      2026-01-30 22:30:02
      瓜帥回到巴塞羅那出席慈善活動,因此缺席對熱刺的賽前發(fā)布會

      瓜帥回到巴塞羅那出席慈善活動,因此缺席對熱刺的賽前發(fā)布會

      懂球帝
      2026-01-31 09:57:12
      越南政府總理范明政:要求審查重點交通項目,秉持“誰錯處理誰”,但不得造成阻礙

      越南政府總理范明政:要求審查重點交通項目,秉持“誰錯處理誰”,但不得造成阻礙

      越南語學習平臺
      2026-01-31 09:27:28
      深圳一公司年會舉行豪橫抽獎,兩員工各抽中100克金條,價值十多萬元,一人說“留著準備升值”

      深圳一公司年會舉行豪橫抽獎,兩員工各抽中100克金條,價值十多萬元,一人說“留著準備升值”

      極目新聞
      2026-01-30 19:08:19
      劉維偉:楊瀚森離開讓我們內線捉襟見肘,休賽期會補充外援

      劉維偉:楊瀚森離開讓我們內線捉襟見肘,休賽期會補充外援

      懂球帝
      2026-01-31 00:06:23
      廣東提前一輪無緣常規(guī)賽第一

      廣東提前一輪無緣常規(guī)賽第一

      刺猬籃球
      2026-01-31 11:45:16
      華為宣布:最高降4000元!此前蘋果開啟大降價

      華為宣布:最高降4000元!此前蘋果開啟大降價

      每日經濟新聞
      2026-01-29 18:19:05
      兒子帶女友回家,女友頭發(fā)把媽媽嚇一跳,網友:這就是自我的代價

      兒子帶女友回家,女友頭發(fā)把媽媽嚇一跳,網友:這就是自我的代價

      丫頭舫
      2026-01-30 15:51:49
      2026-01-31 12:39:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4511文章數 37400關注度
      往期回顧 全部

      科技要聞

      中國車企和特斯拉的下一戰(zhàn),戰(zhàn)場已定

      頭條要聞

      盒馬"錯配"致顧客誤食水仙中毒 賠償方案仍未達成一致

      頭條要聞

      盒馬"錯配"致顧客誤食水仙中毒 賠償方案仍未達成一致

      體育要聞

      “假賭黑”的子彈,還要再飛一會兒嗎?

      娛樂要聞

      成龍入駐小紅書,懟臉近照沒有老年斑

      財經要聞

      白銀,暴跌!黃金,40年最大跌幅!

      汽車要聞

      新款賓利歐陸GT S/GTC S官圖發(fā)布 V8混動加持

      態(tài)度原創(chuàng)

      時尚
      本地
      親子
      家居
      數碼

      女友BELLA+封面 | Ginny&Jayna:連鎖反應

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      親子要聞

      生完孩子后,她腋下長出第三個胸??跟其他倆同步變化,理論上也能喂奶...

      家居要聞

      藍調空舍 自由與個性

      數碼要聞

      8K電視集體“退燒”,消息稱LG停產8K面板

      無障礙瀏覽 進入關懷版