<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek突然更新R1論文:暴增64頁,能公開的全公開了

      0
      分享至

      2025 年 9 月,DeepSeek-R1 論文以封面文章的形式登上 Nature 雜志,成為全球首個通過頂級期刊獨立同行評審的主流大語言模型。從 2 月 14 日投稿到 9 月 17 日正式發表,8 位外部專家歷時 5 個月對論文的原創性、方法論和穩健性進行了嚴格審查。Nature 在編輯評論中直言:幾乎所有主流大模型都未曾經歷過獨立同行評審,而 DeepSeek 打破了這一空白。

      讓人沒想到的是,最近 DeepSeek 還能把這種透明再向前推一步。1 月 4 日,DeepSeek 在 arXiv 上突然更新了這篇論文的第二版,頁數從 22 頁暴增至 86 頁,把此前藏在黑箱里的訓練流程、基礎設施、消融實驗、中間檢查點,乃至失敗嘗試,統統向外界進行了展示。


      圖丨相關論文(來源:arXiv)

      那么,這 86 頁究竟比原來的 22 頁多出了什么?(關于基準測試結果等初版論文已涉及的部分,我們不再贅述)

      GRPO 算法與 RL 基礎設施

      初版論文對 Group Relative Policy Optimization(GRPO,群組相對策略優化)的介紹相當克制,僅給出核心公式。新版用數頁篇幅展開對比分析,解釋 GRPO 何以能替代傳統的 Proximal Policy Optimization(PPO,近端策略優化)。

      PPO 在大模型強化學習中應用廣泛,但有個麻煩:它需要訓練一個與策略模型規模相當的價值模型來估計優勢函數,計算開銷很大。更棘手的是,價值模型要根據已生成的部分內容預測最終累積獎勵,這對長鏈推理來說幾乎不可行——模型可能在生成過程中反復修正、自我否定,早期內容和最終答案之間的關聯性很弱。

      GRPO 的做法是干脆不要價值模型。對每個問題采樣 16 個輸出,用組內獎勵的均值和標準差做歸一化,得到每個輸出相對于同組其他輸出的優勢估計。這種“組內排名”的思路規避了跨時間步的價值預測,既節省內存,又適配長鏈推理場景。論文給出的對比實驗顯示,在 MATH 任務上,PPO 需要仔細調參(特別是 GAE 中的 λ 系數)才能接近 GRPO 的效果,而 GRPO 開箱即用。


      圖丨 PPO 與 GRPO 的演示(來源:arXiv)

      新版論文還首次披露了 RL 訓練基礎設施的完整架構。系統分為四個模塊:Rollout 模塊用 vLLM 工作節點批量采樣響應;Inference 模塊加載獎勵模型和參考模型做前向推理;Rule-based Reward 模塊計算代碼執行、答案匹配等規則獎勵;Training 模塊完成策略更新。四個模塊之間采用異步調度和顯存動態卸載策略。

      為加速采樣,Rollout 模塊還用了 Multi-Token Prediction(MTP,多 token 預測)組件做自投機解碼,縮短最長樣本的生成耗時。考慮到 DeepSeek-R1-Zero 訓練時每個問題要采樣 16 個輸出、單次訓練步包含 32 個獨立問題,這種工程優化對整體效率的提升不小。

      訓練成本方面,新版終于給出了明確數字:DeepSeek-R1 的增量訓練成本約 29.4 萬美元。R1-Zero 訓練使用 648 塊 H800 GPU,耗時約 198 小時,成本約 20.2 萬美元;SFT 數據創建約 1 萬美元;R1 后續訓練約 8.2 萬美元。這不包含 DeepSeek-V3-Base 基座模型的訓練成本(約 556.6 萬美元),但即便全部加總,也遠低于行業認為的頂級模型訓練動輒數千萬美元的門檻。


      圖丨DeepSeek-R1 的訓練成本(來源:arXiv)

      四階段訓練流水線與中間檢查點

      初版論文只描述了從 DeepSeek-R1-Zero 到 DeepSeek-R1 的跨越,中間過程語焉不詳。新版引入了 Dev1、Dev2、Dev3 三個中間檢查點,完整呈現了四階段訓練流水線。


      圖丨DeepSeek-R1 的多階段流程。(來源:arXiv)

      第一階段是 R1-Zero 的純 RL 訓練。基于 DeepSeek-V3-Base,完全不用監督微調(SFT,Supervised Fine-Tuning),僅依靠正確性獎勵和格式獎勵引導模型自主探索推理策略。這一階段的核心發現是所謂的“Aha Moment”:在某個訓練節點,模型突然大量使用“wait”這個詞進行自我反思。

      論文統計了 10 個代表性反思詞匯(wait,mistake,however,but,retry,error,verify,wrong,evaluate,check)的出現頻率,發現這些詞匯在訓練過程中增長了 5 到 7 倍。“wait”的變化尤其有意思:訓練早期幾乎不出現,4,000 到 7,000 步偶爾使用,8,000 步之后顯著躍升。


      (來源:arXiv)

      第二階段是冷啟動 SFT 加第一輪 RL。團隊收集了數千條展示對話式、人類友好思考過程的冷啟動數據,解決 R1-Zero 可讀性差、語言混雜的問題。RL 訓練時引入了語言一致性獎勵,計算目標語言詞匯在思維鏈中的占比。消融實驗表明,這個獎勵會導致推理性能輕微下降(特別是在代碼任務上),但顯著改善了輸出可讀性。

      第三階段是拒絕采樣與大規模 SFT。從第一輪 RL 的檢查點進行拒絕采樣,生成約 60 萬條推理數據,加上約 20 萬條來自 DeepSeek-V3 流水線的非推理數據(寫作、問答、角色扮演等),組成 80 萬樣本的 SFT 數據集。這一階段的關鍵在于平衡推理能力和通用能力,單純的推理 RL 會讓模型在寫作、開放域問答上表現欠佳。

      第四階段是全場景 RL,整合基于規則的推理獎勵和基于偏好模型的通用獎勵。論文提醒,基于偏好模型的獎勵只在最后 400 步引入,過早或過長使用會導致獎勵作弊(reward hacking)現象。

      性能對比顯示,從 R1-Zero 到 Dev1,指令遵循能力(IF-Eval、Arena-Hard)顯著提升,但 AIME 數學競賽分數有所下降,這是冷啟動數據規模有限的代價;從 Dev1 到 Dev2,推理性能恢復并超越 R1-Zero;到 Dev3 和最終版本,各維度都達到最優。

      蒸餾與強化學習的對比,以及一些關鍵發現

      新版論文最核心的補充之一,是關于蒸餾與強化學習的對比實驗。

      團隊在 Qwen2.5-32B-Base 上進行了超過 10,000 步的大規模 RL 訓練,得到 Qwen2.5-32B-Zero。這個模型的性能與 QwQ-32B-Preview 相當,但顯著落后于從 DeepSeek-R1 蒸餾而來的 DeepSeek-R1-Distill-Qwen-32B。以 AIME 2024 為例,蒸餾模型的 Pass@1 達到 72.6%,RL 訓練模型只有 47.0%。

      結論顯示,對于中小規模模型,蒸餾比從頭 RL 訓練更具性價比。論文的原話是,蒸餾策略既經濟又有效,但要突破人類智能的邊界,可能仍需要更強大的基座模型和更大規模的強化學習。

      另一組實驗在 Qwen2-Math-7B 上進行。這個模型在 2024 年 8 月發布,早于 OpenAI o1,確保基座沒接觸過任何推理軌跡數據。經過約 10,000 步策略梯度更新后,Qwen2-Math-7B-Zero 在 AIME 2024 上的表現(22.3%)顯著超過 Qwen2-Math-7B-Instruct(7.9%)和 GPT-4o(9.3%)。這說明純 RL 確實能讓模型自主發展出高級推理策略,而非簡單模仿人類示范。

      新版論文還披露了幾條早期的關鍵發現。團隊嘗試過 7B Dense 和 16B MoE 模型作為 RL 訓練基礎,但這些配置在 AIME 上始終無法取得有意義的提升。小模型在響應長度增加時表現出強烈的重復傾向,無法有效利用長鏈推理。直到切換到 32B Dense、230B MoE 和 671B MoE 等更大規模架構,才觀察到實質性提升。這暗示推理能力的涌現可能存在某種規模門檻。

      關于數據來源,論文在同行評審文檔中回應了“蒸餾 OpenAI”的質疑:DeepSeek-V3-Base 的預訓練數據完全來自互聯網,沒有刻意使用合成數據。某些網頁可能包含 GPT-4 生成的答案,但這不是有意為之。為防止基準污染,團隊過濾掉了任何與評測問題存在 10-gram 匹配的文本片段,僅數學領域就移除了約 600 萬條文本。論文也坦承,n-gram 方法無法防止測試集改寫版本混入,2024 年之前發布的基準仍可能有污染風險。

      新版論文詳細記錄了團隊在 Process Reward Model(PRM , 過程獎勵模型 )上的探索。這本是一個直覺上很合理的方向:不只給最終答案打分,而是對推理過程的每一步提供反饋,把“怎么想”也納入優化目標。

      但落到實踐里,它很快撞上了三道坎:第一,“一步”到底怎么切分并沒有統一標準,邊界劃得粗細不同,獎勵信號就會變形;第二,要判斷某一步是否正確并不容易,模型自標注的可靠性有限,而人工逐步標注又幾乎不可能規模化;第三,一旦引入基于模型的 PRM 作為獎勵來源,策略模型就不可避免地會學會“迎合評分器”,獎勵作弊(reward hacking)風險隨之上升。

      DeepSeek 的結論是:PRM 用來對 Top-N 候選響應做重排序時確實有效,但放到大規模強化學習訓練里,帶來的增益不足以覆蓋額外的復雜度與計算開銷。

      他們也嘗試過 Monte Carlo Tree Search(MCTS,Monte Carlo Tree Search,蒙特卡洛樹搜索)。受 AlphaGo 思路啟發,團隊設想把答案拆成更細的片段,用預訓練的價值模型來引導搜索路徑。

      然而在語言生成里,token 級的搜索空間呈指數級膨脹:擴展得更廣會迅速失控,設置擴展上限又容易過早收斂到局部最優;更要命的是,細粒度價值模型本身就難訓練,AlphaGo 那種價值模型漸進提升的閉環機制,在這里很難復現。

      論文也特意強調,分享這些失敗經驗并不等于否定 PRM 或 MCTS 的潛力,只是它們在 R1 的具體開發路徑上沒有走通。

      安全評估與結論

      安全是新版論文著重補充的另一個維度。此前有部分人士對 DeepSeek-R1 的安全性表示了質疑,團隊這次也算是對這些聲音進行了回應。

      在訓練層面,團隊構建了 Safety Reward Model(安全獎勵模型)。與采用成對比較的有用性獎勵模型不同,安全獎勵模型使用逐點方法訓練,基于 106,000 條標注為“安全”或“不安全”的樣本,學習區分有害與無害響應。在第二階段 RL 中,安全獎勵與有用性獎勵、規則獎勵共同作用,評估范圍覆蓋整個響應(包括思維鏈和最終答案),以識別生成過程中可能出現的風險內容。

      在部署層面,官方服務配備了外部風險控制系統。系統分兩步工作:首先對用戶查詢進行關鍵詞匹配,標記潛在風險對話;隨后將標記內容與預設的風險審核提示拼接,送入 DeepSeek-V3 進行判斷。審核提示覆蓋 11 類安全標準,包括違法活動建議、隱私捏造、高風險投資指導等。論文建議部署 R1 的開發者實施類似機制。

      評估方面,團隊在 6 個公開安全基準(SST、BBQ、ART、XSTest、Do-Not-Answer、HarmBench)上與 Claude-3.7-Sonnet、o1、GPT-4o 等模型對比測試。結果顯示 R1 在歧視偏見、暴力極端主義、隱私侵犯等類別上表現穩健,平均安全分達 95.0%。

      但在 HarmBench 的版權相關測試中表現較弱,例如被要求生成歌詞時未能拒絕,導致被判定為不安全。團隊還構建了內部安全測試集,按統一分類標準覆蓋 4 大類 28 個子類的安全場景,并針對多語言安全和越獄攻擊魯棒性進行了額外評估。


      圖丨6 個公開安全基準的測試結果(來源:arXiv)

      論文坦承,開源模型的安全風險客觀存在。風險控制系統能顯著提升服務安全性,特別是應對越獄攻擊時效果明顯,但模型本身在某些邊界場景仍有改進空間。

      論文最后總結了幾點核心發現和局限。核心發現是:預訓練檢查點本身就具備復雜推理的潛力,釋放這種潛力的關鍵不在于大規模人工標注,而在于三個要素:困難的推理問題、可靠的驗證器、充足的 RL 計算資源。自我驗證、反思等復雜推理行為會在 RL 過程中自然涌現。

      同時,團隊也指出 DeepSeek-R1 還存在一些局限性,比如結構化輸出和工具調用能力仍不及現有模型;token 效率有待優化,簡單問題存在過度推理現象;非中英文查詢會出現語言混雜;對 prompt 敏感,few-shot 反而降低性能;軟件工程任務因評估耗時長,未能充分進行大規模 RL,相比 V3 提升有限。

      更根本的挑戰在于純 RL 方法本身:它依賴可靠的獎勵信號,而寫作等任務很難用規則定義獎勵,用模型打分又容易被策略模型鉆空子。對于無法有效評估的任務,如何擴展純 RL 方法仍是開放問題。論文的判斷是,任何能被驗證器有效評估的任務,機器都有望通過 RL 超越人類;但對于難以構建可靠獎勵模型的任務,進展可能會慢一些。



      參考資料:

      1.https://arxiv.org/abs/2501.12948

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普:不會前往巴黎參加七國集團峰會

      特朗普:不會前往巴黎參加七國集團峰會

      新京報
      2026-01-21 07:48:22
      美國當年怎么搞定夏威夷,就可以怎么搞定格陵蘭

      美國當年怎么搞定夏威夷,就可以怎么搞定格陵蘭

      天山箴言錄
      2026-01-21 17:08:09
      成毅約滿單飛,公司股價狂跌!他新劇搭檔李一桐林更新看好成爆款

      成毅約滿單飛,公司股價狂跌!他新劇搭檔李一桐林更新看好成爆款

      興史興談
      2026-01-21 06:29:02
      一箱油半箱稅,電車零成本上路?2026年政策調整,油電公平來了?

      一箱油半箱稅,電車零成本上路?2026年政策調整,油電公平來了?

      現代小青青慕慕
      2026-01-18 13:52:27
      央視怒批,人民日報點名封殺,這5位目無法紀的大網紅,徹底涼涼

      央視怒批,人民日報點名封殺,這5位目無法紀的大網紅,徹底涼涼

      一娛三分地
      2025-12-04 17:00:33
      知名導演曝少林方丈猛料:與多名女星有染,過程難以描述!

      知名導演曝少林方丈猛料:與多名女星有染,過程難以描述!

      顧史
      2026-01-21 22:45:40
      保利集團董事長調整

      保利集團董事長調整

      新京報政事兒
      2026-01-21 21:35:09
      真出名了!李昊賽后獲越南教練摸頭點贊:越南球迷呼吁給他立碑

      真出名了!李昊賽后獲越南教練摸頭點贊:越南球迷呼吁給他立碑

      邱澤云
      2026-01-21 17:20:17
      委內瑞拉和伊朗這一手“反水”,直接給中國上一堂最昂貴的戰略課

      委內瑞拉和伊朗這一手“反水”,直接給中國上一堂最昂貴的戰略課

      南權先生
      2026-01-16 16:22:00
      演都不演了?沈夢辰自曝與何炅真實關系,撕下了杜海濤的“體面”

      演都不演了?沈夢辰自曝與何炅真實關系,撕下了杜海濤的“體面”

      林雁飛
      2026-01-15 17:50:19
      “原來走讀更容易學壞”,家長曬叛逆女兒,網友:可能已經懷孕了

      “原來走讀更容易學壞”,家長曬叛逆女兒,網友:可能已經懷孕了

      妍妍教育日記
      2026-01-21 18:16:13
      馬賽0-3利物浦,賽后評分:馬賽10號和利物浦1號并列第一

      馬賽0-3利物浦,賽后評分:馬賽10號和利物浦1號并列第一

      側身凌空斬
      2026-01-22 06:09:42
      不查不知道一查嚇一跳,坐擁北京60畝馬場的于謙,私下到底有多壕

      不查不知道一查嚇一跳,坐擁北京60畝馬場的于謙,私下到底有多壕

      小熊侃史
      2026-01-20 07:40:05
      廣東大勝吉林,帶傷球員力壓42分奎因當選最佳

      廣東大勝吉林,帶傷球員力壓42分奎因當選最佳

      愛的境界是心疼
      2026-01-22 08:05:27
      周星馳電影71天僅收128萬,炒冷飯救不了港片

      周星馳電影71天僅收128萬,炒冷飯救不了港片

      星星沒有你亮
      2026-01-22 00:19:17
      訂婚時新郎長相普通,新娘顏值爆表卻望著他移不開眼:生理性喜歡

      訂婚時新郎長相普通,新娘顏值爆表卻望著他移不開眼:生理性喜歡

      梅子的小情緒
      2026-01-16 21:09:56
      全場起立!加拿大總理達沃斯現場炮轟美國:收起你的霸權行徑!

      全場起立!加拿大總理達沃斯現場炮轟美國:收起你的霸權行徑!

      天氣觀察站
      2026-01-22 03:18:34
      上海女孩被逼“街頭下跪”事件,背后是一個巨大的學區房“騙局”……

      上海女孩被逼“街頭下跪”事件,背后是一個巨大的學區房“騙局”……

      桌子的生活觀
      2026-01-21 12:34:58
      原本以為只有一個巨貪劉衛東,這不,又出了一個厲害的角色顧軍

      原本以為只有一個巨貪劉衛東,這不,又出了一個厲害的角色顧軍

      南權先生
      2026-01-21 15:41:05
      工信部力挺全固態電池!這些公司或成萬億賽道領跑者

      工信部力挺全固態電池!這些公司或成萬億賽道領跑者

      牛鍋巴小釩
      2026-01-22 03:51:37
      2026-01-22 08:56:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16159文章數 514517關注度
      往期回顧 全部

      科技要聞

      日系彩電時代“徹底落幕”

      頭條要聞

      牛彈琴:特朗普大鬧達沃斯 將歐洲同行罵了個狗血噴頭

      頭條要聞

      牛彈琴:特朗普大鬧達沃斯 將歐洲同行罵了個狗血噴頭

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      股東資格確權存糾紛 前總裁狀告申通快遞

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      教育
      手機
      家居
      時尚
      軍事航空

      教育要聞

      問答環節(當代教育的雙重困境)

      手機要聞

      蘋果新春限時優惠1月24日開啟:最高立省1000元

      家居要聞

      褪去浮華 觸達松弛與欣喜

      締造仙女夢的人,去了天堂繼續縫制星光?

      軍事要聞

      特朗普:對美國的真正威脅是聯合國和北約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 狠狠躁夜夜躁人人爽天天| 国产精品午夜福利免费看 | 男人色天堂| 拉萨市| 熟妇的味道hd中文字幕| 亚洲国产日韩在线人高清| 欧洲熟妇精品视频| 口爆av| 一本加勒比hezyo无码专区| 亚洲乱码中文字幕综合| 欧美肏屄网| 国产精品天干天干综合网| 极品国模无码国产在线观看| 精品无码黑人又粗又大又长| 免费国产黄线在线观看| 亚洲人片在线观看天堂无码| 欧美人精品人妻在线| 久久婷婷五月综合色一区二区| 两个人看的www免费视频中文| 波多野结衣一区二区三区av免费 | 精品不卡一区| 日韩日韩日韩日韩日韩| 久久综合九色综合欧洲98| 蜜臀av久久国产午夜福利软件| 99热成人精品热久久66| 不卡无码av| 强奷很舒服好爽好爽| 欧美熟妇| 亚洲成人资源在线| 成人性生交大片免费看| 久久久天堂国产精品女人| 内射少妇18| 喀什市| 国产成人精品日本亚洲第一区 | 综合AV第一页| 久久狠狠色噜噜狠狠狠狠97视色| 免费又黄又爽1000禁片| 丰满熟女人妻中出系列| 日本爽爽爽爽爽爽在线观看免| 中文字幕亚洲综合久久综合| 色翁荡熄又大又硬又粗又视频图片|