<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      打破二手認知!一圖還原DeepSeek-R1的完整訓練流程

      0
      分享至

        關于產品經理應該怎么學AI,核心就兩個點:堅持讀論文和自己多動手

        ——張濤(Hidecloud),光年之外產品負責人

        這是關于DeepSeek的第二篇文章,想和你分享我讀DeepSeek-R1論后的一些心得,也給大家明天上班再增加點談資。

        DeepSeek之所以引爆春節,是因為它同時擊穿了3個圈層的心智:

        技術圈,被它的開源精神所折服;

        AI圈,被它被超低的訓練成本和極致的訓練效率所折服;

        普羅大眾圈,被它深度思考的輸出完備性所折服。

        我不是技術圈的,上一篇文章《》也大致從AI圈角度分析了它在提升訓練效率上體現出的創新思維。

        那這篇文章,是想作為一名普羅大眾,回答一個問題:

        反思能力如此厲害的DeepSeek-R1,到底是怎么被訓練出來的?

        其實關于這個話題,有很多文章都寫過了,但我看了一圈,這些所謂對R1的“深度拆解”、“詳解”、“萬字解讀”,“一文讀懂”、“全面解析”,都只是把論文拿過來,對原文做些許調整和擴充,重新寫了一遍。里面的各種名詞、術語,似乎是默認大家都知道一樣,全堆上去,就算“解讀完了”。給我的感覺就像是:“聽君一席話,如聽一席話

        于是憑著十幾年做產品鍛煉出的抽象能力和畫圖能力,本著“能用圖說明白就不寫字”的原則,我嘗試把R1論文中所描述的訓練過程,用流程圖的方式為你復現出來。希望幫助沒有技術背景的普通大眾,也能學到DeepSeek團隊在“深度思考”模式背后的“深度思考”。完整流程如下圖:

        

        想看R1論文的,回復“R1論文”即可。

        需要額外說明的是,在從論文還原流程的過程中,由于原文在某些地方的描述過于簡略和抽象,圖中部分模塊是我基于自己的理解完成的,如有錯誤,非常歡迎你幫忙指出,感謝支持!那下面我們就開始。

        總覽

        原文中,DeepSeek訓了2個R1模型(這里先不討論蒸餾),分別是:DeepSeek-R1-Zero和DeepSeek-R1。

        聽名字可能會認為R1是R1-Zero基礎上的升級版,一些自媒體也是這么說的,但實際上這2個模型是分開訓的,二者沒什么直接聯系。不過訓R1-Zero的方法,貫穿著R1的始終。

        

        具體來講,DeepSeek-R1-Zero的訓練過程,本質上是為了證明2件事:

        第一,基于獎勵規則的純強化學習,可以讓大模型的推理能力顯著提升;

        第二,同樣是強化學習,我DeepSeek(因為用了GRPO)可以做到又快又好又省錢。

        但在這個過程中,他們其實碰了壁,這第一版的R1-Zero,沒法直接交付,因為它的推理過程實在是沒法看。作為一款主打推理強化的模型,如果用戶看不到推理過程,這模型是拿不出手的。

        其實站在產品角度看,這時DeepSeek完全可以把R1-Zero先推上線,只是不顯示思考過程就可以了,因為它的推理結果就已經很強了。但正是因為他們秉持著嚴謹的研究精神,追求精益求精,我們才能在線上看到如此豐富的推理過程數據。我猜這也是為什么DeepSeek會默認把思考過程展開的,這背后OS肯定是:我們費了那么多勁,肯定是要秀一把的。

        驗證了強化學習能有效提升推理能力后,他們就開始真正發揮在工程優化上的特長了,這才有了對R1的完整訓練過程。

        網上的很多說法認為,DeepSeek-R1一共訓了2個階段,共四步,分別是:監督學習(SFT) -> 強化學習(RL) -> 監督學習(SFT) -> 強化學習(RL)

        

        但仔細理解過論文后我發現,真正的完整流程應該是五步

        第一個監督微調階段(冷啟動) -> 第一個強化學習階段(推理導向) ->收集監督微調數據-> 第二個監督微調階段(2輪微調) -> 第二個強化學習階段

        很多人會忽略一個關鍵環節,就是DeepSeek花了很大力氣,為第二階段的監督微調構建數據(就是我標紅的部分),這才是讓最終的R1能“懂人話”的核心。

        接下來就分別針對DeepSeek-R1-Zero和DeepSeek-R1,展開講講他們的實現流程。

        DeepSeek-R1-Zero:基礎模型上的強化學習

        

        如圖所示,R1-Zero的訓練邏輯并不難,大框架就是用DeepSeek-V3-Base作為基座,利用準確性獎勵(判斷回答是否正確)+格式獎勵(規范模型輸出格式)對訓練結果打分,反饋給模型做自我學習和優化。

        DeepSeek團隊在這里做了2個創新,也是支撐DeepSeek-R1成功的關鍵動作:

        采用GRPO算法作為強化學習算法,以節省訓練成本。

        設計訓練模板,引導模型先輸出推理過程,再輸出答案。

        簡單理解GRPO算法,可以看我圖中紫色圓柱部分。當模型接收到一個問題后,基于當前策略讓它生成多個可能的回答,再使用獎勵機制對每個回答進行評分,根據評分,計算每個回答對于其他回答的“優勢”(也就是相對所有回答的平均分,這個回答的分是不是會更高),最后,根據優勢分值,調整模型策略,以提高未來回答的質量。

        而訓練模板,就是上圖格式獎勵方框中綠色方框里的部分,即:要求模型把思考過程和答案同時輸出。

        其實這個模板最開始不是給用戶看的,而是研究員自己觀察用的,目的是看清楚模型在強化學習過程中是怎么自然發展和變化的,從而避免特定的內容偏差——比如強制反思推理,或者推崇特定的解題策略:

        

        這個過程就有點像在代碼調試的時候,在命令行中打印一些文字,以確保程序運行中沒跑偏,寫過代碼的同學肯定都懂這個過程的痛苦……

        最后的訓練結果呢,正如論文中說的,模型不斷自我進化,性能逐步提升,出現反思、探索等多種解題行為,甚至會涌現“aha moment”。

        不過問題也很明顯,R1-Zero在可讀性差和語言混雜等難題上應對吃力,于是DeepSeek團隊不得不重新思考一套新的解決方案,這才有了DeepSeek-R1。

        DeepSeek-R1:基于冷啟動的強化學習

        正如我上文提到的,訓練DeepSeek-R1一共經歷了五個階段,完整流程如下圖:

        

        第一個監督微調階段(冷啟動)

        冷啟動階段,團隊收集數千條長思維鏈(CoT)數據,對DeepSeek-V3-Base進行微調,目的是改善模型輸出的可讀性,為后續強化學習做準備。流程如下圖

        

        論文并沒有公開這數千條長思維鏈數據是哪些,我按自己的理解,猜測可能會包含:數學計算和邏輯推理2類主要任務,根據對“收集監督微調數據”階段的描述推斷,可能還有一部分寫作、實時性問答這類數據。

        在讀原文的時候,我注意到一個很有趣的細節,如上圖中綠色虛線框所示:為提升可讀性,冷啟動階段所構建的長思維鏈數據,定義了一種特殊格式的輸出:

        |special_token|

        |special_token|

        也就是說,要求模型除了輸出 <推理過程> ,還要顯示 <推理結果總結>

        這個設計太巧妙了,看起來只是增加了一個

        標記,但這個標記起著2個非常重要的作用:

        第一,對微調的研究人員而言,可以方便他們快速理解模型的推理邏輯,并據此分析模型的推理路徑是否合理,從而提升數據篩選效率,確保冷啟動數據質量;

        第二,對最終用戶而言,

        可以幫用戶快速把握核心信息。實際上,如果你仔細觀察DeepSeek展開的推理細節,會發現有些時候,就隱藏在其中:

        

        第一個強化學習階段(推理導向)

        原文中,這個階段叫:推理導向的強化學習。顧名思義,就是給冷啟動后的模型,增強推理能力。具體做法嘛,DeepSeek-R1-Zero早就給打好樣了,直接拿來用就好。

        

        不過細心的你一定注意到了,二者的過程還不完全一樣,按論文所說,為避免語言混雜的情況,他們又引入了一種新的獎勵規則:語言一致性獎勵(如上圖黃框部分)。盡管會讓性能略有下降,但結果上看符合人類偏好,也不是不能接受。

        這個環節對我的啟發是:一個有效且具備靈活擴展性的框架,對架構設計而言非常重要。

        看起來這里只是加了一個新的獎勵規則,但如果在R1-Zero的訓練階段,不用“獎勵規則”這個思路實現,那解決語言一致性問題恐怕就要重構整個訓練過程。

        對我們做產品也是一樣,一個好的邏輯結構劃分,可以讓產品在后續迭代優化時,只需改動一個小點,就能提升全局產品能力。這要求架構師具備充足的未來視野和極強的抽象能力,這也是個人成長所必備的基本能力。

        收集監督微調數據

        這里對應原文2.3.3 拒絕采樣與監督微調。原文花了大量篇幅講數據準備,所以我覺得有必要把它單獨拿出來,形成一個獨立環節,如下圖所示:

        

        為提升下階段微調效果,DeepSeek團隊準備了2類數據:60萬個推理數據和20萬個非推理數據。

        對推理數據,使用拒絕采樣,也就是只保留正確回復的方法,確保輸出的可讀性。又因為驗證推理結果的方法有明確的邏輯鏈條,只需用模型來幫忙打分判斷即可。具體方法,就是把推理結果和真實答案輸入給DeepSeek-V3,讓機器來評估,見上圖上半部分的流程。這里學到的小技巧就是:能不用人的地方,就不用人

        但對寫作這類非推理數據,他們并不是用模型打分,而是直接讓它來構建數據,方法也很巧妙,見上圖中下半部分的流程

        為確保非推理數據的質量,他們會讓V3模型輸出帶思維鏈的答案,然后把中間的推理過程去掉,只保留問題和答案,再把它們加入最終的數據池中。

        此外,還加入了第一步冷啟動時收集到的一部分非推理數據,這也是為什么我在上文提到,冷啟動的數據,可能也包含了一部分寫作和實時性問答

        最終,自己準備一部分,復用冷啟動一部分,讓模型生成一部分,一共組成了這20萬非推理數據。

        在閱讀這一段的時候我在想,這20萬非推理數據,會不會給DeepSeek-R1在解決創意類問題上帶來瓶頸?

        也許那些“模仿XXX來寫作”的數據,就來自這20萬中;

        也許那些不說人話的“熵增熵減元認知”,也是學習自這20萬數據。

        非常好奇這20萬非推理數據實際上長什么樣子,取自哪里,由誰來進行清洗和評估的。而且我會認為,如果能有更優雅的方式來創造更多非推理數據,也許還能讓模型的能力進一步提升。如果有同學知道,歡迎留言告知~

        第二個監督微調階段(2輪微調)

        

        準備好數據后,才來到了真正的微調階段,方法在原文也就一句話:

        我們使用上述精心整理的約80萬個樣本的數據集,對DeepSeek-V3-Base進行兩個輪次的微調。

        注意,這里實際上是調了2輪,不知道是60萬一輪20萬一輪,還是80萬調了兩輪,說的還是比較模糊的

        第二個強化學習階段

        最后來到了第二個強化學習,也就是R1最終的訓練階段。

        

        這一步的目的,是為了做對齊(align),也就是讓模型的輸出更符合人類偏好。

        這里的偏好,包括有用性無害性2個評估標準。而對齊也幾乎是所有模型面向市場前的必經階段。

        做法上是用2個分支,分別針對2類數據做對齊。

        先是針對推理數據,如上圖上半部分。這里又一次請出了DeepSeek-R1-Zero的訓練方法(所以我說,R1-Zero的訓練方法貫穿始終),使用基于規則的獎勵方法優化模型輸出,并在其中加入對有用性和無害性評估。順便再次使用這一方法訓練推理數據,進一步強化其推理能力。

        難點在一般性數據,什么叫一般性數據?我理解就是上階段提到的非推理數據,比如上圖我舉的做巧克力蛋糕的例子。通常容易出事的也是這類數據,因為它的判斷標準很難用規則衡量,所以這里DeepSeek團隊只能用獎勵模型來做判斷。獎勵模型可以根據人類對回復的偏好,給予模型生成的合適回復更高獎勵。但具體他們用了什么獎勵模型,也沒有更多描述了。

        最終,一個不僅在推理方面表現優異,同時將有用性和無害性放在重要位置的模型,就被訓練出來啦!

        這里插一句,原文有句話我沒太讀懂,也拋出來向大家請教:

        We build upon the DeepSeek-V3 pipeline and adopt a similar distribution of preference pairs and training prompts.

        翻譯過來是:

        我們以DeepSeek - V3的流程為基礎,采用與它類似的偏好對分布和訓練提示詞。

        不知道“以DeepSeek - V3流程為基礎“是什么意思,基于DeepSeek - V3流程具體做了什么?所謂”類似的偏好對分布和訓練提示詞“又是什么意思?”與它類似“具體是指和什么類似?什么叫“偏好對”?DeepSeek - V3的訓練提示詞又是什么?這句話看得我一頭霧水,我猜可能使用了和DeepSeek-V3一樣的提示詞庫?不知道理解的對不對,求好心人解惑……

        總結

        寫這篇文章的目的,一方面是不希望自己被網上鋪天蓋地的二手信息所裹挾,更希望通過對本源的探求,發現一些他人可能注意不到的細節和獨特視角。

        都說看懂一本書,要把自己想象成作者,而看懂一個模型,肯定是要盡量還原設計者的思考和邏輯。

        我覺得借助圖形將復雜概念可視化,是一種理解抽象問題特別好用的方法,這也是我做產品經理時最喜歡的必殺技,對著圖形來討論問題,往往能最快達成共識。也把這個技巧推薦給你

        最后再總覽一下訓練R1的這五個環節,可以把整個過程理解成教學生做題:

        先用帶詳細解題步驟的例題,教會他基礎的做題方法(第一階段監督學習);

        接著讓他自己狂刷題,并給"步驟工整分"和"答案正確分"來知道他學習進步(第一階段強化學習);

        再篩選出優等生(包括文科生和理科生)的解題范例(收集監督微調數據)進行二次教學(第二階段監督學習);

        最后用"安全評分"過濾危險答案,用“實用評分”獎勵優秀答案(第二階段強化學習),最終教出一個能展示清晰思考路徑、答案靠譜且不說怪話的學霸。

        怎么樣,你是否對R1的理解更進一步了呢?也歡迎你的留言與我討論~

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      徹底賣不動了!特斯拉1月中國銷量降至三年來最低點:僅售出1.8萬輛

      徹底賣不動了!特斯拉1月中國銷量降至三年來最低點:僅售出1.8萬輛

      快科技
      2026-02-13 11:41:18
      氣笑了!李家誠告周秀娜,不到半天就被打臉,好在周秀娜早有預防

      氣笑了!李家誠告周秀娜,不到半天就被打臉,好在周秀娜早有預防

      離離言幾許
      2026-02-13 18:34:28
      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      坐3.6億飛機,戴1000萬名表,拿5000萬炒股的秦奮究竟什么背景

      涵豆說娛
      2026-01-19 17:21:55
      尼日爾正式向法國宣戰,局勢緊張升級!

      尼日爾正式向法國宣戰,局勢緊張升級!

      樂天派WMQ
      2026-02-13 00:46:02
      59歲宋祖英現身活動狀態驚艷!短發利落大氣,黑色套裝優雅端莊

      59歲宋祖英現身活動狀態驚艷!短發利落大氣,黑色套裝優雅端莊

      琴聲飛揚
      2026-02-12 11:51:25
      13歲體操冠軍傅佳麗被虐待致跳樓,央媒跟進:2名涉事教練被立案

      13歲體操冠軍傅佳麗被虐待致跳樓,央媒跟進:2名涉事教練被立案

      奇思妙想草葉君
      2026-02-12 20:11:52
      巨力索具“航天神話”破滅,發布澄清前股東已質押股權數億元

      巨力索具“航天神話”破滅,發布澄清前股東已質押股權數億元

      界面新聞
      2026-02-13 14:52:48
      樊振東遭遇德甲獨特規則,第四盤對手竟然換人出戰

      樊振東遭遇德甲獨特規則,第四盤對手竟然換人出戰

      卿子書
      2026-02-13 16:50:47
      菲律賓一美食博主為流量吃劇毒魔鬼蟹身亡,用椰奶燉煮海鮮,嘴唇呈深藍色,食用海鮮兩天后離世

      菲律賓一美食博主為流量吃劇毒魔鬼蟹身亡,用椰奶燉煮海鮮,嘴唇呈深藍色,食用海鮮兩天后離世

      觀威海
      2026-02-13 09:02:05
      大衣哥女兒風光出嫁,農村舉辦婚禮超樸素,朱雪梅全程遮面顯害羞

      大衣哥女兒風光出嫁,農村舉辦婚禮超樸素,朱雪梅全程遮面顯害羞

      扒蝦侃娛
      2026-02-13 15:54:57
      賬號被禁言后,千萬粉絲博主“保羅在美國”道歉:內容尺度考慮不周!此前其發布妻子生產過程,還植入尿不濕廣告,引發爭議

      賬號被禁言后,千萬粉絲博主“保羅在美國”道歉:內容尺度考慮不周!此前其發布妻子生產過程,還植入尿不濕廣告,引發爭議

      每日經濟新聞
      2026-02-14 00:47:07
      感受京東產發的“榕樹式”生長

      感受京東產發的“榕樹式”生長

      首條研究院
      2026-02-13 18:48:15
      47歲名宿出任熱刺救火主帥 簽約至賽季末 曾執教尤文7個月即下課

      47歲名宿出任熱刺救火主帥 簽約至賽季末 曾執教尤文7個月即下課

      我愛英超
      2026-02-13 22:40:14
      王鑫被查,曾出演《風箏》《大江大河》《生萬物》等經典影視劇

      王鑫被查,曾出演《風箏》《大江大河》《生萬物》等經典影視劇

      中國網
      2026-02-13 11:39:54
      85歲的鄧穎超,找到李鵬,開口就是5個字:“我想安樂死。”

      85歲的鄧穎超,找到李鵬,開口就是5個字:“我想安樂死。”

      玥來玥好講故事
      2026-02-13 20:37:31
      扶不上墻!

      扶不上墻!

      求實處
      2026-02-13 00:20:24
      在日本待了5年我才敢說:很多人眼里的日本,根本不是那么回事

      在日本待了5年我才敢說:很多人眼里的日本,根本不是那么回事

      夜深愛雜談
      2026-02-13 21:05:31
      日本抄中俄后路?高市已經選定目標,一旦沖突,首個打擊目標浮現

      日本抄中俄后路?高市已經選定目標,一旦沖突,首個打擊目標浮現

      老沮系戲精北鼻
      2026-02-11 12:38:39
      李亞鵬估計懵了,就因為夸了董宇輝一句,直播間被“取關”刷屏了

      李亞鵬估計懵了,就因為夸了董宇輝一句,直播間被“取關”刷屏了

      小娛樂悠悠
      2026-02-13 10:23:01
      8級大風+降雨!新冷空氣即將抵達廣東!深圳未來天氣......

      8級大風+降雨!新冷空氣即將抵達廣東!深圳未來天氣......

      深圳晚報
      2026-02-13 08:22:01
      2026-02-14 01:40:49
      互聯網悅讀筆記 incentive-icons
      互聯網悅讀筆記
      12年產品經驗,前360產品總監,36氪產品負責人。長期發表對AI、產品、運營、職業發展的觀察和思考
      15文章數 13關注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      8千元的迷你小馬一夜爆火 馬主:1天排泄次數達十幾次

      頭條要聞

      8千元的迷你小馬一夜爆火 馬主:1天排泄次數達十幾次

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      大衣哥女兒風光出嫁,農村婚禮超樸素

      財經要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風!

      態度原創

      藝術
      房產
      時尚
      親子
      公開課

      藝術要聞

      砸25億,中原第一高樓綠地造,坐標鄭州!

      房產要聞

      三亞新機場,又傳出新消息!

      穿上這些鞋擁抱春天

      親子要聞

      操練忠臣,提高覺悟

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版