網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek更新R1論文：猛增64頁，能公開的全部公開

2026-01-13 05:37:17　來源: 多多愛探索

四川舉報

分享至

這可不是簡單的內(nèi)容擴充，而是把AI訓(xùn)練的“家底”全亮了出來：從算法創(chuàng)新到失敗嘗試，連花了多少錢都寫得明明白白。

這在大模型圈里簡直像當(dāng)眾拆自家發(fā)動機，以前誰家不是把技術(shù)藏著掖著？這次DeepSeek-R1玩這么大，怕是要改寫行業(yè)規(guī)則。

聊技術(shù)繞不開算法，DeepSeek-R1最狠的一手是掏出了GRPO算法，直接叫板行業(yè)主流的PPO。

本來想順著傳統(tǒng)思路用PPO做強化學(xué)習(xí)，但后來發(fā)現(xiàn)這玩意兒太“燒錢”，得訓(xùn)練一個和主模型差不多大的價值模型，算起來成本高到肉疼。

GRPO的思路就野多了：不搞價值預(yù)測，直接“組內(nèi)比爛”。

同一個問題讓模型生成16個答案，按獎勵分?jǐn)?shù)排個名，用均值和標(biāo)準(zhǔn)差歸一化后更新模型。

這么一來，既不用額外訓(xùn)練價值模型，又避開了跨時間步預(yù)測的坑。

MATH數(shù)據(jù)集上一測，沒調(diào)參的GRPO居然比精心優(yōu)化的PPO還好使，尤其長鏈推理時優(yōu)勢明顯。

搞AI的都知道，算法好不好使，最終還得看工程落地。

他們這套分布式訓(xùn)練架構(gòu)拆成了四個模塊：采樣、推理、獎勵計算、策略更新，中間還用了顯存動態(tài)卸載和自投機解碼，硬是撐住了單次訓(xùn)練32個問題×16個輸出的超大工作量。

最讓人意外的是訓(xùn)練成本。

以前總聽人說頂級大模型訓(xùn)練要幾千萬美元，結(jié)果DeepSeek-R1的增量成本才29.4萬美元，648塊H800GPU跑198小時花了20.2萬，數(shù)據(jù)準(zhǔn)備1萬，后續(xù)優(yōu)化8.2萬。

連它的基座模型V3-Base也才556.6萬美元，這數(shù)字直接把行業(yè)所謂的“千萬美元門檻”砸了個稀碎。

為啥能這么省？四階段訓(xùn)練流水線功不可沒。

第一階段R1-Zero純靠強化學(xué)習(xí)瞎摸索，居然摸出了“自我反思”能力，訓(xùn)練到8000步時，模型突然開始頻繁用“wait”“mistake”這類詞，正確率跟著飆升。

本來以為這就成了，結(jié)果第二階段加了監(jiān)督微調(diào)（SFT），語言是流暢了，推理能力反而掉了點。

后來又用拒絕采樣搞了80萬條數(shù)據(jù)，才算把性能拉回來。

整個過程像極了科研狗做實驗：試錯、調(diào)整、再試錯，最后在第四階段融合規(guī)則獎勵和偏好模型，才摸到最優(yōu)解。

這說明啥？中小模型與其死磕強化學(xué)習(xí)，不如老老實實搞蒸餾。

當(dāng)然，想突破人類智能邊界，還得靠大基座+大規(guī)模RL，二者各有各的道。

比如過程獎勵模型（PRM），標(biāo)注成本高不說，還容易讓模型學(xué)會“獎勵作弊”，蒙特卡洛樹搜索（MCTS）更慘，token級搜索空間直接爆炸，根本玩不轉(zhuǎn)。

這種“把傷疤揭開給人看”的操作，在AI圈實屬罕見。

安全方面他們也下了功夫，10.6萬條樣本訓(xùn)出來的安全獎勵模型（SRM），加上部署層的雙重審核，外部測試安全分能到95%，就是版權(quán)問題還得再琢磨琢磨。

以前大家比誰的模型參數(shù)大、誰的效果好，現(xiàn)在突然有人把訓(xùn)練日志、失敗經(jīng)驗、成本明細(xì)全曬出來，這等于逼著整個行業(yè)從“閉門造車”轉(zhuǎn)向“開源協(xié)作”。

復(fù)雜推理能力原來可以不靠堆數(shù)據(jù)，靠“困難問題+可靠驗證器+足量RL資源”就能自然涌現(xiàn)，這個結(jié)論，怕是要讓不少還在死磕標(biāo)注數(shù)據(jù)的團隊重新想想路該怎么走了。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

南部空軍：從今以后絕不允許有人對我大聲說話

環(huán)球時報 2026-01-22 01:30:54
22943 跟貼 22943
剛剛 | 德云社嚴(yán)正聲明！

天津廣播 2026-01-21 20:23:38
6355 跟貼 6355

取消臨停，銀川一小區(qū)千余車位被“包銷”，車主回家擁堵6小時；住建部門介入

大風(fēng)新聞 2026-01-21 16:11:07
8560 跟貼 8560

為支付安置項目工程款，13戶村民“被貸款”；當(dāng)?shù)鼗貞?yīng)：情況較復(fù)雜，正設(shè)法解決

大風(fēng)新聞 2026-01-21 20:46:04
2764 跟貼 2764
中方重申：日本根本沒有資格要求“入常”

海外網(wǎng) 2026-01-22 07:06:04
7805 跟貼 7805

深圳官方明確：中小學(xué)期末不統(tǒng)考！

南方都市報 2026-01-21 19:21:23
835 跟貼 835

高架橋上幫助近20輛車脫困，武漢“拖車俠”詹時美：以后大家有需要我還會這么做

極目新聞 2026-01-21 22:21:50
381 跟貼 381
索尼宣布將剝離電視機業(yè)務(wù)，與中國TCL成立合資公司，TCL持股51%

魯中晨報 2026-01-20 21:47:04
4075 跟貼 4075

特變電工：黃金年產(chǎn)量約2.5-3噸

財聯(lián)社 2026-01-21 15:47:08
578 跟貼 578
網(wǎng)友呼吁為賀嬌龍立塑像，新疆日報發(fā)文回應(yīng)

新京報 2026-01-21 15:24:22
1770 跟貼 1770
“投資銅條”火爆銷售！有金屬加工廠稱“通宵加工，一晚出貨幾噸”，專家直言娛樂意義更大

每日經(jīng)濟新聞 2026-01-22 00:21:05
17 跟貼 17
預(yù)虧21億元永輝超市“胖改”成本賬

紅星新聞 2026-01-22 07:35:21
202 跟貼 202
到民營醫(yī)院看男科，7天花1.7萬無效果；院方：可溝通協(xié)商

大風(fēng)新聞 2026-01-21 12:22:38
403 跟貼 403
ESPN長文揭露珍妮·巴斯對詹姆斯的不滿，交易得到威少后關(guān)系進一步疏遠(yuǎn)；多方回應(yīng)

魯中晨報 2026-01-22 10:15:10
21 跟貼 21
我國北方多地現(xiàn)“絕美極光秀”，賽里木湖被紅光籠罩，漠河一天出現(xiàn)兩次極光，網(wǎng)友涌入評論區(qū)接好運

極目新聞 2026-01-21 14:22:30
284 跟貼 284
中國駐沙領(lǐng)館：U23亞洲杯決賽中國護照免門票不實，票價最低28元

封面新聞 2026-01-22 07:37:03
13 跟貼 13
今年高考全國統(tǒng)考將于6月7日、8日舉行

央視新聞客戶端 2026-01-22 10:01:56
210 跟貼 210
繼丹麥后又一家北歐養(yǎng)老基金宣布拋售美國國債

財聯(lián)社 2026-01-22 10:22:07
20 跟貼 20
北極寒流沖擊北半球美國天然氣兩天暴漲60%

第一財經(jīng)資訊 2026-01-22 07:24:09
276 跟貼 276
上海一非法營運司機暴力沖卡撞傷輔警逃逸

看看新聞Knews 2026-01-22 11:57:21
0 跟貼 0
探索科學(xué)循證新方式，口服抗衰行業(yè)邁入價值深耕新階段

第一財經(jīng)商業(yè)數(shù)據(jù)中心 2026-01-22 11:04:49
5 跟貼 5
有中國公民被“上海浦西分局的警官”騙了！中領(lǐng)館緊急提醒：上海并無浦西區(qū)

上觀新聞 2026-01-22 11:27:18
0 跟貼 0
32歲程序員周末暈倒后猝死，搶救期間曾被拉入工作群，其妻子曾連續(xù)多日看定位、催下班

芒果都市 2026-01-22 11:57:58
0 跟貼 0
最低-14℃！江蘇下一輪降雪又在路上了

魯中晨報 2026-01-22 08:59:40
0 跟貼 0
2025年度中國酒業(yè)十宗“最”之最“離譜”謠言

每日經(jīng)濟新聞 2026-01-22 11:56:52
0 跟貼 0
高速夜間發(fā)生連環(huán)車禍，醫(yī)院收治15名傷者；交警：事發(fā)路段因結(jié)冰仍雙向管控

大風(fēng)新聞 2026-01-22 11:48:04
0 跟貼 0
農(nóng)業(yè)農(nóng)村部：將指導(dǎo)各省健全工作機制，研究制定延包具體辦法

澎湃新聞 2026-01-22 11:27:09
0 跟貼 0
月薪1萬招普工？黑中介為發(fā)“虛假高薪”10天被攔截35次

南方都市報 2026-01-22 11:53:16
0 跟貼 0

手機 / 數(shù)碼

房產(chǎn) / 家居

DeepSeek更新R1論文：猛增64頁，能公開的全部公開

日系彩電時代“徹底落幕”

牛彈琴：特朗普大鬧達(dá)沃斯 將歐洲同行罵了個狗血噴頭

牛彈琴：特朗普大鬧達(dá)沃斯 將歐洲同行罵了個狗血噴頭

珍妮回應(yīng)爆料：湖人不感激詹姆斯付出絕非事實

鐘麗緹土耳其高空落淚 與張倫碩擁吻

申通快遞創(chuàng)始人被前夫索要股份

今年集中上市 旅行車的春天可能真要來了

態(tài)度原創(chuàng)

打工人年終總結(jié)！健康通關(guān)=贏麻了

法式風(fēng)情 南洋中古居

69天超長待機：小米REDMI Pad 2 Pro平板搭載12000mAh電池

一場雪，飄進了唐詩

特朗普：對美國的真正威脅是聯(lián)合國和北約

牛彈琴：特朗普大鬧達(dá)沃斯將歐洲同行罵了個狗血噴頭

牛彈琴：特朗普大鬧達(dá)沃斯將歐洲同行罵了個狗血噴頭

鐘麗緹土耳其高空落淚與張倫碩擁吻

今年集中上市旅行車的春天可能真要來了

法式風(fēng)情南洋中古居