![]()
這可不是簡單的內(nèi)容擴充,而是把AI訓(xùn)練的“家底”全亮了出來:從算法創(chuàng)新到失敗嘗試,連花了多少錢都寫得明明白白。
這在大模型圈里簡直像當(dāng)眾拆自家發(fā)動機,以前誰家不是把技術(shù)藏著掖著?這次DeepSeek-R1玩這么大,怕是要改寫行業(yè)規(guī)則。
![]()
聊技術(shù)繞不開算法,DeepSeek-R1最狠的一手是掏出了GRPO算法,直接叫板行業(yè)主流的PPO。
本來想順著傳統(tǒng)思路用PPO做強化學(xué)習(xí),但后來發(fā)現(xiàn)這玩意兒太“燒錢”,得訓(xùn)練一個和主模型差不多大的價值模型,算起來成本高到肉疼。
GRPO的思路就野多了:不搞價值預(yù)測,直接“組內(nèi)比爛”。
![]()
同一個問題讓模型生成16個答案,按獎勵分?jǐn)?shù)排個名,用均值和標(biāo)準(zhǔn)差歸一化后更新模型。
這么一來,既不用額外訓(xùn)練價值模型,又避開了跨時間步預(yù)測的坑。
MATH數(shù)據(jù)集上一測,沒調(diào)參的GRPO居然比精心優(yōu)化的PPO還好使,尤其長鏈推理時優(yōu)勢明顯。
搞AI的都知道,算法好不好使,最終還得看工程落地。
![]()
他們這套分布式訓(xùn)練架構(gòu)拆成了四個模塊:采樣、推理、獎勵計算、策略更新,中間還用了顯存動態(tài)卸載和自投機解碼,硬是撐住了單次訓(xùn)練32個問題×16個輸出的超大工作量。
最讓人意外的是訓(xùn)練成本。
以前總聽人說頂級大模型訓(xùn)練要幾千萬美元,結(jié)果DeepSeek-R1的增量成本才29.4萬美元,648塊H800GPU跑198小時花了20.2萬,數(shù)據(jù)準(zhǔn)備1萬,后續(xù)優(yōu)化8.2萬。
連它的基座模型V3-Base也才556.6萬美元,這數(shù)字直接把行業(yè)所謂的“千萬美元門檻”砸了個稀碎。
![]()
為啥能這么省?四階段訓(xùn)練流水線功不可沒。
第一階段R1-Zero純靠強化學(xué)習(xí)瞎摸索,居然摸出了“自我反思”能力,訓(xùn)練到8000步時,模型突然開始頻繁用“wait”“mistake”這類詞,正確率跟著飆升。
本來以為這就成了,結(jié)果第二階段加了監(jiān)督微調(diào)(SFT),語言是流暢了,推理能力反而掉了點。
后來又用拒絕采樣搞了80萬條數(shù)據(jù),才算把性能拉回來。
![]()
整個過程像極了科研狗做實驗:試錯、調(diào)整、再試錯,最后在第四階段融合規(guī)則獎勵和偏好模型,才摸到最優(yōu)解。
這說明啥?中小模型與其死磕強化學(xué)習(xí),不如老老實實搞蒸餾。
當(dāng)然,想突破人類智能邊界,還得靠大基座+大規(guī)模RL,二者各有各的道。
![]()
比如過程獎勵模型(PRM),標(biāo)注成本高不說,還容易讓模型學(xué)會“獎勵作弊”,蒙特卡洛樹搜索(MCTS)更慘,token級搜索空間直接爆炸,根本玩不轉(zhuǎn)。
這種“把傷疤揭開給人看”的操作,在AI圈實屬罕見。
安全方面他們也下了功夫,10.6萬條樣本訓(xùn)出來的安全獎勵模型(SRM),加上部署層的雙重審核,外部測試安全分能到95%,就是版權(quán)問題還得再琢磨琢磨。
![]()
以前大家比誰的模型參數(shù)大、誰的效果好,現(xiàn)在突然有人把訓(xùn)練日志、失敗經(jīng)驗、成本明細(xì)全曬出來,這等于逼著整個行業(yè)從“閉門造車”轉(zhuǎn)向“開源協(xié)作”。
復(fù)雜推理能力原來可以不靠堆數(shù)據(jù),靠“困難問題+可靠驗證器+足量RL資源”就能自然涌現(xiàn),這個結(jié)論,怕是要讓不少還在死磕標(biāo)注數(shù)據(jù)的團隊重新想想路該怎么走了。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.