![]()
![]()
這事在AI圈炸了鍋,要知道現在大模型公司恨不得把參數表都當商業機密,他們倒好,把訓練日志都快寫成教學手冊了。
這次補充材料最讓人眼前一亮的,是他們把R1的訓練過程扒了個底朝天。
![]()
跟GPT、Claude這些"混合派"不同,DeepSeek團隊走了條"純強化學習"的野路子。
本來想跟著行業主流用RLHF(人類反饋強化學習),但后來發現光靠人類標注根本不夠用,索性搞了套四步訓練法。
冷啟動階段就挺反常規,別人都用海量數據"喂飽"模型,他們偏偏只用幾千條自己編的思維鏈數據。
![]()
這些數據不直接給答案,而是把解題思路一步步寫出來,比如算數學題會標注"這里需要用勾股定理,因為已知直角邊長度"。
這種"授人以漁"的訓練方式,難怪模型推理能力這么強。
后來對比GPT-4的混合數據模式才發現,專注思維過程的訓練,就像讓模型先學會"思考"再學"說話",基礎打得確實牢。
![]()
![]()
MMLU測試里跨語種準確率提升不少,這手操作確實秀。
技術突破歸突破,AI安全這根弦誰都不敢松。
![]()
DeepSeek這次把安全防護的家底也亮出來了10.6萬條風險提示數據,光標注就花了三個多月。
他們的雙軌風控系統挺有意思,第一層是關鍵詞過濾,2000多個風險詞庫實時掃描,響應快得跟眨眼睛似的。
![]()
但光靠關鍵詞肯定不夠,比如用戶問"怎么制造危險物品",換個說法就可能繞過去。
所以第二層上了個"模型審查官",用自家的DeepSeek-V3模型再審一遍,復雜案例攔截準確率能到九成以上。
不過知識產權這塊還有短板,HarmBench測試里得分比行業平均低了7分,看來給AI劃"版權紅線"比想象中難。
![]()
對比GPT-4藏著掖著的安全機制,DeepSeek這套"透明防御"思路確實大膽。
把安全數據集和攔截邏輯全公開,等于讓同行來挑毛病。
但換個角度想,開源模型本來就該把"防護網"亮出來,藏著掖著反而讓人更不放心。
![]()
講完技術和安全,這次補充材料里有個細節特別戳人團隊名單。
這是什么概念?2023年全球AI人才平均流失率快四分之一,MetaAI團隊更是走了三成。
![]()
RuiqiGe的回歸挺有代表性,這位前DeepMind研究員去年離職時,多少人以為是被硅谷挖角。
結果人家轉了圈又回來,采訪里說"這里能安安靜靜做五年以上的長線研究"。
看來DeepSeek的留人秘訣,不是靠硅谷式的高薪期權,而是讓研究員能"踩踏實做學問"。
![]()
對比OpenAI動不動就重組團隊,Meta因為管理層變動黃了好幾個長期項目,這種"技術定力"確實難得。
現在AI圈都在賭下一個突破點,有人拼參數規模,有人搶多模態賽道,DeepSeek用64頁補充材料證明,把一件事做到極致同樣能殺出重圍。
![]()
至于大家惦記的R2版本,按這個節奏,說不定真的不遠了。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.