網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek-R2要來了？

2026-01-21 09:57:59　來源: 新智元

北京舉報

分享至

新智元報道

編輯：Aeneas KingHZ

【新智元導(dǎo)讀】DeepSeek-R1發(fā)布一周年之際，核心算法庫驚現(xiàn)MODEL1，是V4還是R2?

2025年1月20日，DeepSeek-R1正式發(fā)布。從此，國產(chǎn)大模型第一次走到了全球舞臺的核心位置，開啟了開源時代。

而就在今天深夜，開發(fā)者社區(qū)沸騰了：DeepSeek的一個存儲庫進(jìn)行更新，引用了一個全新的「model 1」模型。

DeepSeek-R1一年了，但DeepSeek-R2還沒來。

而這個被爆出的MODEL1，極有可能就是R2！

在DeepSeek的開源項目FlashMLA庫代碼片段明確引用了「MODEL1」，并且伴隨針對KV緩存的新優(yōu)化，和576B步幅的稀疏FP8解碼支持。

FlashMLA是DeepSeek的優(yōu)化注意力內(nèi)核庫，為DeepSeek-V3和DeepSeek-V3.2-Exp模型提供支持。

項目里，大約有28處提到model 1。

這可以被解讀為新模型即將發(fā)布的明確信號。

巧的是，這個爆料正好趕在DeepSeek-R1發(fā)布一周年（2025年1月20日）。

R1作為開源推理模型，曾匹敵OpenAI o1并登頂iOS App Store，此后徹底改變了開源AI社區(qū)。

MODEL1即便不是R2，也意義非凡，畢竟FlashMLA是DeepSeek優(yōu)化的注意力核心算法庫。

FlashMLA是DeepSeek為Hopper架構(gòu)GPU（如H800）優(yōu)化的MLA（Multi-head Latent Attention）解碼內(nèi)核。

在推理層代碼中提及新模型ID，往往意味著該新模型（代號為Model1）將繼續(xù)復(fù)用或改進(jìn)現(xiàn)有的MLA架構(gòu)。

這表明 DeepSeek 團(tuán)隊正緊鑼密鼓地推進(jìn)新模型的推理適配工作，F(xiàn)lashMLA 作為其核心推理優(yōu)化的地位依然穩(wěn)固。

過去，DeepSeek的確遇到了一些麻煩。

本月15日，國外媒體報道，去年在研發(fā)其新一代旗艦?zāi)Ｐ蜁r，DeepSeek在算力上碰到了一點麻煩。但DeepSeek及時調(diào)整了策略，取得了進(jìn)展，并正準(zhǔn)備在「未來幾周內(nèi)」推出這款新模型。

HuggingFace：

DeepSeek如何改變開源AI

HuggingFace在DeepSeek R1發(fā)布一周年之際，發(fā)文解釋了DeepSeek如何改變了開源AI。

R1并不是當(dāng)時最強(qiáng)的模型，真正意義而在于它如何降低了三重壁壘。

首先是技術(shù)壁壘。

通過公開分享其推理路徑和后訓(xùn)練方法，R1將曾經(jīng)封閉在API背后的高級推理能力，轉(zhuǎn)變?yōu)榭上螺d、可蒸餾、可微調(diào)的工程資產(chǎn)。

許多團(tuán)隊不再需要從頭訓(xùn)練大模型就能獲得強(qiáng)大的推理能力。推理開始表現(xiàn)得像一個可復(fù)用的模塊，在不同的系統(tǒng)中反復(fù)應(yīng)用。這也推動行業(yè)重新思考模型能力與計算成本之間的關(guān)系，這種轉(zhuǎn)變在中國這樣算力受限的環(huán)境中尤為有意義。

其次是采用壁壘。

R1以MIT許可證發(fā)布，使其使用、修改和再分發(fā)變得簡單直接。原本依賴閉源模型的公司開始直接將R1投入生產(chǎn)。蒸餾、二次訓(xùn)練和領(lǐng)域適應(yīng)變成了常規(guī)的工程工作，而非特殊項目。

隨著分發(fā)限制的解除，模型迅速擴(kuò)散到云平臺和工具鏈中，社區(qū)討論的重點也從「哪個模型分?jǐn)?shù)更高」轉(zhuǎn)向了「如何部署它、降低成本并將其集成到實際系統(tǒng)中」。

久而久之，R1超越了研究產(chǎn)物的范疇，成為了可復(fù)用的工程基礎(chǔ)。

第三個變化是心理層面的。

當(dāng)問題從「我們能做這個嗎？」轉(zhuǎn)變?yōu)椤肝覀內(nèi)绾巫龊眠@個？」時，許多公司的決策都發(fā)生了變化。

對中國AI社區(qū)而言，這也是一個難得的、獲得全球持續(xù)關(guān)注的時刻，對于一個長期被視為跟隨者的生態(tài)系統(tǒng)來說，這一點至關(guān)重要。

這三個壁壘的降低共同意味著，生態(tài)系統(tǒng)開始獲得了自我復(fù)制的能力。

DeepSeek-R1一周年

今天，讓我們回到原點，回顧DeepSeek-R1誕生的一年。

在R1之前，大模型的進(jìn)化方向幾乎只有一個，更大的參數(shù)規(guī)模、更多的數(shù)據(jù)……

但是，模型真的在思考嗎？

這個問題，就是DeepSeek-R1的起點。

它不是讓讓模型回答得更快，而是刻意讓它慢下來，慢在推理鏈條的展開，慢在中間狀態(tài)的顯式表達(dá)。

從技術(shù)上看，DeepSeek-R1的關(guān)鍵突破，并不在某一個單點技巧，而在一整套系統(tǒng)性設(shè)計。

推理優(yōu)先的訓(xùn)練目標(biāo)

在傳統(tǒng)SFT/RLHF體系中，最終答案的「正確性」是唯一目標(biāo)。R1 則引入了更細(xì)粒度的信號。這也是第一次，模型

高密度推理數(shù)據(jù)，而非高密度知識

R1的訓(xùn)練數(shù)據(jù)，不追求百科全書式的覆蓋，而是高度聚焦在數(shù)學(xué)與邏輯推導(dǎo)、可驗證的復(fù)雜任務(wù)。

總之，答案不重要，過程才重要。因此，R1才在數(shù)學(xué)、代碼、復(fù)雜推理上，呈現(xiàn)出「跨尺度躍遷」。

推理過程的「內(nèi)化」，而不是復(fù)讀模板

一個常見誤解是：R1只是「更會寫CoT」。

但真正的變化在于：模型并不是在復(fù)讀訓(xùn)練中見過的推理模板，而是在內(nèi)部形成了穩(wěn)定的推理狀態(tài)轉(zhuǎn)移結(jié)構(gòu)。

從此，推理不再是外掛，而是內(nèi)生能力。

一年之后：R1改變了什么？

首先，它改變了對「對齊」的理解。

R1之后，我們開始意識到，對齊不僅是價值對齊，也是認(rèn)知過程的對齊。

第二，它改變了我們對開源模型的想象空間。

R1證明：在推理維度，開源模型不是追隨者，而可以成為范式定義者。這極大激活了社區(qū)對「Reasoning LLM」的探索熱情。

第三，它改變了工程師與模型的協(xié)作方式。

當(dāng)模型開始「展示思路」，人類就不再是提問者，而是合作者。

回到今天：R1仍然是一條未走完的路。

一周年，并不是終點。

我們?nèi)匀磺宄刂溃和评砟芰€有明顯上限，長鏈路思考仍然昂貴

但正如一年前做出 R1 的那個選擇一樣——真正重要的，不是已經(jīng)解決了什么，而是方向是否正確。

DeepSeek-R1的故事，還在繼續(xù)。

而這一年，只是序章。

參考資料：

https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment%20

https://x.com/testingcatalog/status/2013588515271962678%20

https://x.com/nopainkiller/status/2013522059662614653

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.