DeepSeek新王牌浮出水面？

2026-01-21 17:06:38　來源: ZAKER新聞

廣東舉報(bào)

分享至

一次代碼更新，意外泄露了AI巨頭的新野心。

1月21日，DeepSeek在其GitHub倉庫的一次常規(guī)更新中，意外泄露了下一代模型的關(guān)鍵線索。開發(fā)者在核心推理優(yōu)化庫FlashMLA的代碼里，發(fā)現(xiàn)了一個(gè)從未公開的模型架構(gòu)標(biāo)識——“MODEL1”。而這一時(shí)間點(diǎn)，恰逢其標(biāo)志性模型R1發(fā)布一周年。

根據(jù)對代碼庫的詳細(xì)分析，“MODEL1”的標(biāo)識在總計(jì)114個(gè)文件中被提及了28至31次。更關(guān)鍵的是，它在代碼邏輯中被置于與當(dāng)前旗艦?zāi)Ｐ虳eepSeek-V3.2（代碼中標(biāo)識為V32）完全獨(dú)立的平行分支中，這表明它并非現(xiàn)有模型的簡單迭代，而是一個(gè)全新的架構(gòu)序列。FlashMLA是DeepSeek自主研發(fā)、專門針對英偉達(dá)Hopper及Blackwell架構(gòu)GPU進(jìn)行深度優(yōu)化的軟件工具，旨在加速大模型推理生成環(huán)節(jié)。MODEL1與V3.2一同被列為該庫支持的兩個(gè)主要模型架構(gòu)，揭示了DeepSeek產(chǎn)品線的潛在擴(kuò)展。

技術(shù)細(xì)節(jié)的差異進(jìn)一步印證了MODEL1的獨(dú)立性。代碼顯示，MODEL1的head_dim（頭維度）參數(shù)被設(shè)定為512維，而DeepSeek V3系列模型曾采用576維的設(shè)計(jì)。在內(nèi)存布局上，一條已被刪除的代碼注釋曾指出，對于SM90架構(gòu)下的MODEL1，其KV緩存的內(nèi)存步長必須是576B的整數(shù)倍，這與V3.2的656B配置不同，暗示了底層內(nèi)存調(diào)度機(jī)制的改變。此外，代碼中出現(xiàn)了針對英偉達(dá)最新Blackwell B200（SM100架構(gòu)）的專用內(nèi)核實(shí)現(xiàn)，其中Head128配置僅支持MODEL1，而不支持V3.2，這被解讀為DeepSeek為適配新一代硬件專門優(yōu)化了新架構(gòu)。

社區(qū)對此展開了激烈討論。一種觀點(diǎn)認(rèn)為，MODEL1可能是一個(gè)追求極致效率的輕量級模型，更適合邊緣設(shè)備部署。另一種分析則指向它可能是一個(gè)“長序列專家”，專門為處理超長文檔或代碼項(xiàng)目而生。更深入的代碼解讀發(fā)現(xiàn)，MODEL1支持動態(tài)稀疏推理和額外的緩存區(qū)，這些設(shè)計(jì)可能旨在提升復(fù)雜任務(wù)（如智能體應(yīng)用）的調(diào)度能力。海外開發(fā)者推測，其背后可能是一套全新的推理機(jī)制和內(nèi)存配置。

截至目前，DeepSeek官方尚未對此發(fā)表任何評論。但這次“意外”發(fā)生的時(shí)間點(diǎn)極為微妙。此前已有消息稱，DeepSeek計(jì)劃在2026年2月，即中國農(nóng)歷春節(jié)前后發(fā)布下一代旗艦?zāi)Ｐ汀＞驮诖舜未a泄露前約兩周，DeepSeek還悄然在arXiv上更新了R1的論文，將頁數(shù)從22頁大幅擴(kuò)充至86頁，近乎重寫，并加入了完整的訓(xùn)練管線拆解和大量技術(shù)附錄，這一不尋常的舉動已被部分觀察者視為新動作的前奏。

業(yè)界普遍將MODEL1與傳聞中的DeepSeek V4模型聯(lián)系起來。綜合預(yù)測，下一代模型的核心突破可能聚焦于代碼生成與推理架構(gòu)。據(jù)稱，V4可能采用名為“mHC”的新架構(gòu)，旨在突破傳統(tǒng)性能天花板，并專門為企業(yè)級編程任務(wù)設(shè)計(jì)，目標(biāo)是在代碼能力上超越當(dāng)前的頂尖閉源模型。同時(shí)，它很可能延續(xù)DeepSeek的極致性價(jià)比策略，并深化與國產(chǎn)芯片的適配。

從公司背景來看，DeepSeek的研發(fā)一直得到其母公司幻方量化的強(qiáng)力支持。這家頂級量化基金在2025年實(shí)現(xiàn)了超過53%的回報(bào)率，利潤超7億美元。雄厚的資金實(shí)力，讓DeepSeek能在“零外部融資”的情況下保持高強(qiáng)度研發(fā)，不必急于商業(yè)化。這種獨(dú)特的財(cái)務(wù)結(jié)構(gòu)，為其技術(shù)路線的長期主義提供了堅(jiān)實(shí)基礎(chǔ)。就連微軟CEO薩蒂亞·納德拉也曾公開提及DeepSeek，稱其擁有“真正的創(chuàng)新”，這從側(cè)面印證了其技術(shù)影響力。

一次代碼泄露，如同投石入水，漣漪已擴(kuò)散至整個(gè)產(chǎn)業(yè)。全球最大的AI開源社區(qū)Hugging Face在近期文章中，將DeepSeek的開源策略稱為“DeepSeek時(shí)刻”，認(rèn)為它深刻改變了全球AI開源生態(tài)的格局。如今，隨著疑似下一代核心架構(gòu)的線索浮出水面，所有人都在等待：DeepSeek將如何再次定義前沿？

答案，或許就在不久后的春節(jié)揭曉。

來源：星河商業(yè)觀察

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.