一次代碼更新,意外泄露了AI巨頭的新野心。
1月21日,DeepSeek在其GitHub倉庫的一次常規(guī)更新中,意外泄露了下一代模型的關(guān)鍵線索。開發(fā)者在核心推理優(yōu)化庫FlashMLA的代碼里,發(fā)現(xiàn)了一個(gè)從未公開的模型架構(gòu)標(biāo)識——“MODEL1”。而這一時(shí)間點(diǎn),恰逢其標(biāo)志性模型R1發(fā)布一周年。
![]()
![]()
根據(jù)對代碼庫的詳細(xì)分析,“MODEL1”的標(biāo)識在總計(jì)114個(gè)文件中被提及了28至31次。更關(guān)鍵的是,它在代碼邏輯中被置于與當(dāng)前旗艦?zāi)P虳eepSeek-V3.2(代碼中標(biāo)識為V32)完全獨(dú)立的平行分支中,這表明它并非現(xiàn)有模型的簡單迭代,而是一個(gè)全新的架構(gòu)序列。FlashMLA是DeepSeek自主研發(fā)、專門針對英偉達(dá)Hopper及Blackwell架構(gòu)GPU進(jìn)行深度優(yōu)化的軟件工具,旨在加速大模型推理生成環(huán)節(jié)。MODEL1與V3.2一同被列為該庫支持的兩個(gè)主要模型架構(gòu),揭示了DeepSeek產(chǎn)品線的潛在擴(kuò)展。
技術(shù)細(xì)節(jié)的差異進(jìn)一步印證了MODEL1的獨(dú)立性。代碼顯示,MODEL1的head_dim(頭維度)參數(shù)被設(shè)定為512維,而DeepSeek V3系列模型曾采用576維的設(shè)計(jì)。在內(nèi)存布局上,一條已被刪除的代碼注釋曾指出,對于SM90架構(gòu)下的MODEL1,其KV緩存的內(nèi)存步長必須是576B的整數(shù)倍,這與V3.2的656B配置不同,暗示了底層內(nèi)存調(diào)度機(jī)制的改變。此外,代碼中出現(xiàn)了針對英偉達(dá)最新Blackwell B200(SM100架構(gòu))的專用內(nèi)核實(shí)現(xiàn),其中Head128配置僅支持MODEL1,而不支持V3.2,這被解讀為DeepSeek為適配新一代硬件專門優(yōu)化了新架構(gòu)。
社區(qū)對此展開了激烈討論。一種觀點(diǎn)認(rèn)為,MODEL1可能是一個(gè)追求極致效率的輕量級模型,更適合邊緣設(shè)備部署。另一種分析則指向它可能是一個(gè)“長序列專家”,專門為處理超長文檔或代碼項(xiàng)目而生。更深入的代碼解讀發(fā)現(xiàn),MODEL1支持動態(tài)稀疏推理和額外的緩存區(qū),這些設(shè)計(jì)可能旨在提升復(fù)雜任務(wù)(如智能體應(yīng)用)的調(diào)度能力。海外開發(fā)者推測,其背后可能是一套全新的推理機(jī)制和內(nèi)存配置。
截至目前,DeepSeek官方尚未對此發(fā)表任何評論。但這次“意外”發(fā)生的時(shí)間點(diǎn)極為微妙。此前已有消息稱,DeepSeek計(jì)劃在2026年2月,即中國農(nóng)歷春節(jié)前后發(fā)布下一代旗艦?zāi)P汀>驮诖舜未a泄露前約兩周,DeepSeek還悄然在arXiv上更新了R1的論文,將頁數(shù)從22頁大幅擴(kuò)充至86頁,近乎重寫,并加入了完整的訓(xùn)練管線拆解和大量技術(shù)附錄,這一不尋常的舉動已被部分觀察者視為新動作的前奏。
業(yè)界普遍將MODEL1與傳聞中的DeepSeek V4模型聯(lián)系起來。綜合預(yù)測,下一代模型的核心突破可能聚焦于代碼生成與推理架構(gòu)。據(jù)稱,V4可能采用名為“mHC”的新架構(gòu),旨在突破傳統(tǒng)性能天花板,并專門為企業(yè)級編程任務(wù)設(shè)計(jì),目標(biāo)是在代碼能力上超越當(dāng)前的頂尖閉源模型。同時(shí),它很可能延續(xù)DeepSeek的極致性價(jià)比策略,并深化與國產(chǎn)芯片的適配。
![]()
從公司背景來看,DeepSeek的研發(fā)一直得到其母公司幻方量化的強(qiáng)力支持。這家頂級量化基金在2025年實(shí)現(xiàn)了超過53%的回報(bào)率,利潤超7億美元。雄厚的資金實(shí)力,讓DeepSeek能在“零外部融資”的情況下保持高強(qiáng)度研發(fā),不必急于商業(yè)化。這種獨(dú)特的財(cái)務(wù)結(jié)構(gòu),為其技術(shù)路線的長期主義提供了堅(jiān)實(shí)基礎(chǔ)。就連微軟CEO薩蒂亞·納德拉也曾公開提及DeepSeek,稱其擁有“真正的創(chuàng)新”,這從側(cè)面印證了其技術(shù)影響力。
一次代碼泄露,如同投石入水,漣漪已擴(kuò)散至整個(gè)產(chǎn)業(yè)。全球最大的AI開源社區(qū)Hugging Face在近期文章中,將DeepSeek的開源策略稱為“DeepSeek時(shí)刻”,認(rèn)為它深刻改變了全球AI開源生態(tài)的格局。如今,隨著疑似下一代核心架構(gòu)的線索浮出水面,所有人都在等待:DeepSeek將如何再次定義前沿?
答案,或許就在不久后的春節(jié)揭曉。
來源:星河商業(yè)觀察
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.