<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      代碼泄密!DeepSeek下一代“王炸”模型架構(gòu)曝光

      0
      分享至


      智東西
      作者 江宇
      編輯 冰倩

      智東西1月21日報道,DeepSeek-R1發(fā)布一周年之際,來自DeepSeek的神秘新模型“MODEL1”悄然現(xiàn)身GitHub代碼庫。

      多位社區(qū)開發(fā)者推測,MODEL1很可能正是DeepSeek內(nèi)測中的V3終極版本(V4模型),也有人猜測它可能代表一個完全獨(dú)立于V系列的新模型。


      ▲海外開發(fā)者在X平臺討論MODEL1身份

      近日,DeepSeek向其核心推理內(nèi)核FlashMLA推送了一系列更新,而在這些提交中,一個此前從未公開亮相的模型命名引發(fā)了社區(qū)的高度關(guān)注——MODEL1。


      ▲DeepSeek代碼庫出現(xiàn)MODEL1相關(guān)(圖源:X)

      這一名稱不僅出現(xiàn)在SM90架構(gòu)相關(guān)的.cu內(nèi)核實例化文件中,還貫穿在多個針對FP8稀疏解碼路徑的模板定義與內(nèi)存布局注釋里。

      更關(guān)鍵的是,據(jù)海外開發(fā)者推測,MODEL1的背后將是一整套新的推理機(jī)制、算子結(jié)構(gòu)與底層內(nèi)存配置,會與DeepSeek現(xiàn)有V3.2模型呈現(xiàn)出完全不同的技術(shù)路徑

      在相關(guān)代碼文件中可以看到,MODEL1被用于核心解碼函數(shù)的多個實例中,顯式適配了頭維度為64和128的場景,并專門部署在SM90和SM100架構(gòu)上。


      ▲DeepSeek FlashMLA源碼截圖(圖源:GItHub)

      代碼中多處調(diào)用了“ModelType::MODEL1”,與其對應(yīng)的還有一套獨(dú)立的持久化內(nèi)核。這些文件與V32版本的持久化內(nèi)核文件并行存在,這顯示出DeepSeek或許已為該模型設(shè)計了與V3系列完全不同的編譯路徑與執(zhí)行邏輯。


      ▲DeepSeek FlashMLA源碼文件樹(圖源:GItHub)

      更值得注意的是,在代碼中,有一條特別注釋寫道:對于F3架構(gòu)(即SM90平臺)下的MODEL1模型,其KV緩存的內(nèi)存stride必須是576B的整數(shù)倍。


      ▲海外網(wǎng)友推文截圖(目前該條注釋已于代碼庫內(nèi)刪除)

      這一配置區(qū)別于V3.2的656B,暗示著MODEL1對底層內(nèi)存對齊和調(diào)度有更為嚴(yán)格的要求,可能與其更復(fù)雜的運(yùn)行時行為與動態(tài)緩存機(jī)制有關(guān)。

      一位海外網(wǎng)友也對這部分代碼進(jìn)行了深入解讀,他認(rèn)為,MODEL1在整體結(jié)構(gòu)上展現(xiàn)出更強(qiáng)的實驗性特征,支持動態(tài)Top-K稀疏推理邏輯,還引入了額外的KV緩存區(qū)。


      ▲海外開發(fā)者的分析(圖源:X)

      前者通過引入一個可變的topk_length指針,允許模型在推理時根據(jù)token或請求動態(tài)決定參與計算的key數(shù)量,提升了計算資源的精細(xì)調(diào)度能力;后者則通過extra_kv緩沖區(qū),提供了將系統(tǒng)提示與用戶上下文分離存儲的可能,為Agent架構(gòu)或多段上下文場景提供支持

      據(jù)社區(qū)開發(fā)者分析,MODEL1在同步邏輯與邊界控制上可能比V3.2更加復(fù)雜。其中RoPE與NoPE維度在雙GEMM運(yùn)算中耦合更緊,可能意味著其在位置編碼與張量路徑調(diào)度上做出了顯著調(diào)整。

      分析還提到,MODEL1引入了運(yùn)行時邊界檢查機(jī)制,旨在規(guī)避動態(tài)Top-K推理中潛在的非法內(nèi)存訪問。

      此外,盡管官方注釋中標(biāo)明MODEL1的stride應(yīng)為576B,但據(jù)社區(qū)開發(fā)者基于代碼結(jié)構(gòu)估算,其實際內(nèi)存分配邏輯可能接近584B。這種細(xì)微差異被認(rèn)為反映出該分支仍處于調(diào)試或快速迭代階段。

      在更早的1月9日,外媒援引知情人士稱,DeepSeek將于2月中旬,也就是春節(jié)前后發(fā)布其下一代模型,主打編程能力,并在內(nèi)部測試中已經(jīng)在多個基準(zhǔn)上超越了Claude與GPT系列。

      結(jié)合目前模型文件結(jié)構(gòu)已覆蓋64和128兩個頭維度、FP8稀疏解碼路徑已完成適配、內(nèi)存規(guī)范已強(qiáng)制定義等跡象來看,MODEL1很可能已接近訓(xùn)練完成或推理部署階段,正等待最終的權(quán)重凍結(jié)和測試驗證。

      在海外社交平臺上,不少用戶對MODEL1的曝光反應(yīng)熱烈。一位用戶調(diào)侃道:“我已經(jīng)能聽見‘新模型將帶來99.97%成本下降’了。”


      而另一位開發(fā)者則認(rèn)為,如果DeepSeek再次開放權(quán)重,勢必將對閉源巨頭形成壓力,推動前沿模型進(jìn)一步走向開放。


      恰逢DeepSeek R1發(fā)布一周年,Hugging Face官方博客也發(fā)布了特別文章《One Year Since the “DeepSeek Moment”》,系統(tǒng)回顧了過去一年中國開源社區(qū)的集體爆發(fā),明確提及DeepSeek的開源策略已從一次事件演化為生態(tài)策略。


      ▲Hugging Face官方博客:One Year Since the “DeepSeek Moment”

      文章稱,R1模型的開源不僅降低了推理技術(shù)、生產(chǎn)部署與心理三個門檻,更推動了國內(nèi)公司在開源方向上形成非協(xié)同但高度一致的戰(zhàn)略走向。

      從百度、字節(jié)跳動到月之暗面、智譜AI,各大機(jī)構(gòu)在過去一年中陸續(xù)加入Hugging Face并發(fā)布高質(zhì)量模型,在社區(qū)下載、點(diǎn)贊與引用榜單上頻頻登頂。

      與此同時,越來越多西方開源模型的底座也開始使用DeepSeek系列做微調(diào),DeepSeek-V3更是成為Cogito v2.1等海外模型的底層基座。

      結(jié)語:一年之后,DeepSeek再次站在開源演進(jìn)的起點(diǎn)

      如今,距離R1發(fā)布僅一年,DeepSeek的“MODEL1”很有可能在系統(tǒng)架構(gòu)、執(zhí)行路徑與推理機(jī)制上展現(xiàn)出全面超越V3.2的能力。

      如果接下來如傳聞所述在春節(jié)前后正式發(fā)布,DeepSeek或許將再次改寫國內(nèi)開源格局,也可能為全球前沿開源模型樹立新的標(biāo)桿。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      偶遇李亞鵬吃早飯?zhí)拥貧猓蛣e人拼桌無架子,太操勞頭發(fā)都白了

      偶遇李亞鵬吃早飯?zhí)拥貧猓蛣e人拼桌無架子,太操勞頭發(fā)都白了

      娛樂圈圈圓
      2026-01-21 13:15:13
      立即停止法拍房:拯救中國房地產(chǎn)和億萬中產(chǎn)階層!

      立即停止法拍房:拯救中國房地產(chǎn)和億萬中產(chǎn)階層!

      微評社
      2026-01-19 00:13:19
      從免費(fèi)聽到付費(fèi),中國音樂非但沒進(jìn)步,反而把聽眾“作”沒了?

      從免費(fèi)聽到付費(fèi),中國音樂非但沒進(jìn)步,反而把聽眾“作”沒了?

      草莓解說體育
      2026-01-20 04:16:58
      美國逼我國償還百年前的債務(wù),如若不還,欠我國的8600億美元就賴賬

      美國逼我國償還百年前的債務(wù),如若不還,欠我國的8600億美元就賴賬

      富強(qiáng)巨靠譜
      2025-03-24 16:33:48
      冉瑩穎窮到晚上不敢開燈!兒子穿破洞鞋、節(jié)約餐費(fèi),滿墻名包諷刺

      冉瑩穎窮到晚上不敢開燈!兒子穿破洞鞋、節(jié)約餐費(fèi),滿墻名包諷刺

      探索新高度
      2026-01-21 12:12:44
      俄羅斯一地遭遇146年來最猛暴雪,公寓樓前堆成高雪坡,雪堆最高達(dá)到15米

      俄羅斯一地遭遇146年來最猛暴雪,公寓樓前堆成高雪坡,雪堆最高達(dá)到15米

      縱相新聞
      2026-01-21 08:45:06
      米蘭這一天:張家輝帥回20年前,被鐘漢良嚇一跳,賈玲咋長這樣了

      米蘭這一天:張家輝帥回20年前,被鐘漢良嚇一跳,賈玲咋長這樣了

      娛樂圈筆娛君
      2026-01-19 11:15:00
      于幼軍老省長最新動態(tài)

      于幼軍老省長最新動態(tài)

      社評
      2026-01-21 10:41:55
      這就是毛主席父親的真實容貌,都看看吧,這可不是演員扮演的!

      這就是毛主席父親的真實容貌,都看看吧,這可不是演員扮演的!

      萬物知識圈
      2026-01-05 09:10:33
      中途島海戰(zhàn)的幾十年謊言:日本航母被炸時,飛行甲板其實是空的

      中途島海戰(zhàn)的幾十年謊言:日本航母被炸時,飛行甲板其實是空的

      史之銘
      2026-01-18 17:31:05
      市公安局常務(wù)副局長提任副市長、市公安局局長

      市公安局常務(wù)副局長提任副市長、市公安局局長

      法律讀品
      2026-01-21 20:44:13
      風(fēng)暴中的西貝完成A輪融資,新榮記張勇、螞蟻集團(tuán)前CEO胡曉明加持

      風(fēng)暴中的西貝完成A輪融資,新榮記張勇、螞蟻集團(tuán)前CEO胡曉明加持

      財聯(lián)社
      2026-01-21 17:41:23
      馬克龍與川普激烈互懟,澤連斯基缺席達(dá)沃斯并拒絕參加和平委員會

      馬克龍與川普激烈互懟,澤連斯基缺席達(dá)沃斯并拒絕參加和平委員會

      史政先鋒
      2026-01-21 15:17:24
      新能源車報廢迎重大變革!車電必須一體報廢 電池不能單獨(dú)賣

      新能源車報廢迎重大變革!車電必須一體報廢 電池不能單獨(dú)賣

      快科技
      2026-01-19 23:15:05
      男子逼女尼陪寢!女尼:同房可以,但必須答應(yīng)我三個條件!

      男子逼女尼陪寢!女尼:同房可以,但必須答應(yīng)我三個條件!

      墨印齋
      2025-09-28 10:50:36
      司令正要吃飯,警衛(wèi)員跑來報告:軍區(qū)來大官了,您快點(diǎn)去迎接吧!

      司令正要吃飯,警衛(wèi)員跑來報告:軍區(qū)來大官了,您快點(diǎn)去迎接吧!

      浩渺青史
      2026-01-21 05:46:54
      MG在泰國大漲104%!

      MG在泰國大漲104%!

      后視鏡里de未來
      2026-01-21 17:22:05
      特朗普撈錢撈到中國頭上,中方大方承認(rèn)受邀,12個字打發(fā)美國

      特朗普撈錢撈到中國頭上,中方大方承認(rèn)受邀,12個字打發(fā)美國

      井普椿的獨(dú)白
      2026-01-21 16:28:01
      “后坐力”太大!閆學(xué)晶又被爆出猛料,她和兒子已經(jīng)一個也跑不了

      “后坐力”太大!閆學(xué)晶又被爆出猛料,她和兒子已經(jīng)一個也跑不了

      翰飛觀事
      2026-01-21 19:27:58
      “亂港分子”周庭,棄保潛逃加拿大,揚(yáng)言永不回國,如今怎么樣了

      “亂港分子”周庭,棄保潛逃加拿大,揚(yáng)言永不回國,如今怎么樣了

      甜檸聊史
      2025-12-27 10:54:15
      2026-01-21 22:40:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
      11101文章數(shù) 116943關(guān)注度
      往期回顧 全部

      科技要聞

      給機(jī)器人做仿真訓(xùn)練 這家創(chuàng)企年營收破億

      頭條要聞

      西安高校創(chuàng)始人兩女兒爭繼承權(quán) 判完才發(fā)現(xiàn)公證書造假

      頭條要聞

      西安高校創(chuàng)始人兩女兒爭繼承權(quán) 判完才發(fā)現(xiàn)公證書造假

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現(xiàn)身嫣然醫(yī)院捐款

      財經(jīng)要聞

      丹麥打響第一槍 歐洲用資本保衛(wèi)格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態(tài)度原創(chuàng)

      時尚
      藝術(shù)
      健康
      房產(chǎn)
      游戲

      照赫本這樣穿,灰色很時髦!

      藝術(shù)要聞

      一百多年前的中國,太雄偉震撼了!

      打工人年終總結(jié)!健康通關(guān)=贏麻了

      房產(chǎn)要聞

      那個砸下400億的綠地,又要?dú)⒒睾D狭耍?/h3>

      LCK春季賽:世界冠軍也不過如此,DNS斬殺DRX

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 夜夜躁日日躁狠狠久久AV| 无码内射中文字幕岛国片| 博客| 亚洲国产精品无码av| jizz网站| 亚洲精品一区二区三区小| AV人摸人人人澡人人超碰| 69精品丰满人妻无码视频a片| 天天色天天操综合网| 国产精品久久久久久影视| 美女综合网| 果冻传媒18禁免费视频| 男人天堂2025| 国产高清在线A免费视频观看| 国产精品丝袜高跟鞋| 汝州市| 日本妇人成熟免费| 久久久精品一区| 亚洲高清无码人妻| 男人天堂一区| 日本草逼视频免费观看| 99久久免费精品色老| 亚洲欧美综合中文| 麻豆乱码国产一区二区三区| 国产精品人一区二区三区| 一区二区三区无码视频免费福利| 欧美午夜福利| 久99视频| 亚洲午夜久久久影院伊人| 亚洲国产精品无码一区二区三区| 一区二区三区内射美女毛片| 丁香五月婷激情综合第九色 | 曰本女人与公拘交酡| AV色综合| 亚洲国产精品无码久久久 | 国产精品毛片在线完整版| 克什克腾旗| 动漫精品专区一区二区三区| 国产肥白大熟妇BBBB视频| 亚洲18禁私人影院| 欧美人妖ⅩXXX极品另类|