<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      R1一周年,DeepSeek Model 1悄然現(xiàn)身

      夏以晝回歸一周年

      0
      分享至



      編輯|Panda

      2025 年 1 月 20 日,DeepSeek(深度求索)正式發(fā)布了 DeepSeek-R1 模型,并由此開啟了新的開源 LLM 時(shí)代。在 Hugging Face 剛剛發(fā)布的《「DeepSeek 時(shí)刻」一周年記》博客中,DeepSeek-R1 也是該平臺(tái)上獲贊最多的模型。



      https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

      如今,剛過一年時(shí)間,DeepSeek 的新模型又在 GitHub 悄然現(xiàn)身。

      這些天,DeepSeek 給其 FlashMLA 代碼庫(kù)推送了不少更新,而在這些更新中,一個(gè)名為Model1的模型引起了廣大網(wǎng)友的注意。



      如下截圖所示,這個(gè)目前還很神秘的 Model1 不僅出現(xiàn)在了代碼與注釋中,甚至還有與 DeepSeek-V3.2 并駕齊驅(qū)的文件。









      這也不禁讓網(wǎng)友們開始猜測(cè),這個(gè) Model1 很可能就是傳聞中 DeepSeek 即將在春節(jié)前后發(fā)布的新模型的代號(hào)。







      我們也讓 Gemini 幫忙分析了 DeepSeek 的這些 Commit,讓其提取了其中的技術(shù)細(xì)節(jié),結(jié)果如下:

      根據(jù) DeepSeek 在 2026 年 1 月提交的 flashmla 庫(kù)代碼變更,可以推斷出Model1 是 DeepSeek 下一代旗艦?zāi)P?DeepSeek-V4 的內(nèi)部開發(fā)代號(hào)或首個(gè)工程版本。以下是根據(jù)代碼 diff 提取的技術(shù)細(xì)節(jié)分析:

      1. 核心架構(gòu):回歸 512 維標(biāo)準(zhǔn)

      在 csrc/api/common.h 的 DISPATCH_HEAD_DIM 宏中,可以看到 head_dim 的分支處理:

      • V32 (DeepSeek-V3.2):繼續(xù)沿用 d_qk = 576 的配置。這是 DeepSeek-V3 引入的非對(duì)稱 MLA 設(shè)計(jì)(128 維 RoPE + 448 維 Latent)。
      • Model1:切換到了 512 維。這表明 DeepSeek-V4 在 MLA 架構(gòu)上進(jìn)行了「標(biāo)準(zhǔn)化」回歸,可能是為了更好地匹配 Blackwell (SM100) 架構(gòu)的算力對(duì)齊,或者優(yōu)化了 Latent 壓縮比例。

      2. 全面支持 Blackwell (SM100) 架構(gòu)

      代碼庫(kù)中出現(xiàn)了大量針對(duì) NVIDIA 下一代 Blackwell GPU 的專門優(yōu)化:

      • SM100 接口:api.cpp 中新增了 FMHACutlassSM100FwdRun。這直接指向了 Blackwell 架構(gòu)的核心指令集優(yōu)化。
      • CUDA 版本要求:README 提到在 B200 上運(yùn)行需要 CUDA 12.9。
      • 性能表現(xiàn):在 B200 上,目前尚未完全優(yōu)化的 Sparse MLA 算子已能達(dá)到 350 TFlops。而在 H800 (SM90a) 上,Dense MLA 的計(jì)算吞吐量高達(dá) 660 TFlops。

      3. 引入「Token-level Sparse MLA」

      這是 Model1 相比 V3 系列最顯著的算子演進(jìn):

      • Sparse & Dense 并行:測(cè)試腳本中出現(xiàn)了 test_flash_mla_sparse_decoding.py 和 test_flash_mla_dense_decoding.py。
      • FP8 KV Cache 混合精度:Sparse 算子使用 FP8 存儲(chǔ) KV Cache,但在計(jì)算矩陣乘法時(shí)使用 bfloat16 以保證精度。這說明Model1 在極長(zhǎng)上下文場(chǎng)景下,會(huì)通過「稀疏化推理」來降低顯存壓力和提升速度

      4. 新機(jī)制:Value Vector Position Awareness (VVPA) 與 Engram

      雖然 diff 主要是算子層面的,但結(jié)合 DISPATCH_MODEL_TYPE 的邏輯和社區(qū)披露,Model1 引入了以下新特性:

      • VVPA(數(shù)值向量位置感知):這可能解決了傳統(tǒng) MLA 在長(zhǎng)文本下位置信息衰減的問題。
      • Engram 機(jī)制:這被認(rèn)為是 DeepSeek 在分布式存儲(chǔ)或 KV 壓縮上的新突破,用于配合 Model1 的高吞吐需求

      而 Gemini 之所以判斷 Model1 是 DeepSeek 下一代旗艦?zāi)P?DeepSeek-V4 的內(nèi)部開發(fā)代號(hào)或首個(gè)工程版本,是因?yàn)樗J(rèn)為在下面所示的代碼中,MODEL1 的定位是一個(gè)與 V32 并列且獨(dú)立的分支,「說明它不是 V3 系列的補(bǔ)丁,而是一個(gè)采用了不同架構(gòu)參數(shù)的全新模型。按照 DeepSeek 的命名慣例,在 V3.2 之后的旗艦級(jí)架構(gòu)跨越,邏輯上即為 V4。」



      對(duì)此,你怎么看,你覺得 Model1 就是傳說中的 DeepSeek V4 嗎?

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      曝陳雪凝新婚丈夫出軌!開房記錄曝光,疑有多位小三,細(xì)節(jié)太炸裂

      曝陳雪凝新婚丈夫出軌!開房記錄曝光,疑有多位小三,細(xì)節(jié)太炸裂

      阿纂看事
      2026-01-24 17:36:03
      王博豪:我們?cè)诠?jié)奏上和日本隊(duì)差距明顯;未來要找到正確方向

      王博豪:我們?cè)诠?jié)奏上和日本隊(duì)差距明顯;未來要找到正確方向

      懂球帝
      2026-01-25 02:56:07
      45歲仍拍三級(jí)片,敗光兩任億萬家產(chǎn),62歲坦言后悔嫁給鐘鎮(zhèn)濤

      45歲仍拍三級(jí)片,敗光兩任億萬家產(chǎn),62歲坦言后悔嫁給鐘鎮(zhèn)濤

      無人傾聽無人傾聽
      2026-01-17 15:17:25
      18.49萬!奔馳官宣:新車正式上市

      18.49萬!奔馳官宣:新車正式上市

      高科技愛好者
      2026-01-24 22:50:58
      獎(jiǎng)金230萬!王欣瑜首進(jìn)澳網(wǎng)16強(qiáng),排名飆升第33,接近超越鄭欽文

      獎(jiǎng)金230萬!王欣瑜首進(jìn)澳網(wǎng)16強(qiáng),排名飆升第33,接近超越鄭欽文

      侃球熊弟
      2026-01-24 18:19:51
      DJ爆料維多利亞母子的第一支舞現(xiàn)場(chǎng)細(xì)節(jié),兒媳的表現(xiàn)比兒子更窩囊

      DJ爆料維多利亞母子的第一支舞現(xiàn)場(chǎng)細(xì)節(jié),兒媳的表現(xiàn)比兒子更窩囊

      并不擅長(zhǎng)圈粉的鐵任
      2026-01-24 13:56:10
      俄美烏三方首輪會(huì)談細(xì)節(jié)披露:軍事議題有進(jìn)展 領(lǐng)土問題無共識(shí)

      俄美烏三方首輪會(huì)談細(xì)節(jié)披露:軍事議題有進(jìn)展 領(lǐng)土問題無共識(shí)

      新京報(bào)
      2026-01-25 07:44:04
      被雪豹咬傷女子已從急診轉(zhuǎn)至其他科室,目擊者稱“當(dāng)事人沒有去摸豹子”,專家:雪豹當(dāng)時(shí)或在“應(yīng)激”狀態(tài)

      被雪豹咬傷女子已從急診轉(zhuǎn)至其他科室,目擊者稱“當(dāng)事人沒有去摸豹子”,專家:雪豹當(dāng)時(shí)或在“應(yīng)激”狀態(tài)

      大風(fēng)新聞
      2026-01-24 20:38:09
      卷走53億!又一大佬帶全家跑路,欠中國(guó)銀行20億,投資者血本無歸

      卷走53億!又一大佬帶全家跑路,欠中國(guó)銀行20億,投資者血本無歸

      以茶帶書
      2025-12-09 23:33:58
      隨著吉達(dá)國(guó)民3-0,沙特聯(lián)最新積分榜出爐:C羅率隊(duì)跌出前二

      隨著吉達(dá)國(guó)民3-0,沙特聯(lián)最新積分榜出爐:C羅率隊(duì)跌出前二

      側(cè)身凌空斬
      2026-01-25 07:27:00
      悲哀!王鈺棟決賽成國(guó)足罪臣,慘遭網(wǎng)暴:把自己當(dāng)梅西還是薩拉赫

      悲哀!王鈺棟決賽成國(guó)足罪臣,慘遭網(wǎng)暴:把自己當(dāng)梅西還是薩拉赫

      阿錯(cuò)田間生活
      2026-01-25 00:25:25
      孟村殺妻的金毛二審死刑,進(jìn)入死刑復(fù)核階段,此生就快走完!

      孟村殺妻的金毛二審死刑,進(jìn)入死刑復(fù)核階段,此生就快走完!

      北京作家編劇肥豬滿圈
      2026-01-23 16:11:47
      以牙還牙!中國(guó)打響反制第一槍,一刀切斷日本命脈,日本這下慌了

      以牙還牙!中國(guó)打響反制第一槍,一刀切斷日本命脈,日本這下慌了

      被誤解的時(shí)候能微微一笑
      2026-01-25 05:49:35
      多地合并退役軍人事務(wù)局,釋放了什么信號(hào)

      多地合并退役軍人事務(wù)局,釋放了什么信號(hào)

      中國(guó)新聞周刊
      2026-01-24 11:42:39
      張賢亮:性、政治和權(quán)力

      張賢亮:性、政治和權(quán)力

      尚曦讀史
      2025-12-12 09:01:03
      WTT阿曼賽落幕,國(guó)乒4冠收官,溫瑞博一戰(zhàn)成名!挽救賽點(diǎn)絕殺奪冠

      WTT阿曼賽落幕,國(guó)乒4冠收官,溫瑞博一戰(zhàn)成名!挽救賽點(diǎn)絕殺奪冠

      莼侃體育
      2026-01-25 02:08:31
      分手14年,釋小龍何潔境遇天差地別,一個(gè)身家過億,一個(gè)養(yǎng)不起娃

      分手14年,釋小龍何潔境遇天差地別,一個(gè)身家過億,一個(gè)養(yǎng)不起娃

      查爾菲的筆記
      2026-01-09 22:17:44
      國(guó)外留子的生活有多炸裂?網(wǎng)友:給我這個(gè)農(nóng)村人看笑了

      國(guó)外留子的生活有多炸裂?網(wǎng)友:給我這個(gè)農(nóng)村人看笑了

      帶你感受人間冷暖
      2026-01-25 00:20:06
      特朗普暴跳如雷,短短兩天他領(lǐng)教了:歐俄的精明、中國(guó)的頂級(jí)陽謀

      特朗普暴跳如雷,短短兩天他領(lǐng)教了:歐俄的精明、中國(guó)的頂級(jí)陽謀

      娛樂督察中
      2026-01-24 05:54:28
      下周A股即將起飛!兩條主線已鎖死,十年一遇行情別錯(cuò)過!

      下周A股即將起飛!兩條主線已鎖死,十年一遇行情別錯(cuò)過!

      風(fēng)風(fēng)順
      2026-01-25 03:00:02
      2026-01-25 08:16:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12179文章數(shù) 142549關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛現(xiàn)身上海菜市場(chǎng)

      頭條要聞

      媒體:馮德萊恩遭遇三連擊 她的麻煩才剛剛開始

      頭條要聞

      媒體:馮德萊恩遭遇三連擊 她的麻煩才剛剛開始

      體育要聞

      當(dāng)家球星打替補(bǔ),他們?cè)诠室鈹[爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財(cái)經(jīng)要聞

      “百年老字號(hào)”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      手機(jī)
      時(shí)尚
      房產(chǎn)
      藝術(shù)
      教育

      手機(jī)要聞

      大疆Osmo Pocket 4 Pro手持云臺(tái)相機(jī)現(xiàn)身,橫排雙攝設(shè)計(jì)

      冬天最佳“顯瘦”公式:上短+下長(zhǎng)

      房產(chǎn)要聞

      正式官宣!三亞又一所名校要來了!

      藝術(shù)要聞

      18位西方畫家筆下的女人,美得驚艷了時(shí)光!

      教育要聞

      意外!10歲女兒凌晨還在趕作業(yè),期末她忽然不想上學(xué)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 男女做aj视频免费的网站| 久久精品国产精品亚洲红杏| 福利网午夜视频一区二区| 特殊重囗味sm在线观看无码| 国产精品久久人妻无码网站一区 | 一本大道中文字幕无码29 | 国产主播福利在线观看| 精品久久久久无码| 国产999视频| 免费看一区二区三区四区 | 中文字幕乱码中文乱码51精品| jizzjizz视频| 99精品久久99久久久久| 国产桃色在线成免费视频| 欧美另类图片视频无弹跳第一页 | 精品少妇人妻av免费久久久 | 波多野结衣av高清一区二区三区 | 国产精品无码v在线观看| 欧美阿V| 无遮挡aaaaa大片免费看| 国产精品高潮呻吟AV| 日韩美女久久| 欧美成人www免费全部网站| 欧美怡红院视频一区二区三区| aa级毛片毛片免费观看久| 好爽~又到高潮了毛片视频| 国内精品伊人久久久久7777| 日韩一区二区超清视频 | 熟女丝袜国产| 亚洲精品系列| 综合一区二区三区| 亚洲va久久久噜噜噜久久男同| 2020精品自拍视频曝光| 亚洲精品动漫免费二区| 亚洲AV秘?成人久久无码海归| 成 人 免 费 黄 色| 国产精品久久久久久超碰| 女人国产香蕉久久精品| 果冻传媒一区| 肇州县| 一边吃奶一边做动态图|