<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      架構徹底重構!DeepSeek新模型代碼曝光,要來的V4讓國內外都坐不住了?

      0
      分享至


      整理 | 華衛

      DeepSeek V4 馬上要來了?

      正值 DeepSeek-R1 發布一周年之際,DeepSeek 的官方 GitHub 代碼庫意外曝光了代號為“MODEL1”的全新模型線索。

      而綜合泄露代碼片段中呈現的架構調整、硬件優化與全新處理機制來看,“MODEL1”似乎絕非簡單的版本迭代,而是一次全方位的架構重構。

      此次 DeepSeek 在 GitHub 代碼庫的提前部署,在時間線上與業內瘋傳的“其新模型再次在春節期間發布”的消息高度吻合。本月初,也有外媒爆料稱,DeepSeek 將在今年 2 月中旬農歷新年期間推出新一代旗艦 AI 模型 DeepSeek V4。

      1 新模型曝光,代碼揭露全新架構能力

      近日,DeepSeek 陸陸續續給其在 GitHub 上的 FlashMLA 代碼庫做了一系列更新。


      而剛剛,有開發者發現,114 個文件中有 28 處都提到了未知的“MODEL1”大模型標識符。而且,在代碼邏輯結構中,該標識符與現有模型“V32”(即 DeepSeek-V3.2)是并列且作為獨立分支出現的。也就是說,“MODEL1”很可能代表一個不同于現有架構和技術路徑的全新模型。


      網友們也紛紛猜測,這個“MODEL1”很可能就是 DeepSeek 即將發布的新模型 V4 的內部開發代號或首個工程版本。

      根據代碼片段中披露的技術規格,這個新模型有重大架構變更,或在 KV Cache(鍵值緩存)布局、稀疏性處理及 FP8 解碼支持等方面改變了策略和機制,還包括參數維度切換至 512 維以及針對英偉達下一代 Blackwell GPU 架構的專項優化。

      在 FP8 解碼路徑上,該模型有多處針對性的內存優化調整。測試腳本中同步新增了 test_flash_mla_sparse_decoding.py 與 test_flash_mla_dense_decoding.py 兩個文件,這一改動證實“MODEL1”具備稀疏與稠密計算并行處理的能力。在稀疏化實現方案中,鍵值緩存存儲采用 FP8 精度,而矩陣乘法運算則使用 bfloat16 精度,以此保障計算準確性。這種混合精度設計表明,“MODEL1”通過在推理階段對部分數據進行選擇性稀疏化處理,有效降低內存占用壓力,從而具備處理超長上下文窗口的能力。


      在 csrc/api/common.h 文件內的代碼顯示,“MODEL1”的注意力頭參數維度被配置為 512 維,與上一代產品 DeepSeek V3.2 采用的 576 維參數設置形成顯著差異。這一架構調整意味著,DeepSeek 已對其多頭隱式注意力(MLA)結構進行了重新設計。此前的 V3 系列采用非對稱設計方案,將 128 維旋轉位置編碼(RoPE)與 448 維隱層維度相結合。此次轉向標準化的 512 維參數配置,或許是為了更好地適配硬件性能,也可能是在隱層壓縮率方面實現了技術突破。


      代碼更新記錄還顯示,DeepSeek 研發團隊已圍繞英偉達 Blackwell 架構開展了大量優化工作,預示著 DeepSeek 正為“MODEL1”量身打造下一代硬件適配方案。代碼中新增了一批專門面向 Blackwell 指令集的接口,包括 FMHACutlassSM100FwdRun;相關文檔明確指出,該模型若要在 B200 GPU 上運行,需依賴 CUDA 12.9 版本環境;內嵌的性能指標數據顯示,即便在未完全優化的狀態下,稀疏化 MLA 算子在 B200 硬件平臺上的運算性能仍可達到 350 萬億次浮點運算每秒(TFLOPS)。在當前主流的 H800 GPU(基于 SM90a 架構)上,稠密型 MLA 算子的吞吐量則能達到 660 萬億次浮點運算每秒。

      盡管本次代碼提交的內容主要聚焦于算子層面的實現,但調度邏輯中仍提及多項新增功能。從代碼倉庫的結構可以推斷,“MODEL1”集成了價值向量位置感知(VVPA)技術,這項技術有望解決傳統 MLA 架構在長文本處理場景下存在的位置信息衰減問題。代碼注釋中還提到了一種名為 “記憶印記(Engram)機制” 的技術,但在已公開的代碼提交記錄中,相關實現細節尚不完整。從該機制在分布式處理模塊中的部署位置推測,其功能大概率與分布式存儲優化或高級鍵值壓縮技術相關,旨在滿足“MODEL1”對高吞吐量的性能需求。

      前不久,DeepSeek 研究團隊剛發布了 Engram 的技術論文。當時,就有業內觀察者認為,Engram 模塊可能會成為 DeepSeek V4 的重要組成部分,并預示 DeepSeek 下一代模型會在記憶和推理協同上實現架構級提升。

      這些優化能夠表明,“MODEL1”在推理效率上可能有更好的表現。此前也有爆料稱,DeepSeek V4 的代碼表現已超越 Claude 和 GPT 系列,并且具備處理復雜項目架構和大規模代碼庫的工程化能力。

      2 國內外萬眾期待,“中國 AI 站起來了”

      “DeepSeek 剛剛泄露了一個模型,這可能會再次改變整個 AI 行業的格局。”在國內外的各大社交平臺及社區,針對 DeepSeek 新模型的上線猜測、能力預測的期待帖子已大量涌現。

      “中國 AI 站起來了。”昨日,全球最大的 AI 開源社區 Hugging Face 以“距離 DeepSeek 時刻一周年”為題專門發文,復盤了 R1 發布這一年來對中國開源社區及其對整個 AI 生態系統的影響。

      “這是中國研發的開源模型首次躋身全球主流榜單。此后一年間,每當有新模型發布時,R1 都會被當作重要的參照基準。該模型迅速登頂 Hugging Face 平臺歷史最受歡迎模型榜單,而這一平臺上最受青睞的模型,也不再以美國研發的產品為主導。”

      在他們看來,R1 的真正價值在于降低先進 AI 能力的門檻或者說障礙,并提供了清晰的模式。

      • 技術障礙。通過公開分享其推理路徑和訓練后的方法,R1 將此前被封閉 API 鎖定的高級推理轉變為可下載、提煉和微調的工程資產。許多團隊不再需要從零開始訓練龐大的模型來獲得強大的推理能力。

      • 應用障礙。R1 以 MIT 許可證發布,使其使用、修改和再分發變得簡單。依賴封閉式模型的公司開始直接將 R1 投入生產。蒸餾、二次培訓和領域特定適應成為常規工程工作,而非專門項目。

      • 心理層面。當問題從“我們能做到嗎?”轉變為“我們如何做好?”時,許多公司的決策發生了變化。對于中國 AI 社區來說,這也是罕見的持續全球關注時刻,對長期被視為追隨者的生態系統意義重大。

      “在 R1 模型發布一年后的今天,我們看到的不僅是一大批新模型的涌現,更見證了一個富有生命力的中國 AI 開源生態的加速成型。”

      https://github.com/deepseek-ai/FlashMLA?tab=readme-ov-file

      https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

      https://chinabizinsider.com/deepseeks-mysterious-model-1-surfaces-in-github-code-sparking-speculation-about-next-generation-ai-system/

      聲明:本文為 InfoQ 翻譯整理,不代表平臺觀點,未經許可禁止轉載。

      會議推薦

      InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      整天開會有啥必要啊?

      整天開會有啥必要啊?

      北京老付
      2026-01-20 10:59:33
      32歲凱恩獲拜仁天價續約,背后是6500萬解約條款的恐慌

      32歲凱恩獲拜仁天價續約,背后是6500萬解約條款的恐慌

      浮萍足球
      2026-01-27 00:53:05
      內幕來了!中國雷達被正名,美媒:美軍向委內瑞拉投下電磁脈沖彈

      內幕來了!中國雷達被正名,美媒:美軍向委內瑞拉投下電磁脈沖彈

      安珈使者啊
      2026-01-26 16:20:59
      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      第7情感
      2025-09-17 12:12:15
      日本政壇大變局,新首相人選出爐,對華態度不簡單

      日本政壇大變局,新首相人選出爐,對華態度不簡單

      你笑的好甜美
      2026-01-27 11:35:32
      庫里26397分超名宿!沖歷史前十要多久?答案太意外

      庫里26397分超名宿!沖歷史前十要多久?答案太意外

      籃球看比賽
      2026-01-27 12:33:28
      500架巨額訂單!巴基斯坦出口“梟龍”賺的錢,中國會有分成嗎?

      500架巨額訂單!巴基斯坦出口“梟龍”賺的錢,中國會有分成嗎?

      軍武次位面
      2026-01-26 19:30:48
      為何近期中國沒有懟特朗普?原來是中國銘記了拿破侖的一句名言!

      為何近期中國沒有懟特朗普?原來是中國銘記了拿破侖的一句名言!

      我心縱橫天地間
      2026-01-27 12:58:53
      烏軍能否守住紅軍城?不能!

      烏軍能否守住紅軍城?不能!

      史政先鋒
      2025-11-17 16:09:20
      格陵蘭拒絕美國吞并!有國家跪求成為美國的州,為啥美國不要?

      格陵蘭拒絕美國吞并!有國家跪求成為美國的州,為啥美國不要?

      軍武次位面
      2026-01-26 19:28:37
      負債4091億的京東花169萬買條魚,劉強東以前吃了保守的虧?

      負債4091億的京東花169萬買條魚,劉強東以前吃了保守的虧?

      BT財經
      2026-01-27 07:00:03
      1951年,戴笠獨子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

      1951年,戴笠獨子被處決,蔣介石兩年后下令:他的子孫全接回臺灣

      古書記史
      2025-12-11 17:37:45
      翟欣欣鄰居曝猛料:她被帶走時哭瘋了,父母跟著落淚,稱跟她無關

      翟欣欣鄰居曝猛料:她被帶走時哭瘋了,父母跟著落淚,稱跟她無關

      談史論天地
      2026-01-26 18:40:03
      年薪近2000萬,在49歲時仍然是單身!這位董秘的硬核人生,太颯了

      年薪近2000萬,在49歲時仍然是單身!這位董秘的硬核人生,太颯了

      墨蘭史書
      2026-01-22 23:50:03
      策略:明天1月28日的預判出來了,全面減倉之前,我要說兩句!

      策略:明天1月28日的預判出來了,全面減倉之前,我要說兩句!

      一擔金
      2026-01-27 13:09:20
      172:199,日本選舉殺出黑馬,新首相浮現?對華態度成最大看點

      172:199,日本選舉殺出黑馬,新首相浮現?對華態度成最大看點

      面包夾知識
      2026-01-27 11:45:52
      閆學晶又迎噩耗,最擔心的事還是發生了,兒媳體制內工作恐難保

      閆學晶又迎噩耗,最擔心的事還是發生了,兒媳體制內工作恐難保

      離離言幾許
      2026-01-23 00:04:19
      簡直不敢相信,莫言竟將日本侵華戰爭比作“兄弟爭奪家產”

      簡直不敢相信,莫言竟將日本侵華戰爭比作“兄弟爭奪家產”

      雪中風車
      2026-01-18 17:08:39
      詹姆斯24+5創NBA歷史第1神跡!東契奇46+7+11+8記3分刷爆紀錄

      詹姆斯24+5創NBA歷史第1神跡!東契奇46+7+11+8記3分刷爆紀錄

      一將籃球
      2026-01-27 12:05:08
      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      他8次上春晚,作死被捕入獄,如今56歲無人問津,淪落到四處走穴

      小熊侃史
      2026-01-06 11:17:00
      2026-01-27 13:43:00
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      11987文章數 51717關注度
      往期回顧 全部

      科技要聞

      理想開始關店“過冬”,否認“百家”規模

      頭條要聞

      寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

      頭條要聞

      寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

      體育要聞

      帶著母親遺愿戰斗12年,交易添頭成了隊魂

      娛樂要聞

      張雨綺被曝代孕,春晚被拒,代言跑路

      財經要聞

      金價狂飆 “牛市神話”未完待續

      汽車要聞

      劍指小米YU7與特斯拉Model Y 問界M6要來了?

      態度原創

      旅游
      健康
      藝術
      游戲
      教育

      旅游要聞

      除了鳳翔東湖,蘇東坡還在陜西修了“奇怪”的路,你去過嗎

      耳石脫落為何讓人天旋地轉+惡心?

      藝術要聞

      日本東京國立博物館中的100幅宋畫

      格蕾絲越慫里昂越痛 《生化9》確認狂暴喪尸機制回歸

      教育要聞

      為什么背單詞刷題幾輪,高三英語成績還是70多?從3個方面破解

      無障礙瀏覽 進入關懷版