<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek最新論文:直指Transformer要害,讓AI學會翻“字典”了

      0
      分享至

      今日凌晨,DeepSeek 在 GitHub 上發布了一項代號為“Engram”的最新研究成果,并同步上傳了題為Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models(基于可擴展查找的條件記憶:大語言模型稀疏性的新維度)的學術論文。


      (來源:GitHub)

      這篇由梁文鋒、DeepSeek 研究團隊與北京大學聯合署名的論文,一經發表就引發了廣泛討論。

      此次研究帶來了一項突破:在業界廣泛采用的“混合專家模型”(MoE)之外,DeepSeek 開辟了第二條提升模型效率的路徑——“條件記憶”(Conditional Memory)。如果說 MoE 解決了“如何高效計算”的問題,那么新提出的 Engram 架構則試圖解決“如何高效存儲與提取知識”的難題。

      在此前的 DeepSeek-V2 和 V3 取得巨大成功后,基于 Transformer 的 MoE 架構已成為最具代表性、應用最廣泛的稀疏化方案之一。MoE 通過“條件計算”(Conditional Computation)機制,即在處理每個詞元(Token)時僅激活模型參數的一小部分,成功打破了模型規模與推理成本之間的線性約束。

      然而,DeepSeek 研究團隊指出,盡管 MoE 極大地優化了計算效率,在當前以注意力與前饋網絡為核心的 Transformer 范式下,模型并不具備顯式、可尋址的知識查找機制。

      在現有的架構中,模型記憶知識的方式是隱式的。當模型需要回答“法國的首都是哪里”時,它無法像人類查閱字典那樣直接檢索出“巴黎”這個詞,而是需要通過多層注意力機制(Attention)和前饋神經網絡(FFN)進行復雜的矩陣運算,實際上是在通過計算來模擬檢索過程。

      這種機制造成了巨大的資源浪費:模型不得不動用寶貴的推理算力去“死記硬背”大量固定的事實性知識(如人名、地名、固定搭配等),這不僅效率低下,還擠占了模型處理復雜邏輯推理的“腦容量”。


      (來源:Nano Banana Pro)

      針對這一點,DeepSeek 提出了“條件記憶”的概念,并設計了實體模塊 Engram 來加以實現。Engram 的設計靈感源自自然語言處理(NLP)領域經典的 N-gram(N 元語法)模型,但在深度學習語境下進行了現代化改造。傳統的 N-gram 依靠統計詞匯共現頻率來預測下一個詞,而 Engram 則將其轉化為一種可學習的、基于哈希(Hash)的向量檢索系統。


      圖 | Engram 模塊的整體架構示意(來源:論文)

      具體而言,Engram 模塊被嵌入到 Transformer 的主干網絡中,與 MoE 層并行或交替工作。當模型處理輸入文本時,Engram 不依賴深層神經網絡計算,而是通過兩步輕量化的檢索與融合操作完成信息注入:

      首先是“檢索”,它將當前的局部上下文(例如最近出現的幾個詞)進行壓縮并通過多頭哈希映射,在算法層面實現近似 O(1) 的常數時間查表,并通過預取機制在系統層面將實際延遲控制在極低水平;其次是“融合”,通過一個上下文感知的門控機制(Gating Mechanism),將檢索到的靜態記憶向量與模型計算出的動態隱藏狀態進行加權融合。

      我們可以將傳統的 Transformer 模型想象一個不僅需要理解題意,還需要現場推導所有數學公式和歷史數據的考生;而搭載了 Engram 的模型,則相當于被允許帶入考場一本百科全書。遇到固定的知識點,Engram 直接查表獲得答案,而將寶貴的“大腦”算力集中用于處理從未見過的復雜邏輯題。這種“計算”與“記憶”的解耦,正是 DeepSeek 新架構的核心邏輯。

      這項研究并不僅停留在理論層面,DeepSeek 在論文中披露了名為“稀疏性分配”(Sparsity Allocation)的關鍵發現,揭示了模型性能背后的數學規律。研究人員在嚴格控制總參數量和計算量(FLOPs)不變的前提下,系統性地調整了分配給 MoE 專家與 Engram 記憶表的參數比例。

      實驗結果呈現出一條清晰的“U 型曲線”:最佳的模型性能既不出現在純粹的 MoE 架構中,也不出現在過度依賴記憶的架構中,而是當大約 20% 至 25% 的稀疏參數預算分配給 Engram,而剩余部分留給 MoE 時(即ρ≈75% -80% 時),模型性能達到最佳。


      圖 | 稀疏性分配與記憶痕跡擴展 (來源:論文)

      基于這一發現,DeepSeek 訓練了一個擁有 270 億參數的 Engram-27B 模型,并在同等參數規模和計算消耗下,與標準的 MoE-27B 模型進行了全方位的對比測試。結果顯示,引入條件記憶機制后,模型在多個關鍵維度上實現了性能的顯著躍升。

      在知識密集型任務中,Engram 的優勢符合預期。例如在衡量綜合知識水平的 MMLU(大規模多任務語言理解)基準測試中,Engram-27B 的得分比基準模型高出 3.4 分;在中文綜合基準 CMMLU 上,提升幅度更是達到了 4.0 分。這直接證明了外掛式的高效記憶模塊能顯著擴充模型的知識庫。

      不過,更令人意外的是 Engram 在通用推理能力上的表現。在衡量復雜推理能力的 BBH(Big-Bench Hard)基準上,Engram 模型取得了 5.0 分的巨大提升;在 ARC-Challenge 科學推理任務中提升了 3.7 分。甚至在傳統認為高度依賴邏輯推演的代碼生成(HumanEval +3.0)和數學解題(MATH +2.4)任務中,Engram 同樣表現出了顯著優勢。


      (來源:論文)

      為何一個看似負責“死記硬背”的記憶模塊,能提升模型的邏輯推理能力?DeepSeek 團隊利用 LogitLens 和 CKA(中心核對齊)等可解釋性工具進行了深入的機理分析,得出了一個極具洞察力的結論:Engram 有效增加了模型的“有效深度”(Effective Depth)。

      分析顯示,在沒有 Engram 的傳統模型中,底層的許多神經網絡層實際上在忙于構建基礎的詞法組合和短語模式,這是一種低級的“特征重構”工作。而在引入 Engram 后,這些局部的、固定的語言模式(如“紐約”后緊接“時代廣場”,“人工智能”是一個專有名詞),這些都直接通過查表解決。

      這使得模型的主干網絡從繁瑣的淺層任務中解脫出來,能夠將更多的層數和注意力資源投入到更高層級的語義理解和邏輯推演中。換言之,Engram 通過承擔記憶職能,在不增加層數的前提下,提高了模型用于復雜推理的“有效深度”。


      (來源:論文)

      此外,Engram 架構還在長文本處理(Long Context)領域展現出了意想不到的結構性優勢。在處理長篇文檔時,注意力機制往往面臨巨大的計算壓力。DeepSeek 的研究表明,文本中大量的依賴關系其實是局部的(Local),可以通過 N-gram 查找來解決。Engram 負責處理這些局部依賴,從而釋放了 Transformer 全局注意力機制的容量,使其能更專注于捕捉跨度極大的長程關聯。

      在極具挑戰性的“大海撈針”(Needle In A Haystack)測試中,Engram-27B 在該測試中的表現顯著優于基準模型。。在多查詢(Multi-Query)設置下,其準確率從基準 MoE 模型的 84.2% 飆升至 97.0%;在變量跟蹤(Variable Tracking)任務中,準確率從 77.0% 提升至 89.0%。這意味著,搭載 Engram 的模型在處理法律合同分析、長篇小說理解或大型代碼庫維護等需要極高精度的長文本任務時,將具備更強的魯棒性。


      (來源:論文)

      除了模型性能層面的突破,DeepSeek 延續了其一貫的“高效基礎設施”理念,在 Engram 的工程實現上做到了極致。在當前的硬件環境下,顯存(HBM)往往是制約大模型規模的瓶頸。然而,Engram 展現出了基礎設施感知(Infrastructure-aware)的特性。

      與 MoE 依賴運行時動態路由不同,Engram 的檢索是基于輸入文本的確定性哈希。這意味著,系統在正式計算某一層之前,就已經確切知道需要用到哪些記憶向量。這種確定性使得“預取”(Prefetching)策略成為可能。

      DeepSeek 在實驗中成功演示了將一個高達 1,000 億參數的 Engram 嵌入表完全存儲在廉價的主機內存(CPU DRAM)中,而非昂貴的 GPU 顯存里。在模型計算前序層級時,系統通過 PCIe 通道異步地將所需的記憶數據搬運至 GPU。

      實驗數據顯示,即使在 1,000 億參數的超大規模下,這種跨硬件的存儲與計算解耦方案帶來的額外推理延遲也不到 3%。這一工程結果表明,在特定的系統設計與實驗條件下,模型參數規模不再嚴格受限于 GPU 顯存容量。理論上,這一設計為未來 DeepSeek 掛載 TB 級別的超大規模記憶庫提供了可行路徑,而無需成倍增加昂貴的算力集群成本。

      綜合此次發布的 Engram 論文,以及今年元旦期間 DeepSeek 發布的關于“流形約束超連接”(Manifold-Constrained Hyper-Connections, mHC)的研究,DeepSeek-V4 的架構開始逐漸具象化。

      如果說 MoE 架構(條件計算)是 DeepSeek-V2/V3 的基石,那么 V4 有望在架構層面呈現出更高程度的整合性:它將融合 mHC 以優化專家間的通信效率,同時引入 Engram 作為獨立的“海馬體”模塊。這種架構不再是簡單的參數堆疊,而是向著人類大腦“計算與記憶分離、協同工作”的生物學原理邁進。MoE 負責動態的邏輯處理,Engram 負責靜態的知識檢索,兩者互為補充,共同構成了一個更高效、更博學且更擅長推理的智能系統。



      Github 論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      金正恩視察溫泉療養設施,并在女賓浴場與女性們交談

      金正恩視察溫泉療養設施,并在女賓浴場與女性們交談

      隨波蕩漾的漂流瓶
      2026-01-22 18:30:40
      1-0爆冷?亞洲球迷挺中國隊:34%奪冠!日本球迷:我們先丟球難了

      1-0爆冷?亞洲球迷挺中國隊:34%奪冠!日本球迷:我們先丟球難了

      侃球熊弟
      2026-01-23 00:10:03
      央行:為保持銀行體系流動性充裕,2026年1月23日,中國人民銀行將以固定數量、利率招標、多重價位中標方式開展9000億元MLF操作,期限為1年期

      央行:為保持銀行體系流動性充裕,2026年1月23日,中國人民銀行將以固定數量、利率招標、多重價位中標方式開展9000億元MLF操作,期限為1年期

      每日經濟新聞
      2026-01-22 17:26:07
      人民日報,救西貝一命!

      人民日報,救西貝一命!

      鈞言堂
      2026-01-22 09:38:41
      特朗普為何急轉彎?承諾不對格陵蘭動武,撤回對歐洲八國關稅威脅

      特朗普為何急轉彎?承諾不對格陵蘭動武,撤回對歐洲八國關稅威脅

      40度觀察
      2026-01-22 17:51:42
      美記:綠軍快船彼此滿意對方的籌碼,但現在問題卡在了首輪數量上

      美記:綠軍快船彼此滿意對方的籌碼,但現在問題卡在了首輪數量上

      移動擋拆
      2026-01-23 00:56:31
      丹麥稱已開始與美國合作,正參與格陵蘭島框架協議談判

      丹麥稱已開始與美國合作,正參與格陵蘭島框架協議談判

      界面新聞
      2026-01-23 07:06:18
      終于圓夢!趙心童轟出生涯首桿147,中國球手2天打出3桿滿分桿

      終于圓夢!趙心童轟出生涯首桿147,中國球手2天打出3桿滿分桿

      全景體育V
      2026-01-23 06:24:56
      向華強曝李亞鵬曾在香港辦派對為嫣然天使基金籌款:自己捐了幾百萬,王菲、劉嘉玲等眾星捧場

      向華強曝李亞鵬曾在香港辦派對為嫣然天使基金籌款:自己捐了幾百萬,王菲、劉嘉玲等眾星捧場

      揚子晚報
      2026-01-22 21:34:18
      從千年名茶到化學試劑:我們的茶葉怎么了?

      從千年名茶到化學試劑:我們的茶葉怎么了?

      富貴說
      2026-01-21 11:19:58
      事做太絕了!徐帆回應離婚5個月近況曝光,體面被馮小剛徹底撕碎

      事做太絕了!徐帆回應離婚5個月近況曝光,體面被馮小剛徹底撕碎

      李橑在北漂
      2026-01-21 22:26:50
      央視四個字力挺,吳京《鏢人》仍被抵制,網友給出的理由出奇一致

      央視四個字力挺,吳京《鏢人》仍被抵制,網友給出的理由出奇一致

      阿纂看事
      2026-01-21 19:10:57
      沖上熱搜!U23國足主帥禁止球員點外賣

      沖上熱搜!U23國足主帥禁止球員點外賣

      環球網資訊
      2026-01-22 12:39:58
      特朗普的達沃斯“暴論”看似瘋魔,實則藏著清晰的戰略意圖,千萬不可小視!

      特朗普的達沃斯“暴論”看似瘋魔,實則藏著清晰的戰略意圖,千萬不可小視!

      識局Insight
      2026-01-22 19:57:22
      四大名著,終于有人敢說,這本,該踢出四大名著了

      四大名著,終于有人敢說,這本,該踢出四大名著了

      長風文史
      2026-01-22 15:17:46
      面對200%關稅,馬克龍反擊,特朗普稱“馬上下臺”,紐森諷刺歐洲

      面對200%關稅,馬克龍反擊,特朗普稱“馬上下臺”,紐森諷刺歐洲

      策略述
      2026-01-22 12:42:21
      原湖南湘投控股集團董事長鄧軍民接受審查調查

      原湖南湘投控股集團董事長鄧軍民接受審查調查

      界面新聞
      2026-01-23 09:02:12
      廣州猝死的32歲程序員背后!底薪3000元,一人承擔六七個人工作量

      廣州猝死的32歲程序員背后!底薪3000元,一人承擔六七個人工作量

      火山詩話
      2026-01-23 06:27:31
      火箭評估交易芬尼-史密斯!引援瞄準四大后衛 明確兩項運作原則

      火箭評估交易芬尼-史密斯!引援瞄準四大后衛 明確兩項運作原則

      羅說NBA
      2026-01-23 06:01:34
      曝勇士今夏將追兩大巨星!全力交易字母哥 尋求簽詹姆斯聯手庫里

      曝勇士今夏將追兩大巨星!全力交易字母哥 尋求簽詹姆斯聯手庫里

      羅說NBA
      2026-01-23 05:37:34
      2026-01-23 09:32:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16165文章數 514521關注度
      往期回顧 全部

      科技要聞

      財報還行,股價崩了,英特爾“掉鏈子”

      頭條要聞

      美媒:美國看待中國的心態變了

      頭條要聞

      美媒:美國看待中國的心態變了

      體育要聞

      跑個步而已,他們在燃什么?

      娛樂要聞

      車銀優賺800億 涉嫌逃稅200億!

      財經要聞

      西貝拿到“救命錢”,然后呢

      汽車要聞

      配備多塊娛樂屏 極氪8X內飾曝光

      態度原創

      健康
      時尚
      旅游
      公開課
      軍事航空

      打工人年終總結!健康通關=贏麻了

      章小姐罕見談婚姻,這個詞用得太妙了

      旅游要聞

      去年海南接待游客1.06億人次,接待入境游客超150萬人次

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美軍首艘“高超導彈戰艦”出海測試

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲日本视频一区二区三区 | 国产对白老熟女正在播放| 人妻二区| 思南县| 久久这里只精品国产2| 亚洲日韩av无码一区二区三区人| 日韩欧美猛交xxxxx无码| 毛片24种姿势无遮无拦| 国产成人av| 国产精品久久午夜夜伦鲁鲁| 中日韩中文字幕一区二区| 午夜亚洲国产理论片亚洲2020| 亚洲中文人妻制服| 欧美性猛交xxxx黑人| 色屁屁www影院免费观看| 国产精品综合一区二区三区| 淫射网| 亚洲日产无码中文字幕| 日韩高清在线中文字带字幕 | 色哟哟91| 亚洲一区二区三区国产精华液| 91丨露脸丨熟女精品| 亚洲国产一区在线二区三区| 一个人免费观看WWW在线视频| 国产成人精品手机在线观看| 亚洲熟女少妇一区二区| 怀安县| 午夜成人无码福利免费视频| 一本色道久久综合亚洲精东小说| 爆乳2把你榨干哦ova在线观看| 国产亚洲成人网站| 亚洲av电影天堂网| jizz喷水| 成人精品无码成人亚洲| 亚洲国产欧美在线看片一国产| 超碰伊人久久大香线蕉综合| 亚洲夂夂婷婷色拍ww47| 亚洲精品久久久久久久蜜桃臀| 亚洲综合婷婷| www夜插内射视频网站| 无码人妻精品一区二|