<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,DeepSeek 突發梁文鋒署名新論文:V4 新架構提前曝光?

      0
      分享至


      作者 | 冬梅

      今天凌晨,喜歡悶聲做大事的 DeepSeek 再次發布重大技術成果,在其 GitHub 官方倉庫開源了新論文與模塊Engram,論文題為 “

      Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
      ”, 梁文鋒再次出現在合著者名單中。


      與傳統的大模型架構相比,該方法提出了一種新的“查—算分離”機制,通過引入可擴展的查找記憶結構,在等參數、等算力條件下顯著提升模型在知識調用、推理、代碼、數學等任務上的表現。代碼與論文全文均已開源。

      論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      代碼地址:https://github.com/deepseek-ai/Engram

      這種查和算分離的 Engram 新方法的整體架構如下圖所示:


      1 為什么需要 Engram?

      那么,我們為什么需要 Engram ?

      目前主流的大語言模型架構依然基于 Transformer 和Mixture-of-Experts(MoE)結構。MoE 是目前推進參數規模和能力擴展的關鍵技術之一,通過動態路由機制,只激活部分參數以降低計算成本,同時在任務容量方面實現大規模擴展。DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也采用了先進的 MoE 方法進行擴展訓練。

      但在這些傳統的 Transformer 架構(無論是 Dense 還是 MoE)中,模型的參數實際上承擔著兩種截然不同的角色:

      事實性記憶(Memorization):存儲海量的知識事實。例如,“巴黎的首都是哪里?”、“世界最高的山脈是哪座”等。這類信息相對死板,更多依賴于“查表”式的檢索。

      邏輯推理與計算(Calculation):負責復雜的邏輯鏈條、多步推理和情境理解。例如,“根據這段代碼的邏輯推導可能的 Bug”、“解析一段復雜的哲學論證”。

      目前的大語言模型傾向于將這兩者混在一起。當你試圖讓模型記住更多知識時,你不得不增加參數量。而在傳統的 Dense 模型中,參數量增加意味著前向傳播時的計算量(FLOPs)也會同步激增。MoE 架構雖然通過稀疏激活解決了“算力隨參數同步爆炸”的問題,但 DeepSeek 研究發現,MoE 專家在處理“死記硬背”的任務時依然不夠高效

      神經網絡本質上是連續的數學變換,用高昂的矩陣運算去模擬簡單的“查表檢索”,本身就是一種極大的浪費。DeepSeek 的 Engram 正是為了打破這一困境——“該查表的查表,該算的算”

      2 Engram 的核心思想與架構

      聚焦到問題本身,Engram 方法為什么能解決上述問題?


      “Engram”一詞源自神經科學,意為“記憶痕跡”,它是一個可擴展、可查找的記憶模塊,用于語言模型在推理過程中過去可能已經見過的模式或片段。

      Engram 的核心技術之一是現代化的哈希 N-Gram 嵌入(Modernized Hashed N-gram Embeddings)

      • 傳統方式:模型通過多層自注意力(Self-Attention)和 MLP 層的非線性變換,反復提取輸入文本中的特征。

      • Engram 方式:它對輸入的 Token 序列進行 N-Gram(連續 N 個詞)切片,并利用哈希算法將這些片段映射到一個巨大的、可學習的查找表(Lookup Table)中。

      由于采用哈希索引,這種查找是確定性且 O(1) 時間復雜度的。這意味著無論模型存儲了多少萬億個記憶片段,檢索的速度幾乎是恒定的,且算力消耗極低。

      O (1) 的含義是: 一次查找的耗時是常數級的,與 N-gram 表的規模無關。

      也就是說,這種設計本質上將一部分“記憶職責”從深度神經計算中卸載出來(例如序列模式、固定知識段的識別與回填),使得模型既擁有活躍神經通道(例如 Transformer + MoE)處理復雜計算,也有靜態記憶通道高效處理固定模式,這就是所謂的“稀疏性的新軸”(a new axis of sparsity)。

      簡單來說就是 MoE 負責:“計算密集”神經推理與復雜組合功能、Engram 負責:“記憶查找”固定模式以及模式重建,兩者協同構成一個更高效的整體架構。

      此外,它還具備條件記憶(Conditional Memory)。與簡單的靜態查找表不同,Engram 是“條件化”的。它會根據當前上下文的隱向量(Hidden States)來決定提取哪些記憶。

      在架構設計上,Engram 模塊位于 Transformer 層的早期階段。它負責“模式重構(Pattern Reconstruction)”,即在計算層(MoE 或 Dense)開始干活之前,先把相關的背景事實和歷史模式檢索出來,作為“素材”喂給后續的邏輯層。

      它與 MoE(Mixture of Experts)的關系是怎樣的?

      論文特別指出:Engram 提供了一個新的稀疏性軸,與 MoE 的條件計算不同,它通過條件查找提供靜態記憶容量。下面圖表中從目標、計算方式、優化方向和作用位置四個維度解釋了 Engram 和 MoE 的區別。

      維度MoEEngram

      目標

      條件激活神經專家

      條件觸發靜態記憶查找

      計算方式

      無極 dense 計算 / 激活部分專家

      O(1) 查表

      優化方向

      降低活躍神經計算量

      減少神經計算重建已知模式

      作用位置

      深層推理

      早期模式重建 / 記憶檢索

      最后,DeepSeek 將 Engram 與 MoE 結合,形成了一個雙系統:

      • Engram 模塊:負責海量知識點的“存儲與快速檢索”。

      • MoE 專家:擺脫了沉重的記憶負擔,全身心投入到“邏輯推理與合成”中。

      這種分工極大地優化了參數效率。在 27B 的實驗模型中,Engram 模塊可以占用大量的參數用于記憶,但在實際推理時,它只消耗極少的計算量(FLOPs)。


      3 網友:V4 將采用這種架構

      在 Reddit、X 和其他平臺的相關帖子中,Engram 的技術核心受到了不少用戶的肯定和技術肯定。眾多網友認為這個模塊的特點在于讓模型架構處理“記憶模式查找”和“神經計算推理”兩塊職責分離,從而開啟了新的稀疏性方向。

      在 Reddit 平臺有用戶評論說:

      “Engram 嵌入方法很有意思。大多數模型僅通過 MoE 進行擴展,但 Engram 增加了靜態記憶作為補充的稀疏性軸,查找復雜度為 O(1)。他們發現 MoE 和 Engram 之間存在 U 形縮放規律,這指導著如何在兩者之間分配容量。分析表明,這減輕了早期層級靜態模式重建的壓力,從而保留了用于復雜推理的深度。確定性尋址意味著它們可以將嵌入表卸載到主機內存中,而不會增加太多推理開銷。”


      同時,有用戶對這種基于 n-gram lookup 的機制表達了直觀興趣,他評論道:

      即便是在不依賴 GPU 的環境下也能實現這種 O(1) 查找方式,讓不少開發者對本地部署這樣的大模型功能有了更實際的期待。


      在部分技術性評論中,有人指出:

      從已有技術邏輯來看,在 LLM 中加入靜態記憶查找似乎是“順理成章”的發展方向。

      這類觀點反映了一個重要觀點:專家群體開始從純參數擴張思維轉向更“智能”的架構設計,包括查表式模塊和神經網絡的協同。

      不少高級開發者在討論中進一步提到,這種設計在理念上類似于對傳統 NLP 技術(如 n-gram embedding)的現代化轉換,結合了高效尋址機制(deterministic addressing)和神經推理模塊,這種組合在紙面上看具有較高的可行性和實用性(這一點正是 Engram 的核心貢獻)。

      另一條社區評論指出,Engram 很可能是DeepSeek 即將發布的 V4 模型的核心技術基礎

      Engram 模塊可能會成為 DeepSeek V4 的重要組成部分,并預示 DeepSeek 下一代模型會在記憶和推理協同上實現架構級提升。

      在 X 平臺,也有網友表達了同樣的猜測,認為 V4 也將采用這種架構。


      還有網友調侃,原本想抄襲下谷歌的技術,但現在要抄襲 DeepSeek 了,因為它比谷歌更好!


      還有網友表示,其實 Meta 之前也有過類似想法,但用到的技術不同。


      https://www.reddit.com/r/LocalLLaMA/comments/1qb034t/github_deepseekaiengram_conditional_memory_via/?utm_source=chatgpt.com

      https://x.com/scaling01/status/2010748516788777445

      https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      會議推薦

      InfoQ 2026 全年會議規劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產業落地,從技術前沿到行業應用,全面覆蓋 AI 與軟件開發核心賽道!集結全球技術先鋒,拆解真實生產案例、深挖技術與產業落地痛點,探索前沿領域、聚焦產業賦能,獲取實戰落地方案與前瞻產業洞察,高效實現技術價值轉化。把握行業變革關鍵節點,搶占 2026 智能升級發展先機!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      原來富二代家里都是做這些行業的!網友:幾乎都在灰色產業游走

      原來富二代家里都是做這些行業的!網友:幾乎都在灰色產業游走

      另子維愛讀史
      2026-01-26 18:34:27
      侄女上學我給5萬,升學宴沒請我畢業找上門,我:現在知道找我?

      侄女上學我給5萬,升學宴沒請我畢業找上門,我:現在知道找我?

      溫情郵局
      2025-11-24 10:25:22
      研究發現:宇宙中98%的星系,已經永遠跟地球失去聯系了

      研究發現:宇宙中98%的星系,已經永遠跟地球失去聯系了

      觀察宇宙
      2026-01-24 21:22:12
      每人10張!馬年幣鈔將2次預約,各地號段和入口公布!

      每人10張!馬年幣鈔將2次預約,各地號段和入口公布!

      天天紀念幣
      2026-01-27 10:00:23
      無疫苗、無特效藥!致命病毒擴散,多地重啟“新冠級”防疫與隔離

      無疫苗、無特效藥!致命病毒擴散,多地重啟“新冠級”防疫與隔離

      華人生活網
      2026-01-27 04:59:48
      最后兩艘“全蒸七子”開始改造!中國051C型驅逐艦和“中華俄式神盾”的傳奇要落幕了?

      最后兩艘“全蒸七子”開始改造!中國051C型驅逐艦和“中華俄式神盾”的傳奇要落幕了?

      軍武速遞
      2026-01-26 20:12:48
      四川綿陽一佳人太漂亮,身高177cm體重54kg五官精致到無懈可擊!

      四川綿陽一佳人太漂亮,身高177cm體重54kg五官精致到無懈可擊!

      TVB的四小花
      2026-01-27 11:03:50
      “這種家,網戀都會自卑”,女大學生曬臥室照片:不好意思打視頻

      “這種家,網戀都會自卑”,女大學生曬臥室照片:不好意思打視頻

      妍妍教育日記
      2026-01-26 19:18:13
      王菲沒想到,由前夫李亞鵬撫養的19歲女兒李嫣,如今成了她的驕傲

      王菲沒想到,由前夫李亞鵬撫養的19歲女兒李嫣,如今成了她的驕傲

      華人星光
      2026-01-27 11:50:52
      休媒熱議申京17中15:創4紀錄比肩大夢 聯盟前5中鋒 火箭非賣品

      休媒熱議申京17中15:創4紀錄比肩大夢 聯盟前5中鋒 火箭非賣品

      顏小白的籃球夢
      2026-01-27 12:15:01
      外交部:堅決反對美政客對中美洲國家同中國正常交往指手畫腳

      外交部:堅決反對美政客對中美洲國家同中國正常交往指手畫腳

      每日經濟新聞
      2026-01-27 09:24:00
      28歲女子相親非要打包剩菜,男子甩臉就走,網友:你不娶我娶!

      28歲女子相親非要打包剩菜,男子甩臉就走,網友:你不娶我娶!

      農村情感故事
      2026-01-27 12:22:59
      米切爾砍騎士生涯第5次45+得分追平詹姆斯,下場兩人將正面對決

      米切爾砍騎士生涯第5次45+得分追平詹姆斯,下場兩人將正面對決

      懂球帝
      2026-01-27 13:19:30
      19分大逆轉,26分慘敗!西部第一偽強隊誕生,你們沒有冠軍相

      19分大逆轉,26分慘敗!西部第一偽強隊誕生,你們沒有冠軍相

      世界體育圈
      2026-01-26 16:09:44
      天吶,張小斐已經瘦得薄薄一片了,喜劇演員也需要保持身材嗎

      天吶,張小斐已經瘦得薄薄一片了,喜劇演員也需要保持身材嗎

      民間平哥
      2026-01-04 15:39:24
      歷史上最不成功的托孤:皇帝尸骨未寒,托孤大臣就變臉廢了幼主

      歷史上最不成功的托孤:皇帝尸骨未寒,托孤大臣就變臉廢了幼主

      銘記歷史呀
      2026-01-16 15:14:15
      一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

      一人睡遍整個娛樂圈?司曉迪打響了2026年第一炮

      閱毒君
      2026-01-05 07:05:06
      莫斯科立場180度反轉,俄羅斯表態想讓步,就看烏克蘭的表現了

      莫斯科立場180度反轉,俄羅斯表態想讓步,就看烏克蘭的表現了

      史智文道
      2026-01-27 11:33:27
      午休調整,武漢多所學校已試點!“建議先全市推廣”

      午休調整,武漢多所學校已試點!“建議先全市推廣”

      環球網資訊
      2026-01-27 10:41:12
      如何判斷一個人的家境如何?網友:準確率最高的指標,就是看他媽

      如何判斷一個人的家境如何?網友:準確率最高的指標,就是看他媽

      夜深愛雜談
      2026-01-23 18:10:53
      2026-01-27 13:40:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      11987文章數 51717關注度
      往期回顧 全部

      科技要聞

      理想開始關店“過冬”,否認“百家”規模

      頭條要聞

      寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

      頭條要聞

      寶馬5系車主揪出汽修店一個"意外疏忽":我氣得吐血

      體育要聞

      帶著母親遺愿戰斗12年,交易添頭成了隊魂

      娛樂要聞

      張雨綺被曝代孕,春晚被拒,代言跑路

      財經要聞

      金價狂飆 “牛市神話”未完待續

      汽車要聞

      劍指小米YU7與特斯拉Model Y 問界M6要來了?

      態度原創

      游戲
      健康
      藝術
      數碼
      公開課

      格蕾絲越慫里昂越痛 《生化9》確認狂暴喪尸機制回歸

      耳石脫落為何讓人天旋地轉+惡心?

      藝術要聞

      日本東京國立博物館中的100幅宋畫

      數碼要聞

      蘋果M4 Max秀肌肉:非原生運行卡普空3A游戲大作狂飆近100幀

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版