![]()
當大模型行業(yè)還在為參數(shù)規(guī)模突破爭論不休時,一場關于“效率革命”的變革已悄然來臨。2026年初,以技術深耕著稱的DeepSeek再度發(fā)力,在GitHub開源全新Engram模塊及配套論文,梁文鋒團隊提出的“查—算分離”創(chuàng)新機制,直接打破了傳統(tǒng)大模型的架構桎梏。這一技術不僅讓模型在同等參數(shù)、同等算力下,知識調(diào)用、邏輯推理、代碼生成等核心任務表現(xiàn)大幅提升,更標志著大模型發(fā)展正式告別“盲目堆參數(shù)”的粗放模式,邁入“智能分工”的精細化新階段。對于技術研究者而言,這是架構創(chuàng)新的全新參照;對于行業(yè)應用者來說,這意味著大模型落地的成本門檻有望進一步降低,高效普惠的AI應用場景正加速到來。
![]()
困局所在:大模型為何總做“無用功”?
現(xiàn)在我們常用的大語言模型,不管是傳統(tǒng)的“全參激活”稠密模型,還是主流的混合專家模型(MoE),都藏著一個致命問題:把“記東西”和“算東西”這兩件事混在一起做,導致算力被大量浪費。其實我們可以很簡單地理解大模型的核心工作:一種是“死記硬背”的事實性記憶,比如回答“法國首都是巴黎”“珠穆朗瑪峰是世界最高峰”,本質(zhì)上就像查字典一樣,找到對應的信息就行;另一種是“費腦思考”的邏輯計算,比如找代碼里的Bug、理解復雜的哲學觀點,這需要模型一層層拆解分析,靠精密的神經(jīng)網(wǎng)絡運算完成。
![]()
但在傳統(tǒng)架構里,這兩個任務被強行綁在一塊。想讓模型多記點知識?那就得增加參數(shù)量。可參數(shù)量一漲,稠密模型的計算量就會跟著爆炸,推理成本高得嚇人;就算是MoE架構靠“只激活部分專家”解決了“算力隨參數(shù)暴漲”的問題,DeepSeek的研究也發(fā)現(xiàn),MoE處理“死記硬背”的任務時依然很笨拙。要知道,神經(jīng)網(wǎng)絡的核心是連續(xù)的數(shù)學變換,用這種高成本的矩陣運算去模擬簡單的“查表”,就像用超級計算機算1+1等于幾一樣,完全是小題大做。更麻煩的是,這種“記算不分”還會讓模型出現(xiàn)“記不住、算不準”的問題——長文本對話里丟關鍵信息、多輪推理中邏輯斷鏈,這些都是大模型落地醫(yī)療、金融等垂直領域的攔路虎。
核心解法:Engram給大模型配“專屬記憶抽屜”
DeepSeek推出的Engram模塊,就是專門來解決“記算不分”這個痛點的。“Engram”這個詞源自神經(jīng)科學,意思是“記憶痕跡”,說白了,這就是給大模型量身定做的“可擴容、快查找的記憶抽屜”。它的核心創(chuàng)新的就是“查—算分離”的雙系統(tǒng)設計:讓Engram專門管“找記憶”,讓原來的MoE專門管“做計算”,兩者各司其職、協(xié)同配合,徹底告別“用復雜計算代替簡單查找”的低效模式。
Engram之所以能快速找到記憶,靠的是“現(xiàn)代化的哈希N-Gram嵌入”技術。用大白話解釋就是:它會先把輸入的文字切成一段一段的連續(xù)詞(比如“人工智能”“技術突破”這樣的詞片段,也就是N-Gram),再通過哈希算法給每個片段分配一個唯一的“地址”,存到一個巨大的可學習查找表里。這種哈希索引的好處特別明顯——“確定性且O(1)時間復雜度”,不管這個查找表里存了幾萬億個記憶片段,找到目標信息的速度都幾乎一樣快,而且消耗的算力少得可憐。這就像我們家里的抽屜式收納,每個物品都有固定的格子,不管收納柜多大,只要知道格子位置,一拉就找著,不用翻來翻去。
更聰明的是,Engram的記憶不是“死的”,而是“有條件的”。它不是一個簡單的靜態(tài)查找表,而是能根據(jù)當前對話的上下文,精準判斷該提取哪些記憶。從架構位置來看,Engram模塊裝在Transformer層的最前面,相當于MoE這些“計算部門”開工前,先由Engram把相關的背景知識、歷史對話模式都檢索出來,當成“素材”遞過去,讓后續(xù)的計算更有針對性。論文里的實驗數(shù)據(jù)也證明了它的優(yōu)勢:在27B規(guī)模的模型中,Engram可以占用大量參數(shù)來存記憶,但實際推理時的算力消耗卻特別少,參數(shù)的利用效率大大提升。
![]()
協(xié)同增效:Engram與MoE的“分工藝術”
很多人會問:Engram和MoE都是“稀疏技術”,難道不是重復發(fā)明嗎?其實不然,Engram開辟了和MoE完全不同的“稀疏性新賽道”——MoE是“條件計算”,靠少激活一些專家來減少計算量;Engram是“條件查找”,靠快速檢索記憶來避免重復勞動,兩者是互補關系,不是替代關系。
從目標、計算方式、優(yōu)化方向和工作位置四個方面,就能清楚看清它們的分工:MoE的目標是“按需激活神經(jīng)專家”,用部分密集計算處理深層推理;Engram的目標是“按需觸發(fā)記憶查找”,用O(1)的快速查表完成早期的模式重建。這種分工讓MoE徹底擺脫了“既要計算又要記知識”的沉重負擔,能專心搞復雜的邏輯推理;而Engram則專注于高效檢索固定知識,避免重復重建已經(jīng)知道的模式。實驗發(fā)現(xiàn),當把20%-25%的稀疏參數(shù)分給Engram,剩下的留給MoE時,模型性能最好。比如在32k長上下文的檢索任務中,Engram-27B模型的準確率比傳統(tǒng)MoE高不少:多查詢?nèi)蝿盏臏蚀_率從84.2%升到了97.0%,變量追蹤任務從77.0%升到了89.0%,實打?qū)嵶C明了“分工合作”的優(yōu)勢。
![]()
業(yè)界熱議:從技術認可到V4架構猜想
Engram一開源,就立刻在Reddit、X等技術社區(qū)引發(fā)了熱議。不少網(wǎng)友一眼就看到了它的核心價值:“現(xiàn)在大多數(shù)模型都只靠MoE擴展能力,Engram加了靜態(tài)記憶這個稀疏性補充,O(1)的查找速度太關鍵了!”有資深開發(fā)者評價,這種設計其實是傳統(tǒng)NLP技術的“現(xiàn)代化升級”,把高效的尋址機制和神經(jīng)推理模塊結合起來,既可行又實用,落地前景很好。
更讓行業(yè)關注的是,很多網(wǎng)友都猜測Engram會成為DeepSeek V4模型的核心技術。有Reddit用戶分析:“確定性尋址能把嵌入表放到主機內(nèi)存里,不會增加太多推理開銷,這很可能就是V4的關鍵升級點。”還有網(wǎng)友開玩笑說:“本來打算抄谷歌的技術,現(xiàn)在決定改抄DeepSeek了,因為這個方案更高效、更好用。”甚至有觀點認為,給大模型加靜態(tài)記憶查找是行業(yè)發(fā)展的“必然趨勢”,這標志著整個行業(yè)從“比誰的參數(shù)多”的內(nèi)卷,轉(zhuǎn)向了“比誰的架構更智能”的理性競爭。對于普通開發(fā)者來說,Engram的O(1)查找機制就算沒有GPU也能實現(xiàn),這讓大模型的本地部署變得更現(xiàn)實,進一步降低了AI技術落地的門檻。
![]()
![]()
結語:大模型高效時代的序幕已拉開
DeepSeek Engram的發(fā)布,不只是一次簡單的技術突破,更預示著大模型發(fā)展的全新方向。當參數(shù)競賽走到盡頭,架構創(chuàng)新已經(jīng)成為提升效率的核心密碼。Engram的“查—算分離”機制,讓大模型第一次有了“專屬記憶庫”,實現(xiàn)了記憶與計算的高效協(xié)同。這種創(chuàng)新不僅能降低大模型的推理成本,還能提升核心任務的表現(xiàn),為大模型在企業(yè)客服、醫(yī)療問診、代碼生成等垂直領域的深度落地掃清了關鍵障礙。
隨著Engram代碼和論文的開源,相信會有更多研究者加入到這一架構的創(chuàng)新中來。如果網(wǎng)友的猜測屬實,DeepSeek V4采用這一架構,很可能會帶來大模型能力的又一次飛躍。未來,大模型的競爭不再是“參數(shù)規(guī)模的比拼”,而是“架構智能度和效率的較量”,而Engram,無疑已經(jīng)為這場效率革命拉開了序幕。
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.