<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      突發(fā)!DeepSeek梁文鋒新論文開源,Engram模塊亮相V4架構雛形初現(xiàn)

      0
      分享至



      當大模型行業(yè)還在為參數(shù)規(guī)模突破爭論不休時,一場關于“效率革命”的變革已悄然來臨。2026年初,以技術深耕著稱的DeepSeek再度發(fā)力,在GitHub開源全新Engram模塊及配套論文,梁文鋒團隊提出的“查—算分離”創(chuàng)新機制,直接打破了傳統(tǒng)大模型的架構桎梏。這一技術不僅讓模型在同等參數(shù)、同等算力下,知識調(diào)用、邏輯推理、代碼生成等核心任務表現(xiàn)大幅提升,更標志著大模型發(fā)展正式告別“盲目堆參數(shù)”的粗放模式,邁入“智能分工”的精細化新階段。對于技術研究者而言,這是架構創(chuàng)新的全新參照;對于行業(yè)應用者來說,這意味著大模型落地的成本門檻有望進一步降低,高效普惠的AI應用場景正加速到來。



      困局所在:大模型為何總做“無用功”?

      現(xiàn)在我們常用的大語言模型,不管是傳統(tǒng)的“全參激活”稠密模型,還是主流的混合專家模型(MoE),都藏著一個致命問題:把“記東西”和“算東西”這兩件事混在一起做,導致算力被大量浪費。其實我們可以很簡單地理解大模型的核心工作:一種是“死記硬背”的事實性記憶,比如回答“法國首都是巴黎”“珠穆朗瑪峰是世界最高峰”,本質(zhì)上就像查字典一樣,找到對應的信息就行;另一種是“費腦思考”的邏輯計算,比如找代碼里的Bug、理解復雜的哲學觀點,這需要模型一層層拆解分析,靠精密的神經(jīng)網(wǎng)絡運算完成。



      但在傳統(tǒng)架構里,這兩個任務被強行綁在一塊。想讓模型多記點知識?那就得增加參數(shù)量。可參數(shù)量一漲,稠密模型的計算量就會跟著爆炸,推理成本高得嚇人;就算是MoE架構靠“只激活部分專家”解決了“算力隨參數(shù)暴漲”的問題,DeepSeek的研究也發(fā)現(xiàn),MoE處理“死記硬背”的任務時依然很笨拙。要知道,神經(jīng)網(wǎng)絡的核心是連續(xù)的數(shù)學變換,用這種高成本的矩陣運算去模擬簡單的“查表”,就像用超級計算機算1+1等于幾一樣,完全是小題大做。更麻煩的是,這種“記算不分”還會讓模型出現(xiàn)“記不住、算不準”的問題——長文本對話里丟關鍵信息、多輪推理中邏輯斷鏈,這些都是大模型落地醫(yī)療、金融等垂直領域的攔路虎。

      核心解法:Engram給大模型配“專屬記憶抽屜”

      DeepSeek推出的Engram模塊,就是專門來解決“記算不分”這個痛點的。“Engram”這個詞源自神經(jīng)科學,意思是“記憶痕跡”,說白了,這就是給大模型量身定做的“可擴容、快查找的記憶抽屜”。它的核心創(chuàng)新的就是“查—算分離”的雙系統(tǒng)設計:讓Engram專門管“找記憶”,讓原來的MoE專門管“做計算”,兩者各司其職、協(xié)同配合,徹底告別“用復雜計算代替簡單查找”的低效模式。

      Engram之所以能快速找到記憶,靠的是“現(xiàn)代化的哈希N-Gram嵌入”技術。用大白話解釋就是:它會先把輸入的文字切成一段一段的連續(xù)詞(比如“人工智能”“技術突破”這樣的詞片段,也就是N-Gram),再通過哈希算法給每個片段分配一個唯一的“地址”,存到一個巨大的可學習查找表里。這種哈希索引的好處特別明顯——“確定性且O(1)時間復雜度”,不管這個查找表里存了幾萬億個記憶片段,找到目標信息的速度都幾乎一樣快,而且消耗的算力少得可憐。這就像我們家里的抽屜式收納,每個物品都有固定的格子,不管收納柜多大,只要知道格子位置,一拉就找著,不用翻來翻去。

      更聰明的是,Engram的記憶不是“死的”,而是“有條件的”。它不是一個簡單的靜態(tài)查找表,而是能根據(jù)當前對話的上下文,精準判斷該提取哪些記憶。從架構位置來看,Engram模塊裝在Transformer層的最前面,相當于MoE這些“計算部門”開工前,先由Engram把相關的背景知識、歷史對話模式都檢索出來,當成“素材”遞過去,讓后續(xù)的計算更有針對性。論文里的實驗數(shù)據(jù)也證明了它的優(yōu)勢:在27B規(guī)模的模型中,Engram可以占用大量參數(shù)來存記憶,但實際推理時的算力消耗卻特別少,參數(shù)的利用效率大大提升。



      協(xié)同增效:Engram與MoE的“分工藝術”

      很多人會問:Engram和MoE都是“稀疏技術”,難道不是重復發(fā)明嗎?其實不然,Engram開辟了和MoE完全不同的“稀疏性新賽道”——MoE是“條件計算”,靠少激活一些專家來減少計算量;Engram是“條件查找”,靠快速檢索記憶來避免重復勞動,兩者是互補關系,不是替代關系。

      從目標、計算方式、優(yōu)化方向和工作位置四個方面,就能清楚看清它們的分工:MoE的目標是“按需激活神經(jīng)專家”,用部分密集計算處理深層推理;Engram的目標是“按需觸發(fā)記憶查找”,用O(1)的快速查表完成早期的模式重建。這種分工讓MoE徹底擺脫了“既要計算又要記知識”的沉重負擔,能專心搞復雜的邏輯推理;而Engram則專注于高效檢索固定知識,避免重復重建已經(jīng)知道的模式。實驗發(fā)現(xiàn),當把20%-25%的稀疏參數(shù)分給Engram,剩下的留給MoE時,模型性能最好。比如在32k長上下文的檢索任務中,Engram-27B模型的準確率比傳統(tǒng)MoE高不少:多查詢?nèi)蝿盏臏蚀_率從84.2%升到了97.0%,變量追蹤任務從77.0%升到了89.0%,實打?qū)嵶C明了“分工合作”的優(yōu)勢。



      業(yè)界熱議:從技術認可到V4架構猜想

      Engram一開源,就立刻在Reddit、X等技術社區(qū)引發(fā)了熱議。不少網(wǎng)友一眼就看到了它的核心價值:“現(xiàn)在大多數(shù)模型都只靠MoE擴展能力,Engram加了靜態(tài)記憶這個稀疏性補充,O(1)的查找速度太關鍵了!”有資深開發(fā)者評價,這種設計其實是傳統(tǒng)NLP技術的“現(xiàn)代化升級”,把高效的尋址機制和神經(jīng)推理模塊結合起來,既可行又實用,落地前景很好。

      更讓行業(yè)關注的是,很多網(wǎng)友都猜測Engram會成為DeepSeek V4模型的核心技術。有Reddit用戶分析:“確定性尋址能把嵌入表放到主機內(nèi)存里,不會增加太多推理開銷,這很可能就是V4的關鍵升級點。”還有網(wǎng)友開玩笑說:“本來打算抄谷歌的技術,現(xiàn)在決定改抄DeepSeek了,因為這個方案更高效、更好用。”甚至有觀點認為,給大模型加靜態(tài)記憶查找是行業(yè)發(fā)展的“必然趨勢”,這標志著整個行業(yè)從“比誰的參數(shù)多”的內(nèi)卷,轉(zhuǎn)向了“比誰的架構更智能”的理性競爭。對于普通開發(fā)者來說,Engram的O(1)查找機制就算沒有GPU也能實現(xiàn),這讓大模型的本地部署變得更現(xiàn)實,進一步降低了AI技術落地的門檻。





      結語:大模型高效時代的序幕已拉開

      DeepSeek Engram的發(fā)布,不只是一次簡單的技術突破,更預示著大模型發(fā)展的全新方向。當參數(shù)競賽走到盡頭,架構創(chuàng)新已經(jīng)成為提升效率的核心密碼。Engram的“查—算分離”機制,讓大模型第一次有了“專屬記憶庫”,實現(xiàn)了記憶與計算的高效協(xié)同。這種創(chuàng)新不僅能降低大模型的推理成本,還能提升核心任務的表現(xiàn),為大模型在企業(yè)客服、醫(yī)療問診、代碼生成等垂直領域的深度落地掃清了關鍵障礙。

      隨著Engram代碼和論文的開源,相信會有更多研究者加入到這一架構的創(chuàng)新中來。如果網(wǎng)友的猜測屬實,DeepSeek V4采用這一架構,很可能會帶來大模型能力的又一次飛躍。未來,大模型的競爭不再是“參數(shù)規(guī)模的比拼”,而是“架構智能度和效率的較量”,而Engram,無疑已經(jīng)為這場效率革命拉開了序幕。







      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      皮爾斯評歷史最強陣容,網(wǎng)友:常規(guī)賽能82場全勝,保底六連冠!

      皮爾斯評歷史最強陣容,網(wǎng)友:常規(guī)賽能82場全勝,保底六連冠!

      籃球看比賽
      2026-01-26 13:01:05
      12秒鎖定炮位!這款英國雷達,讓我軍在慘烈炮戰(zhàn)中完勝

      12秒鎖定炮位!這款英國雷達,讓我軍在慘烈炮戰(zhàn)中完勝

      老鵜愛說事
      2026-01-27 00:08:48
      胡春華發(fā)表署名文章

      胡春華發(fā)表署名文章

      社評
      2025-10-31 10:11:37
      殲-20使用WS-10B-C-15發(fā)動機終結外國發(fā)動機霸權

      殲-20使用WS-10B-C-15發(fā)動機終結外國發(fā)動機霸權

      緣史記
      2025-11-02 10:35:52
      50歲梅婷又素顏走機場!穿大衣+紅褲子+馬丁靴,時髦又減齡!

      50歲梅婷又素顏走機場!穿大衣+紅褲子+馬丁靴,時髦又減齡!

      小老頭奇聞
      2026-01-14 15:34:45
      汪小菲接倆娃回北京過春節(jié)!玥兒長到170和奶奶逛公園,還打雪仗

      汪小菲接倆娃回北京過春節(jié)!玥兒長到170和奶奶逛公園,還打雪仗

      手工制作阿殲
      2026-01-26 15:55:41
      F1傳奇車手舒馬赫不再臥床不起,英媒稱其能坐在輪椅上被推著活動

      F1傳奇車手舒馬赫不再臥床不起,英媒稱其能坐在輪椅上被推著活動

      瀟湘晨報
      2026-01-26 20:43:13
      日本!暴跌開始了!

      日本!暴跌開始了!

      大嘴說天下
      2026-01-26 20:16:55
      1934年,紅25軍給7個女護士每人8塊銀元勸返鄉(xiāng),1年后感動徐海東

      1934年,紅25軍給7個女護士每人8塊銀元勸返鄉(xiāng),1年后感動徐海東

      磊子講史
      2026-01-21 10:29:37
      雷軍回應小米SU7和YU7下架熔巖橙配色:很帥,但敢買的人太少

      雷軍回應小米SU7和YU7下架熔巖橙配色:很帥,但敢買的人太少

      齊魯壹點
      2026-01-26 15:36:27
      “令人深感恐懼!”黃金白銀全線暴漲,一場更大的風暴將來襲?

      “令人深感恐懼!”黃金白銀全線暴漲,一場更大的風暴將來襲?

      金十數(shù)據(jù)
      2026-01-26 10:16:25
      開油車的笑了,開電車的慌了?2026油電新政落地,稅費規(guī)則全變了

      開油車的笑了,開電車的慌了?2026油電新政落地,稅費規(guī)則全變了

      復轉(zhuǎn)這些年
      2026-01-26 23:47:10
      癌癥去世的人越來越多?醫(yī)生反復叮囑:寧可打打牌,也別做這5事

      癌癥去世的人越來越多?醫(yī)生反復叮囑:寧可打打牌,也別做這5事

      醫(yī)學原創(chuàng)故事會
      2026-01-25 22:54:04
      哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

      哈佛發(fā)現(xiàn):高血脂不用治,治好都是誤診?告訴您5個血脂真相!

      岐黃傳人孫大夫
      2026-01-08 10:06:20
      今年8月地球?qū)ⅰ笆е?秒”致千萬人身亡?陰謀論瘋傳,NASA辟謠:會有日食

      今年8月地球?qū)ⅰ笆е?秒”致千萬人身亡?陰謀論瘋傳,NASA辟謠:會有日食

      紅星新聞
      2026-01-22 13:15:18
      比沒錢更可怕的是戴“中國式大媽配飾”,自以為時髦,實際很廉價

      比沒錢更可怕的是戴“中國式大媽配飾”,自以為時髦,實際很廉價

      白宸侃片
      2026-01-22 11:07:38
      德國防長要求特朗普就北約盟友“躲開前線”言論道歉

      德國防長要求特朗普就北約盟友“躲開前線”言論道歉

      環(huán)球網(wǎng)資訊
      2026-01-26 20:20:12
      深度揭秘?|?航空“老色虎”譚瑞松,搞權色交易、“靠軍工吃軍工”

      深度揭秘?|?航空“老色虎”譚瑞松,搞權色交易、“靠軍工吃軍工”

      一分為三看人生
      2026-01-12 00:09:36
      震撼!哈梅內(nèi)伊秘密提名繼承人,中東權力危機升級

      震撼!哈梅內(nèi)伊秘密提名繼承人,中東權力危機升級

      桂系007
      2026-01-26 23:54:34
      一個蘿卜章,東北老板在銀行騙了3.5億

      一個蘿卜章,東北老板在銀行騙了3.5億

      大貓財經(jīng)Pro
      2026-01-26 18:32:49
      2026-01-27 02:55:00
      魏家東 incentive-icons
      魏家東
      一個人的營銷商學院!
      2295文章數(shù) 12140關注度
      往期回顧 全部

      科技要聞

      印奇再上牌桌,階躍融資50億

      頭條要聞

      印度尼帕病毒現(xiàn)跨區(qū)域傳播 世衛(wèi):或引起全球大流行

      頭條要聞

      印度尼帕病毒現(xiàn)跨區(qū)域傳播 世衛(wèi):或引起全球大流行

      體育要聞

      叛逆的大公子,要砸了貝克漢姆這塊招牌

      娛樂要聞

      張雨綺被抵制成功!遼視春晚已將她除名

      財經(jīng)要聞

      從美式斬殺線看中國社會的制度韌性構建

      汽車要聞

      賓利第四臺Batur敞篷版發(fā)布 解鎖四項定制創(chuàng)新

      態(tài)度原創(chuàng)

      教育
      房產(chǎn)
      藝術
      家居
      數(shù)碼

      教育要聞

      2024成都師范學院公費英語專業(yè)錄取分揭曉!

      房產(chǎn)要聞

      突發(fā)!三亞官宣,調(diào)整安居房政策!

      藝術要聞

      沙特急剎車,NEOM規(guī)模大縮水,線性摩天樓留小段

      家居要聞

      流韻雅居,讓復雜變純粹

      數(shù)碼要聞

      蘋果推出第二代AirTag 具備更遠搜索距離、更響亮的揚聲器等

      無障礙瀏覽 進入關懷版