<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      梁文鋒署名新論文:給大模型配本“字典”,計算、記憶分家后智商爆表,劇透DeepSeek V4?

      0
      分享至

      這是一個關于AI底層邏輯重構的時刻。

      長期以來,Transformer架構被困在一個昂貴的悖論中:我們用著最先進的GPU算力,去讓AI模型“死記硬背”那些查字典就能知道的靜態知識。

      DeepSeek梁文鋒團隊與其北大合作者在今日凌晨發布的重磅論文《Conditional Memory via Scalable Lookup》,徹底打破了這一僵局。他們提出了一種全新的Engram(印跡)模塊,在傳統的“條件計算”(MoE)之外,開辟了第二條稀疏化戰線——“條件記憶”

      這不只是一次技術修補,而是一場關于模型“腦容量”的供給側改革。它證明了:當我們將“記憶”從“計算”中剝離,把該背的交給“字典”,把該算的交給大腦,AI的推理能力將迎來反直覺的爆發式增長。



      DeepSeek計劃在2月春節前后正式發布V4,而這一刻或許就是DeepSeek V4誕生的前夜。

      序章:六層神經網絡的“無用功”

      故事的起點,源于DeepSeek團隊對Transformer內部運作機制的一次“核磁共振”掃描。

      在人工智能的黑盒子里,當大模型看到“Diana, Princess of Wales”(戴安娜,威爾士王妃)這個短語時,它的內部發生了一場令人費解且極其昂貴的“內耗”。

      研究人員發現,為了識別這個固定的實體,模型竟然動用了整整6層網絡:

      • 第1-2層:模型還在琢磨“Wales”大概是一個國家;

      • 第3層:它意識到這是歐洲的一個地理概念;

      • 第4層:它開始拼湊出“Princess of Wales”似乎是一個頭銜;

      • 第5層:它聯想到了“威爾士親王的妻子”;

      • 第6層:直到這里,它才終于確認,這是指那位著名的“戴安娜王妃”。


      在一位追求極致效率的架構師眼中,這簡直是算力的暴殄天物。

      “戴安娜王妃”是一個客觀存在的、靜態的實體,它不會因為上下文的變化而改變其本質。為了提取這個本來查字典就能知道的事實,Transformer竟然動用了整整6層深度的昂貴矩陣運算去“重建”這個概念。

      這就像是一個絕世天才,在去解決微積分難題之前,每次都得先花半小時默寫一遍九九乘法表。 這種“隱式記憶”的機制,迫使模型將寶貴的參數容量和網絡深度,浪費在了簡單的模式匹配上。

      DeepSeek在這篇長達33頁的論文中,提出了一個直擊靈魂的拷問:為什么不直接給大模型配一本可以隨查隨用的“超級字典”?

      第一章:架構重塑——Engram模塊的暴力美學

      為了解決這個問題,DeepSeek提出了一種名為“Engram(條件記憶)”的全新模塊。

      如果說MoE(混合專家模型)是把“大腦”分成了不同的區域,讓不同的專家負責不同的思考(條件計算);那么Engram就是給大腦外掛了一個巨大的“海馬體”,專門負責存儲靜態知識(條件記憶)。


      1. 復活“N-gram”:從古老智慧中尋找答案

      Engram的核心靈感,竟然來自于NLP(自然語言處理)領域的“上古神器”——N-gram。在深度學習統治世界之前,我們就是靠統計“N個詞同時出現的概率”來理解語言的。

      DeepSeek將這一經典概念進行了現代化的魔改:

      • 傳統的Transformer:知識分散在神經元的權重(Weights)里,提取知識需要經過復雜的線性層計算,復雜度高。

      • Engram模塊:它是一個巨大的、可擴展的嵌入表(Embedding Table)。當模型讀到“張仲景”或者“四大發明”這種固定搭配(N-gram)時,不需要動用大腦皮層去推理,直接通過哈希索引,在內存表中“查”出對應的向量。

      這一過程的時間復雜度是O(1)——這意味著無論知識庫膨脹到多大(哪怕是1000億參數),查找速度幾乎不變,且極快。


      2. 三大技術護城河

      既然查表這么好,為什么以前沒人做?因為有三個攔路虎:存儲爆炸、多義詞沖突、參數分配。DeepSeek給出了教科書級的解決方案:

      A. 詞表壓縮:極致的去重

      世界上的詞組組合是天文數字。DeepSeek首先做了一步“無損壓縮”。在分詞器(Tokenizer)層面,它將語義相同但寫法不同的詞進行了歸一化。
      例如,“Apple”(首字母大寫)和“apple”(小寫)在語義上通常指同一個東西。通過映射歸并,有效詞表直接縮小了23%。這不僅節省了空間,更讓知識的密度大幅提升。

      B. 多頭哈希:解決“哈希沖突”

      不可能把所有N-gram都存下來。Engram使用了“多頭哈希(Multi-Head Hashing)”技術。通過多個哈希函數,將無限的N-gram映射到有限的內存槽位中。雖然會有哈希沖突(即兩個不同的詞被映射到了同一個位置),但通過“多頭”設計,模型可以從多個候選結果中拼湊出正確的信息,極大地提高了魯棒性。

      C. 上下文門控:給記憶配個“裁判”

      這是最精妙的一筆。查表是死的,語言是活的。
      比如“蘋果”這個詞。在“吃蘋果”的語境下,它指水果;在“蘋果發布會”的語境下,它指科技公司。直接查表可能會引入噪聲。

      DeepSeek設計了一個“上下文感知門控”(Context-aware Gating)。

      • Query(查詢):當前上下文的隱藏狀態(Hidden State)。

      • Key/Value(鍵值):查表得到的靜態向量。

      這個門控就像一個裁判。如果查出來的“靜態知識”和當前的“上下文”不搭,裁判就會把權重壓低(Gate值趨向0),讓模型忽略這個噪聲;如果完美契合(比如“傷寒雜病論”后跟著“張仲景”),裁判就會把大門打開(Gate值趨向1),直接把知識注入模型。


      第二章:黃金比例——發現AI模型的“U型曲線”

      架構設計好了,接下來的問題是:怎么分家產?

      假設我們顯卡里的顯存是有限的,總參數預算也是固定的。我們應該把多少參數分配給MoE的“專家”(負責計算),多少參數分配給Engram的“字典”(負責記憶)?

      這是一個典型的資源配置博弈。DeepSeek團隊進行了一場大規模的消融實驗,掃描了從0%到100%的分配比例,結果畫出了一條完美的“U型Scaling Law曲線”。


      這張圖揭示了AI模型設計的底層規律:

      1. 左側極端(純Engram):如果把參數全給字典,Loss很高。因為模型變成了“書呆子”,光有死記硬背,沒有邏輯推理能力。

      2. 右側極端(純MoE):如果把參數全給專家,Loss也很高。因為專家們被迫把精力都花在背書(記憶靜態知識)上,沒空干正事。

      3. 黃金分割點(ρ ≈ 75%-80%):當我們將約20%-25%的稀疏參數預算分給Engram,剩下的給MoE時,模型的驗證集Loss降到了最低點。

      這是一個極具指導意義的發現:對于幾百億參數的大模型來說,單純堆砌計算單元(MoE專家)已經是邊際效應遞減了,必須引入專門的靜態記憶模塊來實現“存算平衡”。

      第三章:反直覺的爆發——為什么“查字典”能提高“數學成績”?

      如果Engram僅僅是讓模型“記性更好”,這篇論文的分量還不足以震動社區。畢竟,RAG(檢索增強生成)也能解決知識問題。

      真正讓業界感到震撼的,是實驗結果中那些意料之外的收益

      DeepSeek構建了三個對比模型,嚴格控制激活參數量(3.8B)和訓練數據量(262B tokens)完全一致:

      1. Dense-4B:傳統的稠密模型。

      2. MoE-27B:純MoE模型(72個專家)。

      3. Engram-27B:混合模型(55個專家 + 5.7B Engram參數)。

      結果令人大跌眼鏡:

      1. 意料之中:知識類任務霸榜

      在MMLU(綜合知識)上,Engram模型提升了3.4分;在CMMLU(中文知識)上,提升了4.0分。這很好理解,外掛了字典,常識自然更好了,幻覺更少了。

      2. 意料之外:邏輯、代碼、數學全面暴漲

      按理說,“查字典”和“做數學題”沒關系。但在BBH(綜合推理)上,Engram-27B竟然比同參數的純MoE基線提升了整整5.0分

      • MATH(數學):提升2.4分

      • HumanEval(代碼生成):提升3.0分

      • ARC-Challenge(復雜推理):提升3.7分


      3. 深度解析:有效深度(Effective Depth)理論

      為什么?一個“死記硬背”的模塊,為什么能提高智商?

      DeepSeek團隊利用LogitLens和“CKA(中心核對齊)”技術,對模型內部進行了“解剖”。他們發現了一個驚人的現象:

      還記得開頭的“戴安娜王妃”嗎?
      在純MoE模型中,前幾層網絡都在忙著“拼湊概念”。
      而在Engram模型中,由于第2層就插入了Engram模塊,靜態知識的檢索在極早的階段就完成了

      這意味著,原本用于“死記硬背”的前幾層網絡被解放了!

      這相當于給模型“虛增”了深度。 那些被釋放出來的網絡層和注意力頭(Attention Heads),不再需要處理瑣碎的局部依賴(比如識別“張仲景”是誰),從而可以全神貫注地投入到更復雜的全局推理、長程邏輯構建和代碼邏輯生成中去。

      Engram的本質,不是“替代”推理,而是通過“分流”雜活,讓大腦專注于更高維度的思考。


      第四章:工程奇跡——打破英偉達的“顯存霸權”

      對于華爾街的投資者和算力中心的運維者來說,這篇論文最性感的地方不在于Score,而在于Cost(成本)

      在AI時代,最昂貴的資源不是算力(FLOPs),而是顯存(HBM)。英偉達H100之所以貴,很大程度上是因為那稀缺的HBM3e內存。

      而Engram帶來了一個顛覆性的特性:徹底的存算分離

      1. MoE的痛點:顯存吞噬者

      傳統的MoE模型,其路由機制(Routing)是動態的。模型必須先算出當前Token的特征,算完這一層,才知道下一層該找哪個專家。這意味著,所有的專家模型必須時刻在昂貴的GPU顯存里待命,隨叫隨到。

      2. Engram的突破:確定的預知

      Engram的查表邏輯是確定性的。
      只要輸入的文本確定了(比如“A New Axis of Sparsity”),那么它對應的N-gram索引就確定了。我們根本不需要等模型算完前一層,在Token進入模型的那一瞬間,我們就知道它需要查哪張表的哪一行。

      3. CPU的逆襲:把大模型塞進內存條

      這一特性帶來了巨大的工程紅利:

      • 卸載(Offload):我們可以把幾百億、甚至上千億參數的Engram詞表,直接扔到便宜、量大、易擴展的“CPU內存(DRAM)”里,甚至放在NVMe SSD上。

      • 預取(Prefetching):在GPU拼命計算前一層Transformer的時候,CPU利用PCIe通道,異步地把下一層需要的記憶數據“預取”出來,推送到GPU。

      掩蓋延遲,并行處理。

      DeepSeek實測數據顯示:即使掛載了100B(千億)參數的Engram表到CPU內存,相比于純GPU推理,吞吐量的下降不到3%

      這是一個讓所有因為買不到HBM而焦慮的人狂喜的結論。這意味著,未來的大模型,“記憶容量”可以低成本地無限擴張,而不必被英偉達的顯存卡脖子。


      第五章:長文本的勝利——NIAH測試的躍升

      除了通用推理,Engram在長文本(Long Context)領域的表現同樣證明了“分工”的價值。

      在長文本處理中,注意力機制(Attention)的窗口是有限的。如果注意力被大量的局部信息(如固定短語)占據,它處理全局信息的能力就會下降。

      Engram接管了局部依賴后,Attention機制終于可以抬頭看路了。

      在嚴格的RULER基準測試中,Engram-27B的表現令人咋舌:

      • Multi-Query NIAH(多重針大海撈針):從MoE基線的84.2分,直接飆升至97.0分

      • Variable Tracking(變量追蹤):從77.0分提升至89.0分

      這說明,當我們將“局部記憶”外包給Engram后,Transformer原本的注意力機制就能更高效地捕捉幾萬字文檔中的“草蛇灰線”。


      尾聲:DeepSeek V4的拼圖已現

      把以上所有信息串聯起來,我們已經隱約看到了DeepSeek下一代模型——DeepSeek V4的雛形。

      華爾街見聞寫道,報道稱DeepSeek計劃在2月(春節前后)正式發布V4。回顧DeepSeek的節奏:從2024年1月的R1,到年底擊敗GPT-5基準的V3.2,再到即將登場的V4,每一步都踩準了技術迭代的脈搏。

      如果說R1展示了“推理”的深度,V3展示了“MoE”的效率,那么即將到來的V4,可能通過引入Engram技術,將解決記憶與計算的耦合,實現“電子腦(計算)”與“外部記憶(Engram)”的完美共生。

      • DeepSeek V2:引入MLA(多頭潛在注意力),壓縮KV Cache,解決推理顯存瓶頸。

      • DeepSeek V3:優化“MoE(混合專家)”與無損負載均衡,解決訓練穩定性與計算成本。

      • DeepSeek V4(推測):引入Engram(條件記憶),解決記憶與計算的耦合,實現“電子腦(計算)”與“外部記憶(Engram)”的完美共生。

      這不是一次簡單的版本迭代,這是對Transformer架構底層缺陷的一次系統性手術。在DeepSeek V3已經憑借極其低廉的API價格和強大的性能席卷全球之后,V4如果集成了Engram技術,將帶來更可怕的競爭力:它將擁有更大的知識庫(低成本內存擴展)、更強的邏輯推理(網絡深度解放)以及更低的推理成本(存算分離)。

      更重要的是,報道提到V4在數據模式理解上的改進,“避免了以往模型在長時間訓練下性能衰退的情況”。這與Engram將靜態知識固化、減少動態網絡負擔的特性不謀而合——它讓模型更穩定,更不容易“遺忘”或“精神錯亂”。

      在論文的最后,DeepSeek團隊自信地寫道:

      “We envision conditional memory as an indispensable modeling primitive for next-generation sparse models.”
      (我們預想,條件記憶將成為下一代稀疏模型不可或缺的建模原語。)

      春節前夕的這篇論文,不僅是DeepSeek的技術秀,更是向全行業發出的信號:單純“卷算力”、“堆參數”的蠻荒時代結束了,架構創新的紅利期才剛剛開始。而在這場定義下一代AI標準的競賽中,中國大模型不僅沒有掉隊,甚至正在重新定義比賽規則。

      2026,中國商業航天的“諾曼底時刻”剛剛過去;而AI領域的“存算分家”時刻,或許正是現在。

      論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      開源地址:https://github.com/deepseek-ai/Engram

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      江蘇12歲小學生家中自殺,遺書稱“寫不會英語單詞”,吞下姥姥100顆心臟病藥,媽媽起訴學校案件將二審

      江蘇12歲小學生家中自殺,遺書稱“寫不會英語單詞”,吞下姥姥100顆心臟病藥,媽媽起訴學校案件將二審

      觀威海
      2026-01-12 09:42:12
      已經被證實:你愛喝的這種咖啡,很容易升高你的膽固醇,當心

      已經被證實:你愛喝的這種咖啡,很容易升高你的膽固醇,當心

      爆炸營養彭鑫蕊
      2026-01-13 16:33:33
      兩性關系:女人敢開口要這東西就是生理性喜歡了,裝不出來的

      兩性關系:女人敢開口要這東西就是生理性喜歡了,裝不出來的

      全球風情大揭秘
      2025-12-17 18:44:20
      A股收評:17連陽后首陰出現!明天 A股怎么走,我做了個大膽的預測!

      A股收評:17連陽后首陰出現!明天 A股怎么走,我做了個大膽的預測!

      股市皆大事
      2026-01-13 15:16:03
      又走一猛將,成都蓉城雪上加霜,新賽季別說冠軍,前五都難進!

      又走一猛將,成都蓉城雪上加霜,新賽季別說冠軍,前五都難進!

      我就是一個說球的
      2026-01-13 20:10:33
      美扣押俄油輪,嚴重后果開始顯現,土耳其提議:中俄伊土組建聯盟

      美扣押俄油輪,嚴重后果開始顯現,土耳其提議:中俄伊土組建聯盟

      鐵錘簡科
      2026-01-14 00:47:48
      “性蕭條”才是這個時代真正的危機

      “性蕭條”才是這個時代真正的危機

      深藍夜讀
      2025-09-24 16:00:09
      果然不出所料,委內瑞拉的石油“有問題”,只有中國能安穩開采!

      果然不出所料,委內瑞拉的石油“有問題”,只有中國能安穩開采!

      古事尋蹤記
      2026-01-13 07:10:23
      哈梅內伊用俄語隔空喊話:為何緊抱俄羅斯,而非向中國求援?

      哈梅內伊用俄語隔空喊話:為何緊抱俄羅斯,而非向中國求援?

      矚望云霄
      2026-01-13 15:23:25
      阿森納在對陣切爾西的關鍵戰前遭遇雙重傷病警報

      阿森納在對陣切爾西的關鍵戰前遭遇雙重傷病警報

      綠茵情報局
      2026-01-13 22:53:50
      45歲童蕾隱居浙江小院!老公獲刑后帶女住平房,泳池種菜太愜意

      45歲童蕾隱居浙江小院!老公獲刑后帶女住平房,泳池種菜太愜意

      胡一舸南游y
      2026-01-12 20:02:01
      東契奇42+7+8湖人不敵國王3連敗,勒布朗22分德羅贊32+6

      東契奇42+7+8湖人不敵國王3連敗,勒布朗22分德羅贊32+6

      湖人崛起
      2026-01-13 13:24:00
      美媒:中國簡直“反人類”,美國死攻的技術,居然要被中國搶先了

      美媒:中國簡直“反人類”,美國死攻的技術,居然要被中國搶先了

      音樂時光的娛樂
      2026-01-14 01:57:27
      你是怎么發現同事在曖昧的?網友:我們大老板臉上有同款布靈布靈

      你是怎么發現同事在曖昧的?網友:我們大老板臉上有同款布靈布靈

      夜深愛雜談
      2026-01-13 21:44:58
      伊朗從骨子里瞧不上中國!棄GPS改用北斗,被美打痛不得已選中

      伊朗從骨子里瞧不上中國!棄GPS改用北斗,被美打痛不得已選中

      百態人間
      2025-12-12 16:03:57
      妹子沖浪滑倒后居然把比基尼甩飛了?這現場圖簡直不忍直視啊哈哈哈

      妹子沖浪滑倒后居然把比基尼甩飛了?這現場圖簡直不忍直視啊哈哈哈

      斗圖
      2026-01-12 23:00:36
      20 塊錢能買到啥好煙?這4款煙硬碰硬,誰才是性價比天花板?

      20 塊錢能買到啥好煙?這4款煙硬碰硬,誰才是性價比天花板?

      老特有話說
      2026-01-11 22:56:27
      “多所中小學到校時間改為8點”上熱搜!成都的學校是幾點?

      “多所中小學到校時間改為8點”上熱搜!成都的學校是幾點?

      掌上金牛
      2026-01-13 18:59:10
      維爾茨5戰造4球,9500萬神鋒傳射!4-1橫掃弱旅,利物浦終結3連平

      維爾茨5戰造4球,9500萬神鋒傳射!4-1橫掃弱旅,利物浦終結3連平

      我的護球最獨特
      2026-01-13 05:43:30
      驚人的母子定律:你與母親的關系,就是你與世界的關系,不得不信

      驚人的母子定律:你與母親的關系,就是你與世界的關系,不得不信

      聞心品閣
      2026-01-10 09:34:38
      2026-01-14 03:43:00
      華爾街見聞官方 incentive-icons
      華爾街見聞官方
      中國領先的金融商業信息提供商
      140065文章數 2652117關注度
      往期回顧 全部

      科技要聞

      每年10億美元!谷歌大模型注入Siri

      頭條要聞

      特朗普:已取消所有與伊朗官員的會談

      頭條要聞

      特朗普:已取消所有與伊朗官員的會談

      體育要聞

      他帶出國乒世界冠軍,退休后為愛徒返場

      娛樂要聞

      蔡卓妍承認新戀情,與男友林俊賢感情穩定

      財經要聞

      "天量存款"將到期 資金會否搬入股市?

      汽車要聞

      限時9.99萬元起 2026款啟辰大V DD-i虎鯨上市

      態度原創

      本地
      親子
      健康
      公開課
      軍事航空

      本地新聞

      云游內蒙|到巴彥淖爾去,赴一場塞上江南的邀約

      親子要聞

      小學和幼兒園老師2年減少45萬

      血常規3項異常,是身體警報!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美媒:美對伊朗行動選項"遠超傳統空襲"

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 免费人妻无码不卡中文18禁| 国产视频一区二区| 夜夜高潮夜夜爽夜夜爱爱| 无码 人妻 在线 视频| 亚洲日本乱码在线观看| AV一二三| 东京热无码av男人的天堂| 网友自拍偷拍一区| 国产成人综合在线观看 | 一本色道久久综合亚洲精东小说| 男人的天堂色偷偷亚洲京东| 国产精品一区二区AV| 渝中区| 免费国产女王调教在线视频| 精品视频福利| 亚洲乱码日产精品bd在线下载| 日本免费一区二区三区| 无码偷拍| 麻豆国产成人av高清在线| 中文精品字幕人妻熟女| 成人免费无码成人影院日韩| 亚洲AV无码东方伊甸园| 国产精品漂亮美女在线观看| 亚洲69视频| 精久久久久无码区中文字幕| 免费人成视频19674不收费 | 亚洲第一国产综合| 99在线精品视频在线观看| 精品国产一区二区三区国产馆| 色综合久久88色综合天天提莫| 亚洲30p| 草草浮力影院| 日韩特黄无码A片免费视频| 国产人成亚洲第一网站在线播放| 国产偷人妻精品一区二区在线| 欧洲美女黑人粗性暴交视频| 日韩AV免费| 亚洲老女人区一区二视频| 无码人妻h动漫| 亚洲va欧美ⅴa国产va影院| 亚洲国产另类久久久精品网站|