<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      【梁文鋒署名】DeepSeek再發(fā)新論文:75%思考+25%記憶,這是他們算出來的最優(yōu)解

      0
      分享至

      DeepSeek又發(fā)論文了。

      這次的主題有點意思:他們發(fā)現(xiàn),現(xiàn)在的大模型在浪費大量算力做一件很傻的事——用計算來模擬查字典

      論文叫《Conditional Memory via Scalable Lookup》,核心是一個叫Engram的模塊。


      這個名字有點意思。Engram是神經(jīng)科學(xué)術(shù)語,最早由德國生物學(xué)家Richard Semon在1904年提出,指的是大腦中存儲記憶痕跡的物理結(jié)構(gòu)——當(dāng)你記住"巴黎是法國首都"這個事實時,這條信息就以某種物理形式(可能是特定的神經(jīng)連接模式)存儲在你的大腦里,這個物理痕跡就叫engram。

      DeepSeek用這個名字,顯然是想說:我們要給大模型裝上真正的"記憶"。

      說實話,看完之后我挺興奮的——這篇論文的思路非常優(yōu)雅,而且解決的是一個很根本的問題。更重要的是,它觸及了一個認(rèn)知科學(xué)的經(jīng)典命題:記憶和思考是什么關(guān)系?

      先說問題:大模型在浪費算力做"背書"

      你有沒有想過,當(dāng)大模型看到"Diana, Princess of Wales"(戴安娜王妃)這個詞的時候,它內(nèi)部發(fā)生了什么?

      DeepSeek在論文里引用了一個很有意思的研究(PatchScope):模型需要消耗多層Attention和FFN,才能逐步把這個實體識別出來。

      具體來說,模型處理"Wales"這個詞時的內(nèi)部狀態(tài)演變:

      層數(shù)

      模型內(nèi)部理解

      1-2層

      "威爾士"(當(dāng)成英國的一個地區(qū))

      3層

      "歐洲的一個國家"

      4層

      "女性君主持有的頭銜"(開始識別Princess)

      5層

      "威爾士王儲的妻子"

      6層

      "戴安娜王妃(1961-1997),查爾斯王子的前妻"

      看到?jīng)]?模型用了6層計算,才把一個固定的歷史人物識別出來。

      問題在于:這個信息是靜態(tài)的、固定的,根本不需要每次都"計算"出來。

      "亞歷山大大帝"就是"亞歷山大大帝","四大發(fā)明"就是"四大發(fā)明","張仲景"就是"張仲景"。這些固定搭配、命名實體、慣用表達(dá),每次都用神經(jīng)網(wǎng)絡(luò)重新計算一遍,是不是有點傻?

      這就像你每次需要查"中國首都是哪"的時候,不是直接查字典,而是從頭推理一遍——中國是個國家,國家有首都,中國的政治中心在...

      DeepSeek的核心觀點是:大模型浪費了大量的"網(wǎng)絡(luò)深度"在做這種重復(fù)性的靜態(tài)知識重建。這些算力本來可以用來做更有價值的事——比如推理。

      Engram的核心思想:給模型發(fā)一本字典

      想象你在考試。

      以前的規(guī)則是:什么都不能帶,全靠腦子現(xiàn)場推。"亞歷山大大帝是誰?"你得從頭想——亞歷山大,希臘名字,大帝說明是君主,歷史上有名的希臘君主...

      現(xiàn)在新規(guī)則:允許帶一本字典進考場。字典里寫著"亞歷山大大帝 = 馬其頓國王,公元前356-323年,征服了波斯帝國"。你直接翻到這一頁,抄上去,省下來的時間做后面的推理題。

      Engram就是這本字典。


      具體怎么查?很簡單:

      模型看到"Alexander the Great"這三個詞連在一起,就像看到字典的索引詞條。它用一個很快的方法(哈希)定位到字典里對應(yīng)的那一頁,直接把預(yù)先存好的信息拿出來用。

      整個過程不需要"思考",只需要"翻頁"。

      但這里有個問題:同一個詞在不同場合意思不一樣。

      比如"蘋果",可能是水果,也可能是那家科技公司。字典里存的是哪個意思?

      Engram的解決方案很聰明:查完字典之后,先看看上下文,再決定用不用

      如果前面在聊水果,字典里查出來的"蘋果公司"就不太對勁,模型會自動忽略這個查表結(jié)果,繼續(xù)用自己的推理。如果前面在聊手機,那字典里的信息就很有用,直接采納。

      這就像一個聰明的學(xué)生:帶了字典進考場,但不是無腦抄,而是先判斷字典里的答案和題目對不對得上。

      關(guān)鍵發(fā)現(xiàn):U型縮放定律

      這里是論文最有意思的部分。

      DeepSeek研究了一個問題:如果總參數(shù)量固定,應(yīng)該把多少參數(shù)分配給MoE專家,多少分配給Engram記憶?

      他們定義了一個"分配比例"ρ:

      • ρ = 100% 表示純MoE(所有稀疏參數(shù)都給專家)

      • ρ < 100% 表示把部分參數(shù)從專家轉(zhuǎn)移到Engram

      實驗結(jié)果讓人驚訝:


      驗證損失呈現(xiàn)U型分布

      • 純MoE(ρ=100%)不是最優(yōu)的

      • 分配約20-25%給Engram(ρ≈75-80%)效果最好

      • 把太多參數(shù)給Engram(ρ<50%)效果又變差

      這個U型曲線說明了什么?

      MoE和Engram是互補的

      • MoE擅長動態(tài)的、需要上下文推理的任務(wù)

      • Engram擅長靜態(tài)的、固定模式的識別

      兩者缺一不可。純MoE缺少記憶能力,純Engram缺少推理能力。

      插一段:博爾赫斯早就寫過這個

      看到這個U型曲線的時候,我突然想起博爾赫斯的一個短篇:**《博聞強記的富內(nèi)斯》**(Funes the Memorious)。

      故事講的是一個叫富內(nèi)斯的阿根廷青年,從馬上摔下來之后,獲得了"完美記憶"的能力——他能記住一切。每一片葉子的形狀,每一朵云的變化,甚至能記住1882年4月30日黎明時分南方天空的云彩排列。

      但博爾赫斯寫道:富內(nèi)斯無法思考

      "思考就是忘記差異,就是概括,就是抽象。在富內(nèi)斯塞滿了東西的世界里,只有細(xì)節(jié),幾乎是直接感知的細(xì)節(jié)。"

      富內(nèi)斯能記住三個不同時刻看到的同一條狗,但他無法理解"狗"這個概念——因為每一條狗、每一個瞬間的狗,對他來說都是完全不同的東西。他記住了一切,卻失去了抽象的能力。

      這不就是論文里U型曲線的左端嗎?

      當(dāng)ρ趨近于0(全是Engram,沒有MoE)時,模型有無限的記憶,但失去了推理能力。它能記住"亞歷山大大帝"是誰,但無法用這些知識進行推理。

      反過來,當(dāng)ρ=100%(全是MoE,沒有Engram)時,模型有強大的推理能力,但要浪費大量算力重建那些本可以直接記住的東西。

      博爾赫斯在1942年就洞察到了這一點:記憶和思考是互補的,但也是對立的。完美的記憶會殺死思考,而純粹的思考則需要不斷重新發(fā)明輪子。

      最優(yōu)解在中間——既有記憶,又有思考。

      DeepSeek的實驗數(shù)據(jù)給出了一個驚人精確的答案:大約75-80%給思考,20-25%給記憶

      這讓我想到另一個認(rèn)知心理學(xué)的經(jīng)典概念:**組塊(Chunking)**。

      1956年,心理學(xué)家George Miller發(fā)表了著名的論文《神奇的數(shù)字7±2》,指出人類工作記憶的容量是有限的,但我們可以通過"組塊"來擴展它。比如記電話號碼138-8888-6666,你不是記11個數(shù)字,而是記3個組塊。

      N-gram本質(zhì)上就是語言的組塊。"亞歷山大大帝"不是5個字,而是1個組塊。Engram做的事情,就是把這些組塊預(yù)先存好,省得每次都要重新計算。

      人腦早就在這么干了。DeepSeek只是讓大模型學(xué)會了同樣的技巧。

      實驗結(jié)果:推理能力提升比知識提升更大

      這是讓我最驚訝的部分。

      你可能會想:Engram是個"記憶模塊",應(yīng)該主要提升知識類任務(wù)吧?

      確實,知識任務(wù)有提升:

      • MMLU:+3.4

      • CMMLU:+4.0

      • MMLU-Pro:+1.8

      推理任務(wù)的提升更大

      • BBH:+5.0

      • ARC-Challenge:+3.7

      • DROP:+3.3

      甚至代碼和數(shù)學(xué)也有顯著提升:

      • HumanEval:+3.0

      • MATH:+2.4

      • GSM8K:+2.2

      等等,一個"記憶模塊"為什么能提升推理能力?

      機制分析:為什么"記憶模塊"能提升推理?

      這是我最想搞明白的問題。

      DeepSeek做了一個很有意思的實驗:他們"偷看"模型每一層在想什么。

      具體方法是:把每一層的中間結(jié)果拿出來,問它"你現(xiàn)在覺得下一個詞是什么?"。如果這一層已經(jīng)很接近最終答案,說明模型在這一層就基本"想明白了"。

      結(jié)果很直觀:

      有Engram的模型,在很早的層就"想明白了";沒有Engram的模型,要到很深的層才行。

      為什么?

      因為沒有字典的模型,前面幾層都在忙著做一件事:搞清楚"亞歷山大大帝"是誰。它得一層一層地拼湊——這是個人名,是個歷史人物,是個國王,是馬其頓的國王...

      等它終于搞清楚這是誰了,已經(jīng)用掉了5、6層。剩下的層才能開始真正的推理。

      但有字典的模型不一樣。第2層的時候,Engram直接告訴它:"亞歷山大大帝 = 馬其頓國王,征服者"。好了,搞定,后面20多層全部用來推理。

      這就像兩個學(xué)生做同一張卷子

      一個學(xué)生得先花20分鐘背公式,再用40分鐘做題。

      另一個學(xué)生帶了公式表,60分鐘全用來做題。

      誰的推理題做得更好?顯然是第二個。

      DeepSeek還做了一個更精確的測量:Engram模型第5層的"思考深度",相當(dāng)于普通模型第12層的水平。

      換句話說,Engram相當(dāng)于免費給模型加了7層深度。

      這就解釋了為什么推理能力提升這么大——不是Engram本身能推理,而是它把推理的空間讓出來了

      長上下文能力也炸了

      還有個意外收獲:處理長文章的能力暴漲。

      有個測試叫"大海撈針"——在一篇很長的文章里藏一句關(guān)鍵信息,看模型能不能找到。

      任務(wù)

      沒有字典

      有字典

      多問題大海撈針

      84.2%

      97.0%

      變量追蹤

      77.0%

      89.0%

      為什么字典能幫助處理長文章?

      想象你在讀一本很長的小說。如果你每次看到"福爾摩斯"都要停下來想"這是誰來著...",讀到后面肯定記不住前面的劇情。

      但如果"福爾摩斯 = 偵探,住貝克街221B"這個信息已經(jīng)存在字典里,你的注意力就可以全部用來追蹤劇情——誰殺了誰,線索在哪,兇手是誰。

      Engram處理了"這是誰"的問題,Attention就可以專注于"發(fā)生了什么"的問題。

      相當(dāng)于給大腦減負(fù)了。

      系統(tǒng)設(shè)計:字典可以放在抽屜里

      這里體現(xiàn)了DeepSeek一貫的風(fēng)格:理論創(chuàng)新和工程落地并重

      繼續(xù)用考試的比喻。

      MoE(專家模型)的問題是:每道題都要"現(xiàn)場"決定找哪個專家來答,這個決定本身就要花時間。

      但字典不一樣。你看到"亞歷山大大帝",就知道要翻到A開頭那一頁。你不需要先讀完整道題,才知道去查哪個詞條。

      這意味著什么?

      意味著字典可以提前準(zhǔn)備好。

      模型還在處理第1層的時候,系統(tǒng)就已經(jīng)知道第2層要查什么詞條了。所以可以提前把那一頁準(zhǔn)備好,等模型算到第2層的時候,字典已經(jīng)翻開擺在那兒了。

      更妙的是:字典不需要放在桌上,放在抽屜里也行。

      GPU顯存很貴,就像桌面空間有限。但CPU內(nèi)存便宜得多,就像抽屜容量大得多。

      既然可以提前知道要查什么,那就提前從抽屜里把那一頁拿出來,等用的時候已經(jīng)在桌上了。

      DeepSeek做了個實驗:把一本1000億參數(shù)的"字典"放在抽屜里(CPU內(nèi)存),結(jié)果:

      配置

      速度

      不帶字典

      9,031 字/秒

      帶1000億參數(shù)字典(放抽屜里)

      8,858 字/秒

      只慢了2% ,但多了1000億參數(shù)的知識。

      這就是為什么Engram可以做得很大——字典放抽屜里就行,不占桌面。

      門控可視化:確實在識別固定模式

      論文最后有個很直觀的可視化:


      紅色表示門控值高(Engram被激活),白色表示門控值低(Engram被忽略)。

      可以看到,門控在這些地方激活:

      • "Alexander the Great"(亞歷山大大帝)

      • "the Milky Way"(銀河系)

      • "Princess of Wales"(威爾士王妃)

      • "四大發(fā)明"

      • "張仲景"

      • "傷寒雜病論"

      全是命名實體和固定搭配。Engram確實在做它該做的事:識別靜態(tài)模式。

      往大了說:DeepSeek在開一條新路

      回到開頭的問題:這篇論文的意義是什么?

      過去幾年,大家都在一個方向上卷:怎么讓模型算得更聰明。MoE讓不同的專家處理不同的問題,Attention讓模型看到更遠(yuǎn)的上下文,更深的網(wǎng)絡(luò)讓推理更復(fù)雜。

      但不管怎么卷,本質(zhì)上都是在優(yōu)化"計算"。

      DeepSeek說:等等,有些問題根本不需要算,查一下就行了。

      這個思路其實很符合直覺:人腦也不是什么都靠推理,很多時候就是直接調(diào)用記憶。你看到"1+1"不需要推理,直接輸出"2"就行。

      論文最后一句話很有意思:

      "We envision conditional memory as an indispensable modeling primitive for next-generation sparse models."

      翻譯過來:我們認(rèn)為條件記憶會成為下一代稀疏模型的基礎(chǔ)組件。

      DeepSeek在押注一個新的架構(gòu)方向。

      最后:記憶與思考的平衡

      回到開頭的問題:記憶和思考是什么關(guān)系?

      博爾赫斯用富內(nèi)斯告訴我們:完美的記憶會殺死思考。認(rèn)知心理學(xué)告訴我們:人腦用組塊來平衡記憶和思考的負(fù)擔(dān)。

      現(xiàn)在DeepSeek用實驗數(shù)據(jù)告訴我們:最優(yōu)的比例大約是75%計算 + 25%記憶。

      這個數(shù)字讓我覺得很有意思。它意味著,即使是"智能"系統(tǒng),也不能全靠"聰明"——你得記住一些東西,才能把腦力用在更值得思考的地方。

      這篇論文給我最大的啟發(fā)是:有時候最好的優(yōu)化不是讓計算更快,而是把計算變成查表。

      O(1)的查表永遠(yuǎn)比O(n)的計算快。如果一個問題的答案是固定的、可以預(yù)先算好存起來的,那就沒必要每次都重新算。

      這個道理在計算機科學(xué)里叫"空間換時間"。但在大模型領(lǐng)域,過去幾年大家都在卷MoE、卷Attention、卷更深的網(wǎng)絡(luò),似乎忘了還有"記憶"這條路。

      DeepSeek的Engram提醒我們:大模型不是越大越好、也不是越深越好,關(guān)鍵是把合適的任務(wù)分配給合適的模塊

      靜態(tài)知識 → 查表(Engram)

      動態(tài)推理 → 計算(MoE)

      就像人腦一樣:你不需要每次看到"1+1"都重新推導(dǎo),直接從記憶里調(diào)出"2"就行了。省下來的腦力,用來思考更有價值的問題。

      富內(nèi)斯記住了一切,卻無法思考。

      純MoE模型能夠思考,卻要浪費算力重建記憶。

      最聰明的系統(tǒng),是知道什么該記住、什么該思考的系統(tǒng)。

      參考資料

      • Engram論文:https://github.com/deepseek-ai/Engram

      • DeepSeek-V3技術(shù)報告:https://arxiv.org/abs/2412.19437

      • mHC論文:https://arxiv.org/abs/2512.24880

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      高鐵時代,綠皮車卻火了,大巴車都要起死回生了

      高鐵時代,綠皮車卻火了,大巴車都要起死回生了

      歷史總在押韻
      2026-02-12 23:53:10
      李亞鵬突然提到十年前最難時給黃曉明發(fā)短信,不到一分鐘收到回復(fù)

      李亞鵬突然提到十年前最難時給黃曉明發(fā)短信,不到一分鐘收到回復(fù)

      百態(tài)人間
      2026-02-10 15:25:10
      浙江省稅務(wù)局黨委書記、局長孟軍:堅定扛起經(jīng)濟大省挑大梁的稅務(wù)擔(dān)當(dāng)

      浙江省稅務(wù)局黨委書記、局長孟軍:堅定扛起經(jīng)濟大省挑大梁的稅務(wù)擔(dān)當(dāng)

      新浪財經(jīng)
      2026-02-13 11:11:38
      不能錯過!2月13日晚19:00比賽!中央5套CCTV5、CCTV5+直播節(jié)目表

      不能錯過!2月13日晚19:00比賽!中央5套CCTV5、CCTV5+直播節(jié)目表

      林子說事
      2026-02-13 14:54:46
      中央軍委全力反腐敗,說明中國人民解放軍將要擔(dān)大任,干大事!

      中央軍委全力反腐敗,說明中國人民解放軍將要擔(dān)大任,干大事!

      安安說
      2026-01-29 09:33:17
      大年三十除夕必吃的3道菜,好吃吉利,吃完馬年旺,快收藏起來!

      大年三十除夕必吃的3道菜,好吃吉利,吃完馬年旺,快收藏起來!

      江江食研社
      2026-02-12 18:30:07
      恒基太子爺李家誠入稟高等法院,控告藝人周秀娜誹謗及騷擾

      恒基太子爺李家誠入稟高等法院,控告藝人周秀娜誹謗及騷擾

      TVB劇評社
      2026-02-13 16:22:16
      金融戰(zhàn)已經(jīng)打響

      金融戰(zhàn)已經(jīng)打響

      白淺娛樂聊
      2026-02-12 19:39:55
      退休14年被查!中國人壽原總裁楊超案:投資領(lǐng)域腐敗典型,退休非安全港

      退休14年被查!中國人壽原總裁楊超案:投資領(lǐng)域腐敗典型,退休非安全港

      聽楓觀瀾
      2025-12-28 23:13:23
      霍勒迪31分9板7助開拓者戰(zhàn)勝爵士,克林根23分18板楊瀚森2分

      霍勒迪31分9板7助開拓者戰(zhàn)勝爵士,克林根23分18板楊瀚森2分

      湖人崛起
      2026-02-13 12:33:42
      慘敗仍有收獲!U18國青2將被張博源主帥看中 除張懿趙杰還有1人

      慘敗仍有收獲!U18國青2將被張博源主帥看中 除張懿趙杰還有1人

      大嘴爵爺侃球
      2026-02-13 18:21:14
      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      消失的彭加木:一場精心計劃的逃亡?隱藏在羅布泊中的離奇秘密

      史之銘
      2026-02-10 15:35:39
      媽媽嫁給爸爸的理由有多簡單粗暴?網(wǎng)友:我爹圖我姥爺是縣委書記

      媽媽嫁給爸爸的理由有多簡單粗暴?網(wǎng)友:我爹圖我姥爺是縣委書記

      帶你感受人間冷暖
      2026-02-11 12:27:35
      當(dāng)?shù)谝淮螏ο蠡厣嚼锢霞視r!我要笑死在評論區(qū)

      當(dāng)?shù)谝淮螏ο蠡厣嚼锢霞視r!我要笑死在評論區(qū)

      另子維愛讀史
      2026-02-13 19:35:51
      震撼!國家投超3000億建新藏鐵路,1980公里每公里造價近2億

      震撼!國家投超3000億建新藏鐵路,1980公里每公里造價近2億

      有書
      2026-02-12 21:00:08
      Coco直播自曝經(jīng)濟不好,謝賢沒給她2000萬分手費,遺憾沒能結(jié)婚

      Coco直播自曝經(jīng)濟不好,謝賢沒給她2000萬分手費,遺憾沒能結(jié)婚

      離離言幾許
      2026-02-11 12:44:06
      驚喜連連!18歲全紅嬋強勢歸隊,4大好消息藏不住了

      驚喜連連!18歲全紅嬋強勢歸隊,4大好消息藏不住了

      卿子書
      2026-02-12 08:15:51
      《生命樹》大結(jié)局:邵云飛被逼跳樓,馮克清入獄,孟耀輝中槍身亡

      《生命樹》大結(jié)局:邵云飛被逼跳樓,馮克清入獄,孟耀輝中槍身亡

      小娛樂悠悠
      2026-02-13 13:22:35
      男子辭北京公務(wù)員,照顧非親非故老太太9年,網(wǎng)友:報恩還是犯傻

      男子辭北京公務(wù)員,照顧非親非故老太太9年,網(wǎng)友:報恩還是犯傻

      一絲不茍的法律人
      2026-02-13 13:29:56
      印度2nm成功流片!

      印度2nm成功流片!

      中國半導(dǎo)體論壇
      2026-02-11 22:26:02
      2026-02-13 22:23:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
      140文章數(shù) 61關(guān)注度
      往期回顧 全部

      科技要聞

      獨家探訪蔡磊:答不完的卷子 死磕最后一程

      頭條要聞

      浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

      頭條要聞

      浙江"一人公司"興起 前大廠程序員靠AI直接月入200萬

      體育要聞

      這張照片背后,是米蘭冬奧最催淚的故事

      娛樂要聞

      大衣哥女兒風(fēng)光出嫁,農(nóng)村婚禮超樸素

      財經(jīng)要聞

      華萊士母公司退市 瘋狂擴張下的食安隱憂

      汽車要聞

      探秘比亞迪巴西工廠 居然是這個畫風(fēng)!

      態(tài)度原創(chuàng)

      健康
      時尚
      房產(chǎn)
      數(shù)碼
      親子

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      穿上這些鞋擁抱春天

      房產(chǎn)要聞

      三亞新機場,又傳出新消息!

      數(shù)碼要聞

      IDC:2025年中國平板出貨量增13.1%,華為全年領(lǐng)跑,聯(lián)想逆勢增長

      親子要聞

      看看后媽是怎么做的

      無障礙瀏覽 進入關(guān)懷版