<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ICLR 2026|早于DeepSeek Engram,STEM已重構Transformer記憶

      0
      分享至



      近年來,隨著大語言模型規模與知識密度不斷提升,研究者開始重新思考一個更本質的問題:模型中的參數應如何被組織,才能更高效地充當「記憶」。

      在標準 Transformer 的 FFN 中,知識主要隱式存儲在 up-projection 等密集矩陣里,并通過輸入相關的矩陣乘法被動態激活,這種方式在表達力上有效,但在參數可尋址性、可編輯性與系統效率上存在天然限制。

      圍繞這一問題,學術界與工業界逐漸將目光投向更離散、更結構化的參數組織方式。以 DeepSeek 提出的 engram 為代表,近期多項工作重新喚起了對「查表式記憶(lookup-based memory)」的關注。而有意思的是,在 engram 發布之前約三個月,這篇 ICLR paper 也在這一方向進行系統探索 。



      • 論文鏈接:https://arxiv.org/pdf/2601.10639
      • 項目主頁:https://infini-ai-lab.github.io/STEM/

      與 MoE 相關工作不同,STEM 并非在現有稀疏路由框架上做局部改進,而是直接從 FFN 結構入手,將 up-projection 替換為按 token 索引的層級 embedding 表,以一種靜態、無運行時路由的方式重構 Transformer 中「記憶」的訪問路徑。

      從「算地址」到「查地址」:STEM 的核心直覺

      如果從 key-value memory view 來看標準 Transformer,SwiGLU 等 FFN 結構通常通過一次 up-projection,將輸入表示映射到高維空間,生成可被 gate 調制的「地址向量」。

      這一過程本質上是輸入相關的密集矩陣乘法,既昂貴,又在參數層面高度耦合。

      STEM 的關鍵洞察在于:如果 FFN 的作用更接近于「按 token 訪問記憶」,那么這些地址向量是否真的需要由輸入動態生成?

      基于這一問題,STEM 選擇了一條極為直接的路徑:不再通過 up-projection 計算地址向量,而是為每一層維護一個按 token 索引的 embedding 表,在前向傳播時直接根據 token id 查表獲取對應向量。





      gate 與 down-projection 則被完整保留,用于對查表得到的向量進行上下文調制與壓縮。

      這一替換,使 FFN 的結構發生了一個本質變化:「記憶容量」第一次與「每 token 計算量」被明確解耦。

      結構變化雖小,卻帶來一系列連鎖效應

      盡管 STEM 只替換了 FFN 中的一個子模塊,但實驗結果表明,這一設計在多個維度上產生了顯著影響。

      1. 可編輯性:直接修改「知識向量」

      STEM 的一個尤為引人注目的特性,是其顯式的 token–參數對應關系。



      由于每一層的 embedding 都直接與 token id 綁定,研究者可以在不進行再訓練的情況下,直接替換某個 token 的 STEM 向量,從而改變模型在相關事實上的輸出行為。比如圖中例子展示僅通過替換「Spain」與「Germany」的向量,就可以使模型對首都問題的回答發生對應變化。

      這一能力為模型的知識編輯、和對模型的理解提供了一種新思路。

      2. 訓練穩定性:靜態稀疏優于動態路由

      與 MoE 等依賴運行時路由的方案不同,STEM 屬于一種靜態稀疏結構:每個 token 在每一層所訪問的 embedding 是確定的,不涉及負載均衡或 all-to-all 通信。這種設計避免了 MoE 中常見的 load skew 與 loss spike 問題。



      3. 更高效的「記憶空間」:embedding 幾何結構的改變

      從表示空間的角度看,用 token-indexed embedding 替代 up-projection,會顯著改變 FFN 輸入向量的幾何分布。STEM 中的 embedding 表呈現出更大的角度散布(large angular spread),不同 token 的向量更加接近正交,從而有效減少了參數之間的相互干擾(cross-talk)。

      這一性質意味著,在相同甚至更低的計算成本下,模型能夠維持更多「可尋址的記憶槽位」,對知識存儲和檢索尤為有利。

      4. 計算與系統效率:FLOPs 與 IO 的雙重下降

      從計算復雜度上看,移除 up-projection 后,每一層可節省約 d?d_ff 級別的矩陣乘法開銷。更重要的是,大規模的 embedding 表可以被離載到 CPU,并通過異步 prefetch 與緩存策略進行訪問。

      實驗結果:規模、任務與長上下文的系統驗證

      在 350M 與 1B 兩個模型規模上,STEM 被系統性地與 dense baseline 進行對比。

      結果顯示:

      • 整體平均性能提升約3–4%,部分知識類任務提升幅度可達9–10%;
      • 在 Needle-in-a-Haystack 與 LongBench 等長上下文評測中,STEM 的優勢還會隨著上下文長度的增加而擴大。

      工程視角:如何真正落地

      論文也對 STEM 的系統實現給出了較為完整的討論:

      • 替換位置:僅替換 up-projection 是關鍵,盲目替換 gate-projection 會破壞上下文調制能力;
      • 存儲策略:embedding 表可 CPU 離載,訓練時需要將梯度回寫到對應的 optimizer state;
      • 折衷方案:在參數占比與顯存壓力之間,可采用部分層替換或混合變體進行平衡。

      結語

      STEM 展示了一種值得關注的趨勢:通過改變參數的「組織方式」,而非一味增加規模或計算,模型同樣可以獲得顯著能力提升。

      在當前大模型架構逐漸走向復雜化的背景下,這種簡潔、穩定且工程友好的設計思路,或許正是下一階段基座模型演進中不可忽視的一條路徑。

      作者介紹

      本文第一作者 Ranajoy Sadhukhan 為卡內基梅隆大學(CMU)InfiniAI Lab 博士生,師從陳貝迪教授。該工作完成于其在 Meta AI 實習期間,實習導師包括劉澤春、曹晟(Rick Cao)與田淵棟等研究人員。

      InfiniAI Lab 由陳貝迪教授創立,致力于模型、系統與硬件協同設計,研究高效且可擴展的 AI 算法與系統,重點方向包括長上下文多模態建模、突破傳統 scaling laws 的新一代模型架構,以及基礎模型的理解與推理能力增強,同時推動算法與系統層面的效率優化,以促進 AI 技術的普及化。

      劉澤春為 Meta AI 研究科學家,研究方向涵蓋基座模型訓練,大模型壓縮、稀疏化與端側部署優化,專注于模型高效推理與系統協同設計。

      曹晟(Rick Cao)為 Meta AI 研究員,主要研究大模型系統優化與高效推理架構設計,關注大規模模型在真實系統環境中的部署與加速問題。

      田淵棟為 Meta AI 資深研究科學家,長期從事強化學習與大模型研究,曾參與 AlphaZero 等強化學習系統研發,并關注基礎模型的推理與決策能力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      總膽固醇新標準來了,不再是5.2mmol/L,超標人群早查早控更安心

      總膽固醇新標準來了,不再是5.2mmol/L,超標人群早查早控更安心

      垚垚分享健康
      2026-03-10 16:57:00
      寧德時代2025年凈利潤722億元:超長城、上汽等13家上市車企利潤總和

      寧德時代2025年凈利潤722億元:超長城、上汽等13家上市車企利潤總和

      快科技
      2026-03-10 08:52:13
      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

      八斗小先生
      2025-12-26 09:33:27
      剛剛,湖北官宣“楚超”來了!

      剛剛,湖北官宣“楚超”來了!

      極目新聞
      2026-03-10 11:03:13
      56歲大媽心梗離世,醫生:吃他汀時除了牛奶,這6種食物盡量少碰

      56歲大媽心梗離世,醫生:吃他汀時除了牛奶,這6種食物盡量少碰

      岐黃傳人孫大夫
      2026-02-28 22:15:03
      活久見!四川“板板茶莫亂喝”標語走紅,防艾滋病背后的現實扎心

      活久見!四川“板板茶莫亂喝”標語走紅,防艾滋病背后的現實扎心

      火山詩話
      2026-03-10 14:51:28
      A股:大盤精準漲到4123.13點,不出意外的話,明天行情怎么看?

      A股:大盤精準漲到4123.13點,不出意外的話,明天行情怎么看?

      夜深愛雜談
      2026-03-10 19:01:16
      新科超級碗MVP肯尼斯-沃克加盟酋長,三年合同高達4500萬美元

      新科超級碗MVP肯尼斯-沃克加盟酋長,三年合同高達4500萬美元

      懂球帝
      2026-03-10 15:25:10
      國際油價反彈,WTI原油期貨漲幅擴大至4%

      國際油價反彈,WTI原油期貨漲幅擴大至4%

      每日經濟新聞
      2026-03-10 06:25:17
      三婚又要離,越扒越窒息,他也太渣了!

      三婚又要離,越扒越窒息,他也太渣了!

      背包旅行
      2026-03-07 20:05:55
      國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

      國家下狠手了!體制內大地震,少爺、公主們的“天”,要塌了

      霹靂炮
      2026-01-19 22:24:13
      伊朗提出停火條件!

      伊朗提出停火條件!

      中國經濟網
      2026-03-10 17:53:04
      德黑蘭市民興奮地喊道:卡爾恰克革命衛隊挨揍了!感謝美國以色列

      德黑蘭市民興奮地喊道:卡爾恰克革命衛隊挨揍了!感謝美國以色列

      老馬拉車莫少裝
      2026-03-08 10:49:49
      女足亞洲杯8強全部確定,中國女足對陣中國臺北

      女足亞洲杯8強全部確定,中國女足對陣中國臺北

      春日筆記
      2026-03-10 19:50:59
      胡爾克:裁判失去了對比賽的掌控;我們必須向所有球迷道歉

      胡爾克:裁判失去了對比賽的掌控;我們必須向所有球迷道歉

      懂球帝
      2026-03-09 23:46:05
      法媒:美軍如果介入臺海,中國1300枚導彈將癱瘓40億美資產?

      法媒:美軍如果介入臺海,中國1300枚導彈將癱瘓40億美資產?

      福建平子
      2026-03-08 08:39:09
      南寧一校長開會時說“呦西”,事后公開道歉

      南寧一校長開會時說“呦西”,事后公開道歉

      麥杰遜
      2026-03-08 13:13:41
      A股:不必等待了,傳來兩個信息,明天,周三歷史即將重演?

      A股:不必等待了,傳來兩個信息,明天,周三歷史即將重演?

      明心
      2026-03-10 16:45:38
      特朗普發出“打擊猛烈20倍”威脅后,伊朗開出停火條件

      特朗普發出“打擊猛烈20倍”威脅后,伊朗開出停火條件

      兵器展望
      2026-03-10 20:02:46
      開戰第11天,美以伊徹底失控:這場仗,從一開始就騙了全世界

      開戰第11天,美以伊徹底失控:這場仗,從一開始就騙了全世界

      阿芒娛樂說
      2026-03-10 19:40:44
      2026-03-10 20:56:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12467文章數 142580關注度
      往期回顧 全部

      科技要聞

      全民"養蝦"背后:大廠集體下場瘋狂賣Token

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      頭條要聞

      特朗普開始找接班人 當眾問捐款人怎么看萬斯和魯比奧

      體育要聞

      加蘭沒那么差,但鱸魚會用嗎?

      娛樂要聞

      肖戰首奪SMG視帝,孫儷四封視后創歷史

      財經要聞

      “龍蝦補貼”密集出爐 最高1000萬!

      汽車要聞

      MG4有SUV衍生 上汽乘用車多款新車規劃曝光

      態度原創

      旅游
      親子
      時尚
      數碼
      軍事航空

      旅游要聞

      意外邂逅金甲財神殿的人間煙火,這里可不只一年兩度的“財神會”

      親子要聞

      當萌娃被問:嬰兒為什么總是睡覺?她的回答太逗了

      今年春夏的褲子,彩色的更好看!

      數碼要聞

      史上最大電池折疊屏旗艦!榮耀Magic V6圖賞

      軍事要聞

      剛說完戰爭很快結束 特朗普改口

      無障礙瀏覽 進入關懷版