<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      ICLR 2026|早于DeepSeek Engram,STEM已重構Transformer記憶

      0
      分享至



      近年來,隨著大語言模型規模與知識密度不斷提升,研究者開始重新思考一個更本質的問題:模型中的參數應如何被組織,才能更高效地充當「記憶」。

      在標準 Transformer 的 FFN 中,知識主要隱式存儲在 up-projection 等密集矩陣里,并通過輸入相關的矩陣乘法被動態激活,這種方式在表達力上有效,但在參數可尋址性、可編輯性與系統效率上存在天然限制。

      圍繞這一問題,學術界與工業界逐漸將目光投向更離散、更結構化的參數組織方式。以 DeepSeek 提出的 engram 為代表,近期多項工作重新喚起了對「查表式記憶(lookup-based memory)」的關注。而有意思的是,在 engram 發布之前約三個月,這篇 ICLR paper 也在這一方向進行系統探索 。



      • 論文鏈接:https://arxiv.org/pdf/2601.10639
      • 項目主頁:https://infini-ai-lab.github.io/STEM/

      與 MoE 相關工作不同,STEM 并非在現有稀疏路由框架上做局部改進,而是直接從 FFN 結構入手,將 up-projection 替換為按 token 索引的層級 embedding 表,以一種靜態、無運行時路由的方式重構 Transformer 中「記憶」的訪問路徑。

      從「算地址」到「查地址」:STEM 的核心直覺

      如果從 key-value memory view 來看標準 Transformer,SwiGLU 等 FFN 結構通常通過一次 up-projection,將輸入表示映射到高維空間,生成可被 gate 調制的「地址向量」。

      這一過程本質上是輸入相關的密集矩陣乘法,既昂貴,又在參數層面高度耦合。

      STEM 的關鍵洞察在于:如果 FFN 的作用更接近于「按 token 訪問記憶」,那么這些地址向量是否真的需要由輸入動態生成?

      基于這一問題,STEM 選擇了一條極為直接的路徑:不再通過 up-projection 計算地址向量,而是為每一層維護一個按 token 索引的 embedding 表,在前向傳播時直接根據 token id 查表獲取對應向量。





      gate 與 down-projection 則被完整保留,用于對查表得到的向量進行上下文調制與壓縮。

      這一替換,使 FFN 的結構發生了一個本質變化:「記憶容量」第一次與「每 token 計算量」被明確解耦。

      結構變化雖小,卻帶來一系列連鎖效應

      盡管 STEM 只替換了 FFN 中的一個子模塊,但實驗結果表明,這一設計在多個維度上產生了顯著影響。

      1. 可編輯性:直接修改「知識向量」

      STEM 的一個尤為引人注目的特性,是其顯式的 token–參數對應關系。



      由于每一層的 embedding 都直接與 token id 綁定,研究者可以在不進行再訓練的情況下,直接替換某個 token 的 STEM 向量,從而改變模型在相關事實上的輸出行為。比如圖中例子展示僅通過替換「Spain」與「Germany」的向量,就可以使模型對首都問題的回答發生對應變化。

      這一能力為模型的知識編輯、和對模型的理解提供了一種新思路。

      2. 訓練穩定性:靜態稀疏優于動態路由

      與 MoE 等依賴運行時路由的方案不同,STEM 屬于一種靜態稀疏結構:每個 token 在每一層所訪問的 embedding 是確定的,不涉及負載均衡或 all-to-all 通信。這種設計避免了 MoE 中常見的 load skew 與 loss spike 問題。



      3. 更高效的「記憶空間」:embedding 幾何結構的改變

      從表示空間的角度看,用 token-indexed embedding 替代 up-projection,會顯著改變 FFN 輸入向量的幾何分布。STEM 中的 embedding 表呈現出更大的角度散布(large angular spread),不同 token 的向量更加接近正交,從而有效減少了參數之間的相互干擾(cross-talk)。

      這一性質意味著,在相同甚至更低的計算成本下,模型能夠維持更多「可尋址的記憶槽位」,對知識存儲和檢索尤為有利。

      4. 計算與系統效率:FLOPs 與 IO 的雙重下降

      從計算復雜度上看,移除 up-projection 后,每一層可節省約 d?d_ff 級別的矩陣乘法開銷。更重要的是,大規模的 embedding 表可以被離載到 CPU,并通過異步 prefetch 與緩存策略進行訪問。

      實驗結果:規模、任務與長上下文的系統驗證

      在 350M 與 1B 兩個模型規模上,STEM 被系統性地與 dense baseline 進行對比。

      結果顯示:

      • 整體平均性能提升約3–4%,部分知識類任務提升幅度可達9–10%;
      • 在 Needle-in-a-Haystack 與 LongBench 等長上下文評測中,STEM 的優勢還會隨著上下文長度的增加而擴大。

      工程視角:如何真正落地

      論文也對 STEM 的系統實現給出了較為完整的討論:

      • 替換位置:僅替換 up-projection 是關鍵,盲目替換 gate-projection 會破壞上下文調制能力;
      • 存儲策略:embedding 表可 CPU 離載,訓練時需要將梯度回寫到對應的 optimizer state;
      • 折衷方案:在參數占比與顯存壓力之間,可采用部分層替換或混合變體進行平衡。

      結語

      STEM 展示了一種值得關注的趨勢:通過改變參數的「組織方式」,而非一味增加規模或計算,模型同樣可以獲得顯著能力提升。

      在當前大模型架構逐漸走向復雜化的背景下,這種簡潔、穩定且工程友好的設計思路,或許正是下一階段基座模型演進中不可忽視的一條路徑。

      作者介紹

      本文第一作者 Ranajoy Sadhukhan 為卡內基梅隆大學(CMU)InfiniAI Lab 博士生,師從陳貝迪教授。該工作完成于其在 Meta AI 實習期間,實習導師包括劉澤春、曹晟(Rick Cao)與田淵棟等研究人員。

      InfiniAI Lab 由陳貝迪教授創立,致力于模型、系統與硬件協同設計,研究高效且可擴展的 AI 算法與系統,重點方向包括長上下文多模態建模、突破傳統 scaling laws 的新一代模型架構,以及基礎模型的理解與推理能力增強,同時推動算法與系統層面的效率優化,以促進 AI 技術的普及化。

      劉澤春為 Meta AI 研究科學家,研究方向涵蓋基座模型訓練,大模型壓縮、稀疏化與端側部署優化,專注于模型高效推理與系統協同設計。

      曹晟(Rick Cao)為 Meta AI 研究員,主要研究大模型系統優化與高效推理架構設計,關注大規模模型在真實系統環境中的部署與加速問題。

      田淵棟為 Meta AI 資深研究科學家,長期從事強化學習與大模型研究,曾參與 AlphaZero 等強化學習系統研發,并關注基礎模型的推理與決策能力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗發動“真實承諾-4”第31波攻勢

      伊朗發動“真實承諾-4”第31波攻勢

      新華社
      2026-03-09 21:27:43
      比秦始皇陵大3倍!世界最大帝陵藏在陜西一座山里,建了整整107年

      比秦始皇陵大3倍!世界最大帝陵藏在陜西一座山里,建了整整107年

      近史談
      2026-03-09 17:58:50
      過年聚會,班長強迫我給遲到的副市長讓座,下一秒副市長向我鞠躬

      過年聚會,班長強迫我給遲到的副市長讓座,下一秒副市長向我鞠躬

      小月故事
      2026-03-05 16:00:56
      伊朗媒體憤怒質問:你敢注視他們的眼睛嗎?

      伊朗媒體憤怒質問:你敢注視他們的眼睛嗎?

      新華社
      2026-03-09 23:50:13
      煽動分裂國家的李延賀,被最高法在人代會上點名

      煽動分裂國家的李延賀,被最高法在人代會上點名

      靜靜向你走來
      2026-03-09 16:26:51
      伊朗目標明確,特朗普考慮合適時機結束戰爭

      伊朗目標明確,特朗普考慮合適時機結束戰爭

      山河路口
      2026-03-09 20:10:08
      隨著中國女足2-1贏朝鮮,烏茲別克4-0,亞洲杯B組收官!8強出6席

      隨著中國女足2-1贏朝鮮,烏茲別克4-0,亞洲杯B組收官!8強出6席

      小火箭愛體育
      2026-03-09 19:03:29
      周鴻祎談“龍蝦”爆火:很快就能“一鍵安裝”

      周鴻祎談“龍蝦”爆火:很快就能“一鍵安裝”

      大象新聞
      2026-03-09 11:37:43
      復旦研究:二甲雙胍或成老年毒藥,壽命縮短22%,可信嗎?

      復旦研究:二甲雙胍或成老年毒藥,壽命縮短22%,可信嗎?

      39健康網
      2026-03-07 20:20:35
      離大譜:4架以色列特種部隊直升機突入黎巴嫩,只為尋找一具尸體

      離大譜:4架以色列特種部隊直升機突入黎巴嫩,只為尋找一具尸體

      領悟看世界
      2026-03-10 01:51:32
      日韓慌了!“薩德”被伊朗連續擊穿,關島在中國導彈面前是豆腐?

      日韓慌了!“薩德”被伊朗連續擊穿,關島在中國導彈面前是豆腐?

      阿芒娛樂說
      2026-03-09 20:04:24
      演都不演了!剛復出就開演唱會,票價賣到1280,到底誰給的自信?

      演都不演了!剛復出就開演唱會,票價賣到1280,到底誰給的自信?

      可樂談情感
      2026-03-09 19:27:28
      38歲老板娘淪為陪睡工具:揭秘黑茶高端騙局,入局者10有9個離婚

      38歲老板娘淪為陪睡工具:揭秘黑茶高端騙局,入局者10有9個離婚

      云景侃記
      2026-02-12 22:21:30
      我發現老一輩人帶娃最本質的問題,是不把孩子當人

      我發現老一輩人帶娃最本質的問題,是不把孩子當人

      棉花糖媽媽
      2026-02-27 21:52:58
      多架美軍轟炸機飛抵英國基地

      多架美軍轟炸機飛抵英國基地

      北青網-北京青年報
      2026-03-08 20:30:01
      時間節點如何?轟炸1月,全面轟炸即將開始、大體1周,月底有眉目

      時間節點如何?轟炸1月,全面轟炸即將開始、大體1周,月底有眉目

      邵旭峰域
      2026-03-09 12:52:01
      伊朗兒童怒燒梅西球衣 舉標語抗議 邁阿密主帥:我們被特朗普利用

      伊朗兒童怒燒梅西球衣 舉標語抗議 邁阿密主帥:我們被特朗普利用

      我愛英超
      2026-03-09 07:04:00
      王思聰送珠寶高調表白懶懶:老婆我愛你,兩人同框照曝光很恩愛

      王思聰送珠寶高調表白懶懶:老婆我愛你,兩人同框照曝光很恩愛

      銀河史記
      2026-03-09 19:12:35
      中國專家早預言!美國必打伊朗,原因不止石油,下一目標也已鎖定

      中國專家早預言!美國必打伊朗,原因不止石油,下一目標也已鎖定

      阿雹娛樂
      2026-03-08 21:28:13
      60+原來可以這么時髦,溫柔、松弛感拉滿,被這位博主狠狠治愈了

      60+原來可以這么時髦,溫柔、松弛感拉滿,被這位博主狠狠治愈了

      虎哥說衣不二
      2026-03-09 19:10:03
      2026-03-10 03:51:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12451文章數 142579關注度
      往期回顧 全部

      科技要聞

      OpenClaw更新,"養蝦"再也不會犯健忘癥了

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      體育要聞

      36連勝終結!大魔王也是可以戰勝的

      娛樂要聞

      薛之謙老婆懷二胎,現身產檢心情愉快

      財經要聞

      油價破100美元年內漲80% 全球市場劇震

      汽車要聞

      對標奔馳小號G級 路虎小型衛士最新消息曝光

      態度原創

      本地
      游戲
      時尚
      旅游
      公開課

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      到底怎么裝飾手柄,才不像內褲?

      今年最流行的5條半裙,怎么搭都好看!

      旅游要聞

      楓葉小鎮奧萊落子寶山濱江!賦能國際郵輪度假區提質升級

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版