<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Transformer與RNN合體,谷歌打下顯存門檻,解鎖超長上下文

      0
      分享至



      編輯|澤南

      最近,谷歌跟內存干上了。

      上個月,谷歌的 TurboQuant 研究曾經引發過一場行業地震,其宣稱能直接把大模型最吃顯存的 KV Cache 壓縮幾倍,讓市場開始擔憂未來對內存的需求,引發了一波內存股暴跌,后續還有不小的學術爭議。

      這個星期,又有一篇谷歌論文引發了 AI 圈的關注,作者表示他們提出的方法解決了大模型處理長文本時的「內存瓶頸」(又來了),但實施的是完全不同的技術路線。

      他們新開一條道路,通過對于大模型架構的機制創新,賦予了 RNN 「可生長的記憶容量」,找到了一種兼顧 Transformer 與 RNN 優勢的新方法



      該方法可以讓 AI 處理更長的文本,解鎖「超長上下文」能力,與此同時極大地降低了推理的資源門檻。

      人們紛紛表示歡迎:大模型生產環境要的就是這個。





      當前的大模型幾乎都是基于 Transformer 架構打造的,它占據統治地位,主要歸功于其可增長的記憶容量(注意力機制的計算和空間復雜度隨上下文長度呈二次方增長)。這使得 Transformer 極其擅長長上下文的信息召回(Recall)。

      然而,這種二次方復雜度也導致了嚴重的算力和顯存瓶頸,使得處理超長文本的成本極高。

      為解決這個問題,社區一直在復興 RNN、線性注意力模型(Linear Attention)以及狀態空間模型(SSM,如 Mamba 等)。這些循環架構的優勢在于記憶容量固定(復雜度為),推理速度快且顯存占用低。然而,它們的致命弱點在于:無論讀了多少文本,都必須把所有過去的信息壓縮到一個「固定大小」的隱藏狀態(Hidden State)中。

      這種「信息漏斗」導致它們在密集召回任務(Recall-intensive tasks,比如從極長的文檔中精準提取某個細節)中表現往往遠不如 Transformer。

      為打破僵局,來自 Google Research 的研究團隊提出了一種名為Memory Caching(MC)的技術,據說簡單而有效。



      • 論文:《Memory Caching: RNNs with Growing Memory》
      • 論文鏈接:https://arxiv.org/abs/2602.24281

      在這項研究的視角中,存在一個架構光譜:一端是 Transformer(無壓縮,Token 級緩存),另一端是傳統的 RNN(全壓縮,單一記憶)。而「記憶緩存(MC)」則解鎖了介于兩者之間的新形態:將成組 Token 壓縮并緩存到長期記憶狀態中,然后在需要時進行檢索。

      Transformer 會緩存每一個單獨的標記,而 RNN 則考慮一個固定大小的記憶,并將上下文中的一切壓縮到記憶的參數中。那么,如果我們把 RNN 的歷史記憶也緩存下來會怎樣?

      簡單來說,與其讓 RNN 只維護一個不斷被覆蓋和更新的「當前狀態」,不如定期對這些隱藏狀態進行「快照打卡」(Caching checkpoints)。這樣,在進行信息檢索時,模型不僅可以查看當前的「在線記憶」,還能直接調取「緩存記憶」中的歷史快照,瞬間找回過去的相關信息。



      在研究的過程中,作為概念驗證,研究人員提出了三種變體,基于過去的信息如何組合在一起。

      1、門控殘差記憶(Gated Residual Memory):使用查詢從過去檢索相關信息,然后執行類似注意力的池化來組合檢索到的信息。實際上,RNN 的記憶在增長,因此解碼成本也在增長:



      2、記憶湯(Memory Soup):另一種結合過去記憶的方式,是直接結合記憶的權重,而不是針對特定查詢的輸出。在這種情況下,我們需要對過去記憶的權重執行類似注意力的池化操作,然后對池化后的記憶執行一次檢索。同樣,這種變體相對于上下文長度具有不斷增長的有效記憶,因此解碼成本也在增長。



      3、稀疏選擇性緩存(Sparse Selective Caching,SSC):到目前為止,似乎沒有免費的午餐,我們需要在不斷增長的有效記憶和每 token 恒定的解碼成本之間做出選擇。

      于是作者提出了 SSC,這是一種類似于 MoBA 的專家混合模型,在序列維度上稀疏地選擇過去緩存記憶的一個子集,從而引出一個模型,其有效記憶在增長,但其每 token 解碼成本保持相對恒定:



      那么效果如何呢?

      該方法可以作為一種通用框架,插入到各種現有的循環架構中,如線性注意力模型,或作者之前提出的深度內存模型 Titans 等。

      實驗結果表明了其強大的有效性:



      模型在語言建模和常識推理任務上的表現。

      作者在 13 億參數的模型上進行了語言建模、召回密集型、長上下文以及 needle-in-a-haystack 等實驗,結果顯示 MC 相較于基礎模型提供了改進。其中包括:

      • 長上下文能力提升:在語言建模和長上下文理解任務中,加入了 MC 機制的循環模型性能得到了全面提升。
      • 縮小與 Transformer 的差距:在最具挑戰性的「上下文內召回(in-context recall)」任務中,加入了 MC 的模型擊敗了目前最先進(SOTA)的其他循環模型。
      • 依然存在上限:雖然 MC 極大地彌補了 RNN 的召回短板,并極大縮小了與 Transformer 之間的性能差距,但論文也指出,在純粹的密集召回任務上限上,Transformer 依然保持著最佳的準確率。

      總的來說,該研究利用一種極其優雅的算法直覺(緩存歷史狀態快照),解決了一個長期存在的理論難題,讓非 Transformer 架構在實用性上又向前邁進了一大步。

      盡管在極限的密集召回上,它依然尚未徹底超越 Transformer,但新路已經鋪就,隨著 RNN、SSM 等架構的持續進化,Transformer 一家獨大的現狀或許要有所改變了?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

      死了這條心!人民日報表態:中國不會救菲律賓,馬科斯投機到頭了

      風干迷茫人
      2026-04-24 16:01:23
      提前起飛10分鐘,大學生把海航告了

      提前起飛10分鐘,大學生把海航告了

      中國新聞周刊
      2026-04-24 18:21:10
      什么是美?這群北體青年給出了最“不設限”的答案

      什么是美?這群北體青年給出了最“不設限”的答案

      網易新聞出品
      2026-04-24 15:59:19
      微軟推員工“自愿買斷式離職”約8750人符合條件!網友:年齡+工齡≥70,自己算一下

      微軟推員工“自愿買斷式離職”約8750人符合條件!網友:年齡+工齡≥70,自己算一下

      小星球探索
      2026-04-24 20:41:59
      觀察|團結還是分裂?新舊秩序交疊下的伊朗政權謎題

      觀察|團結還是分裂?新舊秩序交疊下的伊朗政權謎題

      澎湃新聞
      2026-04-25 07:16:34
      61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

      61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

      以茶帶書
      2026-04-14 14:09:22
      上海警方:2人在乘坐軌交時大打出手,均被行政拘留

      上海警方:2人在乘坐軌交時大打出手,均被行政拘留

      上觀新聞
      2026-04-25 10:50:10
      5-0!英超保級隊狂飆 6輪不敗+2連勝轟9球 熱刺哭暈:已被甩開8分

      5-0!英超保級隊狂飆 6輪不敗+2連勝轟9球 熱刺哭暈:已被甩開8分

      我愛英超
      2026-04-25 06:22:05
      江蘇一爺爺得知孫女懷孕,一周建成豪華雞窩:已經養了20只小雞

      江蘇一爺爺得知孫女懷孕,一周建成豪華雞窩:已經養了20只小雞

      極目新聞
      2026-04-24 14:04:58
      觸碰紅線,華晨宇撫仙湖演唱會被立刻叫停,原因被扒,令人唏噓

      觸碰紅線,華晨宇撫仙湖演唱會被立刻叫停,原因被扒,令人唏噓

      許三歲
      2026-04-24 22:36:22
      北上廣深樓市暖風勁吹,到底了?摩根大通:中國樓市逼近拐點

      北上廣深樓市暖風勁吹,到底了?摩根大通:中國樓市逼近拐點

      南方都市報
      2026-04-24 20:32:23
      “明天下雨,面試能改天嗎”:角色定位不清,是成年人最大的災難

      “明天下雨,面試能改天嗎”:角色定位不清,是成年人最大的災難

      精讀君
      2026-04-24 09:00:18
      72歲王健林,被逼到崩潰邊緣......

      72歲王健林,被逼到崩潰邊緣......

      酷溫coolwin
      2026-04-24 16:46:47
      開市客北京:兩家COSTCO都是真的;開市客中國:暫不回應

      開市客北京:兩家COSTCO都是真的;開市客中國:暫不回應

      第一財經資訊
      2026-04-24 21:56:13
      在當下歷史的關鍵拐點,選擇中立,就是縱容邪惡

      在當下歷史的關鍵拐點,選擇中立,就是縱容邪惡

      壹家言
      2026-04-24 21:46:00
      皇馬奪冠夢碎!一戰4大爭議判罰,阿韋洛亞開炮,裁判到底在幫誰

      皇馬奪冠夢碎!一戰4大爭議判罰,阿韋洛亞開炮,裁判到底在幫誰

      奧拜爾
      2026-04-25 11:43:52
      好消息!全國免費電視正式落地,不用裝寬帶不交年費5分鐘就能看

      好消息!全國免費電視正式落地,不用裝寬帶不交年費5分鐘就能看

      小柱解說游戲
      2026-04-25 01:26:48
      58歲江珊露面,150斤穿西裝腚大腰圓,但臉顯年輕幾乎沒皺紋

      58歲江珊露面,150斤穿西裝腚大腰圓,但臉顯年輕幾乎沒皺紋

      墨印齋
      2026-04-24 16:43:38
      川崎前鋒官方:原中國籍19歲后衛關德晴已正式取得日本國籍

      川崎前鋒官方:原中國籍19歲后衛關德晴已正式取得日本國籍

      懂球帝
      2026-04-24 18:27:06
      徹底攤牌!首相訪華結束才5天,該國高官:中國投資可以,人別來

      徹底攤牌!首相訪華結束才5天,該國高官:中國投資可以,人別來

      聞識
      2026-04-24 12:23:01
      2026-04-25 12:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12852文章數 142635關注度
      往期回顧 全部

      科技要聞

      Anthropic剛拿亞馬遜250億美元,又拿谷歌400億

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規劃為商業用地

      頭條要聞

      房屋燒毀3年居民安置落空:原地塊已被規劃為商業用地

      體育要聞

      火箭0-3觸發百分百出局定律:本季加時賽9戰8敗

      娛樂要聞

      鄧超最大的幸運,就是遇見孫儷

      財經要聞

      別高估英偉達,別低估DeepSeek

      汽車要聞

      2026款樂道L90亮相北京車展 樂道L80正式官宣

      態度原創

      房產
      本地
      時尚
      藝術
      軍事航空

      房產要聞

      新一輪教育大爆發來了!海口,開始瘋狂建學校!

      本地新聞

      云游中國|逛世界風箏都 留學生探秘中國傳統文化

      朱珠到底為什么接這部劇?

      藝術要聞

      廈門新地標奠基!美圖立方視覺藝術中心,OPEN設計

      軍事要聞

      美防長:戰事不會“沒完沒了”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91国在线啪精品一区| 最新国产AV最新国产在钱 | 久久99视频| 国产传媒淫语对白AV| 九色综合狠狠综合久久| 免费裸体无遮挡黄网站免费看| 国产XXXX| 大又大又粗又硬又爽少妇毛片| 懂色av,蜜臀AV粉嫩av| 丝袜伊人网| 在线看av一区二区三区| 林口县| 国产成人免费一区二区三区| 尤物国产在线精品一区| 欧洲成人精品| 亚洲日韩av无码一区二区三区人 | 免费看男女做好爽好硬视频| 亚洲精品电影院| 2025AV在线| 伊人无码一区二区三区| 成人乱码一区二区三区av| 亚洲无线观看国产精品| 亚洲av影视| 日韩精品| 丰满人妻被中出中文字幕| 扒开双腿疯狂进出爽爽爽| 亚洲日韩AV在线| 国产九九免费视频| 无码国内精品久久人妻蜜桃| 亚洲精品另类| 隔壁人妻偷人bd中字| 成人欧美日韩一区二区三区| 四虎影视国产精品永久在线| 亚洲综合香蕉| 亚洲精品无码永久在线观看你懂的| 狼友福利在线观看| 欧美国产三级| 人妻人人摸| 18禁无遮挡免费视频网站| 亚洲日韩AV无码专区影院| yin荡护士揉捏乱p办公室视频|