<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      不用額外緩存!英偉達開源記憶壓縮方案,128K上下文提速2.7倍

      0
      分享至

      聞樂 發自 凹非寺
      量子位 | 公眾號 QbitAI

      提高大模型記憶這塊兒,美國大模型開源王者——英偉達也出招了。

      聯合Astera研究所、斯坦福大學、UC伯克利、加州大學圣地亞哥分校等機構推出了TTT-E2E方法。

      在128K超長文本上處理速度比全注意力模型快2.7倍,處理2M上下文時提速達35倍,性能還不打折。



      這項技術與前幾天大火的DeepSeek條件記憶模塊有所不同。

      DeepSeek的Engram模塊依賴的是“按需查表”的靜態學習路徑,而英偉達走的是動態學習的路子,關鍵在于上下文壓縮

      通過實時學習將關鍵內容壓縮到自身權重中,讓模型在測試階段依然保持學習狀態。

      這樣既避免了額外緩存的負擔,又能精準捕捉長文本中的核心邏輯。

      給模型裝上記憶壓縮包



      TTT-E2E并沒有依賴復雜特殊架構,反而是基于帶滑動窗口注意力的標準Transformer,容易部署。

      這個方法的核心思路是將長文本建模從架構設計問題轉化為「持續學習」任務

      在測試階段,模型會基于當前讀取的上下文進行下一個詞預測。

      每讀取一段文本,就通過梯度下降更新自身參數,通過這種方式持續訓練自身,把讀到的文本信息動態壓縮到權重中,這樣就不用額外存儲冗余數據。

      在訓練階段,團隊通過元學習為模型做初始化準備,讓模型天生適應「測試時學習」的模式。

      把每個訓練序列都模擬成測試序列,先在內循環中對其進行測試時訓練,再在外循環中優化模型的初始參數,確保初始狀態就能快速適配測試時的學習需求,實現了訓練與測試的端到端對齊優化。



      為了平衡效率與穩定性,TTT-E2E還設計了三項關鍵優化。

      一是采用「迷你批處理+滑動窗口」的組合策略。將測試時的訓練數據分成多個迷你批,配合8K大小的滑動窗口注意力,既解決了單token梯度更新易爆炸的問題,又保證模型能記住批內上下文,提升計算并行度;

      二是精準更新策略。只更新模型的MLP層(凍結嵌入層、歸一化層和注意力層),并且只更新最后1/4的網絡塊,在減少計算成本的同時避免參數更新混亂;

      三是雙MLP設計。在需更新的網絡塊中加入一個靜態MLP層,專門存儲預訓練知識,另一個動態MLP層負責吸收新上下文,來防止模型學新忘舊。



      從實驗數據來看,TTT-E2E的表現很亮眼。

      在3B參數模型的測試中,TTT-E2E在128K上下文長度下的測試損失與全注意力Transformer持平甚至更優,而Mamba 2、Gated DeltaNet等同類模型在長文本場景下性能均出現明顯下滑;

      在延遲上,它的推理延遲不隨上下文長度增加而變化,與RNN類似,在H100顯卡上處理128K文本時,速度比全注意力模型快2.7倍。



      在解碼長序列任務中,經Qwen-8B模型評估,TTT-E2E生成的文本質量穩定,損失值持續低于傳統模型。



      通過實驗結果也可以看出,該方法的推理延遲與上下文長度無關,始終保持恒定,這也意味著無論處理8K還是128K文本,用戶都能獲得一致的快速響應體驗。

      不過,TTT-E2E也存在一些小局限。

      在大海撈針這類需要精準回憶細節的任務中,它的表現遠不如全注意力模型。

      這是因為它的核心是壓縮記憶,會過濾掉看似無關的細節,而全注意力模型能近乎無損地召回所有信息。

      另一方面,訓練階段的元學習需要計算梯度的梯度,目前實現比標準預訓練要慢。

      目前,TTT-E2E的代碼和相關論文已完全開源。

      這項研究的項目總負責人是斯坦福的博士后研究員Yu Sun,他同時是該研究的核心貢獻者。



      他研究的總體目標是讓人工智能系統能夠像人類一樣持續學習。自2019年以來,他就在開發“測試時訓練”的概念框架,TTT-E2E項目的早期構想就是他提出的。

      論文地址:https://arxiv.org/abs/2512.23675
      代碼地址:https://github.com/test-time-training/e2e
      參考鏈接:https://x.com/karansdalal/status/2010774529120092481

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為何不能讓伊朗倒下?美國若再斷中國一條路,我們將更被動

      為何不能讓伊朗倒下?美國若再斷中國一條路,我們將更被動

      兵國大事
      2026-01-14 00:05:10
      牛市結束倒計時

      牛市結束倒計時

      重遠投資觀
      2026-01-14 12:34:52
      今夜!特朗普,震動全球

      今夜!特朗普,震動全球

      中國基金報
      2026-01-14 00:18:31
      欣旺達董事長王威回應沃爾沃汽車召回事件:相關網絡傳言不屬實

      欣旺達董事長王威回應沃爾沃汽車召回事件:相關網絡傳言不屬實

      IT之家
      2026-01-14 12:52:05
      裝逼撞到你擅長的領域是啥體驗?網友:我曾經也干過這種事呀

      裝逼撞到你擅長的領域是啥體驗?網友:我曾經也干過這種事呀

      夜深愛雜談
      2025-12-21 17:57:28
      中國自特朗普連任來大幅削減美債持有規模

      中國自特朗普連任來大幅削減美債持有規模

      俄羅斯衛星通訊社
      2026-01-14 15:23:44
      特變電工成交額超100億元

      特變電工成交額超100億元

      每日經濟新聞
      2026-01-14 10:07:06
      A股:權威定調,人民日報放大招,一個重要信號,周三迎關鍵窗口

      A股:權威定調,人民日報放大招,一個重要信號,周三迎關鍵窗口

      云鵬敘事
      2026-01-14 00:00:06
      1999年東風導彈泄密,臺灣女特工潛伏京都頂級夜總會,拉總工下水

      1999年東風導彈泄密,臺灣女特工潛伏京都頂級夜總會,拉總工下水

      干史人
      2026-01-12 11:27:38
      22年前劉翔奪冠,上海獎勵一套255萬豪宅,門牌號1101,如今這房子怎么樣了?

      22年前劉翔奪冠,上海獎勵一套255萬豪宅,門牌號1101,如今這房子怎么樣了?

      史海孤雁
      2026-01-13 23:07:13
      山東“猛男”房洪斌去世,年僅37歲,臥推240斤,滿背刺青惹爭議

      山東“猛男”房洪斌去世,年僅37歲,臥推240斤,滿背刺青惹爭議

      裕豐娛間說
      2026-01-13 16:43:47
      郭晶晶沒想到,首次公開35處財產的霍啟剛,撕碎了多少豪門的體面

      郭晶晶沒想到,首次公開35處財產的霍啟剛,撕碎了多少豪門的體面

      李健政觀察
      2026-01-12 10:12:30
      中戲“林傲霏學籍”聲明毫無問題,同班同學“依克桑”能證明

      中戲“林傲霏學籍”聲明毫無問題,同班同學“依克桑”能證明

      我就是個碼字的
      2026-01-12 07:00:03
      觸目驚心!濃眉累計至少遭遇285次傷病 名記稱復查或在新球隊進行

      觸目驚心!濃眉累計至少遭遇285次傷病 名記稱復查或在新球隊進行

      羅說NBA
      2026-01-14 09:09:51
      很多人都患過“帶狀皰疹”,卻不知它和“老年癡呆”有關!了解下

      很多人都患過“帶狀皰疹”,卻不知它和“老年癡呆”有關!了解下

      岐黃傳人孫大夫
      2026-01-12 13:00:07
      浙江金華一服裝廠老板十多歲兒子對工人吆五喝六 結果芭比Q了

      浙江金華一服裝廠老板十多歲兒子對工人吆五喝六 結果芭比Q了

      阿SIR觀察
      2026-01-13 15:29:26
      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

      深度報
      2025-12-14 22:36:54
      俄母親痛失兩親人于烏戰場 懇請普京派獲刑兒子赴前線參戰

      俄母親痛失兩親人于烏戰場 懇請普京派獲刑兒子赴前線參戰

      老馬拉車莫少裝
      2026-01-14 00:00:20
      大手筆?國安官宣4新援加盟:27歲港腳+泰山紅星!與2功勛續約1年

      大手筆?國安官宣4新援加盟:27歲港腳+泰山紅星!與2功勛續約1年

      我愛英超
      2026-01-14 10:18:41
      大秦鐵路成交額創2024年10月9日以來新高

      大秦鐵路成交額創2024年10月9日以來新高

      證券時報
      2026-01-14 15:15:10
      2026-01-14 16:12:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12014文章數 176358關注度
      往期回顧 全部

      科技要聞

      美國批準英偉達H200賣給中國,但有條件

      頭條要聞

      電車失控在市區以超100km/h時速連撞15車 阿維塔回應

      頭條要聞

      電車失控在市區以超100km/h時速連撞15車 阿維塔回應

      體育要聞

      牛津學霸買下兒時主隊,讓它成為英超黑馬

      娛樂要聞

      何晴去世30天,許亞軍終于發聲

      財經要聞

      姚振華舉報:觀致汽車資產被低價拍賣

      汽車要聞

      曝Model Y或降到20萬以內!

      態度原創

      教育
      本地
      藝術
      數碼
      公開課

      教育要聞

      小升初壓軸題,求圓的面積?

      本地新聞

      穿越鰲太線,怎么就成了戶外人的致命誘惑?

      藝術要聞

      八大山人『山水花鳥冊』

      數碼要聞

      惠科全球首發36.5英寸8K Mini LED顯示器,峰值亮度1800nits

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 全南县| 天天色成人综合网| 中文字幕无码精品亚洲35| 精品久久久无码中文字幕| 午夜精品久久久久久毛片| 亚洲国产精品乱码一区二区| 左云县| 欧美丰满熟妇aaaaa片| 熟女一区| 亚洲每日更新| 中文字幕人妻系列人妻有码| av熟女一区二区久久| 亚洲成人av高清在线| 国产图区| 亚洲人午夜精品射精日韩| 亚洲无码色| 南投县| 亚洲の无码国产の无码步美| 黑人巨茎大战欧美白妇免费| 成熟丰满熟妇av无码区| 99在线视频免费观看| 刺激一区仑乱| 91精品人妻一区二区三区蜜桃| 啦啦啦啦www日本在线观看| 欧美黑人又粗又硬xxxxx喷水| 久久国产精品无码网站| 精品国产va久久久久久久| 欧美色女人| 四虎影视国产精品永久在线| 亚洲国产精华液网站w| 国产情侣自拍小视频| 国产成人亚洲精品狼色在线 | 人妻少妇精品无码专区动漫| 日韩欧美亚洲国产精品字幕久久久| 国产精品久久久久久久专区| 亚洲123| 亚洲AV日韩AV永久无码网站| 国产人成精品香港三级古代| 77777亚洲午夜久久多人| 色欲av亚洲一区无码少妇| の无码热の有码热の综合|