<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      不用額外緩存!英偉達開源記憶壓縮方案,128K上下文提速2.7倍

      0
      分享至

      聞樂 發自 凹非寺
      量子位 | 公眾號 QbitAI

      提高大模型記憶這塊兒,美國大模型開源王者——英偉達也出招了。

      聯合Astera研究所、斯坦福大學、UC伯克利、加州大學圣地亞哥分校等機構推出了TTT-E2E方法。

      在128K超長文本上處理速度比全注意力模型快2.7倍,處理2M上下文時提速達35倍,性能還不打折。



      這項技術與前幾天大火的DeepSeek條件記憶模塊有所不同。

      DeepSeek的Engram模塊依賴的是“按需查表”的靜態學習路徑,而英偉達走的是動態學習的路子,關鍵在于上下文壓縮

      通過實時學習將關鍵內容壓縮到自身權重中,讓模型在測試階段依然保持學習狀態。

      這樣既避免了額外緩存的負擔,又能精準捕捉長文本中的核心邏輯。

      給模型裝上記憶壓縮包



      TTT-E2E并沒有依賴復雜特殊架構,反而是基于帶滑動窗口注意力的標準Transformer,容易部署。

      這個方法的核心思路是將長文本建模從架構設計問題轉化為「持續學習」任務

      在測試階段,模型會基于當前讀取的上下文進行下一個詞預測。

      每讀取一段文本,就通過梯度下降更新自身參數,通過這種方式持續訓練自身,把讀到的文本信息動態壓縮到權重中,這樣就不用額外存儲冗余數據。

      在訓練階段,團隊通過元學習為模型做初始化準備,讓模型天生適應「測試時學習」的模式。

      把每個訓練序列都模擬成測試序列,先在內循環中對其進行測試時訓練,再在外循環中優化模型的初始參數,確保初始狀態就能快速適配測試時的學習需求,實現了訓練與測試的端到端對齊優化。



      為了平衡效率與穩定性,TTT-E2E還設計了三項關鍵優化。

      一是采用「迷你批處理+滑動窗口」的組合策略。將測試時的訓練數據分成多個迷你批,配合8K大小的滑動窗口注意力,既解決了單token梯度更新易爆炸的問題,又保證模型能記住批內上下文,提升計算并行度;

      二是精準更新策略。只更新模型的MLP層(凍結嵌入層、歸一化層和注意力層),并且只更新最后1/4的網絡塊,在減少計算成本的同時避免參數更新混亂;

      三是雙MLP設計。在需更新的網絡塊中加入一個靜態MLP層,專門存儲預訓練知識,另一個動態MLP層負責吸收新上下文,來防止模型學新忘舊。



      從實驗數據來看,TTT-E2E的表現很亮眼。

      在3B參數模型的測試中,TTT-E2E在128K上下文長度下的測試損失與全注意力Transformer持平甚至更優,而Mamba 2、Gated DeltaNet等同類模型在長文本場景下性能均出現明顯下滑;

      在延遲上,它的推理延遲不隨上下文長度增加而變化,與RNN類似,在H100顯卡上處理128K文本時,速度比全注意力模型快2.7倍。



      在解碼長序列任務中,經Qwen-8B模型評估,TTT-E2E生成的文本質量穩定,損失值持續低于傳統模型。



      通過實驗結果也可以看出,該方法的推理延遲與上下文長度無關,始終保持恒定,這也意味著無論處理8K還是128K文本,用戶都能獲得一致的快速響應體驗。

      不過,TTT-E2E也存在一些小局限。

      在大海撈針這類需要精準回憶細節的任務中,它的表現遠不如全注意力模型。

      這是因為它的核心是壓縮記憶,會過濾掉看似無關的細節,而全注意力模型能近乎無損地召回所有信息。

      另一方面,訓練階段的元學習需要計算梯度的梯度,目前實現比標準預訓練要慢。

      目前,TTT-E2E的代碼和相關論文已完全開源。

      這項研究的項目總負責人是斯坦福的博士后研究員Yu Sun,他同時是該研究的核心貢獻者。



      他研究的總體目標是讓人工智能系統能夠像人類一樣持續學習。自2019年以來,他就在開發“測試時訓練”的概念框架,TTT-E2E項目的早期構想就是他提出的。

      論文地址:https://arxiv.org/abs/2512.23675
      代碼地址:https://github.com/test-time-training/e2e
      參考鏈接:https://x.com/karansdalal/status/2010774529120092481

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      海外華人回國后態度集體轉變!斬殺線開始蔓延,崇洋媚外者被打臉

      海外華人回國后態度集體轉變!斬殺線開始蔓延,崇洋媚外者被打臉

      墨印齋
      2026-01-21 16:08:39
      女人釋放這6種暗示,別猶豫!主動擁抱她,十拿九穩不被拒

      女人釋放這6種暗示,別猶豫!主動擁抱她,十拿九穩不被拒

      大熊歡樂坊
      2026-01-21 06:42:55
      一口氣搞懂16種酒,吹牛更顯學問

      一口氣搞懂16種酒,吹牛更顯學問

      混知
      2026-01-09 12:27:20
      《人民日報》三次炮轟羅永浩:傳遞什么信號?羅永浩到底錯在哪?

      《人民日報》三次炮轟羅永浩:傳遞什么信號?羅永浩到底錯在哪?

      影像溫度
      2026-01-22 11:32:13
      格陵蘭島自治政府總理:格陵蘭島選擇丹麥 選擇歐盟

      格陵蘭島自治政府總理:格陵蘭島選擇丹麥 選擇歐盟

      財聯社
      2026-01-23 00:50:05
      “治港敗類”曾蔭權:治理香港7年,為何卻在卸任后,獲刑20個月

      “治港敗類”曾蔭權:治理香港7年,為何卻在卸任后,獲刑20個月

      卷史
      2025-09-15 11:50:59
      大寒過后,建議女人多吃它,簡單一煮,一周吃3回,補氣血不上火

      大寒過后,建議女人多吃它,簡單一煮,一周吃3回,補氣血不上火

      Lily美食談
      2026-01-22 22:52:17
      汪東興對開放后的中國作何評價?其家人揭秘,老人家對此抱有一些成見

      汪東興對開放后的中國作何評價?其家人揭秘,老人家對此抱有一些成見

      史海孤雁
      2026-01-22 16:43:23
      韓媒:打進決賽后信心爆棚!中國媒體放話日本比越南更好打

      韓媒:打進決賽后信心爆棚!中國媒體放話日本比越南更好打

      星耀國際足壇
      2026-01-22 22:32:15
      “新三金”火了!專家提醒:年輕人投資需警惕這些誤區

      “新三金”火了!專家提醒:年輕人投資需警惕這些誤區

      中國商報
      2026-01-22 16:15:15
      估值超百萬的“000888888”馬鈔不翼而飛,揭秘靚號背后的利益鏈

      估值超百萬的“000888888”馬鈔不翼而飛,揭秘靚號背后的利益鏈

      老孟談錢
      2026-01-22 03:20:02
      打匈奴的名將不少,但真正重創匈奴的,就這三位狠人

      打匈奴的名將不少,但真正重創匈奴的,就這三位狠人

      長風文史
      2025-12-10 17:25:37
      美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

      美國軍力全球第一,敢打任何國家?俄潑冷水:這4國你敢打誰?

      近史談
      2026-01-19 10:09:51
      美總統稱在中國找不到任何風力發電場,外交部回應

      美總統稱在中國找不到任何風力發電場,外交部回應

      澎湃新聞
      2026-01-22 16:05:15
      瑤瑤被殺案二審結果來了:維持原判,“金毛”家要后繼無人了

      瑤瑤被殺案二審結果來了:維持原判,“金毛”家要后繼無人了

      江山揮筆
      2026-01-22 10:39:37
      提速!浙江臺州直達深圳,“最快列車”來了

      提速!浙江臺州直達深圳,“最快列車”來了

      臺州交通廣播
      2026-01-22 07:16:05
      發現個奇怪現象:電車沒有“干掉”油車,卻“干掉”了汽車修理廠

      發現個奇怪現象:電車沒有“干掉”油車,卻“干掉”了汽車修理廠

      劉哥談體育
      2026-01-19 11:46:50
      棋圣亦是酒仙:聶衛平之啖蟹與烤肉

      棋圣亦是酒仙:聶衛平之啖蟹與烤肉

      新民周刊
      2026-01-23 00:07:58
      王楚欽孫穎莎主管教練落實!王勵勤為樊振東留好位子,蒯曼二選一

      王楚欽孫穎莎主管教練落實!王勵勤為樊振東留好位子,蒯曼二選一

      十點街球體育
      2026-01-22 00:05:03
      廣東下雪了!網友:這真不是哈爾濱嗎

      廣東下雪了!網友:這真不是哈爾濱嗎

      極目新聞
      2026-01-22 17:53:56
      2026-01-23 01:36:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12050文章數 176362關注度
      往期回顧 全部

      科技要聞

      幾千億只是開胃菜,AI基建還得再砸幾萬億

      頭條要聞

      猝死程序員底薪3千24小時待命 公司前三季度營收180億

      頭條要聞

      猝死程序員底薪3千24小時待命 公司前三季度營收180億

      體育要聞

      跑個步而已,他們在燃什么?

      娛樂要聞

      車銀優賺800億 涉嫌逃稅200億!

      財經要聞

      西貝拿到“救命錢”,然后呢

      汽車要聞

      配備多塊娛樂屏 極氪8X內飾曝光

      態度原創

      本地
      房產
      家居
      健康
      公開課

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點贊

      房產要聞

      開年王炸!四重政策紅利加碼,廣州置業窗口期邁入倒計時!

      家居要聞

      法式風情 南洋中古居

      打工人年終總結!健康通關=贏麻了

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻无码中文字幕免费视频蜜桃| av中文字幕在线二区| 色中色成人导航| 国产午夜无码精品免费看| 国产色婷婷精品综合在线| 无码123| 成人1区2区| 国产在线乱子伦一区二区| av中文无码韩国亚洲色偷偷| 男人的天堂在线视频| 奉化市| 亚洲精品理论电影在线观看| 亚洲人?拳交?残酷?业余| 中国av网| 99riav精品免费视频观看| 蜜桃视频免费版在线观看| yy111111少妇影院免费观看| 一本色道无码不卡在线观看| 国产麻豆9l精品三级站| 狼友综合网| 亚洲中文另类| A片网| 欧美亚洲国产一区二区三区| 午夜AAAAA级岛国福利在线| 极品白嫩少妇无套内谢| 亚洲欧美日韩一区二区 | 国产真实乱人偷精品人妻| 久久婷婷五月综合| 欧美成人精品A片人妻| 人妻精品视频| 一本一道人人妻人人妻αv| 激情自拍校园春色中文| 少妇人妻88久久中文字幕| 国产麻豆剧果冻传媒星空视频| 亚洲成人性爱网| 久久人人爽人人爽人人片| 日日干日| 天堂国产一区二区三区| 九九视频在线观看| 97se亚洲精品一区| 亚洲产在线精品亚洲第一站一|