<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<em id="jn4k3"><tfoot id="jn4k3"></tfoot></em>

<mark id="jn4k3"></mark>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

不用額外緩存！英偉達開源記憶壓縮方案，128K上下文提速2.7倍

2026-01-14 14:07:25　來源: 量子位

北京舉報

0

分享至

聞樂發自凹非寺
量子位 | 公眾號 QbitAI

提高大模型記憶這塊兒，美國大模型開源王者——英偉達也出招了。

聯合Astera研究所、斯坦福大學、UC伯克利、加州大學圣地亞哥分校等機構推出了TTT-E2E方法。

在128K超長文本上處理速度比全注意力模型快2.7倍，處理2M上下文時提速達35倍，性能還不打折。

這項技術與前幾天大火的DeepSeek條件記憶模塊有所不同。

DeepSeek的Engram模塊依賴的是“按需查表”的靜態學習路徑，而英偉達走的是動態學習的路子，關鍵在于上下文壓縮

通過實時學習將關鍵內容壓縮到自身權重中，讓模型在測試階段依然保持學習狀態。

這樣既避免了額外緩存的負擔，又能精準捕捉長文本中的核心邏輯。

給模型裝上記憶壓縮包

TTT-E2E并沒有依賴復雜特殊架構，反而是基于帶滑動窗口注意力的標準Transformer，容易部署。

這個方法的核心思路是將長文本建模從架構設計問題轉化為「持續學習」任務

在測試階段，模型會基于當前讀取的上下文進行下一個詞預測。

每讀取一段文本，就通過梯度下降更新自身參數，通過這種方式持續訓練自身，把讀到的文本信息動態壓縮到權重中，這樣就不用額外存儲冗余數據。

在訓練階段，團隊通過元學習為模型做初始化準備，讓模型天生適應「測試時學習」的模式。

把每個訓練序列都模擬成測試序列，先在內循環中對其進行測試時訓練，再在外循環中優化模型的初始參數，確保初始狀態就能快速適配測試時的學習需求，實現了訓練與測試的端到端對齊優化。

為了平衡效率與穩定性，TTT-E2E還設計了三項關鍵優化。

一是采用「迷你批處理+滑動窗口」的組合策略。將測試時的訓練數據分成多個迷你批，配合8K大小的滑動窗口注意力，既解決了單token梯度更新易爆炸的問題，又保證模型能記住批內上下文，提升計算并行度；

二是精準更新策略。只更新模型的MLP層（凍結嵌入層、歸一化層和注意力層），并且只更新最后1/4的網絡塊，在減少計算成本的同時避免參數更新混亂；

三是雙MLP設計。在需更新的網絡塊中加入一個靜態MLP層，專門存儲預訓練知識，另一個動態MLP層負責吸收新上下文，來防止模型學新忘舊。

從實驗數據來看，TTT-E2E的表現很亮眼。

在3B參數模型的測試中，TTT-E2E在128K上下文長度下的測試損失與全注意力Transformer持平甚至更優，而Mamba 2、Gated DeltaNet等同類模型在長文本場景下性能均出現明顯下滑；

在延遲上，它的推理延遲不隨上下文長度增加而變化，與RNN類似，在H100顯卡上處理128K文本時，速度比全注意力模型快2.7倍。

在解碼長序列任務中，經Qwen-8B模型評估，TTT-E2E生成的文本質量穩定，損失值持續低于傳統模型。

通過實驗結果也可以看出，該方法的推理延遲與上下文長度無關，始終保持恒定，這也意味著無論處理8K還是128K文本，用戶都能獲得一致的快速響應體驗。

不過，TTT-E2E也存在一些小局限。

在大海撈針這類需要精準回憶細節的任務中，它的表現遠不如全注意力模型。

這是因為它的核心是壓縮記憶，會過濾掉看似無關的細節，而全注意力模型能近乎無損地召回所有信息。

另一方面，訓練階段的元學習需要計算梯度的梯度，目前實現比標準預訓練要慢。

目前，TTT-E2E的代碼和相關論文已完全開源。

這項研究的項目總負責人是斯坦福的博士后研究員Yu Sun，他同時是該研究的核心貢獻者。

他研究的總體目標是讓人工智能系統能夠像人類一樣持續學習。自2019年以來，他就在開發“測試時訓練”的概念框架，TTT-E2E項目的早期構想就是他提出的。

論文地址：https://arxiv.org/abs/2512.23675
代碼地址：https://github.com/test-time-training/e2e
參考鏈接：https://x.com/karansdalal/status/2010774529120092481

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

英偉達AI世界模擬器？AI P圖學會「腦補」過程了！

新智元 2025-11-04 19:33:28
0 跟貼 0
Sebastian Raschka 2026預測:Transformer統治依舊,擴散模型崛起

機器之心Pro 2026-01-14 14:41:17
0 跟貼 0

400篇參考文獻重磅綜述，統一調查「人腦×Agent」記憶系統

機器之心Pro 2026-01-13 14:42:47
0 跟貼 0

AI視頻如何告別“抽卡”游戲

華爾街見聞官方 2026-01-14 15:42:27
0 跟貼 0
Claude版Manus只用10天搓出，代碼全AI寫的！小扎140億像冤大頭

量子位 2026-01-14 15:26:52
0 跟貼 0

500萬次圍觀，1X把「世界模型」真正用在了機器人NEO身上

機器之心Pro 2026-01-14 10:14:27
0 跟貼 0

390億美元Figure做不到的事，這家中國團隊做到了

新智元 2026-01-14 15:20:02
0 跟貼 0
自變量：具身模型不是把DeepSeek塞進機器人

機器之心Pro 2026-01-14 15:17:28
0 跟貼 0

打工人的「工作文件夾」，終于要被AI接管了？

雷科技 2026-01-13 21:38:06
0 跟貼 0
黃仁勛：中國的AI市場無論有沒有英偉達都會進步與華為是競爭對手不是敵人

財聯社 2025-07-21 10:22:14
7 跟貼 7
男生用2000多塊錢“復刻”了英偉達發布會上展示的迪士尼BDX！網友：第四次工業革命到你這算是結束了

城市大眼睛 2026-01-13 18:07:21
15 跟貼 15
英偉達這一步，砸開了自動駕駛黑盒

周鴻祎 2026-01-13 00:52:09
24 跟貼 24
美團龍貓技術升級！新注意力機制速度快10倍，還能處理1M超長文本

量子位 2026-01-13 12:26:32
1 跟貼 1
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓練極致性能

機器之心Pro 2026-01-13 14:54:45
0 跟貼 0
私！貪！狂！洪禮和三個字總結自己違法犯罪之路

環球網資訊 2026-01-13 20:53:23
3723 跟貼 3723
英偉達和禮來成立AI藥物實驗室，未來五年將投資至多10億美元

界面新聞 2026-01-12 23:28:02
0 跟貼 0
英偉達炸場 CES開源45萬場景全民自動駕駛或提前到來

BAO愛車工作室 2026-01-13 10:56:30
6 跟貼 6
一塊布，卡了英偉達的脖子？

華商韜略 2026-01-14 10:39:30
0 跟貼 0
專家：特朗普沒膽對華加稅25% 否則等著中國反擊

澎湃新聞 2026-01-14 14:18:54
2421 跟貼 2421
谷歌英偉達遙遙領先，亞洲科技股持續看漲，“美股七巨頭”統治力面臨挑戰

環球網資訊 2026-01-14 07:03:44
128 跟貼 128
英偉達報告搞錯單位？數據中心對銅需求可能被過度炒高

財聯社 2026-01-14 11:14:17
0 跟貼 0
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
國際銀價首次站上90美元，市值突破5萬億美元，超英偉達成全球第二大資產！黃金32萬億美元市值位居榜首！還能漲嗎？

每日經濟新聞 2026-01-14 12:15:09
1 跟貼 1
英偉達與美國制藥巨頭聯手投入10億美元建設AI藥物研發實驗室

每日經濟新聞 2026-01-13 22:07:59
0 跟貼 0
小到中雪局部大雪，-10℃+陣風7~8級，山東最新天氣預報

魯中晨報 2026-01-14 14:19:02
1 跟貼 1
美國放寬對英偉達H200芯片出口中國的管制

界面新聞 2026-01-14 06:48:52
0 跟貼 0
因協會“漏看”參賽規定日本雪車隊無緣冬奧會，選手憤怒：竟犯如此低級錯誤

環球網資訊 2026-01-13 22:01:13
602 跟貼 602
獨一份！帶動效的 PPT 生成 Agent！使用教學&創作思路

歸藏的AI工具箱 2026-01-13 15:29:21
0 跟貼 0
智譜和華為搞波大的：中國首個國產芯片訓練出的SOTA多模態模型！

量子位 2026-01-14 15:09:28
0 跟貼 0
麥當勞回應“漢堡包越做越小”

第一財經資訊 2026-01-13 22:06:40
1473 跟貼 1473
全國鐵路1月26日起實行新的列車運行圖

北京日報 2026-01-13 17:14:41
251 跟貼 251
老干媽創始人被指出山救子公司回應

紅星新聞 2026-01-14 07:47:12
125 跟貼 125
小車定速巡航故障時速100狂奔至油盡

極目新聞 2026-01-14 11:55:39
832 跟貼 832
高露潔直播間盜改視頻宣稱可閉合牙縫

新京報 2026-01-13 21:16:01
194 跟貼 194
需求激增1000%！iPhone 4發布15年后突然翻紅，二手回收價暴漲60倍

魯中晨報 2026-01-13 19:37:08
339 跟貼 339
孩子們和國旗的合影真美

學申論的談妹 2026-01-14 06:27:05
176 跟貼 176
聯合國呼吁為2026年烏克蘭人道計劃籌資23億美元

環球網資訊 2026-01-14 07:34:09
30 跟貼 30
畫質大升級！《帝國時代》新作或啟用虛幻引擎開發！

游俠網 2026-01-14 15:37:37
0 跟貼 0
【2025哲學之思】尚杰：在形式的邊界上思考

中國社會科學網 2026-01-14 15:04:04
0 跟貼 0
襄陽電務段開啟西十高鐵湖北段靜態驗收工作

中工網 2026-01-14 13:06:02
0 跟貼 0

為何不能讓伊朗倒下？美國若再斷中國一條路，我們將更被動

為何不能讓伊朗倒下？美國若再斷中國一條路，我們將更被動

兵國大事

2026-01-14 00:05:10

牛市結束倒計時

重遠投資觀

2026-01-14 12:34:52

今夜！特朗普，震動全球

中國基金報

2026-01-14 00:18:31

欣旺達董事長王威回應沃爾沃汽車召回事件：相關網絡傳言不屬實

欣旺達董事長王威回應沃爾沃汽車召回事件：相關網絡傳言不屬實

IT之家

2026-01-14 12:52:05

裝逼撞到你擅長的領域是啥體驗？網友：我曾經也干過這種事呀

裝逼撞到你擅長的領域是啥體驗？網友：我曾經也干過這種事呀

夜深愛雜談

2025-12-21 17:57:28

中國自特朗普連任來大幅削減美債持有規模

中國自特朗普連任來大幅削減美債持有規模

俄羅斯衛星通訊社

2026-01-14 15:23:44

特變電工成交額超100億元

每日經濟新聞

2026-01-14 10:07:06

A股：權威定調，人民日報放大招，一個重要信號，周三迎關鍵窗口

A股：權威定調，人民日報放大招，一個重要信號，周三迎關鍵窗口

云鵬敘事

2026-01-14 00:00:06

1999年東風導彈泄密，臺灣女特工潛伏京都頂級夜總會，拉總工下水

1999年東風導彈泄密，臺灣女特工潛伏京都頂級夜總會，拉總工下水

干史人

2026-01-12 11:27:38

22年前劉翔奪冠，上海獎勵一套255萬豪宅，門牌號1101，如今這房子怎么樣了？

22年前劉翔奪冠，上海獎勵一套255萬豪宅，門牌號1101，如今這房子怎么樣了？

史海孤雁

2026-01-13 23:07:13

山東“猛男”房洪斌去世，年僅37歲，臥推240斤，滿背刺青惹爭議

山東“猛男”房洪斌去世，年僅37歲，臥推240斤，滿背刺青惹爭議

裕豐娛間說

2026-01-13 16:43:47

郭晶晶沒想到，首次公開35處財產的霍啟剛，撕碎了多少豪門的體面

郭晶晶沒想到，首次公開35處財產的霍啟剛，撕碎了多少豪門的體面

李健政觀察

2026-01-12 10:12:30

中戲“林傲霏學籍”聲明毫無問題，同班同學“依克桑”能證明

中戲“林傲霏學籍”聲明毫無問題，同班同學“依克桑”能證明

我就是個碼字的

2026-01-12 07:00:03

觸目驚心！濃眉累計至少遭遇285次傷病名記稱復查或在新球隊進行

觸目驚心！濃眉累計至少遭遇285次傷病名記稱復查或在新球隊進行

羅說NBA

2026-01-14 09:09:51

很多人都患過“帶狀皰疹”，卻不知它和“老年癡呆”有關！了解下

很多人都患過“帶狀皰疹”，卻不知它和“老年癡呆”有關！了解下

岐黃傳人孫大夫

2026-01-12 13:00:07

浙江金華一服裝廠老板十多歲兒子對工人吆五喝六結果芭比Q了

浙江金華一服裝廠老板十多歲兒子對工人吆五喝六結果芭比Q了

阿SIR觀察

2026-01-13 15:29:26

410次開房記錄流出：央企“女老虎”陶荔芳，背后還有多少同伙

410次開房記錄流出：央企“女老虎”陶荔芳，背后還有多少同伙

深度報

2025-12-14 22:36:54

俄母親痛失兩親人于烏戰場懇請普京派獲刑兒子赴前線參戰

俄母親痛失兩親人于烏戰場懇請普京派獲刑兒子赴前線參戰

老馬拉車莫少裝

2026-01-14 00:00:20

大手筆？國安官宣4新援加盟：27歲港腳+泰山紅星！與2功勛續約1年

大手筆？國安官宣4新援加盟：27歲港腳+泰山紅星！與2功勛續約1年

我愛英超

2026-01-14 10:18:41

大秦鐵路成交額創2024年10月9日以來新高

大秦鐵路成交額創2024年10月9日以來新高

證券時報

2026-01-14 15:15:10

追蹤人工智能動態

12014文章數 176358關注度

往期回顧全部

科技要聞

美國批準英偉達H200賣給中國，但有條件

頭條要聞

電車失控在市區以超100km/h時速連撞15車阿維塔回應

頭條要聞

電車失控在市區以超100km/h時速連撞15車阿維塔回應

體育要聞

牛津學霸買下兒時主隊，讓它成為英超黑馬

娛樂要聞

何晴去世30天，許亞軍終于發聲

財經要聞

姚振華舉報:觀致汽車資產被低價拍賣

汽車要聞

曝Model Y或降到20萬以內！

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

本地

藝術

數碼

公開課

教育要聞

小升初壓軸題，求圓的面積？

本地新聞

穿越鰲太線，怎么就成了戶外人的致命誘惑？

藝術要聞

八大山人『山水花鳥冊』

數碼要聞

惠科全球首發36.5英寸8K Mini LED顯示器，峰值亮度1800nits

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你的工作機密，保護好了嗎？
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：全南县| 天天色成人综合网| 中文字幕无码精品亚洲35| 精品久久久无码中文字幕| 午夜精品久久久久久毛片| 亚洲国产精品乱码一区二区| 左云县| 欧美丰满熟妇aaaaa片| 熟女一区| 亚洲每日更新| 中文字幕人妻系列人妻有码| av熟女一区二区久久| 亚洲成人av高清在线| 国产图区| 亚洲人午夜精品射精日韩| 亚洲无码色| 南投县| 亚洲の无码国产の无码步美| 黑人巨茎大战欧美白妇免费| 成熟丰满熟妇av无码区| 99在线视频免费观看| 刺激一区仑乱| 91精品人妻一区二区三区蜜桃| 啦啦啦啦www日本在线观看| 欧美黑人又粗又硬xxxxx喷水| 久久国产精品无码网站| 精品国产va久久久久久久| 欧美色女人| 四虎影视国产精品永久在线| 亚洲国产精华液网站w| 国产情侣自拍小视频| 国产成人亚洲精品狼色在线 | 人妻少妇精品无码专区动漫| 日韩欧美亚洲国产精品字幕久久久| 国产精品久久久久久久专区| 亚洲123| 亚洲AV日韩AV永久无码网站| 国产人成精品香港三级古代| 77777亚洲午夜久久多人| 色欲av亚洲一区无码少妇| の无码热の有码热の综合|

<rt id="garh7"><menu id="garh7"></menu></rt>

<wbr id="garh7"><nav id="garh7"></nav></wbr><nobr id="garh7"></nobr>

<nobr id="garh7"></nobr>