聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
提高大模型記憶這塊兒,美國大模型開源王者——英偉達也出招了。
聯合Astera研究所、斯坦福大學、UC伯克利、加州大學圣地亞哥分校等機構推出了TTT-E2E方法。
在128K超長文本上處理速度比全注意力模型快2.7倍,處理2M上下文時提速達35倍,性能還不打折。
![]()
這項技術與前幾天大火的DeepSeek條件記憶模塊有所不同。
DeepSeek的Engram模塊依賴的是“按需查表”的靜態學習路徑,而英偉達走的是動態學習的路子,關鍵在于上下文壓縮
通過實時學習將關鍵內容壓縮到自身權重中,讓模型在測試階段依然保持學習狀態。
這樣既避免了額外緩存的負擔,又能精準捕捉長文本中的核心邏輯。
給模型裝上記憶壓縮包
![]()
TTT-E2E并沒有依賴復雜特殊架構,反而是基于帶滑動窗口注意力的標準Transformer,容易部署。
這個方法的核心思路是將長文本建模從架構設計問題轉化為「持續學習」任務
在測試階段,模型會基于當前讀取的上下文進行下一個詞預測。
每讀取一段文本,就通過梯度下降更新自身參數,通過這種方式持續訓練自身,把讀到的文本信息動態壓縮到權重中,這樣就不用額外存儲冗余數據。
在訓練階段,團隊通過元學習為模型做初始化準備,讓模型天生適應「測試時學習」的模式。
把每個訓練序列都模擬成測試序列,先在內循環中對其進行測試時訓練,再在外循環中優化模型的初始參數,確保初始狀態就能快速適配測試時的學習需求,實現了訓練與測試的端到端對齊優化。
![]()
為了平衡效率與穩定性,TTT-E2E還設計了三項關鍵優化。
一是采用「迷你批處理+滑動窗口」的組合策略。將測試時的訓練數據分成多個迷你批,配合8K大小的滑動窗口注意力,既解決了單token梯度更新易爆炸的問題,又保證模型能記住批內上下文,提升計算并行度;
二是精準更新策略。只更新模型的MLP層(凍結嵌入層、歸一化層和注意力層),并且只更新最后1/4的網絡塊,在減少計算成本的同時避免參數更新混亂;
三是雙MLP設計。在需更新的網絡塊中加入一個靜態MLP層,專門存儲預訓練知識,另一個動態MLP層負責吸收新上下文,來防止模型學新忘舊。
![]()
從實驗數據來看,TTT-E2E的表現很亮眼。
在3B參數模型的測試中,TTT-E2E在128K上下文長度下的測試損失與全注意力Transformer持平甚至更優,而Mamba 2、Gated DeltaNet等同類模型在長文本場景下性能均出現明顯下滑;
在延遲上,它的推理延遲不隨上下文長度增加而變化,與RNN類似,在H100顯卡上處理128K文本時,速度比全注意力模型快2.7倍。
![]()
在解碼長序列任務中,經Qwen-8B模型評估,TTT-E2E生成的文本質量穩定,損失值持續低于傳統模型。
![]()
通過實驗結果也可以看出,該方法的推理延遲與上下文長度無關,始終保持恒定,這也意味著無論處理8K還是128K文本,用戶都能獲得一致的快速響應體驗。
不過,TTT-E2E也存在一些小局限。
在大海撈針這類需要精準回憶細節的任務中,它的表現遠不如全注意力模型。
這是因為它的核心是壓縮記憶,會過濾掉看似無關的細節,而全注意力模型能近乎無損地召回所有信息。
另一方面,訓練階段的元學習需要計算梯度的梯度,目前實現比標準預訓練要慢。
目前,TTT-E2E的代碼和相關論文已完全開源。
這項研究的項目總負責人是斯坦福的博士后研究員Yu Sun,他同時是該研究的核心貢獻者。
![]()
他研究的總體目標是讓人工智能系統能夠像人類一樣持續學習。自2019年以來,他就在開發“測試時訓練”的概念框架,TTT-E2E項目的早期構想就是他提出的。
論文地址:https://arxiv.org/abs/2512.23675
代碼地址:https://github.com/test-time-training/e2e
參考鏈接:https://x.com/karansdalal/status/2010774529120092481
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.