英偉達(dá)聯(lián)合多所頂尖機(jī)構(gòu)推出的TTT-E2E記憶壓縮方案,直接打破效率瓶頸。不用額外緩存,還能實(shí)現(xiàn)數(shù)倍提速,這波操作屬實(shí)驚艷。
![]()
TTT-E2E的核心亮點(diǎn)就是擺脫額外緩存依賴(lài),走動(dòng)態(tài)學(xué)習(xí)路線(xiàn)。這和DeepSeek的Engram模塊差異明顯,后者靠的是按需查表的靜態(tài)路徑。
![]()
團(tuán)隊(duì)還設(shè)計(jì)了三項(xiàng)優(yōu)化策略平衡效率與穩(wěn)定性。迷你批處理加8K滑動(dòng)窗口組合,解決單token梯度更新爆炸問(wèn)題。精準(zhǔn)更新僅針對(duì)部分網(wǎng)絡(luò)塊,減少計(jì)算成本。
![]()
![]()
![]()
這項(xiàng)技術(shù)已在視頻生成領(lǐng)域落地應(yīng)用。據(jù)澎湃新聞報(bào)道,研究人員利用TTT層增強(qiáng)預(yù)訓(xùn)練Transformer,微調(diào)后生成了60秒《貓和老鼠》動(dòng)畫(huà)片段。
![]()
TTT-E2E并非完美無(wú)缺,存在兩處明顯局限。大海撈針類(lèi)精準(zhǔn)回憶細(xì)節(jié)任務(wù)中,表現(xiàn)遠(yuǎn)不如全注意力模型。
核心原因是它會(huì)過(guò)濾看似無(wú)關(guān)的細(xì)節(jié),而全注意力模型能近乎無(wú)損召回所有信息。另外訓(xùn)練階段的元學(xué)習(xí)需計(jì)算梯度的梯度,實(shí)現(xiàn)速度比標(biāo)準(zhǔn)預(yù)訓(xùn)練慢。
![]()
教育領(lǐng)域也有嘗試,把方案應(yīng)用到在線(xiàn)題庫(kù)解析中,能快速處理超長(zhǎng)題干和解析內(nèi)容,響應(yīng)速度較之前縮短至三分之一。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.