<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      再談注意力:阿里、Kimi 都在用的 DeltaNet 和線性注意力新改進(jìn)

      0
      分享至



      不僅是提升效率,線性注意力在數(shù)據(jù)受限情況下也可能提升效果。

      訪談丨程曼祺

      整理丨姚一楠

      注意力機(jī)制(Attention)是 Transformer 架構(gòu)大型語言模型(LLM)的核心機(jī)制,它決定了模型如何處理、理解海量的文本信息。然而,傳統(tǒng)全注意力機(jī)制的計(jì)算開銷會(huì)隨文本長度呈平方級(jí)暴增,這正是限制模型處理長文檔、長上下文的關(guān)鍵瓶頸。

      今年初,《晚點(diǎn)聊》的 103 期和 104 期節(jié)目分別討論了注意力機(jī)制改進(jìn)的兩個(gè)主要方向:“稀疏注意力” 和 “線性注意力”。(文字版見《大模型 “注意力簡(jiǎn)史”:與兩位 AI 研究者從 DeepSeek、Kimi 最新改進(jìn)聊起》和《3700 次預(yù)訓(xùn)練尋找 “線性注意力” 非共識(shí),MiniMax-01 開發(fā)者講述 4 年探索》)

      這期節(jié)目,我們繼續(xù)關(guān)注線性注意力的新進(jìn)展。在 9 月和 10 月底,阿里巴巴和月之暗面先后開源 Qwen3-Next 和 Kimi Linear 模型,其中的注意力機(jī)制都使用了線性注意力 DeltaNet 和 full attention(傳統(tǒng)的全注意力)混合的方式。

      此后在社交媒體上,兩家公司的研究人員也透露,他們很可能在下一代旗艦?zāi)P椭校褂眯逻M(jìn)釋放的這些線性注意力改進(jìn)成果。

      本期《晚點(diǎn)聊》,我們就邀請(qǐng)到了 DeltaNet 核心貢獻(xiàn)者之一楊松琳來聊聊 DeltaNet 和線性注意力的發(fā)展脈絡(luò)。她也是線性注意力開源小組 FLA 的發(fā)起者,正在 MIT CSAIL 讀博士三年級(jí)。

      DeltaNet 的發(fā)展是多位研究者長期累積的結(jié)果。在 2021 年,Imanol Schlag、Kazuki Irie 和 Jürgen Schmidhuber 在線性注意力中引入類 Delta Rule 的可糾錯(cuò)更新規(guī)則;2023 年,Kazuki Irie 等從理論與形式語言視角刻畫線性 Transformer 及其擴(kuò)展的計(jì)算能力邊界;2024 年,楊松琳等提出沿序列長度并行的 DeltaNet 訓(xùn)練算法以適配現(xiàn)代硬件;2025 年,楊松琳等進(jìn)一步引入門控形式提出 Gated DeltaNet,強(qiáng)化記憶控制與檢索表現(xiàn)。

      楊松琳介紹了線性注意力和 DeltaNet 的發(fā)展脈絡(luò),為何 21 年剛被提出時(shí)沒引起太多注意,后來怎么進(jìn)化的。我們也討論了重新去做 full attetnion 的 MiniMax(MiniMax 在今年初發(fā)布的 M1 中使用了線性注意力,在今年 10 月發(fā)布的 M2 中,轉(zhuǎn)向全部使用 full attention),和未來要在旗艦?zāi)P蜕嫌镁€性注意力的 Kimi 與阿里的不同選擇;線性注意力的優(yōu)劣勢(shì),以及一些腦洞——如果算力無限,還需要線性注意力?楊松琳也分享了,作為 AI 研究員,怎么獲得交叉技能,怎么開始發(fā)起 FLA 小組等成長經(jīng)歷。

      DeltaNet 在 2021 年就被提出,但并行

      晚點(diǎn):注意力機(jī)制在大語言模型里有什么用,為什么重要?

      楊松琳:語言模型預(yù)測(cè)下一個(gè)詞時(shí),若要用到前面的信息,就必須在句子層面做運(yùn)算,把不同位置的信息混合。注意力機(jī)制通過建模兩點(diǎn)之間成對(duì)的關(guān)系來整合前后文信息,最直接、最常用的是 Softmax Attention,平方復(fù)雜度的機(jī)制(如下圖)。現(xiàn)在注意力也可以泛指在序列維度上做信息聚合的算子,比如線性注意力。



      來源:Attention in transformers,3Blue1Brown

      晚點(diǎn):注意力機(jī)制最近好幾個(gè)新動(dòng)向都和你研究的 DeltaNet 有關(guān),可以簡(jiǎn)單解釋下 DeltaNet 是什么?

      楊松琳:線性注意力的核心思想,最初是將自注意力(Self-Attention)中的 Softmax 函數(shù)移除。經(jīng)過數(shù)學(xué)上的等價(jià)變換,它就可以被重寫成 循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 的遞推形式,從而將復(fù)雜度從平方級(jí)降至線性。2020 年的論文 Transformers are RNNs(《Transformer 是循環(huán)神經(jīng)網(wǎng)絡(luò)》)最早確立了這個(gè)研究方向。

      隨后的改進(jìn)主要集中在兩個(gè)方面:加門控(Gate)機(jī)制 或引入 Delta Rule(Delta 規(guī)則)。

      其中,Delta Rule 是基于 2021 年 LSTM 作者 Jürgen Schmidhuber(于爾根·施密德胡伯) 團(tuán)隊(duì)的論文 Linear Transformers Are Secretly Fast Weight Programmers(《線性 Transformer 本質(zhì)上是快速權(quán)重編程器》)。該研究以快速權(quán)重編程的視角重新解釋了線性注意力,并指出:

      - 線性注意力默認(rèn)使用的權(quán)重更新方式是赫布學(xué)習(xí)(Hebbian Learning)。

      - 為了實(shí)現(xiàn)更高效的上下文檢索(Retrieval)能力——即 “前面寫入一組 Key-Value,后面用 Key 就能取回對(duì)應(yīng)的 Value”——可以將更新規(guī)則替換為更強(qiáng)大的 Delta Rule。

      DeltaNet 正是在這一思路下誕生的,它利用 Delta Rule 來更快地寫入和更新權(quán)重(即記憶狀態(tài))。



      DeltaNet 起初不火,一是缺少關(guān)鍵架構(gòu)改進(jìn),二是實(shí)現(xiàn)不夠好。我去年在 NeurIPS 發(fā)的 Parallelizing Linear Transformers with the Delta Rule over Sequence Length(《利用 Delta 規(guī)則在序列長度上并行化線性 Transformer》)就是專門討論如何并行化這個(gè)遞歸更新。

      晚點(diǎn):那從 2021 年 DeltaNet 被提出,到你們做的這個(gè)并行化的優(yōu)化之間,還有哪些有關(guān) DeltaNet 或者說線性注意力的改進(jìn)思路?

      楊松琳:近幾年網(wǎng)絡(luò)模塊發(fā)展很快,如 TransNormerLLM 架構(gòu) 引入了新的歸一化方案,微軟亞研院 RetNet 用了輸出門模塊;后面 Mamba 把短卷積帶火。短卷積、輸出歸一化、門控成了標(biāo)配。

      但這些大多是在架構(gòu)層面改進(jìn),而非更新規(guī)則,包括線性注意力和許多 RNN 變體的更新規(guī)則基本仍在最初框架里,只是加了一點(diǎn)簡(jiǎn)單的衰減。

      晚點(diǎn):更新規(guī)則改進(jìn)和模型架構(gòu)改進(jìn)的區(qū)別是什么?

      楊松琳:架構(gòu)改進(jìn)動(dòng)的是外層結(jié)構(gòu),算子沒變,比如在輸出端加門控。線性注意力很早就在輸出上加門控,Qwen 的 Gated Attention 本質(zhì)也是輸出門控;底層算子還是 GQA,用 FlashAttention 訓(xùn)練。

      更新規(guī)則的改進(jìn)則是直接改算子本身,外層架構(gòu)仍照著近年驗(yàn)證有效的方案來用就行。比如線性注意力一般能寫成一階線性遞歸:輸入通常是外積,轉(zhuǎn)移矩陣默認(rèn)是單位矩陣,改更新規(guī)則就是改這個(gè)轉(zhuǎn)移矩陣。GLA、Mamba 把單位矩陣換成對(duì)角矩陣;DeltaNet 把它變成低秩單位矩陣;Kimi 把單位矩陣放寬為可學(xué)習(xí)的對(duì)角矩陣;RWKV-7 則用對(duì)角低秩矩陣作為轉(zhuǎn)移矩陣。

      晚點(diǎn):DeltaNet,包括你后面又做的 Gated DeltaNet 具體是怎么改進(jìn)更新規(guī)則的?

      楊松琳:我們沒發(fā)明全新東西,更多是用新算法把老技術(shù)重新做到了可用。就是前面提到的,我去年在 NeurIPS 的那篇工作,就是把它并行化,讓它真正能大規(guī)模訓(xùn)練。

      隨后我在英偉達(dá)實(shí)習(xí)做了 Gated DeltaNet,它在 DeltaNet 上加了一個(gè)衰減。可以把它看成 DeltaNet 與 Mamba 2 的結(jié)合:保留 RetNet、線性注意力等當(dāng)代架構(gòu)思路,同時(shí)繼承更強(qiáng)的 Delta Rule 更新,再加上衰減。衰減本質(zhì)類似遺忘門,對(duì) RNN 很重要,因?yàn)樗碾[藏狀態(tài)有限,必須忘掉一些,否則狀態(tài)會(huì)被撐爆。

      晚點(diǎn):之前一些做算法的研究員告訴我,他們不擅長改算子。我理解你也是算法出身的,但會(huì)自己來改算子,是因?yàn)槟阕詫W(xué)了 Infra?

      楊松琳:可以這么說。我碩士時(shí),做過 “上下文無關(guān)文法”,需要把大量 python 運(yùn)算并行到 GPU 上,就寫 CUDA 加速。后來做模型架構(gòu),寫算子更順手,于是做軟硬件結(jié)合的算法設(shè)計(jì),讓模型在 GPU 上跑更快。

      我對(duì)并行加速還挺有興趣的。剛讀博士時(shí),斯坦福有個(gè)研究組叫 Hazy Research,F(xiàn)lashAttention、Mamba 都出自那兒,他們倡導(dǎo)硬件友好型算法。我有學(xué)習(xí)他們的風(fēng)格,既寫算子也做算法。

      Qwen 和 Kimi 下一代旗艦?zāi)P涂赡苻D(zhuǎn)向線性注意力,Minimax M2 則用回全注意力

      晚點(diǎn):回到最近的一些進(jìn)展,阿里的 Qwen3-Next 以及 Kimi 的 Kimi Linear 和 DeltaNet 的具體關(guān)系是?

      楊松琳:Gated DeltaNet 今年被 Qwen 團(tuán)隊(duì)系統(tǒng)地測(cè)了一輪。他們對(duì)全局注意力、混合滑窗注意力、Mamba 2 和 Gated DeltaNet 做了真正的 apple-to-apple 的對(duì)比,結(jié)果 Gated DeltaNet 最好,于是用進(jìn)了 Qwen3-Next。

      Kimi Linear 用的 KDA 基本是 Gated DeltaNet 的細(xì)粒度版:DeltaNet 部分不變,但把衰減從粗到細(xì)。原先 high-dim(高維,指模型的特征表示向量) 128 個(gè) channel 共用一個(gè)遺忘率,現(xiàn)在每個(gè) channel 各有一個(gè),有的忘得快,有忘得的慢,用來存不同時(shí)間尺度的信息。細(xì)粒度衰減的思路本來也常見,比如我在 ICML 2024 的 Gated 線性注意力(Gated Linear Attention Transformers with Hardware-Efficient Training)就用了這種精細(xì)衰減。

      因此 KDA 可以看成 Gated 線性注意力 + DeltaNet,而 Gated DeltaNet 是 DeltaNet + Mamba 2;在衰減粒度上,它們關(guān)系就像 GLA 和 Mamba 2 的差別。

      晚點(diǎn):為什么 Qwen3-Next 和 Kimi Linear 現(xiàn)在都要把線性注意力和完全注意力(full Attention)混用,不能全用線性的?

      楊松琳:線性注意力給速度,完全注意力給容量。線性注意力的容量太小,短文本還可以應(yīng)付,到長文本就會(huì)表現(xiàn)很爛。線性注意力機(jī)制每層有大小固定的 RNN 隱藏狀態(tài),層數(shù)和維度一旦確定,整套模型的可存信息量也就固定了。

      傳統(tǒng) Softmax Attention 的 KV Cache 可以看成隱藏狀態(tài),會(huì)隨著 token 線性增加,長文本不會(huì)被容量卡住;但推理時(shí)要從全局讀取信息,KV Cache 過大時(shí)會(huì)非常慢。(注:KV Cache :在推理時(shí)緩存已生成 token 的 Key 和 Value,用來避免重復(fù)計(jì)算注意力,從而加速生成。)

      晚點(diǎn):現(xiàn)在用 DeltaNet 的模型都不大,Qwen3-Next 是 80B ,Kimi Linear 是 48B 。把線性注意力用到參數(shù)更大的模型上,有什么瓶頸嗎?

      楊松琳:工業(yè)界的常見做法,就是先用小模型驗(yàn)證架構(gòu)、降風(fēng)險(xiǎn),再訓(xùn)大模型;直接在超大規(guī)模上試,兩次失敗公司就破產(chǎn)了。

      千問和 Kimi 其實(shí)都在往大模型走。最近在 Reddit 上 ,Kimi 團(tuán)隊(duì)透露他們的下一代旗艦?zāi)P?,就?K3 大概率繼續(xù)沿混合 KDA 方向;Qwen3-Next 的最終版本 Qwen 3.5 應(yīng)該也會(huì)走混合架構(gòu)。

      晚點(diǎn):MiniMax 很早就把線性注意力用到了超大模型上,他們?cè)诮衲瓿醢l(fā)布的 4560 億參數(shù)的 MoE M1 上,就用了混合線性注意力與全注意力的 Lightning Attention,但 10 月底發(fā)布 MiniMax M2 又回到了完全注意力。從業(yè)者是怎么討論這個(gè)轉(zhuǎn)變的?

      楊松琳:大家都覺得這個(gè)現(xiàn)象挺好玩。這有點(diǎn)像,線性注意力是一個(gè) “坑”,MiniMax 趕著跳出去,Qwen 和 Kimi 又急著往里跳;不過 Minimax 也沒完全失去信心,還在驗(yàn)證混合架構(gòu)。

      Minimax 可能之前受 Lightning Attention 的傷太大了,一朝被蛇咬十年怕井繩。Lightning Attention 很弱,只是在最原始線性注意力上疊了粗粒度、輸入無關(guān)的衰減。他們當(dāng)時(shí)直接 Scale Up 到幾百 B ,可能是 Eval(驗(yàn)證)沒搭好。

      結(jié)果 MiniMax 發(fā)現(xiàn) Lightning Attention 在 MMLU(注:測(cè)試大模型在 57 個(gè)學(xué)科上綜合知識(shí)與理解能力的標(biāo)準(zhǔn)考試題測(cè)評(píng)) 等短程任務(wù)上跟完全注意力差不多,用個(gè)比較短的滑窗就夠了。但在多跳推理(注:Multi-hop Reasoning,需要模型跨越多個(gè)信息點(diǎn)、分步驟串聯(lián)線索才能得出答案的推理方式,典型例題如 “愛因斯坦出生時(shí)德國的國家元首是誰?”)上,完全注意力能直接建模點(diǎn)對(duì)點(diǎn)關(guān)系,疊幾層就能自然形成多跳推理;線性注意力或混合結(jié)構(gòu)會(huì)把信息壓得很模糊,準(zhǔn)確率掉得很厲害。

      現(xiàn)在 Agent 做任務(wù)都會(huì)想很多,多跳推理在 Agentic AI 里非常重要。MiniMax 覺得混合架構(gòu)暫時(shí)解決不了想主攻的 Agentic AI,退回完全注意力挺自然的。

      他們的反思里也有不少值得學(xué)的點(diǎn),比如基準(zhǔn)選擇:一些多跳推理 benchmark,如 BBH 其實(shí)很容易,可以找方法讓架構(gòu)表現(xiàn)很好,但不代表模型在真實(shí)場(chǎng)景里就真的會(huì)推理。

      晚點(diǎn):據(jù)你所知,DeepSeek 有來研究線性注意力機(jī)制改進(jìn)嗎?

      楊松琳:他們應(yīng)該更相信稀疏注意力,年初發(fā)的 MLA 和最近 DeepSeek V3.2 的 DeepSeek-Sparse-Attention 都是稀疏注意力的改進(jìn)。

      晚點(diǎn):對(duì)比稀疏注意力和線性注意力,未來的潛力有什么區(qū)別?

      楊松琳:?jiǎn)螌訚摿隙ㄊ窍∈枳⒁饬Ω鼜?qiáng),實(shí)際應(yīng)用中不好說。

      稀疏注意力通過減少激活的 KV Cache 讀取來加速,依然需要存全部 KV Cache,每次運(yùn)算時(shí)選一些出來。大家就會(huì)有滿滿的安全感,因?yàn)?token 不容易掉。理論上 KV Cache 夠大,效果就能逼近 Softmax Attention;Softmax Attention 的 Attention Map 相當(dāng)稀疏,所以稀疏注意力的效率會(huì)更高。但當(dāng)規(guī)模很大、序列很長、KV Cache 的大小本身成為瓶頸時(shí),稀疏注意力就愛莫能助了。

      線性注意力有理論缺陷,因?yàn)闋顟B(tài)空間固定,但這也能是加速推理的動(dòng)力?;旌暇€性注意力一般 75% 的層都被換成了 RNN,RNN 的 Cache Size 在長文本推理時(shí)可以忽略,KV Cache 大小就減了 3/4,可以支持更大的批量推理。批量越大,做推理效率越高,同時(shí)服務(wù)很多用戶。

      不僅是提效,在數(shù)據(jù)受限的后訓(xùn)練和強(qiáng)化學(xué)習(xí)中,線性注意力可能有性能優(yōu)勢(shì)

      晚點(diǎn):如果有無限算力,大家還有動(dòng)力做完全注意力外的方法改進(jìn)嗎?

      楊松琳:給我無限數(shù)據(jù)和算力,我當(dāng)然直接用完全注意力。但 bound 住(約束)我們的不僅是算力,還有數(shù)據(jù)。

      我們必須用有限數(shù)據(jù)下更高效的架構(gòu);這時(shí)候完全注意力反而是個(gè)劣勢(shì),因?yàn)樗瑯訑?shù)據(jù)下學(xué)的比較慢,沒有引入歸納偏見。歸納偏見就是人的先驗(yàn)。

      線性注意力更關(guān)注鄰近 token,在數(shù)據(jù)受限時(shí)可能表現(xiàn)更好;后訓(xùn)練、強(qiáng)化學(xué)習(xí)的數(shù)據(jù)更少,混合架構(gòu)的優(yōu)勢(shì)可能會(huì)慢慢顯現(xiàn)。

      晚點(diǎn):所以線性注意力除了省推理算力,在數(shù)據(jù)更少的后訓(xùn)練、強(qiáng)化學(xué)習(xí)里也可能更好?

      楊松琳:從電路復(fù)雜度看,完全注意力屬于 TC?,表達(dá)能力不夠,所以 Transformer 要解決復(fù)雜問題只能靠很長的思維鏈。

      這是 DeltaNet 另一個(gè)被忽視的優(yōu)勢(shì),它從計(jì)算理論上是 NC1-complete 架構(gòu),能超越 TC?,更擅長狀態(tài)追蹤,這對(duì) Agentic AI 至關(guān)重要。比如你寫代碼時(shí)變量名不斷變,模型得在內(nèi)部維護(hù)變量狀態(tài);再比如網(wǎng)頁操作,Agent 得知道你按什么順序做了什么、到了什么狀態(tài),才能決策。

      前段時(shí)間有篇很有意思的論文 Recurrence-Complete Frame-based Action Models,專門講為什么 Agentic AI 更該關(guān)注狀態(tài)追蹤和循環(huán)機(jī)制。

      (注:TC? 和 NC1 是不同的復(fù)雜性類,復(fù)雜性類是將有相似計(jì)算難度的一群?jiǎn)栴}歸納在一起的集合。簡(jiǎn)單來說,NC1 的電路允許 “對(duì)數(shù)深度”,而 TC? 的電路只有 “常數(shù)深度”,但 TC? 允許使用閾值門,在很少的并行層數(shù)里完成相對(duì)復(fù)雜的運(yùn)算;從已知結(jié)果看,TC? 是被包含在 NC1 里的一個(gè)子類。很多看起來 “復(fù)雜” 的認(rèn)知任務(wù),難點(diǎn)往往在于需要較長的計(jì)算深度來逐步更新和傳遞信息,例如在讀代碼時(shí)持續(xù)追蹤程序狀態(tài)和變量取值,這類能力更依賴足夠多輪的迭代計(jì)算,而不僅僅是單步中的并行算力。)

      晚點(diǎn):你說線性注意力帶歸納偏見可能提升效果;而之前 AI 界著名文章 “The Bitter Lesson” 它認(rèn)為加人為結(jié)構(gòu)和先驗(yàn)通常不如尋找可以用更多算力、數(shù)據(jù),做更大規(guī)模訓(xùn)練的方法。

      楊松琳:100 個(gè)人有 100 種對(duì) Scaling 和 The Bitter Lesson 的解讀。大語言模型本身就是把人類先驗(yàn)注入進(jìn)去的例子。我更支持先把方法做到效果和效率上能 scalable,歸納偏見不用管,好不好驗(yàn)一下就知道了,不用多做討論。

      晚點(diǎn):你這里說的 scalable 的關(guān)鍵是什么?

      楊松琳:一是大規(guī)模訓(xùn)練下效率要有保證、算法要硬件友好;二是模型放大后依然有效,很多改動(dòng)在小模型好用,規(guī)模擴(kuò)大就失效。

      研究發(fā)現(xiàn)是連點(diǎn)成線:本科時(shí)形成對(duì)矩陣代數(shù)的興趣,算法優(yōu)化看多了熟能生巧

      晚點(diǎn):你自己開始關(guān)注到線性注意力改進(jìn)和 DeltaNet 方向的過程是怎樣的?

      楊松琳:我一直喜歡做模型和算法,碩士時(shí)就喜歡看各種魔改注意力的方法,但真正開始研究是 2023 讀博之后。當(dāng)時(shí)在想怎么選方向,既感興趣又專業(yè)相關(guān)。完全注意力的長文本問題似乎一直解決不掉,還有有意思的算法可玩,我就跑來玩這個(gè)領(lǐng)域了。

      晚點(diǎn):你最初有哪些一起研究的伙伴?你之前有提到過斯坦福的 Hazy Research,還有嗎?

      楊松琳:他們?cè)谛录軜?gòu)上做得很多,我和他們挺熟,比如 Simran Arora、Albert Gu、Tri Dao。國內(nèi)我覺得微軟亞研董力團(tuán)隊(duì)也很強(qiáng),我跟 RetNet 一作孫宇濤討論挺多。還有之前鐘怡然(MiniMax 前算法總監(jiān),曾在上海 AI lab 擔(dān)任 PI)那邊的秦臻,從知乎私信聯(lián)系到我,聊著聊著就合作了一兩篇論文,就是比較早的線性 RNN 工作 HGRN。

      晚點(diǎn):現(xiàn)在的導(dǎo)師會(huì)給你什么幫助?

      楊松琳:他可以幫我搞來卡。(笑)老板在最開始會(huì)有些大方向的感覺,然后提供算力和寫論文的支持,別的方向也不一定能幫得上學(xué)生,因?yàn)榇蠹易x博的目標(biāo)就是在這個(gè)領(lǐng)域比自己老板還懂。

      但我覺得老板還是很有眼光的。他建議我關(guān)注軟硬件結(jié)合的算法設(shè)計(jì),以及數(shù)值代數(shù)的一些思路。比如 DeltaNet 用到數(shù)值代數(shù)里經(jīng)典的 Householder 矩陣做累乘,這和線性注意力的 Chunkwise 算法能很好結(jié)合,最后就成了 Parallelizing Linear Transformers with the Delta Rule over Sequence Length 的核心想法。

      晚點(diǎn):你做算法又寫 CUDA kenel,這些跨領(lǐng)域能力怎么積累的?

      楊松琳:還是興趣驅(qū)動(dòng),我喜歡矩陣運(yùn)算和 kernel 優(yōu)化。數(shù)值計(jì)算偏應(yīng)用數(shù)學(xué),里面有很多矩陣加速算法,深度學(xué)習(xí)也離不開矩陣。我對(duì)這些本身就感興趣,看得比較多,熟能生巧吧。

      晚點(diǎn):你本科是在南方科技大學(xué),這本身是一所挺新的研究性大學(xué),當(dāng)時(shí)的學(xué)習(xí)經(jīng)歷對(duì)積累交叉知識(shí)和視野有什么幫助?

      楊松琳:這還真有一些關(guān)系。我本科最喜歡的課就是線性代數(shù),用的是吉爾伯特·斯特朗(Gilbert Strang)的經(jīng)典教材。他從空間角度講,特別直觀,讓我對(duì)線性代數(shù)興趣很強(qiáng)。如果是國內(nèi)常見那種上來先講行列式、公式推導(dǎo),我可能就沒什么興趣了。

      晚點(diǎn):你改進(jìn) DeltaNet 讓它能并行的過程中,具體是怎么突破,獲得思路的?

      楊松琳:并行線性遞歸要先展開,會(huì)出現(xiàn)轉(zhuǎn)移矩陣,繼續(xù)展開就會(huì)出現(xiàn)一個(gè)累乘,難點(diǎn)就是高效算這個(gè)累乘。DeltaNet 的轉(zhuǎn)移矩陣像 Householder,我一開始不知道怎么算,后來發(fā)現(xiàn)可以用 WY 算法把累乘變成累加,形式和線性注意力很像,我就意識(shí)到它可能能和 Chunkwise 算法兼容。之后推了一陣,推通了還挺開心,又找到一個(gè)好玩的算法,也能把這個(gè)方向繼續(xù) scale 上去。

      晚點(diǎn):怎么想到 Householder 矩陣,怎么意識(shí)到這個(gè)關(guān)聯(lián)的?

      楊松琳:就是一直想吧,我從 2023 年 9 月開始想怎么并行 DeltaNet,到 2024 年 3 月才想出算法;然后碩士我在上科大上過一門 “矩陣方法”,講 Householder 和 QR 分解;QR 是很經(jīng)典的算法,Householder 累乘最早就是用來做 QR 的,最近我發(fā)現(xiàn)它還能加速 DeltaNet。在英偉達(dá)做 Gated 線性注意力那個(gè)項(xiàng)目時(shí),我對(duì)線性注意力的分塊算法理解更深,這些積累后來都啟發(fā)了新想法,整體還是循序漸進(jìn)。

      晚點(diǎn):基礎(chǔ)科學(xué)里,常發(fā)生把很多看似無關(guān)的東西放在一起產(chǎn)生新成果,比如物理學(xué)有時(shí)會(huì)從幾百年前的數(shù)學(xué)里獲得啟發(fā)。你覺得 AI 能什么時(shí)候能獨(dú)立產(chǎn)生這種聯(lián)想?

      楊松琳:我覺得大模型應(yīng)該能獨(dú)立發(fā)明這個(gè)(讓 DeltaNet 并行化的)算法,只要提示詞合適,它可能就能把后面所有推導(dǎo)都做出來。檢驗(yàn)推導(dǎo)正確性可以用 RL 做,只要 reward 能驗(yàn)證,RL 就能解決,用在科學(xué)發(fā)現(xiàn)上也挺有用的。

      FLA 小組:像運(yùn)營產(chǎn)品一樣 “運(yùn)營” 技術(shù);Kimi 從 FLA 找到線性注意力研究員

      晚點(diǎn):你去年 1 月開始維護(hù) FLA 這個(gè)線性注意力的開源社區(qū),契機(jī)是什么?做開源的過程中有什么故事或收獲?我看到貢獻(xiàn)者里有 Kimi 的研究員,也有歐洲做 AI for science 的開發(fā)者。

      楊松琳:當(dāng)時(shí)在知乎看到一篇文章,說 Flash Attention 的成功本質(zhì)是產(chǎn)品成功。Tiling、online softmax 早就有了,xFormers 里也有初版思路,但 Tri Dao( FlashAttention 的作者)把它當(dāng)產(chǎn)品做,重視接口、重視運(yùn)營、積極和社區(qū)互動(dòng)、按用戶需求迭代,關(guān)鍵是好用,即插即用、裝個(gè)包就能跑。

      我被這套產(chǎn)品思路打動(dòng)了,就想,線性注意力為什么不做一個(gè)?線性注意力有不少算法成果,但缺好實(shí)現(xiàn),那我就做個(gè)開源庫,把 Triton 算子和各種 layer 寫好,讓用戶一個(gè)庫就能跑各種帶 kernel 的模型,大家覺得好用就會(huì)留下來,還會(huì)給反饋幫我們迭代。比如后來很多人要變長訓(xùn)練模塊,我們發(fā)現(xiàn)需求巨大,我就和張宇商量,直接把可變長度功能全部寫進(jìn) FLA。

      晚點(diǎn):張宇是你做了 FLA 之后,他關(guān)注到這塊,加進(jìn)來成為核心貢獻(xiàn)者的嗎?

      楊松琳:張宇是 FLA 的核心貢獻(xiàn)者,也是 Gated 線性注意力的作者。我和他 2020 年就認(rèn)識(shí)了,那時(shí)我們都在做 parsing,要寫很多并行算法。他當(dāng)時(shí)維護(hù)一個(gè)叫 supar 的庫(su 是蘇州大學(xué),par 是 parsing),實(shí)現(xiàn)非常 clean、并行效率很好,基本所有做 parsing 的人都會(huì)用,特別酷,所以做 FLA 時(shí)我第一時(shí)間就想把他拉進(jìn)來。

      他做庫水平很高,也很適合寫并行算法和 kernel。你翻 FLA 的 GitHub,貢獻(xiàn)行數(shù)和總貢獻(xiàn)數(shù)他都是最多的,代碼特別強(qiáng)。后來 Kimi 想做混合線性注意力,就想找 FLA 的作者;我人在美國,他們不可能把我弄過去,就把張宇弄去 Kimi 做研究。(注:parsing:編譯,自然語言處理中的一個(gè)模塊,用來分析句子的結(jié)構(gòu),例如解析句子 “I love you” 時(shí),parsing 會(huì)把它拆成主語、動(dòng)詞和賓語。)

      晚點(diǎn):所以是 Kimi 想做線性注意力,從 FLA 社區(qū)里注意到了張宇,然后再邀請(qǐng)他加入的?

      楊松琳:對(duì)。

      晚點(diǎn):Kimi 關(guān)注到這個(gè)方向,這是誰的判斷了?

      楊松琳:應(yīng)該是 Tim 吧,周昕宇(Kimi 的聯(lián)創(chuàng))。

      晚點(diǎn):我看張宇的頭像是個(gè)二次元少女拿著實(shí)驗(yàn)筆記本。

      楊松琳:(笑)經(jīng)典 stereotype(刻板印象),二次元頭像的人 coding 強(qiáng)。

      希望下一步把稀疏注意力和線性注意力真正做通,徹底解決長文本問題

      晚點(diǎn):我們可以分別講講,注意力機(jī)制接下來的演進(jìn),首先是稀疏注意力,你看到的趨勢(shì)是什么?

      楊松琳:核心是動(dòng)態(tài)稀疏,靜態(tài)稀疏之前被證明效果不太好,難點(diǎn)卡在如何在硬件上高效實(shí)現(xiàn)。動(dòng)態(tài)稀疏現(xiàn)在有兩條路:block 級(jí)和 token 級(jí)。block 級(jí)快但漏信息風(fēng)險(xiǎn)大,所以怎么選準(zhǔn) block 很關(guān)鍵;token 級(jí)更靈活但實(shí)現(xiàn)更難。

      比如 NSA 是 block 級(jí),每次只選一個(gè) block,方便連續(xù)讀入、順序計(jì)算。DSA(DeepSeek Sparse Attention)把 block 的結(jié)構(gòu)化約束扔掉,回到不結(jié)構(gòu)化的 token 級(jí)動(dòng)態(tài)稀疏。比如要選 512 個(gè) token 刻畫一個(gè) token,選 512 個(gè)最相關(guān)的 token,而不是選 512/32 個(gè) block,顆粒度更細(xì)也更準(zhǔn),但實(shí)現(xiàn)難度大的多。

      Deepseek 訓(xùn)練不是從預(yù)訓(xùn)練開始稀疏化,而是訓(xùn)練到中途才用:先蒸餾,把 DeepSeek 3.1 轉(zhuǎn)成 MQA,再把注意力分布蒸餾到 indexer,作為初始化。

      DSA 的 trick 在于,用一個(gè)非常輕量的平方復(fù)雜度 Attention 做 “indexer” 來生成全局注意力矩陣,因?yàn)檫@個(gè)算子能在 FP8 下跑、不需要 online softmax,只是矩陣乘法,所以算得很快。indexer 得到 L×L 的注意力矩陣后,直接做 Top-K,每個(gè) token 找出最相關(guān)的前 K 個(gè) token。

      稀疏還有梯度傳遞的問題,block 選不準(zhǔn)可能也是梯度質(zhì)量差導(dǎo)致。

      最后,稀疏注意力也可以考慮減少 KV cache?,F(xiàn)在大多數(shù)稀疏注意力保留全部 KV cache ,幾乎和完全注意力一樣,還是會(huì)卡在 KV cache 的規(guī)模瓶頸。

      晚點(diǎn):線性注意力呢?

      楊松琳:線性注意力的架構(gòu)方向驗(yàn)證得差不多了,更值得探索的是更新規(guī)則。可以想想 DeltaNet 外還有哪些更新方式既能更好地并行實(shí)現(xiàn),又更具表達(dá)力。

      另外,沿著 DeltaNet 還能繼續(xù)做很多,比如加衰減、norm 衰減;DeltaNet 在 test-time training 視角就是近似梯度下降,有些工作像 DeltaProduct 每步會(huì)做多次梯度下降,而不是一次;還有動(dòng)態(tài)擴(kuò)容思路,如記憶混合,把 RNN 的狀態(tài)當(dāng)成 MLP 的權(quán)重矩陣,既然可以在權(quán)重矩陣上做 MoE ,那么也能在 RNN 的記憶狀態(tài)做 MoE;最近也研究有把滑窗和線性注意力結(jié)合,鄰近 token 保留滑窗,遠(yuǎn)距離用線性注意力壓縮。

      晚點(diǎn):你覺得當(dāng)前的注意力機(jī)制離理想狀態(tài)還差什么?

      楊松琳:先不說理想,我更希望下一步看到有人把稀疏注意力和線性注意力真正做通。現(xiàn)在的混合注意力依然在全局保留完全注意力層,長文本解碼時(shí)還是會(huì)被它拖慢。如果能把所有完全注意力都換成稀疏注意力,比如 DSA 混 KDA 之類的組合,至少能把長文本問題階段性解決,KV cache 規(guī)模降下來,就能做更多長文本應(yīng)用,也能做更多 agentic 任務(wù)。(01:18:43)

      晚點(diǎn):現(xiàn)在大家都是混線性注意力和完全注意力的,而不是混線性注意力和稀疏注意力,原因是什么?

      楊松琳:我覺得架構(gòu)研究還是要扎實(shí),一次動(dòng)一點(diǎn)、驗(yàn)證透,再動(dòng)下一步,不可能一步邁太大。先保留一些完全注意力,用來驗(yàn)線性注意力;混合架構(gòu)在旗艦?zāi)P蜕向?yàn)證穩(wěn)定后,再去驗(yàn)證稀疏注意力也不遲。(01:19:59)

      晚點(diǎn):更廣泛地說,你現(xiàn)在會(huì)關(guān)注大模型在預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)之后的下一步嗎?大家在討論預(yù)訓(xùn)練 + RL 可能到了瓶頸,也許需要新范式,比如在線學(xué)習(xí)、持續(xù)學(xué)習(xí)、自主學(xué)習(xí)。

      楊松琳:持續(xù)學(xué)習(xí)大家都很關(guān)心。這里有很多 open question,怎么做沒有定論,效果也不顯著,但它一定很重要。如果 AI 能持續(xù)吸收外界信息,就不需要隔段時(shí)間重訓(xùn)一次;有也有強(qiáng)的商業(yè)價(jià)值,比如做個(gè)性化,用戶持續(xù)交互,模型積累了這些記憶就能更好地把握用戶喜好。

      晚點(diǎn):現(xiàn)在模型的記憶能力并不是內(nèi)化在模型里,而是靠工程或外掛方式實(shí)現(xiàn)的,是嗎?

      楊松琳:對(duì)。預(yù)訓(xùn)練是把信息壓進(jìn) FFN 的權(quán)重里;另一類是上下文工程,通過注意力做上下文學(xué)習(xí)?,F(xiàn)在主要就是這兩種,再有就是一些記憶外掛。(注:FFN 是前饋神經(jīng)網(wǎng)絡(luò),Transformer 中的前饋全連接層。在注意力之后,模型會(huì)把每個(gè) token 的向量分別送入兩層 MLP 作為存儲(chǔ)的記憶,這部分就是 FFN。)

      晚點(diǎn):如果模型能持續(xù)學(xué)習(xí),它會(huì)越來越懂你,那上下文工程的空間不就變小了?

      楊松琳:這依然是個(gè) open question:哪些信息該存進(jìn)權(quán)重矩陣,哪些該放在上下文里,沒有定論。

      其實(shí)兩者是對(duì)偶的:梯度下降可視為一種上下文學(xué)習(xí),而上下文學(xué)習(xí)也能視為梯度下降。現(xiàn)在流行的測(cè)試時(shí)訓(xùn)練(Test-Time Training)把每個(gè) token 當(dāng)訓(xùn)練樣本,輸入后做一次梯度下降快速權(quán)重更新;在 RNN 里快速權(quán)重可以視為隱狀態(tài)。既然有這種對(duì)偶,F(xiàn)FN 如何在訓(xùn)練中牢牢記住成千上萬的 token,也能啟發(fā)長文本問題:把信息寫進(jìn)權(quán)重,再用動(dòng)態(tài)的測(cè)試時(shí)訓(xùn)練,也許能走出更好的持續(xù)學(xué)習(xí)路徑。

      我對(duì)這個(gè)路徑很看好的?,F(xiàn)在的權(quán)重推理時(shí)不更新,無法吸收新信息;測(cè)試時(shí)訓(xùn)練或快速權(quán)重編程(Fast Weight Programming)允許處理新 token 后實(shí)時(shí)更新權(quán)重。如果能把這套機(jī)制打通,長文本問題能靠更緊湊的權(quán)重存更多信息,持續(xù)學(xué)習(xí)也能順帶解決。(注:測(cè)試時(shí)訓(xùn)練:在推理階段對(duì)模型參數(shù)進(jìn)行快速更新,讓模型利用當(dāng)前輸入的信息提升輸出表現(xiàn)。例如模型在處理一篇醫(yī)學(xué)文章時(shí),可以先用文章里的一小段內(nèi)容做一次快速梯度更新,讓模型立即更擅長理解該領(lǐng)域的術(shù)語,再繼續(xù)生成答案。)

      題圖來源:月升王國

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      記者:若哈登可交易,二月截止日前多支球隊(duì)將會(huì)考慮引進(jìn)

      記者:若哈登可交易,二月截止日前多支球隊(duì)將會(huì)考慮引進(jìn)

      懂球帝
      2025-12-08 12:23:31
      歐爾班宣布,匈牙利準(zhǔn)備以戰(zhàn)后模式與俄羅斯開展經(jīng)濟(jì)合作

      歐爾班宣布,匈牙利準(zhǔn)備以戰(zhàn)后模式與俄羅斯開展經(jīng)濟(jì)合作

      山河路口
      2025-12-07 23:37:47
      與俱樂部隊(duì)友格格不入,朱婷被國外網(wǎng)友集體吐槽

      與俱樂部隊(duì)友格格不入,朱婷被國外網(wǎng)友集體吐槽

      體育快遞小哥哥
      2025-12-07 19:39:51
      中美合拍動(dòng)畫片《我的哪吒與變形金剛》開播,一開場(chǎng)就看見威震天在打大黃蜂,哪吒忽然現(xiàn)身用混天綾把威震天甩飛

      中美合拍動(dòng)畫片《我的哪吒與變形金剛》開播,一開場(chǎng)就看見威震天在打大黃蜂,哪吒忽然現(xiàn)身用混天綾把威震天甩飛

      極目新聞
      2025-12-07 21:38:32
      湖州一豪華度假村圣誕點(diǎn)燈儀式起火,有人受傷送醫(yī),酒店:已派專人跟進(jìn)處理

      湖州一豪華度假村圣誕點(diǎn)燈儀式起火,有人受傷送醫(yī),酒店:已派專人跟進(jìn)處理

      極目新聞
      2025-12-08 13:06:02
      結(jié)束了!澤連斯基發(fā)表全國講話,烏克蘭人狂歡:終于不用提心吊膽

      結(jié)束了!澤連斯基發(fā)表全國講話,烏克蘭人狂歡:終于不用提心吊膽

      愛下廚的阿釃
      2025-12-08 09:54:44
      9500萬人口的東北,去年生了38萬,死亡91萬!情況比想象中更嚴(yán)重

      9500萬人口的東北,去年生了38萬,死亡91萬!情況比想象中更嚴(yán)重

      狐貍先森講升學(xué)規(guī)劃
      2025-08-01 18:30:03
      山東跑友張素梅車禍去世,月跑量300多公里,開奔馳,顏值身材好

      山東跑友張素梅車禍去世,月跑量300多公里,開奔馳,顏值身材好

      180視角
      2025-12-08 12:09:15
      法媒:從歐洲列強(qiáng)到過氣戲子,中國變了,中國人眼里的法國也變了

      法媒:從歐洲列強(qiáng)到過氣戲子,中國變了,中國人眼里的法國也變了

      小青年淥淥
      2025-12-07 19:23:54
      日本福岡滅門案:3留學(xué)生侵犯美貌主婦后,血洗日本富商一家四口

      日本福岡滅門案:3留學(xué)生侵犯美貌主婦后,血洗日本富商一家四口

      復(fù)轉(zhuǎn)這些年
      2025-12-07 21:38:19
      上海人打死都不會(huì)動(dòng)搖的擇偶條件是什么

      上海人打死都不會(huì)動(dòng)搖的擇偶條件是什么

      春之寞陌
      2025-12-08 10:29:24
      張本老爸氣到離場(chǎng):這屆娃帶不動(dòng)??!

      張本老爸氣到離場(chǎng):這屆娃帶不動(dòng)??!

      喜歡歷史的阿繁
      2025-12-08 09:53:34
      吳千語抄襲風(fēng)波升級(jí),直播銷售額破億惹質(zhì)疑,一件毛衣2000割韭菜

      吳千語抄襲風(fēng)波升級(jí),直播銷售額破億惹質(zhì)疑,一件毛衣2000割韭菜

      古希臘掌管月桂的神
      2025-12-08 11:41:03
      任前公示中縣委副書記“年齡打架”,廣西一地回應(yīng):擬任職務(wù)不予任用

      任前公示中縣委副書記“年齡打架”,廣西一地回應(yīng):擬任職務(wù)不予任用

      極目新聞
      2025-12-08 14:08:40
      日本右翼一語驚人:若中國核彈造成日本幾百萬人死亡,那剩下~~~

      日本右翼一語驚人:若中國核彈造成日本幾百萬人死亡,那剩下~~~

      魔都姐姐雜談
      2025-12-07 06:29:53
      日本媒體發(fā)布兵棋推演:只需要死傷4662名士兵,即可取得慘勝

      日本媒體發(fā)布兵棋推演:只需要死傷4662名士兵,即可取得慘勝

      賤議你讀史
      2025-12-08 02:25:03
      上調(diào)存款利率!部分銀行出手

      上調(diào)存款利率!部分銀行出手

      中國財(cái)富網(wǎng)
      2025-12-08 09:34:10
      女子為移民美國,哄5歲兒子進(jìn)柜子躲貓貓后上鎖,十年后聽到聲音

      女子為移民美國,哄5歲兒子進(jìn)柜子躲貓貓后上鎖,十年后聽到聲音

      農(nóng)村情感故事
      2025-12-03 06:50:30
      女兒失蹤3年,竟托夢(mèng)說在鄰居家魚缸里,警察趕到后當(dāng)場(chǎng)愣了

      女兒失蹤3年,竟托夢(mèng)說在鄰居家魚缸里,警察趕到后當(dāng)場(chǎng)愣了

      罪案洞察者
      2025-09-16 14:31:27
      香港大埔宏福苑有13戶聯(lián)系不到人?不排除旅游或者全戶罹難

      香港大埔宏福苑有13戶聯(lián)系不到人?不排除旅游或者全戶罹難

      九方魚論
      2025-12-07 23:33:18
      2025-12-08 15:07:00
      晚點(diǎn)LatePost
      晚點(diǎn)LatePost
      晚一點(diǎn),好一點(diǎn)。商業(yè)的真相總是在晚點(diǎn)?!锻睃c(diǎn)LatePost》官方賬號(hào)
      2960文章數(shù) 21858關(guān)注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      頭條要聞

      媒體:美國重返西半球 若從亞太撤離或挑撥中日干一架

      體育要聞

      厲害的后衛(wèi)何其多 想想還少了哪一個(gè)

      娛樂要聞

      郭麒麟也救不了的德云社了?

      財(cái)經(jīng)要聞

      養(yǎng)牛場(chǎng)未見一頭牛 每天開采礦石倒賣

      汽車要聞

      挑戰(zhàn)深圳地獄級(jí)路況 魏牌藍(lán)山VLA上車會(huì)思考聽得懂人話

      態(tài)度原創(chuàng)

      手機(jī)
      本地
      旅游
      房產(chǎn)
      公開課

      手機(jī)要聞

      降價(jià)了!降價(jià)了!iPhone17Pro系列正宗官網(wǎng)直降 300 元!

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      旅游要聞

      普陀·遇見新視角|普陀這兩個(gè)公園開啟色彩盛宴,每一幀都是壁紙級(jí)大片

      房產(chǎn)要聞

      碧桂園,開始甩賣??诩业?!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久人妻精品国产| 国产av成人一区二区三区| 午夜性福利| 她也色tayese在线视频| 无码丰满熟妇| 99riav精品免费视频观看| 国产精品天天搞天天搞| 大同市| 亚洲成人资源| 亚洲熟女综合色一区二区三区| 中文字幕av在线一二三区| 亚洲女同精品久久女同| www.91国产| 欧美?日韩?人妻| 免费观看成人欧美www色| 无码伊人久久大杳蕉中文无码| 一区色| 成人乱人伦精品小说| 欧洲美熟女乱又伦av影片| 国产91小视频在线观看| 亚洲AV无码国产精品麻豆天美 | 婷婷综合色| 国产成人无码一二三区视频| 成人免费无码大片a毛片软件| 国产精品免费中文字幕| 啊片在线观看| 好吊视频一区二区三区| 伊人激情av一区二区三区| 久久老司机| 人人肏屄| 漂亮人妻被中出中文字幕| 最大胆裸体人体牲交| 奇米成人| 滦南县| 亚洲2017天堂色无码| 久久成人国产精品免费软件| 毛片不能到63com| 99国产欧美久久久精品蜜芽| 久久综合色鬼综合色| 日韩av一区二区三区| 国产suv精品一区二区6|